“几乎没有一家大模型公司的AI视频生成训练,会找视频网站授权。”2025年伊始,在视频生成领域立志“追平Sora”的大模型公司,撞上了版权墙。
AI创业者陈临告诉字母榜(ID:wujicaijing),这其中也包括被称为“AI六小虎”的6家中国大模型独角兽。而缺乏授权的模型训练,势必将成为大模型公司们的潜在风险。
如今,在热度不减的AI视频生成赛道,“视频平台诉大模型侵权”*案已经出现。
日前,有报道称爱奇艺起诉MiniMax旗下海螺AI侵犯著作权,据悉事由或为MiniMax未经授权使用了爱奇艺享有版权的素材进行模型训练,目前正在走司法程序。对此,爱奇艺回复字母榜,确认案件正在审理中。MiniMax则尚无正式回应。
就在去年9月MiniMax刚刚推出视频大模型时,其创始人闫俊杰对字母榜表示,MiniMax用于训练的数据,除了语料公司的高质量数据,还有部分采购来的平台化数据。
大公司也屡屡因版权陷入纠纷。去年8月,OpenAI被超过100位YouTube主播集体诉讼,指控其擅自转录数百万个YouTube 视频来训练大模型。英伟达、苹果、Anthropic等巨头也涉及其中。OpenAI的前任CEO Mira,曾在采访中被记者提问是否拿YouTube的视频训练Sora,Mira选择了拒绝回答。
虽然OpenAI已经和Politico、《大西洋月刊》《时代》《金融时报》等签订了付费协议用于训练,但这类授权都属于文字领域,陈临告诉字母榜,在Sora视频的训练协议中,“OpenAI还没有签过相应的协议。”
数据、算法和算力是AI大模型的三大支柱,其中数据更是大模型进行训练的根本。可以说,生成式AI的繁荣是建立在数据规模之上的。训练数据越多,模型就越强大。数据赋予模型用于学习和思考的海量知识,数据也成了模型厂商技术壁垒的一部分。
不像BAT们,在图文时代、移动互联网时代早已积攒起巨量的私域数据库,并且这些数据早已被不同平台瓜分。晚来的大模型六小龙,被重重壁垒所环绕。
一旦爱奇艺的诉讼成功,或许预告着一场更大规模的大模型版权纠纷时代的来临。
“爱奇艺成功了,优酷、腾讯视频也可能会起诉,”陈临表示,这无疑是兜头浇了狂奔中的大模型公司们一盆冷水。对于独立进行大模型训练的公司来说,“视频要版权费,图片也要版权费,文字可能也要版权费,致使AI的训练成本会比现在高出许多。”
如今,孰是孰非暂无定论,只是可以肯定的是,大模型的狂飙路上,正在竖起一面新的版权墙。
01
国内AI视频生成*个侵权案,已经出现了。
近日,据外媒报道,MiniMax被指控未经授权使用爱奇艺享有版权的素材进行模型训练,爱奇艺已向上海市徐汇区人民法院提起诉讼,要求MiniMax立即停止侵权行为,并索赔约10万元人民币。
去年8月底,MiniMax推出视频大模型,用户登录海螺AI就能体验MiniMax的视频生成模型。根据AI产品榜数据,去年9月,海螺AI搜索热度暴涨,海螺AI网页版9月访问量增幅达860%,一举登顶2024年9月全球及国内AI应用增速榜首。
不过,加入“追平Sora”大军的MiniMax,也如同OpenAI被《纽约时报》起诉一样,撞上了版权墙。
根据我国法律规定,生成式人工智能服务提供者必须采用“合法来源”的数据和基础模型,以确保不侵犯他人的知识产权。
《互联网法律评论》主编张颖告诉字母榜,在这场民事诉讼中,爱奇艺起诉,需要证明MiniMax存在未经其允许的情况下使用爱奇艺数据训练,并且在生成内容中包含了其版权内容。此外,爱奇艺还需要证明被告在主观上有过错,即故意或者未尽到注意义务。
也就是说,海螺AI的“侵权”存在两种可能。
一种可能是MiniMax海螺AI视频生成的训练中,未经授权使用了爱奇艺享有版权的素材内容。
另一种可能,则是用户使用海螺AI时,未经爱奇艺授权,上传了版权素材做AI“魔改”。
图注:AI魔改视频,下方都备注内容疑似用AI技术合成
图源:字母榜截图
《甄嬛传》变枪战片、《红楼梦》变武打剧,用AI视频工具就能让尔康喝啤酒、甄嬛啃汉堡、林黛玉抄起加特林。陈临表示,以上这些AI“魔改”经典影视剧的小视频,都在社交平台得到数百万的播放量。
这些“没有逻辑,只有搞笑”的AI“魔改”视频,大多没有授权,“部分是大模型公司推广产品时,委托第三方投流公司的作品,更多的则是用户的无厘头脑洞。”去年12月,广电网络视听司也发布了《管理提示》,提出要排查清理AI“魔改”影视剧的短视频。这意味着生成式AI将面临更细致的内容审核。
而作为被起诉方,如果MiniMax想证明自己没有侵权,大概需要证明自身数据来源、生成内容与爱奇艺无关,或者没有故意侵权。
在海螺AI的用户协议中,也要求用户保证不利用平台制作的内容或用于相关用途,包括“未经授权自行剪切、改编电影、电视剧、网络影视剧等各类视听节目及片段”。
不过,值得注意的是,“10万元赔偿金对爱奇艺来说太少了。”张颖表示,尽管缺乏爱奇艺的起诉书作为依据,但从金额来看,推测MiniMax的侵权情况可能并不严重,双方和解的可能性很大。走向和解,对于MiniMax来说,不管是照价赔偿10万元,还是交上一笔不菲的版权费,都似乎免不了为版权墙“破财”了。
02
实际上,“国内AI从业者对于训练数据没有很高的版权意识,通常认为版权会阻碍AI训练。”
离开某大厂开始AI应用创业后,陈临发现,国内主动要求版权授权的AI训练公司似乎并不多。原因不仅在于本身便高昂的AI训练成本,也是由于一旦视频、图片,甚至文字都需要版权,对于AI创企来说,“模型就没法训练了。”
不少AI创企做视频生成训练的*步,正是“从网上扒视频训练”。
为了规避版权风险,企业会通过关键词过滤,尽量避免用户输入比如米老鼠这种版权字眼,来减少生成侵权内容。
图注:以即梦AI为例,AI视频生成自动过滤关键词
图源:陈临提供
新壹科技CEO雷涛告诉字母榜,作为To B的AIGC视频生成公司,新壹科技用来训练AI视频大模型的数据,来自此前在秒拍、小咖秀等应用的数据积累,还有定向合作数据库,以及依托原算法训练的“从无到有”的素材。但只有AI视频生成的足够真实,才能起到训练效果。
而对于既没有攒够数据,又付不起定向合作版权费的AI创企而言,想要坐上牌桌,撞上版权墙,或早或晚,都是必然的结果。
不过,这种争议并不是新鲜事。
在图文时代,图片版权的纠纷一度让创作者们“不敢配图”。有自媒体大V被告知,历史文章中有数十张来自搜索引擎的图片涉嫌侵权,在删除全部原创文章后,还支付了不菲的侵权费用于和解。有摄影师使用了自己拍摄的173张照片进行配图,却被视觉中国提起诉讼,指其侵权。
如今,轮到AI站上了被告席。
在国内,去年6月,4名画师起诉小红书AI大模型“Trik AI”侵权,这是国内*起AI模型训练数据集体侵权的案件,如今诉讼正在进行。
在国外,Meta、OpenAI都曾陷入版权纠纷。
去年4月底,《纽约每日新闻》《芝加哥论坛报》等美国八家知名报纸联合起诉OpenAI和微软,指控它们未经允许使用数百万篇版权新闻文章训练其AI聊天机器人。为此,OpenAI 与 Politico、《大西洋月刊》《时代》《金融时报》等新闻出版商达成付费协议,来使用并引用版权新闻文章。
早在2023年5月,OpenAI首席执行官奥特曼便公开承认,AI公司在不久的将来会耗尽互联网上所有的数据。2024年6月,研究机构Epoch AI也发布研究预测,可用于AI语言模型公开训练的数据,将在2026年到2032年间,被科技公司耗尽。
对于大模型创企来说,高质量的数据永远稀缺,大模型公司间的算力战、应用战,也将拓展到数据战。
只是OpenAI的诉讼或许传达出了明确的信号,高质量的训练数据不是免费的。对于大模型创企而言,不像Meta、BAT等公司,早已积累起近20年的社交媒体数据,它们或许只能“花钱开路”。
03
不过,想要解决版权这个绊脚石,大模型公司们需要回答一个问题,钱从哪里来?
对于尚未盈利的大模型创企而言,投资人的钱袋子越来越紧了。
根据字母榜统计,大模型六小虎(包括零一万物、MiniMax、百川智能、智谱AI、阶跃星辰、月之暗面)中,2024年有五家拿到亿元级融资。目前,智谱、月之暗面、百川智能、阶跃星辰的估值均已超200亿元。
但根据《智能涌现》报道,随着估值跨上200亿元台阶,国内大模型公司最新的单轮次融资规模将卡在50亿元左右。即估值越高,融资越难。根据华兴资本数据,2024年前三季度国内全市场投融资总额为2603亿元,不及近三年同期的40%。
以月之暗面为例,2024年2月份A+轮完成超10亿美元融资,投后估值一路涨至25亿美元。随后的8月,首轮参投的小红书、美团龙珠、红杉中国已不见身影,月之暗面B轮的融资额为超3亿美元。风波中的MiniMax,则在去年3月拿到6亿美元B轮融资后,暂未等来新的融资消息。
对于大模型创企们而言,“等钱开干”的紧迫性无异于等米下锅。
等来的数十亿元融资,大模型创企不仅要分给持续堆参数的模型训练,还要分给需要上亿元投流烧钱营销的AI应用,能留给大模型购买版权的钱,并不富裕。
而大模型创企的灵魂拷问远不止版权纠纷这一点,高昂的研发投入和颇为有限的商业变现,才是悬在“六小虎”头顶的达摩克利斯之剑。
马斯克曾估算,GPT-5的训练成本是3万-5万张H100,仅芯片成本就超过7亿美元(约合50亿元)。目前六小虎的收入均未透露,仅根据外媒爆料,MiniMax预计年收入7000万美元。目前看来,哪怕是已经在海外靠Talkie赚到钱的MiniMax,也难以在短期内实现营收打正。
大模型水温转凉,*感知到的或许是扑腾其中的从业者。
“有一家大模型公司裁员后人数已经降到500人,另一家直接放弃了预训练和C端市场,剩下的几家几乎进入静默状态,不再开放HC(招聘名额)了。”
陈临告诉字母榜,2024年年底几乎已经拿不到70w+的AI offer了。2023年只要有AI相关经验,就能有面试机会,现在过去一年,不仅要求有落地经验,涨薪幅度也打了折扣。目前除了北京之外,其他城市的AI岗位招聘也是少的可怜。
可以肯定的是,2025年想要继续留在牌桌上的大模型创企们,在模型训练过程中为版权付费只是*步,降本不是长久之计,想法子赚钱增效,才是关键。
(文中陈临为化名)