鏖战一年的“百模大战”还未结束,两个海外AI巨头又给国内科技大厂出了难题。
就在春节假期的尾声,谷歌和OpenAI毫无征兆地放出了各自的 AI新“核武”。
谷歌拿出的新一代多模态大模型Gemini 1.5 Pro,将性能提升到了百万级别,完全秒杀了OpenAI的GPT-4 Turbo,暂居地表最强。
而后者发布的*文生视频模型Sora ,则基于视觉美学的惊艳表现,更让人印象深刻,迅速成为全球科技圈追捧的热点。
在生成视频的保真度、长度、稳定性、一致性、分辨率、文字理解等各方面,Sora已经超过Gen-2、SVD-XT、Pika等主流产品,做到了当前*,可以说一出手就是王炸。
去年,国内的百度、阿里、科大讯飞等互联网公司纷纷推出了自研大模型,争抢智能变革时代的船票;华为、小米、OPPO、vivo等手机厂商也布局大模型,希望新技术为见顶的市场带来新的生机;众多创业公司也进入该赛道,试图轻装上阵、弯道超车。
但物理意义上的鸿沟让国内的大模型产品在性能、生态等方面还与ChatGPT有着不小的差距。而如今视频生成模型Sora的诞生,不出意外也将再次掀起一波跟风的浪潮。
然而,颠覆性的效果往往来自颠覆性的思路。从当前节点来看,在AI大模型领域国内企业与世界前端到底还有多大差距?差在哪里?又有哪些种子选手可能脱颖而出?
01
恐慌
对于Sora的横空出世,马斯克的评论“gg humans(人类认输了)”,算是一种主流看法。
此前,虽然已经有大量文生视频技术,但尚未实现技术收敛,主要实现路径是通过各种手段让单帧的图片“动”起来,类似定格动画。而从用户的实际需求来看,视频每一帧之间的连贯性与自然度是价值的关键,也就是视频每帧语义信息的无缝衔接才是核心。
也就是说,Sora这种围绕需求提供对应技术解决方案的产品,要远远优于通过技术可实现的角度来创造产品。
根据OpenAI官网上的介绍指出,Sora与之前的文生视频思路并不一样,是让模型一次预测多帧画面,并且确保视频主体保持不变。这正是其巧妙之处——在视频帧上做突破,提升了生成视频的使用上限。
360创始人周鸿祎也给予了极高评价,他认为Sora的诞生意味着AGI(通用人工智能)的实现可能从十年缩短至一两年。
作为Sora的前辈,AI文生视频创企Runway联合创始人兼CEO Cristóbal Valenzuela感慨道,以前需要花费一年的进展,变成了几个月就能实现,又变成了几天、几小时。
Sora发布前还曾有很多烟雾弹式的信息被放出。比如OpenAI 组建了研究儿童安全的新团队,或是正准备推出 GPT-4.5-turbo,但真正的“杀手级更新”被隐藏得很好。这也导致像Pika、Runway一样的明星创业公司,面对Sora措手不及。
其实,国内外大厂对于AI视频生成的态度一直模棱两可。根本问题在于,现在的人工视频质量、效果更好,且成本也能接受;AI 视频生成此前没有大家想象的那么颠覆,所以整体策略偏向防御,而非进攻。
值得一提的是,国内的字节跳动以及百度的嗅觉更加敏锐。百度早在去年3月文心一言的发布会上,便发布了AI文生视频的功能,百度AI会自动根据文字内容寻找合适的视频素材,生成视频后并自动发布,这是属于文心一言AIGC的TTV(文本内容情感化分析)功能。
字节跳动则在去年11月发布了PixelDance,可以通过上一个视频片段尾帧,为下一个视频片段头帧提供指导的思路,在视频时长上有所突破,但至今仍然没有开放用户测试,所以具体效果如何还是未知。
如果从GPT的发展路径来看,所有做AI视频生成甚至做大模型的公司将面临新一波危机。就像周鸿祎所说,尽管国内大模型发展水平表面看已经接近GPT-3.5,但实际上跟4.0比还有一年半的差距。OpenAl手里应该还有一些秘密武器,无论是GPT-5还是机器自我学习自动产生内容。
但是危险中也蕴藏着机遇。OpenAI证明了用大模型的思路做视频是可行的,文生视频能蔚然成风成为全球新一轮AIGC竞赛的焦点,也给短视频平台上的直播电商、内容创作等带来更高的天花板。其他互联网企业和内容平台,需要做的只是证明自己也可以用大模型做出视频。
从技术角度来看,Sora属于多模态混合模型,由大语言模型和文图生成器拼接而成。这也意味着多模态模型迭代节奏加快,不出意外2024年的*波AI风潮将就此展开。
02
风起
自2022年末ChatGPT崭露头角,其强大的影响力如野火燎原般蔓延至国内科技圈。百度、阿里巴巴、腾讯等一众互联网大厂,以及以米OV为代表的智能硬件公司,仿佛嗅到了新时代的气息,纷纷宣布推出自家的大模型,意图在这波AI浪潮中占据一席之地。
与此同时,文生图、文生视频等多模态AIGC产品也在有序推进。实事求是地来看,AI生文、生图的应用,早已层出不穷,相关的技术不断日新月异。相比之下,AI文生视频,却是一个迟迟未被攻下的阵地,难度和价值一样巨大。
公开信息显示,包括字节跳动、百度、阿里、海康威视、万兴科技、拓尔思、当虹科技在内的科技公司,都在积极布局文生视频,但与Sora相比存在不小的差距。
简单来讲,之前的AI文生视频工具,仅仅停留在“模拟现实”的层面,Sora则已经跃升到了“构建现实”的新高度。两者的根本区别在于,前者只是对现实世界的表面模仿,难以深入捕捉现实世界的物理规则和动态变化;而后者则是在虚拟世界中重新构建了一种与现实世界并行的存在。
Sora不仅学习了像素与画面的呈现,更深入理解了现实世界的“物理规律”。例如在现实世界中,我们每咬下一口食物,食物上都会留下咬痕,这是遵循物理规则的自然现象。Sora生成的视频中,同样能够精准地再现这一细节,做到“咬下去有痕迹”,从而在虚拟世界中*再现了现实世界的真实感。而这是其他文生视频产品所做不到的。
以百度的文心一言为例,虽然其能够根据输入的文本生成视频,但在处理复杂场景和细节描绘方面仍存在不足。并且百度AI文生视频也更像是从已有素材库中找到更接近文字意思的视频进行拼接,单靠AI很难生成新的视频内容。
今年初,字节跳动发布了一款超高清文生视频模型MagicVideo-V2。据悉,该模型输出的视频在高清度、润滑度、连贯性、文本语义还原等方面,比目前主流的文生视频模型Gen-2、Stable Video Diffusion、Pika 1.0等更出色。
抖音的张楠已于2月初辞去CEO岗位,聚焦在剪映业务上。这意味着,抖音将加强对AI生图和视频产品的布局,其中文生视频自然是重中之重。
不过在张楠的规划中,AI视频所应具备的更高保真度生成效果、更清晰生成画面、更顺畅自然的逻辑理解能力等,也被Sora一朝之间吊打。
相对于互联网巨头的低调表现,一些上市公司在近期却积极发声,纷纷披露自己在视频生成模型领域的业务情况。
据不完全统计,包括万兴科技、博汇科技、易点天下、数码视讯、汉王科技、当虹科技、东方国信、神思电子、因赛集团、拓尔思、国脉文化、佳都科技在内的超10家A股上市公司,近三个月以来在互动平台上各自披露了相关视频生成模型领域的业务情况。
但不能否认的是,真正达到前沿水平的公司凤毛麟角,许多公司只是在跟风炒作,缺乏真正的技术储备和研发能力。
东方国信直言不讳地表示,他们在AI视频生成领域尚无成熟的技术储备;而神思电子则回应称,公司正在对文生图、图生文、视频生文、文生视频等多模态数据互相跳转的收敛性质进行深入研究,言下之意,他们在这方面的技术也还在探索阶段。
AI文生视频的颠覆性,可以具体到实际运用层面来看。图片、视频生成能帮助提高企业的商业化需求,如帮助降低广告客户成本、便捷制作视频等。拿字节跳动举例,其广告客户投放总成本中有一到两成为视频制作成本,而去年开始字节已经用相关产品帮助广告客户压缩这部分投入。
与上一波ChatGPT的风潮相似,尽管在推出类似AI文生视频产品方面国内企业难免落后一步,但也不失为一个摸着Sora过河的机会。
03
涌动
从全球市场来看,AI仍然引领着整个科技商业前进的方向,而且多模态成为主流。从大语言模型到多模态,再到通用人工智能的路径已经逐渐清晰,分歧点还是在于节奏的判断。
此前,OpenAI花了大约半年时间来测试大语言模型GPT-4。如果测试Sora需要差不多的时长,这个强大的视频生成工具可能会在今年8月份开放。而这半年时间便是其他企业积累力量的窗口期。
毕竟ChatGPT已经问世一年多,但还有大量用户没有使用过聊天机器人相关产品,这也为其他企业迎头赶上提供了机会。
而目前国内企业面临的*问题,还在于*梯队的AI公司如百度、科大讯飞的股价,因各种原因被打到了地板价,而国外的*企业,如英伟达、微软的股价创出新高,OpenAI的估值仍然在不断上升。这也意味着海内外AI企业在资本、人才、技术、市场号召力等方面存在着天然的优劣差异。
周鸿祎认为,科技竞争最终比拼的是人才密度和深厚积累。事实也是如此,Sora应用的是Transformer+Diffusion。从模型架构来看,如果以Transformer为基准,那么文生视频依旧是龙头科技企业更有优先权,但是如果生成式视频架构依旧围绕Diffusion展开的话,创业企业机会要更大一些。
不过没有一骑绝尘的技术,只有螺旋式上升的产业繁荣。
Sora虽然可以一次性生成几十秒到一分钟的视频,但是真正在应用阶段,如果产品没有提供足够多的微操空间,确保用户能够将其整合到自己的工作流中,那么大概率也只能叫好不叫座。
好在技术的扩散才刚刚开始,不会有任何一家公司“猝死”在新技术的出现上。OpenAI更像是一个开拓者,强项在于铺路,普及应用尚需要生态的力量。
就像是在文生文模型上的模块化组合,是否会有类似手机、智能音箱一样的专有智能设备问世?让更多用户可以在端侧使用模型,构建起开源+小参数模型+移动端的思路,把当下的产品做一次革新。这是国内厂商所擅长的,但同时也是未来内卷的阵地。
从单点的突破来看,Sora具有里程碑意义;但是从商业化需求和混剪工作流效率提升来看,Sora本身的价值和落地效果还有待考究。
想仅靠AI生成的一分钟视频成为下一个董宇辉、李佳琪并不现实,更别说制作长视频或者电影、电视剧了,即便是做一个短视频,是通过一遍遍修改提示词更加有效率,还是在视频剪辑软件里按照创作者的想法调整素材更快?显然,期待Sora变得更强,不如期待视频剪辑软件中尽早增添AI模块,从而切实提升工作效率。
即使最终Sora全面放开注册,普通用户也难以做出如当前演示案例般的视频Demo。所以最终各个大厂的决胜点还是在于如何普及多模态的应用,如何在工具中加入AI功能,更直接地优化工作流程。
新兴技术具有普适性,并不是某个企业的专属。对于国内企业来说,在多模态上的探索不妨可以参考GPT的发展、落地方式,在特定垂直领域的应用层面找到自身的优势,并以此作为方向实现快速发展。
只是在这个过程中,拼的还是人才密度、落地程度以及犯错误的次数。