到2024年的最后一个月,大模型依然是最热闹的赛道,没有之一。
12月,智谱AI与阶跃星辰相继完成新一轮融资,OpenAI以直播的形式举办了一场长达12天的马拉松式新品发布会。
但对从业者肖琳(化名)来说,年底的任何融资事件和新产品发布都已经很难让她眼前一亮,反倒是几个月前的一张网传图片成了她的“年度记忆”。
这张图片显示,腾讯、字节、百度、科大讯飞和月之暗面旗下大模型的新增用户留存率,在30天后均会降至1%以下。9月,它一度在社交媒体和从业者交流群中疯传。
假,是肖琳对这张图片的*印象,“图片里的数据没有任何可靠来源”。她不屑于去认真讨论它的可信度。
不过这并没有阻止它的广泛流传,甚至肖琳自己也是传播者之一。有人感叹大模型任重道远,有人预测未来有多少玩家能活下来,也有人批评图片中的大模型不好用。
“(这张图)之所以能引发这么大的波澜,是契合了大家的情绪。”
01 寒风
2024年,寒风几乎吹进过大模型的每一个角落,连象牙塔里的人们也感受到了气温的降低。
张楠楠(化名)是一名人工智能方向的在读硕士。过去两年间,他时刻关注大模型的动态,这个行业的起伏一定程度上影响着他毕业后的工作前景。
6月,他在与学长学姐的交流中,得知在大模型“六小龙”中已经有公司放弃了预训练。
“六小龙”是指月之暗面、MiniMax、零一万物、百川智能、智谱AI和阶跃星辰这六家公司,它们是国内大模型的头部初创公司。此前有媒体报道称,六小龙中有两家停止了预训练。
投资机构分析师陈琳(化名)告诉雪豹财经社,“*不止两家。”
预训练减少,让张楠楠开始担心,未来几年大模型公司的数量会变少、相关岗位的薪资会降低,这可能会波及他未来的就业和薪资。
张楠楠的部分担忧已经变为现实。
凯文(化名)是一位服务于大厂和“六小龙”的大模型猎头。他发现,从4月起,不管是大厂还是六小龙,招聘需求都在显著减少。今年,他手中大模型岗位比去年同期减少了30%~40%。
求职者的涨薪诉求也越来越难谈。去年,凯文推荐的候选人,薪资翻倍的多到他记不清。今年,涨薪一倍的候选人只有一位,准确地说,还只是接近翻倍。
一家招聘方为频繁跳槽的求职者画了一条红线:五年跳三次。如果候选人的跳槽频率高于这条线,“连面试机会都没有”。
与岗位一起收缩的,还有投资人的决心。
陈琳在与投资人沟通中发现,原本怀着FOMO(Fear of Missing Out)情绪的投资人,开始担心头部大模型创企估值过高。智谱AI、月之暗面和百川智能等几家公司的估值已经快速上升至约200亿元人民币的门槛。
陈琳的感知与知名投资人朱啸虎一致。6月,朱啸虎表示,“去年大模型非常火,今年机构都不敢投大模型。”
大洋彼岸,同此凉热。
“我们感觉到,华尔街对AI越来越持怀疑态度。”巴克莱银行在9月的一份研报中表达了自己的担忧。该行测算,2026年大型科技公司在开发模型上的花费约为600亿美元,但从AI中获得的收入仅约为200亿美元。这400亿美元的差额,几乎是特斯拉去年净利润的2.7倍。
技术和产品体验的进步也在放缓。
11月,有外媒报道称,OpenAI的下一代旗舰模型(测试代号为Orion)虽然在性能上已经超越了现有模型,但可能不会像前面几代产品那样带来巨大飞跃。
消息一出,著名的AI悲观主义者、纽约大学名誉教授Gary Marcus在社交媒体上“庆祝”起了自己的胜利:“伙计们,游戏结束,我赢了。GPT大模型正在进入收益递减期。”
02 暗淡的白月光
2023年2月,美团联合创始人王慧文与出门问问CEO李志飞、真格基金合伙人戴雨森和刘元在一家日式餐厅中,探讨了中国大模型的未来。
此前4个月,OpenAI在没有任何预热,也未举办发布会的情况下,上线了基于大语言模型研发的AI应用程序ChatGPT-3.5,两个月便吸引来一亿月活用户。与之对比,苹果iTunes达到一亿用户用了六年半,微信用了一年零两个月。
饭局结束后不久,王慧文发布了自己的人工智能宣言:“5000万美元,带资入组,不在意岗位、薪资和title,求组队。”李开复、前京东高级副总裁周伯文、快手前MMU负责人李岩和李志飞等,均投身大模型创业。
大厂们也跑步入场。2023年3月,百度率先发布了文心一言大模型。此后,AI公司、互联网公司和智能硬件公司们相继跟进,腾讯、阿里、商汤、快手、美团、京东、阿里、OPPO、理想汽车均发布了自己的大模型。
一时间,“做中国的OpenAI”成为行业热词,这点燃了一级市场久违的投资热情。
据创业邦旗下科创数据平台“睿兽”数据,去年,机构在大模型层的投资事件为66起,是上一年的投资事件数量的近2.3倍。大厂们自然没有缺席这场资本盛宴。“六小龙”中,阿里与腾讯均投资了5家。
“当时在深圳的酒吧,人们要么在讨论美股,要么在讨论大模型。”肖琳回忆去年的情景,她并非一个怀有AGI信仰的人,但身处此种环境,她甚至开始幻想自己会不会成为改变世界的一员。
2023年中旬,国内大模型已成“百模大战”之势。可就在此时,先行者的故事戛然而止。
投身大模型创业4个月之后,王慧文确诊抑郁症并入院治疗,短期内无法继续领导团队。最终,美团以约20.65亿元的价格,完成了对光年之外的股权收购。
光年之外前员工贾晨(化名)还记得,王慧文在创业之初精神状态良好,对公司也很上心,但“公司经营的成本很大,而且技术难题很多”。
一个能拿出5000万美元的人,因大模型创业得了抑郁症,这让贾晨萌生了“大模型究竟是不是一门好生意”的疑问。带着这个疑问,他选择更稳妥的探索方式:去大厂。
王慧文病退后,行业中开始出现大模型是否终将沦为巨头游戏的讨论。不久后,机构也发出了预警。
2023年10月,科技研究和咨询公司CCS Insight在一份报告中表示,备受关注的生成式人工智能领域将在2024年接受考验,这些考验的具体表现为:技术炒作逐渐消退,运行成本不断上升,监管呼声越来越多,投资人不再像之前那样兴奋和乐观。
机构的预测,成了肖琳经历的现实。
2024年初,肖琳看到公司里来了几位身穿白色长袍的外籍人士,她猜测这便是传言中的“来自中东的投资人”。她希望这笔融资能顺利到账,这样她的工作也会更加稳定。但事与愿违,投资人试用大模型后,因功能不及预期而减少了投资金额。
察觉到投资人收紧钱包的不只一家公司。按朱啸虎上述说法,“机构都不敢投大模型。”
投资机构分析师陈琳认为,投资人们态度的变化,与大模型应用难以落地不无关系。
出门问问CEO李志飞感叹,在国内大模型创业浪潮爆发之初,人们曾非常激进。“但是今天再回过来看,可能有些事情是过于乐观了。”
03 谁能活下来
李志飞认为,自己“可能是中国最早一批关注到GPT-3的人”。他将其视为大模型发展的转折点,让他看到实现通用人工智能的希望。
GPT-3是OpenAI在2020年发布的一款语言模型(Language Models),该模型的参数量达到1750亿,是GPT-2的117倍,GPT-1的1496倍。
在李志飞看来,这是一次“暴力美学”的胜利。在此之前,他非常反感这个概念,因为“没有什么深度,研究也没有美感”。
“暴力美学”的概念并不难理解,它由先进的算法、海量的训练数据和庞大的参数构成。
而这一切,需要以资金为后盾。
国盛证券曾测算,GPT-3训练一次的成本约为140万美元。两年后上线的ChatGPT-3.5单次训练成本上升到了460万美元,可以购买一辆博兰基尼Veneno(全球仅有 14 辆)。
在金钱的助推下,2023年4月上线的GPT-4参数继续增加至1.8万亿左右。马斯克曾估算,参数量超百万亿的GPT-5仅芯片成本超过7亿美元,高于小鹏汽车在AI领域全年的投入(35亿元)。
李志飞认为,国内公司无法效仿OpenAI这种并不追求ROI的“暴力美学”。傅盛也认同这个看法。他在接受采访时举了一个例子:“如果一个谷歌研究员跟老板说训练一次2000万美元,老板问能不能做成,你说不知道,肯定就很难申请到资源。”
但生意还得继续做。
目前,国内大模型行业的共识是卷应用,将大规模数据集训练出来的深度神经网络模型应用于实际问题中,通过大模型赚到钱。
在7月举办的2024年世界人工智能大会上,百度董事长兼CEO李彦宏称,没有应用,光有一个基础模型,不管是开源还是闭源,都一文不值。李开复在11月初的一次分享中表示,当下国内AI行业的发展,已经进入应用“落地为王”的阶段。
另一个共识是,目前大模型行业已进入淘汰赛阶段。
多位从业者告诉雪豹财经社,他们认为字节将成为赢家之一。创业公司方面,他们普遍认为目前的“六小龙”将活下来一到两家。
百川智能CEO王小川预测,未来国内大模型市场*梯队或仅有五家,大厂占据主导地位,小型创业公司能存活的寥寥无几。
朱啸虎一度认为,5年后将没有独立的大模型公司存在。2024年8月,他又在一次采访中,将这一期限缩短至3年之内,称大模型创企“*的结果就是卖给大厂”。
李志飞早早嗅到了淘汰赛的气息。2023年4月,他便预测大模型行业将“卷出天际”,投身其中的公司大概率与上一代AI公司一样,商业化异常艰难。
“一切都是熟悉的配方和味道。”他说。