讲真,小米最近在AI大模型上的速度,比造车要快。
越想听小米汽车的动向,雷军越不说。憋到十月一号国庆假期这天,放了个大招——还是关于大模型的。
十月一日这天的消息是,雷军投资了王小川的大模型公司百川智能。后者今年 3月成立,说要“构建中国*的大模型底座”,还要在年底追平GPT-3.5。
其最新的版本还通过了《生成式人工智能服务管理暂行办法》备案,正式上线面向公众提供服务,可以说在国产大模型领域,百川的速度很快。
当然雷军也不慢,这次投资百川智能属于A+轮,据说,之前一轮雷军也投了。在大模型上,雷军不仅下手快,目标还多,另外两个知名的国产大模型公司智普AI和minimax也得到了他的垂青。
此外,小米还有自己的AI智能团队,研发人员比百川智能整个公司的人还多,而其公布的2023年Q2财报上说,研发费用达到了46亿。
虽然,小米的高层曾表态:“小米不做通用大模型“,但无论是” 跑通端侧大模型“,还是接连押注通用大模型公司,雷军的AI野心,着实不小。
1、百川抱大腿
3月份成立的百川智能,比小米大模型团队早了一个月。
王小川领衔,团队里有不少搜狗的旧部,磨合起来异常顺利,一些老员工甚至感觉:只是换了个地方办公。
5月,百川智能就诞生了*款大模型Baichuan-7B,然后一个月更新一次,到了9月,530亿参数的闭源Baichuan2-53B,已经开始进军To B了。
百川智能看起来一切顺利,又有王小川这个金字招牌,融资也是顺水推舟,但国内的大模型市场今年以来一直处在风口,一大群科技互联网公司都挤在一起分一杯羹,百川人强马快,但现实并不是特别美好。
首先,大模型实在太多了。
中国科学技术信息研究所发布的《中国人工智能大模型地图研究报告》显示,截止到今年5月,国内已经发布了79个大模型——盘古、悟道、文心一言、通义千问、星火认知……还有一堆名字奇怪的模型,百川智能夹在里面,竞争压力相当之大。
其次,大模型这东西,一旦干起来就需要多如牛毛的显卡芯片、算力和不停迭代的技术,这些都换算成钱,就一个字——烧。
因此,王小川需要雷军。
恰好雷军不仅有钱,关键还懂技术,小米在大模型这一领域,拥抱出一个手机上运行的模型,雷军虽然不做通用模型,但从独角兽到百川这样的实力派创业公司,给钱真是没有犹豫过。
2、小米的野心
在大模型上,小米是有野心的——并不比造车差。
8月,雷军在舞台上喊出“小米全面拥抱大模型“后,就拿出了一款“端侧”的轻量大模型——“端侧”,是指模型服务不是部署在云端,而是直接存储在手机设备内部的芯片中,仅利用芯片的算力生成结果。
小米这样做是有原因的。
今年5月份的谷歌I/O大会上,谷歌一口气发布了四个新一代大语言模型 PaLM 2。其中最小的“壁虎”大模型,可以适配手机运行。而 “壁虎”也被称赞为PaLM 2模型中 “最重要的亮点”——这与小米的端侧轻量化模型相得益彰。
雷军显然知道,在大模型混乱的战场上,端侧轻量化并适配手机的模型,另辟蹊径,却能为助推手机销量乃至小米高端化策略,打开新的局面。
小米高级副总裁、手机部总裁曾学忠也认为,AI和手机的端侧结合可能成为下一次跨越。AI让设备能够真正“理解”人,从而让人与设备更进一步结合。
而另一方面,通用模型表面上没有被小米“拥抱”,实际上也不能少,毕竟未来的小米汽车和其他硬件产品的人机对话、语义理解,都需要得到通用大模型来加持。
而对于更长远的科技硬件军备竞赛,小米面临着和百川智能同样的压力。
如今苹果、华为、三星、OV、荣耀等几乎所有头部厂商都先后宣布了落地,或将要落地大模型,小米依靠自研+投资双管齐下的布局,要在其中杀出一条血路非常艰难。
但是对于小米来说,即便它并不想成为下一个OpenAI,也必须得投出下一个OpenAI。