老对手,新戏码。
过去一周,美国 GPT 热潮的主角是 OpenAI 和谷歌,国内大模型市场的主角则是字节跳动和腾讯。
一方进攻,另外一方往往就是防守反击。赶在谷歌 i/o 发布一系列 AI 新产品之前,OpenAI 发布了能看能听的智能助手「GPT-4o」,o 代表「omnimodel」(全能模型)。
与过往的语音助手不同,GPT-4o 可以实现更自然流畅的语音交互,相当于给大模型装上了眼睛、耳朵和嘴巴,这被视为彻底改变了人机交互的历史。
大洋彼岸的国内 AI 市场也在发生类似的竞逐。
在开源与闭源的站队中,腾讯混元大模型选择了将 AI 文生图功能版本开源,并公布了混元大模型在 AI 产业上一系列落地应用。
而抢在 5 月 17 日的腾讯云生成式 AI 应用峰会之前,字节宣布通过火山引擎为豆包大模型对外提供服务,并用远低于行业的使用定价掀起了价格战。
金沙江创投基金主管合伙人朱啸虎评论说,一下子都从卷scaling law 180 度转弯变成卷价格卷免费了,说好的AGI梦想呢?
从国外到国内,卷价格还是技术应用,正成为当前AI 科技行业竞逐中的*看点。
1
字节掀价格战
国内大模型在应用产品层落地上,字节的豆包已经成为用户量*的 APP。
根据 QuestMobile 最新公布的数据,截止到 2024 年 3 月,AIGC APP 行业用户已经突破 7380 万,同比增长了 8 倍,其中,抖音旗下的豆包、百度旗下的文心一言以及天工、讯飞星火、Kimi 智能助手月活跃用户分别为 2328.2 万、1466.1 万、966.1 万、620.4 万、589.7 万 。
而根据火山引擎公布的最新数据,豆包 APP 的月活已经超过了 2600 万。豆包的成绩已经肉眼可见,而且豆包开始取代云雀,成为字节跳动旗下火山引擎对外提供大模型服务的统一名字。
在 5 月 15 日火山引擎的原动力大会上,豆包大模型正式开启对外服务,其中最抓人眼球的就是远远低于行业标准的使用价格。
以豆包通用模型 pro-32k 版为例,模型推理输入价格仅为 0.0008 元/千 Tokens。市面上,同规格模型的定价一般为 0.12 元/千 Tokens,所以醒目的标题是 32k 版本的豆包模型价格比行业低了 99.3%,128k 版本的豆包大模型比行业价格低了95.8%。
豆包大模型的价格无疑震动了行业,但对于真正打算使用豆包大模型的开发者来说,他们更在意的一个是模型质量,一个则是使用范围。「作为 API 为客户生成内容则需接受良心的拷问,所以 800 元/10 亿 token 的价格虽然香,也要看质量」,有开发者表示。
「人人用得起的才是好模型」,这是豆包大模型低价战略的一个卖点,但有开发者表示,他看到价格之后计划开始使用豆包大模型,却发现需要企业认证。也就是说,豆包大模型的价格虽然很香,但只是针对企业用户,而不是个人开发者。
此外,很重要的一点就是「豆包大模型家族」的亮相,这让字节在 AI 大模型领域的布局已经初步成型。
豆包大模型旗下模型数量有 9 个,分别是豆包通用模型 Pro、豆包通用模型 liti、豆包・角色扮演模型、豆包・语音合成模型、豆包・声音复刻模型、豆包・语音识别模型、豆包・文生图模型、豆包・Function Call 模型。可以明显看出,豆包大模型在卡位不同的赛道,在应用场景的丰富度上已经初具规模。
但归根结底,能赢得更多优质的客户,才是当下国内大模型竞逐的方向。
原动力大会上,展示出豆包大模型的合作伙伴有 18 家,包括招商银行、蒙牛、OPPO等,此外,现场还分别成立了手机、汽车两个生态伙伴联盟,尤其是当下竞逐激烈的汽车领域,合作伙伴包括吉利、长城等 20 余家厂商。
但这也侧面反映出目前 AI 应用市场的发展还处于早期,比如作为案例的奇瑞汽车子品牌捷途汽车,其使用豆包大模型的范围是打造智能客服,还通过豆包大模型与数字营销相结合,成为广告投放的导航,加深了企业对用户的理解。
价格战是表面,实际目的是把降价作为卖点,吸引更多用户和企业使用,进一步探索面向未来的大模型应用。找到大模型用户使用场景,这成为豆包大模型当下的思路。
2
腾讯终于提速
去年年底,「蓝洞商业」在一文已经点明,腾讯和字节在大模型之路上背道而驰,腾讯当时在 C 端用户市场没有做独立 APP,只选择利用微信小程序这一方式,而字节跳动的大模型在国内和国际市场都做了广泛产品布局。
进入到 2024 年年中,腾讯混元大模型终于开始提速。
其中最引人注意的两个动作,一个是宣布混元文生图大模型对外开源,未来确定还会开源文生文大模型;另一个则是将在 5 月 30 日正式发布元宝 APP,这个大模型产品中集合了搜索、文档总结、翻译官和口语陪练等功能。
元宝 APP 是腾讯混元大模型*款面向 C 端的独立产品。在豆包和文心一言等 APP 占领的国内市场中,腾讯还能拿下多少 AI 用户规模?显然是一件值得期待的事情,毕竟豆包 APP 2600 万的月活并不是一个很高的天花板。
而混元大模型开源的技术路线,也标志着腾讯在大模型之路上开始站队。
值得注意的是,腾讯混元大模型选择开源的文生图大模型,是与 OpenAI 发布的文生视频模型 Sora 相同的 DiT(Diffusion Models with transformer)架构,是业内*中文原生的 DiT 架构,不仅能够支持文生图,也能作为视频等多模态视觉生成的基础。此外,混元文生图大模型支持中英文双语输入及理解,参数量 15 亿。
腾讯在最新一季的财报会提到,腾讯在微信和 QQ 等很多服务中都部署了混元大模型。
广告可能是大模型*见效的业务,正如 Meta 基于大型语言模型 Advantage+ 改进了他们的广告工具。腾讯混元文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。
今年年初,基于腾讯混元大模型,腾讯发布了一站式 AI 广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具,有效提高了广告生产及投放效率。
但目前看来,混元大模型对腾讯核心的游戏业务帮助度并不高。财报会上提到游戏上尚未用上生成式 AI,混元可以利用 NPC 创造某种互动体验,但还不能取代现有的游戏内容创作。目前游戏业务中是使用混元*的场景是客服。
OpenAI 选择闭源大模型,谷歌则是开源路线。国内市场,除了百度是闭源路线,阿里的通义千问、百川智能、昆仑万维等公司都属于开源路线,发布过不同参数的开源大模型。如今,腾讯也站队开源,只能说明开源大模型大概率是未来大势所趋。
当下,开源和闭源的路线之争还难见分晓,「在开源和闭源的问题上,我们认为两者都有其独特的价值和作用。我们已经有计划在未来开源更多的模型,同时我们也在积极地开发通用人工智能,并探索如何广泛地分配其带来的利益。」OpenAI 创始人奥特曼最近表态说。
智源研究院副院长林咏华也曾对《财新》指出,模型需要的是机构持续投入迭代创新,一旦落后很容易被替代,而软件工具链则是技术积累、不断做加法,不会突然间被取代。「模型一直会是后浪推前浪,最开始热闹的未必能笑到最后,反而是工具链通过生态的不断积累能够建起护城河。」
3
OpenAI 进攻,谷歌反击
GPT-4o 让人眼前一亮的,就是其生动的交互体验。
在其展示的视频中,GPT-4o 作为一个大模型语音助手,可以随时被用户的指令打断,在不同的情绪和语调中切换自然、实时响应,这让 GPT-4o 大大超越了以往的人工智能语音助手。
而之所以命名为 o,就是因为其可以处理文本、音频和图像的组合。GPT-4o 可以通过手机摄像头看到现实世界的情况,例如可以给一位视障男子叫一辆出租车,告诉他车辆在靠近以及何时挥手。GPT-4o 还可以是一个数学老师,在识别数学问题之后,通过语音指令一步步循循善诱的告诉孩子如何解答这道题。
GPT-4o 在翻译、会议场景、语言培训方面的用途显然*想象力,「GPT4 的实际可用性太强了,现在开发者面前有个以小博大的机会,就是立刻做一个 GPT-4o 的套壳,去吊打市面上所有的 AI 陪伴类产品,这是一个典型的新技术带来 10 倍好体验 x OpenAI 不会做的方向。」有国内的大模型开发者这样认为。
更重要的是,大模型装上了眼睛、耳朵和嘴巴,势必会带来 ChatGPT 在用户层面的进一步渗透。
行业分析人士认为,从 OpenAI 的产品路线看,「当下发布的 GPT-4o 大概率只是 GPT-4.5 的一部分,估计 GPT-4.5 拆成两个版本发完才会到 GPT-5」,而 GPT-5 将在当前的技术基础上实现巨大的飞跃。
要想在未来几周内体验 GPT-4o,仍需要成为付费 ChatGPT-Plus(该公司每月 20 美元的功能)的用户,而对于企业用户来说,GPT-4o 的速度将是其当前*产品 GPT-4 Turbo 的两倍,成本仅为其一半。
这也摆明了一个事实,那就是好东西都不会免费,GPT-4o 的推出意味着科技巨头们越来越急迫的扩大付费用户规模,以平衡在研发上投入的巨大资金和费用。
华尔街最新公布的数据是,预计今年谷歌和 OpenAI 在人工智能服务的技术基础建设上,二者合计的支出高达 970 亿美元,这个数字比去年增长了 42%。这种高投入的模式无疑让大模型成为大厂之间的竞逐游戏,也让玩家们面临如何平衡投资回报之间的挑战。
人工智能竞赛中的大模型进化,更像是一个烧钱机器的比赛。
谷歌与 OpenAI 背后的微软已经在 AI 行业形成对垒之势,表面上看是 OpenAI 一直处于攻势,而谷歌处于防守之势,但美国的投资公司更愿意相信,在人工智能的这场竞赛中,获胜者不可能只有一个,谷歌依然是人工智能竞赛中的*者。
在 Google I/O 开发者大会上,针对 OpenAI 的发布但迟迟没能开放的视频模型 Sora,谷歌发布了视频生成模型 Veo;针对语音助手模型的 GPT-4o,谷歌发布了同样针对人工智能语音智能的 Project Astra;在文生图模型上发布了最新的 Imagen 3;更重要的是,升级版的最强大AI模型 Gemini 将重塑传统搜索模式,通过「人工智能概述」功能,自动推理回答用户的需求。
大模型的进化之路依旧漫长,当下没有标准答案。
今年以来,谷歌的股价上涨了 22%,这是微软同期的两倍。所以,OpenAI 与谷歌之间的对垒,将成为大模型*梯队未来很长一段时间的重要看点。
国内不论字节的豆包还是腾讯的混元,都在深挖内部需求的同时,极力招揽外部客户,进而构建自己的应用层能力。各家的每一个动作,都可能被看作对手间的攻防之战。