如果说以大模型为代表的人工智能将决定自动驾驶,那么,谁来决定大模型呢? 毫无疑问,这个答案就是——数据。
到2030年,全球自动驾驶数据标注市场规模将比现在扩大6倍,从21亿美元增长到127.5亿美元,逼近千亿元人民币。对于极度需要数据支撑的大模型和自动驾驶产业来说,数据服务商正在迎来历史性的机遇。
但正所谓福兮祸所依,教会徒弟,饿死师傅的故事似乎正在数据服务产业上演。数据服务们提供的数据质量越高,数量越多,大模型的成长速度就越快,人工智能标注对人工标注构成的挑战就越大。
一场贪食蛇游戏开始了。
“你需要一个像素、一个像素,沿着车辆的轮廓圈出来。”
2022年,曾有媒体亲自到无人驾驶汽车数据标注平台体验了几天标注员的工作。和外界想象的简单画个圈就完成标注不同,“像素级”的标注要求工作人员精确勾勒出目标轮廓。
如果是标注激光雷达数据,工作人员将会更加辛苦,有些操作手册就有60多页。所以,标注工作会消耗大量的时间。3至6个小时,一个新手也只能标注完成40张图片中的数据。即使是专业的标注工作者,完成50张图片的标注也需要至少四个小时。
虽然标注工作繁琐且辛苦,但是对于智能电动汽车,特别是自动驾驶产业来说,数据的标注和整理是必不可少的一环。
2023年底,小鹏汽车董事长、CEO何小鹏就曾表示,汽车品类将从软件定义汽车逐步进化至人工智能(AI)定义汽车的时代,AI正在重新定义智能电动汽车的技术架构以及车企的商业模式,并将成为成功车企的必备核心能力。
在何小鹏的判断中,AI将是决定未来汽车产业发展的决定因素。那么,什么又将决定AI的发展呢?答案是:数据。
华为数据存储产品线总裁周跃峰就曾表示:“大模型时代,数据决定AI智能的高度。”
事实上,各大车企和自动驾驶企业早就着手采集数据,并以此训练基于端到端大模型的自动驾驶。据毫末智行数据智能科学家贺翔估算,在端到端的自动驾驶开发过程中,数据就会占据80%以上的研发成本。
所以,自动驾驶数据服务产业的爆发,也就有了坚实的市场基础。据第三方调研机构Research and Markets预测,到2030年,全球自动驾驶数据标注市场规模将比现在扩大6倍,从21亿美元增长到127.5亿美元。
在这样的背景之下,中国的自动驾驶数据服务产业,也正在随着中国智能汽车产业的快速增长而爆发。
数据服务商,崛起进行时
2022年,因为商业落地的前景渺茫,全球自动驾驶产业集体进入了寒冬之中。传统的行业龙头Mobileye股指一度缩水超过一半,大众和福特汽车共同投资数十亿美元的自动驾驶初创企业Argo更是直接倒闭。
但是,当Open AI发布基于生成式Transformer大语言模型(LLM)的ChatGPT后,智能驾驶行业似乎迎来了转角的曙光。理想汽车创始人、CEO李想马上就捕捉到了ChatGPT带来的机遇,并得出“AI技术路径逐渐清晰”的结论。
2023年8月, 马斯克亲自开启一场特斯拉完全自动驾驶能力(下称:FSD)Beta V12的直播,引发百万人线上围观。据悉,FSD Beta V12正是特斯拉有史以来收割的端到端自动驾驶系统。
“特斯拉的技术路线,其实和Open AI的ChatGPT是一样的。”此前,清华大学计算机系教授、清华大学人工智能研究院视觉智能研究中心主任邓志东在接受亿欧汽车专访时就表示,应该争取利用大语言模型为中国的自动驾驶产业赋能。
为了快速搭建属于自己的端到端自动驾驶能力,各大车企都已下场投入,重金研发。与此同时,自动驾驶数据的重要性也自然水涨船高。毕竟,没有质量俱佳的自动驾驶数据,就无从训练端到端的自动驾驶大模型。
而且,自动驾驶数据因为场景比较特殊,车企对数据的质量要求也更高,这就对相关企业提出了更高的技术要求。数据标注服务商—整数智能CEO林群书就曾公开表示,因为国内车企都在对标特斯拉的数据闭环方案,数据服务商如果想服务这个场景,就需要有专门的自动化标注平台、专业标注工具以及一整套完整的解决方案。
其次,中国自动驾驶场景的复杂度远超欧美,相应的数据标注整理难度和数据体量也大幅增加。曾有标注企业的高管对媒体表示,海外客户的需求,只要将人和障碍物标注出来即可,但国内客户往往要求标注路上的所有细节且精确程度要求很高。
在龙猫数据CEO昝智看来,国内车企之所以对数据服务商的要求如此之高,因为数据标注质量决定了各家主机厂在自动驾驶竞争中成败的关键,一旦质量不达标,就要推翻重来,现在所有主机厂都耗不起这个时间。
最后,因为各大车企都有自己的一套数据标准,这就导致数据标注不断重复。哪怕是相同的道路数据,也要根据不同企业的标准进行标注,自动驾驶数据服务商的业务量自然更多。
正因为上述因素,各大车企都在加大数据标注领域的资金投入力度。有媒体报道称,国内多家主机厂已将2023年数据标注的投入预算从百万级别直接飙升到了数千万级别。
随着行业需求的爆发,自动驾驶数据服务企业也在最近两年完成多笔融资。
据亿欧汽车不完全统计,自2020年以来,已有12家自动驾驶数据服务商完成不同程度的融资。其中9家是在2022年和2023年完成了最新一轮融资。
其中,海天瑞声更是在2021年8月登陆科创版。截至3月5日收盘,海天瑞声市值为39.07亿元人民币。值得注意的是,作为美国人工智能领域的头部数据服务商,硅谷独角兽Scale AI估值曾达73亿美元,约合人民币525.36亿元。
随着大模型深度赋能自动驾驶,数据服务商的市场前景进一步市场认可。但是,大模型和自动驾驶产业的发展也正在对数据服务商构成挑战。
一场贪食蛇游戏?
吃掉更多的食物,长成更大的体型,最后被自己毁灭。作为一款经典手机游戏,贪食蛇的逻辑早已被外界熟知。
随着大模型的发展,数据服务商似乎也面临着贪食蛇游戏的逻辑和结局。服务商提供的数据质量越优、数量越多,大模型的成熟度就越高。但是反过来,越成熟的大模型就越有可能完成数据的自动标注,从而取代数据服务商的角色。
2023年,美国工程院院士、智源研究院原理事长张宏江院士在一场有关大模型的演讲中就曾表示,随着算法的进步,数据层面发生了非常明显的改变。从人工标注,到开放的数据集分享,现在发展到数据自动标注和深层研究,这是国内数据标注领域正在的现实。
在和多家自动驾驶企业沟通的过程中,亿欧汽车同样发现,使用AI标注数据已经被广泛应用。
“现在,大模型的能力已经很强了,我们完全可以找一个开源并且能力强的大模型,通过它来提高数据标注的效率。”一家自动驾驶初创企业的高层对亿欧汽车表示,以前特斯拉的标注团队就超过千人,但是现在借助大模型,我们现在根本不需要这么多人。
2023年4月,在海康威视的Q1财报会议上,曾有投资者询问过类似的问题。对此,海康威视方面表示:“用同样的人力投入,数据标注的数量可以提升10倍。”如果反过来理解海康威视这句话,那也就是说,借助大模型,完成同样的工作量只需要以前10%的人力。
商汤绝影产品总监Larry在接受媒体采访时,也表示目前商汤绝影智能驾驶主要模型训练所依赖的标注已经大部分采用大模型自动标注技术,全自动标注和半自动标注(采用人工抽样质检)基本已经代替了人工标注,成本和时间周期均大幅下降。
面对自己“喂养”出来的大模型,人工标注的未来在哪里呢?
“我是自动标注的*支持者。”博登智能CEO赵捷曾表示,他虽然支持人工智能的自动标注,但自动标注并不意味着无人标注。他做了一个比喻,现在拥有自动化生产线的工厂并不是无人工厂。
一家自动驾驶初创公司的算法工程师也对亿欧汽车表示,目前对AI标注更多的还是取代初级标注工作,更复杂的一些项目离不开人工,或者需要人工配合AI才能完成工作。
“整个数据服务市场将重新洗牌。”海天瑞声CEO王晓东曾表示,大模型时代的到来会让研发能力弱,资源少的企业被快速淘汰,数据服务市场的集中度会进一步提升。由此可见,面对来自人工智能标注的挑战,数据服务商必须及时调整自己以适应大模型时代的数据标注业务。
结语
虽然面临着人工智能带来的挑战,但现阶段人工标注依旧会存在,再叠加自动驾驶和大模型产业的快速发展,数据服务市场的规模还会进一步增长。
龙猫数据CEO昝智就曾预测,机会窗口要到2030年才能完全释放出来。
但是,目前数据服务行业的发展依旧面临着众多挑战。除了人工智能标注之外,数据保护手段的欠缺也是行业必须面对的问题。曾有媒体报道称,一家AI大厂的负责人曾表示,在中国,你能花钱买到的数据,别人也可以买到。谁花钱做了高质量数据,别人就可以用低成本拿到,反之亦然。
在亿欧汽车接触的多家自动驾驶企业中,很多企业都选择在公司内部标注和梳理最核心的数据,而不是将其交给第三方。
所以,如何能够在处理数据的过程中保护相关企业的权益,从而*发挥专业的自动驾驶数据服务商的能量,是全行业都必须共同面对和急需解决的问题。