如果把人工智能这个行业本身也想像成一个“算法模型”的话,那么从一开始,训练它的数据,无论有意无意,其实都是带着“偏见”的。
上周我们曾讲述了一个,事实上,它就可以看作是这个“算法模型”的一个带偏见的“元数据”——我们决定再去深挖一下这场收购, 因为它所呈现出的偏见能带我们更好地理解为何中国发展人工智能必须自己掌握核心技术,以及为何百度是这场关键竞争里绕不开的重要公司。
草蛇灰线,伏脉千里。让我们再次回到故事的原点。
人工智能复苏
当乌克兰出生、加拿大长大的Alex Krizhevsky 联系到 Geoffrey Hinton,希望在多伦多大学修计算机科学博士课程时,他只是不想这么快找一份程序员的工作。他断然想不到,他的这个私人选择,竟成了人工智能领域复苏的一个伏笔。
2018 年荣获图灵奖的 Hinton,在当时只是多伦多大学一位不怎么得志的教授。他所研究的领域——神经网络(人工智能的一种实现方法),可以追溯到 20 世纪 50 年代。这种技术从未达到先驱研究者所期望的效果。2000 年之后,大多数研究人员都已经放弃了这个方向,Hinton 是少数仍坚持的人之一。
2006 年是转机的开端。那一年 Hinton 发表了论文《A fast learning algorithm for deep belief nets》(深度信念网络的一种快速学习算法)。这篇论文提出了一种训练深度网络的方法,利用 GPU 来加速训练速度,对每一层网络先进行预训练,然后再微调,网络的学习速度大幅提高。
这之后,Google、微软和百度等一些大型科技公司,注意到了深度神经网络。但总体来说,这仍是个计算机领域小众的研究方向。
更大的爆发,源自 Alex Krizhevsky 的一个尝试。2012 年,在 Hinton 的指导下, Alex Krizhevsky 和 Hinton 的另一个学生 IIya Sutskever 参加了当年的 ImageNet 挑战赛。ImageNet 是一个大型视觉数据集,由李飞飞所主导创造,拥有 1400 多万张标注过的图像。2010 年起,基于 ImageNet 数据集的视觉识别挑战赛每年举办一次。
Krizhevsky 和 Sutskever用前者设计的卷积神经网络(CNN)参加比赛。两个研究深度学习没几年的学生,以 10.8% 的巨大优势击败了其他对手,包括一些学术界的*团队。而 Krizhevsky 设计的那个神经网络,后来被命名为 AlexNet。
让 AlexNet 受到学术界之外关注的是,Google 也参加了那一年的比赛。但他们不是以公开的形式,而是在数据集上做了内部测试,也用了深度学习算法,但识别精度比 Hinton 团队差了很多。Google 拥有大多数团队无法企及的硬件和数据资源,但却输给了一个学界的团队,这让工业界感到吃惊。
但率先意识到这个新方法的颠覆性的,却不是直接体验到威力的Google。
“事情变得有点超现实。”Krizhevsky 说,“我们很快就开始收到收购邀约。大量的电子邮件纷至沓来。”其中最早的一封邮件,来自百度。
错过,只因中国公司的身份
百度是中国乃至全球最早意识到深度学习重要性的公司。早在 2009 年 8 月,百度 CEO 李彦宏提出了“框计算”的策略,尝试把 NLP(自然语言处理)和知识图谱这些现在科技界耳熟能详的技术,运用到搜索中。2011 年前后,当微软、Google 和 IBM 在用深度学习提高语音识别准确率时,百度内部也在做相同的事情。李彦宏甚至在全员邮件中,描述了深度学习强大的功能。
2012 年,当 Krizhevsky 用 GPU 训练 CNN 时,百度已经开始大规模采购和建立 GPU 运算集群,开发了世界上*个支持 GPU&CPU 的并行深度学习平台 Paddle。这个平台后来演化成深度学习框架,并且改名为 PaddlePaddle。
这种在当时全球人工智能领域都属前沿的技术判断能力,让百度自然而然率先“发掘”了Hinton。
当时 Hinton 远没有今天知名,但百度决策很快,李彦宏安排当时负责百度战略投资的副总裁与 Hinton 取得联系,并直接提出邀约。百度提出的方案是,出价 1200 万美元聘请 Hinton 及其学生,合约期三年。双方进展很快——Hinton 和他的学生几乎成了百度的员工。
但历史往往就是如此戏剧性。眼看要达成协议前,Hinton 的那两名学生 “拦住” 了 Hinton,之后发生的故事,都在我们此前的报道中讲述过了。
简单来说,在学生的建议下,Hinton 成立了一家只有三人的公司,并在征得百度同意后开始了一场“非正常”竞拍。
百度,Google、微软和 DeepMind 参与了竞拍。即便从一开始的*选择变成了四个竞拍者之一,百度依然坚信这场竞拍的“公正性”,并显示出拿下标的的巨大决心——百度的一位高管从北京提出报价,2500 万美元、3000 万美元、3500 万美元,百度是竞拍中出价意愿最坚定的一个。
“这感觉就像我们在拍电影一样。” Hinton 感慨道。但事实上,虽然Hinton没有明说,他其实心里已经给这个电影想好了最终的主角,那就是Google。
为什么 Hinton会觉得Google 比百度更适合?在人工智能已经成为大国新军备竞赛的今天,Hinton的选择变得很容易理解——因为归根到底,百度是一家中国公司。Hinton 除了因为背伤而无法长时间搭乘飞机,更重要的是,在他心里Google就是他研究成果的“最合适归宿”,哪怕百度*意识到这些成果的重要,哪怕百度按着他定的规则出到了天价,也无济于事。
那就走自己的路
Google 将 Hinton 的公司收购后,Hinton 没有完全放弃多伦多大学的教职,他一半时间在教书,一半时间在 Google 工作。Hinton 和他学生的工作,被应用于 Google 的产品中。比如,利用卷积神经网络使 Google Photos 具备精准的图片搜索功能。2014 年,Google 又收购了 DeepMind,持续扩大 AI 人才队伍。
但Google并没有就此靠着Hinton的加持完全甩开百度。百度继续按自己的计划推进深度学习技术体系建设。
2013 年 1 月是一个标志性的时间节点。百度成立了全球*个以深度学习命名的研究院(IDL),李彦宏亲自担任院长。一年后,著名的“少帅计划”启动,面向全球招募人工智能领域 30 岁以下的年轻研究人员。此外,百度还成立了人工智能实验室和大数据实验室,对 AI 的重视可见一斑。
2015 年是 2012 年之后,深度学习发展的又一个里程碑。这一年,ImageNet 大赛的所有最高成绩,都是基于深度学习,并且运行在 GPU 加速的系统上。Google 和微软在 ImageNet 挑战赛中击败了人类的*成绩——没错,是人类,而不是人类编写的程序。不久,微软和中国科技大学公布了一个 DNN,其 IQ 测试分数达到了大学研究生的水平。百度也宣布了一个名为Deep Speech 2 的深度学习系统,用一种算法就学会了英语和普通话。
2016 年 3 月,DeepMind 开发的 AlphaGo 在围棋比赛中战胜了李世石,深度学习声名大噪。那是大部分人*次建立了对 AI 的认知。然而在当时,百度对AI的最高难度技术分支——自动驾驶,都已经投入了3年的研究,到2017年,Apollo 正式推出,在一个移动互联网还方兴未艾的年份,百度已经开始了人工智能人才的网罗,研发方向的试错,和技术的积累布局。逐步成为全球AI专利申请量超1万件,中国专利7000多件的公司,在语音识别、自然语言处理、知识图谱和自动驾驶四个细分领域的专利量排名国内*、深度学习专利全球第二。
在百度内部,技术氛围一向浓厚。始于 2005 年的“百度之星”技术大赛,16 年来累计参赛选手接近 30 万,一度成为了国内程序员的“造星工厂”。
研发支出也能更直观说明问题。百度在 2011 年到 2020 年前三季度的研发投入强度分别是:9.2%、10.33%、12.86%、14.23%、15.33%、14.39%、15.24%、15.42%、17.08%、18.02%。比例在近几个季度已经超过Google的投入力度。
通过这些日复一日的投入,百度将当初发掘Hinton的眼光以及对前沿技术的嗅觉延续了下来。而更关键的是,百度对这些核心技术的研发,早早就放弃了“请客吃饭”的幻想——想要有竞争力,那么一切都要自食其力。
因此,10年前百度虽然与Hinton 失之交臂,但某种程度也变成了一件好事——百度和中国公司们更早地意识到两件事情,一是欧美*的科学家和技术公司最终还是会选择欧美公司;二是无论在技术能力,还是人才培养,以及对新技术的判断上,中国科技公司是不差的。
明白了这两点,也就自然明白了最前沿的技术永远不可能等别人支持,还得靠自己研发。
这些讨论在百度回港二次上市的节点上显得更有意味。只有自己从泥土中摸爬滚打得来的东西,才会让自己更加安心。如李彦宏在上市演讲中所说,“路的起点是中国,纳斯达克只是其中一站,最终百度会回到中国来,因为我们的根在中国”。
沿着这样的思路,百度才得以从搜索引擎技术衍生出知识图谱、自然语言处理等人工智能技术,并且在一轮又一轮新技术迭代中,都成为全球*行动的科技公司,从深度学习,到自动驾驶,再到AI芯片,完成了重要的技术积累,成为了今天全球人工智能领域不可能绕开的关键公司。