01、ChatGPT里的清华元素
OpenAI旗下大语言模型ChatGPT的成功让人眼前一亮,更让外界意想不到的是,这个产品不是出自拥有数千名人工智能团队的谷歌或者Facebook,而是仅成立8年只有三百多人的OpenAI。
来自全球各地的*人才为OpenAI和ChatGPT的成功奠定了基础。今年1月,OpenAI创始人及CEO奥特曼透露公司员工人数为375人 ,与谷歌和脸书等科技巨头从事人工智能工作的数千名员工相比,这是一个很小的数字。“我知道我不应该吹嘘OpenAI,我们要感谢我们所有的外包公司为训练模型提供了必不可少的数据。”
而真正在ChatGPT项目中做出贡献的人员,据OpenAI官网显示,共有87人。ChatGPT只是OpenAI其中的一个项目,比如OpenAI之前发布的文本生成图像的大模型DALL-E,两个半月注册人数突破100万,也在人工智能领域备受关注。
在最近一份由智谱研究联合AMiner发布的《ChatGPT团队背景研究报告》中,这群人的显著特征被归纳为了“年纪很轻”、“背景豪华”、“聚焦技术”、“积累深厚”、“崇尚创业”和“华人抢眼”几个方面。
智谱研究发布的报告显示,该团队平均年龄为32岁,“90后”是主力军。作为全球人工智能*研发团队,其成员绝大多数拥有名校学历,但也并非“清一色”研究生学历,而是本、硕、博人数相对均衡。同时,其成员大多具有全球知名企业工作经历,其中,从谷歌跳槽而来的有10人,是为其贡献最多人才的外部企业(ChatGPT基于的也是谷歌提出的Transformer模型)。作为应届生直接加入ChatGPT 团队的也有11人,但不论是来自其他企业,还是作为应届生加入的人员,背景都相当“豪华”。
而在技术上,该团队共有包括OpenAI 联合创始人Wojciech Zaremba在内的5人入选了今年“AI 2000 全球人工智能学者”名单。该名单由AMiner 每年推出,评选出全球人工智能 20个细分领域前 100 名*影响力学者。这意味着,在 ChatGPT 不足百人的团队中,就有 5 人属于全球人工智能各领域*学者,技术积累深厚。
此外,最值得一提的是,华人成为了该团队中一支重要的科技创新力量,共9人,占团队总人数的比例超10%。华人学者欧阳龙更是参与了与 ChatGPT 相关的 7 大技术项目中的 4 大项目的研发,是InstructGPT 论文的*作者,也是RLHF 论文的第二作者。“可见他是这两个关键技术项目的核心人员。”智谱研究分析称。
在华人团队中,有5人本科就读于中国内地高校,其中3人(翁家翌、赵盛佳、袁启明)均来自于清华大学,并各有1人本科毕业于华中科技大学、北京大学/香港大学。不过,这5人后续均在海外高校继续深造。
其中,翁家翌是ChatGPT团队里最年轻的研发工程师之一。他于2020年从清华大学计算机系本科毕业,进入卡内基梅隆大学攻读硕士学位。在清华期间,翁家翌曾加入清华大学人工智能研究院基础理论研究中心主任朱军领导的TSAIL实验室,并在大三暑假加入加拿大图灵奖获得者 Yoshua Bengio 的实验室,深入开展RL和NLP的研究。其更是一度以本科生身份,成为基于 PyTorch 的强化学习算法库 Tianshou(天授)的*作者。
清华大学也以3名成员的数量,与卡内基梅隆大学一起,并列ChatGPT团队毕业院校的第7名。排在他们之前的分别是斯坦福大学(14 人)、加州大学伯克利分校(10 人)、麻省理工学院(7 人)、剑桥大学(5 人)、哈佛大学(4 人)和佐治亚理工学院(4 人)。
02、清华走出的人工智能大牛
ChatGPT团队中出现不少的华人力量和清华元素令人意外。但实际上,华人尤其是清华系,早已成为全球人工智能领域中的一个中坚力量。
2021年,AMiner曾根据AI2000人工智能全球*影响力学者榜单,结合学者H-指数、论文数和影响因子,并经过去重处理后发现,过去十年,全球为AI发展贡献了力量的高层次学者共有1833位。这些人工智能领域的技术大牛共覆盖了37个国家,其中,美国1244人,占比62.2%,中国以196名位列第二,远超以113名排在第三的德国。
而在这196名华人学者中,无论是本硕博毕业院校,清华大学都排在最前列。如本科毕业于清华的有41位,排在其后的分别是中国科技大学(21位)、北京大学(19位);硕士阶段毕业院校中,国外的麻省理工和伊利诺伊大学进入前十;到博士阶段,排名前十的院校中,国外高校整体数量则进一步增加到一半占比。
类似的情形依然还在上演。在最新的“AI2000全球人工智能学者”名单人工智能细分板块下,以“在某个领域的*期刊和会议上发表的论文的总引文数”作为排序标准的榜单前100学者中,共有19名华人,占比约为两成,前10榜单中,华人学者占比更是达到了四成。
其中,位列*的何凯明,本科就读于清华大学,博士毕业于香港中文大学多媒体实验室,并在2011年加入微软亚洲研究院(MSRA),主要从事计算机视觉和深度学习研究,后来又在2016年,加入Facebook AI Research(FAIR)担任研究科学家。
国内人工智能的创业公司里也有不少清华的身影。
被称为“AI四小龙”的旷视科技,其CEO印奇、CTO唐文斌和高级副总裁杨沐均毕业于清华大学计算机科学实验班,也即传言中“状元挤破头都进不去”的“姚班”,师从2000年图灵奖获得者,同时也是*一个获得该奖项的中国人——姚期智。而当他们在2011年创业时,印奇才不过23岁,唐文斌24岁,杨沐22岁。
同属于“AI四小龙”的商汤科技,虽然创始人汤晓鸥并非出自“清华系”,而是在中科大完成本科学业后外出留学,但联合创始人之一的杨帆却先后在清华大学获得了电子工程学学士学位及硕士学位,001号员工徐持衡则是在高二通过奥赛保送至了清华,并在2013年大学毕业后加入汤晓鸥的实验室,后来成为商汤科技的联合创始人、001 号员工。而在去年从商汤执行研究总监岗位上离职回到母校任职的代季峰,同样来自于清华,并在清华一路攻读到博士以后,一度进入微软亚洲研究院工作5年之久。
不过,无论是商汤还是旷视主攻的方向是机器视觉,而不是自然语言处理。而这两家企业也遇到了人工智能技术不好落地和商业变现难的窘境,一直以来亏损比较严重。
在此之外,据不完全统计,包括同是“姚班”学生的小马智行联合创始人兼CTO楼天城、英语流利说创始人兼CEO王翌、地平线联合创始人兼CTO黄畅、兆易创新创始人兼CEO朱一明、被赛灵思收购的深鉴科技创始团队姚颂、汪玉、韩松、单羿等诸多人工智能领域创业公司的创始人和联合创始人均毕业于清华。而在更早之前的搜狗创始人王小川也是毕业于清华大学计算机系。
各大厂的AI业务线同样有不少来自清华的大牛。如华为云人工智能领域首席科学家田奇,阿里巴巴平头哥首席科学家、达摩院高级研究员谢源,京东集团副总裁兼京东人工智能研究院常务副院长、深度学习及语音和语言实验室负责人何晓冬等。
03、为什么是清华?
1956年,美国新罕布什尔州的达特茅斯学院里,一群科学家正聚在一起讨论一个看起来有点异想天开的话题——如何用机器来模仿人类学习及其他方面的先进智能。这场会议足足开了两个月后,大家并没有能够达成普遍共识,但却为讨论的内容起了一个名字:人工智能。
这一年,最终成为了公认的人工智能元年,一个新科技时代的序幕由此拉开。
当人工智能概念开始在大洋彼岸点燃星星之火时,中国也出台《十二年科技发展远景规划》,开始了大踏步追赶世界先进科学技术水平的历程。清华大学计算机系的前身“自动控制系”也在两年后正式成立。同年,后来的中国人工智能奠基人之一、中科院院士张钹从清华大学自动控制系毕业,成为国家*批自动控制专业毕业生,并开始留校担任教学任务。
但一直到23年后的1981年,张钹才作为访问学者在美国伊利诺依大学进行人工智能、智能机器人的研究工作时,和当时在安徽大学任教的数学家张铃一起通过长期的跨国合作,联手完成了一篇人工智能领域的论文,并发表在人工智能领域*国际期刊《IEEE模式分析与机器智能汇刊》上。这也成为了中国科学家在人工智能领域的*篇学术论文。
科研上”跨国交流“尚且不够,张钹还通过直接将伊利诺伊大学使用的教材和相关材料全部复印并寄回国内的方式,跨国丰富了清华大学计算机系的教研工作。而后,“智能机器人”实验室等相关实验室也逐渐在清华建立起来。
尽管一直到21世纪初,人工智能在国内依然不温不火。但较早开展AI技术研究无疑是清华后来能在人工智能领域有优异表现的重要原因。
张钹后来曾在谈及清华大学在人工智能方面的优势时提到,清华大学是最早在中国开展人工智能研究的单位之一,基础理论方面比较强,且一开始就集中力量进行AI基础理论的研究;第二点则在于人工智能是一个交叉性尤其明显的学科,而清华由于较早介入了相关研究,相关交叉学科实力比较强。
实际上,学科交叉这件事,与姚班创办人姚期智不无关系。早在2010年底,姚期智就率先成立了清华交叉信息研究院,自己亲任院长,力图将量子物理、生物医学、经济金融等领域和计算机科学的技术结合起来。
如今AI领域的“清华系”人工智能大牛们,也有大量出自姚期智2005年创办的姚班。如旷视科技的印奇、唐文斌、杨沐,小马智行的楼天城等。2019年和2021年,姚班还在清华分别增设了人工智能班(“智班”)、量子信息班(“量信班”),并在2022年8月将姚班、智班、量信班合而为一,重新统称姚班(即计算机科学实验班)。
而“姚班”其实也是清华大学“加强国际合作与交流”工作的一项突出成果。过去二十多年间,清华利用企业赞助的资金,邀请世界著名的教授来参与清华的培养工作。姚期智正是清华计算机系*期(2003-2006年)讲席教授组首席教授。
更重要的是,清华的研发资金相对“宽裕”。除国家投入之外,常常有不少清华校友“慷概解囊”。王小川就曾在2016年4月,清华大学105周年纪念日时,向母校捐赠了1.8亿元,并联合清华成立了清华大学天工智能计算研究院,用以研究人工智能相关的前沿技术。在平时,王小川和搜狗更是长期资助清华大学的智能体比赛,鼓励清华学生写程序和玩游戏。
这些都在促使清华大学计算机系在一些国际榜单上的排名大幅提升。例如在U.S.News2019年世界大学计算机科排行榜TOP10中,清华大学曾以总分100分的成绩位居榜首,同年进入前十的国内高校还有华中科技大学(第6)、浙江大学(第9)和东南大学(第10)。在CSRankings以计算机领域各大顶会的论文数量为衡量指标更新的2020-2021年排名中,清华和北大则力压CMU,分别排在了第1、2位。
正常人才培养之外,清华还孵化了大量的AI创业团队。如成立于2018年7月的人工智能技术和行业解决方案提供商“瑞莱智慧(RealAI),孵化自清华大学人工智能研究院,至今已完成5轮融资,最近一次是2021年底的近亿元战略融资,并由清华大学人工智能研究院院长张钹担任首席科学家。智谱研究背后的智谱AI同样孵化自清华,由清华大学计算机系的技术成果转化而来。
当然,在人工智能领域发光发热的并不止清华。一位行业内人士透露,浙江大学、上海交大、北大、华中科技大学等高校这些年都在培养人工智能技术人才上比较突出。
此外,值得注意的是,最近一两年来,学界正在掀起一股“学术大佬回归潮”,其中不乏人工智能领域的大牛。如人工智能专家朱松纯在2020年回国担任了清华大学基础科学讲席教授、北京大学讲席教授,2021年出任北京大学智能学院院长、清华大学通用人工智能研究院(筹)院长。
在ChatGPT爆火之后,国内一度有些“技不如人”的失落,同时也在期盼着中国的ChatGPT和OpenAI。正如王小川在朋友圈所言:“OpenAI的成功,首先是技术理想主义的胜利。中国需要自己的OpenAI,就需要技术理想主义。大厂受自己的业务牵引,追逐资本热点的创业公司更动作变形。不止如此,这种理想主义还需要有爱国之心、商业智慧和学术尊重去获得政府支持,推动企业联盟和学术界协同。中国能诞生自己的OpenAI”。
参考资料:
1、《ChatGPT团队背景研究报告》,AMiner、智谱研究,2023.02
2、《华人AI学者大盘点:清华培养了最多的高层次人才,韩家炜、吴恩达论文被引数“登顶”》,学术头条,2021.02
3、《马少平、周枫、王小川、楼天城、唐文斌……清华计算机系与人工智能的40年》,清华小五爷园,2018.04
4、《清华办 AI:除了洞见,更有沉淀》,AI科技评论,2020.04