AI领域好久没有因为一项新技术而变得热闹了。
在人们当下的认知里,AI早已被“神化”,变得无所不能,似乎没有什么新功能能够让人惊掉下巴,大呼“不可思议”。
然而,在这个同样被魔幻化的2020年,一项再次震惊业内的AI新技术出现了,它就是—GPT-3,简单理解就是文本生成器,旨在从起始输入开始生成单词,代码或其他数据的序列。目前,GPT-3可以写富有创意的小说,可以生成功能代码,也可以做数学上的加减法。
那么这个GPT-3究竟厉害在何处,会不会又是个昙花一现的新噱头?抱着这些疑问,虎嗅翻看了由31位作者写的72页论文,以期发现晦涩专业术语掩盖下的GPT-3的魅力之处。
带着光环出生
在谈到GPT-3这项技术之前,不妨先来看看其背景。
GPT-3是由人工智能组织OpenAI开发的语言。该组织成立于2015年成立,旨在更安全地使用人工智能,防止人工智能去毁灭世界,是一家非盈利组织。其联合创始人包括特斯拉CEO马斯克、著名孵化器 Y Combinator 前 CEO 山姆·奥特曼以及著名投资人彼得·蒂尔等。
起初,在2015年,OpenAI的启动资金为10亿美元,但在研发AI模型的过程中,OpenAI承受的经济压力也越来越大的经济,2018年,在不同意公司的发展方向后,马斯克于2018年离开了OpenAI。
没过多久,OpenAI开始转变为盈利性公司,之后还获得了微软10亿美元的投资。据悉,这次OpenAI的API服务就与微软注资和Azure的技术支持密不可分。目前微软成为了OpenAI的*云供应商,同时 OpenAI 也会和微软合作开发 Azure AI 超级计算技术,并授权微软使用其部分技术进行商业化。
值得一提的是,此前NLP(自然语言处理)并不是Open AI最为关注的领域,不过他们在自然语言处理方面成果一直是业内关注的重点。
按照常理,GPT-3之前已经有了GPT和GPT-2。查阅资料,可以发现GPT和GPT-2分别在2018年和2019年2月由OpenAI发布。
具体来看, GPT是Generative Pre-training Transformer的简称,是由Alec Radford编写的语言模型,它采用了生成式语言模型(两个神经网络通过竞争相互完善),通过对不同的书面材料集与长篇连载文本的预训练,能够获取世界知识并处理长程依赖关系。
GPT-2是一个无监督的转化语言模型,该模型以40GB文本进行了训练,适合识别附近的单词,用于自我思考,使专家能够创作出*说服力和连贯性的作品。
比如有人使用GPT-2 来重写《权利的游戏》的结局,并得到了大多数网友的认可,“AI改写的新结局比电视剧的版本要好”。
据报道,马斯克并不愿意发布GPT-2,因为他担心它可能被用来向社交网络发送假新闻,因此,OpenAI选择不公布完整的GPT-2模型。正是如此,行业内还曾质疑这是出于对自家产品的过于自信,甚至还被怀疑是一种炒作说法。
不管怎样,可以肯定在GPT-2的发布与应用已经达到了出圈的效果。而GPT-3主要目标是在GPT-2的基础上用更少的领域数据、且不经过精调步骤去解决问题。
所以承载着满满期待的GPT-3一经面世就备受瞩目,还需要指出的是,GPT-3的 API服务也是Open AI*个商业化的项目,同样也肩负着营收的重担。
突破和延续
外行人看热闹,内行人看门道。
关于对GPT-3的评价,业内也是褒贬不一,有人说它是跟新冠病毒一样,是来消灭人类的;有人说它是继比特币之后,又一个颠覆性的新技术。一个事实是,文本生成器早在几年前就已经出现了,甚至还曾被报道称,要取代文字工作者,而现在除了少部分企业应用之外,其存在感着实平平。
虽然这些日子,GPT-3因其在有限输入下可实现令人难以置信的事情而成为头条新闻,并引起广泛的讨论,但在内行人看来,其只是在模型参数上迈出了一大步,而这还没有GPT-2带来的突破大。
毋庸置疑,它是有史以来功能最强大的语言模型,这主要归功于拥有1750亿个模型参数,它的算力特别大,训练这样一个模型大约要花费1200 万美金。相比之下,它的前身模型GPT-2只有15亿个参数。
更为形象一点,据知乎网友@TechOnly,人类大脑拥有1000亿个神经细胞(百度百科),而在人长大的过程中,神经细胞数量没有增加,而是神经连接复杂度在增加,说明GPT3的内部网络结构设计和训练策略有很大提升空间,而GPT3 1700亿的参数的存储也许够了,感觉未来五年到十年NLP还会有巨大突破性发展。
可怕的是,从某种程度上来说,人类尚不清楚GPT-3到底有多大的能耐。
此外,GPT-3主要聚焦于更通用的NLP模型,研究者们希望 GPT-3 能够解决当前 BERT 等模型的两个不足之处:对领域内有标记数据的过分依赖以及对于领域数据分布的过拟合。
当GPT-3抛开华丽的参数外表,在本质上,其技术架构上的突破是微乎其微的,更多是是延续了GPT-2的单向语言模型训练方式,而GPT-2 则展示了一种对语言的全新理解方式。
对此,一位GPT-2 的热心用户还发表文章称:“GPT-3是一个令人失望的语言模型”,文章指出:
把它叫做“GPT-3”很碍眼,而且会误导人。GPT-2(可以说)是一项开创性的进步,因为它*次向人们展示了大规模的 transformer 拥有多大的力量。所以GPT-3 完全称不上什么本质上的进步,甚至在新的基准测试SuperGLUE上表现都不怎么样,它也就相当于把人的右手绑背后还能勉强画一幅画的水平。
硬币的两面
除了外界的热议,OpenAI在GPT -3身上也有着犹豫和纠结,毕竟讲好商业故事,某种程度上会牺牲部分情怀。
一方面,可以预见GPT -3给AI行业,乃至整个社会带来的改变被看做是颠覆性的,它涉及到伦理,偏见,种族歧视等诸多因素,而OpenAI的初衷是为了让人们更安全地使用AI,而现在或多或少,GPT -3与这个初衷相悖了。
ZeroCrater的创始人兼企业家Arram Sabeti在一篇博客文章中写道:“它比我尝试过的任何AI语言系统都更加连贯。GPT -3:一种非常擅长编写几乎任何东西的AI。”
“你所要做的就是编写一个提示,并添加可能认为会跟进的文本。我已经写了歌,故事,新闻稿,吉他谱,访谈,论文,技术手册。这很有趣而且令人恐惧。我觉得我已经看到了未来。”
在GPT-3论文中,研究者还表明GPT-3可以生成人工评估人员难以区分的合成新闻文章,而这种“以假乱真”无形之中就会助长假新闻、欺诈、水军等现象。
另外早在今年4月30日,通讯软件sendblue的员工尼基塔.杰休(Nikita Jerschow)就在社交媒体上发帖称,他让2个GPT-3的AI辩论股票市场,结果AI竟然谈论起了人类的局限性,让人不寒而栗。
说实话,即便如此,这些常规的文本操作在业内人眼里也并不值得一提,因为文本生成早已是司空见惯的事情,以至于我在一个月前体验GPT-3的文本生成功能时,因为没有看到惊喜,所以草草地就关了页面。
除了这些常规项目,GPT-3在代码编程领域带来的改变才算得上是惊人。GPT-3经过了整个互联网数千亿个单词的训练,它能够使用CSS、JSX、Python等任何一种语言编程。
举例来讲,一位从业者编写了一个布局生成器,用户使用纯文本来描述他们所需要的内容,然后模型生成相应的代码。
另一方面,OpenAI期望投入如此巨大的GPT -3能够在营收,甚至盈利上带来回报,但现在商用模式,产品定价等等都不算明确,还被外界调侃为“挤牙膏”。
作为OpenAI 的*商用产品,目前该文本生成 API 正在分发早期版本,以便开发人员和商人可以测试该程序并为潜在的购买者发现其用例,售价也不得而知。
不过官网显示,目前为止,OpenAI已经与十几家公司合作,其中包括搜索服务提供商 Algolia、精神健康平台 Koko、Replika、以及社交媒体平台 Reddit等等。
以至于,为什么OpenAI选择发布API而不是开源模型?OpenAI官方表示三个主要原因:
首先,将技术商业化有助于为正在进行的AI研究、安全和政策工作付费。
其次,API的许多基础模型非常庞大,需要大量的专业知识来进行开发和部署,并且运行起来非常昂贵,这使得除了大公司以外的任何人都很难从基础技术中受益 。
第三,API模型可以更轻松地应对技术滥用。由于很难预测我们模型的下游用例,因此通过API释放它们并随着时间的推移扩展访问范围。
不可否认,即使是OpenAI亮出的GPT -3也将面临着AI领域落地难的普遍问题。
对于GPT -3的盈利前景,知乎网友@Dr.Wu表示,“GPT-3可能还是无法帮助OpenAI盈利,也无法直接上线显著造福网民,但是从中积累的大模型训练经验是OpenAI和他背后的微软Azure一笔巨大的财富。这就像,人类登上火星/月球可能并不能带来直接的资源收益,但是从中积累的科学技术却可以推动人类社会的发展。”