【腾讯科技编者按】手机功能越来越先进,“手上人工智能”正在成为一种趋势,一些应用不再使用云服务,而是在手机本身上完成人工智能(AI)计算,而一些业界人士也认为,大部分移动应用未来都将成为AI应用。外媒fastcompany分析了这一趋势。
苹果iOS 10正式版将于9月13日开始推送,iPhone机主升级系统之后,就可以找到几乎在任何时候和任何地方,任何人或任何东西的照片。
新的iOS 10的神经网络人工智能可以在十分之一秒的时间里进行110亿次计算,不仅能辨别出每张照片里的人是谁,甚至能辨识出他们的情绪如何。
“手上人工智能”正在成为一种趋势,iOS 10的照片应用只是最新的一个例证。
今年1月份发布的应用Aipoly可以识别物体,并大声说出这些东西的名字,为盲人用户带来了福音。
而且,如果你使用谷歌翻译,只要把摄像头对准一些文字,它就能把这些文字翻译成另一种语言。就算是在没有蜂窝信号的地方,这些功能也可以使用。
在手机上进行AI处理的好处
对于“它的工作原理是怎样”这样的问题,“云计算”正在成为某种标准答案,但是,智能手机已经夺回了一定的独立性:本来需要与服务器中心连接才能执行的一些任务,现在直接在手机上就能完成。
这可以为用户提供更加自然流畅的AI经验,因为不需要互联网连接到数据中心,就不会有令人心烦的滞后现象。
“如果我说,'嘿,Siri的,这是什么?”它需要两秒钟的时间把照片发送到云服务并获得回应,”Aipoly的联合创始人阿尔贝托·里佐利(Alberto Rizzoli)说。
“感觉就像是在和一个刚刚从梦中醒来的人交谈。” Aipoly不是*次试图帮助盲人看东西的应用;但它是这类服务中*个不依赖云服务,直接在手机上运行AI,立即识别东西的应用。”
有了这样的即时AI,增强现实(AR)就可以远远超越Pokémon Go的层次,准确地映射周围的环境,把3D物体、人物和动画插入到手机或平板电脑屏幕上的视频源中。
同样,有了移动AI,虚拟现实(VR)看上去也会更加逼真。
手机芯片制造商高通的产品管理总监加里·布洛特曼(Gary Brotman)是机器学习平台的负责人,他说 :“要正确实现VR,所有东西都必须是完全实时的。你必须要能够呈现视频和音频,拥有支持眼动跟踪、头部跟踪、手势跟踪以及空间音频跟踪(以便把房间的声学效果映射到虚拟体验中)的人工智能。”
AI也将为用户提供一些非常方便的功能。里佐利说,以后的虚拟助理可能会使用手机摄像头来识别你所在的位置,比如具体是在哪条街道,哪个餐馆,并调出相关的应用。
而且这些方便的功能可能不会再有延迟。如果未来的AI并不需要云计算,那么云计算就不需要掌握你的个人信息。
“在手机上进行分析和人工智能处理有很多好处,比如保护隐私,消除延迟等等。”布洛特曼说。
是什么把AI的力量赋予了手机?是电子游戏。
“人们希望在手机或者平板电脑上玩更好的游戏,”里佐利说。 “因此,苹果变得特别擅长于提供更好的性能,高通和其他芯片厂商也是如此。”这推动了移动CPU和GPU的发展。
虽然大部分的CPU都是顺序执行任务的,GPU却可以并行执行简单但数量庞大的任务,这是快速渲染3D图形所必需的。另外,AI也需要硬件可以连着执行多个简单任务。
就拿“卷积神经网络”(当前主流图像识别技术)举例来说吧,它仿照大脑视觉皮层的工作原理,把视野划分成一个个重叠的小块,然后以一层连一层地过滤简单的细节,比如这些小块的边缘。
这些信息被传输到另一层神经元(对人类来说生物性的,对软件来说是虚拟的),它可能会把边缘合并成一条条线;另一层神经元可能会识别出原始形状。
每一层(可能有几十层)都会进一步细化对图像的感知。“你在看一张照片的时候,你会在同一时间识别出它的各种元素,”里佐利说。 “你识别出边缘,识别出形状。这一切都可以并行进行。”
对硬件的需求
早在几年前,智能手机的芯片已经准备好了迎接这种挑战。在升级iOS 10之后,即使是2013推出的iPhone 5s也足以支持新的人脸识别、场景识别,以及对象识别。
Aipoly正在制作可以在iPhone 5上,以及可以在上市已经好几年的Android手机上运行的版本。但是程序员最近才刚刚开始利用这种能力。今年6月份推出的照片*应用Prisma就是其中的佼佼者。
这个应用是25岁的阿列克谢·莫伊申科夫(Aleksey Moiseenkov)开发的。
Prisma用户可以把智能手机上的照片用30多种艺术风格进行加工,比如“呐喊”、“蒙德里安”风格等等。加工后的效果呈现马上就可以呈现出来,用户完全不会注意到背后的计算有多么复杂。
Instagram上的那种滤镜提供的是简单的调整,比如颜色、对比度、亮度或白平衡等等基本参数的调整。 但Prisma需要分析图像,识别出相似的形状、线条、色彩和阴影等等元素,然后以蒙克(Edvard Munch)或蒙德里安(Piet Mondrian)的风格进行重新绘制。即便是平淡无奇的照片,经Prisma加工之后也可以呈现出惊艳的效果。
Prisma最初使用了云服务来完成这些工作,但莫伊申科夫说,这么做损害了该应用的质量。
“我们有很多的用户在亚洲,”他说,“我们需要给他们提供同样的体验,无论他们用什么方式上网,无论服务器在哪里”。
8月份推出的iPhone版Prisma完全在手机上运行,莫伊申科夫目前正在开发完全在手机上运行的Android版Prisma。
而且Prisma即将推出一个既可以对照片又可以对视频进行艺术化处理的版本。发布时间可能就在本月内。
莫伊申科夫说,“把视频上载到服务器进行各种处理,比处理照片更加复杂得多,”所以,直接在手机上实现艺术化处理是至关重要的。
厂商提供的支持
为了让AI软件能在手机上运行,莫伊申科夫和他的团队不得不从零开始编码,但以后可能不会这么辛苦了。
今年5月,高通为骁龙820芯片推出了一个软件开发工具包,名为“神经处理引擎”(Neural Processing Engine)。
2016年的高端Android手机,如三星Galaxy S7和Note 7,Moto Z和Z Force 、 OnePlus 3 、HTC 10和LG G5,都采用了骁龙820芯片。
这个软件可以在CPU,GPU和该芯片的其它部件之间切换,以支持场景检测、文字识别、面部识别和自然语言处理(理解语音对话,而不是仅仅是理解命令式的语音指令)等任务。
专业AI芯片也正在研制之中。一家名为Movidius的公司推出了VPU(vision processing units,意思是视觉处理单元),对计算机视觉神经网络进行了优化(就在本周,芯片巨头英特尔达成了收购Movidius的协议)。
DJI的Phantom 4无人机就搭载了该公司最新的Myriad 2芯片,用来帮助无人机发现和避免障碍物,在空中悬停,并跟踪自行车或滑雪者这一类的移动物体。
Myriad 2的功耗大约只有1瓦,足以在手机上运行。对于Movidius未来的产品,该公司做过一些模糊的声明。
今年6月,它公布与联想公司“达成战略合作伙伴关系,为各种以VR为中心的联想产品提供先进的视觉处理技术。”这些产品可能是VR头盔,或者是手机,或者两者都包括。
今年1月,Movidius和谷歌宣布合作“以加速移动设备上的深度学习”,但之后 Movidius就不再透露和谷歌交易的更多信息。
苹果的AI规划
苹果在今年6月推出iOS 10预览版之前,对自己的AI计划一直都含糊其辞。
照片应用可能占了苹果AI计划的大头。它使用了神经网络深度学习过程,可以识别照片中的场景、对象和人脸,把它们进行归类,让用户可以搜索它们。
其Memories功能可以把你出现过的照片和视频组合起来,或某个地方的照片和视频组合起来,或者是它认为涉及一个重要事件(比如一场旅行)的照片和视频组合起来。苹果说,直接在手机上完成全部工作可以保证个人信息的私密性。
苹果公司的预测打字功能也运用了神经网络,这个功能可以帮助你完成句子,其实早在iOS 10之前,苹果就已经在使用AI。
2014年7月,苹果把Siri转移到了一个在手机上运行的神经网络系统上,以改善Siri的语音识别能力。
Siri现在是应用开发商利用iPhone AI系统的一条路径。苹果尚未像高通为骁龙芯片做的那样,为其A系列芯片发布AI编程工具,但苹果有一个叫SiriKit功能,开发人员可以把自己的应用连接到这个功能上,这样一来,用户就可以通过与Siri聊天的方式,与开发人员的应用进行交互了。
而且苹果在帮助第三方开发者利用AI上付出的努力,未必落后高通多少。
最近苹果花费了据说2亿美元,收购了一家为程序员提供AI工具的公司,名叫Turi。而且开发者还将获得更加强劲的动力:在iPhone 7和7 Plus上,新的A10 Fusion芯片拥有一颗CPU,运行速度比上一代iPhone的CPU快40%,另外图形处理速度也加快了50%。
随着AI在科技领域开疆拓土,它似乎注定会在手机上获得增长。用户越来越期望设备能够理解他们想要什么,他们的意思是什么。
“我可以说,大部分移动应用都将成为AI应用,”纳尔多·曼纳洛托(Nardo Manaloto)说。他是AI工程师兼顾问,侧重于医疗保健应用,比如虚拟医疗助理等等。
阿尔贝托·里佐利预计,明年1月的CES大会上将涌现大量新的应用。
“有了更多的深度学习软件工具之后,应用开发人员在这方面的意识就会增强,他们就会跟随这种发展,”他说。
“目前计算机科学领域有很多人仍然觉得这是一种黑科技……当然事实上并不是这样。”