智能语音还会是AI时代的入口吗?
播客《故事FM》曾经在2020年7月份做过一档与微软小冰对话的节目,节目中首曝微软内部版本「小冰F201」。相比于被阉割的公版智能语音,「小冰F201」细腻的语调和音色,与真人不分轩轾的语气用词,说话时的抑扬顿挫,足以让听众难辨真假。
未见其人,先闻其声,自2017年苹果发布智能音箱以来,语音交互就被认为是AI时代的*入口,成为京东、百度以及阿里竞相追逐的香饽饽,他们指望用低价+补贴的互联网打法抢占市场。但随着人工智能发展,语音交互却不再性感了,就大多数用户习惯而言,需求仍然局限在家庭和车载场景,难以像iPhone出现伊始那样,产生革命性的影响。
直到2020年,肇始于新冠疫情的严峻形势,产业再次风起云涌。无接触交互的要求让智能语音走向了台前,而这项技术也随着疫情常态化愈发成熟,在安静的近场场景下,语音识别的准确率已经普遍高达98%。
就在新一年的1月3日,沈阳市疾控中心启用了AI语音拨打问询系统,对特定时间内进入医疗机构37万余人的身体状况和隔离情况进行甄别,AI语音在搜索未隔离的发热人员任务上不负众望,共发现新增密接24人,1例阳性感染者。
与此同时,远程办公和医疗的场景也催生了会议语音转写、专业领域语音助理的特定需求,进而形成了庞大的专业级智能语音市场。
这都让我们看到,智能语音的应用场景正在突破常规的想象力,对于久久不能利用音箱业务破局的智能语音企业而言,无疑是打开了另一扇窗,也必将是2021年的重要趋势。
01、音箱、家居、汽车,智能语音何以落地
过去五年间,智能语音的需求*在消费级市场爆发,靠着互联网及智能设备厂商加大语音识别的经费投入,价格补贴战就像一管强心针扎进了市场。
奥维云网(AVC)数据显示,2020年H1中国智能音箱市场销量为1908.6万台,同比增长22.7%。阿里、百度、小米三足鼎立,行业集中度态势明显,三家企业份额占比高达95.6%,中小玩家的生存空间不断被压缩,2019年形成的马太效应竟延续至今。
2020年H1中国智能音箱市场主要品牌销量份额
数据来源:奥维云网(AVC)推总数据
2020年初,阿里巴巴将天猫精灵业务升级为独立事业部;5月,天猫精灵战略变阵,以期打造内容、服务及AIoT生态。紧锣密鼓的市场动作,表明阿里对天猫精灵前景的重视,而天猫精灵坐拥渠道资金、众多合作伙伴等优势因素。2020年上半年天猫精灵市场占比达到34.7%,持续保持行业领航者的地位。
与从产业切入的阿里不同,小米依托多年布局的生态链,激活了庞大的用户群、海量数据和应用场景,以此初步构建自有IoT生态。
中国智能音箱市场分月度销量
数据来源:洛图科技 单位:万台
在20年初,雷军确定了“手机+AIoT”的双引擎战略,把硬件产品放到与手机同等重要的位置上。作为AIoT生态的入口级产品,智能音箱是战略的先遣队,借助丰富渠道、生态链联动等优势,2020年H1小米线上销量同比增长52.3%。
「All in AI」的百度自然也没有落下这波浪潮,早在2019年,凭借高品质的硬件产品、相对*的AI技术实力,百度在智能音箱行业中快速取得话语权。2020年上半年,百度连续发布三款带屏音箱,继续巩固了自身屏幕音箱领域的*地位。
三家企业互相竞争的底层逻辑并无不同,音箱一度被认为是唤醒智能家居的重要一环,以此联动整个AI生态。但是,整个行业面临的痛点至今仍未解决,音箱设计落入了APP式思维的窠臼,由于多个服务平台鼎足而立,相互掣肘,只能形成局部范围内的智能家居生态体系。
正如CSHIA(智能家居产业联盟)所分析,智能家居未能破局的原因在于,一是没有一家企业可以提供智能家居全系产品,二是没有统一的互联互通标准协议。“这显然束缚了智能语音的使用场景,用户体验相当割裂”。
但2020年值得注意的变化是,随着国产电动汽车的崛起,从车载语音切入成为语音交互落地的新风向标。作为电动车企新势力之一,CEO何小鹏就曾在小鹏P7发布会上表示,“未来车内*的交互方式就是语音交互”,正是这个原因,小鹏押注了智能语音助手,与智能语音公司思必驰合作,构建一套相对成熟的语音系统。
资本市场也敏锐地察觉到了这一趋势。在2020年4月7日,思必驰完成了E轮4.1亿元融资,由国调国信智芯领投,北汽产投等跟投。11月初,智能语音行业“元老级”选手云知声,在资本寒冬中递交科创板上市招股说明书,计划冲击“智能语音*股”。
据调研机构Research and Markets统计,截至2020年9月,车载语音安装率达到了64.8%。从价格区间来看,30-50万元价格的汽车语音普及率较高,2020年前9个月保持在90%以上。
此外,从2020年的供应商格局来看,科大讯飞仍然坐拥市场头把交椅,占有率超过三分之一。2020年年底,科大讯飞发布更新了智能语音体系,新增多项功能,完善了汽车语音交互的体验。
在配套政策、市场需求的推动下,多方涌入的车载语音市场不断扩大,BAT御三家已经开始了车载语音业务。其中,百度的发展速度较快,市场占有率超过5%,并与全球多个知名汽车品牌建立了合作关系。百度车联网事业部总经理苏坦认为,汽车智能化时代已经真正到来,未来2-3年,发展和变化会很迅速,这也是相关企业加快动作的原因。
消费级市场的繁荣为智能语音落地找到了更加多元化的场景,从业者都在翘首以待,在供应商和开发者共建产业生态圈的过程中,智能语音与其他软件功能融合为消费者提供连通式的体验。那一天将是行业革命的火种。
02、专业级场景爆发,技术泛用寻求破局
腾讯云技术人员介绍了一个颇令人深思的案例,以一个拥有2000人的小区为例,如果依靠人工的话需要20个调查员,6个小时才能完成,而通过疫情防控联络服务1小时即可以完成排查。
的确,今年突发的疫情成功检验了智能语音的可靠性和稳定性,通过深度学习和神经网络技术,智能语音也适应了更多复杂的使用场景,解决了专业级市场用户的使用痛点。
所谓专业级市场的语音识别产品主要以两种形式呈现:行业解决方案和平台化技术输出。由于后者的平台建设仍处于烧钱扩张的阶段,需要深耕垂直场景的行业解决方案收入占比更高,这其中包括了智慧医疗、智慧教育、司法政务以及智能客服领域。
例如,复工复产期间,为了保证疫后安全,智能语音在政务方面发挥了关键作用,如腾讯推出的“AI政务联络机器人”,可与辖区居民联络,完成政务信息的传递工作,弥补由于人力不足导致的疫情防控难问题。
同时,AI在医疗行业也有所助力,智能语音的应用主要有两种:
①电子病历语音录入与转写、临床报告语音录入与转写。语音录入在提高医生工作效率和工作质量的同时,医院方也可以科学管理诊疗过程和诊疗信息。
②随着语音病历的积累,利用大数据技术和深度学习技术能够挖掘医学案例语音资料的价值,实现智能辅助诊疗。
具体来说,智能语音的底层技术之一NLP(自然语言处理),其发展为研究人员提供了高效的手段处理数据量庞大、数据维度丰富的医疗数据,完善医患之间智能交互和数据监测。单看2020年变化,大数据管理、语音录入赛道的头部企业开始寻求上市。
这条思路同样在司法系统中得到实践,基于自然语言处理技术,AI+智能客服对用户输入做语义分析,精确识别用户的实际需求,然后据此在后台知识库中寻找最合适的答案。
这意味着,程式化的、重复性的诉讼咨询工作可以交给智能客服程序自动应对,遇到复杂的用户提问交转给人工处理,能够快速响应、有效回答用户提问。
细数各个产业的背景不难发现,智能语音的应用思路都有一条大方向的主线,即如何更好地利用AI赋能产业,思考AI能为人带来什么,而不是关注于AI本身。
事实上,这条主线在2017年国务院发布的《新一代人工智能发展规划》就有所定调,文件中“开源开放”被确立为基本原则之一,并提出“构建开放协同的人工智能科技创新体系“的重点任务。
在商业环境瞬息万变,企业间竞合加深的大背景下,智能语音技术开放正在形成一个正反馈,场景需求产生数据,数据促进技术迭代,在行业的应用将逐步多样化。
03、智能语音还会是AI时代的入口吗?
纵使智能语音在前述的多个场景得到应用,答案仍然很明确,不再是了。
说原因前,需要先回溯AI语音的上游技术领域,这里是互联网巨头逐鹿的战场。
一个完整的对话交互是由“听懂——理解——回答三个步骤完成的闭环,其中,“听懂”需要语音识别技术;”理解“需要自然语言处理技术;“回答"需要语音合成技术。三个步骤环环相扣,相辅相成。语音识别技术是对话交互的开端,是保证对话交互高效准确进行的基础。
再抛一个相对硬核的技术概念,语音识别解码包含了两个部分——声学和语言模型的识别建模和模型训练。
运行过程中,训练数据量和计算量需求极大,传统处理器往往无法快速单独完成一个完整的模型训练,无法满足海量数据计算的实时性。所以,能提供海量数据处理、存储以及高性能计算能力的云计算技术成为智能语音行业的应用热点。
目前,主流智能语音公司的模型训练和语音识别,基本是靠BAT御三家提供的云计算服务,底层技术的发展决定了未来智能语音的增长曲线。
事实上,在个别应用场景领域中,上游技术领域正在向下延伸,吃掉中游(科大讯飞、云知声)商业化应用的市场。基于云计算的智能语音技术应用市场,其销售规模已近乎*于头部的基于传统硬件厂商所服务的市场规模。
原因在于,大多数中小开发商倾向与”御三家“合作,从而在低成本的情况下,在平台上获取最前沿的云上智能语音技术和行业语音解决方案。过去一年,已有超过5万家语音客户与阿里云智能语音达成合作,覆盖多行业场景,包括中国移动、中央电视台、招商银行在内的传统行业的大型企业。
技术的迅速融合和多元化场景展现出了智能语音本身的弊端,谷歌交互设计师吴升知曾做过对比,语音控制的优势在于更加直觉化和带给用户情感化的体验,大大降低用户学习成本,但线性的语音输出反而束缚了交互方式本身,因此它无法同时输出很多内容,这是语音*的劣势。
举个直观的例子,人们非常不愿意在公共场合与AI对话,因为不符合传统的社交习俗,即便语音搜索更快,“你愿意在地铁里用语音让Siri给你播放喜欢的歌曲吗”甚至是一句哲学意义上的天问。
从这一点来看,语音交互更多还是应用在家庭、汽车这样相对私密的空间。行业的一个普遍共识是,交互设计时需要充分利用视觉与听觉的互补性,智能语音是必不可少的一部分,但使用场景仍然非常有限,不太可能成为单一的AI入口,从目前的发展来看,多模态交互(多种技术融合)才是主导趋势。
网易有道语音负责人孙艳庆此前接受采访也谈及,目前智能语音处在快速落地阶段,除了常规单一技术的直接落地,更多的是深度结合业务场景的定制形态,甚至是多项技术组合的形式。
所以,智能语音是观察AI商业化发展的一个切入视角,负责开发微软小冰的沈向洋曾在2016年接受采访时表示,语音的彻底主流化已经“不是一个需要讨论的问题,只是一个时间和习惯转移的问题”。
他当时预计,计算机语音识别在噪音和非噪音环境下,最多五年便可超越人类的识别率,视觉识别可能要十年左右。
时隔四年,智能语音的技术确实潜移默化地改变了我们的生活。但随着AI进入更加多元化的生产和消费场景,智能语音已化为一道潜流,将融入即将到来的AI时代,融入到下一个仍在迷雾中的革命性交互体验。