图左一腾讯研究院人机交互中心陈波,左二盛大创新院多媒体院单霆 (TechWeb配图)
TechWeb龙门阵本周的技术专场主题为“视觉识别在移动互联网上的应用”,主讲嘉宾为盛大创新院多媒体院的单霆和腾讯研究院人机交互中心模式识别项目负责人陈波。单霆认为,人机交互技术的本质是“忘记文字,回到原始”。
单霆从技术角度介绍了人脸识别系统,识别过程包括从图像到人脸检测、特征定位、识别到生成结果。60年代、70年的研究以整张脸为特征进行模板匹配,现在则采用了局部特征,一张脸上最多有8个定位点。
人脸识别的特点在于,光线、角度、表情、遮挡物、眼镜、年龄等因素都会影响识别效果。“目前在业内做模式识别(包括人脸识别)的人非常多,集中在科研,大规模的应用比较少,大部分集中在安防领域。”
单霆具有多年的人脸识别及图像搜索经验,现在在盛大创新院负责人脸识别的技术产品研发。他们开发的技术Face-API已经进行了开放,Face-API可提供人脸检测、五官定位、人脸相似度打分、性别检测的接口,需要的开发者或者公司可申请获得邀请码。现有的公司申请者包括搜拍、码图网、应用趣玩网等。
另外,盛大创新院还基于人脸识别开发了一款智能相册,使用户可对手机相册进行按照时间以及人物分类浏览,并且还可将人物与通讯录关联,直接打电话或发短信。单霆表示,智能相册未来还将与更多的SNS打通。
腾讯研究院人机交互中心的陈波介绍了腾讯在模式识别领域做的几方面研究。包括人脸识别、图片识别、语音识别、手写识别等。
陈波认为,人机交互可分为三个阶段:人适应机器的规则、机器适应人的规则、机器和人达成默契。新一代互联网给人机交互带来了新的机会,这些机会体现在云计算的兴起、新一代的移动平台的普及、终端运算能力的提高等方面。
陈波特别提到,智能手机的摄像头可以成为一个重要的信息入口。“让你的手机变成成熟的图像扫描仪。”基于摄像头的交互技术,可以进行拍照翻译、路牌拍照识别、建筑物识别、视频分类、字幕识别等。腾讯据此推出了一款名为“QQ慧眼”的产品,已经在App Store上架。
腾讯在人脸识别、语音识别以及文字识别方面的研究主要应用于腾讯内部产品,比如人脸识别与QQ登陆验证进行关联,QQ输入法的语音功能及手写功能。
另外,陈波认为模式识别在互动娱乐、购物消费领域也可以有很好的应用。
21078起
融资事件
4358.12亿元
融资总金额
11591家
企业
3213家
涉及机构
509起
上市事件
6.31万亿元
A股总市值