这一周,百度因为在一个比赛中作弊被推到舆论的风头浪尖。
2张彩票和200张彩票
事情原委还要回到5月中旬,彼时百度宣称其在ImageNet(图像识别*数据库)的图像识别测试挑战赛中击败了谷歌(微博)和微软,称其图像识别错误率低至4.58%,而微软是4.94%,谷歌为4.8%。而在这种测试中,人类辨识ImageNet照片的错误率为5%左右。
ImageNet这项比赛的全称为Imagenet Large Scale Visual Recognition Challenge(ILSVRC),由来自斯坦福大学、密歇根大学以及北卡莱罗纳大学教堂山分校的学者举办,是目前最权威的图像识别测试。该测试主要衡量计算机识别图片中的物件的能力,其原理基本上和百度谷歌都有的识图应用一致,不过测试的数据集规模极大,标准更加严谨详细。
该比赛从2010年开始举办,至今已经是第六届,参与比赛的学术组织和机构达到了50余所,大多来自世界知名大学的人工智能研究所以及科技界巨头企业如谷歌、微软等。
参与者需要扫描拥有100多万张图片的数据库,将它们归到1000个不同的类别之中,并对通过识别自动给每张图片添加注释,最后将结果上传到ImageNet的评估服务器上。最终比赛排名结果及各项指标将由ImageNet在比赛结束后审核公布。
然而本月初,ImageNet随后却发文指责百度在测试中存在违规作弊行为。因为按照测试的官方规定,参与者每周只能向服务器提交2次测试结果,而百度却在5天内提交了40次结果。此外,ImageNet表示,百度还使用了30个不同的账号,在过去6个月中提交了约200次测试结果。
通俗的来讲,百度这种做法可以理解为在其他团队只购买2张彩票的情况下,它却购买了200张彩票以提高中奖概率。
ImageNet将此情况通报给了所有参赛团队,对百度的成绩予以否认并禁止百度1年内不得参加该比赛。
百度的不遗余力
与谷歌类似,百度都是以互联网搜索为基础的技术导向型公司,手头握有大量的用户和数据积累,对于进行大数据挖掘,探索人工智能有着天然的优势。它也确实学着谷歌一样在各个领域加强自己的创新技术探索,人工智能就是其中极为重要的一部分。
在人工智能这个大领域百度的探索和研究都可谓不遗余力,且在多个细分小类别都有巨大的投入。
其中,就包括引进权威人才吴恩达及组建硅谷研究中心。2014年5月,百度宣布在美国硅谷成立人工智能的专门研发中心,并从谷歌挖来了深度学习权威学者吴恩达(Andrew Ng)任命其为百度深度学习研究院首席科学家。吴恩达不仅是斯坦福大学计算机科学和电子工程学的学术风向标,更因其一手创建并领导了谷歌深度学习团队,被业界誉为“谷歌大脑之父”,百度能聘到这样的权威级人才实属不易,可见其重视和投入。
去年底,美国《福布斯》发布文章称,吴恩达及研究团队发明了一种新的语音识别方法,这款基于深度学习的名为“Deep Speech”语音识别系统可以在嘈杂环境下实现将近 81% 的辨识准确率。卡耐基梅隆大学工程学助理研究教授Ian Lane对其的评价是“百度研究院最近的工作有可能颠覆语音识别在未来的应用效果。”
而百度目前在国内拥有十几座云计算中心,为满足大数据在计算和存储上的高要求,还投入使用了4万兆交换机,并在探索10万兆的交换机。百度在GPU高性能计算机上的投入也是十分下血本,其美国研发中心的科学家吴韧称百度在2013年刚开始准备组建Minwa超级计算机的时候,购买量在国内达到了第二,“拿不到*是因为天河当然得是*”。
此外,去年9月百度宣布已经与宝马正式签署合作协议,共同研发自动化驾驶技术。利用其地图大数据资源对宝马的车辆导航系统给予支持。而一系列有着人工智能气息的独特产品如BaiduEye、筷搜等也是一时之间占据各大科技头条。
虽然其中一些产品的宣传意义远大于实际意义,但我们也可以从中看出百度人工智能领域的重视。甚至,一些国内外媒体都将其直接和谷歌、微软、Facebook等国际科技巨头相提并论。由此“百度人工智能”的名声也随着水涨船高,旗下科学家也是频发论文、四处讲演等,博得了不小的学术声誉。
国际同行的口诛笔伐
百度ImageNet违规作弊事件也许在普通公众看来好像并没有什么大不了的,不就是参加测试不规范钻了个空子么?但这对于百度在人工智能图像识别这个学术领域的国际地位是沉重的打击。
国际学术界各大评测和比赛的主旨是希望通过竞争促进研究发展,所制定的各种规则也一般都主要靠参与者的自律,其他国家的学者更关心的都是该领域的真正进展,而不仅是最后的成绩排位,违反学术诚信的事情即使可能不被发现一般也坚决不会去做的。结果百度一来参加这个比赛就被发现作弊,这在学术界*算让人大跌眼镜的事情。
不少国际学者对百度此举也是不留情面地批评讽刺,美国艾伦人工智能研究所的CEO Oren Etzioni将百度比喻为疯狂买彩票的投机彩民;而加州大学一名计算机科学界Jitendra Malik更是用嗑药来讽刺百度:“如果你100米跑出了9.5秒,但你实际上是嗑药吃兴奋剂才取得的,那这个成绩怎么可信呢?”
截至目前,百度对此并没有对此事件进行公开回应,不过ImageNet官网公布了一封据称为百度深度学习小组的科学家Ren Wu的道歉信,信中Ren Wu称此次事件为一次“失误”:我们已经在论文中添加了注释……并将继续提供相关更新。
当然,这种解释信不信由你了。