《圣经·旧约·创世记》第11章记载,当时人类联合起来兴建通往天堂的高塔,为了阻止人类的计划,上帝让人类说不同的语言,让人类彼此不能沟通,计划因此失败。
现在,临界点即将到来,人类的跨语言交流将因大数据和人工智能变得前所未有的便捷。
5年积累了33种语言100亿句对高质量语料,语料准确率95%
“我们已经搜集了33种语言的100亿句对语料,2018年底,语料将达到150亿句对的规模。”UTH国际董事长兼首席执行官杜金林说。
杜金林曾任职于华为上海全球化翻译中心,专注做本地化业务二十年。从2012年创立UTH至今,只做了一件事,不遗余力地收集多语言大数据,凭借100亿句对的语料量成为国内乃至世界范围内最大的多语言大数据中心。当前,UTH语料涵盖教育、法律、金融、制造业、生命科学等多个垂直领域。在具体的专业领域,UTH的准确率高达95%。
“UTH的语料来源,首先是团队本身多年的积累,更大数量的来源是语料交换以及购买。”杜金林说。UTH积累了海量精准语料。
当时的语料交换和购买成本还很低,但近年来,大家已经意识到语料大数据的价值,语料的市场价格也在快速增长,所以,后来者的成本壁垒也在筑高。而单纯地从互联网上获取的语料并不现实,因其背后有三大弊端:第一它们可能是机器翻译产生的低精度的语料;第二种是内容本身来自网络恶搞语言;第三种是翻译本身不地道。
最初,杜金林是要为国内外高等教育、科研院所、跨境电商、文化旅游等多个领域提供多样化的语言服务解决方案。而现在,杜金林要做的不仅局限于此。与人工智能公司的合作将为语言翻译带来颠覆式的影响。
人工智能桂冠上的明珠是对语言的处理,这是人工智能里最难突破,也最有价值的部分。而人工智能的语言处理核心有两个:一是NMT(神经网络机器翻译)技术,二是海量的高质量语料。对于许多高科技公司来说,技术水平差异不大,更为核心的是语料的数量和质量。
也正因此,创立5年,拥有世界上最大的多语言大数据之一的UTH成为搜狗的战略投资目标。
鼎晖投资3年前发现,搜狗1个月前战略投资
UTH成立至今,已经拿到了4轮融资,机构想要进入越来越难。
2012年成立之初,UTH国际获得百万级天使投资。2014年底,UTH国际获得鼎晖投资的4,000万元人民币A轮投资。2016年7月,UTH国际获得杭州老板实业集团有限公司的3,000万元人民币A+轮投资。
今年8月,UTH国际完成4,200万元人民币B轮融资,搜狗为战略领投方。
搜狗战略投资UTH国际,看重的正是其多语言大数据中心,目的是为了快速推动搜狗在人工智能语言理解方面的产品研发和全球化布局。另外,除了搜狗机器翻译所擅长的中英互译之外,UTH国际的多语言数据库将提升搜狗翻译的小语种和多语种互译服务。
未来战略:到2018年底与20家公司形成深度战略合作
当前,UTH的团队中60%是技术人员,30%运营人员,10%为后台支持人员。核心团队是来自华为(HUAWEI)、甲骨文(Oracle)、微软(Microsoft),以及世界排名前五的莱博智(LionBridge)及思迪(SDL)的顶级专业人员。
接下来,UTH将加强与各大互联网公司、AI公司的合作。目前在业务层面,搜狗、腾讯已经接入UTH国际的多语言大数据中心,与阿里巴巴、科大讯飞、新东方等科技巨头正在探讨深度合作的可能。除了上述大公司外,基于一带一路的跨国企业、本地化公司、翻译公司、兼职翻译、高校等也是UTH业务方面的合作方以及用户。
UTH 计划推出“UTH+” 战略,一是UTH+AI(人工智能),参股基于人工智能和物联网方面的企业,如基于人工智能的自动化写作。二是 UTH+数据,并购或者参股基于语料数据采集端的企业。三是 UTH+翻译,通过商业模式创新,整合国内优秀翻译服务企业,依托 UTH 的大数据平台,通过提高效率、降低成本、纵向和横向的整合,打造一批基于垂直领域的翻译领军企业,实现翻译服务行业的战略升级。按照UTH的战略计划,到2018年年底将在全国范围内与20家公司形成深度战略合作。
“这是双赢的,一方面,为公司带来业绩增量,在语料的存量和增量方面始终保持高速稳定增长,确保 UTH 的大数据平台处于行业领先的位置。另一方面UTH的多语言大数据语料库以及人工智能的应用可以帮助战略合作公司提升他们在专业领域的服务能力。”杜金林说。
大数据+人工智能的前景是无限的,其终极效果是实现人类跨语言交流无障碍,这似乎并没有想象中那么遥远,“未来5-10年,外语教育体系也将随着人工智能的普遍应用而改变。”杜金林说。