随着AI的广泛应用,深度学习已成为当前AI研究和运用的主流方式。面对海量数据的并行运算,AI对于算力的要求不断提升,对硬件的运算速度及功耗提出了新的挑战。机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。机器学习是人工智能的核心要素和基础,主要就是研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,其应用遍及人工智能的各个领域。
要使机器像人一样拥有知识,具有智能,就必须使机器具有获得知识的能力。机器可以直接向书本、向教师学习,亦可以在实践过程中不断总结经验、吸取教训,实现自身的不断完善。这种学习方式一般称为机器学习。机器学习是研究如何使用计算机来模拟人类学习活动的一个研究领域,更严格地说,就是研究计算机获取新知识和新技能、识别现有知识、不断改善性能、实现自我完善的方法。
深度学习是机器学习的一个子集,多层神经网络从大量数据中进行学习。深度学习是机器学习研究中的一个新的领域,它模拟人类大脑神经网络的工作原理,将输出的信号通过多层处理,将底层特征抽象为高层类别,它的目标是更有效率、更精确地处理信息。
要成为一个世界级的AI力量,需要具备三点:*进的算法、专用的计算硬件,以及机器学习系统所依赖的原材料——数据的大量供应。人工智能、机器学习、深度学习、自然言处理等先进技术带来的产业革命和生产力的充分释放,经过多年的创新发展,人工智能让智能设备逐步实现从认识物理世界到个性化场景落地的跨越。
在构成人工智能行业主体的三类企业中,算法企业是推动核心底层技术发展的重要力量,其重要意义在于以算法突破工业界红线,推动其真正达到工业界应用的KPI。这类企业实际上是推动当前人工智能核心底层技术发展的根本力量。从国外的巨头微软、谷歌、FACEBOOK等无不一一深耕超算,国内的微美全息等科技企业也涌上潮头,将超算能力和场景落地结合前行。
而微美全息的全息AI云服务更是在行业中独树一帜。在现有的云服务市场中,科技巨头占据多数,构建基于人工智能的云服务将成为巨头的下一个主战场。AI是信息基础设施的一个升级,是今后产业发展的巨大引擎。巨头都想把握升级过程中涌现的大量机会,赋能全行业。第二,开源是一种开放式创新。通过开源深度学习平台,不仅可以吸引大量开发者,还可以为机器学习提供大量的数据支持,以及大量的现实场景。
微美全息科技已集全息AI云移动软件开发商、处事商、运营商身份于一身,也成为海内*的全息AI领域整合平台之一。在技术储备上超过4654个全息内容IP储备,细分行业龙头企业。各环节技术成熟,客户数量为485,全息AR专利数为224,其中132项专利和92项待审批专利,技术方面日趋成熟。其商业应用场景主要聚集在家用娱乐、光场影院、演艺系统、商业发布系统及广告展示系统等五大专业领域。
微美全息(WIMI.US)以“眼界即视界”为使命,公司建立了全球*、自主研发的深度学习平台和超算中心,并且研发了一系列AI技术,包括:人脸识别、图像识别、文本识别、医疗影像识别、视频分析、无人驾驶和遥感等。全息3D人脸识别软件的开发基于微美的全息成像特征成像检测和识别技术、模板匹配全息成像检测技术,以及基于深度学习和训练的视频处理和识别技术。传统的2D面部识别技术是一种基于面部特征的识别技术,它从面部图像或面部视频流中捕获信息,并自动检测和跟踪目标面部;微美的全息3D面部识别技术是全息成像捕捉和3D肖像的结合的识别技术。
全息AR行业是技术密集型的。全息AR体验只能通过硬件和软件技术的结合来实现,并且与全息AR相关的技术进步将把全息AR体验带入下一阶段。例如,深度学习AI技术的突破将使全息AR设备能够以更加无缝的方式集成由摄像机捕获并由计算机模拟的内容,从而为用户提供更加身临其境的体验。此外,集成芯片的发展将使图像处理器以更低的成本生产,从而降低全息AR器件的销售价格。5G网络的广泛采用将使本地设备和互联网之间的实时数据传输成为可能,从而大大增强了内容的多样性。
微软、谷歌、Facebook、亚马逊、Uber等科技巨头的研究部门已经成为人工智能(AI)领域开源框架最活跃的贡献者之一。据谷歌人工智能研究负责人Jeff Dean透露,谷歌正在尝试通过人工智能程序推进专用芯片的内部开发,以加速其软件。
过去几年中,谷歌开发了一个AI硬件家族——Tensor Processing Unit(TPU芯片),用于在服务器计算机中处理AI。使用AI来设计芯片是一个良性循环:AI让芯片变得更好,经过改良的芯片又能增强AI算法,依此类推。
当“布线”任务中,芯片设计人员通常会使用软件来确定芯片中的电路布局,有点类似于建筑物设计平面图。为了找到满足多个目标的*布局,需要考虑很多因素,包括提供芯片性能,同时还要避免不必要的复杂性,否则可能增加芯片制造成本。这种平衡需要大量的人类启发式思维,以*方式进行设计。现在,人工智能算法也能够以这种启发式思维方式进行设计。
Dean举例说,深度学习神经网络只花了24个小时就解决了问题,而人类设计是需要6至8周,并且前者的解决方案更好。这减少了芯片总布线数量,从而提高了效率。
这个深度学习程序类似于Google DeepMind部门为征服Go游戏开发的AlphaZero程序,并且也是一种强化学习。为了实现目标,该程序尝试了各种步骤来查看哪些步骤可以带来更好的结果,只不过不是下棋,而是在芯片中设计*的电路布局。
与Go不同的是,这个解决方案的“空间”(布线数量)要大得多,而且如上所述必须满足很多要求,不是仅仅赢得比赛这一个目标。
Dean表示,这个内部研究还处于了解深度学习技术的早期阶段。“我们正在让我们的设计师进行试验,看看如何开始在工作流程中使用该程序。另外我们正在试图了解该程序的用处以及它在哪些方面可以改进。”
谷歌进军AI设计领域正处于芯片生产复兴之时,旨在让不同大小的专用芯片都可以更快地运行机器学习。有机器学习科学家认为,专用AI硬件可以催生更大型、更高效的机器学习软件项目。
Facebook开源了将PyTorch用于3D深度学习的函数库PyTorch3D,这是一个高度模块化且经过优化的库,具备独有的功能,旨在通过PyTorch简化3D深度学习。PyTorch3D为3D数据提供了一组常用的3D运算符和快速且可微分的损失函数(loss function),以及模块化的可微分渲染API。通过上述的功能,研究人员可以立即将这些函数导入至当前*进的深度学习系统中。
研究人员和工程师可以利用PyTorch3D进行各种3D深度学习研究(无论是3D重构、集束调整,乃至3D推理),以及改进在二维空间下的识别任务。
对三维空间的认知,在人工智能与真实世界的互动过程中扮演着十分重要的角色。例如机器人在物理空间中的导航、改进虚拟现实体验,以及识别2D内容中被遮挡的物体等。不过即便有丰富深度学习技术积累的Facebook,在面对3D的深度学习问题时依然会被困扰。Facebook表示,之所以深度学习技术较少用于3D场景,是因为缺乏足够的工具和资源来支撑神经网络与3D数据结合使用的复杂性,这种场景要求更多的内存与更高的算力,不像2D图像可以使用张量表示,而且许多传统图形运算符不可微分,因此3D深度学习技术的研究受到了限制。
为此,Facebook构建了PyTorch3D函数库以推动3D深度学习研究,与PyTorch为2D识别任务提供高度优化的函数库一样,PyTorch3D通过提供批处理以及对3D运算符和损失函数的支持来优化训练和推理。为了简化3D模型批处理的复杂度,Facebook创建了Meshes格式,这是一种专为深度学习应用程序设计,用于批处理的异构网格模型数据结构。
这种数据结构可以让研究人员轻松地将基础网格模型数据快速转换成不同的视图,以使运算符与数据的最有效表示方式相匹配。更重要的是,PyTorch3D为研究人员和工程师提供了能够灵活地在不同的表示视图之间进行有效切换的方式,并访问不同的网格属性。
渲染是计算机图形学中的核心内容,它可将3D模型转换为2D图像。这也是在3D场景属性(scene properties)和2D图像像素之间建立桥接的常规手段。不过传统渲染引擎无法进行微分,因此它们不能被合并至深度学习工作管道中。所以,Facebook在PyTorch3D内置了高度模块化的可微分渲染器,能用来处理可微分的3D数据。此功能的实现由可组合单元组成,允许用户轻松扩展渲染器以支持自定义照明或阴影效果。
Facebook将这些功能打包成工具包,并提供了运算符、异构批处理功能和模块化可微分的渲染API等,帮助研究人员进行复杂的3D神经网络应用研究。
目前,深度学习是最接近人类大脑的智能学习方法,深度学习引爆了一场革命,将人工智能带上了一个新的台阶,将对一大批产品和服务产生深远影响。未来,深度学习将继续解决各种识别相关的问题,比如视觉(图像分类、分割,计算摄影学),语音(语音识别),自然语言(文本理解);同时,在能够演绎的方面如图像文字描述、语音合成、自动翻译、段落总结等也会逐渐出现突破。