在不少人看来,已经诞生30多年的服务器产业已相当成熟,几乎就是CPU、内存和硬盘三大件的“组装”,行业的创新焦点也集中在解决CPU处理器、GPU、FPGA、ASIC加速器的半导体问题上。不过,业内人士并不认可这样的说法。
服务器产业并不是创新乏力了,创新也不只局限在半导体上。“进入智算时代,服务器在基础架构等方面还有非常多的问题需要沉淀下来研究,找到解决之道。”浪潮信息技术研发部副总经理吴安告诉数智前线,“尤其是针对基础技术的量化分析上,有大量工作要做。”
最近,伴随业界全新一代、对多元算力支持最广泛的算力平台G7的推出,一些服务器行业最新的创新动向浮出水面。
01 一个黑盒子和它的数学模型
实际上,最近几年,伴随人工智能疾风骤雨般的发展,服务器行业作为算力的重要承载者,一直在疾行中。全球*进、最高速率、*算力的服务器平台,在以最快速度投入到人工智能研发应用上。去年11月底,ChatGPT推出后,更是引爆全网,业界认为这是一个百年不遇、类似工业革命的产业革命。不仅大公司,大量行业公司和中小企业也投身通用大模型或专属大模型,这更是加重了对算力创新的要求。
“早年我们觉得一个计算集群有几百张GPU卡已经不错了,但现在我们看到一个集群有数万张GPU卡,这是不可想象的。GPU卡之间的网络连接带宽也在往400G、800G上跑,整个网络的构建极为复杂。”吴安说。人工智能,尤其大模型需要先进算力的支撑。数智前线观察,业界如百度、阿里、网易等,在对外公布大模型时,都会重点谈及计算集群的创新和保障,足见其困难度和关键性。
由于这些GPU卡算力庞大,功耗已达到600瓦以上,再往后一张卡的功率可能要到1000瓦以上,这意味着现在一台10千瓦的GPU机器,将来甚至可能达到20千瓦的功率,由此引发的问题和挑战也是前所未见的。
其实在ChatGPT问世前的几年,高密度、高功耗的算力,已给产业带来挑战。比如,面对高功耗,一种散热方案是提升服务器的风扇转速。但在2019年前后,业界几乎同时遇到一个问题,就是风扇一旦转起来,服务器硬盘性能就可能下降 ,甚至会掉线,影响了存储密度的提升。一系列实验后,大家最终锁定,由于风扇转速已超过了*跑车的发动机转速,达到每分钟2~3万转,风扇声音的能量大到已经影响硬盘了。
实际上,汽车在行驶中也有噪音和振动干扰问题,被称为NVH(noise vibration harshness)。整车约有1/3的故障与车辆的NVH有关,但其背后原因很难定位,汽车工程师经常把NVH称为玄学 。
在服务器行业,国际开源计算社区OCP组织成员FaceBook(现为Meta公司)、微软、戴尔、浪潮信息、希捷、西部数据,还有类似BOYD的散热风扇等供应商,共同发起了Storage Vibration(存储设备振动)项目,期望制定行业通用的标准并设计检测工具,以期在硬盘容量、功耗、风扇三方博弈中找到新的平衡点。
2021年,浪潮信息在OCP大会上,首次分享了在这一领域的突破性工作——分发浪潮信息硬盘敏感度专家模型,找到了声压影响硬盘读写性能的内在机理,提出了数学模型。此前,因为这是一个极为复杂的系统性问题,业界无人用理论和计算揭示其中隐藏的原理和关系。现在,黑盒子被打开了。
“这个工作前后历经长达四五年时间,开展了大量分析验证,也有一些灵感的涌现。”浪潮信息结构专家王羽茜告诉数智前线,比如在构建模型过程中,如何去做量纲变化,就是团队“灵光一现想到了一个数学公式”。
今年5月,在浪潮信息推出的全新一代服务器平台G7中,为解决NVH难题而开发的专家系统,就是这一平台中诸多创新中的一个。据悉,G7平台支持x86、ARM等8种通用处理器和51种加速芯片,是目前业界算力支持最广泛的平台。
“如何去做量化分析,开发整套专家系统,就是我们未来的工作。”王羽茜说,“这样我们就可以去利用它,对算力平台进行*化设计。”
02 一群结构工程师四五年的跨界探索
这样的量化分析,已经与人工智能密不可分。
实际上,在浪潮信息内部,王恩东院士及管理层也在加强包括研发、制造、服务等业务在内的智能化。智能化已成为改进企业生产力和解决问题的重要路径。
比如,解决服务器的NVH问题,是一件极为复杂的事。对于普通人来说,并不知道当下服务器已发展到怎样精密的程度——像硬盘磁头的微小结构,甚至要在显微镜下放大1000倍才能看到。一个声音进去后,可能引发一个极微小部件的共振,产生纳米级偏移,都会导致硬盘不能准确读写。而且,服务器内部是一个多物理场,涉及结构场、声场、磁场等。多物理场耦合,加剧了问题的复杂度。
“我们在宏观上看到的硬盘性能损失,在微观上可以说是丝丝相扣的。”王羽茜说,这真是牵一发而动全身。在这种情况下,需要用数据构建数学模型,提炼出共性的东西,才能找到问题的解决之道。
为此,工程师们先是测量市场上不同硬盘、在不同噪声下的性能损失,构建数学模型。同时,配合专门设计的“硬盘假体”,采集服务器主流机箱内的噪音和振动敏感度数据。这些采集到的机箱频谱,再与硬盘敏感度模型匹配,计算出硬盘内部的共振频率以及由此产生的损失率。
“通过数据积累和不停的训练迭代,模型的精度从最早40%,逐步提升到80%、90%。”吴安称,“这样,不需要等机箱开发出来,就能通过这套专家系统预估,主流供应链上的硬盘与机箱的适配度是不是ok,从而可对服务器系统展开多维度、多层次的优化设计。”
在这个项目中,参与研发的是一群富有经验的结构工程师,但他们面对的是一个跨越流体动力学、声学、结构振动学等多个学科的前沿项目,不仅要寻找底层机理,还要搭建测量数据的软硬件系统,最终要构建人工智能模型,训练迭代完成“炼丹”。
在这个过程中,工程师从最传统的研究振动的“正弦波”入手,经历各种实验,最终抛弃传统思路,找到最适合的噪声带宽。而在构建数学模型过程中,王羽茜回忆,他们从最初“一个喇叭,一个麦克风,一部电脑”的简陋实验设备起步,逐步与业界专业公司合作,搭建了高精度声音控制系统,最终才找到声音与硬盘性能之间的精确的数学规律。
在G7平台上另一个服务器“听音诊断”的创新中,基于浪潮信息积累的200个小时的服务器声学数据库,以及以往多年的服务器故障信息数据,工程师搭建出风扇故障预测模型。服务器可通过内部麦克风阵列、音频处理芯片,采集系统的多维噪音,然后基于主板上BMC芯片中的风扇故障智能诊断模型进行分析诊断,仅需10秒钟“听音”,就可预警风扇故障状态,精准度达95%。
在智能化方向上,浪潮信息于2021年发布了大语言模型源1.0,目前还在不断研发升级中。这是一个开源的大语言模型,除了为中小客户提供大模型平台外,在浪潮信息内部也在落地应用。
吴安告诉数智前线,比如在服务方面,浪潮信息基于“源”大模型打造了专家级数据中心智能客服“源晓服”。目前,“源晓服”覆盖浪潮信息8大产品线的服务问题,问题覆盖率达到92%。其中,针对数据中心常见的技术问题,如系统安装、Raid配置、部件异常等问题,“源晓服”的解决率高达80%,可将复杂技术咨询问题的业务处理时长降低65%,提升浪潮信息整体服务效率达160%。
03 研发体系的变革
在服务器行业研发向更深层次的发展中,浪潮信息的研发体系也发生了较大变革。
之前很多年是围绕项目,实行烟囱式管理,“来一个项目,开发一个项目”,现在则是平台化开发模式,平台解决共性技术,不仅高效,也保障了质量。针对重要的固件、散热、结构、互联等共性问题,公司成立了约十个能力中心,向下又细分为几十甚至上百个技术方向。
值得注意的是,浪潮信息从工程师团队专门剥离成立了架构师团队,主要作用是进行顶层规划。吴安介绍,最近几年,无论大型的机架式服务器,AI服务器,还是边缘服务器,都在强调多元算力融合。为了实现这样的平台系统,需要从逻辑设计、体系架构层面,研究如何充分解耦,“这是一个很难的问题”,其中最重要的是有好的顶层设计。
“这样的研发体系,包括系统架构的理念,支撑我们在有限资源、有限时间中,实现业界最丰富的多元融合算力平台。”吴安称。本质上,多元算力融合是一个平台来容纳多元算力。“如果没有一个很好的平台性开发,是无法实现的。”
而在这两年中,浪潮信息管理团队又发现,如果把一些预研技术或前瞻技术都放在产品开发团队中,就不能保障投入资源的持续性和稳定性。“一旦有大订单,产品开发的优先级一定是高的。”
为了避免顾此失彼,浪潮信息又成立了技术研发部和一个体系结构部,分别负责预研和前沿技术研发。“这就变成了一个异步开发技术体系,既保证了对前瞻技术的洞察和识别,领跑每一个技术方向,又不会影响产品的开发效率。”
而上述针对NVH问题的研发和服务器风扇智能听音诊断模型,就出自技术研发部的团队。这些前沿技术完成研发,以合理的性价比投入到G7平台中,为客户提供差异化功能。
在研发上,对开放组织的战略投入也被视为关键一环。浪潮信息从投入国内的开放组织ODCC,到担任OCP(开放计算项目)中国区主席,再到成为最新OCTC(开发计算标准工作委员会)的主要创始成员之一,一直采取了开放的技术策略。
“基于开放组织,可以获取非常多的合作资源和机会,还可以同业界一起思考和提出未来产业方向,联合孵化项目。”吴安说,“尤其是现在研发越来越向深度和精细化方向发展,这样的开放合作极为关键。”
比如,在NVH的研发过程中,OCP开放组织在其中扮演了重要角色。“OCP汇聚了全球相关公司,整个供应链上的专家,我们与他们交换了很多想法,也让我们看到这个事情的价值,驱动我们继续往下走。”王羽茜说。同时,OCP也通过集思广益,统一了硬盘假体——那个能采集噪音和振动的设备,为NVH问题的解决铺路。
在浪潮信息实验室平台建设上,也融入了开放合作的思路。它融合了产学研多个领域的专家,聚集了不少产学研结合的资源和方向,像与*高校和研究机构展开合作,尤其在服务器领域,这些合作几乎是*的,浪潮信息团队也因此在“炼丹”过程中获得了更宽视野。
吴安称,还有更多创新在进行中,并陆续进行转化投入到产品平台上,解决人工智能“大风暴”下的算力产业重生。
21224起
融资事件
4358.73亿元
融资总金额
11657家
企业
3214家
涉及机构
510起
上市事件
6.48万亿元
A股总市值