8月,英伟达发布了二季度财报,财报显示,公司二季度营收135亿美元,创季度新高且同比增长超100%。公司预期三季度该数字将达到160亿美元。与此同时,高端芯片的强劲需求将公司毛利率大幅提升至71.2%,二季度净利润61.8亿美元,同比涨幅达到惊人的843%。
这是什么概念呢?相当于英伟达在三个月时间里多赚了六七十亿美元,而且之后每个季度都有望入账这么多钱,即使放在群英荟萃的硅谷,这样的成绩也足以让大家感到惊讶了。
而营收和盈利背后,是英伟达显卡被疯抢的盛况,即使英伟达今年能预计出货50万块H100显卡,依旧没有满足AI市场的急速扩张的需求,其未来计划将H100显卡的产量至少提高两倍,2024年该显卡的预计出货量会达到150万至200万颗左右。
那么,到底是谁在抢这几十万乃至上百万的显卡呢?
我们或许可以从最近的新闻里一窥端倪,8月29日,总耗资三亿美元的特斯拉GPU集群正式上线,该集群集成了10000 块英伟达的H100 GPU,其主要用途就是帮助训练特斯拉的无人驾驶系统FSD。
作为构筑该集群最重要的一部分,英伟达H100于 2022 年末推出,售价约4万美元,比 前代A100 快 30 倍,AI 训练速度快 9 倍,根据英伟达的介绍,H100 专为视频训练等图形密集型工作负载而设计,且易于扩展,其拥有18,432 个 CUDA 核心, 640 个张量核心 ,80 个流式多处理器 (SM) ,与 A100 相比,H100的高性能计算速度快 5 倍以上。
而由10,000 块H100构筑的GPU集群将提供 340 FP64 PFLOPS 的峰值性能,为人工智能应用提供 39.58 INT8 ExaFLOPS 的峰值性能,峰值性能上已经超越了世界第四高性能超级计算机 Leonardo 所提供的 304 FP64 PFLOPS。
而英伟达第二季度的财报,正是像特斯拉这样的公司做出的贡献,他们投入巨资打造超大型GPU集群,一出手就是购入上万张显卡,让台积电开足了马力生产都赶不上需求的变化。
微软
时间回到5 年前,OpenAI 向微软提出了一个大胆的想法——它可以构建一套人工智能系统,永远改变人类与计算机之间的交互方式。
但是这套人工智能系统并非凭空得来,它需要建立在强悍算力的基础之上,而且光有一套在背后提供助力的基础设施还不够,这还不是一锤子买卖,OpenAI必须能长期稳定地运行这套系统,简而言之,就是要不断地砸钱。
当时,微软 Azure 高性能计算和人工智能产品负责人 Nidhi Chappell 表示:"我们从研究中了解到的一件事是,模型越大,你拥有的数据越多,你能训练的时间越长,模型的准确性就越好。"
为了力挺OpenAI的人工智能,2019年,微软宣布与OpenAI建立合作关系,包括投资10亿美元以及在Azure中建立一个可以训练和运行高级AI模型的计算平台,微软将对Azure进行的改进,以构建超级计算技术。
在Build 2020活动上,微软宣布了这次合作的结果。微软与OpenAI合作,并专门为OpenAI构建了一台新的超级计算机,这台新超算包括了超过28.5万个CPU核心,1万块GPU,每个GPU服务器的网络连接能力为400 gigabits每秒,按照世界超级计算机TOP500的排名,微软打造的这款新型超级计算机位列前五名。
如何让这套集成万块GPU的超算集群全力开动起来,成了当初摆在微软面前的难题。
微软 Azure 高性能计算和人工智能产品负责人 Nidhi Chappell 称,技术的关键是学习如何在高吞吐量、低延迟的 InfiniBand 网络上构建、运行和维护数以万计共处一地的 GPU,并相互连接。
微软介绍称,为了帮助训练大型语言模型,计算工作被划分到一个集群中的数千个 GPU 上,在Allreduce阶段,GPU会相互交换信息,而全新的 InfiniBand 网络用于加速这一阶段,这一切都在下一阶段计算前完成,所有GPU就像齿轮一样紧密咬合在了一起。
"由于工作跨越了数千个 GPU,你需要确保你有可靠的基础设施,然后也需要在后端拥有网络,这样你就可以更快地进行通信,并能够连续数周这样做",Chappell 说道,“这不是你买了一大堆 GPU,把它们连在一起,就可以开始工作的。为了获得*的性能,需要有很多系统级的优化,而这是经过许多代人的经验总结出来的。”
时间来到今日,这套基础架构现在已成为整个 Azure 云计算结构的标准配置,其中包括针对 AI 工作负载优化的虚拟机组合、连接的计算和存储资源,微软云和人工智能集团执行副总裁 Scott Guthrie 表示,构建这种基础设施释放了 OpenAI 的 ChatGPT 和新的 Microsoft Bing 等产品中的人工智能功能。
在ChatGPT全球爆火之后,原来的这套超算已经无法满足越来愈多的AI计算需求,今年3月,微软发布博文称,Azure即将迎来重磅升级,加入数万张英伟达最新的H100显卡以及更快的InfiniBand网络互连技术。
根据微软的介绍,ND H100 v5 虚拟机将成为未来AI的支柱,它支持按需大小不等的 8 到数千个 NVIDIA H100 GPU,这些 GPU 通过 NVIDIA Quantum-2 InfiniBand 网络互连。与上一代 ND A100 v4 VM 相比,可以看到人工智能模型的性能显着提高,其中创新技术包括:
8个NVIDIA H100 Tensor Core GPU通过下一代NVSwitch和NVLink 4.0互联;
每个GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand,每个虚拟机有3.2Tb/s的无阻塞胖树型网络;
NVSwitch和NVLink 4.0在每个虚拟机的8个本地GPU之间具有3.6TB/s的双向带宽;
第四代英特尔至强可扩展处理器;
PCIE Gen5到GPU互连,每个GPU有64GB/s带宽;
16通道4800MHz DDR5 DIMM……
微软表示,ND H100 v5虚拟机将成为微软向客户提供基础设施的方式,该基础设施包括数以千计的 NVIDIA AI 优化 GPU,这些 GPU 在基于 NVIDIA Quantum InfiniBand 通信的高吞吐量、低延迟网络中连接在一起,其可以根据任何 AI 任务的规模进行扩展。
与特斯拉相比,微软的超算不再局限于单一的特定用途,而是更看重在AI训练方面的整体性能,以及面向各类用户的灵活扩展,相信其未来潜力会随着Open AI和微软旗下AI产品的发展而进一步得到释放。
谷歌
与微软不同,谷歌在组建超算集群这条路上出发得更早,它不光从英伟达处大批量采购显卡,同时还悄悄启动了自研计划,双轨并行成就了今天谷歌的超算。
谷歌的自研始于2013年,当时的 Google AI负责人Jeff Dean经过计算后发现,如果有1亿安卓用户每天使用手机语音转文字服务3分钟,其中消耗的算力就是Google所有数据中心总算力的两倍,而全球安卓用户远不止1亿。
谷歌最终选择了另辟蹊径,并立下了一个不低的目标:针对机器学习这一目的来构建特定领域计算架构(Domain-specific Architecture),还要将深度神经网络推理的总体拥有成本(TCO)降低至原来的十分之一。
2014年,谷歌TPU(Tensor Processing Unit)开始正式研发,得益于谷歌本身既有的强大科研实力,以及从各个公司招募而来的优秀芯片人才,TPU的开发异常顺利,仅在15个月后就开始在数据中心部署应用,且每瓦性能达到了GPU的30倍,CPU的80倍。
直到2016年的Google I/O开发者大会上,首席执行官Sundar Pichai才正式向世界展示了TPU这一自研成果。Pichai非常自豪地表示,DeepMind研发的AlphaGo能够击败韩国棋手李世石,底层硬件里的TPU功不可没,TPU就像希腊神话中引发特洛伊战争的女人——海伦,它的出现引起了“成千芯片与之竞逐”。
而在2023年,谷歌公布了自研芯片的最新版本——TPU V4,相较于上一代,性能高出2.1倍,在整合4096个芯片之后,超算性能提升了10倍。
谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.7倍的性能,同时在能效上也能提高1.9倍。与TPU v3一样,每个TPU v4包含两个TensorCore(TC)。每个TC包含四个128x128矩阵乘法单元(MXU),一个具有128个通道(每个通道16个ALU),以及16 MiB向量存储器(VMEM)的向量处理单元(VPU)。
谷歌称,客户对机器学习的容量、性能和规模的需求一直在快速增长。为了支持AI的下一代基础性进步,我们正式推出了谷歌云机器学习集群,其中就包括预览版的Cloud TPU v4 Pod,在最高可达9 exaflops的峰值聚合性能下,Cloud TPU v4 Pods集群在算力方面是全世界*的公开可用的机器学习中心。
让人感到讶异的是,谷歌实施自研战略的后,利用英伟达GPU组建的超算集群也丝毫不逊色于其他巨头。
今年5月,在年度 Google I/O 开发者大会上,谷歌公布了全新 AI 超级计算机——A3 ,该超算拥有大约 26,000 块英伟达H100 GPU,作为参考,世界上最快的公共超级计算机Frontier拥有 37,000 块 AMD Instinct 250X GPU。
谷歌表示,A3超级计算机面向希望训练大型语言模型的客户,是对现有 A2 虚拟机与 Nvidia A100 GPU 提供的计算资源的重大升级,谷歌正在将所有分布在不同地理位置的 A3 计算实例汇集到一台超级计算机中。
“A3 超级计算机的规模可提供高达 26 exaflops 的 AI 性能,这大大减少了训练大型 ML 模型的时间和成本,”谷歌的董事 Roy Kim 和产品经理 Chris Kleban 在博文中提到。
此外,A3 超算是*个通过名为 Mount Evans 的基础设施处理单元连接 GPU 实例的虚拟机,该单元由谷歌和英特尔联合开发,IPU 允许 A3 虚拟机卸载网络、存储管理和安全功能,并以 200Gbps 的速度传输数据。
“A3 是*个使用我们定制设计的 200Gbps IPU 的 GPU 实例,GPU 到 GPU 的数据传输绕过 CPU 主机并流经与其他 VM 网络和数据流量不同的接口。与我们的 A2 虚拟机相比,这使网络带宽增加了 10 倍,具有低尾延迟和高带宽稳定性,”谷歌高管在博客文章中表示。
左手TPU,右手H100的谷歌,在组建超算集群这件事上似乎走在了很多公司的前面,自研面向自身需求,而英伟达GPU服务于客户,二者取长补短,让谷歌成为了这个AI时代的弄潮儿。
Meta
对于因为元宇宙而改名的Meta来说,AI似乎一直是它深耕的领域,更是为了它背后的基础设施豪掷万金,力图打造世界*流的超算集群。
2017年,当时还叫FaceBook的Meta打造了*代AI超级计算机,其配备了22000个NVIDIA V100 Tensor Core GPU,每日可处理35000项AI训练工作。
据 HPCwire 预计,这个基于 V100 GPU 的前身版本,按照 Linpack benchmark 的浮点计算性能应该已经达到了135 PFlops。在2021年11月全球超算排行榜中足以排到第三名,其算力已经超越了美国在加州 Livermore 运作的“山脊”(Sierra) 超级计算机。
2020年初,由于已有超算集群越来越难跟上未来大模型训练的需要,Meta决定从0开始设计一个新的超算,进而在大到一个Exabyte的数据集上训练出超过一万亿个参数的模型,
2022年1月,Meta 宣布它正在建造的世界最快 AI 超算 AI Research SuperCluster (RSC),他们选择了三家在 AI 计算和数据中心组件方面最知名的公司:英伟达、Penguin Computing,和 Pure Storage。
Meta不仅从英伟达处采购了760台 DGX 通用训练系统,其中包含共计6080块 Ampere 架构 Tesla A100 GPU,还从 Pure Storage 采购了共计 231PB 的闪存阵列、模块和缓存容量,机架搭建、设备安装和数据中心的后续管理工作,则由从 Facebook 时代就在服务该公司的 Penguin Computing 负责。
最终,*阶段的RSC超算包含 6,080 块 GPU,缓存容量 46 PB,主闪存 175 PB。在计算机视觉任务上,新超算的性能比旧系统提高 20 倍,在大型自然语言处理上性能提升 3 倍,而在第二阶段正式完成时,包含总共 2000 个 英伟达DGX A100 系统,使用了 16000 块 GPU,储存容量达到 1 EB,能每秒处理 16 Tbps 的数据。
Meta在博客文章中表示:“我们希望RSC帮助我们建立全新的AI系统,例如可以为多个不同语言的团队提供实时语音翻译,使他们可以在研究项目上无缝协作,甚至一起玩AR游戏。”
不过目前来看,Meta超算RSC的算力已经落后于微软和谷歌的AI超算,毕竟后者已经开始利用更强大的H100 GPU来构筑超算,但Meta也表示 ,RSC的优势是允许其研究人员使用 Meta 生产系统中的真实示例来训练模型,希望为 AI 研究人员提供*进的基础设施,使他们能够开发模型并为他们提供培训平台以推进 AI 发展。
而Meta也早已建立了新的自研计划,在2020年就开发了其*代基于7nm工艺的自研AI芯片 MTIA(MTIA v1),可以从128 MB 内存扩展到高达 128 GB,其专门用于处理与 AI 推荐系统相关的工作,帮助用户找出*贴文内容并更快呈现在用户眼前,其计算性能和处理效率都胜过 CPU。另外,在 Meta 设计的基准测试中,MTIA处理“低复杂性” 和“中等复杂度”的 AI 模型也比 GPU 更高效。
对于Meta来说,目前没有新的超算建造计划可能是不大不小的遗憾,但依靠自研芯片和已有的强大超算,和微软谷歌相比也不逞多让。
AWS
与前几个耳熟能详的公司相比,较少被提及的AWS(亚马逊云科技)作为全球云计算服务提供商,在组建超算集群的速度和规模上,并不比其他巨头逊色多少。
AWS和英伟达合作的历史有12年之久,在过去十几年的时间当中,AWS陆续推出了基于英伟达GPU的各种GPU实例,如CG1实例(2010年)、G2(2013年)、P2(2016年)、P3(2017年)、G3(2017年)、P3dn(2018年)、G4(2019年)、P4(2020年)、G5(2021年)和P4de(2022年)实例。
在去年发布的EC2 P4de实例中,采用8个英伟达 A100 GPU,每个具有80GB高性能的HBM2e GPU 内存,而这一实例在去年已经用于AWS的超算集群。
今年5月,AWS更进一步,宣布推出 EC2 P5 虚拟机实例,该实例将在 Nvidia H100 GPU 的基础上运行,其采用8块英伟达H100 Tensor Core GPU,具有640 GB高带宽GPU内存,同时提供第三代AMD EPYC处理器、2TB系统内存和30TB本地NVMe存储,还提供了3200 Gbps的聚合网络带宽并支持GPUDirect RDMA,从而能够绕过CPU进行节点间通信,实现更低的延迟和高效的横向扩展性能。
而且Amazon EC2 P5实例可以部署在超大规模集群第二代Amazon EC2 UltraClusters中,其由高性能计算、网络和云存储组成,Amazon EC2 UltraClusters可以使用多达2万个H100 Tensor Core GPU,用户可以部署可扩展到数十亿或数万亿参数的机器学习模型。
英伟达副总裁 Swami Sivasubramanian 表示,与基于英伟达上一代 A100 GPU 的 EC2 P4 模型相比,P5 实例在训练大型语言模型时速度提高了六倍,并且可以将训练成本降低 40%。
此外,AWS还为超算集群推出了基于Arm的CPU,名为Graviton3E的芯片正是AWS的EC2 HPC7g实例的一部分,AWS将HPC7g实例定位为“紧耦合计算和网络密集型HPC工作负载的实例类型”,网络密集型功能集中在Nitro系统芯片上,这是一个数据处理器或基础设施处理单元,处理网络,I/O和安全性,其可与英伟达的Bluefield或谷歌与英特尔合作开发的Mount Evans相媲美。
目前,Nitro已成为AWS云基础设施的核心,其提供了适合其分布式系统高性能的I/O,HPC7g虚拟机可用于从16个核心到64个CPU核心的实例,具有128GB内存、Amazon Elastic Block存储、200Gbps EFA(弹性结构适配器)带宽和25Gbps网络带宽。
值得一提的是,另一家公司RIKEN已经通过AWS的HPC7g实例构建了其基于Arm的Fugaku计算机的云版本,这也是世界上第二快的超级计算机。
生成式AI成为了云服务市场新的增长点,同时也推动云服务市场的创新和差异化,作为行业领头羊的AWS显然没有忽视这件事,早已在搭建超算集群的路上持续向前奔跑。
特斯拉
至于开头提到的特斯拉,作为自动驾驶的先锋,它早已把超算集群当成是未来的主要方向,除了备受青睐的英伟达显卡外,自研更是它*的法宝之一。
早在2021年6月,国际计算机视觉和模式识别会议(CVPR)周末的演讲中,特斯拉人工智能团队的负责人安德烈·卡帕西 (Andrej Karpathy) 就展示了一台超级计算机,这台超级计算机采用了 5760 个算力为 321TFLOPS 的英伟达 A100 显卡,组成了 720 个节点,总算力突破了 1.8EFLOPS,10PB 的存储空间。
而在2021年的特斯拉AI日上,特斯拉自研的多芯片模组化(Multi-Chip Modularized)超级计算机正式亮相,其被命名为Dojo,最初它主要服务于自动驾驶系统的数据标注以及训练,后也被应用于机器人研发,特斯拉的人形机器人就搭载了Dojo的D1超算芯片。
D1超算芯片是Dojo系统的基础。该芯片采用7纳米制造工艺,处理能力为1024 gigaflops,即每秒1024亿次。1500枚D1芯片可组成阵列,而将25个阵列放在一块晶圆上,便能形成训练模组(Training Tile),这便是Dojo超级计算机的单元核心。
到了2022年的特斯拉AI日上,特斯拉正式公布了由D1芯片组成的Dojo ExaPod,即Dojo集群,该集群内含120个训练模组(Training Tile)、3000个D1芯片。其拥有13TB静态随机存取记忆体容量以及1.3TB高传输频宽记忆体容量,算力高达1.1EFLOP。
据介绍,Dojo由“图块”组成,工作方式与基于CPU或基于GPU的超级计算机有很大不同。特斯拉称,Dojo的D1芯片模块并不是由很多较小的芯片组合在一起,而是一个具有354个内核的大型芯片组成,专门针对AI和机器学习,每个Dojo机柜可容纳4248个内核,10个机柜的组成的exapod可容纳42480个内核。因此对于相同的数据中心占用空间来说,Dojo要比CPU或者GPU快几个数量级。
Dojo不仅会帮助加速 FSD 训练,还将负责管理特斯拉汽车的数据处理,根据特斯拉CEO马斯克所说,特斯拉会同时应用英伟达H100 GPU 超算集群和 Dojo超算集群,此举将为该公司在汽车行业提供*的计算能力。
单论H100超算集群的数量,特斯拉可能还无法和谷歌微软相媲美,但Dojo自研芯片无疑是它*的底气之一,在自动驾驶浪潮来临之际,特斯拉这两大利器,已经足够让它成为目前算力最强大的公司之一,笑傲于数千家车企之中。
新锐企业
在组建超算集群这件事上,巨头们争先恐后,而其他新锐也不甘示弱,甚至由于他们和英伟达的良好关系,这方面反而具备了自身的优势。
成立于2017年总部位于纽约的CoreWeave就是这样一家新锐企业,此前专注于加密货币“挖矿”市场的它,在过去几年时间实现了转型,瞄准了人工智能领域,开始提供基于图形处理单元(GPU)的云计算服务,今年早些时候,它还获得了英伟达的1亿美元投资。
根据官网介绍,CoreWeave目前可以通过搭建的英伟达 A100 和 A40 GPU 集群提供虚拟化算力,可让用户访问超过45000个GPU,被认为是市场上运行人工智能模型的*选择。
而这家公司近期联合英伟达,以及新兴AI企业Inflection AI,开始建造全球*的AI超算集群,该集群由22,000个英伟达H100 GPU组成,在16位精度模式下可以达到22 exaFLOPS的运算能力,使用低精度模式,其运算能力还会进一步提高,对照TOP500超级计算机列表,这台全新的超算集群将位列第二,仅次于榜首。
而另一家接受英伟达3亿美元投资的新锐企业Lambda Labs同样不容忽视,这家美国云服务初创公司由Michael Balaban和Stephen Balaban两兄弟于2012年创立,早年业务重点是销售GPU驱动的计算机,后转型为GPU云服务器租赁,公司的年收益从千万美元的规模上升至数亿美元的规模。
而Lambda labs的规模虽然不大,但其号称能提供全世界价格*的NVIDIA A100、H100算力资源,与CoreWeave一样是组建AI超算集群的主力之一。
这部分新锐在英伟达的支持下迅速崛起,成为了超算集群中不可忽视的一股力量。
总结
据不完全统计,目前国内已发布的各类大模型数量超过 100 个, 一场“百模大战”已经摆好了驾驶,而在大模型训练的背后,最关键就是算力,截至 2022 年底,我国算力总规模达 180EFLOPS , 目前居全球第二位,但即便是如此庞大的算力,与目前各类模型训练的需求仍然不成正比,算力缺口反而在今年进一步扩大。
除了美国外,英国政府斥资9亿英镑,用于构建一台百亿亿级超级计算机,旨在打造全球*进的语言模型——BritGPT;人工智能初创公司Cerebras Systems宣布将携手阿联酋集团G42打造一个由9台互联的超级计算机组成的网络,目前*台AI超级计算机——“Condor Galaxy 1(CG-1)”开始部署,AI算力高达4 exaFLOPS(每秒4百亿亿次);日本经济产业省将通过其附设的研究机构引进一台新的尖端超级计算机,其计算能力大约是现有机器的 2.5 倍,通过云服务将这台超算提供给开发生成式 AI 的日本国内企业……说是千帆竞逐也不为过
当我们再放眼国内,今年4月,腾讯云正式发布新一代HCC高性能计算集群,国内首发搭载英伟达最新的H800 GPU,采用业界最高的3.2T互联带宽;2023年阿里云将推出一款更接近云计算*形态的算力产品,这款被命名为通用Universal实例的产品进一步屏蔽了传统IT的硬件参数;百度新建设的阳泉智算中心是亚洲*单体智算中心,建设规模为4 EFLOPSAI算力……几家巨头早已把超算列上了重要日程。
更值得我们关注的是,过去的超算架构主要以 CPU 为主,但这种传统基础设施架构下的算力已经无法满足目前模型训练的需求,只有建设大规模 GPU 超算集群,才能真正意义上解决大模型训练的后顾之忧。
可以看到,老牌巨头中,不管是微软谷歌,还是Meta AWS,把组建超算集群当作了重要目标之一,他们甚至早在10年前就发觉了这种趋势,在这方面均已有所布局,而特斯拉CoreWeave这样近年才崛起的新贵,更是全力押注算力,一手自研一手采购,迅速填补自身的算力缺口。
这时候问题就来了,谁能掌握算力,拿下通往未来的*张船票呢?