与英伟达 GH200 超级芯片类似,AMD 在 2023 下半年即将推出的 MI300 也将采用 CPU+GPU 架构,同样发力于 AI 训练市场。 英伟达的高算力 GPU 一直是 AI 训练的首选,但随着谷歌 TPU、AMD MI300 及云厂商自研芯片等的强势涌入,AI 训练的市场格局变化苗头渐生。
千呼万唤始出来,DGX GH200 超级计算系统助力新一代大 AI 模型,与英伟达 GH200 超级芯片类似,AMD 在 2023 下半年即将推出的 MI300 也将采用 CPU +GPU 架构,同样发力于 AI 训练市场。
英伟达在 2023 COMPUTEX 大会上更新了多款 AI 算力产品。当中焦点落在 DGX GH200 超级计算系统上。该系统是通过 NVLink 互连技术及 NVLink Switch System,串联 32 台由 8 块 GH200 超级芯片(总计 256 块)合并而成的单一超级计算系统,存储器容量高达 144 TB,大规模的共享内存能解决 AI 大模型训练的关键瓶颈,将为生成式 AI 语言应用、推荐系统和数据分析工作负载的大模型增添动力。英伟达宣布 Google Cloud、Meta 与微软将是其首批用户。
核心观点
先进的加速计算 + 网络技术,为吞吐量和可扩展性迎来新突破
DGX GH200 集成了英伟达最先进的加速计算和网络技术,为提供最大的吞吐量和可扩展性而设计。NVIDIA NVLink-C2C 将 CPU 与 GPU 相连组成 GH200 超级芯片,它们再通过 NVLink Switch System 组成高带宽的多 GPU 系统,每个 Grace Hopper 超级芯片还配有一个 NVIDIA ConnectX-7 网络适配器和一个 NVIDIA BlueField-3 NIC。从具体参数上看 DGX GH200 性能优异,DGX GH200 可提供高达 1 exaFLOPS=1000 petaFLOPS 的算力。在 2023 年底,结合 Quantum-2 InfiniBand 技术与 4 台 DGX GH200 的 AI 超级计算机 NVIDIA Helios(含 1024=4*256 个 GH200 超级芯片)将会推出,或标志英伟达在 AI 和数据分析工作负载加速计算的又一突破。
英伟达 GH200 vs AMD MI300,互联和生态圈或是 AMD 破局的主要障碍
英伟达的 Grace Hopper 与 AMD 的 MI300 同为 CPU+GPU 架构。我们认为,该架构已成为 AI 芯片的趋势,鉴于 AI 的最终目标是模仿人类大脑的操作,AI 芯片也应仿生人脑结构,并顺应多模态模型的发展。CPU 更像左脑,负责对信息的逻辑处理,如串行运算、数字和算术、分析思维、理解、整理等,而 GPU 更像右脑,负责并行计算、创造性思维和想象等。在面对不同模态的推理时,CPU 与 GPU 的分工也各有不同。例如,在处理语音、语言和文本时,计算有序,因此或更适合使用 CPU;但在处理图像、视频等推理时,需要大规模并行运算,或更适宜 GPU。此前,英特尔也曾准备发布同类产品 Falcon Shores。
AI 训练多方入局苗头初生,AI 推理百花齐放难决胜负
英伟达的高算力 GPU 一直是 AI 训练的首选,但随着谷歌 TPU、AMD MI300 及云厂商自研芯片等的强势涌入,AI 训练的市场格局变化苗头渐生。谷歌的 TPU 是少数能与英伟 GPU 匹敌的芯片,但面临着通用性的局限;AMD MI300 在制程、架构及算力等多方面虽向英伟达 GPU 看齐,但仍存在软件生态和互联的突围障碍。在 TCO、研发可控性及集成生态圈等因素下,微软、谷歌及亚马逊等头部云厂商推进自研芯片乃大势所趋。在算力要求比训练低的推理端,各类芯片百花齐放,主要根据不同 AI 工作负载来选择,或不会演变出像训练端一家独大的竞争局面。总体而言,AI 训练和推理的 TAM 虽在不断变大,但英伟达在当中的增速能否跟上是支撑公司发展的关键。
从 Spectrum-X 网络平台到超算系统,英伟达为 AI 计算全面加速
除了 GH200 芯片及 DGX GH200 超算系统的重磅发布,CEO 黄仁勋在本次 2023 COMPUTEX 还宣布了多款新品全面加速 AI 计算:专门用于提高以太网 AI 云性能和效率的网络平台 Spectrum-X 及用于创建加速服务器的模块化参考架构 NVIDIA MGX,为 AI 及 HPC 的客户提供多元化选择。
正文
DGX GH200 超级计算系统为新一代大 AI 模型而设
Grace Hopper 超级芯片宣布全面投产。严格意义上来说,GH200 并不是一款 “全新” 的芯片,因为早在 2022 年的 GTC 大会,英伟达就已经公布了由首款数据中心 CPU Grace+ 新一代高性能计算 GPU Hopper 打造而成的 Grace Hopper Superchip 并透露其使用了 NVLink-C2C 技术,具有高达 900 GB/s 的一致性接口速率;在 2023 年的 GTC 大会上,英伟达 CEO 黄仁勋先生也曾手持这款超级芯片进行首次实物展示。距离 Grace Hopper 首次发布 14 个月后的 COMPUTEX 2023 上,GH200 Grace Hopper 超级芯片被正式宣布已经全面投产,将为大规模 HPC 和 AI 应用带来突破性的加速计算。
Grace Hopper 超级芯片:NVLink-C2C 技术赋能芯粒互联。NVIDIA NVLink-C2C 是一种超快速的芯片到芯片、裸片到裸片的互连技术,它从 PCB 级集成、多芯片模块 (MCM)、硅中介层或晶圆级连接实现扩展,是 Grace Hopper 超级芯片异构集成的关键。通过 NVLink-C2C 技术,Grace CPU 与 Hopper H100 GPU 构成一个完整的系统,并实现内存相互访问,从而无需沿循 “CPU-内存 - 主板 - 显存-GPU” 基于主板 PCIe 的迂回路线,减少了 CPU 计算损耗,并大幅提升功耗效率、延时和带宽。值得注意的是,NVLink-C2C 技术不仅止于 CPU+GPU,而是支持定制裸片与 NVIDIA GPU、CPU、DPU、NIC 和 SoC 等多种芯片之间的一致互连,将为数据中心带来全新的系统级集成芯产品。
DGX GH200 超级计算机:Grace Hopper 超级芯片 +NVIDIA NVLink Switch System,专为新一代大规模 AI 模型而设。DGX GH200 超算是第一款将 Grace Hopper 超级芯片与 NVIDIA NVLink Switch System 配对使用的超级计算机,它通过 NVLink 互连技术及 NVLink Switch System 串联 32 台由 8 块 GH200 超级芯片组成的系统,将总计 256 块 GH200 Superchip 合并成单一超级计算机,提供了 1 exaFLOPS=1000 petaFLOPS 算力与 144 TB 的内存。这种大规模共享内存解决了大规模 AI 的关键瓶颈,将为生成式 AI 语言应用、推荐系统和数据分析工作负载的巨型模型增添动力。Google Cloud、Meta 与微软将是 DGX GH200 的首批用户。
先进的加速计算 + 网络技术,为吞吐量和可扩展性迎来新突破。DGX GH200 集成了英伟达最先进的加速计算和网络技术,为提供最大的吞吐量和可扩展性而设计。NVIDIA NVLink-C2C 将 CPU 与 GPU 相连组成 GH200 超级芯片,它们再通过 NVLink Switch System 组成高带宽的多 GPU 系统,每个 Grace Hopper 超级芯片还配有一个 NVIDIA ConnectX-7 网络适配器和一个 NVIDIA BlueField-3 NIC。从具体参数上看 DGX GH200 性能优异,DGX GH200 可提供高达 1 exaFLOPS 的算力,标志着 GPU 在 AI 和数据分析工作负载加速计算的又一突破。
英伟达 GH200 vs AMD MI300
与英伟达 GH200 超级芯片类似,AMD 在 2023 下半年即将推出的 MI300 也将采用 CPU +GPU 架构,同样发力于 AI 训练市场。AMD 于 CES 2023 介绍了新一代 Instinct MI300 加速器,结合 CPU 与 GPU,重点发力数据中心的 HPC 及 AI 领域,对标英伟达 Grace Hopper(Grace CPU + Hopper H100 GPU),一改过去 AMD 的 GPU 产品主要应用在图像处理及 AI 推理领域的局限。公司早前在 22Q4 财报电话会里提及,MI300 已开始送样给重要客户,而正式推出将会在下半年,2024 年将看到明显贡献。我们认为,MI300 虽然目前可能在网络互联技术和生态圈较为受限,但在突出的性能和高性价比下或将成为 AMD 在 AI 竞争的关键拐点?
我们将从芯片架构和制程、算力、内存带宽、价格和软件生态对 AMDMI300 和英伟达 GH200 两者竞争优势展开对比:
1)芯片架构:CPU+GPU 仿生人脑结构,制程看齐英伟达。MI300 是 AMD 首款结合了 Zen 4 CPU 与 CNDA 3 GPU 的产品,也是市场上首款 “CPU+GPU+ 内存” 一体化产品。MI300 采用 3D 堆叠技术和 Chiplet 设计,配备了 9 个基于 5nm 制程的芯片组(据 PCgamers 推测,包括 3 个 CPU 和 6 个 GPU),置于 4 个基于 6nm 制程的芯片组之上。因此在制程上,MI300 属台积电 5nm,相较 MI200 系列的 6nm 实现了跃迁,并与英伟达 Grace Hopper 的 4nm 制程(属台积电 5nm 体系)看齐。MI300 晶体管数量达到 1460 亿,多于英伟达 H100 的 800 亿,以及前代 MI250X 的 582 亿晶体管数量。CDNA 3 架构是 MI300 的核心 DNA,MI300 配备了 24 个 Zen 4 数据中心 CPU 核心和 128 GB HBM3 内存,并以 8192 位宽总线配置运行。
2)算力:MI300 的性能逼近英伟达 Grace Hopper。AMD 上代 MI250X(发布于 2021 年 11 月)FP32 算力达 47.9 TFLOPS,虽已超越英伟达 A100 的 19.5TFLOPS(发布于 2020 年 6 月),但其发布时间在英伟达之后。AMD 暂时未公布 MI300 与英伟达 Grace Hopper 在算力上的对比,但相较上一代的 MI250X,MI300 在 AI 上的算力(TFLOPS)预计能提升 8 倍,能耗性能(TFLOPS/watt)将优化 5 倍。因此,此次 MI300 的性能提升后有望逼近 Grace Hopper 水平。另外,Grace Hopper 支持 8 位浮点精度,而 MI250X 仅支持 16 位及以上,但 MI300 或将在 AI 训练中支持 4 位和 8 位浮点精度,可进一步节省算力。
3)内存带宽:MI300 通过 “统一内存架构”(UnifiedMemory)便利 GPU-CPU 间数据传输,效果类比英伟达 NVLinkC2C 技术。MI300 的 3D Chiplet 架构使其内部 CPU 和 GPU 可共享同一内存空间,针对相同数据同时展开计算,实现 “zero-copy”(即 CPU 执行计算时无需先将数据从某处内存复制到另一个特定内存区域),便利单节点内 GPU-CPU 之间的数据传输,减少内存带宽的占用。而英伟达 Grace Hopper 则通过 NVLink-C2C 实现 GPU-CPU 高速互联,双方作为内存共享对等体可以直接访问对方的对应内存空间,支持 900GB/s 的互联速度。尽管 AMD 暂未公布 MI300 的传输带宽,但其创新的统一内存架构实现了 GPU-CPU 在物理意义上真正的内存统一。AMD 虽未公布 MI300 HBM 的更多信息,但最新代 HBM3 内存带宽约为 819GB/s,与英伟达 NVLink C2C 900GB/s 带宽相差不大。因此 MI300 内 GPU-CPU 的统一架构可绕过传统连接协议速度的障碍,突破 GPU-CPU 之间的数据传输速度限制,满足未来 AI 训练和推理中由模型大小和参数提升带来的海量数据计算和传输需要。但值得一提的是,英伟达还可以通过 NVLink Switch、Quantum-2 InfiniBand 等技术实现更多层次的互联,实现带宽内存几个数量级的提升,有效解决 GPU 大规模并行运算中 “单节点本地内存不足” 的痛点,MI300 的相关技术信息尚未发布。
4)价格:高性价比策略或为 AMD 在与英伟达的竞争中再添一码。尽管 AMD 尚未公布 MI300 定价,管理层在 FY23Q1 财报电话会中表示数据中心产品将延续往日的高性价比定价风格,重点关注先把市场打开。成本效益乃云厂商的重中之重,加上单一依赖一个厂商也并非他们所愿。公司预计 MI300 将于今年底前推出,并将搭载于劳伦斯利弗莫尔国家实验室的百亿级超级计算机 EI Capitan 及其他大型云端客户 AI 模型中。公司预计 MI300 营收将在 23Q4 开始放量,24 年持续爬升。
5)软件生态:对比英伟达的 CUDA(Compute Unified Device Architecture)生态圈,AMD 的 ROCm(Radeon Open Compute Ecosystem)或是其打破英伟达独大局势的一大障碍。英伟达于 2007 年发布 CUDA 生态系统,开发人员可以通过 CUDA 部署 GPU 进行通用计算(GPGPU)。通过先发优势和长期耕耘,CUDA 生态圈已较为成熟,为英伟达 GPU 开发、优化和部署多种行业应用提供了独特的护城河。AMD 的 ROCm 发展目标是去建立可替代 CUDA 的生态。而 ROCm 于 2016 年 4 月发布,相比 2007 年发布的 CUDA 起步较晚。全球 CUDA 开发者 2020 年达 200 万,2023 年已达 400 万,包括 Adobe 等大型企业客户,而 ROCm 的客户主要为研究机构,多应用于 HPC。对任何一种计算平台和编程模型来说,软件开发人员、学术机构和其他开发者与其学习、磨合和建立生态圈都需要时间,更多的开发者意味着不断迭代的工具和更广泛的多行业应用,进一步为选择 CUDA 提供了更为充分的理由,正向循环、不断完善的生态也将进一步提高其用户粘性。
针对这样的现状,AMD 在丰富其软件生态也持续有积极动作。虽然目前仅有部分 SKU 支持 Windows 系统,但主流 Radeon 显卡用户可以开始试用过去仅专业显卡才能使用的 AMD ROCm (5.6.0 Alpha)。23Q1 公司宣布其 ROCm 系统融入 PyTorch 2.0 框架,目前 TensorFlow 和 Caffe 深度学习框架也已加入第五代 ROCm。ROCm 也能对应到 CUDA 的部分内容,例如 ROCm 的 HIP 对应 CUDA API,只需要替换源码中的 CUDA 为 HPI 就可以完全移植。
人脑神经网络的运作模式始终是人工智能追求的终极形态,CPU+GPU 类比人类左右脑协同工作,或将成为 AI 芯片的主流技术方向。早在 2011 年,AMD 产品构想中就以 CPU 和 GPU 分别类比人类左右脑,并基于此提出了 CPU+GPU 的异构产品策略。类比人脑,AMD 认为左脑更像 CPU,负责对信息的逻辑处理,如串行运算、数字和算术、分析思维、理解、分类、整理等,而右脑更像 GPU,负责并行计算、多模态、创造性思维和想象等。GPU 的算力高,并针对并行计算,但须由 CPU 进行控制调用,发布指令。在 AI 训练端,CPU 可负责控制及发出指令,指示 GPU 处理数据和完成复杂的浮点运算(如矩阵运算)。
从 Spectrum-X 网络平台到超算系统,英伟达全面加速 AI 计算
除了 GH200 超级芯片及 DGX GH200 超算系统的重磅发布,黄仁勋在本次 2023 COMPUTEX 大会还宣布了多款新品全面加速 AI 计算:
NVIDIA Spectrum-X 是全球首个面向 AI 的以太网网络平台。Spectrum-X 基于网络创新,将英伟达 Spectrum-4 以太网交换机与英伟达 BlueField-3 DPU 紧密耦合,实现了相比传统以太网结构 1.7 倍的整体 AI 性能和能效提升,并通过性能隔离增强了多租户功能,在多租户环境中保持一致、可预测的性能。Spectrum-X 具有高度通用性,可为人工智能、机器学习和自然语言处理等多元应用提升云端效能。它使用完全基于标准的以太网,并可与基于以太网的堆栈互操作。目前,全球领先的云计算提供商正在采用 Spectrum-X 平台扩展生成式 AI 服务。Spectrum-X、Spectrum-4 交换机、BlueField-3 DPU 等现已在戴尔、联想、超微等系统制造商处提供。
NVIDIA MGX 是提供加速服务器的模块化架构,满足全球数据中心多样化的加速运算需求。NVIDIA MGX 是介于 DGX 和 HGX 之间的模块化灵活组合,它为系统制造商提供了一个模块化参考架构,以快速、经济高效地制造 100 多种服务器机型,适用于广泛的 AI、高性能计算和元宇宙应用。英伟达表示,ASRock Rack、ASUS、GIGABYTE、Pegatron、QCT 和 Supermicro 将采用 MGX,它可将开发成本削减四分之三,并将开发时间缩短三分之二至仅 6 个月。
AI 超级计算机 NVIDIA Helios:DGX GH200+Quantum-2 InfiniBand,将于 2023 年底推出。NVIDIA 还将进一步升级网络技术,推出通过 NVIDIA Quantum-2 InfiniBand 串连 4 台 DGX GH200 系统而成的超级计算机,并将其命名为 Helios。该超级计算机内含 1024(4*256)个 GH200 超级芯片,内存进一步升级为 576TB HBM 内存,用于提高训练大型 AI 模型的数据吞吐量,预计将在今年底上线。
本文作者:何翩翩 S0570523020002 | ASI353,来源:华泰证券研究所 (ID:huataiyjs),原文标题:《华泰 | 海外科技:英伟达 GH200 vs AMD MI300》