Meta 用 35 万个 H100,打造超级军火库

Wallstreetcn
2024.03.14 05:52
portai
I'm PortAI, I can summarize articles.

Meta 通过引入 35 万个 H100 GPU 系统,投资额高达 125 亿美元,构建 50 万个 H100 GPU 池,用于训练大型语言模型,支持更大、更复杂的模型。这表明 Meta 正在积极投资于人工智能领域,加强其人工智能技术能力。

如果您每天处理数百万亿个 AI 模型执行,并且随着 GenAI 成为主流而将其改变一两个数量级,那么您将需要 GPU,很多 GPU。显然,Meta Platforms 确实这么做了,它拿出了又大又厚的支票簿,向 Nvidia 写了一个小数点左侧有很多数字的数字。

早在 1 月份,社交网络和人工智能创新者 Meta Platforms 的首席执行官马克·扎克伯格 (Mark Zuckerberg) 在 Instagram 帖子中公布了一些数字,显示该公司今年将在 GPU 加速器上进行大规模投资,其中包括高达 35 万个 Nvidia “Hopper” H100 GPU 以及其他设备——该公司追求通用人工智能(AGI)。

你知道,思考机器。

当时,扎克伯格表示,到 2024 年底,Meta Platforms 将拥有一批加速器,其性能 “如果算上其他 GPU,则相当于 “近 600,000 个 H100 的计算能力”。

现在,Meta Platforms 内部的技术人员通过各种 ODM 合作伙伴将这些 GPU 引入系统,他们发布了一份声明,描述了服务器、网络和存储,这些服务器、网络和存储将用于训练 Llama 3 大型语言模型以供生产使用,并构建骆马家族中更强大且很可能更大的继承者。

让我们先讨论这些 GPU 等效数字,然后看看 Facebook 在通过 Llama 3 追求 AGI 并在其 Facebook AI 研究和生成 AI 实验室中研究我们假设的 Llama 4 和 Llama 5 时,在构建基础设施时做出了哪些选择。

我们不知道 2022 年,当 GenAI 的情况开始变得有趣时,Meta Platforms 的机群中有多少 GPU。2017 年,Meta Platforms(因其创立和主导的社交网络应用程序而被称为 Facebook)使用 22,000 个 “Volta” V100 GPU 构建了第一代人工智能集群。

2022 年 1 月,当 GenAI 热潮刚刚开始时,Meta Platforms 从 Nvidia 购买了基于 DGX 服务器设计和 200 Gb/秒 InfiniBand 的 Research Super Cluster(简称 RSC),并计划带来 2,000 个节点,总共 16,000 个 GPU 承担 AI 工作负载。我们在此报道的 RSC 机器的第一阶段使用了 6,080 个 Nvidia 的 “Ampere” A100 系列 GPU 加速器,并于 2022 年 10 月启动并运行。2023 年 5 月,RSC 建设完成,并且尚未完成然后发货 “Hopper” H100 GPU,但还有另外 9,920 个 A100 GPU 加速器。所有节点都在基于 200 Gb/秒 InfiniBand 网络的两层 Clos 拓扑中相互连接。

根据我们在此报道的 Omdia 的一份报告,Meta Platforms 计划在 2023 年的 Nvidia 分配中获得 150,000 个 H100 GPU。我们假设这些 H100 GPU 被放入基于 Meta Platforms 推出的 “Grand Teton” 系统的集群中。我们最近在 Broadcom PCI-Express 交换机报道中对此进行了更多讨论,这些交换机用于复用从 Grand Teton 机器中的 GPU 到 CPU 的连接。

基于所有这些,我们认为 2024 年即将结束时,Meta Platforms GPU 群将如下所示:

我们意识到有很多猜测可以填补这里的空白。

让我们考虑几件事。如果 Omdia 关于 2023 年 H100 分配给 Meta 平台的数据是正确的,那么 2023 年和 2024 年 H100 分配给元平台的总和将足以构建 20 个具有 24,576 个 GPU 的集群,这是该公司谈论的两台机器的规模。

随着今年有 350,000 个 H100 进入 Meta 平台,有一点是明确的:无论 “Blackwell” B100 和 B200 GPU 加速器是什么,Meta 都不会等待它们开始为 AGI 构建基础。这并不意味着 Meta Platforms 今年不会配备 Blackwell GPU。

如果我们猜测并假设社交网络拥有大约 40,000 个传统 GPU(我们认为主要是 V100),加上 RSC 之前的第一代超级计算机中的 22,000 个 V100,然后根据 FP16 乘法和 FP32 将这些调整为 H100 等效项如果在 V100 GPU 上的张量核心上进行累积(这是计算 Nvidia GPU 相对性能的最慷慨方法,该性能仍然在一定程度上代表了 AI 工作负载),那么由 62,000 个 GPU 组成的 V100 队列仅相当于 3,875 个 H100。我们认为,以当时的普遍价格购买这些 GPU 的成本约为 6.2 亿美元。Meta 可能会得到一些折扣,但也可能不会。

我们认为 Meta Platforms 机群中可能有 76,000 台 A100,相当于 23,700 台 H100,仅 GPU 方面的投资就达 11 亿美元。如果 A100 队列确实看起来像我们预期的那样,那么它在张量核心上以 FP16 分辨率具有超过 47 exaflops 的聚合性能(在优化中包含稀疏性支持),这是聚合计算的 6.1 倍,而成本却低于多 2 倍的钱。

在 Meta Platforms 上构建的庞大 500,000 个 H100 GPU 池代表了一个数量级的投资——如果你计算一下,仅 GPU 的成本就达到 125 亿美元——11 倍——而在 FP16 的 1,000 exaflops 下,这是 21.1 X 性能提升。FP16 单位 oomph 的成本减少了一半,如果 Meta Platforms 在其模型中使用 FP8 数据(这是已被提及的事情之一),那么相对性能可以提高 2 倍,并且相对爆炸降压也提高了很多。

顺便说一句,我们假设 Meta Platforms 仅谈论其训练队列,但也许这是该 GPU 队列中训练和推理的混合体。Meta Platforms 发布的博客没有对此进行解释。最终,该机群将包括本土的 MTIA 设备。

无论如何,我们认为今年 Meta 预算中有 24,000 台 Blackwell B100 或 B200 的空间,如果 Nvidia 甚至可以将这么多设备分配给 Meta,我们不会对构建这样一个集群感到惊讶。或者这可能是 Nvidia 的 Blackwell 设备和 AMD 的 “Antares” Instinct MI300X 设备的组合。

事实上,Meta Platforms 正在谈论的两个新集群之一基于 400 Gb/秒 InfiniBand 网络,这一点很有趣,因为 Meta Platforms 是超以太网联盟的支持者之一,并且非常明确地表示希望以太网能够在某些方面表现得更像 InfiniBand,并且正在努力实现这一目标。

“我们新的人工智能集群建立在 RSC 的成功和经验教训的基础上,” 负责 Meta Platforms 基础设施各个方面的 Kevin Lee、Adi Gangidi 和 Mathew Oldham 写道。“我们专注于构建端到端人工智能系统,重点关注研究人员和开发人员的经验和生产力。这些集群中高性能网络结构的效率、一些关键存储决策,再加上每个集群中的 24,576 个 Nvidia Tensor Core H100 GPU,使两个集群版本都能够支持比集群中可支持的模型更大、更复杂的模型。RSC 并为 GenAI 产品开发和人工智能研究的进步铺平道路。”

该公司重申了对其开源 Grand Teton 服务器设计和用于容纳这些机器的 OpenRack 机箱以及开源 PyTorch 框架和开源 Llama LLM 的承诺。

如果您对 24,576 个 GPU 进行计算,会发现上图中系统中的每个机架中只有两个 Grand Teton 系统,这意味着 Meta Platforms 在其博客中引用的两个集群各自在 1,536 个机架中拥有 3,072 个节点,这意味着这表明该公司尚未转向液体冷却。我们看到的液体冷却设计可以将四台 GPU 机器放在一个机架中。这可能与 Meta Platforms 在机架之间分配网络的方式有关。

有 Wedge 400C 和 Minipack2 网络机柜,由 Arista Networks 按照 OCP 规范构建,如上图所示,这显然是针对以太网交换基础设施的。这些集群的 InfiniBand 和以太网版本都有 8 个连接 GPU 服务器的 400 Gb/秒端口,每个 GPU 一个。

“通过这两者,我们能够评估这些不同类型的互连对于大规模训练的适用性和可扩展性,为我们提供更多见解,帮助我们了解未来如何设计和构建更大的、扩大规模的集群, ” Meta 技术人员写道。“通过对网络、软件和模型架构的仔细协同设计,我们成功地将 RoCE 和 InfiniBand 集群用于大型 GenAI 工作负载(包括我们在 RoCE 集群上持续训练 Llama 3),没有任何网络瓶颈。”

这些 GPU 集群使用的存储服务器将基于使用 E1.S SSD 闪存模块的 “Sierra Point” Yosemite V3 服务器。Meta Platforms 在用户空间 (FUSE) 中拥有一个自行开发的 Linux 文件系统,该系统将在这些 Sierra Forrest 存储服务器上运行,并且它们将由该公司自己的闪存 Tectonic 存储覆盖层进行备份 – 它的 Haystack 文件系统针对磁盘驱动器进行了优化 –以及与 Hammerspace 共同开发的分布式 NFS 文件系统。

构建 Meta 的 GenAI 基础设施

引领人工智能发展意味着引领硬件基础设施投资。硬件基础设施在人工智能的未来中发挥着重要作用。今天,我们在 Meta 上分享了 24,576-GPU 数据中心规模集群的两个版本的详细信息。这些集群支持我们当前和下一代的 AI 模型,包括 Llama 3(Llama 2 的后继者)、我们公开发布的 LLM,以及跨 GenAI 和其他领域的 AI 研发。

Meta 的长期愿景是构建开放且负责任的通用人工智能 (AGI),以便让每个人都能广泛使用并从中受益。在我们致力于通用人工智能的同时,我们还致力于扩展我们的集群以实现这一目标。我们在 AGI 方面取得的进展为我们的应用程序系列创造了新产品、新的人工智能功能,以及新的以人工智能为中心的计算设备。

虽然我们在构建 AI 基础设施方面有着悠久的历史,但我们于 2022 年首次分享了有关 AI 研究超级集群 (RSC) 的详细信息,该集群配备 16,000 个 NVIDIA A100 GPU。RSC 帮助我们构建了第一个 AI 研究超级集群,加速了我们开放和负责任的 AI 研究生成先进的人工智能模型。它在 Llama 和 Llama 2 的开发以及从计算机视觉、NLP、语音识别到图像生成甚至编码等应用的高级 AI 模型的开发中发挥了并将继续发挥重要作用。

我们新的人工智能集群建立在 RSC 的成功和经验教训的基础上。我们专注于构建端到端人工智能系统,重点关注研究人员和开发人员的经验和生产力。这些集群中高性能网络结构的效率、一些关键存储决策,再加上每个集群中的 24,576 个 NVIDIA Tensor Core H100 GPU,使得两个集群版本都能够支持比集群中可支持的模型更大、更复杂的模型。RSC 并为 GenAI 产品开发和人工智能研究的进步铺平道路。

1 网络

在 Meta,我们每天处理数百万亿个人工智能模型执行。大规模提供这些服务需要高度先进且灵活的基础设施。定制设计我们自己的大部分硬件、软件和网络结构,使我们能够优化人工智能研究人员的端到端体验,同时确保我们的数据中心高效运行。

考虑到这一点,我们基于 Arista 7800 以及 Wedge400 和 Minipack2 OCP 机架交换机构建了一个具有融合以太网远程直接内存访问 (RDMA) (RoCE) 网络结构解决方案的集群。另一个集群采用 NVIDIA Quantum2 InfiniBand 结构。这两种解决方案都互连 400 Gbps 端点。有了这两者,我们就能够评估这些不同类型的互连对于大规模训练的适用性和可扩展性,为我们提供更多见解,帮助我们了解未来如何设计和构建更大的、扩大规模的集群。通过对网络、软件和模型架构的仔细协同设计,我们成功地将 RoCE 和 InfiniBand 集群用于大型 GenAI 工作负载(包括我们在 RoCE 集群上持续训练 Llama 3),而没有任何网络瓶颈。

2 计算

这两个集群都是使用 Grand Teton 构建的,这是我们内部设计的开放 GPU 硬件平台,我们已将其贡献给开放计算项目 (OCP)。Grand Teton 以多代人工智能系统为基础,将电源、控制、计算和结构接口集成到单个机箱中,以实现更好的整体性能、信号完整性和热性能。它以简化的设计提供快速的可扩展性和灵活性,使其能够快速部署到数据中心队列中并轻松维护和扩展。与 Open Rack 电源和机架架构等其他内部创新相结合,Grand Teton 使我们能够以专为 Meta 当前和未来应用程序构建的方式构建新集群。

从 2015 年的 Big Sur 平台开始,我们一直在公开设计 GPU 硬件平台。

3 存储

存储在人工智能训练中发挥着重要作用,但却是最少被谈论的方面之一。随着时间的推移,GenAI 训练工作变得更加多模式,消耗大量图像、视频和文本数据,对数据存储的需求迅速增长。然而,将所有数据存储放入高性能且节能的空间中的需求并没有消失,这使得问题变得更加有趣。

我们的存储部署通过用户空间中的本地 Linux 文件系统 (FUSE) API 来满足 AI 集群的数据和检查点需求,该 API 由针对 Flash 媒体优化的 Meta 的 “Tectonic” 分布式存储解决方案版本提供支持。该解决方案使数千个 GPU 能够以同步方式保存和加载检查点(对任何存储解决方案来说都是一个挑战),同时还提供数据加载所需的灵活且高吞吐量的 EB 级存储。

我们还与 Hammerspace 合作,共同开发并落地并行网络文件系统(NFS)部署,以满足该 AI 集群的开发者体验要求。除了其他优势之外,Hammerspace 还使工程师能够使用数千个 GPU 对作业执行交互式调试,因为环境中的所有节点都可以立即访问代码更改。当配对在一起时,我们的 Tectonic 分布式存储解决方案和 Hammerspace 的组合可实现快速迭代速度,而不会影响规模。

我们的 GenAI 集群中的存储部署(均由 Tectonic 和 Hammerspace 支持)基于 YV3 Sierra Point 服务器平台,并使用我们目前可以在市场上购买的最新高容量 E1.S SSD 进行升级。除了更高的 SSD 容量之外,每个机架的服务器都经过定制,以实现每个服务器的吞吐能力、机架数量减少和相关电源效率之间的适当平衡。利用 OCP 服务器作为乐高积木,我们的存储层能够灵活地扩展以满足该集群以及未来更大的 AI 集群的未来需求,同时对日常基础设施维护操作具有容错能力。

4 表现

我们构建大规模人工智能集群的原则之一是同时最大限度地提高性能和易用性,同时又不牺牲其中之一。这是创建一流人工智能模型的重要原则。

当我们突破人工智能系统的极限时,测试扩展设计能力的最佳方法就是简单地构建一个系统,优化它,然后实际测试它(虽然模拟器有帮助,但也只能到此为止)。在这次设计之旅中,我们比较了小型集群和大型集群的性能,以了解瓶颈所在。下图中显示了当大量 GPU 以预期最高性能的消息大小相互通信时,AllGather 集体性能(以 0-100 范围内的标准化带宽表示)。

与优化的小型集群性能相比,我们大型集群的开箱即用性能最初很差且不一致。为了解决这个问题,我们对内部作业调度程序通过网络拓扑感知来调度作业的方式进行了一些更改,这带来了延迟优势并最大限度地减少了流向网络上层的流量。我们还结合 NVIDIA Collective Communications Library (NCCL) 更改优化了网络路由策略,以实现最佳的网络利用率。这有助于推动我们的大型集群与小型集群一样实现出色的预期性能。

从图中我们可以看到,小型集群性能(整体通信带宽和利用率)开箱即达到 90%+,但未经优化的大型集群性能利用率非常低,从 10% 到 90% 不等。在我们优化整个系统(软件、网络等)后,我们看到大型集群性能恢复到理想的 90%+ 范围。

除了针对我们内部基础设施的软件更改之外,我们还与编写培训框架和模型的团队密切合作,以适应我们不断发展的基础设施。例如,NVIDIA H100 GPU 开启了利用 8 位浮点 (FP8) 等新数据类型进行训练的可能性。充分利用更大的集群需要对额外的并行化技术和新的存储解决方案进行投资,这提供了在数千个级别上高度优化检查点以在数百毫秒内运行的机会。

我们还认识到可调试性是大规模训练的主要挑战之一。大规模识别导致整个训练作业停滞的有问题的 GPU 变得非常困难。我们正在构建诸如异步调试或分布式集体飞行记录器之类的工具,以公开分布式训练的细节,并帮助以更快、更简单的方式识别问题。

最后,我们将继续发展 PyTorch(为我们的 AI 工作负载提供支持的基础 AI 框架),使其为数十甚至数百个 GPU 训练做好准备。我们已经确定了进程组初始化的多个瓶颈,并将启动时间从有时几小时缩短到几分钟。

Meta 始终致力于人工智能软件和硬件的开放创新。我们相信开源硬件和软件将永远是帮助行业大规模解决问题的宝贵工具。

今天,作为 OCP 的创始成员,我们继续支持开放硬件创新,向 OCP 社区提供 Grand Teton 和 Open Rack 等设计。我们还继续成为 PyTorch 的最大和主要贡献者,PyTorch 是为整个行业提供动力的人工智能软件框架。

我们还继续致力于人工智能研究社区的开放式创新。我们推出了开放创新人工智能研究社区,这是一个面向学术研究人员的合作伙伴计划,旨在加深我们对如何负责任地开发和共享人工智能技术的理解——特别关注法学硕士。

对于 Meta 来说,开放的人工智能方法并不新鲜。我们还成立了人工智能联盟,这是一个由人工智能行业领先组织组成的团体,致力于在开放社区内加速人工智能领域的负责任创新。我们的人工智能工作建立在开放科学和交叉合作的理念之上。开放的生态系统为人工智能开发带来透明度、审查和信任,并带来让每个人都能从中受益的创新,而这些创新是在以安全和责任为首要考虑的基础上构建的。

这两个人工智能训练集群设计是我们人工智能未来更大路线图的一部分。到 2024 年底,我们的目标是继续扩大基础设施建设,其中包括 350,000 个 NVIDIA H100,作为其产品组合的一部分,其计算能力将相当于近 600,000 个 H100。

当我们展望未来时,我们认识到昨天或今天有效的方法可能不足以满足明天的需求。这就是为什么我们不断评估和改进基础设施的各个方面,从物理层和虚拟层到软件层等。我们的目标是创建灵活可靠的系统来支持快速发展的新模型和研究。

半导体行业观察,原文标题:《Meta 用 35 万个 H100,打造超级军火库》

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。