AI 超级计算机 DGX GH200 燃爆市场,这台集成 256 颗 GH200 超级芯片的超算,拥有高达 1 exaflop 的超凡 AI 性能以及 144TB 的共享内存,在 GPT-3 训练中比上一代 DGX H100 集群快 2.2 倍。
今日的 COMPUTEX 大会上,英伟达 CEO 黄仁勋向全世界宣布——
我们已经到达了生成式 AI 的引爆点。从此,全世界的每个角落,都会有计算需求。
股价刚刚暴涨 2000 亿美元的英伟达,为这一刻早已做好准备。
一开场,身着黑皮衣的老黄慷慨激昂地走上舞台,「大家好!We’re back!」
随后,便祭出大杀器——「超级 GPU」GH200,并宣布谷歌云、Meta 和微软将率先获得 GH200。
据称,有超过 3500 人亲临现场,体验了这个长达 2 个小时的激情演讲。
时隔 4 年,阔别已久的老黄也是狂飙中文。
「超级芯片」GH200
要说,这次演讲中,重头戏还是在 GPU 上。毕竟 AI 的 iPhone 已经来临。
老黄左右手分别端了一个芯片,重磅宣布,「GH200 超级芯片」已经全面投产。
这一「超级 GPU」使用 NVLink-c2c 互连技术,将基于 ARM 节能的 GraceCPU 和高性能 NVIDIA H100 Tensor Core GPU 结合在一起,提供了高达 900GB/s 的总带宽。
目前,由 GH200 加持的系统加入了 400 多种系统配置。
这些系统配置由英伟达最新的 CPU、 GPU 和 DPU 架构的不同组合提供动力。
其中包括 Grace、Hopper、Ada Lovelace 和 BlueField,这些架构的创建是为了满足对生成式 AI 不断增长的需求。
此外,老黄还宣布了一个更重磅的:256 个 GH200 组成的超算来了。
超算 DGX GH200,今年上市
英伟达表示,全新 DGX GH200 人工智能超级计算平台,是专为大规模生成式 AI 的负载而设计。
这台由 256 块 Grace Hopper 超级芯片组成的超算,将拥有高达 1 exaflop 的超凡 AI 性能,以及 144TB 的共享内存(比上一代 DGX A100 多了近 500 倍)。
举个例子,在 GPT-3 训练中,它能比上一代 DGX H100 集群快 2.2 倍。
此外,这个庞然大物还包含了 150 英里的光纤和 2,000 多个风扇。
目前,英伟达已经与三大巨头进行了合作,谷歌、 Meta 和微软。
由于生成式人工智能的爆炸式增长,微软、谷歌等巨头希望拥有更强大、性能更好的系统。
而 DGX H200 的设计目的是,通过使用英伟达定制的 NVLink Switch 芯片,绕开 InfiniBand 和以太网等标准集群连接的局限性,为最大工作负载的大规模可扩展性提供最大的吞吐量。
另外,英伟达表示正在建造自己的大型 AI 超级计算机 NVIDIA Helios,预计在今年上线。
它将使用 4 个与 NVIDIA Quantum-2 InfiniBand 网络连接的 DGX GH200 系统,以提高数据吞吐量,以训练大型 AI 模型。
以往的数据中心都非常庞大,而且是基于 CPU 的,算法的迭代要花很长时间,大部分算法,也都是 CPU 中心的。
而现在,有了 Grace Hopper,只需要几天甚至几个小时,就能完成这个过程。简直要把整个行业都革命掉了!
(等等,PaLM 的参数不是 540B 么?)
老黄:买越多,越省钱!
作为现在的扛把子,这样一个重 65 磅,价值 200000 美元的 H100 计算机,是世界上第一个搭载了 Transformer Engine,也是目前全世界最昂贵的计算机。
老黄表示,可以说,像这样的产品,你买得越多,就省得越多。
接下来,老黄提到 1964 年的 IBM 360,强调了 CPU 的重要性。
老黄自信地重复表示,「而 60 年后,我们现在有数据中心。今天,数据中心就是一个计算机。」
正如老黄所说,一种新的计算模式正在被创造。
为什么使用 GPU 胜过使用 CPU?
老黄从配置上给出了分析:花费 1000 万美金成本,你可以建置一个有 960 颗 CPU 的数据中心,但这个数据中心要 11GWh 的功率,处理 1X LMM(大语言模型)的数据量。
但一样的钱,你可以建置一个配备有 48 个 GPU 的数据中心,但只要 3.2GWh 的功耗,而且可以处理 44X LLM 的数据量。
要知道,如此配置已经足够惊人。然而,这还不够。
为了获得极致性能,你可以在功耗不变的情况下,把 GPU 数量直接拉到 172 个。
此时的算力,可以高达 CPU 数据中心的 150 倍。当然,预算也提高到了 3400 万美元。
此外,如果你就只是单纯地想完成手头的工作(1X LLM),老黄也帮你把成本打下来了——
只需花 40 万美金,就能买一个搭载了 2 个 GPU 的数据中心,功耗仅 0.13GWh。
台下响起一片掌声,老黄又拿出了口头禅「The more you buy,The more you save」,甚至重复了三遍。
这背后的策略,究竟是什么?老黄给了一个公式。
MGX:模块化架构
与此同时,老黄还推出了 NVIDIA MGXTM,一个供系统制造商快速、低成本地构建 100 多个服务器变体的参考架构。
据称,这个规范可以将开发成本削减多达四分之三,并将开发时间缩短三分之二,仅需要 6 个月。
有了 MGX,科技公司可以为他们的服务器优化加速计算的基本系统架构,然后选择自己的 GPU,DPU 和 CPU。
MGX 还可以很容易地集成到云和企业数据中心。
除了硬件之外,MGX 还得到了英伟达完整软件栈的支持,这使得开发者和企业能够构建和加速 AI、 HPC 和其他应用程序。
这包括 NVIDIA AI Enterprise,NVIDIA AI 平台的软件层,其特点是有 100 多个框架、预训练的模型和开发工具,以加速人工智能和数据科学,为企业人工智能开发和部署提供充分支持。
将 AI 引入游戏,实时语音聊天的 NPC 角色来了
这次演讲的亮点,还有全新的定制 AI 模型代工服务 ——Avatar Cloud Engine (ACE) for Game。
现场,老黄右手手持一块 RTX 4060 Ti,左手手持一台电脑,展示了运行实时光线追踪的 Cyberpunk 2077。
在一个充满「赛博朋克」风格的拉面店场景中,玩家按下一个按钮,可以用自己的声音说话,然后店主 Jin 会进行回答。
Jin 是一个 NPC 角色,但他的回答是由生成式 AI 根据玩家的语音输入实时生成的。Jin 还有着逼真的面部动画和声音,与玩家的语气和背景故事相符。
这个逼真人物角色的生成,使用了一个实时人工智能模型渲染工具 Nvidia Ace。
老黄表示,这个游戏中的角色并没有预先设定。他们有一个典型的任务提供者 NPC 类型。
但是从视频中,可以看到,虚拟角色的谈话有点生硬,但还不算太糟。
那些没有 AI 专业知识的人,将被抛弃
40 年来,我们创造了 PC、互联网、移动、云,现在是人工智能时代。
你会创造什么?不管是什么,都要像我们一样追赶它。要奔跑,不要走。要么是你为食物而奔跑,要么就是你任自己逃避,成为食物。
5 月 27 日,黄仁勋在台湾大学发表了毕业典礼演讲。
此刻,他正为全世界所瞩目。
瞬间变身万亿掌门人,让他的话更有底气。
黄仁勋表示,每个公司和个人都应该熟悉人工智能,否则,就有失败的危险。
他强调:敏捷的公司会利用人工智能提高自己的地位,这样的公司不会倒闭。
很多人担心,AI 会抢走自己的工作,但真正会抢走你饭碗的,掌握了 AI 技术的人。
当时,他在演讲中预言:从各方面来看,AI 的兴盛是计算机产业的再生契机。在下个十年,我们的产业将使用新型的 AI 电脑,取代价值万亿美元的传统电脑。
而从今天的演讲中,我们仿佛已经窥见了这种未来的雏形。
本文来源:新智元,原文标题:《老黄携「超级 GPU」炸场!E 级 AI 超算性能飞升,买越多越划算,谷歌微软 Meta 抢先试用》