天下英雄谁敌手?
尽管英伟达仅在 5 月 30 日盘中突破万亿美元市值,短暂进入高光时刻便再次跌回万亿美元以下市值,但由 ChatGPT 引发的 “英伟达” 旋风,在 AI 业界却越刮越猛。
6 月 1 日,多个独立信源告诉华尔街见闻,英伟达 CEO 黄仁勋将于 6 月 5 日至 6 月 11 日期间抵达中国大陆。但英伟达没有向华尔街见闻正面确认此则消息。
眼下,A 股但凡和 “英伟达” 或 “黄仁勋” 三字沾边,个股都受到市场热捧。5 月 29 日,黄仁勋在参加 COMPUTEX 2023 中国台北国际电脑展会时,演示英伟达新平台 Isaac AMR(自主移动机器人)。这个平台的底盘采用了科创板公司的 RMP 系列产品,该公司盘中立即涨停。
在 “超级 AI 应用” ChatGPT 的指引下,英伟达第二季度营收预测值超出市场预期竟高达惊人的 50%,至 110 亿美元。
谁还能阻挡英伟达称霸 AI 赛道?
英伟达的 AI GPU 强在何处?
英特尔已不再是当年那家占据统治地位的科技公司。
原本 CPU 是 PC 或服务器最重要的核心部件。但是现在,加速计算芯片通过杀手级应用 ChatGPT 正在加速取代 CPU 的地位。算力成为以 IDC 为基础条件的 AI 应用发展核心驱动力,GPU 成为关键部件。
“生成式人工智能将是(英伟达业绩)引爆点。” 黄仁勋说,“与 CPU 相比,未来 IDC 更需要 GPU,因为数据都将通过生成式 LLM 自动生成,而非主要用于数据检索。” 生成数据需要更多的 GPU,而检索数据,只需要 CPU。
目前,性能愈发强悍的 PC 系统配置了超过 8 个服务器 GPU 和 1 个 CPU 的算力硬件,英伟达占据了全球超过八成(84%)的服务器(IDC:数据中心)GPU 市场份额。
比如,英伟达 DGX 系统,这是用于数据训练的 IDC 核心算力来源,搭载了 8 颗英伟达高端 H100 GPU,还有两颗 CPU;谷歌的 A3 超级计算机,同样用了 8 颗英伟达 H100 GPU,但只用了 1 颗英特尔制造的高端至强处理器。
据英伟达公示的技术资料显示,H100 于 2022 年三季度发布,训练速度比 A100 快 9 倍,推理速度比上代产品 A100 快 30 倍。5 月 29 日,黄仁勋发布了 GH200 超级芯片,这是英伟达开发的基于 Arm 架构的 CPU+GPU 集成方案,用于开发聊天机器人、互联网推荐系统算法等大模型 AI 应用。
这个趋势随着 AGI 在产业的持续落地,产生的影响日益显著。英伟达 IDC 业务在第一季度增长了 14%,但英特尔的 AI 和 IDC 业务部门业绩下降了 39%。
另一项因素也在加强英伟达超越英特尔的优势。英伟达服务器 GPU 售价极高,单颗英伟达 H100 售价高达 4 万美元(eBay 平台加急售价),而英特尔最新一代至强 CPU 的单颗标价虽然也很高,但 “只有” 1.7 万美元。
当然英伟达也不是全无对手,当年英特尔的上游合作伙伴 AMD,也在发力服务器 GPU,包括高通、苹果、谷歌和亚马逊在内的众多巨头,都在设计开发移动 AI 算力芯片,而非服务器 GPU;甚至是英特尔,在游戏领域的 GPU 技术实力,同样不容小觑。
但是在眼下,英伟达确实一家独大。但凡提及 AGI 算力,无不将英伟达服务器 GPU 列为首选。这主要是因为 AGI 目前对算力极为渴求,要处理处理 TB 级数据,训练性能要求极高,而在需要 “推理” 的过程中使用模型生成文本、图像或预测,也不是移动 AI GPU 能达成的。
更重要的还不在于英伟达的 GPU 硬件性能,而是——英伟达的 AI 软件系统:英伟达的 AI 专有软件,能轻松聚合 GPU 的硬件功能用于 AI 应用程序。
黄仁勋在英伟达财报电话会议上也说,“我们的软件不易复制,(竞对)必须设计所有的软件、库和算法,将它们集成到框架中并做持续优化;同时,软件架构也同样需要优化迭代。”
也就是说,要做到和英伟达一样,实现 GPU 与 AI 应用的无缝衔接,要做的不仅仅是优化芯片的设计和性能,还需要对软硬件的技术架构和整体框架做同步优化,这是一项系统工程。要超越单品性能虽然不易,但并非全无可能,但面对系统级能力,谈超越,难度不言而喻。
英伟达也在持续增加对 IDC 的资本投入。据英伟达最新财报显示,其整体收入中,IDC 资本支出的份额占比已增至 8.4%,而之前根据其上一年的固定比率预测为 6.5%。
初创公司和巨头的现实威胁
看上去似乎无人能阻挡英伟达在 AI 技术领域的统治地位,但 AI 前景的无限空间,仍在吸引无数挑战者。
除了上文提及的多家巨头,初创 AI 公司成为英伟达 AI 挑战者大军不容忽视的一部分。当然,这种技术要求的初创公司很难出自无名之辈。
有一则极具戏剧性的传闻,出自在前沿技术和应用领域极为活跃的特斯拉公司首席执行官埃隆·马斯克(Elon Musk)之口。这位持续让世人惊叹的科技巨子说,“就连狗都在抢 GPU”。
有鉴于此,所以马斯克虽然在口头上叫停研究 AI 技术,但他的身体却很诚实:这位老兄在今年 3 月 9 日建立了一家取名为 “X.AI” 的 AI 公司,还偷偷摸摸买了 10000 颗英伟达 GPU。
想分英伟达一杯羹的还有来自英特尔公司架构、图形和软件(IAGS)部门的副总裁、首席架构师 Raja Koduri,这位技术大拿已于今年 3 月底离职。接下来,Raja Koduri 将创办一家 AI 技术公司,主要研发新一代生成式 AI 工具,目的是削弱英伟达对数字电影和视频游戏市场的控制力。
与马斯克的 X.AI 公司不知道要干嘛相比,Raja Koduri 的计划更清晰。他这家尚未命名的 AI 初创公司,第一个项目,是要创建一套 AI 工具,以便让包括电影和游戏艺术家在内的消费群体,无论用 PC、Mac、iPad 还是其他设备,都无需深入研究软件代码而直接生成自己想要的工作结果。
尽管这些 AI 赛道新手看上去很想大干一场,但真正对英伟达有现实挑战能力的还是 AMD、微软和谷歌此类巨头。其中,AMD 在游戏领域的 GPU 对英伟达有些许威胁,但 IDC 需要的服务器专用 GPU 性能无法望其项背。
至于微软、谷歌甚至云服务商比如亚马逊,都一面和英伟达保持良好的业务合作,一面又在下大本钱研发自己的 AI 专用 GPU。
比如微软,这个桌面 PC 时代的超级霸主,正是 OpenAI 的背后金主(2019 年微软给 OpenAI 投了 10 亿美元),同时也是英伟达 H100 芯片最大的采购方。今年 3 月,微软用数万颗英伟达 GPU 帮 OpenAI 组装了一台 AI 超级计算机。
但微软也在推进自己的 AI 芯片研发计划,代号 “雅典娜”。这项计划始于 2019 年,目标是为训练 LLM(大语言模型)等软件而设计,同时可支持推理,能为 ChatGPT 背后的所有 AI 软件提供算力支持,初代雅典娜 GPU 量产时间表被定于 2024 年。
与微软相比,谷歌对英伟达的威胁可能更显著。目前谷歌的 AI 处理芯片是专为 AI 研究开发机器学习(Machine Learning)的专属芯片 TPU(张量处理单元),能同时处理 “云上” 训练和推理,并设计了基准测试工具 MLPerf。
谷歌 TPU 如今已迭代到 V4 版。据谷歌 4 月 6 日披露,得益于互连技术和领域特定加速器(DSA)方面的关键创新,谷歌云 TPU v4 在扩展机器学习系统性能方面比其前代版本有了近 10 倍的飞跃。
TPU v4 是谷歌于 2021 年推出的、专门用于执行机器学习的 AI 芯片,是谷歌第 5 代特殊领域加速器(DSA:Domain Specific Accelerator)及第 3 代用于 ML 模型的超级计算机平台,其性能与英伟达 A100 相比,速度快 1.2-1.7 倍,功耗低 1.3-1.9 倍。
尽管如此,就眼下看,对英伟达具有商业层面现实威胁的公司,还不存在。这些威胁,现在还处于水面之下。