Rubin 缩水背后，英伟达的 CUDA 神话正在松动

英伟达的产品迭代速度，正在撞上物理极限的墙。更大的芯片→更复杂的封装→更高的缺陷率→要么延迟、要么缩水。这是一条不能无限延伸的曲线。而与此同时，竞争对手们正在用另一种方式绕过这面墙：不做更大的芯片，做更专用的芯片。

两条看似无关的新闻，在 6 月最后一周先后落地。

6 月 25 日，OpenAI 发布首款自研 AI 推理芯片 Jalapeño，与博通联手仅用 9 个月完成从设计到流片——这家全球最大的 GPU 买家，开始自己造芯片了。

6 月 30 日，半导体研究机构 SemiAnalysis 在社交平台公开宣布：英伟达原版 4 芯片 Rubin Ultra 已在 GTC 2026 发布仅三个月后遭取消，新版性能缩水近半。"这一切发生的背景是，"该机构补充道，"英伟达的市场份额正在被侵蚀。"

而早在去年，媒体爆出 Anthropic 的年化营收已逼近 70 亿美元，旗下 Claude Code 在推出两个月内创造了 5 亿美元年化收入。而驱动这一切的算力底座，已经不再只有英伟达——谷歌 TPU 承担训练、亚马逊 Trainium 负责推理、英伟达 GPU 退居为"研究探索"的第三选项。

三条新闻，指向同一个问题：CUDA 护城河——英伟达最坚固也最被神话的竞争壁垒——正在出现裂痕。

87% 到 75%，英伟达的"不可替代"正在瓦解

先看一组数字。

据 Silicon Analysts 基于英伟达/AMD 财报及台积电产能分配数据的估算，英伟达在 AI 加速器市场（按收入计）的份额轨迹如下：

可以看到，英伟达的收入仍在增长——从 150 亿到 1500 亿，四年十倍。但份额从 87% 高峰滑向 75%，意味着增量市场中有越来越大的一块被切走了。

切走这块蛋糕的，不是某一个对手，而是来自四面八方的竞争：谷歌 TPU、亚马逊 Trainium、微软 Maia、Meta MTIA、博通定制的 XPU——还有刚加入的 OpenAI。

博通 CEO 陈福阳在 2026 财年一季报电话会上透露了一个此前未公开的数字：博通 AI 半导体收入已达到 84 亿年化运行率，同比增长 10684 亿年化运行率，同比增长 106400-500 亿的年度轨迹冲刺。这家公司已经签下了六个超大规模客户为其定制 AI 芯片，OpenAI 是第六个。

换句话说，全球最大的几家云计算公司和 AI 公司，不约而同地选择了同一个方向：自己造芯片。

Anthropic 的选择

如果说市场份额数据是冰冷的统计，那 Anthropic 的案例就是一个活生生的"去英伟达化"教科书。

Anthropic 是目前全球增长最快的 AI 公司之一。年化营收逼近 70 亿美元（2025 年同期仅约 10 亿），服务超过 30 万家企业客户，大客户数量同比增长近 7 倍。Claude Code 在推出两个月内创造了 5 亿美元年化收入，Anthropic 称其为"史上增长最快的产品"。

而驱动这一切的算力底座，是一种被 Anthropic CFO Krishna Rao 称为"独特计算策略"的三平台架构：

注意最后一列。英伟达 GPU 排第三，不是并列，不是"备选"，是三个选项里规模最小的那个。

这不是一个缺钱的小公司在用廉价替代品凑合。这是全球第二大 AI 公司，在生产环境中，用非英伟达芯片驱动其增长最快的产品。

SemiAnalysis 在 6 月 30 日的帖子中特别点出了这一点："Claude Code 的推理工作有相当大一部分运行在 Trainium 上，Claude 的训练在 TPU 上完成。就在一年前，TPU 和 Trainium 能增长到这种规模，同时 CUDA 护城河被缓慢侵蚀，还是难以想象的事。"

Anthropic 为什么要这样做？不是因为 TPU 和 Trainium 比 H100 更强——在绝对性能上它们可能仍有差距。而是因为特定场景下，专有芯片的性价比远超通用 GPU。训练用 TPU，因为谷歌给了几百亿美元的合同和百万颗芯片的供应承诺。推理用 Trainium，因为 AWS 是其主要云服务商、已投资 80 亿美元，Project Rainier 超算集群完全跑在 Trainium 2 上，没有 GPU 溢价。

亚马逊在 Trainium 上赌得很大。据其 2026 年一季报披露，Trainium 产品线已获得超过 2250 亿美元的收入承诺，客户包括 OpenAI 和 Anthropic。AWS 的 AI 收入运行率已超过 150 亿美元，Bedrock 推理服务大部分跑在 Trainium 上。

这里的关键词不是"性能"，是"成本"。推理是每天都在烧钱的事。ChatGPT 每次回答问题、API 每次返回代码，背后都是 GPU 在跑电。Anthropic 用 Trainium 替代 GPU 做推理，不是为了跑得更快，是为了每花一美元算更多次。

三道侵蚀切口：CUDA 护城河从哪里裂开

CUDA 之所以被视为英伟达最坚固的护城河，是因为它构建了一个"硬件 - 软件 - 开发者"的封闭生态：

20 年积累，400 万 + 开发者
所有主流 ML 框架优先为 CUDA 优化
cuDNN、TensorRT、NCCL 等优化库形成深度绑定
切换成本以年计，以亿美元衡量

但 2026 年的 AI 芯片竞争，不再是"做一个比 H100 快 10% 的 GPU"——那是正面进攻，无人能赢。侵蚀来自三个侧面：

侵蚀路径一：自研 ASIC——不打全战场，只切最肥的推理蛋糕

这是最致命的路径。它的逻辑不是"我能做得比英伟达好"，而是"我不需要 GPU 的所有功能，我只需要推理"。

一块英伟达 H100 要做的事：图形渲染、科学计算、AI 训练、AI 推理、视频编解码……一块 Jalapeño 只做一件事：运行 OpenAI 自己的模型进行推理。前者是瑞士军刀，后者是一把专砍一种木头的斧头——在特定任务上，斧头比军刀好用得多，也便宜得多。

OpenAI Jalapeño 的定位极其精准：不和英伟达比全能，只在推理——这个每天消耗数十亿次 API 调用、每年燃烧数亿美元成本的场景——做到极致。OpenAI 官方目标是降低 30-50% 的推理成本。在每天烧掉数百万美元推理费用的体量下，这意味着每年节省数亿美元的纯利润。

而且 OpenAI 不是第一家。微软 Maia 200（2026 年 1 月发布）、谷歌 TPU Ironwood（第七代，首款专为推理设计）、亚马逊 Trainium 3——四大云厂商全部亮出了自研推理芯片。再加上 Meta MTIA 和苹果的定制芯片，全球前七大科技公司中，只有一家还在"只买不造"——而它也在路上了。

侵蚀路径二：AMD——从"存在"到"可信替代"

AMD 的 AI GPU 收入从 2022 年的不到 10 亿美元飙升至 2026 年预计的 150 亿美元以上，四年超过 15 倍增长。

这背后的关键转折点是 MI400 系列。基于 CDNA5 架构、432GB HBM4 内存、19.6 TB/s 带宽，预计 2026 年下半年量产。S&P Global 预测 MI400 单系列将贡献 72 亿美元收入，占 AMD 数据中心业务的 25%。

更重要的是客户端的信号。Meta 已与 AMD 签署了高达 6 吉瓦的采购承诺——这不仅是 AMD 历史上最大的 AI 芯片订单，也是一个明确的信号：超大规模客户在做多供应商布局。

AMD 的局限同样明显：台积电 CoWoS 产能分配仅约 11%，而英伟达占据 60% 以上。产能天花板决定了 AMD 短期内无法对英伟达形成数量级冲击。但"可信的第二供应商"这个定位本身，就已经拆掉了"非英伟达不可"的叙事墙角。

侵蚀路径三：软件层解耦——Triton、JAX 和"CUDA-Free"的未来

这是最容易被忽略、但长期最危险的一条路径。

CUDA 的绑定依赖于一个简单事实：AI 研究员写代码用 PyTorch，PyTorch 底层跑在 CUDA 上。但如果 PyTorch 底层不再依赖 CUDA 呢？

这正在发生。 PyTorch 团队已经验证了使用 Triton 编译器可以实现"CUDA-Free"推理——在 H100 和 A100 上运行 Llama 3 模型，Triton 内核生成的 token 吞吐量可与 CUDA 媲美。2026 年 2 月，Triton 推出了新的多后端支持，允许同一套代码编译到不同硬件上——AMD GPU、英特尔 GPU、甚至各种 ASIC。

谷歌的 JAX 框架走得更远。它从一开始就设计为硬件无关——同样的代码可以在 TPU、GPU 甚至 CPU 上运行。Anthropic 选择 TPU 进行训练，很大程度上就是因为 JAX 让它们可以在不重写模型代码的前提下迁移算力平台。

软件层的解耦意味着什么？意味着新一代 AI 研究员可能在从未写过一行 CUDA 代码的情况下，训练出最先进的模型。当开发者不再被锁定在 CUDA 生态中，"必须买英伟达"的硬逻辑就变成了"可以买英伟达"的软选择。

Rubin Ultra 取消：物理极限的分水岭

回到开篇的新闻。英伟达 4 芯片 Rubin Ultra 在发布三个月后遭取消，被 SemiAnalysis 视为"制造执行层面的问题正在让更多市场份额流失"。

技术原因并不复杂。原版 Rubin Ultra 计划将 4 颗计算芯片 +16 个 HBM4E 内存模块集成在单一封装内，采用台积电 CoWoS-L 工艺。但据 Global Semi Research，4 芯片配置下出现了封装基板翘曲——基板向多个方向弯曲，导致计算芯片无法与基板完全接触。信号传输失效，芯片根本无法工作。

台积电的备选方案 CoPoS（面板级封装）要到 2028 年底才能量产。英伟达等不起——所以新版 Rubin Ultra 回退到 2 芯片设计，性能缩水近半。

这件事的象征意义大于实际业务影响。

英伟达仍然会卖掉它能生产的每一块 Rubin Ultra。但"从 4 芯片回退到 2 芯片"暴露了一个更深层的问题：英伟达的产品迭代速度，正在撞上物理极限的墙。更大的芯片→更复杂的封装→更高的缺陷率→要么延迟、要么缩水。这是一条不能无限延伸的曲线。

而与此同时，竞争对手们正在用另一种方式绕过这面墙：不做更大的芯片，做更专用的芯片。

定价权的裂缝

英伟达的护城河真正不可撼动的部分，不是 CUDA 软件生态，是制造端。台积电 60% 的 CoWoS 先进封装产能握在它手里。这是物理壁垒，不是软件壁垒。竞争对手可以写出更好的框架、设计出更高效的 ASIC——但在出货量上追赶英伟达，首先要过台积电产能这一关。

但问题也就在这里：制造壁垒依赖的是一家第三方晶圆厂。它不是英伟达自己能控制的资产。

而英伟达 88% 的毛利率——H100 成本 3320 美元、售价 28000 美元——建立在一个前提上：客户无法离开它。如果这个前提从"无法离开"变成"性价比最优的选择"，那定价权就不再是绝对的了。

Anthropic 证明了另一条路：不追求最好的芯片，追求最适合的芯片。训练用 TPU 而不是 GPU，不是因为 TPU 更快，而是因为谷歌给了足够多的芯片和足够好的价格。推理用 Trainium 而不是 GPU，不是因为 Trainium 更强，而是因为 AWS 是战略股东，Project Rainier 绕开了通用 GPU 的溢价。

当全球第二大 AI 公司把 GPU 降级为三大算力平台中最小的一块时，"必须买英伟达"这件事就不再是铁律了。

英伟达仍然是最好的。头部 AI 公司没有一个彻底离开了它——Anthropic 保留了一部分 GPU 用于"前沿研究探索"，OpenAI 的 Jalapeño 只做推理不做训练，Meta 的 MTIA 只覆盖推荐系统和内容审核。

但从"只有英伟达"到"英伟达最贵，先用便宜的"，这中间的差距就是定价权的流失。

市场已经开始为这个可能性重新定价。今年以来，SemiAnalysis 的每一次看空报告都引发相关板块剧烈震动：6 月初 SOCAMM 削减消息导致美光单日跌 13%，6 月 10 日 CPO 延迟争议迫使英伟达高管出面辟谣，6 月 30 日 Rubin Ultra 取消再度点燃讨论。

这些波动的背后，是市场在艰难回答一个以前不需要回答的问题：如果 CUDA 不是不可替代的，英伟达值多少钱。