Dojo 超算排名第 4!意味着什么?

Wallstreetcn
2023.10.15 02:28
portai
I'm PortAI, I can summarize articles.

新能源鲶鱼会把 GPU 价格打下来么?看看大摩如何给特斯拉的云服务做市场定位

近日,有外媒报道特斯拉在奥斯汀总部旁正在新建一处建筑,未来将容纳其部分 Dojo 超级计算机。 根据 State of AI 统计,特斯拉的超级计算机拥有的 A100 GPU 数量在今年一季度排名第 4,实际上特斯拉已经运营着世界上最大的 GPU 集群之一。

今年 4 月,马斯克就曾表示:“ Dojo 还有潜力成为一项可出售的服务,我们将以与亚马逊云服务类似的方式向其他公司提供,尽管它最初是一家书店。所以我真的认为, Dojo 的潜力非常巨大”。

值得参考的对象是英伟达 DGX Cloud。英伟达自 2023 年 3 月发布的 DGX Cloud,月租 3.69 万美元起,包括 8 个 H100 或 A100,该服务也是微软 Azure 的两倍,后者包括 96 个 CPU,每月 2 万美元。

摩根士丹利指出 Dojo 的云服务能力是特斯拉的长期赌注和潜力,当前优先级最高的自然还是自动驾驶,特斯拉也很难错过这波 AI 计算浪潮的红利。在芯片领域,英伟达统治了 GPU,而高通主导了移动芯片,而特斯拉更有可能成为最好的视觉训练领域参与者之一。

在 7 月,马斯克告诉投资者,特斯拉计划在 2024 年底之前投资远超 10 亿美元来开发 Dojo ,这台超级计算机首次在今年夏天在特斯拉 Palo Alto 数据中心中使用,它基于特斯拉内部设计的芯片,以减轻特斯拉对英伟达的依赖。

Forrester 的半导体研究员 Glenn O’Donnell 表示:“所有试图做这件事的人都抱怨他们无法获得足够多的这些芯片。” 这也是特斯拉受到激励设计自己的 AI 芯片 D1 的一个重要原因。

根据外媒 9 月报道,特斯拉已经将其向中国台湾半导体制造公司台积电订购的 D1 芯片数量翻了一番,这些芯片是为特斯拉制造的,成本节约也是特斯拉决定设计自己的芯片的另一个重要因素。

摩根士丹利预计,通过设计自己的芯片而不依赖英伟达,特斯拉未来几年可以节省 65 亿美元。

像特斯拉一样开发自家芯片以摆脱英伟达供应短缺以及成本问题的公司不止一家。根据摩根士丹利亚洲半导体团队估计,到 2027 年,AI 芯片有望占到市场份额的 30%,这取决于 AI 计算需求的规模,以及对供应商多样化的需求,鉴于英伟达的议价能力。

定制 AI 芯片在 2024 年将达到 62 亿美元市场,特斯拉的 Dojo 和 FSD 组合将占据其中的 12 亿美元,以下是摩根士丹利盘点的各家定制 AI 芯片情况:

谷歌:自 2016 年首次宣布其第一代 TPU 以来,现在已经推出了第四代,谷歌正在通过 Broadcom 设计服务进行开发,Google TPU 声称与当代 ML DSA 相比,能效提高了 2~3 倍,相对性能也比上一代提高了 3 倍以上。

亚马逊:AWS 早在 2018 年就开始了其芯片战略,AWS 表示第一代 Inferentia 芯片的吞吐量高达 2.3 倍,每个推断的成本降低了 70%,与可比较的 Amazon EC2 相比,其第二代使用台积电 7nm 工艺制造的芯片,吞吐量是第一代 Inferentia 芯片的 4 倍,延迟降低了 10 倍。

微软:自 2019 年以来,微软一直在开发自己的 AI 芯片叫做为 Athena,该芯片基于台积电 5nm 工艺,预计在明年某个时候发布。

Meta:Meta 在今年宣布了第一代 AI 推理加速器 MTIA v1,这款 AI 芯片基于台积电 7nm 工艺,每瓦特性能提高 2 倍,计划明年推出。

根据摩根士丹利中国台湾半导体分析师 Charlie Chan 说法,半导体设计公司 Alchip 预计今年 Dojo 芯片产量将达到 4~5 万,而相比之下英伟达今年出货量在 20~25 万个 H100 芯片。

成本方面,摩根士丹利分析师 Jonas 也提到 D1 芯片将使特斯拉更多地控制其用于运行 AI 软件的能源消耗,且能够比使用英伟达芯片更快地处理视频数据。根据特斯拉预计,Dojo 将使特斯拉能够在 1 周内训练完全自动驾驶的工作负载,而以前需要 1 个月。

与当前的替代方案相比,特斯拉预计 Dojo 在性能方面将提供 4 倍提升,在性能/瓦特方面将提供 1.3 倍的提升,并且在占地面积方面将缩小 5.0 倍;换句话说,特斯拉可以在 4 个 Dojo 机柜上实现与使用 4000 个 GPU 相同的吞吐量。此外,通过使用较少的系统,而不是当前的 A100 集群,超级计算机可以更有效地冷却。

根据 2023 年 6 月马斯克的推文,Dojo V1 已经针对大量的视频训练进行了高度优化,而 Dojo V2 将整合 V1 目前面临的任何通用 AI 限制;特斯拉认为,下一代 V2 的开发和实施可以实现高达 10 倍的性能提升,从而使公司能够在 2024 年第四季度达到 100 exaFLOP。

摩根士丹利还表示,特斯拉可以使用 Dojo 来运行其正在开发的 Optimus 人形机器人背后的软件,他推测其他马斯克的公司,如 X 和 SpaceX ,也可以从 Dojo 购买服务。

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。