坚持不用 GPU!Meta 又要 All in 自研 AI 芯片?

Wallstreetcn
2023.05.20 00:42
portai
I'm PortAI, I can summarize articles.

因为一系列的决策失误,Meta 已经在 AI 领域大幅落后于硅谷同行,如今要自研 AI 芯片,Meta 能走多远?

就在整个硅谷都在以自家公司拿到多少块英伟达的 AI 芯片(A100 GPU)为傲时,有这么一家倔强的公司,坚持不用英伟达的 GPU,决定自研 AI 芯片。

这家公司就是 Facebook 的母公司 Meta。

5 月 18 日本周四,Meta 披露了旗下数据中心项目支持 AI 工作的细节,提到已经打造一款定制芯片,简称 MTIA,用于加快生成式 AI 模型的训练。这是 Meta 首次推出 AI 定制芯片。Meta 称,MTIA 是加快 AI 训练和推理工作负载的芯片 “家族” 的一分子。

MTIA 全称为 Meta 训练和推理加速器。MTIA 是一种 ASIC,也就是将不同电路集成在一块板上的芯片,可以将它进行编程,执行一项或多项任务。看起来和 GPU 的功能类似,对不对?

和现在全球都在抢着用的英伟达 A100 GPU 相比,Meta 自称这款芯片也有优势。Meta 称,MTIA 采用开源芯片架构 RISC-V,它的功耗仅有 25 瓦,远低于英伟达等主流芯片厂商的产品功耗。

而且,为了凸显自己在 AI 领域早有布局,Meta 称,第一代 MTIA 芯片在 2020 年就已经设计完成,采用的是 7 纳米工艺。Meta 说,打造第一代 MTIA 芯片的目的是提高内容推荐模型的效率,以便更精准地为用户推荐广告等内容。此外,第一代 MTIA 可以将内部 128MB 的内存扩展到高达 128GB。在 Meta 设计的基准测试中,它处理了低等和中等复杂度的 AI 模型,效率高于 GPU。

对于投资者关于 Meta 为什么不直接采用 GPU 的质疑,Meta 的软件工程师 Joel Cohurn 特别介绍称,Meta 并非不是没有尝试过 GPU,而是在最初使用 GPU 执行推理任务时,发现 GPU 不太适合这种工作。用 GPU 固然可以大幅优化软件,但对真实模型的效率很低,现实配置时难度大、成本高。所以 Meta 认为,靠人不如靠己,需要搞个 MTIA。

不过,Meta 也承认,尽管在处理中低复杂程度模型时效率更高,但 MTIA 芯片在处理高复杂度 AI 模型时却问题多多。

Meta 间接承认,要想让 MTIA 达到英伟达 A100 的水平,尚有差距。Meta 表示,这款芯片在内存和网络领域的工作还未完成,随着 AI 模型发展,这些工作会出现瓶颈。目前,MTIA 的重点放在 Meta 应用家族的推理方面,而不是训练。不过 Meta 强调,MTIA“大大” 提高了单位瓦特的推荐负载运行效率,让公司能运行加强版的、更尖端的 AI 工作负载。

Meta 本周四并未披露配置新芯片的时间表,也未说明具体有什么计划开发可能训练模型的芯片。

Meta 在 AI 领域已经落后同行

去年底 ChatGPT 大火之后,AI 成为全球科技界最热门的话题。AI 芯片的主流制造商英伟达赚得盆满钵满,一度被视为已经落伍的微软借着投资 OpenAI 成功逆袭,向来宣称在 AI 领域投资诸多的谷歌仓促发布 Bard 应战,以及一众互联网大厂面对英伟达的 “霸权” 纷纷宣布要自研 AI 芯片……

这中间,独独没有 Meta 的踪影。

上个月,有媒体爆出一个大瓜,Meta 如今居然还在用 CPU 来跑 AI!

这不仅仅是因为英伟达的 A100 定价颇高,更是因为 Meta 之前 All in 元宇宙留下的后遗症。扎克伯格决定把全部身家赌在元宇宙上这一战略,直接榨干了 Meta 的算力。不管是 AI 的部署,还是对竞争对手威胁的应对上,Meta 的潜力都遭到了极大的削弱。

更不要说去年以来,Meta 连续不断的裁员,让整个公司人心惶惶,丝毫没有战斗力应对突如其来的 AI 大潮。

这些失误,引起了前 Meta 董事会成员 Peter Thiel 的注意,随后,他于 2022 年初辞职。据内部人士透露,在离开前的一次董事会会议上,Thiel 告诉扎克伯格和其他高管们,他们对 Meta 的社交媒体业务太自满,并且过分关注元宇宙了,这让公司很容易被竞争对手撼动。

在去年夏末,扎克伯格曾召集高管们,花了五个小时,对 Meta 的计算能力进行分析。他们需要知道,在开发尖端的 AI 方面,Meta 有多大的能力?

出来的结果,让所有人倒吸一口凉气。

根据去年 9 月 20 日的公司备忘录显示,尽管 Meta 对 AI 研究进行了大笔高调的投资,然而主要业务需要的 AI 友好型硬件和软件系统都非常昂贵,在这些方面公司的进展相当缓慢。缓慢到,已经阻碍了 Meta 跟上大规模创新的步伐。

哪怕是 Meta All in 的元宇宙,要想维持增长,也必须越来越多地依靠 AI。

Meta 基础设施负责人 Santosh Janardhan 强调,无论是开发 AI 的工具,还是工作流程,Meta 都已经远远落后于其他对手。

要想追上英伟达有多难?

想要搞 AI 自研芯片的科技大厂不止 Meta 一家,但是想要做到英伟达这么成功、达到与之比肩的地位,还有很多路要走。

目前 AI 领域最常见的芯片是英伟达的 A100。根据 New Street Research 的数据,英伟达占据了可用于机器学习的图形处理器市场的 95%。

A100 非常适合支持 ChatGPT、Bing AI 或 Stable Diffusion 等工具的机器学习模型,它能够同时执行许多简单的计算,这对于训练和使用神经网络模型非常重要。

A100 背后的技术最初用于在游戏中渲染复杂的 3D 图形,它通常被称为图形处理器(GPU),但如今 A100 配置和目标是机器学习任务,并在数据中心运行,而不是在个人电脑中运行。

市场对 A100 的需求可谓巨大。对 AI 公司来说,一块 A100 是难以支撑起他们的 AI 梦想的。许多数据中心使用一个包含八个 A100 的协同工作系统。该系统是英伟达的 DGX A100,建议售价接近 20 万美元。

New Street Research 的一项估计认为,Bing 搜索和 ChatGPT 的模型可能需要 8 个 A100 GPU 才能在不到一秒的时间内响应用户问题。这意味着,微软将需要超过 2 万个 DGX 系统,这意味着微软在 AI 基础设施建设上的支出就可能高达 40 亿美元的基础设施支出。如果谷歌想实现同样的 AI 转型,那么将在 DGX 上花费 800 亿美元。

更让硅谷其他公司不敢有所懈怠的是,英伟达并不因为 A100 的巨大成功而自满。

当前,英伟达已经开始开始量产下一代 AI 芯片 H100。A100 在 2020 年推出,H100 则在 2022 年开始量产,当然,价格也高于 A100。英伟达表示,H100 是其第一款针对变压器进行优化的数据中心 GPU,这是许多最新和顶级人工智能应用程序使用的一项越来越重要的技术。

面对当前英伟达在 AI 芯片领域一家独大的局面,当前在自研 AI 芯片领域步子迈得最大的是微软。

本月早些时候,微软正在提供财务支持以加强 AMD 研发 AI 芯片的努力,并与之合作开发代号为 Athena 的自研 AI 芯片,这是微软在自研 AI 芯片方面多管齐下、多重下注的一部分。

有分析认为,此举反映了微软对芯片行业的介入持续深化。在过去几年里,该公司一直在英特尔前高管 Rani Borkar 的领导下建立一个芯片部门,该部门目前拥有近 1000 名员工。据其中一位知情人士称,其中数百名员工正在从事 Athena 项目,微软已在该项目上投入了约 20 亿美元。

但这并不预示着微软和英伟达的分裂。微软打算与英伟达保持密切合作,该公司的芯片是训练和运行 AI 系统的主力军。微软还试图获得更多英伟达芯片,这进一步凸显了微软和其他公司面临的 AI 芯片的紧迫短缺。

4 月中旬,据媒体援引两位知情人士的话说,微软早在 2019 年就开始开发内部代号为 Athena 的 AI 芯片。其中一位知情人士称,一些微软和 OpenAI 的员工已经开始测试并使用这些芯片。微软希望该芯片的性能优于目前从其他供应商处购买的芯片,从而节省其在昂贵的 AI 业务上的时间和成本。

如此看来,Meta 想要赶上英伟达,甚至赶上其他硅谷同行的步伐,还有很长的路要走。