曾有人坦言,英伟达与其他芯片厂商的差距,是院士与高中生的差别。就如同黄仁勋所言,英伟达 “一直在奔跑”,想要超越巨人的其它芯片厂商只能奋力狂奔。
ChatGPT 意外掀起的一波 AI 革命,再次带火了 AI 芯片市场。
“A800 和 H800 这类芯片,从原来的 12 万人民币左右,变成了现在 25 万甚至 30 万,甚至有高达 50 万一片。” 这是发生在国内芯片分销圈的真实一幕,除了价格不断暴涨,国内大厂想大批量拿芯片,还要得和黄仁勋 “有直接关系”。
正所谓“无芯片,不 AI”,随着大模型的算力需求飙升,身为 AI 技术地基的芯片迎来了重要商机。OpenAI 曾预计,人工智能科学研究要想取得突破,所需要消耗的计算资源每 3 到 4 个月就要翻一倍,资金也需要通过指数级增长获得匹配,这也被称为人工智能领域的 “摩尔定律”。
英伟达 CFO 克雷斯表示,目前 AI 算力市场的需求已经超出了公司对未来数个季度的预期,订单已经多到做不过来。
生成式 AI 这波浪潮,让英伟达赚了个盆满钵满。在上市 14 年之后,英伟达成功跻身万亿美元市值俱乐部,而实现这一目标,硅谷巨头们诸如苹果用了 37 年、微软用了 33 年、亚马逊用了 21 年,特斯拉跑得最快,只用了 11 年。
这也刺激着中国芯片企业跃跃欲试,诸如海光信息、寒武纪、龙芯中科、壁仞科技、天数智芯等国产芯片企业,都怀揣一颗“中国版” 英伟达的雄心,尝试凭自研为国产大模型赋能。一些大厂也开始用自研 AI 芯片支持模型的部分训练或推理任务,如百度昆仑芯片、阿里含光 800......
面对 AI 算力带来的万亿市场,国内企业能不能吃到这波红利呢?国产芯片厂商该如何越过英伟达 “高山”?这是任何一家公司都无法逃避的问题。
01 AI 狂潮 缔造了一个万亿市值的英伟达
爱穿皮衣的男人最先吃到了 AI 红利。
2022 年底,ChatGPT 问世后,迅速在全世界引起了 AI 狂潮。在这其中,一直押注 AI 未来的英伟达,成为了 ChatGPT 浪潮中受益最多的公司之一。在今年的英伟达 GTC 大会上,英伟达创始人 CEO 黄仁勋披露了全新的人工智能及芯片技术,并称人工智能的 “iPhone 时刻” 已经到来。
在发布会上,黄仁勋表示,类似 ChatGPT 的大型语言模型的部署是一个重要的全新推理工作负载,为了支持大型语言模型推理,英伟达发布了一系列围绕 AI 领域的产品和服务,其中,采用全新架构和更先进制程的 H100 芯片最为引人注目。
图源:NVIDIA 官网
这款 GPU 是基于 NVIDIA Hopper 架构的 H100,配有一个 Transformer 引擎,旨在处理驱动类似 ChatGPT 的预训练模型。与用于 GPT-3 处理的 HGX A100 相比,配备四对 H100 与双 GPU NVLink 的标准服务器的训练速度可提 10 倍。
“H100 可以将大语言模型的处理成本降低一个数量级。” 黄仁勋曾表示。基于 H100 芯片,英伟达还构建了最新的 DGX 超级计算机,搭载 8 个 H100 GPU,使它们连接成为一个巨大的 GPU,为 AI 基础设施的构建提供 “蓝图”,目前全新的 DGX 超级计算机已经全面投产。
在这之后,英伟达旗下 A100、H100、A800 和 H800 等高性能 GPU 芯片应声涨价,尤其旗舰级芯片 H100,4 月中旬在海外电商平台就已炒到超 4 万美元,甚至有卖家标价 6.5 万美元。
同时,英伟达的中国特供版 A800 和 H800 芯片也遭到了哄抢。“国内大模型企业基本上很难拿得到这些芯片。整个市场需大于求,缺货非常厉害。” 电子元器件采购供应商「广鑫世纪」创始人张觉对芯潮 IC 坦言:“今年,这类 GPU 芯片从原来的 12 万人民币左右,变成了现在是 25 万甚至 30 万,甚至有高达 50 万一片。”
毫无疑问,英伟达在高性能 GPU 方面的技术领先地位,旗下 A100 和 H100 两款 AI 芯片是 ChatGPT 这样的大语言模型的核心动力。
一些云计算专业人士认为,1 万颗英伟达 A100 芯片是一个好的 AI 模型的算力门槛。而微软为 OpenAI 构建的用于训练其模型的 AI 超级计算机就配备了 1 万颗英伟达的 GPU 芯片。无独有偶,国内各互联网大公司也纷纷向英伟达下大单,据晚点 LatePost 报道,字节今年向英伟达订购了超过 10 亿美元的 GPU,另一家不便透露姓名的大公司,其订单也至少超过 10 亿元人民币。
更夸张的是,这些公司最终能否抢到卡,更多是看商业关系,尤其以往是不是英伟达大客户的企业。“你是和中国英伟达谈,还是去美国找老黄(黄仁勋)直接谈,都有差别。”
由此,英伟达的财务数据再度攀上新高。5 月 25 日,英伟达发布一季度财报,AI 芯片所在数据中心业务的营收创历史新高,保持 10% 以上同比增速。
黄仁勋透露,现在整个数据中心产品系列都在生产中,都正在大幅增加供应,以满足激增的需求。
一系列好消息,直接带动英伟达股价节节走高。5 月 30 日晚,美股开盘,英伟达市值直接突破 1 万亿美元。而 7 月 19 日,英伟达总市值更是在一夜间飙升了 1750 亿美元,再次引发投资热潮。
根据 companiesmarketcap 网站显示,英伟达总市值排名全球第 6,也是目前市值最高的芯片公司,接近于两个台积电(5336 亿美元),今年以来英伟达股价涨幅约 180%。不得不承认,这波 AI 狂潮让黄仁勋的英伟达盆满钵满。
02 英伟达不可能独享算力狂潮
“英伟达不会永远在大规模训练和推理芯片市场占据垄断地位。”
这是特斯拉 CEO 埃隆·马斯克对社交问答网站和在线知识市场 Quora 的首席执行官 Adam D'Angelo 一条推文的回应,后者写道:“人工智能热潮被低估的一个原因是 GPU/TPU 短缺,这种短缺导致了产品推出和模型培训的各种限制,但这些都不明显。相反,我们看到的是英伟达的股价飙升。一旦供给满足需求,事情就会加速发展。”
显然,硅谷钢铁侠对此并不认同,他还评论称:“许多其他的神经网络加速器芯片也在开发中,英伟达不会永远垄断大规模训练和推理。”
一场风暴即将来袭。
以大模型为核心的 AI 狂潮,能带动多大的算力市场?东吴证券认为,AI 模型算力需求持续扩张,打开高性能计算芯片的市场需求,预计 2025 年我国 AI 芯片市场规模将达到 1780 亿元,2019-2025 复合年均增长率可达 42.9%。从市场规模来看,AI 芯片上处于起步阶段,但增长潜力巨大。
而 AI 芯片是一个广义概念,泛指专门用于处理人工智能应用中的计算任务的模块,是诞生于人工智能应用快速发展时代的处理计算任务硬件,凡是面向人工智能应用的芯片均被称为 AI 芯片。主要的技术路线有三种:通用型(GPU)、半定制型(FPGA)、定制型(ASIC)。
从大模型的训练、场景化的微调以及推理应用场景来看,以CPU+AI芯片提供的异构算力,并行计算能力优越、具有高互联带宽,可以支持 AI 计算效力实现最大化,成为智能计算的主流解决方案。
从市场份额来看,据艾瑞咨询测算,到 2027 年,中国的 AI 芯片市场规模预计将达到 2164 亿元。随着 AI 模型的优化落地,AI 推理芯片的占比将日益提升。2022 年,中国 AI 训练芯片以及 AI 推理芯片的占比分别为 47.2% 和 52.8%。
目前,在 AI 芯片领域有三类玩家:一种是以英伟达、AMD 为代表的老牌芯片巨头,产品性能突出;其二是以 Google、百度、华为为代表的云计算巨头,这些企业纷纷布局通用大模型,并自己开发了 AI 芯片、深度学习平台等支持大模型发展。譬如,华为的鲲鹏昇腾、CANN 及 Mindspore,百度的昆仑芯等。最后还有一些小而美的AI 芯片独角兽,如寒武纪、壁仞科技、天数智芯等。
虽然国产大模型爆发,可能引发算力缺口,但国内芯片厂商吃上国产替代这波红利只是时间问题。作为 AI 训练芯片研发商,“AI 芯片第一股” 寒武纪再次得到市场关注,股价不断拉升,最新市值突破 900 亿。
在云端产品线,寒武纪已经推出了四代芯片产品:2018 年的思元 100、2019 年的思元 270、2020 年的思元 290(车载)、以及 2021 年发布的思元 370 系列,用以支撑在云计算和数据中心场景下复杂度和数据吞吐量高速增长的人工智能处理任务。此外,寒武纪还有一款在研产品思元 590,尚未发布。此外,2022 年底,思元 370 系列与 AIGC 产品百度飞桨完成 II 级兼容性测试。
但国内大模型公司是否采用了寒武纪芯片,尚未得到准确消息。“在高端 AI 芯片领域,国产厂商处于刚刚起步的阶段,很多东西需要时间和金钱验证。” 某资深芯片工程师袒露。哪怕是华为、百度、海光信息等企业的芯片也与英伟达产品有着明显差距。
曾有人坦言,英伟达与其他芯片厂商的差距,是院士与高中生的差别。就如同黄仁勋所言,英伟达 “一直在奔跑”,想要超越巨人的其它芯片厂商只能奋力狂奔。
03 AI 大模型背后的 “权力游戏”
除了英伟达之外,另一个 GPU 巨头 AMD,最近也有了行动。
近日,AMD 发布最新加速卡,就在 AMD 推出最新加速卡 Instinct MI300X 的发布会现场,PPT 上专门打出一行字——大语言模型专用,这被业界视为直接向英伟达宣战!
据悉,MI300X 的高带宽内存(HBM)密度,最高可达英伟达 H100 的 2.4 倍,高带宽内存带宽最高可达 H100 的 1.6 倍,显然 MI300X 能运行比 H100 更大的 AI 模型。
MI300X 所在的 MI300 系列,是 AMD 为 AI 和 HPC 打造的一系列最新 APU 加速卡。其中,MI300A 是 “基础款”,MI300X 则是硬件性能更高的 “大模型优化款”。
目前来看,MI300A 已经出样,估计不久就能买上;大模型专用卡 MI300X、以及集成 8 个 MI300X 的 AMD Instinct 计算平台,预计今年第三季度出样,第四季度就能推出。
这几年来,相比英伟达一直在 AI 领域的大动作,AMD 的行动显得有点迟缓。正如 DeepBrain AI 的 CEO Eric Jang 所言,感觉 AMD 这几年让他很失望,5 年来没什么变化。尤其是在 AIGC 的爆发过程中,如果 AMD 不努力跟上,差距只会越拉越大。
而随着 AMD 此次 MI300 系列产品的推出,终于能看到 AMD 和英伟达正面打擂台了。
但遗憾的是,市场对 AMD 的新卡好像不太买账。
就在这次 AMD 发布会期间,其股价不升反降。相比之下,英伟达股价还上涨了一波。市场情绪也不难理解,因为在高科技领域,尤其是新兴市场,一步快步步快、强者恒强正在成为商业市场的普遍逻辑。
但其实细究原因也能发现,英伟达垄断人工智能训练芯片市场的主要原因是其自研的 CUDA 生态。所以 AMD MI300 想要替代英伟达,首先需要兼容英伟达的 CUDA 生态,AMD 为此推出 ROCm 生态圈,并实现通过 HIP 完全兼容 CUDA,借此来减少用户已知成本。
对此,知名投资博主慕容衣认为,走兼容英伟达 CUDA 的路线的难点在于其更新迭代速度永远跟不上 CUDA ,并且很难做到完全兼容,即一方面迭代永远慢一步。英伟达 GPU 在微架构和指令集上迭代很快,在上层软件堆栈上很多地方也要做相应的功能更新,但是 AMD 不可能知道英伟达的产品路线图,软件更新永远会慢英伟达一步(例如 AMD 有可能刚宣布支持了 CUDA11,但是英伟达已经推出 CUDA12 了);另一方面,难以完全兼容反而会增加开发者的工作量,像 CUDA 这样的大型软件本身架构很复杂,AMD 需要投入大量人力物力用几年甚至十几年才能追赶上,因为难免存在功能差异,如果兼容做不好反而会影响性能。所以,这些也是大家目前不太买账的关键原因。
据 Khaveen Investments 测算,英伟达数据中心 GPU 2022 年市占率高达 88%,AMD 和英特尔瓜分剩下的部分。
自从去年 OpenAI 发布 ChatGPT 以来,新一轮科技革命持续发酵。可以说,很多年都没有哪一项科技进步如 ChatGPT 这般吸引全球的目光。
国内外各个科技公司、科研机构、高等院校都在跟进,不到半年时间,就跑出了非常多的大模型应用的创业公司,融资规模也屡创新高。
据知乎博主 wgang 梳理,包括百度、科大讯飞、第四范式、清华、复旦在内的国内各个大厂、创业公司、科研院校都相继发布了大模型产品:
图源:知乎 wgwang
能看到,不仅是在通用领域,在具体的行业场景,尤其是一些专业性强、知识密度高的领域,科技公司们也在纷纷发布垂直领域的大模型。譬如美股上市公司百家云(RTC)结合对企业服务需求的洞察,近日发布了 AIGC 产品「市场易」,这也是首款适用于企业市场部内容生产场景的 GPT 大模型引擎。
有业内人士笑称:“国产大模型已形成群模乱舞、百模大战的局面,预计到年底会有超过 100 个的大模型。”
然而,大模型的发展需要算法、算力、数据三大重要因素的支撑,算力是大模型训练的重要能量引擎,也是目前国内发展大模型产业的一大壁垒。
芯片能力直接影响着高算力训练效果和速度。上文提到,尽管国产大模型产品频出,但从其背后支持的芯片来看,所有这些平台使用的要么是英伟达 A100、H100 GPU,要么是去年禁令后英伟达专门推出的减配版 A800、H800,这两款处理器带宽分别是原版的约 3/4 和约一半,避开了高性能 GPU 的限制标准。
今年 3 月,腾讯率先宣布已用上 H800,在腾讯云发布的新版高性能计算服务中已使用了 H800,并称这是国内首发。
阿里云也在今年 5 月对内提出把 “智算战役” 作为今年的头号战役,GPU 数量成为其战役的重要指标。
此外,商汤也宣称,其 “AI 大装置” 计算集群中已总共部署了近 3 万块 GPU,其中有 1 万块是英伟达 A100。字节和美团则直接从公司其他业务团队那里匀出 GPU 供大模型训练使用。甚至有厂家自 2022 年下半年起就持续在市场中寻觅能拆出 A100 的各类整机产品,目的仅是获得 GPU 芯片。“机子太多,存放的地方都不够用。”
据了解,国内头部科技企业在 AI 和云计算方面投入较大,过去 A100 的积累都达到上万块。
与此同时,中国科技大厂还在进行新一轮的采购竞争。
据某云服务商透露,字节、阿里等大公司主要是和英伟达原厂直接谈采购,代理商和二手市场难以满足其庞大需求。
正如上文提到的,字节跳动今年已向英伟达订购了超过 10 亿美元的 GPU 产品,仅字节一家公司今年的采购量就已经接近英伟达去年在中国销售的商用 GPU 总销售额。报道称,还有另一家大公司的订单也至少超过 10 亿元。
可见,中国大科技公司对于采购 GPU 非常急迫。
不止国内企业,国外大客户对英伟达的 A100/H100 芯片需求同样非常强烈。据数据统计,最早开始测试类 ChatGPT 产品的百度,2020 年以来的年资本开支在 8-20 亿美元之间,阿里在 60-80 亿美元之间。同期,亚马逊、Meta、Google、微软这四家自建数据中心的美国科技公司的年资本开支最少均超过 150 亿美元。
目前英伟达订单能见度已至 2024 年,高端芯片非常紧缺。以现在的排产进度,就连 A800/H800 都要到今年底或明年才能交货。短期内,从其受追捧程度来看,唯一影响英伟达高端 GPU 销量的或许只有台积电的产能。
04 AI 大模型背后的 “权力游戏”
从大模型产品芯片供应情况来看,在 AI 大模型训练上,现在 A100、H100 及其特供中国的减配版 A800、H800 找不到替代品。
那么,为什么在这一轮 GPT 热潮中,英伟达率先跑出来并表现出色?
华映资本管理合伙人章高男表示,一方面是因为英伟达布局最早,其微内核结构也是一代一代去演进和改进的。现在无论是从并发能力、总线速度,还是微内核对矩阵变换的成熟支持,其能力已经非常高效,包括它同时提供非常完善的 CUDA 计算平台,事实上已经成为深度学习算法实现的潜在行业标准,整个产业链的配套也非常完整,综合竞争壁垒和护城河深度极高。
总结来看,英伟达 GPU 目前的不可替代性,源自大模型的训练机制,其核心步骤是预训练(pre-training)和微调(fine-tuning),前者是打基础,相当于接受通识教育至大学毕业;后者则是针对具体场景和任务做优化,以提升工作表现。
那么,国产 GPU 芯片是否可以支撑大模型的算力需求呢?
在实际应用中,大模型对于算力的需求分为两个阶段,一是训练出 ChatGPT 大模型的过程;二是将这个模型商业化的推理过程。即 AI 训练是做出模型,AI 推理是使用模型,训练对芯片性能要求更高。
基于此,国产 AI 芯片公司持续涌现,陆续发布产品推向市场。燧原科技、壁仞科技、天数智芯、寒武纪等公司都推出了自己的云端 GPU 产品,且理论性能指标不弱。海光信息的 DCU 芯片 “深算一号” 软硬件生态相对完整,且能够兼容 CUDA 架构。而腾讯、百度、阿里等互联网大厂也通过投资、孵化等方式在 AI 芯片领域大力布局。
其中,大模型训练需要处理高颗粒度的信息,对云端训练芯片的芯片处理信息的精细度和算力速度要求更高,现阶段国产 GPU 大多还不具备支撑大模型训练所需的能力,更适合做对信息颗粒度要求没有那么高的云端推理工作。
国内部分相关企业 AI 产品与应用 芯潮 IC 据公开资料整理
今年 3 月,百度李彦宏曾公开表示,昆仑芯片现在很适合做大模型的推理,将来会适合做训练。
天数智芯副总裁邹翾也向芯潮 IC 表示,国产芯片距离英伟达最新产品仍存在一定差距,不过在推理运算方面国产芯片可以做到不输主流产品的性能实力,而随着人工智能的应用普及,推理芯片的市场需求将加速增长,随着需求的扩大,国产芯片也将拥有更大的市场。
另有不愿意透露姓名的业内人士表示 “国内通用 GPU 产品的确在满足大模型训练上与国际旗舰产品存在差距,但并非不可弥补,只是此前行业在产品定义里未朝着大模型方向做设计。”
目前,行业从业者在做相关的探索和努力,如思考能否通过 Chiplet、先进封装的方式来提高芯片算力。目前国产 GPU 公司都在朝着大模型领域去做芯片开发和布局。
而从资本角度来看,华映资本管理合伙人章高男向芯潮 IC 表示,华映很早就高度关注算力基础设施,无论是 GPU、DPU 还是更前沿的光电混合计算,量子计算,都有针对性研究和布局。整体上则侧重于通用算力基础设施,譬如 FPGA、边缘计算等。相比之下,目前很多围绕深度学习、特殊算法、局部算力优化等的算力芯片并不是其考虑的重点。
实际上,除了硬件性能差距外,软件生态也是国产 AI 芯片厂商的短板。
芯片需要适配硬件系统、工具链、编译器等多个层级,需要很强的适配性,否则会出现这款芯片在某个场景能跑出 90% 的算力,在另一场景只能跑出 80% 效能的情景。
上文提到,英伟达在这方面优势明显。早在 2006 年,英伟达就推出了计算平台 CUDA,这是一个并行计算软件引擎,CUDA 框架里集成了很多调用 GPU 算力所需的代码,工程师可以直接使用这些代码,无须一一编写。开发者可使用 CUDA 更高效地进行 AI 训练和推理,更好的发挥 GPU 算力。时至今日,CUDA 已成为 AI 基础设施,主流的 AI 框架、库、工具都以 CUDA 为基础进行开发。
如果没有这套编码语言,软件工程师发挥硬件价值的难度会变得极大。
英伟达之外的 GPU 和 AI 芯片如要接入 CUDA,需要自己提供适配软件。据业内人士透露,曾接触过一家非英伟达 GPU 厂商,尽管其芯片和服务报价比英伟达更低,也承诺提供更及时的服务,但使用其 GPU 的整体训练和开发成本会高于英伟达,还得承担结果和开发时间的不确定性。
虽然英伟达 GPU 价格贵,但实际用起来反而是最便宜的。这对有意抓住大模型机会的企业来说,钱往往不是问题,时间才是更宝贵的资源,大家都必须尽快获得足够多的先进算力来确保先发优势。
因此,对于国产芯片供应商来讲,哪怕能通过堆芯片的方式能堆出一个算力相当的产品,但软件适配与兼容让客户接受更难。此外,从服务器运营的角度,它的主板开销、电费、运营费,以及需要考虑的功耗、散热等问题,都会大大增加数据中心的运营成本。
因为算力资源常需要以池化的形式呈现,数据中心通常更愿意采用同一种芯片,或者同一家公司的芯片来降低算力池化难度。
算力的释放需要复杂的软硬件配合,才能将芯片的理论算力变为有效算力。对客户而言,把国产 AI 芯片用起来并不容易,更换云端 AI 芯片要承担一定的迁移成本和风险,除非新产品存在性能优势,或者能在某个维度上提供其他人解决不了的问题,否则客户更换的意愿很低。
作为当前唯一可以实际处理 ChatGPT 的 GPU 供应商,英伟达是当之无愧的 “AI 算力王者”。6 年前,黄仁勋亲自向 OpenAI 交付了第一台搭载 A100 芯片的超级计算机,帮助后者创造 ChatGPT,并成为 AI 时代的引领者。
不过,去年美国实施出口管制以来,英伟达已经被禁止向中国出口两款最先进的 GPU 芯片 H100 和 A100。这对于下游应用企业来说,无疑是受到打击的。
从安全性以及自主可控的角度来说,这也为国内芯片企业提供了新的机遇窗口。尽管国产芯片在性能和软件生态上比不过英伟达、AMD 等行业巨头,但在复杂的国际贸易关系及地缘政治因素等驱动下,“国产替代” 成为国内半导体行业发展的主旋律。
05 结语
算力的每一次提升,都会掀起技术与产业变革的浪潮:CPU 带领人类进入 PC 时代,移动芯片掀起移动互联网浪潮,而 AI 芯片打破了 AI 产业此前长达数十年的算力瓶颈。
如今,“人工智能的 iPhone 时刻” 已经来临,走向下一个时代的路,或许已经摆在我们眼前。
尽管这些数据中心的 AI 芯片、软件系统等领域仍是国外厂商的天下,但如今,“算力国产化” 的市场大门或许正在打开。
本文来源:芯潮 IC,原文标题:《一块炒到 50 万元,大厂疯狂囤芯,批量买要走后门,中国版英伟达在哪?》