ChatGPT 的出现,不但让 AI 有了比较明确的商业化方向,也在快速改变服务器产业格局。传统基于 x86 架构的 CPU 芯片,在服务器领域的统治地位,已岌岌可危。美国证券半导体分析师在最近发布的一份报告中提到,由于 ChatGPT 对云计算以及 IDC 的 AI 算力需求激增,很可能导致商业模式选择将资源转向 AI 加速器芯片,比如 NVIDIA(英伟达)的 GPU(图形处理单元)和 Broadcom/Marvel 的 AI 定制 IC(用于 AI 推理)。因此,传统 x86 架构的、主要由 Intel/AMD 提供的服务器 CPU,到 2025 年,可能不再是服务器的主要芯片。同时,更重要的事情发生了:尽管英伟达的 GPU 产品如今在支撑 ChatGPT 的算力需求时,风头无俩,但挑战者(或称分羹者)却已出现。正所谓:螳螂捕蝉,黄雀在后。这只黄雀,是何方神圣?英伟达:超越 x86 架构芯片Vivek Arya,这位半导体分析师在报告中认为,基于传统 x86 架构的服务器 CPU 芯片商,比如 Intel 或 AMD,正在遇到 NVIDIA 这个 AI 领域领头羊公司的强力挑战。GPU 是英伟达的主要产品,其营收占总收入的 80%+。GPU 通常作为插入 PC 主板的卡出现,也有些 SoC 芯片设计商,将 GPU 作为 SoC 芯片的一个模块,整合在系统级芯片中成为一个整体(比如高通骁龙 8Gen 2)。英伟达的 GPU 芯片,主要作用是为 AMD 或英特尔等公司制造的中央处理器(CPU)增加计算能力。Vivek Arya 在报告中估计,2023 年至 2025 年,AI 加速器芯片的销售额将超过 400 亿美元(相比 2022 年复合年均增长率达 37%)。于此对应,x86 CPU 复合年均增长率仅 3%,销售规模也仅为 260 亿美元。在 ChatGPT 出现前,英伟达 GPU 主要在计算机图形学领域称王。在 PC 游戏玩家群体中,英伟达是神一样的存在。英伟达在 GPU 领域的主导地位,并非始于今日。1999 年,英伟达通过 GeForce 256 进入图形处理市场。20 多年后的 2022 年,游戏业务带给英伟达超过 90 亿美元的营收。2022 年 12 月,OpenAI 发布 ChatGPT。由于 ChatGPT 对算力的极度渴求,相当于给算力爆棚的英伟达安装了一组营收动力引擎。算力构成了 AI 商业繁荣的基础。Vivek Arya 说,“使用英伟达的 GPU,去增加更多的计算能力非常容易。现在,计算能力相当于硅谷的货币。”作为支撑 ChatGPT 背后大型语言模型(LLM)底层动力引擎,英伟达由于在 AI 方面的敏锐洞察力、早期投资和坚定不移的坚持投入,因而获得了顶级回报。3 月 20 日-23 日,在英伟达举行的年度 GTC 开发者大会上,AI 成为主要与会者讨论的主要焦点。英伟达首席执行官黄仁勋在被问及 “提前 20 年布局 AI,到底是运气还是有先见之明” 时,黄仁勋回答了这么一句:“我们只是相信总有一天会发生新的事情,其余的一切都需要一些偶然性”。如今 AI 芯片组云市场主要分为三个部分:公共云由云服务提供商托管:AWS、微软、谷歌、阿里巴巴、百度和腾讯等;其次是企业数据中心,性质是私有云和混合云,即结合公共云和私有云(VMware、Rackspace、NetApp、HPE 和 DELL)的产品。除了公共云、私有云和混合云,ABI Research 首席分析师苏连杰认为,还有电信云,即电信公司为其核心网络、IT 和边缘计算工作负载部署的云基础设施。英伟达的 GPU 在云端训练方面的主导地位无可撼动。但与此同时,从 2020 年起,ASIC(专用定制芯片)在 AI 推理领域也出现强劲增长。苏连杰说,一些云服务提供商(CSP)认为,推理工作量的规模并不小于训练工作量。ASIC 是 AI 加速器芯片中用于推理的部分,另一部分即用于训练的 GPU。事实上,即使是在 2022 年 12 月 OpenAI 发布的 ChatGPT 3.5 版本中,也确实出现了 ChatGPT 能根据用户 “投喂” 问题素材的上下文,做出合乎人类逻辑的精确推理。ChatGPT 4.0 版本,推理能力更强。挑战者谷歌的 TPU 技术特征如果看 AI 定制芯片具备的推理能力,实际上可以发现,英伟达并非缺乏潜在挑战者。从技术上看,谷歌的 TPU(张量处理单元)能同时处理 “云上” 训练和推理,而非英伟达 GPU 大部分被用于训练,而 ASIC 又主要用于推理。因此,谷歌的 TPU 被视为 CPU 和 GPU 技术的有力挑战者。苏连杰认为,谷歌在 TPU 方面的展示的 AI 技术能力,正为云服务提供商开发属于自己的 AI 加速器 ASIC 提供了方向和技术路径。华为、AWS(亚马逊)和百度已经这样做了。就像英伟达很早就布局 AI 算力那样,谷歌做 TPU 同样很早。2006 年,谷歌考虑为神经网络构建专用集成电路(即 ASIC),到 2013 年,谷歌意识到神经网络(NPU)快速增长的计算需求,对 ASIC 的需求量很可能会翻番。2015 年,谷歌将 TPU 部署到服务器中,并快速迭代。谷歌 TPU 如今已迭代到 V4.0 版。据谷歌 4 月 6 日披露,得益于互连技术和领域特定加速器(DSA)方面的关键创新,谷歌云 TPU v4 在扩展 ML(机器学习:Machine Learning)系统性能方面比其前代版本有了近 10 倍的飞跃。TPU v4 是谷歌于 2021 年推出的、专门用于执行机器学习(ML)的 AI 芯片,是谷歌第 5 代特殊领域加速器(DSA:Domain Specific Accelerator)及第 3 代用于 ML 模型的超级计算机平台。与英伟达的当红辣子鸡 A100 相比,TPU v4 速度快 1.2-1.7 倍,功耗低 1.3-1.9 倍。基于这款芯片,谷歌研发了一台拥有 4096 颗 TPU V4 的超级计算机。这也是第一个部署可配置 OCS(光电路开关)的超级计算机平台。OCS 可动态配置互联拓扑,以提升扩展性、可用性、利用率、模块化、安全、性能及用电效率。和 Infiniband 相比,OCS 及其底层光纤组件,系统成本不到 5%。与 Infiniband(IB:无线带宽)相比,OCS 和底层光学组件更便宜、功耗更低且速度更快,无需光到电到光的转换或耗电的网络分组交换机,从而节省了电力。TPU v4 芯片用电率仅 200w,二氧化碳排放比一般本地部署的数据中心减少 20 倍,是执行大型语言模型的理想平台。TPU v4 超级计算机的每颗 TPU v4 包含 SparseCores,这是一种更接近高带宽内存的中间芯片或资料流处理器,许多 AI 运算都发生在该芯片中,可使深度学习模型嵌入(Embeddings)执行速度提升 5-7 倍,裸晶(die)面积仅 5%。借由 Sparsecores,搭载 TPU v4 的系统可用于执行搜索、广告、YouTube 和 Google Play 的 AI 内容推荐。更令英伟达感受到威胁的是,谷歌宣布,提供 AI 文本生成图片服务的 AI 创业公司 Midjourney 已利用 Google Cloud TPUv4 来训练其第 4 版模型。就像英伟达的 GPU 在 AI 大模型做集群训练时,注重生态体系构建一样,谷歌也算法 - 芯片协同方面做巨额投入。如今,半导体硬件的技术迭代已接近摩尔定律的极限,未来 AI 芯片性能要百尺竿头更进一步,就硬件层面的提升空间越来越小。算法和芯片的协同设计将取而代之,成为行业主流;搭建软硬件生态体系和推动行业共建,将在未来成为半导体技术和应用的主要方向。