
Microsoft upgrades its self-developed AI chips to reduce dependence on NVIDIA, claiming to outperform Amazon's Trainium and surpass Google's TPU

Maia 200 採用台積電 3 納米制程,是微軟迄今部署的最高效推理系統、“所有超大規模雲服務商中性能最高的自研芯片”,每美元性能比微軟當前使用最新硬件提升 30%,在 FP4 精度下的性能是第三代亞馬遜 Trainium 芯片的三倍,FP8 性能超過谷歌第七代 TPU,將支持 OpenAI 的 GPT-5.2 模型。微軟已向開發者開放該芯片軟件工具包預覽版,計劃未來向更多客户開放芯片的雲服務租用,已在設計下一代 Maia 300。
微軟於美東時間 26 日週一發佈第二代自研人工智能(AI)芯片 Maia 200,這是微軟減少對英偉達芯片依賴、更高效驅動自身服務的核心舉措。這款採用台積電 3 納米工藝製造的芯片已開始部署至愛荷華州的數據中心,隨後將進駐鳳凰城地區,標誌着微軟在自研芯片領域的重大進展。

微軟雲與 AI 業務負責人 Scott Guthrie 在博客文章中表示,Maia 200 是 “微軟有史以來部署的最高效推理系統”,每美元性能比微軟當前最新一代硬件提升 30%。這些芯片將首先供應給微軟的超級智能團隊用於生成數據以改進下一代 AI 模型,同時為面向企業的 Copilot 助手及包括 OpenAI 最新模型在內的 AI 服務提供算力支持。
據 Scott Guthrie 披露,Maia 200 在某些性能指標上超越了谷歌和亞馬遜的同類芯片。該芯片在 FP4 精度下的性能是第三代亞馬遜 Trainium 芯片的三倍,FP8 性能則超過谷歌第七代 TPU。微軟已向開發者、學術界和前沿 AI 實驗室開放 Maia 200 軟件開發工具包的預覽版,並計劃 “未來向更多客户開放” 該芯片的雲服務租用。
這一發布凸顯了科技巨頭爭奪 AI 算力自主權的激烈競爭。在英偉達芯片供應緊張且成本高昂的背景下,微軟、亞馬遜和谷歌均加快自研芯片進程,力求為雲客户提供成本更低、集成更順暢的替代方案。微軟已表示正在設計 Maia 300 後續產品。
發佈 Maia 200 後,美股早盤尾聲時,盤初轉漲的微軟股價漲幅擴大到 1% 以上,臨近午盤時曾漲逾 1.6%,收漲逾 0.9%,連續三個交易日收漲,刷新將近兩週來收盤高位。

性能參數:超 1400 億晶體管的推理算力
據 Scott Guthrie 在微軟官方博客中介紹,Maia 200 採用台積電尖端 3 納米工藝製造,每顆芯片包含超過 1400 億個晶體管。該芯片專為大規模 AI 工作負載定製,在 4 位精度(FP4)下可提供超過 10 petaFLOPS 的算力,在 8 位精度(FP8)下提供超過 5 petaFLOPS 的性能,所有這些性能都在 750 瓦的芯片功耗範圍內實現。
Guthrie 在博客中強調,“實際應用中,一個 Maia 200 節點可以輕鬆運行當今最大的模型,併為未來更大的模型留有充足空間。” 該芯片配備 216GB HBM3e 內存,帶寬達 7 TB/s,以及 272MB 片上 SRAM,專門設計的 DMA 引擎和數據傳輸架構確保大規模模型能夠快速高效地運行。
在系統層面,Maia 200 採用基於標準以太網的雙層擴展網絡設計。每個加速器提供 2.8 TB/s 的雙向專用擴展帶寬,可在最多 6144 個加速器的集羣中實現可預測的高性能集體操作。每個托盤內四顆 Maia 加速器通過直連、非交換鏈路完全互聯,在機架內和機架間使用統一的 Maia AI 傳輸協議,實現跨節點、跨機架的無縫擴展。

雲業務關鍵支撐:從 Copilot 到 OpenAI 模型
Maia 200 芯片已成為微軟異構 AI 基礎設施的重要組成部分,將為多個模型提供服務。Scott Guthrie 的博客稱,新一代 AI 加速器使微軟雲 Azure 在更快、更經濟高效地運行 AI 模型方面佔據優勢。
Guthrie 披露,該芯片將支持 OpenAI 的最新 GPT-5.2 模型,為 Microsoft Foundry 和 Microsoft 365 Copilot 帶來性能價格比優勢。
微軟超級智能團隊將使用 Maia 200 進行合成數據生成和強化學習,以改進下一代內部模型。Guthrie 在博客中指出,“對於合成數據管道用例,Maia 200 的獨特設計有助於加快生成和過濾高質量、特定領域數據的速度,為下游訓練提供更新鮮、更有針對性的信號。”
面向商業生產力軟件套件的 Microsoft 365 Copilot 附加服務以及用於在 AI 模型基礎上構建應用的 Microsoft Foundry 服務都將採用這款芯片。隨着 Anthropic 和 OpenAI 等生成式 AI 模型開發商以及在熱門模型基礎上構建 AI 代理和其他產品的公司需求激增,雲服務提供商正努力提升計算能力,同時控制能耗。
Maia 200 目前已部署在微軟位於愛荷華州得梅因附近的美國中部數據中心區域,隨後將進駐亞利桑那州鳳凰城附近的美國西部 3 區,未來還將部署到更多區域。微軟已邀請開發者、學術界和 AI 實驗室於週一開始使用 Maia 軟件開發工具包,儘管尚不清楚 Azure 雲服務用户何時能夠使用運行該芯片的服務器。
減少英偉達依賴:科技巨頭的芯片競賽
微軟的芯片計劃啓動時間晚於亞馬遜和谷歌,但三家公司有着相似的目標:打造成本效益高、可無縫接入數據中心的機器,為雲客户提供節省成本和其他效率優勢。英偉達最新業界領先芯片的高昂成本和供應短缺,推動了尋找替代算力來源的競爭。
谷歌擁有張量處理單元 TPU,這些單元不作為芯片出售,而是通過其雲服務提供計算能力。亞馬遜則推出了自己的 AI 加速器芯片 Trainium,其最新版本 Trainium3 於去年 12 月發佈。在每種情況下,這些自研芯片都可以分擔原本分配給英偉達 GPU 的部分計算任務,從而降低整體硬件成本。
據 Scott Guthrie 在博客中披露的數據,Maia 200 在性能上明顯超越競爭對手:FP4 性能是第三代亞馬遜 Trainium 芯片的三倍,FP8 性能超過谷歌第七代 TPU。每顆 Maia 200 芯片配備的高帶寬內存超過 AWS 第三代 Trainium AI 芯片或谷歌第七代張量處理單元(TPU)。該芯片每美元性能比微軟當前部署的最新一代硬件提升 30%。
微軟雲與 AI 執行副總裁 Guthrie 稱 Maia 200 為 “所有超大規模雲服務商中性能最強的自研芯片”。值得注意的是,該芯片使用以太網電纜連接,而非 InfiniBand 標準——後者是英偉達在 2020 年收購 Mellanox 後銷售的交換機所採用的標準。
快速迭代:Maia 300 已在設計中
微軟表示已在設計 Maia 200 的後續產品 Maia 300。據 Scott Guthrie 在博客中透露,微軟的 Maia AI 加速器項目被設計為多代迭代計劃,“隨着我們在全球基礎設施中部署 Maia 200,我們已經在為未來幾代產品進行設計,預計每一代都將不斷為最重要的 AI 工作負載樹立新標杆,提供更好的性能和效率。”
Maia 200 距離上一代產品 Maia 100 發佈已有兩年。2023 年 11 月,微軟發佈 Maia 100 時從未向雲客户提供租用服務。Guthrie 在週一的博客文章中表示,對於新芯片,“未來將有更廣泛的客户可用性”。
微軟芯片開發項目的核心原則是在最終芯片可用之前儘可能驗證端到端系統。一個精密的預硅環境從最早期階段就指導了 Maia 200 架構,以高保真度模擬大語言模型的計算和通信模式。這種早期協同開發環境使微軟能夠在首批芯片生產之前,將芯片、網絡和系統軟件作為統一整體進行優化。得益於這些投入,Maia 200 芯片在首批封裝零件到達後數天內就運行了 AI 模型,從首批芯片到首次數據中心機架部署的時間縮短至同類 AI 基礎設施項目的不到一半。
如果內部努力遇挫,微軟還有其他選擇:作為與密切合作夥伴 OpenAI 交易的一部分,該公司可以獲得 ChatGPT 製造商的新興芯片設計。
