
一塊炒到 50 萬元,大廠瘋狂囤芯,批量買要走後門,中國版英偉達在哪?

曾有人坦言,英偉達與其他芯片廠商的差距,是院士與高中生的差別。就如同黃仁勳所言,英偉達 “一直在奔跑”,想要超越巨人的其它芯片廠商只能奮力狂奔。
ChatGPT 意外掀起的一波 AI 革命,再次帶火了 AI 芯片市場。
“A800 和 H800 這類芯片,從原來的 12 萬人民幣左右,變成了現在 25 萬甚至 30 萬,甚至有高達 50 萬一片。” 這是發生在國內芯片分銷圈的真實一幕,除了價格不斷暴漲,國內大廠想大批量拿芯片,還要得和黃仁勳 “有直接關係”。
正所謂“無芯片,不 AI”,隨着大模型的算力需求飆升,身為 AI 技術地基的芯片迎來了重要商機。OpenAI 曾預計,人工智能科學研究要想取得突破,所需要消耗的計算資源每 3 到 4 個月就要翻一倍,資金也需要通過指數級增長獲得匹配,這也被稱為人工智能領域的 “摩爾定律”。
英偉達 CFO 克雷斯表示,目前 AI 算力市場的需求已經超出了公司對未來數個季度的預期,訂單已經多到做不過來。
生成式 AI 這波浪潮,讓英偉達賺了個盆滿缽滿。在上市 14 年之後,英偉達成功躋身萬億美元市值俱樂部,而實現這一目標,硅谷巨頭們諸如蘋果用了 37 年、微軟用了 33 年、亞馬遜用了 21 年,特斯拉跑得最快,只用了 11 年。
這也刺激着中國芯片企業躍躍欲試,諸如海光信息、寒武紀、龍芯中科、壁仞科技、天數智芯等國產芯片企業,都懷揣一顆“中國版” 英偉達的雄心,嘗試憑自研為國產大模型賦能。一些大廠也開始用自研 AI 芯片支持模型的部分訓練或推理任務,如百度崑崙芯片、阿里含光 800......
面對 AI 算力帶來的萬億市場,國內企業能不能吃到這波紅利呢?國產芯片廠商該如何越過英偉達 “高山”?這是任何一家公司都無法逃避的問題。
01 AI 狂潮 締造了一個萬億市值的英偉達
愛穿皮衣的男人最先吃到了 AI 紅利。
2022 年底,ChatGPT 問世後,迅速在全世界引起了 AI 狂潮。在這其中,一直押注 AI 未來的英偉達,成為了 ChatGPT 浪潮中受益最多的公司之一。在今年的英偉達 GTC 大會上,英偉達創始人 CEO 黃仁勳披露了全新的人工智能及芯片技術,並稱人工智能的 “iPhone 時刻” 已經到來。
在發佈會上,黃仁勳表示,類似 ChatGPT 的大型語言模型的部署是一個重要的全新推理工作負載,為了支持大型語言模型推理,英偉達發佈了一系列圍繞 AI 領域的產品和服務,其中,採用全新架構和更先進製程的 H100 芯片最為引人注目。
圖源:NVIDIA 官網
這款 GPU 是基於 NVIDIA Hopper 架構的 H100,配有一個 Transformer 引擎,旨在處理驅動類似 ChatGPT 的預訓練模型。與用於 GPT-3 處理的 HGX A100 相比,配備四對 H100 與雙 GPU NVLink 的標準服務器的訓練速度可提 10 倍。
“H100 可以將大語言模型的處理成本降低一個數量級。” 黃仁勳曾表示。基於 H100 芯片,英偉達還構建了最新的 DGX 超級計算機,搭載 8 個 H100 GPU,使它們連接成為一個巨大的 GPU,為 AI 基礎設施的構建提供 “藍圖”,目前全新的 DGX 超級計算機已經全面投產。
在這之後,英偉達旗下 A100、H100、A800 和 H800 等高性能 GPU 芯片應聲漲價,尤其旗艦級芯片 H100,4 月中旬在海外電商平台就已炒到超 4 萬美元,甚至有賣家標價 6.5 萬美元。
同時,英偉達的中國特供版 A800 和 H800 芯片也遭到了哄搶。“國內大模型企業基本上很難拿得到這些芯片。整個市場需大於求,缺貨非常厲害。” 電子元器件採購供應商「廣鑫世紀」創始人張覺對芯潮 IC 坦言:“今年,這類 GPU 芯片從原來的 12 萬人民幣左右,變成了現在是 25 萬甚至 30 萬,甚至有高達 50 萬一片。”
毫無疑問,英偉達在高性能 GPU 方面的技術領先地位,旗下 A100 和 H100 兩款 AI 芯片是 ChatGPT 這樣的大語言模型的核心動力。
一些雲計算專業人士認為,1 萬顆英偉達 A100 芯片是一個好的 AI 模型的算力門檻。而微軟為 OpenAI 構建的用於訓練其模型的 AI 超級計算機就配備了 1 萬顆英偉達的 GPU 芯片。無獨有偶,國內各互聯網大公司也紛紛向英偉達下大單,據晚點 LatePost 報道,字節今年向英偉達訂購了超過 10 億美元的 GPU,另一家不便透露姓名的大公司,其訂單也至少超過 10 億元人民幣。
更誇張的是,這些公司最終能否搶到卡,更多是看商業關係,尤其以往是不是英偉達大客户的企業。“你是和中國英偉達談,還是去美國找老黃(黃仁勳)直接談,都有差別。”
由此,英偉達的財務數據再度攀上新高。5 月 25 日,英偉達發佈一季度財報,AI 芯片所在數據中心業務的營收創歷史新高,保持 10% 以上同比增速。
黃仁勳透露,現在整個數據中心產品系列都在生產中,都正在大幅增加供應,以滿足激增的需求。
一系列好消息,直接帶動英偉達股價節節走高。5 月 30 日晚,美股開盤,英偉達市值直接突破 1 萬億美元。而 7 月 19 日,英偉達總市值更是在一夜間飆升了 1750 億美元,再次引發投資熱潮。
根據 companiesmarketcap 網站顯示,英偉達總市值排名全球第 6,也是目前市值最高的芯片公司,接近於兩個台積電(5336 億美元),今年以來英偉達股價漲幅約 180%。不得不承認,這波 AI 狂潮讓黃仁勳的英偉達盆滿缽滿。
02 英偉達不可能獨享算力狂潮
“英偉達不會永遠在大規模訓練和推理芯片市場佔據壟斷地位。”
這是特斯拉 CEO 埃隆·馬斯克對社交問答網站和在線知識市場 Quora 的首席執行官 Adam D'Angelo 一條推文的回應,後者寫道:“人工智能熱潮被低估的一個原因是 GPU/TPU 短缺,這種短缺導致了產品推出和模型培訓的各種限制,但這些都不明顯。相反,我們看到的是英偉達的股價飆升。一旦供給滿足需求,事情就會加速發展。”
顯然,硅谷鋼鐵俠對此並不認同,他還評論稱:“許多其他的神經網絡加速器芯片也在開發中,英偉達不會永遠壟斷大規模訓練和推理。”
一場風暴即將來襲。
以大模型為核心的 AI 狂潮,能帶動多大的算力市場?東吳證券認為,AI 模型算力需求持續擴張,打開高性能計算芯片的市場需求,預計 2025 年我國 AI 芯片市場規模將達到 1780 億元,2019-2025 複合年均增長率可達 42.9%。從市場規模來看,AI 芯片上處於起步階段,但增長潛力巨大。
而 AI 芯片是一個廣義概念,泛指專門用於處理人工智能應用中的計算任務的模塊,是誕生於人工智能應用快速發展時代的處理計算任務硬件,凡是面向人工智能應用的芯片均被稱為 AI 芯片。主要的技術路線有三種:通用型(GPU)、半定製型(FPGA)、定製型(ASIC)。
從大模型的訓練、場景化的微調以及推理應用場景來看,以CPU+AI芯片提供的異構算力,並行計算能力優越、具有高互聯帶寬,可以支持 AI 計算效力實現最大化,成為智能計算的主流解決方案。
從市場份額來看,據艾瑞諮詢測算,到 2027 年,中國的 AI 芯片市場規模預計將達到 2164 億元。隨着 AI 模型的優化落地,AI 推理芯片的佔比將日益提升。2022 年,中國 AI 訓練芯片以及 AI 推理芯片的佔比分別為 47.2% 和 52.8%。
目前,在 AI 芯片領域有三類玩家:一種是以英偉達、AMD 為代表的老牌芯片巨頭,產品性能突出;其二是以 Google、百度、華為為代表的雲計算巨頭,這些企業紛紛佈局通用大模型,並自己開發了 AI 芯片、深度學習平台等支持大模型發展。譬如,華為的鯤鵬昇騰、CANN 及 Mindspore,百度的崑崙芯等。最後還有一些小而美的AI 芯片獨角獸,如寒武紀、壁仞科技、天數智芯等。
雖然國產大模型爆發,可能引發算力缺口,但國內芯片廠商吃上國產替代這波紅利只是時間問題。作為 AI 訓練芯片研發商,“AI 芯片第一股” 寒武紀再次得到市場關注,股價不斷拉昇,最新市值突破 900 億。
在雲端產品線,寒武紀已經推出了四代芯片產品:2018 年的思元 100、2019 年的思元 270、2020 年的思元 290(車載)、以及 2021 年發佈的思元 370 系列,用以支撐在雲計算和數據中心場景下複雜度和數據吞吐量高速增長的人工智能處理任務。此外,寒武紀還有一款在研產品思元 590,尚未發佈。此外,2022 年底,思元 370 系列與 AIGC 產品百度飛槳完成 II 級兼容性測試。
但國內大模型公司是否採用了寒武紀芯片,尚未得到準確消息。“在高端 AI 芯片領域,國產廠商處於剛剛起步的階段,很多東西需要時間和金錢驗證。” 某資深芯片工程師袒露。哪怕是華為、百度、海光信息等企業的芯片也與英偉達產品有着明顯差距。
曾有人坦言,英偉達與其他芯片廠商的差距,是院士與高中生的差別。就如同黃仁勳所言,英偉達 “一直在奔跑”,想要超越巨人的其它芯片廠商只能奮力狂奔。
03 AI 大模型背後的 “權力遊戲”
除了英偉達之外,另一個 GPU 巨頭 AMD,最近也有了行動。
近日,AMD 發佈最新加速卡,就在 AMD 推出最新加速卡 Instinct MI300X 的發佈會現場,PPT 上專門打出一行字——大語言模型專用,這被業界視為直接向英偉達宣戰!
據悉,MI300X 的高帶寬內存(HBM)密度,最高可達英偉達 H100 的 2.4 倍,高帶寬內存帶寬最高可達 H100 的 1.6 倍,顯然 MI300X 能運行比 H100 更大的 AI 模型。
MI300X 所在的 MI300 系列,是 AMD 為 AI 和 HPC 打造的一系列最新 APU 加速卡。其中,MI300A 是 “基礎款”,MI300X 則是硬件性能更高的 “大模型優化款”。
目前來看,MI300A 已經出樣,估計不久就能買上;大模型專用卡 MI300X、以及集成 8 個 MI300X 的 AMD Instinct 計算平台,預計今年第三季度出樣,第四季度就能推出。
這幾年來,相比英偉達一直在 AI 領域的大動作,AMD 的行動顯得有點遲緩。正如 DeepBrain AI 的 CEO Eric Jang 所言,感覺 AMD 這幾年讓他很失望,5 年來沒什麼變化。尤其是在 AIGC 的爆發過程中,如果 AMD 不努力跟上,差距只會越拉越大。
而隨着 AMD 此次 MI300 系列產品的推出,終於能看到 AMD 和英偉達正面打擂台了。
但遺憾的是,市場對 AMD 的新卡好像不太買賬。
就在這次 AMD 發佈會期間,其股價不升反降。相比之下,英偉達股價還上漲了一波。市場情緒也不難理解,因為在高科技領域,尤其是新興市場,一步快步步快、強者恆強正在成為商業市場的普遍邏輯。
但其實細究原因也能發現,英偉達壟斷人工智能訓練芯片市場的主要原因是其自研的 CUDA 生態。所以 AMD MI300 想要替代英偉達,首先需要兼容英偉達的 CUDA 生態,AMD 為此推出 ROCm 生態圈,並實現通過 HIP 完全兼容 CUDA,藉此來減少用户已知成本。
對此,知名投資博主慕容衣認為,走兼容英偉達 CUDA 的路線的難點在於其更新迭代速度永遠跟不上 CUDA ,並且很難做到完全兼容,即一方面迭代永遠慢一步。英偉達 GPU 在微架構和指令集上迭代很快,在上層軟件堆棧上很多地方也要做相應的功能更新,但是 AMD 不可能知道英偉達的產品路線圖,軟件更新永遠會慢英偉達一步(例如 AMD 有可能剛宣佈支持了 CUDA11,但是英偉達已經推出 CUDA12 了);另一方面,難以完全兼容反而會增加開發者的工作量,像 CUDA 這樣的大型軟件本身架構很複雜,AMD 需要投入大量人力物力用幾年甚至十幾年才能追趕上,因為難免存在功能差異,如果兼容做不好反而會影響性能。所以,這些也是大家目前不太買賬的關鍵原因。
據 Khaveen Investments 測算,英偉達數據中心 GPU 2022 年市佔率高達 88%,AMD 和英特爾瓜分剩下的部分。
自從去年 OpenAI 發佈 ChatGPT 以來,新一輪科技革命持續發酵。可以説,很多年都沒有哪一項科技進步如 ChatGPT 這般吸引全球的目光。
國內外各個科技公司、科研機構、高等院校都在跟進,不到半年時間,就跑出了非常多的大模型應用的創業公司,融資規模也屢創新高。
據知乎博主 wgang 梳理,包括百度、科大訊飛、第四範式、清華、復旦在內的國內各個大廠、創業公司、科研院校都相繼發佈了大模型產品:
圖源:知乎 wgwang
能看到,不僅是在通用領域,在具體的行業場景,尤其是一些專業性強、知識密度高的領域,科技公司們也在紛紛發佈垂直領域的大模型。譬如美股上市公司百家雲(RTC)結合對企業服務需求的洞察,近日發佈了 AIGC 產品「市場易」,這也是首款適用於企業市場部內容生產場景的 GPT 大模型引擎。
有業內人士笑稱:“國產大模型已形成羣模亂舞、百模大戰的局面,預計到年底會有超過 100 個的大模型。”
然而,大模型的發展需要算法、算力、數據三大重要因素的支撐,算力是大模型訓練的重要能量引擎,也是目前國內發展大模型產業的一大壁壘。
芯片能力直接影響着高算力訓練效果和速度。上文提到,儘管國產大模型產品頻出,但從其背後支持的芯片來看,所有這些平台使用的要麼是英偉達 A100、H100 GPU,要麼是去年禁令後英偉達專門推出的減配版 A800、H800,這兩款處理器帶寬分別是原版的約 3/4 和約一半,避開了高性能 GPU 的限制標準。
今年 3 月,騰訊率先宣佈已用上 H800,在騰訊雲發佈的新版高性能計算服務中已使用了 H800,並稱這是國內首發。
阿里雲也在今年 5 月對內提出把 “智算戰役” 作為今年的頭號戰役,GPU 數量成為其戰役的重要指標。
此外,商湯也宣稱,其 “AI 大裝置” 計算集羣中已總共部署了近 3 萬塊 GPU,其中有 1 萬塊是英偉達 A100。字節和美團則直接從公司其他業務團隊那裏勻出 GPU 供大模型訓練使用。甚至有廠家自 2022 年下半年起就持續在市場中尋覓能拆出 A100 的各類整機產品,目的僅是獲得 GPU 芯片。“機子太多,存放的地方都不夠用。”
據瞭解,國內頭部科技企業在 AI 和雲計算方面投入較大,過去 A100 的積累都達到上萬塊。
與此同時,中國科技大廠還在進行新一輪的採購競爭。
據某雲服務商透露,字節、阿里等大公司主要是和英偉達原廠直接談採購,代理商和二手市場難以滿足其龐大需求。
正如上文提到的,字節跳動今年已向英偉達訂購了超過 10 億美元的 GPU 產品,僅字節一家公司今年的採購量就已經接近英偉達去年在中國銷售的商用 GPU 總銷售額。報道稱,還有另一家大公司的訂單也至少超過 10 億元。
可見,中國大科技公司對於採購 GPU 非常急迫。
不止國內企業,國外大客户對英偉達的 A100/H100 芯片需求同樣非常強烈。據數據統計,最早開始測試類 ChatGPT 產品的百度,2020 年以來的年資本開支在 8-20 億美元之間,阿里在 60-80 億美元之間。同期,亞馬遜、Meta、Google、微軟這四家自建數據中心的美國科技公司的年資本開支最少均超過 150 億美元。
目前英偉達訂單能見度已至 2024 年,高端芯片非常緊缺。以現在的排產進度,就連 A800/H800 都要到今年底或明年才能交貨。短期內,從其受追捧程度來看,唯一影響英偉達高端 GPU 銷量的或許只有台積電的產能。
04 AI 大模型背後的 “權力遊戲”
從大模型產品芯片供應情況來看,在 AI 大模型訓練上,現在 A100、H100 及其特供中國的減配版 A800、H800 找不到替代品。
那麼,為什麼在這一輪 GPT 熱潮中,英偉達率先跑出來並表現出色?
華映資本管理合夥人章高男表示,一方面是因為英偉達佈局最早,其微內核結構也是一代一代去演進和改進的。現在無論是從併發能力、總線速度,還是微內核對矩陣變換的成熟支持,其能力已經非常高效,包括它同時提供非常完善的 CUDA 計算平台,事實上已經成為深度學習算法實現的潛在行業標準,整個產業鏈的配套也非常完整,綜合競爭壁壘和護城河深度極高。
總結來看,英偉達 GPU 目前的不可替代性,源自大模型的訓練機制,其核心步驟是預訓練(pre-training)和微調(fine-tuning),前者是打基礎,相當於接受通識教育至大學畢業;後者則是針對具體場景和任務做優化,以提升工作表現。
那麼,國產 GPU 芯片是否可以支撐大模型的算力需求呢?
在實際應用中,大模型對於算力的需求分為兩個階段,一是訓練出 ChatGPT 大模型的過程;二是將這個模型商業化的推理過程。即 AI 訓練是做出模型,AI 推理是使用模型,訓練對芯片性能要求更高。
基於此,國產 AI 芯片公司持續湧現,陸續發佈產品推向市場。燧原科技、壁仞科技、天數智芯、寒武紀等公司都推出了自己的雲端 GPU 產品,且理論性能指標不弱。海光信息的 DCU 芯片 “深算一號” 軟硬件生態相對完整,且能夠兼容 CUDA 架構。而騰訊、百度、阿里等互聯網大廠也通過投資、孵化等方式在 AI 芯片領域大力佈局。
其中,大模型訓練需要處理高顆粒度的信息,對雲端訓練芯片的芯片處理信息的精細度和算力速度要求更高,現階段國產 GPU 大多還不具備支撐大模型訓練所需的能力,更適合做對信息顆粒度要求沒有那麼高的雲端推理工作。
國內部分相關企業 AI 產品與應用 芯潮 IC 據公開資料整理
今年 3 月,百度李彥宏曾公開表示,崑崙芯片現在很適合做大模型的推理,將來會適合做訓練。
天數智芯副總裁鄒翾也向芯潮 IC 表示,國產芯片距離英偉達最新產品仍存在一定差距,不過在推理運算方面國產芯片可以做到不輸主流產品的性能實力,而隨着人工智能的應用普及,推理芯片的市場需求將加速增長,隨着需求的擴大,國產芯片也將擁有更大的市場。
另有不願意透露姓名的業內人士表示 “國內通用 GPU 產品的確在滿足大模型訓練上與國際旗艦產品存在差距,但並非不可彌補,只是此前行業在產品定義裏未朝着大模型方向做設計。”
目前,行業從業者在做相關的探索和努力,如思考能否通過 Chiplet、先進封裝的方式來提高芯片算力。目前國產 GPU 公司都在朝着大模型領域去做芯片開發和佈局。
而從資本角度來看,華映資本管理合夥人章高男向芯潮 IC 表示,華映很早就高度關注算力基礎設施,無論是 GPU、DPU 還是更前沿的光電混合計算,量子計算,都有針對性研究和佈局。整體上則側重於通用算力基礎設施,譬如 FPGA、邊緣計算等。相比之下,目前很多圍繞深度學習、特殊算法、局部算力優化等的算力芯片並不是其考慮的重點。
實際上,除了硬件性能差距外,軟件生態也是國產 AI 芯片廠商的短板。
芯片需要適配硬件系統、工具鏈、編譯器等多個層級,需要很強的適配性,否則會出現這款芯片在某個場景能跑出 90% 的算力,在另一場景只能跑出 80% 效能的情景。
上文提到,英偉達在這方面優勢明顯。早在 2006 年,英偉達就推出了計算平台 CUDA,這是一個並行計算軟件引擎,CUDA 框架裏集成了很多調用 GPU 算力所需的代碼,工程師可以直接使用這些代碼,無須一一編寫。開發者可使用 CUDA 更高效地進行 AI 訓練和推理,更好的發揮 GPU 算力。時至今日,CUDA 已成為 AI 基礎設施,主流的 AI 框架、庫、工具都以 CUDA 為基礎進行開發。
如果沒有這套編碼語言,軟件工程師發揮硬件價值的難度會變得極大。
英偉達之外的 GPU 和 AI 芯片如要接入 CUDA,需要自己提供適配軟件。據業內人士透露,曾接觸過一家非英偉達 GPU 廠商,儘管其芯片和服務報價比英偉達更低,也承諾提供更及時的服務,但使用其 GPU 的整體訓練和開發成本會高於英偉達,還得承擔結果和開發時間的不確定性。
雖然英偉達 GPU 價格貴,但實際用起來反而是最便宜的。這對有意抓住大模型機會的企業來説,錢往往不是問題,時間才是更寶貴的資源,大家都必須儘快獲得足夠多的先進算力來確保先發優勢。
因此,對於國產芯片供應商來講,哪怕能通過堆芯片的方式能堆出一個算力相當的產品,但軟件適配與兼容讓客户接受更難。此外,從服務器運營的角度,它的主板開銷、電費、運營費,以及需要考慮的功耗、散熱等問題,都會大大增加數據中心的運營成本。
因為算力資源常需要以池化的形式呈現,數據中心通常更願意採用同一種芯片,或者同一家公司的芯片來降低算力池化難度。
算力的釋放需要複雜的軟硬件配合,才能將芯片的理論算力變為有效算力。對客户而言,把國產 AI 芯片用起來並不容易,更換雲端 AI 芯片要承擔一定的遷移成本和風險,除非新產品存在性能優勢,或者能在某個維度上提供其他人解決不了的問題,否則客户更換的意願很低。
作為當前唯一可以實際處理 ChatGPT 的 GPU 供應商,英偉達是當之無愧的 “AI 算力王者”。6 年前,黃仁勳親自向 OpenAI 交付了第一台搭載 A100 芯片的超級計算機,幫助後者創造 ChatGPT,併成為 AI 時代的引領者。
不過,去年美國實施出口管制以來,英偉達已經被禁止向中國出口兩款最先進的 GPU 芯片 H100 和 A100。這對於下游應用企業來説,無疑是受到打擊的。
從安全性以及自主可控的角度來説,這也為國內芯片企業提供了新的機遇窗口。儘管國產芯片在性能和軟件生態上比不過英偉達、AMD 等行業巨頭,但在複雜的國際貿易關係及地緣政治因素等驅動下,“國產替代” 成為國內半導體行業發展的主旋律。
05 結語
算力的每一次提升,都會掀起技術與產業變革的浪潮:CPU 帶領人類進入 PC 時代,移動芯片掀起移動互聯網浪潮,而 AI 芯片打破了 AI 產業此前長達數十年的算力瓶頸。
如今,“人工智能的 iPhone 時刻” 已經來臨,走向下一個時代的路,或許已經擺在我們眼前。
儘管這些數據中心的 AI 芯片、軟件系統等領域仍是國外廠商的天下,但如今,“算力國產化” 的市場大門或許正在打開。
本文來源:芯潮 IC,原文標題:《一塊炒到 50 萬元,大廠瘋狂囤芯,批量買要走後門,中國版英偉達在哪?》
