
硬核解析 | 英偉達中國特供版 H20,性能夠用嗎?

H20 等全新特供芯片的研發、設計、生產,完全跳出了常規芯片的節奏,英偉達是如何在短時間內拿出這套特供解決方案?答案就是這篇文章要討論的關鍵問題之一:後道點斷生產工藝。
10 月 17 日,美國更新出口管制標準,要求先進芯片性能超過特定閾值,即需要申請出口許可。在嚴苛的限制條件下,英偉達針對中國市場的特供版 H800、A800 兩款芯片也面臨禁售,以下為美國商務部對先進芯片性能的劃定標準:
●總算力之和≥4800TOPS,
●總算力≥1600,且性能密度≥5.92;
●2400≤總算力<4800,且 1.6<性能密度<5.92;
●總算力≥1600,且 3.2≤性能密度<5.92。
面對新的管制條例,英偉達給了兩個解法:其一,溝通美國商務部申請許可,給特定的中國客户 “開白”;其二,針對新的管制條例,再次定製全新的特供版本。
剛剛舉辦的第三財季電話會議上,英偉達首席財務官科萊特·克雷斯確認了這一消息。克雷斯表示,英偉達正在與中東和中國的一些客户合作,以獲得美國政府銷售高性能產品的許可。此外,英偉達正試圖開發符合政府政策且不需要許可證的新數據中心產品。
01 H800 是如何 “閹割” 成為 H20?
英偉達試圖開發的新的特供版,即業內盛傳的 H20、L20 等產品,最新消息顯示,相關產品的上市計劃已經延後至 2024 年第一季度。
問題在於,H20 等全新特供芯片的研發、設計、生產,完全跳出了常規芯片的節奏,英偉達是如何在短時間內拿出這套特供解決方案?
它的答案就是我們這篇文章要討論的關鍵問題之一:後道點斷生產工藝,用大家更為常用的詞彙總結即——閹割。
HGXH20-L20PCIe-L2PCIe-產品規格
按正常的設計、生產週期和產品發佈節奏來推斷,特供中國市場的 H20/ L20 等型號的芯片在這個時間節點發布,不太可能是重做光罩、重新投片的產物,一個相對合理的推論——即它們是通過半導體後道的物理點斷工藝的改造 + 再封裝,進而推出的新 SKUs。
點斷工藝是半導體制造的後道工序(BEOL)中的改造方法,可以在無需重做光罩的前提下使用一些管/線修補工藝,包括表面激光點斷、CoWoS 層面點斷,甚至通過隧道鏡手工雕線。
可以假定一下這樣的場景,代工英偉達 H800 的台積電南科 Fab18A、台中 Fab15B 和台中先進封裝 5 廠的潔淨室裏,此前降規生產的幾批次裸片,還沒來得及切割、鍍上金屬線和電極,還未封裝成 H800 和 L40S,轉而通過後道點斷生產工藝再封裝成 H20、L20。
02 表面激光點斷是半導體制造傳統藝能
行業慣例來説,一顆數字邏輯芯片的緩存大小 (CacheSize)、底層物理互連(PHYchannels)都可以通過在後道封測環節重修/點斷做失效屏蔽處理的,尤其是針對低分數裸片的改造方法算是幾十年的傳統藝能,例如早期的奔騰、賽揚處理器的重要區別之一就是點斷緩存。
倘若是局部微小部分,曾經可以手工完成(相當於微雕);面積稍大的部分,可以重新設計 Layout 預留點斷位置,再由機器完成點斷失效。
一種內置數字顯示的温度傳感器設計版圖
實操上,通常的晶圓廠都會配置專業設備,由激光直接在裸片上切割線路/溝槽,而在亞利桑那錢德勒市的 Intel Fab42 工廠裏,還有直接在專用隧道鏡下面手工雕刻晶體管的設備,宣稱是原子尺度的,不同於尋常的掃描隧道顯微鏡,幾年前 Intel 有個宣傳視頻,提到這台設備,據傳全球持證的操作手不超過 14 人。
其實在平面晶體管以前,顯微鏡手雕不算是高難度動作,但進入 FinFET 以後,由於垂直方向的 3D 柵極結構,手雕設備的代價和操作員就變得遙不可及了。
具體到 H20/L20,這兩款特供產品,是如何通過 H800、L40S 降規而來?可以先看看相關參數:
H20:對應 H100/800 系列,Hopper 架構(HBM3、2.5D CoWoS 封裝、NVLink)
L20:對應 L40S 系列,Ada Lovelace 架構(GDDR6,2D InFO 封裝,PCIe Gen4)
* 注:固件相應修改;
回顧 H100/H800 相同架構之間比較關鍵的底層物理互連(SerDes PHY)的差異,H100 降規閹割成 H800,可以通過局部物理點斷失效處理來實現;但相比之下,H20 雖然與前面兩款產品同構,但推測割掉的 Dark Si 面積可能較大,不確定常規點斷操作是否不值得,也許需要重新做 Layout。
但是除了底層物理層互連(SerDes PHY)的區別,還有雙精度浮點計算(FP64)單元面積、張量核(用於矩陣、卷積類計算任務)單元面積的區別,這部分不好定論,但可以推測是類似利用物理冗餘設計並加以屏蔽的操作,畢竟如今的設計方法學都是推動模塊化的,流片後的測試原本就會有 70 分 die 與 90 分 die 的區別,以及 GPU 芯片上也不止一個 FP64,局部操作物理點斷失效也是合理的。
03 設計冗餘為點斷創造條件,也是大廠基操
舉個例子:A、如今市面仍可見的 Intel F 系列 CPU,就是點斷顯核的 70 分 die;B、Apple Si 的前兩代,官宣 8 核 NPU,實際有 9 個,就是設計冗餘。
以上這些,在晶圓製造工序中也算是基本操作,特別是中試廠/線,Alpha - Beta 流片的過渡期間,有小錯就會直接手改,不會返回修改掩膜重新流片的。
從芯片設計者的角度來看,設計冗餘度是在芯片開發流程中原本存在的,因為前道光刻過程是強調高良率的,具體到失效晶體管數,測試環節判斷模塊級別的良率,壞點可以直接電路割斷,後續引線、封蓋工藝流程都不變。
例如 3 年前,Intel 曾向市場推出過不帶顯核的 F 系列 CPU,就是物理降規/閹割的產物,點斷顯核,重新封裝銷售。但是該款芯片偶爾耗電巨大,經用户投訴,建環境驗證後發現就是原本通過物理點斷失效的顯核在接電之後不受控制而導致的莫名電源故障。
這個案例反映的情況就是我們上文所講的,同一條流水線,經過點斷失效的芯片,後續的導線/引腳和封裝過程不變,可以繼續銷售。尤其早期 Intel 10nm 的良率很低,積壓很多這樣的低分片,才會把顯核失效的芯片加印 F 標繼續銷售。
如今這個 “冗餘度” 可能有很大空間,畢竟 H100 已然是 814 平方毫米的大芯片,幾乎接近光罩尺寸邊緣(26mm*33mm=858mm2)。而如今發佈的 H20 降規型號,大概是 H100 15% 的性能,但是其物料成本幾近相同。
04 封裝層面點斷可操作性、經濟性更好
除了在邏輯芯片表面的激光點斷工藝之外,還有針對某些特殊位置的點斷要求,比如CoWoS 中介層的點斷。
CoWoS 作為台積電的 2.5D 封裝方案,可以使得多顆芯片封裝到一起,互連和內存等器件均通過硅中介層互聯,達到了封裝體積小,功耗低,引腳少的效果。
相比表面激光點斷,在 CoWoS 的前道部分——即 CoW 部分是硅通孔和中介層——在該層面操作點斷,做差異化,反而更經濟,也更容易保證良率。因為算力邏輯芯片和 I/O 芯片是分列的,可以屏蔽底層物理互連的通道,也可以縮減 HBM3 內存性能,而且在硅中介層修改差異化更容易,相比全部在邏輯芯片上修改的代價更低,因為中介層上操作的線寬精度可以較低,甚至點斷最上面那層金屬的線寬即可。
但是,CoWoS 中介層上面是隻能夠屏蔽物理互連和 HBM 內存,但是無法屏蔽 FP64 單元、Tensor core 單元這樣的計算邏輯芯片面積,這就需要補充用到前文所説的在邏輯 die 表面點斷失效的方法。
另外,正常情況下,物理點斷失效的電路是不能從外部第三方察覺的,且工藝不可逆;尤其如今芯片都是十幾層金屬,裸片的表面修改了,上面金屬層是看不穿的,除非是用到反工程的透視掃描。
綜上,我們看到進一步特供/降規生產的 H20/L20 等型號,可以判斷是 H800 和 L40S 的裸片的後道物理點斷工序的改造產物,同時重新封裝、重新修改固件,成為新的 SKUs。
回想 Nvidia 之前積壓的、原本銷往中國的 50 億美元的 GPU 產品尚未交付,如今返廠做了後道改造才得以如此快速的發佈新的 SKU,那麼猜測國內廠商的 50 億美元訂單也許會轉換為這三個型號。
05 “閹割” 後的 H20 的能與不能
核心 AI 芯片相關參數及出口管制情況,APPLIES 對應受管制,DOESN'TAPPLY 對應不受管制
如下是針對 H20 與 H100/H800/A100 的產品橫向比較,比較維度包括 “產品規格、單卡和集羣算力效能、物料成本、定價體系” 等四個方面:
集羣綜合算力方面,H100/H800 目前是 AIDC 算力集羣的頂流部署;其中 H100 理論擴容極限是 5 萬張卡集羣,最多可達 10 萬 P 算力;H800 最大集羣是 2-3 萬張卡,合計 4 萬 P 算力;A100 最大集羣是 1.6 萬張卡,合計 9600P 算力。
然而對於 H20,其集羣的理論擴容極限是 5 萬張卡,以單卡算力 0.148P(FP16/BF16)計算,集羣合計提供 7400P 算力,遠低於 H100/H800/A100。
基於 NVIDIAH800 的 8 卡服務器模組
同時,基於算力與通信均衡度預估,5 萬張 H20 合理的整體算力中位數約為 3000P 左右,倘若 H20 面對千億級參數模型訓練,恐怕捉襟見肘,需要集羣網絡拓撲有更大的外延擴展。
但從 HGX H20 的硬件參數綜合來看,幾乎把美國商務部性能密度禁令中嚴格限制的算力門檻以外的指標全部拉滿,顯然是定位為一顆訓推通用的處理器。
只是針對 LLM 大模型業態而言,實際使用 H20 做千卡分佈式訓練,雖然大部分有效利用時間都是 GPU 上的矩陣乘加計算的時間,通信和訪存的時間佔比縮小,但畢竟單卡算力規格較低,超限度的千卡集羣擴展反而會使其費效比降低,H20 更適用於垂直類模型的訓練/推理,不容易滿足千億參數級 LLM 的訓練需求。
需要注意的是,選用更多低規格、更廉價的 GPU 並聯集羣,試圖追平或是超過一台超高算力的 GH200 效能,這是一種悖論。
因為這種方案的掣肘很多,環境搭建和運行的 ROI 並不高。因為在算力利用率、並行策略的執行、集羣綜合能耗、硬件成本和組網成本等等方面都不可能獲得理想方案;H20 集羣與 A800 集羣效能可以同比,對比 H100/GH200 集羣效能則是不實際的。
H20 的基本規格方面,算力水平約等於 50%A100 和 15%H100,單卡算力是 0.148P(FP16)/0.296P(Int8),900GB/S NVLink,6 顆 HBM3e(顯存的物料與 H100 SXM 版本配置相同,即 6*16GB=96GB 容量),die size 同樣都是 814mm2 。
考慮到 H100GPU 單卡物料成本中的 HBM 顆粒成本獨佔 55%-60%,整卡的物料成本約 3320 美元(H20 成本相近,甚至由於增配的 L2Cache 以及追加了點斷工序而成本更高,且相比 H800 更加增配了 HBM3 容量和 NVLinklanes 帶寬),那麼對應最終的渠道定價規則,H20 的渠道單價可能與 H100/H800 處於相近水平。
同比參考幾個市面流通價格(來自某一線互聯網公司和某一線服務器廠的渠道貨價):
-DGXA800PCIe8 卡服務器約 145 萬元/台,NVLink 版本 200 萬元/台
-DGXH800NVLink 版本服務器,國內渠道報價約 310 萬元/台(不含 IB)
-DGXH100NVLink 版本服務器,香港渠道報價約 45 萬美元/台(不含 IB)
-H100PCIe 單卡報價約 2.5-3 萬美元,H800PCIe 單卡尚不確定,且單卡流通渠道不正規
本文作者:張書嘉 Morris,來源: (ID:qqtech),原文標題:《英偉達為中國 “降規”:H800 變身為 H20,技術如何實現、性能夠用嗎?|芯事重重》
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
