What does NVIDIA's inference context memory storage mean for NAND?

華爾街見聞
2026.01.14 16:27
portai
I'm PortAI, I can summarize articles.

花旗報告指出,英偉達最新推出的 AI 推理上下文內存存儲(ICMS)架構,預計將顯著加劇全球 NAND 閃存供應短缺。該架構每台服務器需額外配置 1152TB SSD,預計將在 2026 年、2027 年分別帶來相當於全球 NAND 總需求 2.8% 和 9.3% 的新增用量。此舉不僅將推升 NAND 價格,也為三星、SK 海力士、美光等頭部存儲芯片製造商帶來明確的結構性增長機遇。

花旗認為,英偉達在 AI 推理應用中採用的上下文內存存儲技術,預計將加劇 NAND 閃存市場的供應短缺。

據追風交易台,花旗最新報告指出,英偉達推出的推理上下文內存存儲(ICMS)架構將顯著拉動 NAND 閃存需求,為存儲芯片製造商帶來結構性機遇,並可能進一步推升 NAND 價格。建議密切關注存儲產業鏈供需格局變化,相關廠商有望持續受益於此輪需求增長。

英偉達宣佈其 Vera Rubin 平台將採用搭載 BlueField-4 芯片的 ICMS 架構,通過卸載 KV Cache 突破內存瓶頸、提升 AI 推理性能。該架構單台服務器需額外配置 1152TB SSD NAND,報告預計 2026 年、2027 年將分別帶來佔全球 NAND 需求總量 2.8%、9.3% 的新增需求。此舉將進一步加劇全球 NAND 供應短缺,同時為三星電子、SK 海力士、閃迪、鎧俠、美光科技等頭部 NAND 供應商創造顯著市場機會。

ICMS:AI 推理的存儲瓶頸解決方案

報告指出,大規模 AI 推理面臨顯著的內存瓶頸。Transformer 模型的核心內存優化機制——KV Cache,通過存儲已計算的鍵值對來避免重複運算,並根據性能與容量需求分層存儲:活躍 KV 緩存存放於 GPU HBM(G1),過渡/溢出 KV 緩存置於系統 DRAM(G2),熱 KV 緩存則分配至本地 SSD(G3)。

為針對性優化這一架構,英偉達推出了推理上下文內存存儲(ICMS)方案。該方案並非替代現有存儲層級,而是在本地 SSD(G3)與企業共享存儲(G4)之間新增一個 G3.5 層級的專用 KV Cache。這一層級能夠高效地將 G4 中的冷 KV 上下文數據轉換為 G2 中的暖 KV 緩存,並與 HBM 協同工作,從而顯著提升數據傳輸效率與整體 AI 推理性能。

在硬件實現上,Vera Rubin 平台採用 16TB TLC SSD 作為 ICMS 存儲介質,結合 KV 緩存管理器與拓撲感知調度機制,目標實現三大性能突破:每秒處理令牌數最高提升 5 倍、能效比最高提升 5 倍以及更低的延遲。具體配置方面,每台服務器搭載 72 塊 GPU,每塊 GPU 對應 16TB ICMS 專用 NAND 容量,使得單台服務器的總 NAND 需求達到 1152TB。

英偉達在 AI 推理中引入上下文內存存儲技術,標誌着 AI 算力架構的重要演進。與傳統訓練場景不同,推理過程依賴於大量的上下文數據存儲與快速調用能力。這一技術路徑的轉變,為 NAND 閃存開闢了全新的應用場景,有望成為繼數據中心和智能手機之後的重要需求增長點。

NAND 需求增量明確,供應短缺持續深化

花旗通過場景分析測算後認為,ICMS 架構的規模化落地將為全球 NAND 市場帶來顯著且確定的需求增量。報告預計,2026 年 Vera Rubin 服務器出貨量將達到 3 萬台,對應 ICMS 架構的 NAND 需求將達 3460 萬 TB(摺合 346 億 8Gb 當量),這一需求規模佔當年全球 NAND 總需求的 2.8%;隨着 AI 推理需求的進一步釋放,2027 年 Vera Rubin 服務器出貨量有望增至 10 萬台,屆時 ICMS 帶來的 NAND 需求將飆升至 1152 萬 TB(摺合 1152 億 8Gb 當量),佔全球 NAND 總需求的比例將提升至 9.3%。

報告同時指出,當前全球 NAND 市場本就處於供應緊張的狀態,近年來 AI 產業的爆發式發展已推動數據存儲需求持續攀升,NAND 作為核心存儲介質的供需平衡已較為脆弱。而英偉達 ICMS 架構帶來的新增需求具有剛性強、規模大的特點,將直接打破現有供需格局,導致全球 NAND 供應短缺的局面進一步加劇。

AI 驅動下,NAND 市場加速升級

花旗認為,英偉達 ICMS 架構的推出並非孤立的技術革新,而是 AI 技術與存儲行業深度融合的必然結果,這一趨勢將深刻影響 NAND 市場的未來發展。報告指出,在大模型推理場景不斷拓展、運算規模持續擴大的背景下,存儲系統的性能、容量和能效已成為決定 AI 應用體驗的關鍵因素,這將推動 NAND 技術加速向更高密度、更快讀寫速度、更低功耗的方向迭代升級。

同時,報告預測,AI 原生存儲架構的創新探索將為 NAND 行業開闢新的增長空間,除了當前的 ICMS 架構之外,未來可能會出現更多針對特定 AI 場景的定製化存儲解決方案,持續釋放 NAND 的需求潛力。

報告還提到,ICMS 架構帶來的需求增量不僅將利好 NAND 廠商,還將向上遊產業鏈傳導,推動 SSD 製造、存儲控制器等相關環節的協同發展,為整個半導體產業鏈注入新的增長動力。