
Jensen Huang GTC Interview: Low-latency inference will become the next explosive engine of the AI economy, and the supply-demand balance of power chips will continue for a long time
AI 推理能力的提升使模型正從 “生成信息” 走向 “執行任務”,首次開始產生真實的經濟價值,低延遲推理將成為全新的商業付費引擎。在供給側,電力,芯片與數據中心建設幾乎都缺乏冗餘,緊平衡或將成為更長期的行業底色。
AI 正在從 “生成信息” 走向 “執行任務”,以編碼代理為代表的低延遲高吞吐推理場景,正在開啓 AI 基礎設施商業化的下一個重要階段。在供給側,電力,芯片與數據中心建設幾乎都缺乏冗餘,緊平衡或將成為更長期的行業底色。
在 GTC 2026 主題演講結束後,英偉達 CEO 黃仁勳接受了 Stratechery 創始人 Ben Thompson 的專訪,就 AI 推理經濟、CPU 戰略、收購 Groq 的邏輯以及供應鏈緊張等核心議題發表了系統性看法。
黃仁勳在專訪中指出,AI 在過去一年跨越了一個關鍵門檻——推理能力的提升使模型首次開始產生真實的經濟價值,而編程代理的爆發則是這一轉變最清晰的體現。英偉達正式將超高速、低延遲推理納入自身產品版圖。
在供應層面,黃仁勳直言“幾乎所有環節都很緊”,無論是電力還是芯片供應都難以輕易翻倍。英偉達雖稱其供應鏈已為 “今年和明年” 做了規劃,但他更希望 “土地,電力和機房” 能更快落地,這將直接影響算力擴張的節奏與資本開支兑現路徑。
推理經濟:低延遲成為下一個付費引擎
黃仁勳將過去一年 AI 發展的核心突破歸結為"推理"能力的成熟。他表示,生成式 AI 早期因幻覺問題難以商業化,而推理能力的引入使模型得以通過反思、檢索與搜索實現"落地",進而從提供信息躍升為真正完成任務。
"搜索是一項沒有人付費的服務,原因在於獲取信息的門檻不足以讓人掏錢。"黃仁勳説,"我們現在已經跨越了那個門檻——AI 不僅能與人交談,還能為人做事。"
編程是他列舉的最典型案例。他指出,代碼生成並非普通語言模態,需要模型對代碼塊進行整體反思、驗證執行結果,這一能力的成熟使工程師得以將精力從逐行寫代碼轉向架構與規格設計。
他透露,英偉達內部軟件工程師已 100% 使用編程代理,"很多人已經有一段時間沒有親手寫過一行代碼了,但他們的生產力極高"。
正是基於這一判斷,英偉達決定將低延遲推理能力納入產品線。黃仁勳解釋,現有 GPU 系統在最大化吞吐量與最大化智能 token 質量之間存在內在張力,而對於高價值編程代理用户而言,他們願意為 token 生成速度提升 10 倍支付溢價。
"如果 Anthropic 推出一個讓編程速度提升 10 倍的 Claude Code 服務層,我會付費,毫無疑問。我是在為自己構建這個產品。"
收購 Groq:解構推理流水線的戰略佈局
英偉達收購 Groq 的決定,在黃仁勳看來並非突發之舉,而是其在推理基礎設施領域多年佈局的自然延伸。
他表示,英偉達在一年前發佈 Dynamo 推理調度框架時,就已着手思考如何在異構基礎設施上更細粒度地拆解推理流程。與 Groq 的合作早於收購公告約六個月啓動。此次交易的核心是獲取 Groq 團隊與技術授權,而非其雲服務業務。
在技術層面,英偉達將把推理流水線拆解延伸至解碼階段內部,由 Vera Rubin GPU 處理高 FLOP 的注意力計算,由 Groq 的 LPU 架構承擔需要極高 token 速率與極低延遲的部分。計劃於今年內推出相關產品。
他説道:
"但如果你的業務類似 Anthropic 或 OpenAI,Codex正在產生真實的經濟價值,而你希望生成更多 token,那加入這個加速器就能顯著提升收入。"
他同時承認,這一方案並非適合所有客户。對於以免費用户為主、付費轉化率尚低的平台而言,引入 Groq 會增加成本與複雜度,並不划算。
黃仁勳將 Groq 與此前收購 Mellanox 相提並論——兩者都代表了英偉達將外部專用架構納入自身計算棧、實現系統級協同優化的一貫邏輯。"英偉達是一家加速計算公司,不是 GPU 公司,我們並不執着於計算發生在哪裏,我們只想加速應用。"
CPU 戰略:為 AI 代理時代重新定義服務器架構
在外界長期將英偉達定位為 GPU 公司的背景下,黃仁勳在本次專訪中系統闡述了英偉達進軍 CPU 市場的邏輯,並對自研 Vera CPU 的設計哲學作出説明。
他指出,過去十年 CPU 的設計取向是為超大規模雲計算優化——以最大化可租用核心數量為目標,單線程性能並非優先項。然而在 AI 代理場景中,GPU 在等待工具調用返回結果時,CPU 的單線程性能直接決定系統整體效率。"你永遠不能讓 GPU 時間空轉。"他説。
Vera CPU 的核心差異化在於內存帶寬與 I/O 帶寬:其每 CPU 核心的帶寬是目前任何 CPU 的三倍,專為不因 I/O 瓶頸而拖累 GPU 而設計。他還介紹了與英特爾在 NVLink 上的合作,以滿足企業計算市場對 x86 生態的延續性需求。
黃仁勳將 AI 代理的工具使用分為兩類:一類是結構化工具,包括 CLI、API 和數據庫查詢;另一類是非結構化工具,包括需要模型通過多模態感知操作網頁界面的 PC 端應用。英偉達在兩條路徑上均有佈局。
供應緊平衡:電力與芯片產能雙雙告急
針對市場持續關注的 AI 算力供給問題,黃仁勳給出了迄今最直接的判斷:電力與芯片產能均處於緊平衡狀態,短期內無任何一項存在翻倍空間。
"我不認為我們有兩倍於需求的電力,也不認為我們有兩倍於需求的芯片供應,任何方面都沒有兩倍的冗餘。"他説,"但就我目前看到的前景,我們的供應鏈能夠支撐。"
他表示,英偉達在供應鏈端擁有約兩百家長期合作伙伴,並提前進行了上下游規劃,對今明兩年的大規模增長持樂觀態度。
但他坦言,目前最大的瓶頸或許並不在芯片本身,而在於數據中心的土地、電力與建築的落地速度。"我最希望的事情,可能就是這些基礎設施能更快竣工。"
當被問及英偉達是否是算力稀缺的最大受益者時,黃仁勳承認公司規模最大且供應鏈準備最為充分,但將此歸因於長期規劃,而非市場格局的偶然紅利。
