NVIDIA and Alibaba re-evaluate AI, throwing FLOPS "into the trash"

華爾街見聞
2026.03.18 11:59

這次 GTC2026 上真正值得記住的,不在芯片本身,而是 AI 時代新的度量衡的明確——token/w。當 AI 系統的產出結果(現在是 Token)與消耗能量比重越來越高時,智能才會越來越很聰明,AGI 才有可能在其中誕生。

317黃仁勳在 英偉達GTC 2026 的舞台上穿着標誌性皮夾克講了兩個多小時,會後幾乎全網都在英偉達要做 Token 之王

但如果仔細聽這場演講,會發現黃仁勳真正反覆錘打的,不是 Token 本身,而是 Tokens per Watt(每瓦 Token 數)。他在展示推理性能圖表時明確説出了這個概念,並直言:每一座數據中心、每一座 AI 工廠,本質上都受限於電力一座 1GW 的工廠永遠不會變成 2GW,這是物理定律決定的。在固定功率下,誰的每瓦 Token 產出最高,誰的生產成本就最低,誰的收入曲線就最陡。

這句話才是整場 GTC 2026 真正的題眼。

輿論熱衷討論的是 Vera Rubin 比 Blackwell 強多少倍、Groq LPX 能把推理速度拉高 35 倍、英偉達要把數據中心搬上太空。這些當然重要,但它們本質上都是同一個邏輯的不同表達:在能源約束下,最大化每一瓦電力的智能產出。

當黃仁勳把Tokens/W作為衡量 AI 工廠產出的核心度量衡時,其實背後還有一層重要產業深意算力競爭的度量體系,正在從芯片走向系統,從峯值參數走向端到端能效,誰的芯片更快走向誰可以能源轉化成智能的效率更高。

當下產品技術矩陣之下英偉達和黃仁勳都還受困於 token/w,距離真正的 token 之王,還需要邁出很多步。

這是一次智能度量語言的遷移而這次遷移所打開的產業視角,遠比任何一顆新芯片都更值得深入討論。

就在GTC正式開幕前一天阿里巴巴宣佈成立Alibaba Token Hub親自掛帥阿里AI核心不是AI命名而是Token命名Token 升級阿里AI戰略高度

同樣體現出系統的視角看 AI已經逐步成為行業認知這正是希望能通過這篇文章強調的理念,也是本篇文章的意義所在。

01 GTC2026 最值得重視的變化,不在芯片本身

GTC 2026,大家關注焦點依然是 Vera Rubin、Rubin POD、LPX、DSX AI Factory 這些新產品和新名詞。但如果把這些發佈放在一起看,會發現它把算力競爭的敍事邊界,從單顆芯片,推進到了算力基礎設施級別,也就是一整套由計算、網絡、存儲、電力、冷卻、控制系統和軟件共同構成的 AI factory。

Rubin 被描述為 POD-scale platform,多個機架共同組成一個大規模、相干的系統;DSX 則被定義為面向 AI factory 的參考設計,目標是最大化每瓦 Token 數。

這説明,行業真正競爭的,會從某顆芯片算力有多高,轉化到整個計算系統有多強,更細節一點,也就是整套系統能不能把有限的電力、冷卻和網絡資源,高效地組織成穩定的 AI 產出。

具體到度量單位,就是每瓦 Token 數(Token/W)。

本文希望從 Tokens/W 這個度量單位,來洞悉這場發佈會所傳達出的意義,以及對我們發展 AI 基礎設施產業時所帶來的機會。

02 既然競爭對象變成系統,度量體系就不能還停在芯片層

芯片時代的度量體系,大家都很熟。峯值算力 Flops、顯存帶寬、FLOPS/W、TOPS/W、bit/J,這些指標都很重要,因為它們能描述一個部件的能力邊界。

這就導致在實踐中出現一個尷尬的狀況:智算中心中沒有一個客觀、統一、且通用的度量單位。

一般來講,衡量數據中心的單位會用到 MW 這個電力單位,而在國內建設智算中心時,用的是 PFlops(基於 FP16)這個算力單位。但是,同樣的算力或電力單位的集羣,如果內部的芯片、網絡、散熱不同,效能也會大不同。

原因並不複雜,之前的度量單位只能衡量某個維度,峯值算力描述的是一顆芯片理論上能做多少計算,bit/J 描述的是局部數據搬運的能效,帶寬描述的是單個子系統的信息通路能力,這些都是芯片在某個維度上的度量。

可是一整套 AI 系統最終要回答的問題是:在固定功率預算、固定散熱條件、固定機房約束下,到底能跑出多少有效的 AI 結果。這個問題,單靠芯片層指標回答不了。

從 NVIDIA 這次的話語體系裏可以看到,token cost(成本)、每瓦吞吐量、每瓦 token 性能、以及每瓦 Token 數。

度量語言體系正在從部件語言,轉到系統語言。

所以,如果説芯片層常用的度量是峯值算力、帶寬和 bit/J,那麼系統層更合理的度量,就應該是 Token/W。前者衡量部件能力,後者衡量整體產出。前者對應局部最優,後者對應系統最優。

03 Token/W 把能源到智能產出的鏈條接起來

NVIDIA 在 GTC 2026 現場文字稿裏,把 token 稱為現代 AI 的 basic unit。這個提法其實很到位。對大語言模型、推理服務、Agent 系統而言,用户最終買單的對象,本質上就是系統生成和處理 token 的能力。

從業務運營角度看,token 有三個優點:1)它和模型推理過程直接耦合。2)它和收入模型直接耦合。3)它適合覆蓋推理時代的新負載。

Agent、多輪對話、長上下文、檢索增強、工具調用、推理鏈,這些新負載很難用單一 FLOPS 描述,卻都能在 token、latency、goodput 維度上留下痕跡。

更重要的是,今天 AI 基礎設施的底層約束,正在越來越直接地體現為能源約束。IEA 的《Energy and AI》報告預計,到 2030 年,全球數據中心用電將增長到約 945TWh,較當前水平大幅上升;AI 是其中最重要的驅動因素之一,美國更將佔到這輪增長中的很大份額。換句話説,AI 產業接下來的很多問題,表面看像芯片問題,實質上是電力問題、散熱問題和基礎設施組織問題。

Token/W 這個概念有價值,是因為它把 AI 產業最核心的那條鏈條接起來了:電力輸入,經過計算、網絡、存儲、調度和冷卻,最後變成 token 產出。

從這個意義上説,Token/W 並不是簡單替代 FLOPS/W 或 bit/J。它補上的是一層過去還關注不到的視角:

AI 系統到底把多少能源,轉化成了多少智能產出。

我認為,這次 GTC 最值得討論的地方,恰恰在這裏不能再孤立地看芯片,必須把芯片放進系統,把系統放進產業約束裏去看。

這也是作者一直倡導的角度。看 AI 芯片,不能只看算力峯值、內存帶寬與大小、接口參數,還要看它在網絡中怎樣協同,在機架裏怎樣部署,在園區裏怎樣拿電,在客户那裏怎樣形成成本結構,最終在業務端怎樣變成真實產出。

GTC 2026某種程度上,公開驗證了這種系統視角。因為當 NVIDIA 自己都開始把敍事中心放到 AI factory 上時,行業就已經在從 AI 計算芯片中心主義走向計算系統中心主義。

這一點其實非常關鍵。很多產業會在早期沉迷於部件參數,因為部件參數最容易測,也最容易宣傳。可一旦產業進入大規模部署階段,真正決定勝負的,往往是系統組織能力。今天的 AI 基礎設施,已經到了這個階段。

04 從 Token/W 往下推,光互連的重要性會明顯上升

一旦度量體系遷移到系統層,很多過去被視作配套的環節,地位都會提高。

光互連就是其中最典型的一類。

過去講光互連,行業常用的是光模塊視角、通信視角、器件視角:更高帶寬、更遠傳輸、更低 pJ/bit、更好的帶寬密度、更低插損。這些都對,但這些語言仍然停留在組件、芯片這些子系統層。到了 Token/W 的框架裏,光互連的價值會變得更直觀:它在降低數據搬運的能量代價,提升大規模 AI 計算系統把電力轉化為 token 的能力。

在講述 NVIDIA 的光網絡產品時,基於光子的 CPO 相比光模塊可實現最高 5 倍能效,同時降低延遲,並支撐更大規模的 AI factories 擴展。

這個説法的重點,就不只是鏈路更先進,而是系統規模更大、系統能效更高。

從產業邏輯看,這件事很好理解。隨着模型越來越大、上下文越來越長、集羣越來越大,系統中的很多能耗,並不發生在算術單元上,而發生在數據搬運上,發生在跨芯片、跨板卡、跨機櫃、跨 POD 的通信上。

到了這個階段,提高 Token/W,已經不能只靠更強 GPU,還需要更高效的互連。

所以,從 Token/W 的角度看,發展光互連並不是因為它很前沿,而是因為它正在變成大規模 AI 系統的必要節能手段。

05 光計算比光互連更前沿,但邏輯也開始成立

光計算要比光互連更早期,這一點要實事求是。

通用性、精度、編譯器、製造一致性、系統集成,這些問題都還在演進中。可如果把觀察邊界放到系統層,它的產業意義已經比過去更容易講清楚。

原因在於,Token/W 關心的是端到端能效。誰能在某一類高頻、高密度、可重複映射的計算路徑上,把能量消耗明顯壓下去,誰就有機會在系統層提高 token 產出效率。這個邏輯不要求光計算替代整個 GPU,也不要求它一步到位成為通用計算底座。

它只要求一件事:在某些關鍵工作負載裏,讓整套系統的 J/token 降下來,讓固定功率預算下的 token 產出提上去。

這也是為什麼光計算的敍事,需要從單點器件效率轉向系統層節能貢獻。如果行業只看 TOPS/W、MAC/J,它更像實驗室故事;但如果行業開始看 Token/W,它就有機會進入基礎設施討論。

這個變化,對光計算尤其重要。因為它終於有了一個能和客户、園區、電力、資本開支對話的上層語言。

06 當算力的度量從芯片走向系統光互連與光計算就被推向產業主線

當算力競爭還主要停留在芯片層時,光互連更像 I/O 技術,光計算更像前沿器件探索。

當算力競爭遷移到 AI 大規模系統級基礎設施時,事情就變了。系統效率越來越取決於密集計算能耗、數據搬運、上下文管理、跨節點協同、供電與熱管理組織,而這些環節,恰恰是光學最有機會發揮作用的地方。

從 Token/W 的角度看,光互連解決的是每 token 生成背後的搬運電費;光計算嘗試改寫的是每個 token 背後的部分計算電費。二者共同影響的,是整套系統的 token 產出效率。

這就是它們進入產業主線的根本原因。

更現實一點説,除了芯片產能與供給,未來數據中心和 AI factory 面臨的約束,還會包括電網接入、機房散熱、園區能耗、機櫃功率密度和投產速度。之前國際能源署對 AI 對能源側消耗的判斷,以及這次 NVIDIA 對 AI factory 的表達,都在指向同一個方向:AI 基礎設施正在變成一個用能源來衡量的系統工程。

從這把新的方向往前看,光互連與光計算所解決的,是 AI 時代越來越昂貴、越來越難繼續沿用傳統電學路徑去優化的那部分問題:數據搬運的能量代價,以及高密度計算的單位能耗。

這背後體現的,是一種更完整的系統思維。而這,也是這次 GTC 2026 為何會再次着重提到光子與硅光技術產品的原因:

當算力的度量從芯片走向系統,光學就會從先進技術選項,逐步走向值得建設的產業基礎設施。

從這個角度講,CPO 與光計算系統,未來非常可期!

寫在最後AGI 的推進主軸

作者在日常工作中,一直在倡議設立客觀可衡量的算力度量標準,也一直在使用 Tokens/W 的方法來對不同算力芯片的測試進行度量。

回看科技史當內燃機的輸出能量與自身重量比重越來越高時,汽車才得以誕生,飛機才可以起飛,火箭才可以升空。

而在 AI 時代,當 AI 系統的產出結果(現在是 Token)與消耗能量比重越來越高時,智能才會越來越很聰明,AGI 才有可能在其中誕生。

這次 GTC2026 上真正值得記住的,不是英偉達一家公司榮辱黃仁勳是否成為Token之王AI時代新的度量衡明確

更進一步地英偉達、阿里,也許還有很多行業內的巨頭,都已經開始意識到,要從系統思維的視角來看待 AI 產業的發展。

這其實人類文明發展的主軸相一致那就是用更低的能量,採集、傳輸和處理更多的信息

AGI,也不會例外!

本文來源:騰訊科技