Musk's retweet of Kimi's paper sparked a big discussion in Silicon Valley, what is the next battlefield for Attention?

馬斯克轉發了 Kimi 團隊的論文《Attention Residuals》，引發硅谷熱議，Karpathy 和前 OpenAI 聯合創始人 Jerry Tworek 對此發表看法。與此同時，字節跳動 Seed 團隊與華中科技大學聯合發佈了另一篇相關論文《Mixture-of-Depths Attention》，南京大學等人的論文《When Does Sparsity Mitigate the Curse of Depth in LLMs》也在同周發佈。這三篇論文集中探討了注意力機制的結構性問題，標誌着該領域的重大進展。

2026 年 3 月 16 日，Kimi 團隊把一篇叫 Attention Residuals 的論文掛上了 arXiv，然後事情迅速失控。馬斯克轉發了，Karpathy 評了一句"我們還沒有真正把 Attention is All You Need 的標題當回事"，前 OpenAI 聯合創始人 Jerry Tworek 直接給了四個字，deep learning 2.0。一篇來自中國團隊的架構論文能在硅谷引起這種級別的討論，上一次可能要追溯到 DeepSeek-V3。

但熱鬧歸熱鬧，大多數討論停留在"Kimi 搞了個新東西，大佬們很興奮"的層面。被忽略的是，同一天，字節跳動 Seed 團隊和華中科技大學聯合發了另一篇論文，叫 Mixture-of-Depths Attention（MoDA），解決的是完全相同的問題，用的是完全不同的路線。同一周內，南京大學 Dilxat Muhtar、MPI Shiwei Liu 等人的第三篇論文"When Does Sparsity Mitigate the Curse of Depth in LLMs"從理論側給出了最精確的病理報告。

三篇論文密集出現，對準的是同一個靶子。這不是巧合。一個被忽視了近十年的結構性問題，終於到了不得不解決的臨界點。

問題不在注意力的序列維度上。注意力在過去幾年已經進化了很多代，從多頭注意力到分組查詢注意力，到 DeepSeek 的 MLA，到各種稀疏變體，每一代都在優化 token 與 token 之間怎麼互相看。這場軍備競賽足夠精彩，但它遮蔽了一個事實——層與層之間的信息傳遞方式，從 2017 年 Transformer 論文發表至今，答案一直是同一個。殘差連接，h = h + f(h)，一個不帶任何學習參數的加法操作。

所有歷史層的輸出等權求和。沒有選擇，沒有遺忘，沒有學習。每一層的貢獻被一視同仁地堆進殘差流裏，不管它學到的是關鍵特徵還是噪音。

殘差連接是深度學習歷史上最成功的"臨時方案"。

最成功的臨時方案

殘差連接是 2015 年何愷明在 ResNet 裏提出的。思路極其樸素，網絡堆到二十幾層就訓不動了，梯度消失讓深層參數幾乎不更新，那就給每一層加一條"高速公路"，讓輸入直接跳過這一層接到輸出上。即使這一層什麼都沒學到，信息和梯度至少能通過這條捷徑傳下去。效果立竿見影，ResNet 把網絡從二十幾層推到了一百多層。兩年後 Transformer 問世，殘差連接被原封不動地搬過來。從那以後，這個設計就沒人動過。

不是沒人試過。ReZero、FixUp、Highway Network 都做過變體，讓殘差權重可學習。但沒有一個進入主流大模型的架構選型，因為殘差連接太好用了。簡單、穩定、幾乎不增加計算開銷，在當時的模型規模下，副作用還沒有暴露。

44% 的層在空轉

副作用是什麼？2025 年初，西湖大學、Emory 和 MPI 的 Shiwei Liu 團隊發表了"The Curse of Depth"，今年 3 月南京大學 Dilxat Muhtar 等人的"When Does Sparsity Mitigate the Curse of Depth in LLMs"進一步給出了定量診斷，在當前主流大模型的架構下，深層的變換越來越接近恆等映射。輸入什麼就輸出什麼，這一層等於沒有。

數字很難看。研究者用"有用性分數"來衡量每一層是否在做有意義的變換。12 層的模型，所有層都在幹活。16 層，三層廢了。24 層，九層廢了。32 層，14 層廢了，44% 的層幾乎什麼都沒學到。參數量從 9 億增加到 23 億，多花了 156% 的預算，有效層只從 12 增加到 18。

深度詛咒的定量診斷——有效層數隨模型規模增長的效率遞減

原因和殘差連接的工作方式直接相關。每一層的輸出通過殘差連接加到一條"主幹道"上。隨着層數增加，主幹道上累積的信號越來越大（可以理解為"背景音量"不斷升高），但每一層新產生的信號幅度是有限的。到了深層，新信號就淹沒在背景噪音裏了，輸入和輸出幾乎一樣，這一層形同虛設。

殘差連接解決了"讓梯度傳過去"的問題，但製造了"讓深層有意義"的問題。

在大模型時代，這個代價是真金白銀。一層就是幾十億次浮點運算。一個 128 層的模型如果有 44% 的層在空轉，將近六十層的算力在做無用功。社區捲了幾年的推理效率優化，量化、蒸餾、剪枝、稀疏注意力、KV cache 壓縮，全都在優化那些"有用的計算"。

最大的效率黑洞不在注意力的二次方複雜度上，而在一個從 2015 年就沒變過的加法操作上。

給注意力加上深度維度

字節 Seed 團隊的 MoDA 選了一條不同的路。它沒有動殘差連接，而是給注意力機制本身加了第二個維度。

標準 Transformer 的注意力只在序列維度上操作，即，當前層的每個 token 去看同層其他 token 的 KV。MoDA 的改動很直覺，把歷史層的 KV 也放進注意力的候選集。一個 token 在第 L 層做注意力計算時，不僅能看到同層的其他 token，還能直接回看第 1 層到第 L-1 層的 KV。序列維度和深度維度在同一個 Softmax 下聯合歸一化。

想法不難理解，難的是怎麼在不拖垮速度的情況下把它做出來。

MoDA 的雙維注意力機制——序列維度與深度維度在同一個 Softmax 下聯合歸一化

把所有歷史層的 KV 全塞進注意力，計算量會爆炸。一個 32 層的模型，第 32 層要看前 31 層的所有 KV，等效序列長度直接擴大 32 倍。MoDA 的工程核心是一套"分組重排"策略，只選一部分歷史層的 KV，按組重新排列到連續顯存上，讓 GPU 的矩陣乘法能高效執行。

具體來説，MoDA 引入了"深度流"機制。不是每一層都去看所有歷史層，而是通過一個可學習的路由選出最相關的幾層。這和 Mixture-of-Experts 的思路類似——不是把所有專家都激活，而是動態地選擇需要的專家。區別在於這裏的"專家"是不同深度的歷史層。

在 64K 序列長度下，MoDA 的算子效率達到了 FlashAttention-2 的 97.3%。加了整個深度注意力機制，速度只慢了不到 3%。

分組重排策略——把散落在顯存各處的歷史層 KV 搬運到連續內存區域

在 1.5B 參數的模型上（基於 OLMo2 的訓練配方），MoDA 在 10 個下游任務上的平均性能提升了 2.11%，額外計算開銷僅 3.7%。初看不大，但這是架構層面的改進，不是靠更多數據或更長訓練換來的。而且 MoDA 的效果隨模型規模增大而增強——在更大的模型上，深度退化更嚴重，MoDA 的修復作用更明顯。

MoDA 在 10 個下游任務上的性能對比

更有意思的是 MoDA 和 Post-Norm 的化學反應。主流大模型幾乎全用 Pre-Norm（先歸一化再做注意力），因為 Post-Norm（先做注意力再歸一化）雖然理論上更優，但訓練不穩定。MoDA 的深度 KV 機制恰好給 Post-Norm 提供了額外的梯度通道，Post-Norm 本來的不穩定問題就不再是致命傷了。

MoDA+Post-Norm 的組合打開的可能性是，過去為了訓練穩定而做出的妥協（用 Pre-Norm），也許可以被收回了。

Pre-Norm vs Post-Norm 在加入深度 KV 後的驗證損失差異

不開新路，翻修舊路

MoDA 沒動殘差連接，它選擇在殘差之外另開一條路。同一天，Kimi 團隊發的 Attention Residuals（AttnRes）走了一條更直接的路線，直接對殘差連接本身動手。

標準殘差連接做的事很簡單，把前面所有層的輸出等權相加，堆進主幹道。沒有選擇，沒有遺忘。AttnRes 把這個固定的等權加法替換成一個注意力操作，每一層用自己的狀態作為查詢，前面所有層的輸出作為候選，用注意力來決定，前面哪些層的特徵對當前層有用，權重各是多少。

殘差連接從一個固定公式變成了一個可學習的動態路由。

AttnRes 的核心思路——用注意力替代等權殘差加法

代價是每一層都要額外跑一次深度注意力計算，開銷不低。Kimi 團隊用分塊策略（Block AttnRes）控制成本，把層分成若干個塊，塊內做完整的深度注意力，塊與塊之間只關注塊級別的聚合表徵。

AttnRes 已經被集成進了 Kimi Linear（480 億總參數 / 30 億激活參數），在 1.4 萬億 token 上做了預訓練，效果確認在不同模型規模下一致。這篇論文已經被廣泛報道過，技術細節不再展開。值得放在這裏講的原因是它和 MoDA 的路線對比。

AttnRes 的訓練曲線與消融實驗

兩條路線診斷的病因完全一致，即，深層拿到的淺層信息被殘差更新反覆稀釋了。但下刀的地方不同。MoDA 沒碰殘差連接，而是給注意力加了一個深度維度，讓深層能繞過殘差流直接取淺層的原始特徵。AttnRes 直接對殘差連接開刀，把等權加法換成了注意力加權。一個是"另修一條路"，一個是"把原來那條路翻新"。

兩篇論文同一天出現，路線不同，靶子相同。這不是巧合。注意力的深度問題已經是研究社區的共識，區別只在於從哪個方向切入。

AttnRes 在不同模型規模下的效果一致性

忘了拆的腳手架

回到最開始的問題，為什麼深層空轉這個問題到 2026 年才被認真對待？

因為殘差連接太好用了。它解決了一個當時最緊迫的問題（梯度消失），代價可控（深層退化在小模型上不明顯），替代方案不成熟（ReZero、Highway Network 都沒有經受過大規模驗證）。沒有人有動力去動它。它不是被有意保留的設計選擇，而是被遺忘的臨時方案。當初搭的腳手架，蓋完樓忘了拆，時間一長大家以為它是承重牆。

殘差連接的信號稀釋效應——層數越深，新信號越難被聽見

但真正讓這個問題難以被發現的，不是殘差連接本身，而是注意力機制長期以來只在一個維度上運作。過去八年，注意力的所有進化——多頭、分組查詢、稀疏、線性——都是在序列維度上做文章。token 和 token 之間怎麼互相看，這件事被優化了無數遍。但層和層之間怎麼互相看？這個問題根本沒人問過。深度維度是注意力的盲區。

MoDA 和 AttnRes 從不同方向把這個盲區打開了。MoDA 給注意力加了第二個維度，讓它能同時在序列和深度方向上運作。AttnRes 把層間信息傳遞本身變成了一個注意力操作。路線不同，但共同指向同一個結論，即，注意力不該只看水平方向，它也應該看垂直方向。

這個結論的延伸比兩篇論文本身更大。Transformer 裏還有很多隻在單一維度上運作的固定機制。每一層必須按順序執行，不能跳過。每個注意力頭獨立計算後簡單拼接，沒有頭與頭之間的動態協調。每個 token 無論難易都走完全相同的計算路徑。這些設計當初都是為了讓模型能訓起來、能收斂的工程妥協。

深度學習過去十年的演進方向，如果抽象到最高層，就是一件事，把越來越多的結構性決策從人類設計者手中交還給模型自己。手工設計的卷積核被可學習的注意力替代了。固定的位置編碼被可學習的旋轉編碼替代了。固定的專家分配被可學習的路由替代了。現在，深度維度上的信息流動方式，也開始由注意力自己來決定了。

Karpathy 説我們還沒有把"Attention is All You Need"的字面意思當真。他可能説對了。但不是"注意力就夠了"這個意思，而是"注意力還沒有被用夠"。它在序列維度上已經進化了很多代，但在深度維度上才剛剛開始。

深度是注意力的下一個戰場。

本文來源：騰訊科技

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。