Two papers from NVIDIA introduce a new paradigm of embodied intelligence after VLA

華爾街見聞
2026.02.11 06:21
portai
I'm PortAI, I can summarize articles.

2025 年,VLA(視覺 - 語言 - 動作模型)成為具身智能領域的熱門話題,但其在物理動作執行和泛化能力上存在嚴重缺陷。英偉達(NVIDIA)於 2026 年初發布的兩篇論文《DreamZero》和《DreamDojo》提出了一種新範式,強調從視頻中學習,能夠實現零樣本泛化,打破了數據不足的侷限,指出 VLA 缺乏世界模型是其根本問題。

2025 年,具身智能領域最火的詞就是 VLA(視覺 - 語言 - 動作模型)。

它成了一種席捲全行業的共識,一個關於具身基礎模型的標準答案。在過去的一年裏,資本和算力瘋狂湧入這條賽道,基本上所有的模型大廠,都在用這套範式。

但很快,現實的物理世界給所有從業者潑了一盆冷水。因為 VLA 在物理動作執行上很弱。

它能懂極其複雜的文字指令。但當機械臂真正去抓取時,它可能連如何調整手腕姿態以避開杯柄的阻擋都做不好,更別提讓它去執行解開鞋帶這種涉及複雜物理形變的動作了。

VLA 的另一個致命痛點是泛化。本來之所以大家要做模型更新,為的就是不用為每個特殊環境編程,看重的正是大模型的泛化能力。結果現在,任何超越訓練規定環境的動作,VLA 基本都無法泛化,甚至出了訓練環境類似的環境都做不了。

整個行業把泛化的無力,歸結於數據的不足。大廠們開始投入億萬資金,用各種方式去採集數據,試圖用海量的模擬演示來填補 VLA 的常識空缺。

但 2026 年初,英偉達(NVIDIA)發佈了兩篇論文《DreamZero: World Action Models are Zero-shot Policies》和《DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos》兩篇論文,構建了一套全新的具身智能基礎模型範式,打破了數據內卷的僵局。

它們一起,給出了一個完全從視頻裏學習,Zero-shot(零樣本)就能泛化執行不同工作的具身模型的可能。

VLA 缺的不是數據,而是世界模型

要理解 DreamZero 和 Dream Dojo 的顛覆性,必須先從底層剖析 VLA 的系統性缺陷。

VLA 的最大問題,就是缺乏世界模型。VLA 的底層架構限制了它的認知方式。從譜系上看,VLA 和 LLM 的親緣更強,反而和純視覺、純物理的親緣較弱。它通過交叉注意力機制(Cross-Attention)將圖像的像素塊映射到文本的語義空間中,在這個空間裏,它理解了杯子和桌子的概念,理解了它們在二維畫面中的相對位置。

但物理世界不是二維的語義切片。物理世界是連續的,充滿了質量、摩擦力、重力和幾何碰撞。

VLA 對物理動作和世界的理解相對較弱,因為它本質上是一個「翻譯器」。

我們可以用物理學中的狀態轉移方程來解釋。一個完整的世界模型,本質上是在學習一個條件概率分佈。它能在給定當前世界的狀態(視覺觀測)和機器人即將執行的動作,預測世界下一秒會變成什麼樣。

VLA 從來沒有學過這個方程。VLA 學習的是靜態視覺觀測 + 語言指令直接映射到可執行動作的函數關係;卻沒被系統性地訓練去預測動作後果、做反事實試錯。所以一旦環境、材質、約束關係稍微變形,性能就會斷崖式下滑。

這就好比讓一個人在不理解幾何原理的情況下,去死記硬背一萬道幾何題的答案。遇到原題,他能快速寫出完美答案;遇到條件稍微變動的新題,他就徹底宕機。

VLA 的泛化,本質上只是高維語義空間中的插值。當物理形態超出訓練集的包絡面時,插值就會失效。

與之對比的,是視頻生成模型。在 Veo3、Sora 2 和最近大火的 Seedance 2 生成的物理交互畫面已經相當逼真,流體、剛體、柔性材料的動作如此連貫,幾乎與現實世界難以區分。這説明,大規模視頻生成模型在海量的互聯網視頻中,很可能已經隱式地壓縮並內化了物理世界的基礎運行規律,形成了一些世界模型。

即使強大如斯,視頻生成之前仍然主要被用在給 VLA 提供模擬數據,而不是整合進機器人的工作流中。

其實,大家想利用視頻生成模型來控制機器人的念頭並不是從此開始的。在 DreamZero 之前,學術界和工業界也提出了多個解決方法。但這些方法無一例外地陷入了工程和邏輯的死衚衕。

比如 LVP(大規模視頻規劃器)。它的思路是從一張圖和一句話,直接生成應該如何完成任務的未來視頻計劃。再把視頻中的人手運動重建成 3D 軌跡。是用視頻預訓練,而不是語言預訓練,作為機器人基礎能力的主軸。

第二種則是類似英偉達自己的 DreamGen 這種,生成視頻後,再反推動作。這是之前被寄予厚望的路線。它把整個基礎模型的架構切分為兩半,上半部分是一個視頻模型,負責預測未來;下半部分是一個獨立訓練的 IDM 網絡,負責看着預測出來的視頻,反推並輸出動作。

以上兩種分階段的模式,最大的問題就是動作和視頻生成對不齊。動作那塊要求特別準確,但視頻生成很難完美。一旦它產生的未來畫面帶有微小的像素偽影或物理幻覺,那不管是 IDM 或者點追蹤,都直接懵圈,成倍放大錯誤。視頻裏機器人的手指位置偏了一微米,現實中機器人就根本什麼都抓不住了。魯棒性極差。

第三種是 Unified Video-Action(UVA,聯合視頻 - 動作生成)。這算是最先進的方法了,它嘗試把視頻和動作放在同一個擴散模型裏的潛空間裏學習,兼顧了視頻預測和動作預測。而推理時又通過「解碼解耦」跳過視頻生成,以保證速度。但它的架構使用了雙向擴散(Bidirectional Diffusion)架構。為了匹配語言指令的長度,必須對生成的視頻序列進行大幅壓縮。這種做法徹底扭曲了原生的視頻時間流。時間都扭曲了,動作指令與視覺畫面的對齊幾乎就不可能了,所以這種方式的泛化性自然極差。

除此之外,這些方法都有一個致命的共同缺陷,就是太慢。視頻擴散模型需要多步迭代去噪,生成幾秒鐘的動作往往需要幾十秒的計算。要是一個機器人把碗放進碗櫃要 5 分鐘,你怕是在邊上看着都得急瘋。

因此在 2026 年前所有新具身智能企業中,幾乎只有前一陣剛推出家用機器人的 1X Technologies 在嘗試這種視頻預測的方法。他們利用海量的 “影子模式”(Shadow Mode)數據,即在人類遙操作時,讓模型在後台同步運行預測,用這種極高質量的配對數據去硬生生訓練那個脆弱的 IDM。

但一時的失敗,並不意味着方向被否定。

在去年的機器人大會上,我採訪了很多國內的具身智能學者。彼時正是谷歌 Veo 3 和 Genie 3 剛剛發佈不久之時。大多數學者都對此印象深刻,意識到了視頻生成模型的世界理解能力。

因此在交流中,他們幾乎是以一種共識的口吻,提出生成可能是後續具身智能最靠譜的路徑。這比在模擬環境下(Simulation)產生數據要可能性更高。模擬器(如 Isaac Gym 或 MuJoCo)受限於人類硬編碼的物理引擎,永遠無法窮盡真實世界材質的複雜性、光影的多變性和接觸力的非線性。而吸收了全人類視頻數據的生成模型,才是那個真正包含了萬物物理法則的超級模擬器。

但當時,這個思維還是停留在「數據」這個層面上,視頻生成取代 VLA 這個講法,基本還沒進入視野。

但英偉達的研究,很可能就是讓這個想法,第一次變成有效的工程化路徑的轉折點。

DreamZero,以世界模型為基地的具身智能

前面已經講了,過去利用視頻生成模型去構建機器人動作所面對的三個主要問題。

一是分步導致的對齊問題。二是合一模式太差,沒法用的問題。三是太慢的問題。針對於此,英偉達先用 DreamZero,給出了一條解決方法。

首先,DreamZero 採用了視頻和動作預測同步端到端訓練的方式。這就解決了過去分階段模式的不對齊問題。

其次,針對 UVA 的時空錯亂問題,DreamZero 徹底拋棄了早期的雙向架構,轉而構建了一個 14B 參數的自迴歸 Diffusion Transformer (DiT)。這是目前標準的視頻生成模型架構。它像語言模型生成文本一樣,嚴格按照時間順序,從左到右預測視頻和動作。在同一次擴散前向裏,同時預測視頻與動作。

這帶來了兩個好處。第一,保留了原生幀率,動作和畫面在時間軸上實現了絕對對齊。第二,它利用了 KV Cache(鍵值緩存)技術。模型不需要每次都從頭計算歷史畫面,極大地節省了算力。

之後,為了解決自迴歸導致的 “誤差累積” 和幻覺問題。DreamZero 還引入了真實觀測注入。

模型預測出未來 1.6 秒的畫面和動作,機器人執行完畢。而在動作執行完的瞬間,獲取攝像頭拍下的絕對真實的當前物理世界畫面,直接編碼並塞入 KV Cache,覆蓋、替換掉模型剛才生成的假畫面。

這一步,瞬間斬斷了誤差積累的因果鏈。模型被迫永遠站在絕對真實的物理基石上,去思考下一步。

最後,也是最重要的一步,是解決生成慢的問題。

為了達到機器人控制需要的頻率,DreamZero 發明了 DreamZero-Flash 技術。擴散模型慢,是因為推理時需要走完漫長的去噪鏈。如果強行減少步數(比如只用 1 步去噪),生成的動作質量會斷崖式下跌,因為畫面還處在充滿噪點的模糊狀態,模型無法從中提取精確的動作。

DreamZero-Flash 的解法是「解耦噪聲調度」。在訓練時,它不再讓視頻和動作處於相同的噪聲級別。它強制模型看着極度模糊、充滿高強度噪聲的視覺畫面,去預測完全乾淨、精準的動作信號。這等於是在訓練模型在看不清未來的情況下,憑藉物理直覺做出正確反應。

對於人來講,這是不可能的任務,看不清就是做不了動作。但對模型來講,這似乎完全行得通。經過這一訓練,到了推理階段,模型只需要進行僅僅 1 步去噪就能生成準確動作。推理時間從 350 毫秒瞬間壓縮到了 150 毫秒。

這使得系統能夠以 7Hz 的頻率輸出動作塊,結合底層控制器,實現了相對平滑的實時執行。

經過了這一系列改造。DreamZero 展現出了視頻生成世界模型的恐怖潛力。

最突出的是泛化能力。在 AgiBot 雙臂機器人的測試中,研究人員拋出了訓練集裏完全沒有見過的任務解開打結的鞋帶、從假人模型頭上摘下帽子、拿着刷子畫畫。

讓從頭訓練的 VLA 來做,任務進度幾乎為零,開始的地方都做不好。但 DreamZero 的平均任務進度達到了 39.5%,某些特定任務(如摘帽子)甚至高達 85.7%。

這是因為 DreamZero 的學習過程是顛覆性的。在訓練時聯合預測視頻和動作,它被迫在潛空間中建立事物演變的因果鏈條。它知道如果不鬆開夾爪,被夾住的物體就不會掉落;它知道如果向前推倒一杯水,水會灑出來。

因為預設了基於視頻的世界模型,WAMs 擁有了物理直覺。當遇到未見過的任務時,它不是在記憶庫裏搜索類似的動作,而是在腦海中模擬出了動作的物理後果。只要這個物理後果符合語言指令的語義目標,它就能直接湧現出執行動作。

這就是為什麼它能在 Zero-shot 的情況下完成解鞋帶這種複雜任務。

更讓人震撼的是跨機體(Cross-Embodiment)能力。

在傳統的 VLA 範式下,你要讓一台新形態的機器人幹活,就必須僱人去給這台機器人錄製專屬的遙操作數據。但在 DreamZero 中,研究人員只讓模型觀看了人類視角的錄像(純視頻,沒有任何電機動作參數),僅僅看了 12 分鐘。模型在未見任務上的表現就實現了 42% 的相對提升。

隨後,他們把在 AgiBot 上訓練的模型,直接遷移到一台完全不同的 YAM 機器人上。僅僅給它餵了 30 分鐘的非結構化「玩耍數據」(Play Data),模型就完成了軀體適應,並且完美保留了零樣本泛化執行復雜指令的能力。

這就是世界模型的降維打擊。物理規律是通用的,它只需要極少的數據去微調自己對新軀體運動學邊界的認知。

VLA 最大的問題,DreamZero 這樣預設了世界模型的動作模型 WAM(World Action Model)完美解決了。它不需要海量的機器人數據訓練就能達成很好的泛化。

但我們必須保持清醒。基於視頻生成的工程化路徑,其實依然有很多卡點。

相對於 VLA 動輒在消費級顯卡上跑出 20Hz、30Hz 的驚人速度,DreamZero 拼盡全力優化後的 7Hz 依然很慢。並且,它對硬件要求更高,依賴於 H100 或 GB200 這樣的頂級芯片組成的計算集羣來進行並行推理。對於邊緣端部署的獨立機器人來説,這在目前的算力成本下是不可接受的。

不過,算力成本的下降服從摩爾定律,而算法架構的物理認知上限則是天花板。用昂貴的算力去換取原本根本不存在的泛化能力,這筆交易在技術演進的長期視角下是絕對划算的。

DreamZero 的成功,意味着從 VLA 轉向視頻世界模型,不再是一個學術幻想,而是一個已經跑通的可能。

世界模型需要的數據,和 VLA 不一樣

在 DreamZero 的實驗中,英偉達發現了一個反直覺的結論。

我們通常認為數據越多越好。如果機器人學不會,那就再採集一萬小時數據。 但在世界模型的語境下,這個定律失效了。

DreamZero 揭示了新的法則 數據多樣性 > 數據重複量

研究人員做了一組對照實驗 ,準備了兩份數據,總時長都是 500 小時。

數據集 A(重複組):包含 70 個任務,每個任務有大量重複的演示,位置和環境變化很小。這是傳統 VLA 喜歡的 “刷題” 模式。

數據集 B(多樣組):包含 22 個不同環境、數百個任務,數據極其雜亂,幾乎不重複。

結果使用雜亂數據訓練的 DreamZero,在未見任務上的泛化成功率達到了 50%。 而使用精美重複數據訓練的模型,成功率只有 33%。

為什麼? 這是因為 VLA 和 WAM 的學習邏輯根本不同。 VLA 是在背誦。WAM 是在學物理

DreamZero 證明了對於學習物理規律而言,看 1 次在火星上煎蛋,比看 1000 次在廚房裏煎蛋更有價值。

因為前者提供了新的物理邊界條件,而後者只是在通過重複增加冗餘。世界模型需要的是覆蓋率,而不是重複率。

下一步,是把世界模型訓練的更好

DreamZero 的意義,是證明了 WAM 這條路完全能走通,還能非常好的泛化。

但想要持續提升 DreamZero 這樣模型的能力,我們還需要對它加以訓練。儘可能強化它基於視頻生成的世界模型,最好還有個更嚴格的後驗裁判,能夠指導它在後訓練中持續提升準確性。

這就是另一篇論文中 Dream Dojo 的作用。DreamZero 造出了引擎,DreamDojo 煉出了持續優化這個引擎的燃油。

正如其名,它像是一座道場,要把世界模型訓練這件事,從 DreamZero 這種一次性的科研 demo,豐富成一套可重複的工業流程。這套流程涵蓋了從數據攝入、表徵對齊,到滾動預測、誤差診斷的全生命週期。

在 DreamDojo 出現之前,VLA(視覺 - 語言 - 動作)模型在數據上總是碰壁,面臨三重死穴。

1. 標籤稀缺:互聯網視頻浩如煙海,但只有畫面,沒有動作數據(Action Labels)。

2. 工程地獄:機器人的身體千奇百怪。不同的自由度(DOF)、不同的控制頻率、不同的接口格式。試圖統一這些數據,是工程師的噩夢。

3. 不可控:很多模型生成的視頻看着像,但在物理因果上是錯的。如果動作和後果不對齊,模型就無法進行反事實(Counterfactual)推演。無法推演,就無法規劃。

但現在,因為有了視頻生成模型,這些就都不是問題了。DreamDojo 不是從零做 world model,它是站在「視頻基礎模型已經把世界的視覺與時空規律學到一定程度」的台階上,再強化對於具身智能來講,至關重要的交互因果和可控性。

既然人類視頻裏沒有電機數據,那我們就不要電機數據了。

DreamDojo 不再執着於傳感器裏的讀數,而是去尋找動作的物理本質。動作,本質上就是一種讓世界狀態發生改變的力。

DreamDojo 設計了一個自監督編碼器,專門盯着視頻的前後幀看。它在不斷地問自己一個問題,到底是什麼力量,讓上一幀變成了下一幀?

機器自動提取出來的這個答案,就是連續潛在動作

DreamDojo 不再記錄絕對的關節姿態。因為絕對姿態在高維空間裏太稀疏、太難學。 它記錄的是變化量。每一幀都以當前狀態為基準歸零。這讓動作的分佈變得更窄、更集中,模型更容易學會向左移一點這種通用的物理規律,而不是死記座標。

這就好比不需要知道一個人用了哪塊肌肉(傳感器數據),只要看他揮手砸杯子,杯子碎了,模型提取出揮手擊碎這個潛在動作的整個過程。

同時,為了增強可控性。DreamDojo 不把整段動作軌跡當作全局條件灌進去,而是把連續 4 個動作拼成 chunk,只注入到對應的 latent frame。通過這樣的拆分,模型被強制要求理解是這一個微小的動作切片,導致了下一刻的畫面變化。讓世界模型不會造成因果混淆。

視頻模型在這個過程中,把訓練目標從預測未來像不像,推向動作改變未來的方向與幅度是否一致。

這徹底打通了不同具身體之間物種隔離。 不同身體、不同場景做同一種動作,潛動作會趨於相近。模型不再需要知道手肘電機轉動 30 度,它只需要知道這個潛在動作會導致杯子被拿起。

而因為這個潛空間的動作規律對誰都一樣,不存在空間異構,不存在數據格式不通。

DreamDojo 在視頻生成這個世界模型的基礎上,用連續潛在動作這個數學上的通用語,把全人類的視頻資產轉換成了機器人可以理解的經驗。

為了達成這個目標,英偉達團隊構建了一個 DreamDojo-HV(加上 In-lab 與 EgoDex)的數據集,是一個約 44,711 小時的第一視角人類交互混合數據集,覆蓋極其廣的日常場景與技能分佈。包含上萬級場景、數千級任務、數萬級對象的長尾分佈。

這個規模,比之前最大的機器人世界模型數據集大了 15 倍,場景豐富度高了 2000 倍

結果 DreamDojo 在沒見過任何真機器人的情況下,僅憑看人類視頻預訓練,就能在極少量的微調後,操控真機器人完成從未見過的任務。再通過蒸餾技術,他們把這個龐大的世界模型壓縮到了能跑 10 FPS 的實時速度。

至此,結合 Dream Dojo 和 DreamZero,這套建立在世界模型上的具身智能的閉環終於合上了。

它的底座是視頻生成模型,因為它懂物理。構架是 DreamZero 代表的世界動作模型(WAM),它能通過預測未來來決策,而且讓可執行與低延遲夠薄,能用。而其進步的燃料,是 DreamDojo 把物理與可檢驗性做厚,讓全網的人類視頻,通過潛在動作轉化為機器人的經驗。

我們不再需要讓幾萬個博士去遙操作機器人了。只要讓機器人坐在那裏,日夜不停地看人類幹活的視頻,它就能學會關於物理世界的一切。

這,很可能是具身智能的範式轉變

DreamZero 的出現,敲響了具身智能純 VLA 時代的喪鐘。

這場範式的轉變可能,將深刻地重塑整個行業的生態。

首先是數據採集哲學的顛覆。在 VLA 範式下,從業者陷入了遙操作數據的囚徒困境,認為只有花重金採集幾萬小時的精準動作配對數據,機器人才能變聰明。但 DreamZero 展示了跨機體學習的恐怖潛力,僅僅通過觀看人類行為的純視頻,模型就能汲取物理策略。

而 Dream Dojo 則意味着,YouTube、TikTok 上那數以百億計的人類生活視頻,那座原本被認為缺乏動作標籤而對機器人無用的數據金礦,將被徹底解鎖。

從高成本的實體遙操作,轉向低成本的互聯網視頻挖掘,這是獲取常識的降維打擊。

最重要的是,我們對機器智能的認知正在發生根本性轉移。

VLA 時代,我們試圖通過教會機器認字來讓它幹活,結果得到了一個笨拙的翻譯官。現在,我們開始教會機器做夢,在腦海中生成、預測、模擬物理世界的演變。

當一台機器不再是機械地復讀數據,而是能夠在內部構建一個符合物理定律的微縮宇宙,並在其中推演自己的行為後果時,我們就已經站在了通用具身智能的真正起點上。

這是一條更陡峭的路徑,但也必定通往更廣闊的未來。

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。