"World Model" competition upgraded: Runway launches GWM-1, real-time interaction can last for several minutes

華爾街見聞
2025.12.13 10:35
portai
I'm PortAI, I can summarize articles.

Runway 試圖從影視行業的 “特效供應商”,進化成物理世界的 “AI 架構師”。GWM-1 目前有 GWM-Worlds、GWM-Robotics 和 GWM-Avatars 三個模型變體,其中 Worlds 支持基於物理規律的實時環境交互與 Agent 導航訓練,Robotics 致力於生成極端變量下的合成數據以進行機器人策略評估,Avatars 則通過音畫統一架構,實現了無畫質損耗的長時擬人對話。

AI 視頻的戰場,正從單純的比拼畫質,進化到比拼對物理世界的理解。

12 月 11 日,AI 視頻生成獨角獸 Runway 正式發佈了其首款通用世界模型(General World Model)——GWM-1,正式殺入由谷歌、英偉達等巨頭領先的 “世界模擬” 戰場。

與傳統的 AI 視頻生成模型不同,GWM-1 被設計為一個能夠理解物理規律、幾何結構及環境動態的模擬系統,其核心突破在於 “連貫性” 與 “交互性”。

Runway 宣稱,基於對物理規律和環境動態的理解,該模型能通過逐幀預測來模擬世界隨時間演變的過程,並支持長達數分鐘的連貫實時交互。

拆解 GWM-1:從 “像素預測” 到 “通用模擬”

所謂 “世界模型”,是指在讓 AI 在內部構建對現實世界運行機制的模擬,使其能夠在無需遍歷現實所有場景的情況下,具備推理、規劃和行動的能力。

“要構建一個世界模型,首先需要構建一個真正卓越的視頻模型。” Runway 首席技術官 Anastasis Germanidis 在發佈會上指出,教模型直接預測像素,是實現通用模擬的最佳路徑。

不過,儘管被冠以 “通用” 之名,但目前的 GWM-1 實際上是由三個針對不同領域進行後訓練的自迴歸模型(GWM-Worlds、GWM-Robotics 和 GWM-Avatars)組成的模型系列,且均建立在 Runway 最新的 Gen-4.5 基座模型之上。

Runway 明確表示,其最終願景是將這些不同的領域和動作空間統一到一個單一的基礎世界模型中。

(1)GWM-Worlds:可交互的數字環境探索界面

先看 GWM-Worlds。

如前所述,GWM-Worlds 是建立在 Runway 最新的 Gen-4.5 基座模型之上,進行後訓練的自迴歸模型。這意味着,它採用了逐幀預測的方式預測下一幀。

換而言之,在任何時刻,用户都可以根據應用場景進行干預,例如在空間中移動、控制機械臂或與智能體交互,模型都會模擬接下來發生的事情。

在官方的演示素材中能看到,該模型提供了一個用於探索數字環境的界面,用户可以通過提示詞或參考圖像設定場景,模型將以 24fps 的幀率和 720p 的分辨率生成環境。

與傳統視頻生成不同,用户可以實時改變鏡頭視角、環境條件或物體狀態,模型能夠理解幾何與光影,確保生成的畫面在長序列運動中保持連貫性。

除了遊戲設計預覽和 VR 環境生成外,GWM-Worlds 更深遠的意義可能在於為 AI Agent 提供訓練場,教導它們如何在物理世界中導航和行動。

(2)GWM-Robotics:解決具身智能的 “數據飢渴”

如果説 GWM-Worlds 還帶有創意工具的基因,那麼GWM-Robotics的推出,則展示了 Runway 進軍工業與具身智能領域的野心。

在機器人研發中,獲取極端天氣、突發障礙等 “長尾場景” 的真實數據成本極高。GWM-Robotics 旨在解決這一痛點,通過生成高質量的 “合成數據”,模擬各種環境變數,幫助機器人在虛擬空間中進行策略評估。這不僅能大幅降低訓練成本,還能在機器人投入真實世界前預判其違規風險。

Runway 已明確表示,目前正通過 SDK 向部分企業開放 GWM-Robotics,並與多家機器人公司保持積極接觸。顯然,Runway 試圖在單純的 SaaS 訂閲收入之外,開闢面向 B 端工業客户的新業務。

(3)GWM-Avatars:統一視頻與語音的交互終端

GWM-Avatars則瞄準了人機交互。這是一個將視頻生成與語音結合的統一模型,Runway 宣稱其生成的數字人能進行長時間連續對話且無畫質損耗。

若該技術效果屬實且能規模化落地,或將對客户服務及在線教育行業產生顛覆性影響。

基座進化與算力軍備

在仰望 “世界模型” 的同時,Runway 並未放鬆對現金牛業務的鞏固,也對當家的視頻生成基座進行了防禦性升級,以應對來自 Kling(可靈)等競爭對手的追趕。

同期發佈的 Gen-4.5 模型更新,補齊了原生音頻和多鏡頭編輯的短板。新版本支持生成長達一分鐘的視頻,並能保持角色一致性、生成原生對話和背景音效,繼續從 “C 端玩具” 邁向 “B 端生產力工具” 的征程。

值得一提的是,為了支撐公司從創意生成邁向世界模擬的龐大算力需求,Runway 還宣佈與雲服務商 CoreWeave 達成協議。據 Runway 披露,未來將利用 CoreWeave 雲基礎設施上的Nvidia GB300 NVL72機架進行模型訓練與推理。

結語

從影視創意工具到機器人模擬器,Runway 的戰略版圖正在極速擴張。但在世界模型這一新賽道上,它已不再擁有視頻生成初期的先發優勢。

面對 Google、Nvidia 等擁有深厚底層資源和科研積累的巨頭,能否利用 GWM-1 證明自己不僅是一家影視行業的 “特效供應商”,而是有能力成為物理世界的 “AI 架構師”,將是評估其估值能否邁向下一階段的關鍵。