
MiniMax released the M2.5 model: running for 1 hour costs only 1 USD, which is 1/20 of GPT-5's price, with performance comparable to Claude Opus

M2.5 模型實現性能與成本的雙重突破。價格僅為 GPT-5 等主流模型的 1/10 至 1/20。性能比肩 Claude Opus,在多語言編程測試 Multi-SWE-Bench 奪冠,任務完成速度較上代提升 37%。採用原生 Agent 強化學習框架,內部已有 30% 任務由 AI 自主完成,編程場景代碼生成佔比達 80%。
MiniMax 推出了其最新迭代的 M2.5 系列模型,在保持行業領先性能的同時,大幅降低了推理成本,試圖解決複雜 Agent 應用在經濟上不可行的痛點,並宣稱其在編程、工具調用及辦公場景中已達到或刷新了行業 SOTA(當前最佳)水平。
2 月 13 日,MiniMax 公佈的數據顯示,M2.5 展現了顯著的價格優勢。在每秒輸出 50 個 token 的版本下,其價格僅為 Claude Opus、Gemini 3 Pro 以及 GPT-5 等主流模型的 1/10 至 1/20。
在每秒輸出 100 個 token 的高速運行環境下,M2.5 連續工作一小時的成本僅需 1 美元,若降至 50 token/秒,成本進一步下探至 0.3 美元。這意味着 1 萬美元的預算足以支撐 4 個 Agent 連續工作一年,極大地降低了構建和運營大規模 Agent 集羣的門檻。
在性能維度,M2.5 在核心編程測試中表現強勁,並在多語言任務 Multi-SWE-Bench 上取得第一,整體水平比肩 Claude Opus 系列。同時,模型優化了對複雜任務的拆解能力,在 SWE-Bench Verified 測試中,完成任務的速度較上一代 M2.1 提升了 37%,端到端運行時間縮短至 22.8 分鐘,與 Claude Opus 4.6 持平。
目前,MiniMax 內部業務已率先驗證了該模型的能力。數據顯示,其內部 30% 的整體任務已由 M2.5 自主完成,覆蓋研發、產品、銷售等核心職能。特別是在編程場景中,M2.5 生成的代碼已佔據新提交代碼的 80%,顯示出該模型在真實生產環境中的高滲透率和可用性。
擊穿成本底線:無限運行 Agent 的經濟可行性
M2.5 的設計初衷是消除運行復雜 Agent 的成本約束。MiniMax 通過優化推理速度和 token 效率實現了這一目標。模型提供 100 TPS(每秒傳輸事務處理量)的推理速度,約為當前主流模型的兩倍。
除了單純的算力成本降低,M2.5 通過更高效的任務拆解和決策邏輯,減少了完成任務所需的 token 總量。
在 SWE-Bench Verified 評測中,M2.5 平均每個任務消耗 3.52M token,低於 M2.1 的 3.72M。
速度與效率的雙重提升,使得企業在經濟上幾乎可以無限制地構建和運營 Agent,將競爭焦點從成本轉移至模型能力的迭代速度上。
編程能力進階:像架構師一樣思考與構建
在編程領域,M2.5 不僅關注代碼生成,更強調系統設計能力。模型演化出了原生的 Spec(規格説明書)行為,能夠以架構師視角在編碼前主動拆解功能、結構和 UI 設計。
該模型在超過 10 種編程語言(包括 GO、C++、Rust、Python 等)和數十萬個真實環境中進行了訓練。
測試顯示,M2.5 能勝任從系統設計(0-1)、開發(1-10)到功能迭代(10-90)及最終代碼審查(90-100)的全流程。
為了驗證其在不同開發環境下的泛化性,MiniMax 在 Droid 和 OpenCode 等編程腳手架上進行了測試。
結果顯示,M2.5 在 Droid 上的通過率為 79.7,在 OpenCode 上為 76.1,均優於上一代模型及 Claude Opus 4.6。

複雜任務處理:更高效的搜索與專業交付
在搜索和工具調用方面,M2.5 展示了更高的決策成熟度,不再單純追求 “做對”,而是尋求以更精簡的路徑解決問題。
在 BrowseComp、Wide Search 和 RISE 等多項任務中,M2.5 相較於前代節省了約 20% 的輪次消耗,以更優的 token 效率逼近結果。

針對辦公場景,MiniMax 通過與金融、法律等領域資深從業者合作,將行業隱性知識融入模型訓練。
在內部構建的 Cowork Agent 評測框架(GDPval-MM)中,M2.5 在與主流模型的兩兩對比中取得了 59.0% 的平均勝率,能夠輸出符合行業標準的 Word 研報、PPT 及複雜的 Excel 財務模型,而非簡單的文本生成。


技術底座:原生 Agent RL 框架驅動線性提升
M2.5 性能提升的核心驅動力來自於大規模強化學習(RL)。
MiniMax 採用了名為 Forge 的原生 Agent RL 框架,通過引入中間層解耦了底層訓推引擎與 Agent,支持任意腳手架的接入。
在算法層面,MiniMax 沿用了 CISPO 算法以保障 MoE 模型在大規模訓練中的穩定性,並針對 Agent 長上下文帶來的信用分配難題,引入了過程獎勵機制(Process Reward)。
此外,工程團隊優化了異步調度策略和樹狀合併訓練樣本策略,實現了約 40 倍的訓練加速,驗證了模型能力隨算力和任務數增加呈現近線性提升的趨勢。

目前,M2.5 已在 MiniMax Agent、API 及 Coding Plan 中全量上線,其模型權重也將在 HuggingFace 開源,支持本地部署。
