MiniMax released the M2.5 model: running for 1 hour costs only 1 USD, which is 1/20 of GPT-5's price, with performance comparable to Claude Opus

M2.5 模型實現性能與成本的雙重突破。價格僅為 GPT-5 等主流模型的 1/10 至 1/20。性能比肩 Claude Opus，在多語言編程測試 Multi-SWE-Bench 奪冠，任務完成速度較上代提升 37%。採用原生 Agent 強化學習框架，內部已有 30% 任務由 AI 自主完成，編程場景代碼生成佔比達 80%。

MiniMax 推出了其最新迭代的 M2.5 系列模型，在保持行業領先性能的同時，大幅降低了推理成本，試圖解決複雜 Agent 應用在經濟上不可行的痛點，並宣稱其在編程、工具調用及辦公場景中已達到或刷新了行業 SOTA（當前最佳）水平。

2 月 13 日，MiniMax 公佈的數據顯示，M2.5 展現了顯著的價格優勢。在每秒輸出 50 個 token 的版本下，其價格僅為 Claude Opus、Gemini 3 Pro 以及 GPT-5 等主流模型的 1/10 至 1/20。

在每秒輸出 100 個 token 的高速運行環境下，M2.5 連續工作一小時的成本僅需 1 美元，若降至 50 token/秒，成本進一步下探至 0.3 美元。這意味着 1 萬美元的預算足以支撐 4 個 Agent 連續工作一年，極大地降低了構建和運營大規模 Agent 集羣的門檻。

在性能維度，M2.5 在核心編程測試中表現強勁，並在多語言任務 Multi-SWE-Bench 上取得第一，整體水平比肩 Claude Opus 系列。同時，模型優化了對複雜任務的拆解能力，在 SWE-Bench Verified 測試中，完成任務的速度較上一代 M2.1 提升了 37%，端到端運行時間縮短至 22.8 分鐘，與 Claude Opus 4.6 持平。

目前，MiniMax 內部業務已率先驗證了該模型的能力。數據顯示，其內部 30% 的整體任務已由 M2.5 自主完成，覆蓋研發、產品、銷售等核心職能。特別是在編程場景中，M2.5 生成的代碼已佔據新提交代碼的 80%，顯示出該模型在真實生產環境中的高滲透率和可用性。

擊穿成本底線：無限運行 Agent 的經濟可行性

M2.5 的設計初衷是消除運行復雜 Agent 的成本約束。MiniMax 通過優化推理速度和 token 效率實現了這一目標。模型提供 100 TPS（每秒傳輸事務處理量）的推理速度，約為當前主流模型的兩倍。

除了單純的算力成本降低，M2.5 通過更高效的任務拆解和決策邏輯，減少了完成任務所需的 token 總量。

在 SWE-Bench Verified 評測中，M2.5 平均每個任務消耗 3.52M token，低於 M2.1 的 3.72M。

速度與效率的雙重提升，使得企業在經濟上幾乎可以無限制地構建和運營 Agent，將競爭焦點從成本轉移至模型能力的迭代速度上。

編程能力進階：像架構師一樣思考與構建

在編程領域，M2.5 不僅關注代碼生成，更強調系統設計能力。模型演化出了原生的 Spec（規格説明書）行為，能夠以架構師視角在編碼前主動拆解功能、結構和 UI 設計。

該模型在超過 10 種編程語言（包括 GO、C++、Rust、Python 等）和數十萬個真實環境中進行了訓練。

測試顯示，M2.5 能勝任從系統設計（0-1）、開發（1-10）到功能迭代（10-90）及最終代碼審查（90-100）的全流程。

為了驗證其在不同開發環境下的泛化性，MiniMax 在 Droid 和 OpenCode 等編程腳手架上進行了測試。

結果顯示，M2.5 在 Droid 上的通過率為 79.7，在 OpenCode 上為 76.1，均優於上一代模型及 Claude Opus 4.6。

複雜任務處理：更高效的搜索與專業交付

在搜索和工具調用方面，M2.5 展示了更高的決策成熟度，不再單純追求 “做對”，而是尋求以更精簡的路徑解決問題。

在 BrowseComp、Wide Search 和 RISE 等多項任務中，M2.5 相較於前代節省了約 20% 的輪次消耗，以更優的 token 效率逼近結果。

針對辦公場景，MiniMax 通過與金融、法律等領域資深從業者合作，將行業隱性知識融入模型訓練。

在內部構建的 Cowork Agent 評測框架（GDPval-MM）中，M2.5 在與主流模型的兩兩對比中取得了 59.0% 的平均勝率，能夠輸出符合行業標準的 Word 研報、PPT 及複雜的 Excel 財務模型，而非簡單的文本生成。

技術底座：原生 Agent RL 框架驅動線性提升

M2.5 性能提升的核心驅動力來自於大規模強化學習（RL）。

MiniMax 採用了名為 Forge 的原生 Agent RL 框架，通過引入中間層解耦了底層訓推引擎與 Agent，支持任意腳手架的接入。

在算法層面，MiniMax 沿用了 CISPO 算法以保障 MoE 模型在大規模訓練中的穩定性，並針對 Agent 長上下文帶來的信用分配難題，引入了過程獎勵機制（Process Reward）。

此外，工程團隊優化了異步調度策略和樹狀合併訓練樣本策略，實現了約 40 倍的訓練加速，驗證了模型能力隨算力和任務數增加呈現近線性提升的趨勢。

目前，M2.5 已在 MiniMax Agent、API 及 Coding Plan 中全量上線，其模型權重也將在 HuggingFace 開源，支持本地部署。