The first open-source model to win a gold medal in the Math Olympiad! DeepSeek's new model has received high praise from netizens: public technical documents, amazing!

華爾街見聞
2025.11.28 00:46
portai
I'm PortAI, I can summarize articles.

DeepSeekMath-V2 採用了一種創新的自我驗證訓練框架,超越答案,關注推理過程,其表現追平了 OpenAI 和谷歌此前取得的成績,進一步強化了 DeepSeek 在開源 AI 領域的地位。有網友評論稱,“DeepSeek Math V2 是第一個在 IMO 上達到金牌水平的開源模型嗎?而且我們還得到了技術報告,這真是一次了不起的發佈。

DeepSeek 最新發布的開源數學模型,正將其推向與 OpenAI 和谷歌等科技巨頭同場競技的舞台 DeepSeekMath-V2 的模型,在被譽為全球最難的高中數學競賽中達到了金牌水平,成為首個實現這一成就的開源模型,標誌着開源人工智能在複雜推理能力上的一次重大突破。

昨日 DeepSeek 宣佈推出其最新的數學推理模型 DeepSeekMath-V2,該模型在模擬的 2025 年國際數學奧林匹克競賽(IMO)中解決了 6 個問題中的 5 個,達到了金牌水平。這一成就使其成為第一個在 IMO 級別競賽中獲得金牌的開源模型,引發了 AI 研究和開發者社區的高度關注。

這一表現直接對標了行業巨頭。就在今年 7 月,谷歌 DeepMind 的 Gemini 高級版本和一個來自 OpenAI 的實驗性推理模型也達到了 IMO 2025 的金牌標準,同樣解決了 5 個問題,它們是首批達到該水平的人工智能模型。然而,與谷歌和 OpenAI 的閉源實驗模型不同,DeepSeekMath-V2 的模型權重根據 Apache 2.0 許可證公開發布,可供公眾下載。

值得一提的是,DeepSeekMath-V2 採用了一種創新的自我驗證訓練框架。該方法的核心是訓練一個專門的 “驗證器”(verifier),其任務是評估證明過程的質量,而不是最終答案的對錯。而且為了防止模型過度擬合其自身的檢查機制,DeepSeek 通過增加計算量和自動標記難以驗證的證明,來不斷提升驗證過程的難度,確保驗證器與生成器同步進化。

此舉被視為人工智能民主化的重要一步。該模型的發佈不僅證明了開源社區有能力在尖端 AI 研究領域追趕甚至比肩頂級閉源實驗室,也可能再次引發了市場對於開源模型是否會侵蝕閉源產品商業護城河的討論——這一話題曾一度動搖投資者對英偉達等 AI 巨頭的信心。

躋身頂尖行列:與 OpenAI 和谷歌同台競技

DeepSeekMath-V2 的卓越表現,標誌着其在複雜的數學推理領域,與全球領先的 AI 實驗室站在了同一起跑線上。國際數學奧林匹克競賽(IMO)通常被認為是全球難度最高的高中生數學競賽,在 2025 年的競賽中,630 名人類參賽者中僅有 72 人獲得金牌。

除了在 IMO 2025 取得的成就,該模型還在其他高難度數學競賽中展現了頂級水平。據 DeepSeek 稱,它在中國最頂尖的全國性競賽——中國數學奧林匹克(CMO)中也達到了金牌水平。

在面向大學本科生的普特南數學競賽(Putnam 2024)中,該模型在 12 道題中完全解決了 11 道,另一道題也僅有微小錯誤,最終得分 118/120,超過了人類參賽者 90 分的最高分記錄。

開源的里程碑:社區盛讚 “了不起的發佈”

與谷歌和 OpenAI 尚未公開的實驗模型相比,DeepSeekMath-V2 的核心吸引力在於其徹底的開放性。該模型的權重已在開源社區 Hugging Face 上發佈,允許研究人員和開發者自由下載。

Hugging Face 的聯合創始人兼首席執行官 Clement Delangue 在社交平台 X 上盛讚道:“想象一下,你可以免費擁有世界上最優秀數學家之一的大腦。”

他補充説,“據我所知,此前沒有任何聊天機器人或 API 能讓你接觸到一個 IMO 2025 金牌水平的模型。” 他強調,用户可以不受限制地探索、微調、優化模型,並運行在自己的硬件上,“沒有任何公司或政府可以收回它。這是人工智能和知識民主化的最佳體現。”

另一位網友 elie 也評論稱:“DeepSeek Math V2 是第一個在 IMO 上達到金牌水平的開源模型嗎?而且我們還得到了技術報告,這真是一次了不起的發佈。”

還有網友評論稱,他們喜歡 5-7 個想法,每個想法都相對簡單,不斷堆疊,結果出乎意料地越來越好,看起來更像工程而不是研究。

自我驗證框架:超越答案,關注推理過程

DeepSeek 在技術報告中指出,近期的人工智能模型雖然擅長在數學基準測試中獲得正確答案,但往往缺乏嚴謹的推理過程。報告寫道:“許多像定理證明這樣的數學任務,需要嚴謹的逐步推導,而非僅僅一個數值答案。”

為了解決這一問題,DeepSeekMath-V2 採用了一種創新的自我驗證訓練框架。該方法的核心是訓練一個專門的 “驗證器”(verifier),其任務是評估證明過程的質量,而不是最終答案的對錯。隨後,這個驗證器被用作獎勵模型,來引導一個獨立的 “證明生成器”(proof-generator)。只有當生成器成功識別並修復自身證明中的錯誤時,它才會獲得獎勵。

這種機制激勵模型在最終確定答案之前,儘可能多地發現和解決自身推理鏈條中的問題。DeepSeek 強調,“對於沒有已知解決方案的開放性問題,自我驗證在擴展測試時計算(test-time compute)方面尤為重要。” 測試時計算指的是在推理階段分配大量計算資源,讓模型有更長時間進行推理、探索多種解決方案並完善答案。

動態進化系統:破解 “自我過度擬合” 難題

為了防止模型過度擬合其自身的檢查機制——即只學會欺騙自己的驗證器——DeepSeek 採用了一種動態進化的策略。該團隊通過增加計算量和自動標記難以驗證的證明,來不斷提升驗證過程的難度,確保驗證器與生成器同步進化。

DeepSeek 在技術文件中解釋,這種方法允許他們 “擴展驗證計算,以自動標記新的、難以驗證的證明,從而創造新的訓練數據來進一步改進驗證器。” 通過這種驗證 - 生成閉環和元驗證機制,模型能夠實現全自動化的數據標註和持續的性能優化,驗證了自驅動學習系統在解決複雜數學推理任務上的可行性。