The ultimate test scores have reached a new high, Google Gemini 3 has undergone a major upgrade in its deep thinking model, targeting scientific research and engineering applications

華爾街見聞
2026.02.12 19:11
portai
I'm PortAI, I can summarize articles.

在無工具輔助情況下,該模型在 “人類的最後考試”(HLE)基準測試中取得取得 48.4% 的正確率,在在 ARC-AGI-2 測試中獲得 84.6% 的成績;2025 年國際物理奧林匹克和化學奧林匹克的筆試部分均達到金牌水平。谷歌稱,新模型在推動發現並幫助研究人員解決 “不可解” 的問題——從發現研究論文中的缺陷到優化半導體晶體生長。

谷歌的深度思考模型 Gemini 3 Deep Think 迎來重大升級,將其專業推理能力從抽象理論推進至實際應用場景。這一升級聚焦於解決現代科學研究與工程領域的複雜挑戰,標誌着谷歌在企業級 AI 市場的戰略性押注。

美東時間 12 日週四,谷歌官宣 Gemini 3 Deep Think 升級,稱升級後的模型在多項行業基準測試中取得突破性成績,包括在 “人類的最後考試” Humanity's Last Exam(HLE)基準測試、ARC-AGI-2 測試中獲得 84.6% 的成績,經 ARC Prize 基金會驗證;在競技編程平台 Codeforces 上,Gemini 3 Deep Think 獲得 3455 的 Elo 評分。

升級後的深度思考模式即日起面向 Google AI Ultra 訂閲用户開放,同時通過 Gemini API 向部分研究人員、工程師及企業用户提供早期訪問權限。谷歌表示,該模型已在實際研究中展現應用價值,從發現研究論文中的邏輯漏洞到優化半導體材料生長工藝。

這一發布使谷歌在 AI 推理模型競爭中與 OpenAI 的 o1 系列和 Anthropic 的 Claude 正面交鋒。隨着通用 AI 能力日趨商品化,專業推理能力成為企業級市場的新戰場,而深度思考模式的推出顯示谷歌不願在這一高價值領域讓步。

從基準測試到金牌表現

谷歌在其官方博客中強調了深度思考模式在嚴格學術基準測試中的表現。除前述成績外,Gemini 3 深度思考模型在 2025 年國際物理奧林匹克和化學奧林匹克的筆試部分均達到金牌水平,並在 CMT-Benchmark 高級理論物理測試中取得 50.5% 的分數。

谷歌提供的成績對比可見,本月 Gemini 3 深度思考模型的多種測試結果均超過 Anthropic 和 OpenAI 各自的最強模型思維模式,也強於 Gemini 3 Pro 預覽版的思考模式。

例如,在 ARC-AGI-2 測試中,Gemini 3 深度思考的準確率為 84.6%,Anthropic 的 Claude Opus 4.6 Thinking Max 測試成績為 68.8%,OpenAI 的 GPT-5.2 Thinking xhigh 為 52.9%。

谷歌團隊稱,這次升級是與科學家和研究人員密切合作完成的,目標是應對 “缺乏明確邊界或單一正確答案,且數據往往雜亂或不完整” 的研究挑戰。該模型通過將深厚的科學知識與實用工程能力結合,實現了從抽象理論到實際應用的跨越。

在數學和編程能力的突破之外,深度思考模式的表現範圍已擴展至化學、物理 (包括理論物理) 等多個科學領域。這種廣度意味着該模型不再侷限於特定學科,而是成為跨領域研究工具。

實際應用案例驗證價值

早期測試用户的使用場景展示了該模型的實際應用潛力。羅格斯大學數學家 Lisa Carbone 在研究高能物理所需數學結構時,利用深度思考模式審閲一篇高度專業的數學論文。該模型成功識別出一處此前通過人類同行評審但未被發現的細微邏輯缺陷。

在杜克大學,Wang 實驗室利用深度思考模式優化複雜晶體生長的製造方法,用於潛在半導體材料的發現。該模型成功設計出一套配方,生長出超過 100 微米的薄膜,達到了先前方法難以實現的精確目標。

谷歌平台與設備部門的研發負責人、Liftware 前 CEOAnupam Pathak 測試了新版深度思考模式,以加速物理組件的設計。

谷歌展示的另一應用場景顯示,藉助升級後的 Gemini 3 Deep Think,用户可以將草圖轉化為可 3D 打印的實體模型。該模型能分析圖紙,對複雜形狀進行建模,並生成用於 3D 打印的實體模型文件。

企業級市場的戰略佈局

這次升級體現了 AI 行業的轉向趨勢——從通用聊天機器人轉向能夠處理專業級問題的專業推理引擎。對於企業客户而言,評估標準正在改變,不再僅關注哪個 AI 能最快編寫代碼或總結文檔,而是聚焦推理能力——模型能否處理複雜財務模型、分析實驗數據並識別方法論缺陷、協助專利研究或藥物發現。

谷歌的優勢在於整合能力。深度思考模式不是孤立存在,而是更廣泛的 Gemini 生態系統的一部分,這意味着它可能利用谷歌龐大的知識圖譜、科學數據集和研究合作伙伴關係。通過 Google Cloud 使用深度思考模式的研究人員,理論上可以訪問獨立 AI 服務無法匹敵的計算能力和數據源。

該公司週四在 X 平台發文稱:“升級後的深度思考模式已經在推動發現並幫助研究人員解決'不可解'的問題——從發現研究論文中的缺陷到優化半導體(晶體)生長。” 這一表述強調了模型從測試基準到實際應用的轉化能力。

從產品策略看,谷歌同時面向消費者和企業用户開放訪問權限。Google AI Ultra 訂閲用户可通過 Gemini 應用程序立即使用,而科學家、工程師和企業用户則可通過早期訪問計劃申請使用 Gemini API。這種分層策略反映出谷歌既要保持消費市場存在感,又要爭奪高價值企業客户的雙重目標。

推理模型競賽升温

深度思考模式的推出使谷歌在 AI 推理競賽中正面對抗 OpenAI 和 Anthropic。OpenAI 的 o1 模型據報道在生成響應前花費更多時間 “思考”,使用強化學習改進推理鏈。Anthropic 的 Claude 3 則在研究和分析任務中佔據了一席之地。現在谷歌在同一領域插旗,背後是集成到 Workspace 和 Cloud Platform 帶來的基礎設施和分銷優勢。

對於專業用户而言,這意味着在快速通用響應與較慢的深度推理之間做出選擇,成為新的架構決策。應用程序可能將簡單查詢路由到標準模型,同時將複雜問題上報到推理模式,創建分層 AI 推理方法。

谷歌週四在 X 平台發文稱:"Gemini 3 深度思考模式在推動智能前沿的基準測試中表現突出。具體數據:在'人類最後的考試'中達到 48.4%(無工具),在 ARC-AGI-2 中達到 84.6%(經 ARC Prize 基金會驗證),在 Codeforces 競技編程中獲得 3455 Elo 評分。"

谷歌同時指出,模型現在在化學和物理等科學領域表現出色。

這場競爭的真正考驗不在於發佈聲明,而在於實際採用率。如果研究機構和工程公司開始通過深度思考模式處理複雜工作,將驗證谷歌的判斷——企業 AI 的未來在於深度而非速度。目前,該公司已明確表態:它正在爭奪 AI 市場的高端領域,在那裏思考比對話更重要。