AI prediction authority: I still underestimated the speed of AI, achieving "AI research and development automation" by the end of this year is really possible

華爾街見聞
2026.03.10 01:07
portai
I'm PortAI, I can summarize articles.

AI 迭代正擊穿預測極限,受 Claude Opus 4.6 驚人表現衝擊,權威研究員 Ajeya Cotra 坦言其對 2026 年的 AI 進展預測已提前失效,今年底 “AI 研發自動化” 的概率達 10%,她表示 “已找不到任何穩固趨勢能斷言這不會很快發生”!

人工智能能力的躍升速度,正在讓最嚴謹的預測者也措手不及。

知名 AI 預測研究者 Ajeya Cotra 近日公開承認,她僅在兩個月前發佈的 2026 年 AI 進展預測已顯著偏於保守。觸發這一自我修正的,是 Anthropic 最新模型 Claude Opus 4.6 在權威評測機構 METR 基準測試中的表現,該模型的軟件工程"時間跨度"已達約 12 小時,遠超 Cotra 此前預測的 2026 年底約 24 小時水平。這意味着 AI 在軟件工程領域的實際進展,比她的預測提前了近十個月。

更具衝擊力的是,Cotra 隨之上調了對"AI 研發全面自動化"的概率判斷。她將今年年底前 AI 完全接管研究構想與實施、無需人類介入的概率維持在 10%,並明確表示:"這是我第一次找不到任何可以外推的穩固趨勢,來斷言這件事不會很快發生。"這一表態在 AI 預測圈引發廣泛關注。

Cotra 曾在全球最大 AI 安全資助機構之一 Coefficient Giving 擔任 AI 安全研究資助負責人,目前供職於 METR——一家專注於 AI 能力評估的機構。

預測落空:兩個月前的判斷已經過時

今年 1 月 14 日,Cotra 基於 2019 年至 2025 年間時間跨度約每年翻倍不到兩次的歷史趨勢,預測 2026 年底最先進模型的 50% 成功率時間跨度約為 24 小時,80 百分位預測為 40 小時。

然而,僅在她發佈預測約兩個月後,Opus 4.6 便被評估為具備約 12 小時的時間跨度。在 METR 測試集中,19 項被估計需要人類耗時超過 8 小時的軟件工程任務裏,Opus 4.6 能夠至少部分完成其中 14 項,並穩定攻克其中 4 項。Cotra 坦言,在此後還有整整十個月進展的情況下,AI 代理仍在 24 小時任務上有一半時間失敗,"已經不再可信"。

值得注意的是,Cotra 同時提示,當前時間跨度估算的不確定性顯著上升——Opus 4.6 的 95% 置信區間為 5.3 小時至 66 小時,部分原因在於長任務數量稀少、人工完成時間多為估算,且基準測試本身已接近飽和。

能力邊界:傳統評估框架正在失效

隨着 AI 代理能力逼近乃至超越數十小時的任務量級,Cotra 認為"時間跨度"這一概念本身的適用性正受到挑戰。

她指出,任務的可分解性隨規模增長而顯著提升:一小時的調試任務幾乎無法拆分並行,一天的開發任務勉強可以分工但邊界模糊,而一個月乃至數月的項目則天然適合拆解為多個並行子任務。一旦 AI 代理能夠穩定完成 80 小時量級的任務,理論上便可通過"管理層 AI"分配任務、"執行層 AI"並行推進的方式,持續推進任意規模的項目。

Cotra 的同事 Tom 因此提出,以大型團隊完成任務所需的日曆時間,而非單人工時,作為衡量"內在難度"的更優指標。Cotra 認為,隨着 AI 進入這一新量級,"單人時間"指標可能開始呈現超指數增長,使得年底前軟件工程能力的上限極難估算。

她同時承認,這種大規模任務分解在實踐中不會完美運作——項目參與者對全局背景的直覺性把握,難以被 Jira 工單或 Asana 任務完全替代。但她認為,對於相當大一類軟件項目而言,這種模式"可能出乎意料地有效"。

關鍵節點:AI 研發自動化今年或成現實

在所有預測中,最受關注的是 Cotra 對"AI 研發全面自動化"的概率判斷。

她將這一概率定義為:AI 系統完全承擔研究構想與實施工作,無需人類參與。在 1 月的預測中,她給出了 10% 的概率,並在發佈後收到多位 AI 預測領域同行的反饋,認為這一數字偏高。但在 Opus 4.6 的表現出爐後,她表示 10%"再次感覺處於合理區間"。

Cotra 同時保持審慎。她指出,全面自動化 AI 研發不僅需要軟件工程能力,還需要在"研究判斷力"和"創造力"等方面取得突破,而這些恰恰是當前 AI 系統相對人類研究者仍明顯欠缺的領域。她認為,這一目標在未來三至五年內實現的可能性,遠高於今年之內。

但她的措辭已發生根本性轉變:"這是我第一次,找不到任何可以外推的穩固趨勢,來斷言它不會很快發生。"