Anthropic launches a midnight bloodbath in the $50 billion industry! The doomsday of code auditing has arrived

華爾街見聞
2026.03.10 16:33

Anthropic 推出了 Claude Code 的新功能,新增代碼審計功能,直接挑戰 500 億美元的代碼安全審計行業。經過測試,PR 中實質性評審意見的比例從 16% 增至 54%,且錯誤率低於 1%。該功能的成本僅為傳統審計的 1/2000,可能導致安全股大跌,標誌着傳統代碼審計的終結。

就在剛剛,Anthropic 又出手了!

Claude Code 之父重磅官宣:Claude Code 新增代碼評審(Code Review)新功能。

這一次,它瞄準了一個價值 500 億美元的產業——代碼安全審計。

Anthropic 剛剛發佈的新功能,可以説是在用極其簡單粗暴的方式,直接挑戰整個代碼安全行業。

有人驚呼:價值 500 億美元的行業,被 Anthropic 一夜幹翻了!

現在,可以坐等安全股大跌了。

在 Anthropic,幾乎每個 PR 都測試了此係統。

經過數月的測試,結果如下:

  • 包含實質性評審意見的 PR 比例從 16% 增加到 54%。
  • 工程師認為評審結果錯誤的比例不到 1%。
  • 在大型 Pull Request(1000 行以上)中,84% 的 PR 存在表面問題,平均每份 PR 存在 7.5 個問題。

目前,該功能已給 Claude Team 和 Enterprise 測試版中作為研究預覽上線。

500 億美金市場的噩夢

Anthropic 的這個產品,簡直是讓全球 AI 圈和網絡安全界(AppSec)發生了一場足以載入史冊的大地震。

資深開發者紛紛驚呼,價值 500 億的代碼審計行業被端了!

這是因為,在過去,大公司為了防止代碼裏的 Bug 或安全漏洞流向生產環境,每年要支付給傳統安全廠商(如 Snyk、Checkmarx 等)高達5 萬美金甚至更高的授權費,僱傭專業團隊進行掃描和審計。

而現在,Claude 卻可以直接派一隊 AI 智能體潛伏在你的 PR 裏,24 小時待命。

而且,按 token 計算,它的單次 Review 成本,平均只要 15-25 美元!

5 萬美金和 25 美金,差了 2000 倍。

這根本不是功能更新,這是給傳統代碼審計吹響了終結的號角。

Code Review,開發者最痛苦的環節

如果你問一個任何一個工程團隊:軟件開發中最大的瓶頸環節,是哪一個?

相信很多人的答案,都是代碼評審(Code Review)。

過去幾年,AI 寫代碼的能力是日新月異,突飛猛進,無論是 GitHub Copilot、Cursor、Claude Code 還是 ChatGPT,用上這些工具的開發者,寫出的代碼量直接暴漲。

結果,問題來了——雖然代碼被飛速產出,審代碼的人卻並沒有變多。

Anthropic 發現,過去一年裏,每位工程師的代碼產出增加了 200%,但很多 PR(Pull Request)只是被快速掃了一眼。

連開發者自己都承認,很多代碼評審,不過是在走流程而已。

於是,大量 Bug、漏洞、邏輯問題就這樣被帶進生產環境。

這也就是為什麼,很多企業願意花天價去買安全掃描工具。

然而問題來了——這些工具並不聰明。

傳統代碼掃描工具,到底有什麼問題?

如果你用過傳統 AppSec 工具,比如 Snyk、Checkmarx、Veracode、SonarQube 等,你大概率會有這樣的感受:誤報太多了。

原因在於,這些工具大多數基於靜態規則和已知漏洞庫,可以掃描代碼,卻無法真正理解代碼。

經常發生的一個場景,就是工具提醒「可能有 SQL 注入風險」,開發者檢查了半天,卻發現沒有問題。

於是大家慢慢開始忽略警告,而真正危險的問題,就往往被忽略過去。

因此,企業仍然需要大量人工 Code Review,而 Anthropic 這次做的,就是把它自動化。

Anthropic,扔出一個 AI 代碼評審軍團

這一次,Claude Code Review 的思路其實很簡單。

在 Claude Code 中,系統可以自動分析 Pull Request,並從多個角度進行檢查,例如:

  • 代碼規範是否符合項目規則
  • 是否存在潛在 bug
  • 修改是否與歷史代碼邏輯衝突
  • 之前 PR 中提出的問題是否再次出現

最終,它們會輸出兩個結果:一個高信號總結評論,和一個具體代碼位置的 inline 評論。

也就是説,你打開 PR 時,就能看到一份 AI 評審報告,看到真正重要的問題,而不是幾十頁的流水賬。

「AI 寫代碼,AI 評審」的時代,終於還是來了。

Claude 自我循環、自我遞歸,苗頭出現了。

隨着 AI 能力日益強大,以後人類唯一的作用可能就是打開 AI 開關了,鍵盤上只需要 Claude 按鍵了。

多 Agent 系統,Claude Code 評審軍團出動

Claude Code Review 最大的特點就是,它不是一個 AI,而是一個團隊。

當一個 PR 被創建時,系統會自動啓動一支 AI Agent 團隊。

據介紹,Claude 新的代碼評審功能會派出多個 AI「評審智能體」並行工作,每個智能體負責不同類型的檢查。

這些智能體通過驗證來過濾誤報,並根據嚴重性對錯誤進行排序。最終結果會作為一條高信號的綜合評語,以及針對特定錯誤的內聯評論,呈現在 PR 上。

評審規模會隨 PR 大小調整。

大型或複雜的變更會獲得更多智能體和更深入的審閲;微小的變更則會快速通過。根據 Anthropic 的測試,平均評審時間約為 20 分鐘。

最終,通過多 Agent 相互驗證,就可以減少誤報。

這個過程中,它會重點查找邏輯錯誤、安全漏洞、邊界條件(edge case)缺陷和隱蔽的迴歸問題。

所有發現的問題都會按嚴重等級(severity) 標記。

  • 紅色圓點表示普通問題,即合併代碼前應修復的 bug;
  • 黃色圓點表示輕微問題,建議修復,但不會阻止合併;
  • 紫色圓點表示既存問題,非本次 PR 引入的 bug。

每條評審評論還包含一個 可摺疊的推理説明(extended reasoning)

展開後,你可以看到:

  • Claude 為什麼標記該問題
  • 它是如何驗證這個問題確實存在的

需要注意的是,這些評論不會自動批准或阻止 PR 合併,因此不會破壞現有的代碼評審流程。

默認情況下,Claude Code Review 主要關注代碼正確性(correctness)

也就是説,它重點檢查:

  • 會導致生產環境故障的 bug
  • 實際邏輯問題

而不會重點關注代碼格式、風格偏好、是否缺少測試等問題。

如果希望擴展檢查範圍,需要用户進行配置。

內部測試結果,堪稱恐怖

Anthropic 的內部測試結果,堪稱恐怖!也更加證明了,傳統的代碼評審,基本就是個笑話。

內部數據實在是觸目驚心:只有 16% 的 PR 獲得了實質性的評審意見。

在 1000 行以上的大型 PR 中,84% 的代碼都被它揪出了問題,平均每個 PR 抓到 7.5 個 Bug。

為什麼?原因就是,工程師太忙了。

Anthropic 在過去一年裏,每個工程師的代碼產出增長了 200%。代碼越來越多,誰還有功夫一行一行細看?

而在實施該功能後,代碼庫中有實質性修復建議的 PR 比例,從 16% 暴漲到了 54%。

這意味着,以前有近 40% 的潛在屎山代碼,是在人類程序員眼皮子底下溜過去的,而現在,它們全被 Claude 揪了出來。

更恐怖的是小於 50 行的小 PR,從前大家覺得,就這麼幾行,能有什麼問題。

結果,其中的 31% 都被發現了問題,每三個小改動,就有一個藏着 bug。

而那些被揪出來的問題,工程師的的認可度直接達到 99% 以上!只有不到 1% 的結果,被工程師標記為誤報。

這個準確率,已經超過了絕大多數人類 reviewer。

Anthropic 舉了自己內部的一個例子:對一個生產服務的一行代碼更改,看起來是常規操作,屬於通常會快速獲得批准的差異。但代碼評審將其標記為嚴重問題。

該更改會導致身份驗證失效,這種故障模式在差異對比中容易被忽略,但一經指出就非常明顯。

該問題在合併前得到了修復,工程師事後表示,他們自己可能不會發現這個問題。

再講一個真實案例。

iXsystems,一家做 TrueNAS 的公司,在用 Code Review 評審了一個 ZFS 加密相關的代碼重構。

這是一個很深度的技術改動,review 的人都是這個領域的專家。

結果,Code Review 幹了一件讓所有人意外的事:它在「相鄰代碼」裏發現了一個潛在的 bug。

那個 bug 不在這次改動的核心範圍,只是代碼「恰好被改動涉及到了」。這個類型不匹配的問題,會導致每次同步時悄悄擦除加密密鑰緩存。

這是一個隱藏了很久很久的 bug,一直在那裏,只是沒人發現。

人類專家幾乎不可能發現,因為它不在 diff 裏,不是要關注的重點,但説不定某一天,它就會炸掉你的系統。

但是,現在 Code Review 一下子將它揪出。

行業大洗牌,來了

現在,安全公司和 SaaS 廠商都在哀嚎。

每年收 5 萬美金的代碼安全公司,還能活多久?

不是它們的技術不好,而是商業邏輯變了。

如果 Anthropic 可以用智能體團隊,花 20 美元就能解決深度的業務邏輯安全審計,誰還會去買那些動輒幾萬美金、誤報率還高得離譜的傳統掃描器?

如果你還在手動 Review 幾千行代碼,或者還在為高昂的安全審計費買單,醒醒吧,時代變了。

今夜,AppSec 行業的股票,可能真的要感受一下 AI 的寒意了。

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。