GPT-5.1 Codex 與 Claude Code:真正重要的基準測試

最後更新: 26月2025
  • 在真實世界的測試中,面對複雜的可觀測性問題,GPT-5 和 GPT-5.1 Codex 是唯一能夠提供整合、可編譯程式碼並可部署到生產環境中的模型。
  • Claude Code 在架構和詳盡的文件方面表現出色,但其解決方案存在嚴重錯誤,並且無法整合到現有流程中,需要後續的人工操作。
  • GPT-5.1 Codex 在速度、架構整潔性和標記效率方面改進了 GPT-5,因此對於相同的任務,其成本明顯低於 Claude。
  • GPT-5.1-Codex-Max 增加了壓縮和深度推理模式,使其成為一個能夠在大型儲存庫上連續工作數小時而不會丟失追蹤的代理引擎。

GPT-5.1 Codex 與 Claude Code 的比較

如果你每天都在寫程式碼,你會注意到最近有很多… 大量用於程式設計的人工智慧模型正湧現。GPT-5.1 Codex、GPT-5 Codex、Claude Code、Kimi K2 Thinking、Sonnet 4.5、Haiku……這個清單幾乎每週都在增加,每個廠商都聲稱自己擁有最好的開發助手。但當你真正深入研究,並在實際專案中使用它們時,差異就顯而易見了。

最近幾週,幾支球隊一直在進行比較。 GPT-5.1 Codex、GPT-5 Codex、Claude Code 與 Kimi K2 Thinking 在相當嚴苛的條件下:龐大的程式碼庫、與實際管線的整合、負載測試、以及複雜的觀測問題。這裡沒有簡單的程式設計練習,而是存在著一旦出錯就可能導致生產環境崩潰的缺陷和功能。所有這些內容都傳遞出一個相當有力的訊息:OpenAI 的程式碼庫,特別是 GPT-5.1 程式碼庫,提供了「真正可部署的程式碼」。

GPT-5.1 Codex 對上 Claude Code:對決概覽

當有人談論「GPT-5.1 Codex 與 Claude Code 基準測試」時,他們實際上是在進行比較。 兩種截然不同的代碼助手理念GPT-5.1 Codex(及其演化版本 GPT-5.1-Codex-Max)從一開始就被設計成一個引擎,供智能體長時間處理同一個程式碼庫:它能夠理解上下文、編輯文件、運行測試並糾正自身錯誤。而 Claude Code 則擅長解釋程式碼、設計架構和生成文檔,但在將變更真正整合到現有程式碼庫中時,它往往力不從心。

在實際的可觀測性項目測試中,這種差異顯而易見: Codex 模型是唯一能夠產生整合式、可用於生產環境的程式碼的模型。Claude 和 Kimi 雖然設計出了酷炫的架構、富有創意的想法和大量的程式碼…但卻存在嚴重的錯誤、整合失敗,或者根本無法編譯的程式碼。

基準測試是如何進行的:解決實際問題,而不是玩具

為了使基準測試更有意義,我們完全避免了典型的「編寫一個反轉字串的函數」練習。取而代之的是,我們選擇了以下練習: 可觀測性平檯面臨的兩大複雜挑戰具有非常具體的性能和可靠性要求,並遵循最佳實踐 軟體工程中的測試與實施:

第一個挑戰: 設計並實施一個系統 異常的統計檢測 能夠學習基線誤差率、計算z分數和移動平均值、偵測變化率的峰值,並以低於10毫秒的延遲處理每分鐘超過100.000萬個日誌。所有這些功能都整合到現有管道中。

第二個挑戰: 解決 分散式告警去重 當多個處理器幾乎同時偵測到相同的異常時,必須避免出現間隔小於 5 秒的重複事件,容忍最多 3 秒的時脈延遲,並在不使系統凍結的情況下處理處理器崩潰。

測試的四款模型—GPT-5 Codex、GPT-5.1 Codex、Claude Code 與 Kimi K2 Thinking他們收到相同的提示,在同一個整合開發環境(Cursor)中,並且來自同一個程式碼庫。隨後進行了測量。 耗時、消耗代幣、成本(美元)、程式碼品質、嚴重缺陷數量 而且,非常重要的是,結果是否真正與現有程式碼庫相連,還是仍然是一個「並行原型」。

測試 1 結果:異常的統計檢測

在第一次測試中,目標是讓每個模型都達到以下目標: 生產就緒的統計異常檢測器:速率計算、滑動視窗、z分數、變化峰值、謹慎處理除以零以及整合到課程中 AnomalyDetector 並且正在實際生產流程中。

克勞德·科德 它發佈時可謂聲勢浩大:數千行新程式碼、詳盡的文件、多種統計機制(z 分數、EWMA、匯率檢查),甚至還有合成基準測試。從紙面上看,這簡直就是教科書式的工程設計。但程式碼在執行時,卻出現了另一面:一個匯率函數回傳 Infinity 當前一個視窗為零時,然後是 toFixed() 關於導致這結果的那個值 立即範圍誤差此外,基線系統並非真正滾動運行,且測試是非確定性的(使用 Math.random()而且,更糟的是, 這一切都與實際的管道無關。結果:一個引人注目的原型,但無法直接投入生產。

  統一建模語言 UML 完整指南

嘗試 GPT-5 程式碼庫 它務實得多。大約18分鐘後,它就生成了 程式碼整合度很高,淨改動只有幾百行。直接在課堂上 AnomalyDetector 以及實際的入口點。他們仔細處理了各種極端情況(例如, Number.POSITIVE_INFINITY 打電話之前 toFixed()),在滾動視窗中實現了 O(1) 複雜度的增量統計,並將時間段與掛鐘對齊以實現可預測性。 單元測試 它們是確定性的,結果在系統中運行,幾乎沒有影響到其他任何東西。

關於 GPT-5.1 程式碼庫他採用了更簡潔的架構方法。他沒有使用臨時存儲桶,而是使用了基於樣本的滾動窗口,並帶有頭尾指針和一個專用類。 RollingWindowStats 進行求和與平方和運算。他使用以下常數來精確控制除以零的情況: MIN_RATE_CHANGE_BASE_RATE限制了基線更新頻率以節省資源,並編寫了具有受控時間戳的確定性測試。 在 11 分鐘內,它產生的網路行數比 GPT-5 還多,但架構更簡單,記憶體管理更出色,並且同樣具備「可部署」的品質。.

第四名球員, Kimi K2 思考他們選擇了一種結合串流日誌支援和批量指標的創新解決方案,並添加了基於 MAD 和 EMA 的檢測。從理論上,這似乎不錯,但核心有缺陷:它在評估每個值之前就更新了基線,導致 z 分數趨近於零。 這些異常情況幾乎永遠不會出現。此外,他還引入了 TypeScript 的編譯錯誤,並重現了與 Claude 相同的除以零問題。更糟的是,這段程式碼甚至無法編譯,而且與系統也未正確整合。

第一輪的結論非常明確: 僅有的兩個程式碼庫(GPT-5 和 GPT-5.1)提供了功能完善、整合且相當健全的程式碼。GPT-5.1 的成本與 Claude 相當(在本測試中約為 0,39 美元),但耗時更短,架構更清晰。

測試 2 結果:分散式警報去重

第二個挑戰提出了一個問題: 分散式協調 經典方案:多個處理器幾乎可以同時偵測到相同的異常。因此,必須防止在 5 秒的時間視窗內偵測到重複異常時觸發重複警報,同時也要容忍一定的時脈不同步和潛在的進程崩潰。

克勞德在設計方面再次大放異彩。他提出了一項… 三層建築:L1 緩存,資料庫上的諮詢鎖作為 L2 緩存,唯一約束為 L3 緩存。它使用了 NOW() 它從資料庫中獲取數據,避免依賴處理器時鐘,在連接丟失的情況下也能很好地處理鎖定釋放,並附帶近500行測試代碼,涵蓋衝突、時鐘偏移和故障場景。然而,就像在第一個測試中一樣, 處理器本身沒有連接任何東西。一些實作細節(例如過粗的鎖定鍵或應用於所有活動警報的時間視窗)降低了實際用途。

在平行下, GPT-5 程式碼庫 他選擇了一種基於去重表的解決方案,該表包含預留和過期信息,並透過事務進行協調。 FOR UPDATE。 程式碼 它直接整合到 processAlert它利用了伺服器時間,並且對衝突的處理也相當不錯,儘管條款中存在一個小小的競爭條件。 ON CONFLICT 在極端情況下,這可能導致兩個處理器在提交之前通過相同的檢查。它並不完美,但只需稍作調整即可部署。

此次行動 GPT-5.1 程式碼庫 它更簡約有效率:它沒有使用額外的電路板,而是依靠… PostgreSQL諮詢鎖 具有一個功能 acquireAdvisoryLock 使用 SHA-256 演算法對金鑰對產生金鑰。 service:alertType在該鎖定狀態下,它會檢查 5 秒鐘視窗內是否有任何近期活躍的警報,如果沒有,則插入新的警報。如果已存在類似的警報,則當新警報的嚴重性更高時,它會更新警報的嚴重性。所有這些都與 持續使用伺服器時間戳來管理偏差 並已徹底清潔的塊體 finally結果:邏輯更簡單,無需輔助表,也沒有 GPT-5 拖延的進程。

在這個測試中, 基米 是的,他成功地將他的邏輯融入其中。 processAlert 並使用離散的 5 秒桶,採用原子插入/更新操作和帶退避機制的重試機制。這個想法本身不錯,但實現上又在關鍵細節上失敗了:當兩個同時插入操作具有相同的...時 createdAt旗幟的計算 isDuplicate 操作被逆轉,警報被錯誤標記;此外,退避時的儲存桶重新計算甚至沒有在查詢中應用,因此 他們就同一衝突反覆嘗試。簡而言之,直覺好,執行力差。

  Grok 3:xAI 的新 AI,旨在與 ChatGPT 和 DeepSeek 競爭

同樣,在第二輪中,編寫下拉式選單程式碼的人員是 GPT-5 和 GPT-5.1 編解碼器GPT-5.1 在清潔度和無競爭條件方面具有明顯的優勢,而其成本約為 0,37 美元,相比之下,GPT-5 的成本為 0,60 美元。

成本:為什麼 Codex 最終比 Claude 更便宜

如果你只看每百萬代幣的價格,你可能會認為 Claude Sonnet 4.5 和 GPT-5.1 處於同一水平。然而,當你深入研究這些基準測試的更精細數據時,你會發現… Codex 以更少的花費提供更多價值這兩項測試的總成本大致如下:

  • 克勞德: 總共約1,68美元。
  • GPT-5 Codex: 大約 0,95 美元(比 Claude 便宜 43%)。
  • GPT-5.1 Codex: 大約 0,76 美元(比 Claude 少約 55%)。
  • 基米: 預計為 0,51 美元,但由於缺乏成本細分,存在很大的不確定性。

關鍵在於 克勞德對每個退出代幣的收費更高。 (GPT-5.1 為 10 美元/M,而 GPT-5.1 為 15 美元/M),此外,由於其“邊想邊說”的風格和詳盡的文檔,它往往會生成大量額外的文本。另一方面,Codex 的 CLI 中採用了上下文快取技術,可以重複使用大量輸入標記而無需全額付費。再加上 GPT-5.1 在標記使用數量方面比 GPT-5 更有效率,最終形成了一個嚮導式的介面。 它不僅能產生更多可用的程式碼,還能幫你省錢。.

在像「每月20歐元」這樣的固定價格套餐的世界裡,這轉化為非常實際的東西: 使用 Codex,您可以在達到限制之前編寫更多小時的程式碼。相比之下,Claude 的套餐中,即使是最昂貴的訂閱,高級用戶也經常會達到上限;而 Codex Pro 則很少會超出上限,除非是極端使用。

GPT-5.1-Codex-Max 提供的功能:全天候工作的代理

GPT-5.1 Codex 之上還有一個專門設計的變體 非常冗長且詳細的程式碼工作GPT-5.1-Codex-Max。該模型並非面向“通用聊天”,而是作為 Codex 生態系統中的代理引擎。 OpenAI Codex 命令列介面閱讀龐大的程式碼庫、修改大量檔案、運行測試套件,並堅持數小時,這些都是它的基因。

關鍵區別在於 壓實該模型並非僅依賴巨大的上下文窗口,而是能夠… 總結和精簡 它保留了會話的早期部分,同時保留了重要的細節。這就像把已經執行的步驟「壓縮」起來,為新的命令騰出空間,同時又不會忘記重要的決策。正因如此,您可以處理龐大的單體倉庫,同時與多個服務交互,並且仍然記得幾個小時前做出的設計選擇。

另一個有趣的點是 推理層次「中等」模式適用於日常任務(普通工單、小型功能、適度重構),延遲較低。 「超高」模式則賦予模型更多的內部運算時間和更長的思考時間,犧牲速度以換取在複雜問題上更高的可靠性:例如大規模重構、充滿缺陷的遺留流水線、難以復現的競態條件等等。對於那些通常需要資深開發人員花費一整個下午時間才能完成的任務而言,這種模式絕對值得投入。

在針對特定代理的基準測試中,GPT-5.1-Codex-Max 比標準 GPT-5.1 Codex 表現出明顯的改進: SWE-bench Verified 和 Lancer 中完成的任務更多,Terminal Bench 的表現更好 最重要的是,他們能夠在長時間的工作中保持冷靜,不易分心。對許多團隊來說,這意味著客服人員可以處理完整的工單,而不僅僅是產生一次性的補丁。

安全性、沙盒機制以及對模型的負責任使用

當您授予代理程式存取您的終端和儲存庫的權限時,所有安全警報都會響起,這是正常現象。 Codex 和 GPT-5.1-Codex-Max 的設計目標是始終在安全環境下運作。 隔離環境(沙箱)在雲端,代理程式運行在容器中,預設情況下網路已停用,只有明確啟用時才允許出站流量。在本機部署時,它依賴 macOS、Linux 或 Windows 的沙盒機制(或 WSL)來限制其可存取的檔案。

  網路安全風險管理:如何確保資料安全

所有《法典》版本都遵循兩條相同的規則: 除非你允許,否則網路不會打開。而且,該代理程式無法編輯已配置工作區以外的檔案。這一點,再加上經過專門訓練以避免執行破壞性命令,使得模型更有可能謹慎地清理目錄,而不是因為誤解“清理此內容”之類的短語而刪除半個項目。

關於來自 及時注射 (例如,試圖誘騙人工智慧無視其規則並洩露機密資訊的惡意文字),Codex 訓練堅持將所有外部文字視為不可信,並遵循最佳實踐。 人工智慧模型的自動化測試在實踐中,這意味著拒絕資料外洩請求,拒絕將私人程式碼上傳到外部網站,並且強烈傾向於遵循系統和開發人員的指示,而不是遵循文件或網頁上的任何內容。

GPT-5.1 Codex 與 Claude 等模型在日常使用上的比較

在考察了 Codex-Max 的具體基準和功能之後,整體情況就變得非常清晰了: 每款車型都有其理想的市場定位。明智的做法不是只用一種工具來處理所有事情,而是要知道何時使用哪種工具。

GPT-5.1 程式碼庫 (及其 Max 版本)在您需要時尤其合適 整合程式碼,注重細節,容錯空間極小。在兩項可觀測性測試中,它與 GPT-5 一起,是唯一無需重寫一半文件即可部署到生產環境的實作。此外,它的單項任務成本最低,效率優於 GPT-5,性價比也極高。

克勞德十四行詩 4.5 / 克勞德密碼 當你想要的是什麼時,它們就會閃耀光芒 建築設計、詳細文件和說明想想架構評審、詳盡的技術文件、遷移指南……他們的解決方案往往論證充分、解釋透徹,層層防禦和權衡分析令人賞心悅目。但代價是:原型需要手動連接,存在比最初預想的更多嚴重缺陷,以及每個代幣的成本顯著更高。

Kimi K2 思考 貢獻 很多富有創意和另闢蹊徑的方法在他的實驗中,他測試了一些有趣的想法,例如使用臨時儲存桶視窗進行去重,以及將平均絕對偏差 (MAD) 和指數移動平均 (EMA) 演算法結合使用進行異常檢測。此外,他的命令列介面 (CLI) 雖然功能尚不完善,但價格低廉。問題在於,它經常在核心邏輯細節上出現問題:例如統計資料的更新順序、除以零、標誌位元反轉等等。它很適合用來激發靈感,但你需要投入大量時間來完善和測試其輸出。

最後,通用的 GPT-5.1 模型(Instant 和 Thinking)以及 Gemini 或 Llama 等模型可作為基礎。 混合任務 (文件編寫、資料分析、使用者互動),但當任務純粹基於程式碼和代理程式時,Codex 軟體包目前提供了以下組合: 深度、價格和刀具 很難找到匹配項。

綜合考慮所有因素——兩個可觀測性基準測試、在 VS Code 和 Cursor 等 IDE 中的擴展使用、Codex-Max 的壓縮、推理模式以及成本差異——總體印象非常明確: 在「能夠真正編程並提交高品質程式碼請求的人工智慧」領域,GPT-5.1 Codex 已成為領先的工具之一。Claude Code 仍然是架構思考和編寫優秀文件的優秀夥伴,Kimi 或類似模型提供了靈感和替代方案,但說到編寫能夠編譯、整合且不會在第一次嘗試時崩潰的程式碼,Codex 通常是最終提交主分支的那一方。

OpenAI Codex CLI-1
相關文章:
OpenAI Codex CLI:關於終端程式碼助理你需要知道的一切