克勞德桑內特 4.5:會編程、使用電腦、保持正軌的特工

最後更新: 十月6 2025
  • Sonnet 4.5 具有持久的代理、更好的程式碼和可靠的運算能力,輸出令牌為 64K,專注於時間超過 30 小時。
  • Claude Code 更新(檢查點、終端機、VS Code),為 API 新增記憶體和上下文編輯,並啟動 Agent SDK。
  • 它在安全性方面有所進步(ASL-3、更少的誤報、防禦提示注入)並且在 SWE-bench 和 OSWorld 中表現良好。
  • 可在 Claude.ai、API、Bedrock 和 Vertex AI 上使用,價格從 3 美元到 15 美元不等,並可節省快取和批次費用。

用於編程和代理的人工智慧模型

Claude Sonnet 4.5 的到來點燃了人工智慧應用於代理和軟體開發的浪潮,其前景包括 自主程式設計與電腦處理 推理和數學領域取得了實質的進步。 Anthropic 將 Claude 打造為迄今為止最強大的模型,其核心目標非常明確:將 Claude 打造成超越對話助手的角色,並將他推向「代理」的境界。

同時,該公司正在透過改進 Claude Code、新的開發者工具以及更嚴格的安全和一致性層來增強其生態系統。其宣傳語雄心勃勃: 代理、程式碼和計算所使用的最佳模型,並得到 SWE-bench Verified 和 OSWorld 等指標的支持,此外還有一系列旨在促進長期和更複雜任務的功能。

Claude Sonnet 4.5 是什麼?它承諾什麼?

Anthropic 將 Sonnet 4.5 描述為關鍵領域中最強大的模型: 建構複雜的代理、生成和維護程式碼以及控制計算機這不僅僅是一個標籤;該公司聲稱在推理和數學方面取得了明顯的進步,當專案涉及多個步驟和依賴關係時,這兩個支柱會產生影響。

它最引人注目的功能之一是能夠一次完成超過30小時的複雜任務,無需直接幹預即可保持專注。從實際操作層面來看,這意味著代理人可以 堅持長期協同工作 不會丟失線程。此外,該模型支援最多 64.000 個 token 的輸出,這對於詳細規劃和產生大型程式碼區塊非常有用。

在公開基準測試中,Anthropic 聲稱 Sonnet 4.5 在 SWE-bench Verified(一項衡量實際軟體問題解決能力的評估)中達到了最高水準。它在 OSWorld 中也獲得了 61,4% 的高分,表明其在以下方面取得了顯著進展: 桌面環境中的實際任務該公司自己將這一 61,4% 與幾個月前 Sonnet 4 取得的 42,2% 進行比較,這一增長幅度並不小。

除了原始表現之外,該公司還強調,這是其最一致的「前沿」模式:令人擔憂的行為,例如過度奉承, 尋求權力或支持妄想推理的傾向並在電腦使用場景和代理能力上加強了對即時注入攻擊的防禦。

Claude Sonnet 的功能和用例

生態系統更新:Claude 程式碼、應用程式和平台

Sonnet 4.5 進行了重大產品更新。 Claude Code 推出了以下內容: 檢查站,這是最受期待的功能之一:它可以保存進度並允許您立即恢復到先前的狀態。對於任何進行長迭代開發的人來說,這項變更可以減少摩擦,讓您有信心探索新的路徑,而不必擔心破壞一切。

除此之外,還對終端介面進行了改版,並推出了 Visual Studio Code 的原生擴充,其理念是將 Claude 直接整合到程式設計師日常工作所在的 IDE 中。如果該模型旨在承擔更具操作性、更少邊緣化的角色,那麼這將是一個顯著的提升。

在 API 方面,有兩個關鍵部分:上下文編輯和新的 用於儲存和檢索資訊的記憶工具總而言之,這使得代理可以運行更長時間,過濾掉過時的上下文並保持真正重要的事情可訪問——當工作流程持續數小時並且需求隨時變化時,這一點至關重要。

  DeepMind 的 AlphaGeometry 2 徹底改變了數學問題的解決方式

在 Claude 的應用程式中,另一個重要的新功能是:在對話中執行程式碼和建立文件(文件、電子表格和簡報)。這使得模型 分析數據、生成內容並將其具體化 無需離開聊天室即可以辦公室格式進行,將理論與實踐結合在一起。

最後,官方的 Claude Chrome 擴充功能可供加入等待名單的 Max 用戶使用,從而打開了 自動執行瀏覽器任務 摩擦更小,可靠性更高。

Claude Agent SDK:建立您自己的代理程式的構建塊

Anthropic 不僅展示了其旗艦產品的功能,還為其他人提供客製化零件。新款 Claude 代理 SDK 它共享使 Claude Code 成為可能的基礎設施,旨在解決難題:長期運行任務中的記憶體管理、平衡自主權與用戶控制的權限系統,以及為實現共同目標而努力的子代理之間的協調。

建議將此 SDK 轉變為可重複使用的基礎,以便任何團隊都可以在其上建立自己的代理。 經過生產測試的工具Anthropic 聲稱,儘管它是為程式碼案例而創建的,但它在各種各樣的任務中都顯示出優勢。

研究預覽:“與克勞德一起想像”

除了 Sonnet 4.5,Anthropic 還推出了一項名為「與 Claude 一起想像」的臨時體驗。在這個實驗中,模型 即時產生沒有預定功能的軟體即時響應用戶互動。本質上,它是一扇窗戶,當你將一個強大的模型與合適的基礎設施結合時,它會打開什麼。

Max 訂閱用戶可造訪 claude.ai/imagine 查看預覽版,有效期為五天。該公司以趣味十足又不失揭示性的展示方式,展示了 Sonnet 4.5 能走多遠? 在生成和適應方面。

安全、對準和 ASL-3 級別

Sonnet 4.5 的部署受 ASL-3 安全等級保護,該框架可調整 具有適當保障措施的模型能力這些措施包括尋求檢測潛在危險入口和出口的分類器,重點關注 CBRN(化學、生物、放射和核)區域。

Anthropic 承認這些分類器有時會標記出合法內容,為了避免打擾用戶,他們建議使用 Sonnet 4 繼續對話,因為 Sonnet 4 的 CBRN 風險較低。自從他們首次描述這些過濾器以來,誤報率已降低了 10 倍,而自 5 月推出 Claude Opus 4 以來,誤報率已降低了 2 倍。他們承諾, 分類器的辨別能力不斷提高.

該陣容超越了過濾器:培訓和安全評估包括受第一次啟發的測試 機械可解釋性,旨在更好地理解和控制模型的內部行為。此外,針對提示注入的防禦也得到了加強,尤其是在系統瀏覽、操作虛擬桌面或執行操作時。

可用性、整合和定價

Claude Sonnet 4.5 現已全面上線。開發者可以透過 Claude API 呼叫模型來使用它。 克勞德·十四行詩 4-5價格與上一代保持不變:每百萬輸入代幣 3 美元,每百萬輸出代幣 15 美元。

Anthropic 透過其基礎設施增加了成本優勢: 透過快速快取節省 90% 批次速度提升 50%,這些數字專為高容量工作負載而設計。對於最終用戶,Sonnet 4.5 可以在 Claude.ai(網頁版、iOS 和 Android 版)上使用;對於企業,除了 Amazon Bedrock 和 Google Cloud Vertex AI 之外,它還可以在 Claude 開發者平台上原生使用。

在商業方面,提到了免費計劃 每五小時重置一次的會話限制 以及按需提供可變數量的消息。對於複雜的程式設計任務,Claude Code 擔任內部首席代理。

  什麼是 Composer?關於這個 PHP 依賴管理器你需要知道的一切

特色用例

Sonnet 4.5 被認為是代理的理想模型:它可以幾乎立即回應或部署 一步步思考清晰可見 當任務需要時。 API 使用者可以精確控制模型「思考」的時間,在速度和深度之間進行選擇。

在軟體開發中,它涵蓋了完整的週期:規劃、生成、維護、錯誤修正和 主要重構大型輸出上下文(最多 64K 個令牌)使得產生連貫的大型計劃和程式碼變得容易。

在瀏覽器和桌面使用方面,它處於領先地位:完成來自 競爭分析與採購 到網路上的客戶引導。目標是隨著時間的推移,準確性和可靠性不斷提高。

在網路安全領域,將 Sonnet 4.5 與 Claude Code 結合的團隊可以部署代理, 自主修補漏洞 在它們被利用之前,將重點從被動檢測轉移到主動防禦。

在金融領域,該模型涉及輸入分析和 複雜的預測例如,它監控全球監管變化並主動調整合規系統,從手動審計準備發展到智慧風險管理。

在商業生產力方面,他擅長創作和編輯 辦公室文件(文件、表格、簡報)在研究中,您可以追蹤內部和外部來源,以綜合複雜資訊環境中的知識。

在內容方面,他擅長透過理解細微差別和語氣來寫作,創作出更引人入勝的文本,並且 在更深層的語意層面進行分析這對於行銷、技術文件或企業溝通來說是一個寶貴的點。

績效和指標

Anthropic 提供的數據表明,Sonnet 4.5 的收視率為 77,2%。 SWE-bench 已驗證這是其迄今為止最佳的程式設計性能。在 OSWorld 中,它獲得了 61,4% 的評分,鞏固了其作為最佳電腦使用模型的地位。這些指標附有持續超過 30 小時的任務運作證據和 64K 令牌的輸出容量。

該公司聲稱 Sonnet 4.5 為以下高需求產業的代理商提供支援: 財務分析、網路安全和研究,協調多個代理並以這些領域所要求的可靠性處理大量數據。

十四行詩家族的演變與4.5的地位

要理解這一飛躍,你必須回顧過去。 Sonnet 3.7 引進了一個模型 混合推理 這顯著提高了編碼、內容生成和數據分析能力。之後, 十四行詩4 將此方法與使用者助理和大容量任務的實用前沿性能相結合。

Sonnet 4.5 以此軌跡為基礎,並更進一步:它的目標是成為 對於長期任務、複雜代理和電腦使用來說,有更精確的選擇,在程式設計、金融和網路安全領域擁有更豐富的知識。

真實案例和社區的評價

Anthropic 表示,他們讓 Sonnet 4.5 連續工作 30 個小時,以建造一個 Slack 副本據該公司稱,該代理在無人監督的情況下產生了1.1萬行程式碼,並在完成任務後停止運作。今年5月,其Opus 4型號的運行時間約為7個小時,因此新品牌將這項紀錄翻了一番。

這個故事聽起來很有說服力,但宣傳資料之外還隱藏著一些細微的差別。像@midudev這樣的開發者報告說,該模型只需一條指令就能重構整個專案—應用瞭如下模式: 清晰的架構並產生數百或數千行——但編譯時卻無法運作。其他人也報告了同樣的情況:程式碼結構完美,外觀專業,但在運行時卻出現了問題。

還有人指出,Anthropic 並沒有展示所謂的 Slack 應用程式從頭到尾的運作情況,但表示它開發了它,這在溝通和 用可驗證的程式碼進行演示這種模式並不是獨一無二的:在整個產業中,模型在產生看起來很棒的程式碼方面做得越來越好,但如果沒有大量的人工幹預,它們仍然常常無法產生功能性解決方案。

  每個程式設計師都應該知道的 10 種編譯器

該公司內部解釋說,這些改進令其團隊感到驚訝。黛安·佩恩指出,新模型使用電腦的熟練程度是10月份版本的三倍,而且他們已經使用該模型進行了一個月的測試。 GitHub 和 Cursor 回饋Canva 作為 beta 測試人員表示,它有助於完成「複雜、長期的任務」。懷特 (Scott White) 將其比作「參謀長」級別的工作:協調議程、分析數據和撰寫報告。

字裡行間的意思很明確:即使有強大的模型,也需要 虛擬機器、記憶體和上下文管理、多代理支援和權限系統 將更可靠的代理商投入生產。這正是 Agent SDK 和平台新功能所要填補的空白。

競爭和市場定位

Sonnet 4.5 的發布被視為一場緊張戰鬥的一部分:OpenAI 正在推進其下一代產品,而谷歌 堅持與雙子座不斷移動的部件迫使我們加快步伐。在這種背景下,長期代理、直接使用電腦以及自主程式設計是許多商業價值受到質疑的載體。

誰能說服公司,他們能夠實現控制和可靠性的自動化實際流程,誰就能獲得 許可和大規模部署Anthropic 堅信,強大的模型和合適的基礎設施(其自身的基礎設施)的結合將彌補示範和持續營運之間的差距。

採用建議和良好做法

如果你真的想嘗試 Sonnet 4.5,請記住,自主性並非免費。模型可以執行的操作-讀取和修改文件, 移動數據,執行命令導航-需要明確的規則和監督。啟用權限系統、稽核日誌以及設定人為幹預的閾值對於降低風險至關重要。

在程式碼流程中,Claude Code 的檢查點和 API 記憶體可以幫助您安全地進行迭代。但是,最好 自動化測試和驗證流程,並在委派主要職責之前,分階段引入該模型(從低影響任務到關鍵組件)。

在哪裡閱讀更多內容以及如何開始

Anthropic 建議所有用途(應用程式、API 和 Claude Code)升級到 Sonnet 4.5。它將模型呈現為 以相同的價格直接取代性能更好的產品Claude Code 的新功能可供所有使用者使用;開發者平台(包括 Agent SDK)可供整個開發者社群使用;所有付費方案均提供應用程式中的程式碼執行和檔案建立功能。

對於技術細節和評估結果,該公司指出其 系統卡、模型頁和文檔以及工程出版物和網路安全研究帖子。有興趣嘗試即時軟體生成的讀者可以訪問“與克勞德一起想像”網站幾天。

這些公告描繪的是一個模型,它提高了代理、程式碼和電腦使用的標準,同時增強了可擴展性、安全性和開發者工具。實踐與理論的匹配程度還有待觀察,但可以肯定的是 成熟的具體標誌 並制定一致的計劃來縮小「說得好」和「做得好」之間的差距。

克勞德 4-1
相關文章:
Claude 4:Anthropic 透過先進的程式設計和自主代理模式重新構想人工智慧