- Sonnet 4.5 memperkasakan ejen yang tahan lama, kod yang lebih baik dan pengkomputeran yang boleh dipercayai, dengan token keluaran 64K dan fokus lebih 30 jam.
- Kemas kini Kod Claude (pusat pemeriksaan, terminal, Kod VS), menambah memori dan penyuntingan konteks pada API dan melancarkan SDK Ejen.
- Ia maju dalam keselamatan (ASL-3, kurang positif palsu, pertahanan terhadap suntikan segera) dan berprestasi baik dalam SWE-bench dan OSWorld.
- Tersedia di Claude.ai, API, Bedrock dan Vertex AI, dengan harga dari $3 hingga $15, dengan penjimatan untuk caching dan batching.
Ketibaan Claude Sonnet 4.5 telah menyinari lembaga AI yang digunakan untuk ejen dan pembangunan perisian, dengan janji yang terdiri daripada pengaturcaraan autonomi dan pengendalian komputer kepada kemajuan ketara dalam penaakulan dan matematik. Anthropic mempersembahkannya sebagai model yang paling berkebolehan setakat ini, dengan fokus yang sangat jelas: mengubah Claude menjadi sesuatu yang lebih daripada pembantu perbualan, mendorongnya ke alam "ejen bertindak."
Secara selari, syarikat sedang mengukuhkan ekosistemnya dengan penambahbaikan pada Kod Claude, alat pembangun baharu dan lapisan keselamatan dan penjajaran yang lebih ketat. Padangnya bercita-cita tinggi: model terbaik untuk ejen, kod dan penggunaan pengkomputeran, disokong oleh metrik seperti SWE-bench Verified dan OSWorld, sebagai tambahan kepada bateri fungsi yang bertujuan untuk memudahkan tugas jangka panjang dan lebih kompleks.
Apakah Claude Sonnet 4.5 dan apakah yang dijanjikan?
Anthropic menerangkan Sonnet 4.5 sebagai modelnya yang paling berkuasa dalam bidang kritikal: membina ejen kompleks, menjana dan menyelenggara kod, dan mengawal komputerIa bukan sekadar label; syarikat itu menuntut penambahbaikan yang jelas dalam penaakulan dan matematik, dua tonggak yang membuat perbezaan apabila projek melibatkan pelbagai langkah dan kebergantungan.
Salah satu ciri yang paling menarik ialah keupayaannya untuk mengekalkan tugas yang kompleks selama lebih daripada 30 jam pada satu masa, mengekalkan fokus tanpa campur tangan langsung. Pada peringkat praktikal, ini bermakna seorang ejen boleh berterusan dalam kerja yang panjang dan diselaraskan tanpa kehilangan benang. Selain itu, model ini menyokong output sehingga 64.000 token, yang sangat berguna untuk perancangan terperinci dan menjana blok kod yang besar.
Dalam penanda aras awam, Anthropic mendakwa bahawa Sonnet 4.5 adalah terkini dalam SWE-bench Verified, penilaian yang mengukur penyelesaian masalah perisian dunia sebenar. Ia juga mendapat markah tinggi dalam OSWorld dengan skor 61,4%, menunjukkan kemajuan yang ketara dalam tugas dunia sebenar dalam persekitaran desktopSyarikat itu sendiri membandingkan 61,4% dengan 42,2% yang dicapai oleh Sonnet 4 beberapa bulan yang lalu, peningkatan yang tidak remeh.
Di luar prestasi mentah, rumah itu menekankan bahawa ia adalah model "sempadan" yang paling sejajar: tingkah laku yang membimbangkan seperti sanjungan yang berlebihan, mencari kuasa atau kecenderungan untuk menyokong penaakulan delusi, dan pertahanan terhadap serangan suntikan segera telah diperkukuh dalam senario penggunaan komputer dan keupayaan ejen.
Kemas Kini Ekosistem: Kod Claude, Apl dan Platform
Sonnet 4.5 dilengkapi dengan kemas kini produk utama. Claude Code memperkenalkan perkara berikut: pusat pemeriksaan, salah satu ciri yang paling diminta: ia menyimpan kemajuan dan membolehkan anda segera kembali ke keadaan sebelumnya. Bagi sesiapa yang membangun dengan lelaran yang panjang, perubahan ini mengurangkan geseran dan memberi anda keyakinan untuk meneroka laluan baharu tanpa rasa takut untuk memecahkan segala-galanya.
Ditambah pada ini ialah peningkatan muka antara muka terminal dan pelancaran a sambungan asli untuk Kod Visual Studio, dengan idea untuk menyepadukan Claude terus ke dalam IDE di mana rutin harian pengaturcara berlaku. Rangsangan yang ketara jika model itu bertujuan untuk mengambil peranan yang lebih operasi dan kurang persisian.
Di sisi API, terdapat dua bahagian utama: penyuntingan konteks dan yang baharu alat ingatan untuk menyimpan dan mendapatkan maklumatBersama-sama, ini membolehkan ejen berjalan lebih lama, menapis konteks lapuk dan memastikan perkara yang benar-benar penting boleh diakses—penting apabila aliran kerja bertahan selama berjam-jam dan keperluan berubah dengan cepat.
Dalam apl Claude, satu lagi ciri baharu yang penting: pelaksanaan kod dan penciptaan fail (dokumen, hamparan dan pembentangan) dalam perbualan. Ini membolehkan model menganalisis data, menjana kandungan dan merealisasikannya dalam format pejabat tanpa meninggalkan sembang, menyatukan teori dan amalan.
Akhir sekali, sambungan Chrome Claude rasmi tersedia untuk pengguna Max yang menyertai senarai menunggu, membuka pintu untuk mengautomasikan tugas pelayar dengan kurang geseran dan lebih kebolehpercayaan.
Claude Agent SDK: Blok binaan untuk membina ejen anda sendiri
Anthropic bukan sahaja menunjukkan apa yang produk utamanya boleh lakukan; ia juga menawarkan bahagian untuk orang lain membinanya secara tersuai. Yang baru SDK Agen Claude Ia berkongsi infrastruktur yang menjadikan Kod Claude mungkin, dan direka bentuk untuk menangani masalah yang sukar: pengurusan memori dalam tugasan yang berjalan lama, sistem kebenaran yang mengimbangi autonomi dengan kawalan pengguna, dan penyelarasan antara subagen yang bekerja ke arah matlamat bersama.
Cadangannya adalah untuk menjadikan SDK ini sebagai pangkalan boleh guna semula, supaya mana-mana pasukan boleh membina ejen mereka sendiri di atasnya. alat yang diuji pengeluaranAnthropic mendakwa bahawa, walaupun ia dicipta untuk kes kod, ia menunjukkan faedah dalam pelbagai tugas yang sangat luas.
Pratonton Penyelidikan: "Bayangkan dengan Claude"
Bersama Sonnet 4.5, Anthropic menawarkan pengalaman sementara yang dipanggil "Imagine with Claude." Dalam eksperimen ini, model menjana perisian dengan pantas tanpa fungsi yang telah ditetapkan, bertindak balas kepada interaksi pengguna dalam masa nyata. Ia, pada dasarnya, tingkap kepada perkara yang terbuka apabila anda menggabungkan model yang berkebolehan dengan infrastruktur yang betul.
Pratonton tersedia selama lima hari kepada pelanggan Max dan boleh diakses di claude.ai/imagine. Syarikat itu mempersembahkannya sebagai pameran yang menyeronokkan tetapi mendedahkan Sejauh manakah Sonnet 4.5 boleh pergi? dalam penjanaan dan penyesuaian.
Tahap keselamatan, penjajaran dan ASL-3
Penggunaan Sonnet 4.5 dilindungi oleh tahap keselamatan ASL-3, rangka kerja yang melaraskan keupayaan model dengan perlindungan yang sesuaiLangkah-langkah termasuk pengelas yang berusaha untuk mengesan pintu masuk dan keluar yang berpotensi berbahaya, dengan tumpuan pada kawasan CBRN (kimia, biologi, radiologi dan nuklear).
Anthropic mengakui bahawa pengelas ini kadangkala boleh membenderakan kandungan yang sah, dan untuk mengelakkan gangguan pengguna, menawarkan untuk meneruskan perbualan dengan Sonnet 4, yang memberikan risiko CBRN yang lebih rendah. Sejak pertama kali mereka menerangkan penapis ini, mereka telah mengurangkan positif palsu sebanyak sepuluh kali, dan sejak pelancaran Claude Opus 4 pada bulan Mei, sebanyak dua kali. Janjinya ialah kebolehbezaan pengelas terus bertambah baik.
Barisan ini melangkaui penapis: latihan dan penilaian keselamatan termasuk ujian yang diilhamkan oleh kali pertama kebolehtafsiran mekanistik, dengan matlamat untuk memahami dan mengawal tingkah laku dalaman model dengan lebih baik. Selain itu, pertahanan terhadap suntikan segera telah diperkukuh, terutamanya berkaitan apabila sistem menyemak imbas, beroperasi pada desktop maya atau melaksanakan tindakan.
Ketersediaan, penyepaduan dan harga
Claude Sonnet 4.5 boleh didapati di mana-mana hari ini. Pembangun boleh menggunakannya melalui API Claude dengan menggunakan model tersebut. Claude Sonnet 4-5Harga kekal sama seperti generasi sebelumnya: $3 setiap juta token input dan $15 setiap juta token keluaran.
Anthropic menambah kelebihan kos dengan infrastrukturnya: sehingga 90% penjimatan dengan caching segera dan 50% tambahan dengan pemprosesan kelompok, angka yang direka untuk beban kerja volum tinggi. Untuk pengguna akhir, Sonnet 4.5 boleh berbual dengan di Claude.ai (web, iOS dan Android), dan untuk perniagaan, ia tersedia secara asli di Platform Pembangun Claude, sebagai tambahan kepada Amazon Bedrock dan Google Cloud Vertex AI.
Di sisi komersial, pelan percuma disebut dengan had sesi yang ditetapkan semula setiap lima jam dan bilangan pembolehubah mesej atas permintaan. Dan untuk tugas pengaturcaraan yang kompleks, Claude Code bertindak sebagai ejen utama dalaman.
Kes Penggunaan yang Ditampilkan
Sonnet 4.5 dipersembahkan sebagai model ideal untuk ejen: ia boleh bertindak balas hampir serta-merta atau digunakan pemikiran langkah demi langkah kelihatan apabila tugas itu menuntutnya. Pengguna API mengawal dengan tepat berapa lama model "berfikir", memilih antara kelajuan dan kedalaman.
Dalam pembangunan perisian, ia merangkumi kitaran lengkap: perancangan, penjanaan, penyelenggaraan, pembetulan ralat dan pemfaktoran semula utamaKonteks keluaran yang besar (sehingga 64K token) memudahkan untuk menghasilkan pelan dan kod besar yang koheren.
Dalam penggunaan pelayar dan desktop, ia mendahului kategorinya: melengkapkan aliran sebenar daripada analisis dan pembelian yang kompetitif kepada penerimaan pelanggan di web. Matlamatnya adalah untuk ketepatan dan kebolehpercayaan terus bertambah baik dari semasa ke semasa.
Dalam keselamatan siber, pasukan yang menggabungkan Sonnet 4.5 dengan Kod Claude boleh menggunakan ejen yang menampal kelemahan secara autonomi sebelum mereka dieksploitasi, mengalihkan fokus daripada pengesanan reaktif kepada pertahanan proaktif.
Dalam kewangan, model ini membincangkan analisis input dan ramalan yang kompleksSebagai contoh, ia memantau perubahan kawal selia global dan secara proaktif menyesuaikan sistem pematuhan, berkembang daripada penyediaan audit manual kepada pengurusan risiko pintar.
Dalam produktiviti perniagaan, beliau cemerlang dalam mencipta dan menyunting fail pejabat (dokumen, helaian, pembentangan)Dan dalam penyelidikan, anda boleh mengesan sumber dalaman dan luaran untuk mensintesis pengetahuan merentas landskap maklumat yang kompleks.
Dalam kandungan, dia cemerlang dalam menulis dengan pemahaman tentang nuansa dan nada, menghasilkan teks yang lebih menarik dan menganalisis pada tahap semantik yang lebih mendalam, titik berharga untuk pemasaran, dokumentasi teknikal atau komunikasi korporat.
Prestasi dan metrik
Data yang dibentangkan oleh Anthropic meletakkan Sonnet 4.5 pada 77,2% in SWE-bench Disahkan, prestasi pengaturcaraan terbaiknya setakat ini. Di OSWorld, ia mencapai penarafan 61,4%, mengukuhkan kedudukannya sebagai model terbaik menggunakan komputer. Metrik ini disertakan dengan bukti operasi tugasan yang berlangsung lebih 30 jam dan kapasiti output sebanyak 64K token.
Syarikat itu mendakwa bahawa Sonnet 4.5 memperkasakan ejen dalam sektor permintaan tinggi seperti analisis kewangan, keselamatan siber dan penyelidikan, menyelaraskan beberapa ejen dan memproses jumlah data yang besar dengan kebolehpercayaan yang diminta oleh domain ini.
Evolusi keluarga Sonnet dan tempat 4.5
Untuk memahami lompatan itu, anda perlu melihat ke belakang. Sonnet 3.7 memperkenalkan model penaakulan hibrid yang telah meningkatkan pengekodan, penjanaan kandungan dan analisis data dengan ketara. Selepas itu, Sonnet 4 menggabungkan pendekatan itu dengan prestasi sempadan praktikal untuk pembantu pengguna dan tugasan volum tinggi.
Sonnet 4.5 membina trajektori itu dan membawanya selangkah lebih jauh: cita-citanya adalah untuk menjadi pilihan yang lebih tepat untuk tugasan yang panjang, ejen yang kompleks dan penggunaan komputer, dengan pengetahuan domain yang lebih tinggi dalam pengaturcaraan, kewangan dan keselamatan siber.
Apa kes sebenar dan masyarakat katakan
Anthropic telah berkata bahawa mereka meletakkan Sonnet 4.5 untuk bekerja selama 30 jam terus untuk membina a Replika kendurMenurut syarikat itu, ejen itu menghasilkan 11.000 baris kod tanpa pengawasan dan berhenti selepas menyelesaikan tugas. Pada bulan Mei, model Opus 4nya telah beroperasi selama kira-kira tujuh jam, jadi jenama baharu itu menggandakan rekod itu.
Cerita ini kedengaran kuat, tetapi nuansa muncul di luar bahan promosi. Pembangun seperti @midudev melaporkan bahawa model itu memfaktorkan semula keseluruhan projek dalam satu arahan—menggunakan corak seperti seni bina yang bersih dan menghasilkan ratusan atau ribuan baris—tetapi hasilnya tidak berfungsi apabila disusun. Yang lain melaporkan perkara yang sama: kod dengan struktur yang sempurna dan penampilan profesional, walaupun rosak pada masa tayangan.
Ia juga telah menunjukkan bahawa Anthropic tidak menunjukkan aplikasi Slack yang sepatutnya beroperasi dari awal hingga akhir, tetapi telah mengatakan bahawa ia membinanya, jurang yang ketara antara berkomunikasi dan menunjukkan dengan kod yang boleh disahkanCorak ini tidak unik: merentas industri, model menjadi lebih baik dalam menjana kod yang kelihatan hebat, tetapi mereka masih sering gagal menghasilkan penyelesaian berfungsi tanpa campur tangan manusia yang ketara.
Dari dalam, syarikat menjelaskan bahawa penambahbaikan itu mengejutkan pasukannya sendiri. Dianne Penn menegaskan bahawa model itu tiga kali lebih mahir menggunakan komputer daripada versi Oktober dan mereka telah bekerja dengannya untuk bulan lepas. Maklum balas GitHub dan Kursor. Canva, sebagai penguji beta, berkata ia membantu dengan "tugas jangka panjang yang rumit." Scott White membandingkannya dengan kerja peringkat "ketua kakitangan": menyelaraskan agenda, menganalisis data dan menulis laporan.
Bacaan antara baris adalah jelas: walaupun dengan model yang kukuh, terdapat keperluan mesin maya, pengurusan memori dan konteks, sokongan berbilang ejen dan sistem kebenaran untuk membawa lebih banyak ejen yang boleh dipercayai ke dalam pengeluaran. Ini adalah tepat jurang yang Agent SDK dan ciri baharu platform bertujuan untuk diisi.
Persaingan dan kedudukan pasaran
Pengeluaran Sonnet 4.5 dilihat sebagai sebahagian daripada pertempuran yang tegang: OpenAI bergerak ke hadapan dengan generasi seterusnya dan Google bertegas dengan Gemini, kepingan bergerak yang memaksa kita untuk mempercepatkan rentak kita. Dalam konteks ini, ejen jangka panjang, penggunaan komputer secara langsung dan pengaturcaraan autonomi adalah vektor di mana banyak nilai perniagaan dipertandingkan.
Sesiapa yang meyakinkan syarikat bahawa mereka boleh mengautomasikan aliran sebenar dengan kawalan dan kebolehpercayaan akan menangkap pelesenan dan penempatan berskala besarAnthropic bertaruh bahawa gabungan model yang berkuasa dan infrastruktur yang betul—sendiri—akan merapatkan jurang antara demonstrasi dan operasi yang berterusan.
Cadangan penggunaan dan amalan baik
Jika anda serius untuk mencuba Sonnet 4.5, perlu diingat bahawa autonomi tidak datang secara percuma. Tindakan model boleh lakukan—membaca dan mengubah suai fail, memindahkan data, melaksanakan arahan, navigasi—memerlukan peraturan dan pengawasan yang jelas. Mendayakan sistem kebenaran, mengaudit log, dan mewujudkan ambang untuk campur tangan manusia adalah penting untuk mengurangkan risiko.
Dalam aliran kod, pusat pemeriksaan dan ingatan API Claude Code membantu anda lelaran dengan selamat. Walau bagaimanapun, ia adalah idea yang baik untuk mengautomasikan saluran paip ujian dan pengesahan, dan memperkenalkan model dalam peringkat terkawal (daripada tugas berimpak rendah kepada komponen kritikal) sebelum mewakilkan tanggungjawab utama.
Di mana untuk membaca lebih lanjut dan bagaimana untuk bermula
Anthropic mengesyorkan peningkatan kepada Sonnet 4.5 untuk semua kegunaan: apl, API dan Kod Claude. Ia membentangkan model sebagai a penggantian langsung dengan prestasi yang lebih baik pada harga yang samaCiri baharu Claude Code tersedia untuk semua pengguna; platform pembangun—termasuk SDK Agen—tersedia kepada seluruh komuniti pembangun; dan pelaksanaan kod dan penciptaan fail dalam apl tersedia pada semua pelan berbayar.
Untuk butiran teknikal dan keputusan penilaian, syarikat menunjukkannya kad sistem, halaman model dan dokumentasi, serta penerbitan kejuruteraan dan jawatan penyelidikan tentang keselamatan siber. Mereka yang berminat untuk bereksperimen dengan penjanaan perisian masa nyata boleh mengakses "Imagine with Claude" selama beberapa hari.
Potret yang dilukis oleh pengumuman ini ialah model yang meningkatkan bar untuk ejen, kod dan penggunaan komputer, sambil mengukuhkan kebolehskalaan, keselamatan dan alatan pembangun. Ia masih perlu dilihat sejauh mana amalan sepadan dengan teori, tetapi ada tanda-tanda kematangan yang konkrit dan rancangan yang konsisten untuk menutup jurang antara "bercakap dengan baik" dan "berbuat baik."
Isi kandungan
- Apakah Claude Sonnet 4.5 dan apakah yang dijanjikan?
- Kemas Kini Ekosistem: Kod Claude, Apl dan Platform
- Claude Agent SDK: Blok binaan untuk membina ejen anda sendiri
- Pratonton Penyelidikan: "Bayangkan dengan Claude"
- Tahap keselamatan, penjajaran dan ASL-3
- Ketersediaan, penyepaduan dan harga
- Kes Penggunaan yang Ditampilkan
- Prestasi dan metrik
- Evolusi keluarga Sonnet dan tempat 4.5
- Apa kes sebenar dan masyarakat katakan
- Persaingan dan kedudukan pasaran
- Cadangan penggunaan dan amalan baik
- Di mana untuk membaca lebih lanjut dan bagaimana untuk bermula