- Sonnet 4.5 mendukung agen yang tahan lama, kode yang lebih baik, dan komputasi yang andal, dengan token keluaran 64K dan fokus lebih dari 30 jam.
- Pembaruan Claude Code (titik pemeriksaan, terminal, VS Code), menambahkan memori dan pengeditan konteks ke API, dan meluncurkan Agent SDK.
- Kemajuan dalam keamanan (ASL-3, lebih sedikit positif palsu, pertahanan terhadap injeksi cepat) dan berkinerja baik di SWE-bench dan OSWorld.
- Tersedia di Claude.ai, API, Bedrock, dan Vertex AI, dengan harga mulai dari $3 hingga $15, dengan penghematan untuk caching dan batching.

Kedatangan Claude Sonnet 4.5 telah menerangi papan AI yang diterapkan pada agen dan pengembangan perangkat lunak, dengan janji mulai dari pemrograman otonom dan penanganan komputer Anthropic menampilkannya sebagai model paling mumpuni hingga saat ini, dengan fokus yang sangat jelas: menjadikan Claude lebih dari sekadar asisten percakapan, mendorongnya ke ranah "agen akting".
Secara paralel, perusahaan memperkuat ekosistemnya dengan penyempurnaan pada Claude Code, perangkat pengembang baru, serta lapisan keamanan dan penyelarasan yang lebih ketat. Proposalnya ambisius: model terbaik untuk agen, kode, dan penggunaan komputasi, didukung oleh metrik seperti SWE-bench Verified dan OSWorld, selain serangkaian fungsi yang bertujuan untuk memfasilitasi tugas jangka panjang dan lebih kompleks.
Apa itu Claude Sonnet 4.5 dan apa yang dijanjikannya?
Anthropic menggambarkan Soneta 4.5 sebagai modelnya yang paling kuat di area kritis: membangun agen yang kompleks, menghasilkan dan memelihara kode, dan mengendalikan komputerIni bukan sekadar label; perusahaan mengklaim peningkatan yang jelas dalam penalaran dan matematika, dua pilar yang membuat perbedaan ketika proyek melibatkan banyak langkah dan ketergantungan.
Salah satu fitur yang paling mencolok adalah kemampuannya untuk menjalankan tugas-tugas kompleks selama lebih dari 30 jam sekaligus, mempertahankan fokus tanpa intervensi langsung. Secara praktis, ini berarti agen dapat bertahan dalam pekerjaan yang panjang dan terkoordinasi tanpa kehilangan utasnya. Selain itu, model ini mendukung keluaran hingga 64.000 token, yang sangat berguna untuk perencanaan terperinci dan pembuatan blok kode yang besar.
Dalam uji coba publik, Anthropic mengklaim Sonnet 4.5 merupakan yang tercanggih dalam SWE-bench Verified, sebuah evaluasi yang mengukur resolusi masalah perangkat lunak di dunia nyata. Sonnet 4.5 juga meraih skor tinggi di OSWorld dengan skor 61,4%, yang menunjukkan kemajuan signifikan dalam tugas dunia nyata di lingkungan desktopPerusahaan itu sendiri membandingkan angka 61,4% itu dengan angka 42,2% yang dicapai Sonnet 4 beberapa bulan lalu, suatu kenaikan yang tidak sepele.
Selain performa mentah, rumah tersebut menekankan bahwa model "perbatasan" yang paling selaras adalah: perilaku mengkhawatirkan seperti sanjungan yang berlebihan, mencari kekuasaan atau kecenderungan untuk mendukung penalaran delusi, dan pertahanan terhadap serangan injeksi cepat telah diperkuat dalam skenario penggunaan komputer dan kemampuan agen.

Pembaruan Ekosistem: Kode Claude, Aplikasi, dan Platform
Sonnet 4.5 hadir dengan pembaruan produk utama. Claude Code memperkenalkan hal berikut: pos pemeriksaan, salah satu fitur yang paling banyak diminta: menyimpan progres dan memungkinkan Anda langsung kembali ke kondisi sebelumnya. Bagi siapa pun yang mengembangkan dengan iterasi panjang, perubahan ini mengurangi hambatan dan memberi Anda keyakinan untuk menjelajahi jalur baru tanpa takut merusak segalanya.
Ditambah dengan perombakan antarmuka terminal dan peluncuran ekstensi asli untuk Visual Studio Code, dengan ide mengintegrasikan Claude langsung ke dalam IDE tempat rutinitas harian programmer berlangsung. Sebuah peningkatan signifikan jika model ini dirancang untuk mengambil peran yang lebih operasional dan kurang periferal.
Di sisi API, ada dua bagian utama: pengeditan konteks dan yang baru alat memori untuk menyimpan dan mengambil informasiBersama-sama, hal ini memungkinkan agen berjalan lebih lama, menyaring konteks yang ketinggalan zaman, dan menjaga agar hal-hal yang benar-benar penting tetap dapat diakses—penting ketika alur kerja berlangsung selama berjam-jam dan persyaratan berubah dengan cepat.
Di aplikasi Claude, terdapat fitur baru yang penting: eksekusi kode dan pembuatan file (dokumen, spreadsheet, dan presentasi) dalam percakapan. Hal ini memungkinkan model menganalisis data, menghasilkan konten, dan mewujudkannya dalam format kantor tanpa meninggalkan obrolan, menyatukan teori dan praktik.
Akhirnya, ekstensi Chrome Claude resmi tersedia untuk pengguna Max yang bergabung dalam daftar tunggu, membuka pintu untuk mengotomatiskan tugas browser dengan lebih sedikit gesekan dan lebih dapat diandalkan.
Claude Agent SDK: Komponen dasar untuk membangun agen Anda sendiri
Anthropic tidak hanya menunjukkan kemampuan produk andalannya; mereka juga menawarkan suku cadangnya agar orang lain dapat membuatnya secara khusus. SDK Agen Claude Ia berbagi infrastruktur yang memungkinkan Claude Code, dan dirancang untuk mengatasi masalah-masalah sulit: manajemen memori dalam tugas-tugas yang berjalan lama, sistem izin yang menyeimbangkan otonomi dengan kontrol pengguna, dan koordinasi antara subagen yang bekerja menuju tujuan bersama.
Usulannya adalah untuk mengubah SDK ini menjadi basis yang dapat digunakan kembali, sehingga tim mana pun dapat membangun agen mereka sendiri di atasnya. alat yang telah diuji produksiAnthropic mengklaim bahwa, meskipun diciptakan untuk kasus kode, ia menunjukkan manfaat dalam berbagai macam tugas.
Pratinjau Riset: "Bayangkan bersama Claude"
Bersama dengan Soneta 4.5, Antropik menawarkan pengalaman sementara yang disebut "Bayangkan dengan Claude." Dalam percobaan ini, model menghasilkan perangkat lunak secara cepat tanpa fungsi yang telah ditentukan sebelumnya, bereaksi terhadap interaksi pengguna secara real-time. Intinya, ini adalah jendela yang memperlihatkan apa yang terbuka ketika Anda menggabungkan model yang mumpuni dengan infrastruktur yang tepat.
Pratinjau tersedia selama lima hari untuk pelanggan Max dan dapat diakses di claude.ai/imagine. Perusahaan menyajikannya sebagai pertunjukan yang menyenangkan namun terbuka tentang Seberapa jauh Soneta 4.5 dapat melangkah? dalam generasi dan adaptasi.
Keamanan, penyelarasan, dan tingkat ASL-3
Penerapan Sonnet 4.5 dilindungi oleh tingkat keamanan ASL-3, sebuah kerangka kerja yang menyesuaikan kemampuan model dengan perlindungan yang sesuaiLangkah-langkah tersebut mencakup pengklasifikasi yang berupaya mendeteksi pintu masuk dan keluar yang berpotensi berbahaya, dengan fokus pada area CBRN (kimia, biologi, radiologi, dan nuklir).
Anthropic mengakui bahwa pengklasifikasi ini terkadang dapat menandai konten yang sah, dan untuk menghindari gangguan pada pengguna, Anthropic menawarkan untuk melanjutkan percakapan dengan Sonnet 4, yang menghadirkan risiko CBRN yang lebih rendah. Sejak pertama kali mereka mendeskripsikan filter ini, mereka telah mengurangi positif palsu hingga sepuluh kali lipat, dan sejak peluncuran Claude Opus 4 pada bulan Mei, hingga dua kali lipat. Janjinya adalah bahwa kemampuan membedakan pengklasifikasi terus meningkat.
Jajarannya melampaui filter: pelatihan dan penilaian keamanan mencakup pengujian yang terinspirasi oleh pertama kali interpretabilitas mekanistik, dengan tujuan untuk lebih memahami dan mengendalikan perilaku internal model. Selain itu, pertahanan terhadap injeksi cepat telah diperkuat, terutama saat sistem menjelajah, beroperasi di desktop virtual, atau menjalankan tindakan.
Ketersediaan, integrasi, dan harga
Claude Sonnet 4.5 tersedia di mana-mana saat ini. Pengembang dapat menggunakannya melalui API Claude dengan memanggil model tersebut. Claude Soneta 4-5Harganya tetap sama seperti generasi sebelumnya: $3 per juta token masukan dan $15 per juta token keluaran.
Anthropic menambahkan keunggulan biaya dengan infrastrukturnya: hingga Hemat 90% dengan caching cepat dan tambahan 50% dengan pemrosesan batch, angka yang dirancang untuk beban kerja bervolume tinggi. Bagi pengguna akhir, Sonnet 4.5 dapat digunakan melalui obrolan di Claude.ai (web, iOS, dan Android), dan bagi bisnis, tersedia secara native di Claude Developer Platform, selain Amazon Bedrock dan Google Cloud Vertex AI.
Di sisi komersial, paket gratis disebutkan dengan batas sesi yang diatur ulang setiap lima jam dan jumlah pesan yang bervariasi sesuai permintaan. Dan untuk tugas-tugas pemrograman yang kompleks, Claude Code bertindak sebagai agen utama internal.
Kasus Penggunaan Unggulan
Soneta 4.5 disajikan sebagai model ideal untuk agen: ia dapat merespons hampir seketika atau menyebarkan pemikiran langkah demi langkah yang terlihat ketika tugas menuntutnya. Pengguna API mengontrol secara tepat berapa lama model "berpikir", memilih antara kecepatan dan kedalaman.
Dalam pengembangan perangkat lunak, ini mencakup siklus lengkap: perencanaan, pembuatan, pemeliharaan, koreksi kesalahan dan refaktor besarKonteks keluaran yang besar (hingga 64K token) memudahkan pembuatan rencana dan kode besar yang koheren.
Dalam penggunaan browser dan desktop, ia memimpin kategorinya: melengkapi aliran nyata dari analisis kompetitif dan pembelian untuk pendaftaran pelanggan di web. Tujuannya adalah agar akurasi dan keandalan terus meningkat seiring waktu.
Dalam keamanan siber, tim yang menggabungkan Sonnet 4.5 dengan Claude Code dapat menyebarkan agen yang menambal kerentanan secara mandiri sebelum dieksploitasi, mengalihkan fokus dari deteksi reaktif ke pertahanan proaktif.
Dalam keuangan, model ini membahas analisis masukan dan prediksi yang rumitMisalnya, ia memantau perubahan regulasi global dan secara proaktif mengadaptasi sistem kepatuhan, berkembang dari persiapan audit manual menjadi manajemen risiko yang cerdas.
Dalam produktivitas bisnis, ia unggul dalam membuat dan mengedit file kantor (dokumen, lembar, presentasi)Dan dalam penelitian, Anda dapat melacak sumber internal dan eksternal untuk mensintesis pengetahuan di seluruh lanskap informasi yang kompleks.
Dalam hal konten, ia unggul dalam menulis dengan pemahaman akan nuansa dan nada, menghasilkan teks yang lebih menarik dan menganalisis pada tingkat semantik yang lebih dalam, poin berharga untuk pemasaran, dokumentasi teknis, atau komunikasi perusahaan.
Kinerja dan metrik
Data yang disajikan oleh Anthropic menempatkan Soneta 4.5 pada 77,2% di Bangku SWE Terverifikasi, performa pemrograman terbaiknya hingga saat ini. Di OSWorld, ia meraih peringkat 61,4%, mengukuhkan posisinya sebagai model pengguna komputer terbaik. Metrik ini disertai dengan bukti operasional tugas yang berlangsung lebih dari 30 jam dan kapasitas keluaran 64K token.
Perusahaan mengklaim bahwa Sonnet 4.5 memberdayakan agen di sektor dengan permintaan tinggi seperti analisis keuangan, keamanan siber, dan penelitian, mengoordinasikan beberapa agen dan memproses data dalam jumlah besar dengan keandalan yang dibutuhkan domain ini.
Evolusi keluarga Soneta dan tempat 4.5
Untuk memahami lompatan, Anda harus melihat ke belakang. Soneta 3.7 memperkenalkan model penalaran hibrida yang secara signifikan meningkatkan pengkodean, pembuatan konten, dan analisis data. Setelah itu, Soneta 4 mengkonsolidasikan pendekatan itu dengan kinerja tingkat lanjut yang praktis untuk asisten pengguna dan tugas bervolume tinggi.
Soneta 4.5 dibangun di atas lintasan itu dan melangkah lebih jauh: ambisinya adalah menjadi pilihan yang lebih tepat untuk tugas yang panjang, agen yang kompleks, dan penggunaan komputer, dengan pengetahuan domain yang lebih luas dalam pemrograman, keuangan, dan keamanan siber.
Apa kata kasus nyata dan masyarakat
Anthropic mengatakan bahwa mereka menggunakan Sonnet 4.5 selama 30 jam berturut-turut untuk membangun Replika SlackMenurut perusahaan, agen tersebut menghasilkan 11.000 baris kode tanpa pengawasan dan berhenti setelah menyelesaikan tugas. Pada bulan Mei, model Opus 4 mereka telah beroperasi selama sekitar tujuh jam, sehingga merek baru ini menggandakan rekor tersebut.
Ceritanya terdengar kuat, tetapi nuansanya muncul di luar materi promosi. Pengembang seperti @midudev melaporkan bahwa model tersebut memfaktorkan ulang seluruh proyek dalam satu instruksi—menerapkan pola seperti arsitektur bersih dan menghasilkan ratusan atau ribuan baris—tetapi hasilnya tidak berfungsi saat dikompilasi. Yang lain melaporkan hal yang sama: kode dengan struktur yang sempurna dan tampilan profesional, meskipun rusak saat runtime.
Telah pula ditunjukkan bahwa Anthropic tidak menunjukkan aplikasi Slack yang seharusnya beroperasi dari awal hingga akhir, namun telah menyatakan bahwa aplikasi tersebut dibangun oleh Anthropic, yang merupakan kesenjangan signifikan antara komunikasi dan demonstrasikan dengan kode yang dapat diverifikasiPola ini tidak unik: di seluruh industri, model menjadi lebih baik dalam menghasilkan kode yang tampak hebat, tetapi masih sering gagal menghasilkan solusi fungsional tanpa campur tangan manusia yang signifikan.
Dari dalam, perusahaan menjelaskan bahwa peningkatan tersebut mengejutkan timnya sendiri. Dianne Penn menunjukkan bahwa model tersebut tiga kali lebih mahir menggunakan komputer dibandingkan versi Oktober dan bahwa mereka telah menggunakannya selama sebulan terakhir. Umpan balik GitHub dan KursorCanva, sebagai penguji beta, mengatakan aplikasi ini membantu "tugas-tugas kompleks dan jangka panjang." Scott White membandingkannya dengan pekerjaan tingkat "kepala staf": mengoordinasikan agenda, menganalisis data, dan menulis laporan.
Pemahaman yang tersirat di sini sangat jelas: bahkan dengan model yang kuat, masih ada kebutuhan mesin virtual, manajemen memori dan konteks, dukungan multi-agen dan sistem izin untuk menghadirkan agen yang lebih andal ke dalam produksi. Inilah celah yang ingin diisi oleh SDK Agen dan fitur-fitur baru platform ini.
Persaingan dan positioning pasar
Peluncuran Sonnet 4.5 dipandang sebagai bagian dari pertarungan yang menegangkan: OpenAI terus maju dengan generasi berikutnya dan Google bersikeras dengan Gemini, bagian-bagian yang bergerak yang memaksa kita untuk mempercepat langkah. Dalam konteks ini, agen jangka panjang, penggunaan komputer secara langsung, dan pemrograman otonom adalah vektor di mana sebagian besar nilai bisnis diperebutkan.
Siapa pun yang meyakinkan perusahaan bahwa mereka dapat mengotomatiskan aliran nyata dengan kontrol dan keandalan akan menangkap perizinan dan penerapan skala besarAnthropic bertaruh bahwa kombinasi model yang kuat dan infrastruktur yang tepat—miliknya sendiri—akan menjembatani kesenjangan antara demonstrasi dan operasi berkelanjutan.
Rekomendasi adopsi dan praktik baik
Jika Anda serius ingin mencoba Sonnet 4.5, perlu diingat bahwa otonomi tidak diberikan secara cuma-cuma. Tindakan yang dapat dilakukan model—membaca dan memodifikasi berkas, memindahkan data, menjalankan perintah, navigasi—memerlukan aturan dan pengawasan yang jelas. Mengaktifkan sistem perizinan, mengaudit log, dan menetapkan ambang batas untuk intervensi manusia sangat penting untuk mengurangi risiko.
Dalam alur kode, titik pemeriksaan dan memori API Claude Code membantu Anda melakukan iterasi dengan aman. Namun, ada baiknya untuk mengotomatiskan pengujian dan jalur validasi, dan memperkenalkan model dalam tahapan yang terkendali (dari tugas berdampak rendah hingga komponen kritis) sebelum mendelegasikan tanggung jawab utama.
Tempat untuk membaca lebih lanjut dan cara memulai
Anthropic merekomendasikan peningkatan ke Sonnet 4.5 untuk semua penggunaan: aplikasi, API, dan Claude Code. Model ini disajikan sebagai pengganti langsung dengan kinerja yang lebih baik dengan harga yang samaFitur-fitur baru Claude Code tersedia untuk semua pengguna; platform pengembang—termasuk Agent SDK—tersedia untuk seluruh komunitas pengembang; dan eksekusi kode serta pembuatan file dalam aplikasi tersedia di semua paket berbayar.
Untuk rincian teknis dan hasil evaluasi, perusahaan mengacu pada kartu sistem, halaman model dan dokumentasi, serta publikasi teknik dan postingan penelitian tentang keamanan siber. Bagi yang tertarik bereksperimen dengan pembuatan perangkat lunak secara real-time, silakan akses "Imagine with Claude" selama beberapa hari.
Potret yang digambarkan oleh pengumuman ini adalah sebuah model yang meningkatkan standar untuk agen, kode, dan penggunaan komputer, sekaligus memperkuat skalabilitas, keamanan, dan perangkat pengembang. Masih harus dilihat sejauh mana praktik sesuai dengan teori, tetapi ada tanda-tanda kedewasaan yang nyata dan rencana yang konsisten untuk menutup kesenjangan antara “berbicara dengan baik” dan “melakukan dengan baik.”
Daftar isi
- Apa itu Claude Sonnet 4.5 dan apa yang dijanjikannya?
- Pembaruan Ekosistem: Kode Claude, Aplikasi, dan Platform
- Claude Agent SDK: Komponen dasar untuk membangun agen Anda sendiri
- Pratinjau Riset: "Bayangkan bersama Claude"
- Keamanan, penyelarasan, dan tingkat ASL-3
- Ketersediaan, integrasi, dan harga
- Kasus Penggunaan Unggulan
- Kinerja dan metrik
- Evolusi keluarga Soneta dan tempat 4.5
- Apa kata kasus nyata dan masyarakat
- Persaingan dan positioning pasar
- Rekomendasi adopsi dan praktik baik
- Tempat untuk membaca lebih lanjut dan cara memulai