- Ang Sonnet 4.5 ay nagpapagana sa mga matibay na ahente, mas mahusay na code, at maaasahang pag-compute, na may 64K na mga token ng output at isang pagtutok ng higit sa 30 oras.
- Mga update ng Claude Code (mga checkpoint, terminal, VS Code), nagdaragdag ng memory at pag-edit ng konteksto sa API, at inilulunsad ang Agent SDK.
- Umuusad ito sa seguridad (ASL-3, mas kaunting false positive, depensa laban sa agarang pag-iniksyon) at mahusay na gumaganap sa SWE-bench at OSWorld.
- Available sa Claude.ai, API, Bedrock, at Vertex AI, na may pagpepresyo mula $3 hanggang $15, na may matitipid para sa pag-cache at pag-batch.
Ang pagdating ng Claude Sonnet 4.5 ay nagbigay-liwanag sa board ng AI na inilapat sa mga ahente at software development, na may mga pangako mula sa autonomous programming at computer handling sa nasasalat na pagsulong sa pangangatwiran at matematika. Itinatanghal siya ni Anthropic bilang ang pinaka-kakayahang modelo nito hanggang ngayon, na may napakalinaw na pokus: ginagawa si Claude sa isang bagay na higit pa sa isang katulong sa pakikipag-usap, na nagtutulak sa kanya sa larangan ng isang "acting agent."
Kasabay nito, pinalalakas ng kumpanya ang ecosystem nito sa pamamagitan ng mga pagpapahusay sa Claude Code, mga bagong tool ng developer, at mas mahigpit na layer ng seguridad at pagkakahanay. Ang pitch ay ambisyoso: ang pinakamahusay na modelo para sa mga ahente, code at paggamit ng computing, na sinusuportahan ng mga sukatan gaya ng SWE-bench Verified at OSWorld, bilang karagdagan sa isang baterya ng mga function na naglalayong mapadali ang pangmatagalan at mas kumplikadong mga gawain.
Ano ang Claude Sonnet 4.5 at ano ang ipinangako nito?
Inilalarawan ng Anthropic ang Sonnet 4.5 bilang ang pinakamakapangyarihang modelo nito sa mga kritikal na lugar: pagbuo ng mga kumplikadong ahente, pagbuo at pagpapanatili ng code, at pagkontrol sa computerIto ay hindi lamang isang etiketa; inaangkin ng kumpanya ang malinaw na mga pagpapabuti sa pangangatwiran at matematika, dalawang haligi na gumagawa ng pagkakaiba kapag ang mga proyekto ay nagsasangkot ng maraming hakbang at dependency.
Ang isa sa mga pinaka-kapansin-pansin na tampok ay ang kakayahang magpanatili ng mga kumplikadong gawain nang higit sa 30 oras sa isang pagkakataon, na pinapanatili ang pagtuon nang walang direktang interbensyon. Sa isang praktikal na antas, ito ay nangangahulugan na ang isang ahente ay maaari manatili sa mahaba at koordinadong gawain nang hindi nawawala ang thread. Bukod pa rito, sinusuportahan ng modelo ang mga output na hanggang 64.000 token, na lubhang kapaki-pakinabang para sa detalyadong pagpaplano at pagbuo ng malalaking bloke ng code.
Sa mga pampublikong benchmark, inaangkin ni Anthropic na ang Sonnet 4.5 ay makabago sa SWE-bench Verified, isang pagsusuri na sumusukat sa paglutas ng problema sa real-world na software. Mataas din ang marka nito sa OSWorld na may 61,4% na marka, na nagpapahiwatig ng makabuluhang pag-unlad sa mga gawain sa totoong mundo sa mga desktop environmentAng kumpanya mismo ay nagkukumpara na 61,4% sa 42,2% na nakamit ng Sonnet 4 ilang buwan na ang nakakaraan, isang pagtaas na hindi mahalaga.
Higit pa sa hilaw na pagganap, binibigyang-diin ng bahay na ito ang pinakanakahanay na modelong "frontier" nito: nakababahala na pag-uugali tulad ng labis na pambobola, paghahanap ng kapangyarihan o ang tendensyang suportahan ang delusional na pangangatwiran, at ang depensa laban sa agarang pag-atake ng iniksyon ay pinalakas sa mga sitwasyon sa paggamit ng computer at mga kakayahan ng ahente.
Mga Update sa Ecosystem: Claude Code, Apps, at Platform
Ang soneto 4.5 ay may pangunahing pag-update ng produkto. Ipinakilala ni Claude Code ang sumusunod: mga checkpoint, isa sa mga pinaka-hinihiling na feature: nakakatipid ang mga ito ng pag-unlad at nagbibigay-daan sa iyong agad na bumalik sa mga nakaraang estado. Para sa sinumang umuunlad na may mahabang pag-ulit, binabawasan ng pagbabagong ito ang alitan at binibigyan ka ng kumpiyansa na tuklasin ang mga bagong landas nang walang takot na masira ang lahat.
Idinagdag dito ang isang facelift ng terminal interface at ang paglulunsad ng a katutubong extension para sa Visual Studio Code, na may ideya na direktang isama si Claude sa IDE kung saan nagaganap ang pang-araw-araw na gawain ng programmer. Isang makabuluhang pagpapalakas kung ang modelo ay nilayon na kumuha ng isang mas operational at mas kaunting peripheral na papel.
Sa panig ng API, mayroong dalawang pangunahing bahagi: pag-edit ng konteksto at isang bago memory tool para sa pag-iimbak at pagkuha ng impormasyonSama-sama, binibigyang-daan nito ang mga ahente na tumakbo nang mas matagal, sinasala ang lumang konteksto at pinananatiling naa-access ang tunay na mahalaga—na mahalaga kapag tumagal ang mga daloy ng trabaho nang maraming oras at mabilis na nagbabago ang mga kinakailangan.
Sa mga app ni Claude, isa pang mahalagang bagong feature: code execution at paggawa ng file (mga dokumento, spreadsheet, at presentation) sa loob ng pag-uusap. Ito ay nagbibigay-daan sa modelo pag-aralan ang data, bumuo ng nilalaman at isakatuparan ito sa mga format ng opisina nang hindi umaalis sa chat, pinagsasama-sama ang teorya at kasanayan.
Sa wakas, ang opisyal na extension ng Claude Chrome ay magagamit para sa mga gumagamit ng Max na sumali sa listahan ng naghihintay, na nagbubukas ng pinto i-automate ang mga gawain sa browser na may mas kaunting alitan at higit na pagiging maaasahan.
Claude Agent SDK: Ang mga bloke ng gusali para sa pagbuo ng sarili mong mga ahente
Hindi lang ipinapakita ng Anthropic kung ano ang kayang gawin ng flagship product nito; nag-aalok din ito ng mga bahagi para sa iba upang pasadyang itayo ito. Ang bago Claude Agent SDK Ibinabahagi nito ang imprastraktura na ginagawang posible ang Claude Code, at idinisenyo upang harapin ang mga mahihirap na problema: pamamahala ng memorya sa mga matagal nang gawain, mga sistema ng pahintulot na nagbabalanse ng awtonomiya sa kontrol ng user, at koordinasyon sa pagitan ng mga subagents na nagtatrabaho patungo sa isang karaniwang layunin.
Ang panukala ay gawing magagamit muli ang SDK na ito, upang ang sinumang team ay makapagtayo ng sarili nilang ahente sa ibabaw nito. mga tool na sinubok sa produksyonSinasabi ni Anthropic na, bagama't nilikha ito para sa mga kaso ng code, nagpapakita ito ng mga benepisyo sa napakalawak na uri ng mga gawain.
Preview ng Pananaliksik: "Imagine with Claude"
Kasama ng Sonnet 4.5, nag-aalok ang Anthropic ng pansamantalang karanasan na tinatawag na "Imagine with Claude." Sa eksperimentong ito, ang modelo bumubuo ng software sa mabilisang walang paunang natukoy na mga pag-andar, tumutugon sa pakikipag-ugnayan ng user sa real time. Ito ay, sa esensya, isang window sa kung ano ang bubukas kapag pinagsama mo ang isang may kakayahang modelo na may tamang imprastraktura.
Available ang preview sa loob ng limang araw sa mga Max na subscriber at maaaring ma-access sa claude.ai/imagine. Itinatanghal ito ng kumpanya bilang isang mapaglaro ngunit nagsisiwalat na showcase ng Gaano kalayo ang kaya ng Sonnet 4.5? sa henerasyon at adaptasyon.
Kaligtasan, pagkakahanay at antas ng ASL-3
Ang deployment ng Sonnet 4.5 ay saklaw ng antas ng seguridad ng ASL-3, isang balangkas na nagsasaayos mga kakayahan ng modelo na may naaangkop na mga pananggalangKasama sa mga hakbang ang mga classifier na naglalayong tuklasin ang mga potensyal na mapanganib na pasukan at labasan, na may pagtuon sa mga lugar ng CBRN (kemikal, biyolohikal, radiological, at nuclear).
Kinikilala ni Anthropic na ang mga classifier na ito ay maaaring mag-flag kung minsan ng lehitimong nilalaman, at upang maiwasan ang pagkagambala sa user, ay nag-aalok na ipagpatuloy ang pakikipag-usap sa Sonnet 4, na nagpapakita ng mas mababang panganib sa CBRN. Mula noong una nilang inilarawan ang mga filter na ito, binawasan nila ang mga maling positibo ng sampu, at mula nang ilunsad ang Claude Opus 4 noong Mayo, sa kadahilanan na dalawa. Ang pangako ay ang Ang discernibility ng mga classifier ay patuloy na bumubuti.
Ang lineup ay higit pa sa mga filter: kasama sa mga pagsusuri sa pagsasanay at seguridad ang mga pagsubok na inspirasyon sa unang pagkakataon mekanikal na interpretability, na may layuning mas mahusay na maunawaan at makontrol ang panloob na gawi ng modelo. Bukod pa rito, ang mga depensa laban sa agarang pag-iniksyon ay pinalakas, lalo na may kaugnayan kapag ang system ay nagba-browse, nagpapatakbo sa mga virtual na desktop, o nagsasagawa ng mga aksyon.
Availability, integration at pagpepresyo
Ang Claude Sonnet 4.5 ay magagamit sa lahat ng dako ngayon. Magagamit ito ng mga developer sa pamamagitan ng Claude API sa pamamagitan ng paggamit ng modelo. Claude Soneto 4-5Ang presyo ay nananatiling pareho sa nakaraang henerasyon: $3 bawat milyong input token at $15 bawat milyong output token.
Ang Anthropic ay nagdaragdag ng mga pakinabang sa gastos sa imprastraktura nito: hanggang sa 90% na matitipid gamit ang agarang pag-cache at karagdagang 50% na may batch processing, mga figure na idinisenyo para sa mataas na dami ng workload. Para sa mga end user, maaaring maka-chat ang Sonnet 4.5 sa Claude.ai (web, iOS, at Android), at para sa mga negosyo, native itong available sa Claude Developer Platform, bilang karagdagan sa Amazon Bedrock at Google Cloud Vertex AI.
Sa panig ng komersyal, binanggit ang isang libreng plano limitasyon ng session na nagre-reset tuwing limang oras at isang variable na bilang ng mga mensahe on demand. At para sa mga kumplikadong gawain sa programming, gumaganap si Claude Code bilang in-house na lead agent.
Mga Itinatampok na Kaso ng Paggamit
Ang Sonnet 4.5 ay ipinakita bilang perpektong modelo para sa mga ahente: maaari itong tumugon halos kaagad o mag-deploy makikita ang hakbang-hakbang na pag-iisip kapag hinihingi ito ng gawain. Eksaktong kinokontrol ng mga user ng API kung gaano katagal "nag-iisip" ang modelo, pagpili sa pagitan ng bilis at lalim.
Sa software development, sinasaklaw nito ang kumpletong cycle: pagpaplano, pagbuo, pagpapanatili, pagwawasto ng error at pangunahing refactoringsAng malaking konteksto ng output (hanggang sa 64K token) ay nagpapadali sa paggawa ng magkakaugnay na malalaking plano at code.
Sa paggamit ng browser at desktop, nangunguna ito sa kategorya nito: kumukumpleto ng mga totoong daloy mula sa mapagkumpitensyang pagsusuri at pagbili sa onboarding ng customer sa web. Ang layunin ay para sa katumpakan at pagiging maaasahan upang patuloy na mapabuti sa paglipas ng panahon.
Sa cybersecurity, ang mga team na pinagsama ang Sonnet 4.5 sa Claude Code ay maaaring mag-deploy ng mga ahente na nagsasarili ng mga kahinaan sa patch bago sila pinagsamantalahan, inililipat ang pagtuon mula sa reaktibong pagtuklas patungo sa proactive na pagtatanggol.
Sa pananalapi, tinutugunan ng modelo ang pagsusuri ng input at kumplikadong mga hulaHalimbawa, sinusubaybayan nito ang mga pandaigdigang pagbabago sa regulasyon at aktibong inaangkop ang mga sistema ng pagsunod, na umuunlad mula sa manu-manong paghahanda sa pag-audit hanggang sa matalinong pamamahala sa peligro.
Sa pagiging produktibo sa negosyo, mahusay siya sa paglikha at pag-edit mga file sa opisina (mga dokumento, sheet, mga presentasyon)At sa pagsasaliksik, maaari mong subaybayan ang mga panloob at panlabas na mapagkukunan upang i-synthesize ang kaalaman sa mga kumplikadong landscape ng impormasyon.
Sa nilalaman, mahusay siya sa pagsusulat na may pag-unawa sa nuance at tono, pagbuo ng mas nakakahimok na mga teksto at pagsusuri sa mas malalim na antas ng semantiko, isang mahalagang punto para sa marketing, teknikal na dokumentasyon o corporate na komunikasyon.
Pagganap at sukatan
Ang data na ipinakita ng Anthropic ay naglalagay ng Sonnet 4.5 sa 77,2% in Na-verify ang SWE-bench, ang pinakamahusay na pagganap ng programming hanggang sa kasalukuyan. Sa OSWorld, nakamit nito ang 61,4% na rating, na pinagsama ang posisyon nito bilang pinakamahusay na modelong gumagamit ng computer. Ang mga sukatan na ito ay sinamahan ng pagpapatakbo na ebidensya ng mga gawain na tumatagal ng higit sa 30 oras at isang output na kapasidad na 64K token.
Sinasabi ng kumpanya na ang Sonnet 4.5 ay nagbibigay ng kapangyarihan sa mga ahente sa mga high-demand na sektor tulad ng pagsusuri sa pananalapi, cybersecurity at pananaliksik, pag-coordinate ng ilang ahente at pagproseso ng malalaking volume ng data nang may pagiging maaasahan na hinihiling ng mga domain na ito.
Ebolusyon ng pamilyang Sonnet at ang lugar ng 4.5
Upang maunawaan ang paglukso, kailangan mong tumingin pabalik. Ipinakilala ng Sonnet 3.7 ang isang modelo ng hybrid na pangangatwiran na makabuluhang nagpabuti ng coding, pagbuo ng nilalaman, at pagsusuri ng data. Pagkatapos, Sonnet 4 pinagsama-sama ang diskarteng iyon sa praktikal na pagganap ng hangganan para sa mga katulong ng gumagamit at mga gawaing may mataas na dami.
Itinayo ng Sonnet 4.5 ang trajectory na iyon at isulong ito nang higit pa: ang ambisyon nito ay maging ang mas tumpak na opsyon para sa mahabang gawain, kumplikadong ahente at paggamit ng computer, na may higit na kaalaman sa domain sa programming, finance, at cybersecurity.
Ano ang mga totoong kaso at ang sinasabi ng komunidad
Sinabi ni Anthropic na inilagay nila ang Sonnet 4.5 upang gumana nang 30 oras nang diretso upang makabuo ng isang Slack replicaAyon sa kumpanya, nakabuo ang ahente ng 11.000 linya ng code nang walang pangangasiwa at huminto pagkatapos makumpleto ang gawain. Noong Mayo, ang modelong Opus 4 nito ay gumana nang humigit-kumulang pitong oras, kaya pinarami ng bagong brand ang record na iyon.
Mukhang malakas ang kwento, ngunit lumalabas ang mga nuances sa kabila ng materyal na pang-promosyon. Iniulat ng mga developer tulad ni @midudev na ni-refactor ng modelo ang buong proyekto sa isang pagtuturo—paglalapat ng mga pattern tulad ng malinis na arkitektura at bumubuo ng daan-daan o libu-libong linya—ngunit hindi gumana ang resulta noong pinagsama-sama. Ang iba ay nag-uulat ng parehong bagay: code na may hindi nagkakamali na istraktura at propesyonal na hitsura, kahit na sira sa runtime.
Itinuro din na hindi ipinakita ng Anthropic ang dapat na Slack app na tumatakbo mula simula hanggang katapusan, ngunit sinabi na ito ay binuo, isang makabuluhang agwat sa pagitan ng pakikipag-usap at ipakita gamit ang nabe-verify na codeAng pattern na ito ay hindi natatangi: sa buong industriya, nagiging mas mahusay ang mga modelo sa pagbuo ng code na mukhang mahusay, ngunit madalas pa rin silang hindi makagawa ng mga functional na solusyon nang walang makabuluhang interbensyon ng tao.
Mula sa loob, ipinaliwanag ng kumpanya na ang mga pagpapabuti ay nagulat sa sarili nitong koponan. Itinuro ni Dianne Penn na ang modelo ay tatlong beses na mas mahusay sa paggamit ng mga computer kaysa sa bersyon ng Oktubre at na sila ay nagtatrabaho dito sa nakaraang buwan. Feedback ng GitHub at Cursor. Ang Canva, bilang isang beta tester, ay nagsasabing nakakatulong ito sa "kumplikado, pangmatagalang mga gawain." Inihambing ito ni Scott White sa antas ng trabaho sa "punong kawani": pag-aayos ng mga agenda, pagsusuri ng data, at pagsulat ng mga ulat.
Ang pagbabasa sa pagitan ng mga linya ay malinaw: kahit na may isang malakas na modelo, mayroong isang pangangailangan mga virtual machine, memorya at pamamahala ng konteksto, suporta sa maraming ahente at mga sistema ng pahintulot upang magdala ng mas maaasahang mga ahente sa produksyon. Ito mismo ang puwang na nilalayon ng Agent SDK at ng mga bagong feature ng platform na punan.
Kumpetisyon at pagpoposisyon sa merkado
Ang paglabas ng Sonnet 4.5 ay nakikita bilang bahagi ng isang maigting na labanan: Ang OpenAI ay sumusulong kasama ang susunod na henerasyon nito at ang Google giit kay Gemini, gumagalaw na mga piraso na pumipilit sa amin na pabilisin ang aming lakad. Sa kontekstong ito, ang mga pangmatagalang ahente, direktang paggamit ng computer, at autonomous programming ay mga vectors kung saan ang karamihan sa halaga ng negosyo ay pinagtatalunan.
Ang sinumang kumbinsihin ang mga kumpanya na maaari nilang i-automate ang mga tunay na daloy nang may kontrol at pagiging maaasahan ay makakakuha paglilisensya at malalaking deploymentAng Anthropic ay tumataya na ang kumbinasyon ng isang makapangyarihang modelo at ang tamang imprastraktura—ang sarili nito—ay tutulay sa agwat sa pagitan ng mga demonstrasyon at patuloy na operasyon.
Mga rekomendasyon sa pag-ampon at mabubuting gawi
Kung seryoso kang subukan ang Sonnet 4.5, tandaan na ang awtonomiya ay hindi dumarating nang libre. Ang mga aksyon na maaaring gawin ng modelo—pagbabasa at pagbabago ng mga file, ilipat ang data, magsagawa ng mga utos, mag-navigate—nangangailangan ng malinaw na mga panuntunan at pangangasiwa. Ang pagpapagana ng mga sistema ng pahintulot, pag-audit ng mga log, at pagtatatag ng mga limitasyon para sa interbensyon ng tao ay kritikal sa pagbabawas ng mga panganib.
Sa mga daloy ng code, tinutulungan ka ng mga checkpoint ng Claude Code at memorya ng API na ligtas na umulit. Gayunpaman, magandang ideya na i-automate ang mga pipeline ng pagsubok at pagpapatunay, at ipakilala ang modelo sa mga kontroladong yugto (mula sa mga gawaing mababa ang epekto hanggang sa mga kritikal na bahagi) bago magtalaga ng mga pangunahing responsibilidad.
Kung saan magbabasa nang higit pa at kung paano magsimula
Inirerekomenda ni Anthropic ang pag-upgrade sa Sonnet 4.5 para sa lahat ng gamit: mga app, API, at Claude Code. Ipinakikita nito ang modelo bilang a direktang pagpapalit ng mas mahusay na pagganap sa parehong presyoAng mga bagong feature ng Claude Code ay available sa lahat ng user; ang platform ng developer—kabilang ang Agent SDK—ay available sa buong komunidad ng developer; at ang code execution at paggawa ng file sa mga app ay available sa lahat ng bayad na plan.
Para sa mga teknikal na detalye at mga resulta ng pagsusuri, itinuturo ng kumpanya ito system card, pahina ng modelo at dokumentasyon, pati na rin ang mga engineering publication at isang research post sa cybersecurity. Ang mga interesadong mag-eksperimento sa real-time na pagbuo ng software ay maaaring ma-access ang "Imagine with Claude" sa loob ng ilang araw.
Ang larawang ipininta ng mga anunsyo na ito ay isang modelo na nagtataas ng bar para sa mga ahente, code, at paggamit ng computer, habang pinapalakas ang scalability, seguridad, at mga tool ng developer. Ito ay nananatiling upang makita kung hanggang saan ang pagsasanay ay tumutugma sa teorya, ngunit mayroon kongkretong mga palatandaan ng kapanahunan at isang pare-parehong plano upang isara ang agwat sa pagitan ng "mahusay na pakikipag-usap" at "paggawa ng mabuti."
Talaan ng nilalaman
- Ano ang Claude Sonnet 4.5 at ano ang ipinangako nito?
- Mga Update sa Ecosystem: Claude Code, Apps, at Platform
- Claude Agent SDK: Ang mga bloke ng gusali para sa pagbuo ng sarili mong mga ahente
- Preview ng Pananaliksik: "Imagine with Claude"
- Kaligtasan, pagkakahanay at antas ng ASL-3
- Availability, integration at pagpepresyo
- Mga Itinatampok na Kaso ng Paggamit
- Pagganap at sukatan
- Ebolusyon ng pamilyang Sonnet at ang lugar ng 4.5
- Ano ang mga totoong kaso at ang sinasabi ng komunidad
- Kumpetisyon at pagpoposisyon sa merkado
- Mga rekomendasyon sa pag-ampon at mabubuting gawi
- Kung saan magbabasa nang higit pa at kung paano magsimula