Claude Sonnet 4.5: Agenten die programmeren, computers gebruiken en op het goede spoor blijven

Laatste update: 6 oktober 2025
  • Sonnet 4.5 levert duurzame agents, betere code en betrouwbaar computergebruik, met 64K outputtokens en een focus van meer dan 30 uur.
  • Claude Code-updates (controlepunten, terminal, VS Code), voegt geheugen- en contextbewerking toe aan de API en start de Agent SDK.
  • De beveiliging is verbeterd (ASL-3, minder fout-positieve resultaten, bescherming tegen snelle injectie) en de resultaten zijn goed in SWE-bench en OSWorld.
  • Beschikbaar op Claude.ai, API, Bedrock en Vertex AI, met prijzen van $ 3 tot $ 15, met kortingen op caching en batching.

AI-model voor programmering en agenten

De komst van Claude Sonnet 4.5 heeft het bestuur van AI toegepast op agenten en softwareontwikkeling verlicht, met beloften variërend van de autonome programmering en computerverwerking tot tastbare vooruitgang in redeneren en wiskunde. Anthropic presenteert hem als hun meest capabele model tot nu toe, met een zeer duidelijke focus: Claude omvormen tot meer dan een conversatie-assistent, hem de rol van "acteur" opdringen.

Tegelijkertijd versterkt het bedrijf zijn ecosysteem met verbeteringen aan Claude Code, nieuwe tools voor ontwikkelaars en een sterkere beveiligings- en afstemmingslaag. De pitch is ambitieus: het beste model voor het gebruik van agenten, code en computers, ondersteund door statistieken zoals SWE-bench Verified en OSWorld, naast een reeks functies die gericht zijn op het vergemakkelijken van langetermijn- en complexere taken.

Wat is Claude Sonnet 4.5 en wat belooft het?

Anthropic beschrijft Sonnet 4.5 als het krachtigste model op cruciale gebieden: het bouwen van complexe agenten, het genereren en onderhouden van code en het besturen van de computerHet is niet zomaar een label; het bedrijf claimt duidelijke verbeteringen in redeneren en wiskunde, twee pijlers die het verschil maken bij projecten met meerdere stappen en afhankelijkheden.

Een van de meest opvallende kenmerken is het vermogen om complexe taken meer dan 30 uur achter elkaar uit te voeren, zonder directe tussenkomst, en daarbij de focus te behouden. In de praktijk betekent dit dat een agent... volharden in langdurig en gecoördineerd werk zonder de draad te verliezen. Bovendien ondersteunt het model outputs tot 64.000 tokens, wat zeer nuttig is voor gedetailleerde planning en het genereren van grote codeblokken.

In openbare benchmarks beweert Anthropic dat Sonnet 4.5 state-of-the-art is in SWE-bench Verified, een evaluatie die de oplossing van softwareproblemen in de praktijk meet. Het scoort ook hoog in OSWorld met een score van 61,4%, wat duidt op aanzienlijke vooruitgang. taken uit de echte wereld in desktopomgevingenHet bedrijf zelf vergelijkt die 61,4% met de 42,2% die Sonnet 4 enkele maanden geleden realiseerde. Een stijging die niet triviaal is.

Naast de pure prestaties benadrukt het huis dat het zijn meest geëigende 'grensmodel' is: zorgwekkend gedrag zoals overmatige vleierij, zoektocht naar macht of de neiging om waandenkbeelden te ondersteunenen de verdediging tegen directe injectieaanvallen is versterkt in computergebruikscenario's en agentcapaciteiten.

Kenmerken en gebruiksscenario's van Claude Sonnet

Ecosysteemupdates: Claude Code, apps en platform

Sonnet 4.5 wordt geleverd met een belangrijke productupdate. Claude Code introduceert het volgende: controlepunten, een van de meest gevraagde functies: ze slaan de voortgang op en stellen je in staat om direct terug te keren naar eerdere statussen. Voor iedereen die met lange iteraties ontwikkelt, vermindert deze verandering de frictie en geeft het je het vertrouwen om nieuwe paden te verkennen zonder angst om alles te breken.

Hierbij komt een facelift van de terminalinterface en de lancering van een native extensie voor Visual Studio Code, met het idee om Claude direct te integreren in de IDE waar de dagelijkse routine van de programmeur plaatsvindt. Een aanzienlijke verbetering als het model een meer operationele en minder perifere rol moet gaan vervullen.

Aan de API-kant zijn er twee belangrijke onderdelen: contextbewerking en een nieuwe geheugentool voor het opslaan en ophalen van informatieHierdoor kunnen medewerkers langer doorwerken, verouderde context filteren en toegankelijk blijven wat er echt toe doet. Dat is essentieel wanneer workflows uren duren en vereisten voortdurend veranderen.

  Wat is generatieve AI? Details, voorbeelden en risico's

In Claude's apps is er nog een belangrijke nieuwe functie: code-uitvoering en het aanmaken van bestanden (documenten, spreadsheets en presentaties) binnen het gesprek. Dit maakt het model mogelijk data analyseren, content genereren en materialiseren in officeformaten zonder de chat te verlaten, waardoor theorie en praktijk samenkomen.

Eindelijk is de officiële Claude Chrome-extensie beschikbaar voor Max-gebruikers die zich op de wachtlijst hebben geplaatst, waardoor de deur wordt geopend naar browsertaken automatiseren met minder wrijving en meer betrouwbaarheid.

Claude Agent SDK: De bouwstenen voor het bouwen van uw eigen agenten

Anthropic laat niet alleen zien wat zijn vlaggenschip kan, maar biedt ook de onderdelen aan waarmee anderen het op maat kunnen bouwen. De nieuwe Claude Agent SDK Het maakt gebruik van de infrastructuur die Claude Code mogelijk maakt en is ontworpen om lastige problemen aan te pakken: geheugenbeheer in langlopende taken, toestemmingssystemen die autonomie in evenwicht brengen met gebruikerscontrole en coördinatie tussen subagenten die naar een gemeenschappelijk doel werken.

Het voorstel is om deze SDK om te zetten in een herbruikbare basis, zodat elk team er zijn eigen agent op kan bouwen. productiegeteste gereedschappenAnthropic beweert dat het weliswaar is ontwikkeld voor codegevallen, maar dat het voordelen biedt bij een zeer breed scala aan taken.

Onderzoeksvoorbeeld: "Imagine with Claude"

Samen met Sonnet 4.5 biedt Anthropic een tijdelijke ervaring aan genaamd "Imagine with Claude". In dit experiment wordt het model genereert software on the fly zonder vooraf bepaalde functionaliteiten, die in realtime reageert op gebruikersinteractie. Het is in essentie een venster naar wat er ontstaat als je een capabel model combineert met de juiste infrastructuur.

De preview is vijf dagen lang beschikbaar voor Max-abonnees en is te vinden op claude.ai/imagine. Het bedrijf presenteert het als een speelse maar onthullende showcase van Hoe ver kan Sonnet 4.5 gaan? in generatie en adaptatie.

Veiligheid, uitlijning en ASL-3 niveau

De implementatie van Sonnet 4.5 valt onder het ASL-3-beveiligingsniveau, een raamwerk dat zich aanpast modelcapaciteiten met passende waarborgenMaatregelen omvatten classificaties die potentieel gevaarlijke in- en uitgangen detecteren, met een focus op CBRN-gebieden (chemisch, biologisch, radiologisch en nucleair).

Anthropic erkent dat deze classificatoren soms legitieme content kunnen markeren en biedt, om de gebruiker niet te onderbreken, aan om het gesprek voort te zetten met Sonnet 4, dat een lager CBRN-risico met zich meebrengt. Sinds ze deze filters voor het eerst beschreven, hebben ze het aantal valspositieve meldingen met een factor tien verminderd, en sinds de lancering van Claude Opus 4 in mei met een factor twee. De belofte is dat de de onderscheidbaarheid van classificatoren blijft verbeteren.

Het aanbod gaat verder dan filters: trainingen en beveiligingsbeoordelingen omvatten tests die zijn geïnspireerd op de eerste keer mechanistische interpreteerbaarheid, met als doel het interne gedrag van het model beter te begrijpen en te beheersen. Bovendien zijn de verdedigingen tegen prompte injectie versterkt, met name relevant wanneer het systeem bladert, op virtuele desktops werkt of acties uitvoert.

Beschikbaarheid, integratie en prijzen

Claude Sonnet 4.5 is vanaf vandaag overal beschikbaar. Ontwikkelaars kunnen het gebruiken via de Claude API door het model aan te roepen. Claude Sonnet 4-5De prijs blijft hetzelfde als bij de vorige generatie: $3 per miljoen input-tokens en $15 per miljoen output-tokens.

Anthropic voegt kostenvoordelen toe met zijn infrastructuur: tot 90% besparing met snelle caching en nog eens 50% met batchverwerking, cijfers die zijn ontworpen voor workloads met een hoog volume. Eindgebruikers kunnen met Sonnet 4.5 chatten op Claude.ai (web, iOS en Android), en voor bedrijven is het standaard beschikbaar op het Claude Developer Platform, naast Amazon Bedrock en Google Cloud Vertex AI.

Aan de commerciële kant wordt een gratis plan genoemd met sessielimiet die elke vijf uur opnieuw wordt ingesteld en een variabel aantal berichten op aanvraag. En voor complexe programmeertaken fungeert Claude Code als interne lead agent.

  Ontdek Qt Creator IDE: de krachtigste omgeving voor het maken van platformonafhankelijke apps

Uitgelichte gebruiksscenario's

Sonnet 4.5 wordt gepresenteerd als het ideale model voor agenten: het kan vrijwel direct reageren of een agent inzetten stapsgewijs denken zichtbaar wanneer de taak daarom vraagt. API-gebruikers bepalen nauwkeurig hoe lang het model "denkt" en kiezen daarbij tussen snelheid en diepte.

Bij softwareontwikkeling omvat het de volledige cyclus: planning, generatie, onderhoud, foutcorrectie en grote refactoringsDankzij de grote uitvoercontext (tot 64K tokens) kunt u eenvoudig samenhangende, grote plannen en code produceren.

In browser- en desktopgebruik is het toonaangevend in zijn categorie: het voltooit echte stromen van concurrentieanalyse en inkoop tot klant-onboarding via het web. Het doel is dat de nauwkeurigheid en betrouwbaarheid in de loop der tijd blijven verbeteren.

In cyberbeveiliging kunnen teams die Sonnet 4.5 combineren met Claude Code agenten inzetten die kwetsbaarheden autonoom patchen voordat ze worden uitgebuit, waardoor de focus verschuift van reactieve detectie naar proactieve verdediging.

In de financiën richt het model zich op input-analyse en complexe voorspellingenZo houdt het bijvoorbeeld toezicht op wereldwijde wijzigingen in de regelgeving en past het compliancesystemen proactief aan, van handmatige auditvoorbereiding tot intelligent risicomanagement.

Op het gebied van zakelijke productiviteit blinkt hij uit in het maken en bewerken van kantoorbestanden (documenten, spreadsheets, presentaties)En bij onderzoek kun je interne en externe bronnen traceren om kennis uit complexe informatielandschappen te synthetiseren.

Inhoudelijk blinkt hij uit in het schrijven met begrip voor nuance en toon, waardoor hij boeiendere teksten genereert en analyseren op een dieper semantisch niveau, een waardevol punt voor marketing, technische documentatie of bedrijfscommunicatie.

Prestaties en statistieken

De door Anthropic gepresenteerde gegevens plaatsen Sonnet 4.5 op 77,2% SWE-bank geverifieerd, zijn beste programmeerprestaties tot nu toe. In OSWorld behaalde het een score van 61,4%, waarmee het zijn positie als het beste computergebruikende model consolideerde. Deze statistieken gaan vergezeld van operationeel bewijs van taken die meer dan 30 uur duurden en een outputcapaciteit van 64 tokens.

Het bedrijf beweert dat Sonnet 4.5 agenten in sectoren met een hoge vraag, zoals financiële analyse, cyberbeveiliging en onderzoek, waarbij verschillende agenten worden gecoördineerd en grote hoeveelheden gegevens worden verwerkt met de betrouwbaarheid die deze domeinen vereisen.

Evolutie van de Sonnet-familie en de plaats van 4.5

Om de sprong te begrijpen, moet je terugkijken. Sonnet 3.7 introduceerde een model van hybride redenering wat de codering, contentgeneratie en data-analyse aanzienlijk verbeterde. Daarna, Sonnet 4 hebben we die aanpak geconsolideerd met praktische grensverleggende prestaties voor gebruikersassistenten en taken met een hoog volume.

Sonnet 4.5 bouwt voort op dat traject en brengt het nog een stap verder: de ambitie is om de nauwkeurigere optie voor lange taken, complexe agenten en computergebruik, met grotere domeinkennis op het gebied van programmeren, financiën en cyberbeveiliging.

Wat echte gevallen en de gemeenschap zeggen

Anthropic heeft gezegd dat ze Sonnet 4.5 30 uur achter elkaar hebben laten werken om een Slack replicaVolgens het bedrijf genereerde de agent zonder toezicht 11.000 regels code en stopte na voltooiing van de taak. In mei had zijn Opus 4-model ongeveer zeven uur gedraaid, dus het nieuwe merk verveelvoudigt dat record.

Het verhaal klinkt krachtig, maar er komen nuances naar voren die verder gaan dan het promotiemateriaal. Ontwikkelaars zoals @midudev melden dat het model hele projecten in één enkele instructie heeft gerefactoriseerd, door patronen toe te passen zoals schone architectuur en het genereren van honderden of duizenden lijnen—maar het resultaat werkte niet na compilatie. Anderen melden hetzelfde: code met een onberispelijke structuur en professionele uitstraling, hoewel kapot tijdens runtime.

Er is ook op gewezen dat Anthropic de veronderstelde Slack-app niet van begin tot eind in werking heeft laten zien, maar heeft gezegd dat het deze zelf heeft gebouwd, waardoor er een aanzienlijke kloof is tussen de communicatie en demonstreren met verifieerbare codeDit patroon is niet uniek: in de sector worden modellen steeds beter in het genereren van code die er geweldig uitziet, maar zonder aanzienlijke menselijke tussenkomst zijn ze nog steeds vaak niet in staat om functionele oplossingen te produceren.

  Wat is React? Een complete uitleg van de toonaangevende webontwikkelingsbibliotheek

Intern legt het bedrijf uit dat de verbeteringen het eigen team verraste. Dianne Penn wijst erop dat het model drie keer zo handig is met computers als de versie van oktober en dat ze er de afgelopen maand mee hebben gewerkt. GitHub en Cursor-feedbackCanva, een bètatester, zegt dat het helpt bij "complexe, langetermijntaken". Scott White vergelijkt het met het werk van een "stafchef": agenda's coördineren, data analyseren en rapporten schrijven.

De lezing tussen de regels door is duidelijk: zelfs met een sterk model is er behoefte virtuele machines, geheugen- en contextbeheer, ondersteuning voor meerdere agenten en toestemmingssystemen om betrouwbaardere agents in productie te brengen. Dit is precies de lacune die de Agent SDK en de nieuwe functies van het platform willen opvullen.

Concurrentie en marktpositionering

De release van Sonnet 4.5 wordt gezien als onderdeel van een gespannen strijd: OpenAI gaat verder met de volgende generatie en Google staat erop met Gemini, bewegende onderdelen die ons dwingen ons tempo te versnellen. In deze context zijn langetermijnagenten, direct computergebruik en autonome programmering vectoren waar een groot deel van de bedrijfswaarde wordt betwist.

Wie bedrijven ervan overtuigt dat ze echte stromen kunnen automatiseren met controle en betrouwbaarheid, zal de winst binnenhalen. licenties en grootschalige implementatiesAnthropic gokt erop dat de combinatie van een krachtig model en de juiste infrastructuur – een eigen infrastructuur – de kloof tussen demonstraties en aanhoudende operaties zal dichten.

Aanbevelingen en goede praktijken voor adoptie

Als je Sonnet 4.5 serieus wilt uitproberen, houd er dan rekening mee dat autonomie niet gratis is. De acties die het model kan uitvoeren – het lezen en wijzigen van bestanden, gegevens verplaatsen, opdrachten uitvoeren, navigeren - vereisen duidelijke regels en toezicht. Het inschakelen van toestemmingssystemen, het controleren van logs en het vaststellen van drempels voor menselijke tussenkomst zijn cruciaal om risico's te verminderen.

In codestromen helpen de controlepunten en het API-geheugen van Claude Code je om veilig te itereren. Het is echter een goed idee om automatiseer test- en validatiepijplijnenen introduceer het model in gecontroleerde fasen (van taken met een lage impact tot kritieke componenten) voordat belangrijke verantwoordelijkheden worden gedelegeerd.

Waar u meer kunt lezen en hoe u kunt beginnen

Anthropic adviseert een upgrade naar Sonnet 4.5 voor alle toepassingen: apps, API's en Claude Code. Het presenteert het model als een directe vervanging met betere prestaties voor dezelfde prijsDe nieuwe functies van Claude Code zijn beschikbaar voor alle gebruikers; het ontwikkelaarsplatform, inclusief de Agent SDK, is beschikbaar voor de gehele ontwikkelaarscommunity; en code-uitvoering en bestandscreatie in apps zijn beschikbaar bij alle betaalde abonnementen.

Voor technische details en evaluatieresultaten verwijst het bedrijf naar zijn systeemkaart, modelpagina en documentatie, evenals technische publicaties en een onderzoeksartikel over cybersecurity. Geïnteresseerden die willen experimenteren met realtime softwaregeneratie kunnen "Imagine with Claude" een paar dagen lang raadplegen.

Het beeld dat deze aankondigingen schetsen, is dat van een model dat de lat hoger legt voor agents, code en computergebruik, en tegelijkertijd schaalbaarheid, beveiliging en ontwikkelaarstools versterkt. Het valt nog te bezien in hoeverre de praktijk overeenkomt met de theorie, maar er is concrete tekenen van volwassenheid en een consistent plan om de kloof tussen ‘goed praten’ en ‘goed doen’ te dichten.

Claude 4-1
Gerelateerd artikel:
Claude 4: Anthropic herinterpreteert kunstmatige intelligentie met geavanceerde modellen voor programmering en autonome agenten