Claude Sonnet 4.5: agentes que programan, usan el ordenador y no pierden el hilo

Última actualización: 6 de octubre de 2025
  • Sonnet 4.5 impulsa agentes duraderos, mejor código y uso fiable del ordenador, con 64K tokens de salida y foco de más de 30 horas.
  • Actualiza Claude Code (checkpoints, terminal, VS Code), añade memoria y edición de contexto en API y estrena el Agent SDK.
  • Avanza en seguridad (ASL-3, menos falsos positivos, defensa ante prompt injection) y rinde alto en SWE-bench y OSWorld.
  • Disponible en Claude.ai, API, Bedrock y Vertex AI, con precios de 3$/15$ y ahorros por caché y lotes.

Modelo de IA para programación y agentes

La llegada de Claude Sonnet 4.5 ha encendido el tablero de la IA aplicada a agentes y desarrollo de software, con promesas que van desde la programación autónoma y el manejo del ordenador hasta avances palpables en razonamiento y matemáticas. Anthropic lo presenta como su modelo más capaz hasta la fecha, con un enfoque muy claro: convertir a Claude en algo más que un asistente de conversación, empujándolo hacia el terreno del «agente que actúa».

En paralelo, la compañía refuerza su ecosistema con mejoras en Claude Code, nuevas herramientas para desarrolladores y una capa de seguridad y alineamiento más estricta. El discurso es ambicioso: el mejor modelo para agentes, código y uso informático, sostenido por métricas como SWE-bench Verified y OSWorld, además de una batería de funciones que pretenden facilitar tareas de largo recorrido y mayor complejidad.

Qué es y qué promete Claude Sonnet 4.5

Anthropic describe Sonnet 4.5 como su modelo más potente en áreas críticas: construcción de agentes complejos, generación y mantenimiento de código y control del ordenador. No se queda solo en la etiqueta; la compañía asegura mejoras claras en razonamiento y matemáticas, dos pilares que marcan la diferencia cuando los proyectos implican múltiples pasos y dependencias.

Uno de los titulares más llamativos es su capacidad para sostener tareas complejas durante más de 30 horas seguidas, manteniendo el foco sin intervención directa. En un plano práctico, eso se traduce en que un agente puede persistir en trabajos largos y coordinados sin perder el hilo. Además, el modelo admite salidas de hasta 64.000 tokens, algo muy útil para planificación detallada y generación de bloques de código extensos.

En benchmarks públicos, Anthropic afirma que Sonnet 4.5 es estado del arte en SWE-bench Verified, una evaluación que mide la resolución de problemas reales de software. También destaca en OSWorld con un 61,4%, lo que indica avances notables en tareas reales en entornos de escritorio. La propia compañía compara ese 61,4% con el 42,2% que obtuvo Sonnet 4 hace unos meses, una subida que no es trivial.

Más allá del rendimiento bruto, la casa subraya que es su modelo «de frontera» más alineado: se han reducido comportamientos preocupantes como la adulación excesiva, la búsqueda de poder o la tendencia a apoyar razonamientos delirantes, y se ha reforzado la defensa contra ataques de prompt injection en escenarios de uso del ordenador y capacidades agentes.

Funciones y casos de uso de Claude Sonnet

Novedades en el ecosistema: Claude Code, apps y plataforma

Sonnet 4.5 llega acompañado de una actualización grande de producto. En Claude Code se introducen los checkpoints (puntos de control), una de las funciones más pedidas: guardan el progreso y permiten volver a estados anteriores al instante. Para cualquiera que desarrolle con iteraciones largas, este cambio reduce fricciones y da confianza para explorar caminos sin miedo a romperlo todo.

A esto se suma un lavado de cara de la interfaz de terminal y el lanzamiento de una extensión nativa para Visual Studio Code, con la idea de integrar a Claude directamente en el IDE donde vive el día a día del programador. Un empujón relevante si se pretende que el modelo tome un papel más operativo y menos periférico.

Por el lado de la API, hay dos piezas clave: edición de contexto y una nueva herramienta de memoria para almacenar y consultar información. En conjunto, esto permite ejecutar agentes más tiempo, filtrando contexto obsoleto y manteniendo accesible lo que de verdad importa, algo esencial cuando los flujos de trabajo duran horas y los requisitos cambian sobre la marcha.

  Aprender a Programar: 7 Razones por las que Debes Empezar Hoy Mismo

En las apps de Claude, otra novedad importante: la ejecución de código y la creación de archivos (documentos, hojas de cálculo y presentaciones) dentro de la conversación. Esto habilita que el modelo analice datos, genere contenido y lo materialice en formatos de oficina sin salir del chat, acercando teoría y práctica al mismo hilo.

Por último, la extensión oficial de Claude para Chrome está disponible para los usuarios Max que se unieron a la lista de espera, abriendo la puerta a automatizar tareas de navegador con menos fricción y más fiabilidad.

Claude Agent SDK: los pilares para construir tus propios agentes

Anthropic no se limita a enseñar lo que puede hacer su producto estrella; también ofrece las piezas para que otros lo construyan a medida. El nuevo Claude Agent SDK comparte la infraestructura que hace posible Claude Code, y está pensado para abordar problemas duros: gestión de memoria en tareas de larga duración, sistemas de permisos que equilibren autonomía con control del usuario y coordinación entre subagentes que trabajan hacia un objetivo común.

La propuesta es convertir este SDK en una base reutilizable, de forma que cualquier equipo pueda levantar su propio agente sobre herramientas probadas en producción. Anthropic sostiene que, aunque nació para casos de código, muestra beneficios en una variedad muy amplia de tareas.

Vista previa de investigación: «Imagina con Claude»

Junto a Sonnet 4.5, Anthropic ofrece una experiencia temporal llamada «Imagina con Claude». En este experimento, el modelo genera software sobre la marcha sin funcionalidades predeterminadas, reaccionando a la interacción del usuario en tiempo real. Es, en esencia, una ventana a lo que se abre cuando se combina un modelo capaz con una infraestructura adecuada.

La vista previa está disponible durante cinco días para suscriptores Max y se accede desde claude.ai/imagine. La compañía lo plantea como un escaparate lúdico pero revelador de hasta dónde puede llegar Sonnet 4.5 en generación y adaptación.

Seguridad, alineamiento y nivel ASL-3

El despliegue de Sonnet 4.5 se ampara en el nivel de seguridad ASL-3, un marco que ajusta capacidades del modelo con salvaguardas apropiadas. Entre las medidas figuran clasificadores que buscan detectar entradas y salidas potencialmente peligrosas, con foco en ámbitos CBRN (químico, biológico, radiológico y nuclear).

Anthropic reconoce que estos clasificadores pueden a veces marcar contenidos legítimos, y para no interrumpir al usuario ofrece seguir la conversación con Sonnet 4, que presenta menor riesgo CBRN. Desde que describieron por primera vez estos filtros han reducido los falsos positivos por un factor de diez, y desde el lanzamiento de Claude Opus 4 en mayo, por un factor de dos. La promesa es que la discernibilidad de los clasificadores sigue mejorando.

La alineación va más allá de filtros: el entrenamiento y las evaluaciones de seguridad incluyen por primera vez pruebas inspiradas en interpretabilidad mecanicista, con el objetivo de entender y controlar mejor el comportamiento interno del modelo. Además, se han reforzado defensas ante prompt injection, especialmente relevantes cuando el sistema navega, opera en escritorios virtuales o ejecuta acciones.

Disponibilidad, integración y precios

Claude Sonnet 4.5 está disponible en todas partes hoy. Los desarrolladores pueden usarlo a través de la Claude API invocando el modelo «claude-sonnet-4-5». El precio se mantiene respecto a la generación anterior: 3 dólares por millón de tokens de entrada y 15 dólares por millón de tokens de salida.

Anthropic añade ventajas de coste con su infraestructura: hasta un 90% de ahorro con caché de prompts y un 50% adicional con procesamiento por lotes, cifras pensadas para cargas de trabajo de volumen alto. Para usuarios finales, se puede chatear con Sonnet 4.5 en Claude.ai (web, iOS y Android), y para empresas está disponible de forma nativa en la Claude Developer Platform, además de Amazon Bedrock y Google Cloud Vertex AI.

En el plano comercial, se menciona un plan gratuito con límite de sesiones que se reinicia cada cinco horas y un número variable de mensajes según demanda. Y para tareas de programación complejas, Claude Code actúa como el agente líder de la casa.

  Los mejores trucos para crear prompts efectivos en inteligencia artificial

Casos de uso destacados

Sonnet 4.5 se presenta como el modelo idóneo para agentes: puede responder casi al instante o desplegar pensamiento paso a paso visible cuando la tarea lo exige. Los usuarios de API controlan con precisión cuánto tiempo se «piensa» el modelo, eligiendo entre rapidez y profundidad.

En desarrollo de software, cubre el ciclo completo: planificación, generación, mantenimiento, corrección de errores y refactorizaciones de gran envergadura. El contexto de salida amplio (hasta 64K tokens) facilita la producción de planes y código extensos coherentes.

En uso de navegador y ordenador, lidera su categoría: completa flujos reales desde análisis competitivo y compras hasta onboarding de clientes en la web. La intención es que la precisión y fiabilidad sigan mejorando con el tiempo.

En ciberseguridad, los equipos que combinan Sonnet 4.5 con Claude Code pueden desplegar agentes que parchean vulnerabilidades de manera autónoma antes de que sean explotadas, moviendo el foco desde la detección reactiva hacia la defensa proactiva.

En finanzas, el modelo aborda análisis de entrada y predicciones complejas; por ejemplo, monitoriza cambios regulatorios globales y adapta sistemas de cumplimiento de forma preventiva, evolucionando de la preparación manual de auditorías a la gestión inteligente del riesgo.

En productividad de negocio, destaca creando y editando archivos de oficina (documentos, hojas, presentaciones). Y en investigación, puede rastrear fuentes internas y externas para sintetizar conocimientos en paisajes informativos complejos.

En contenido, sobresale escribiendo con comprensión del matiz y el tono, generando textos más convincentes y analizando en un nivel semántico más profundo, un punto valioso para marketing, documentación técnica o comunicación corporativa.

Rendimiento y métricas

Los datos que presenta Anthropic sitúan a Sonnet 4.5 en 77,2% en SWE-bench Verified, su mejor registro hasta la fecha en programación. En OSWorld alcanza el 61,4%, consolidándolo como su mejor modelo «computer-using». Estas métricas vienen acompañadas del testimonio operacional de tareas de más de 30 horas y la capacidad de salida de 64K tokens.

La compañía afirma que Sonnet 4.5 potencia agentes en sectores de alta exigencia como análisis financiero, ciberseguridad e investigación, coordinando varios agentes y procesando grandes volúmenes de datos con la fiabilidad que estos dominios demandan.

Evolución de la familia Sonnet y el lugar de 4.5

Para entender el salto, hay que mirar atrás. Sonnet 3.7 introdujo un modelo de razonamiento híbrido que mejoró de forma notable la codificación, la generación de contenidos y el análisis de datos. Después, Sonnet 4 consolidó ese enfoque con un rendimiento de frontera práctico para asistentes de usuario y tareas de alto volumen.

Sonnet 4.5 se apoya en esa trayectoria y la lleva un paso más allá: su ambición es ser la opción más precisa para tareas largas, agentes complejos y uso del ordenador, con mayor conocimiento de dominio en programación, finanzas y ciberseguridad.

Lo que dicen los casos reales y la comunidad

Anthropic ha contado que pusieron a Sonnet 4.5 a trabajar durante 30 horas seguidas para construir una réplica de Slack. Según la compañía, el agente generó 11.000 líneas de código sin supervisión y se detuvo al completar la tarea. En mayo, su modelo Opus 4 había llegado a operar unas siete horas, de modo que la nueva marca multiplica ese registro.

La historia suena potente, pero fuera del material promocional emergen matices. Desarrolladores como @midudev relatan que el modelo refactorizó proyectos enteros en una sola instrucción —aplicando patrones como arquitectura limpia y generando cientos o miles de líneas—, pero el resultado no funcionaba al compilar. Otros reportan lo mismo: código con estructura impecable y apariencia profesional, aunque roto en ejecución.

También se ha subrayado que Anthropic no ha mostrado la supuesta app de Slack operando de principio a fin, sino que ha contado que la construyó, una distancia importante entre comunicar y demostrar con código verificable. Este patrón no es exclusivo: en toda la industria, los modelos mejoran generando código que parece muy bueno, pero siguen fallando a menudo en producir soluciones funcionales sin intervención humana significativa.

  GPT-4b Micro: OpenAI y su IA que revoluciona la longevidad humana

Desde dentro, la empresa explica que las mejoras sorprendieron a su propio equipo. Dianne Penn apunta que el modelo es tres veces más hábil usando ordenadores que la versión de octubre y que el último mes han trabajado con feedback de GitHub y Cursor. Canva, como beta tester, dice que ayuda con «tareas complejas de largo contexto». Scott White lo compara con el «nivel de un jefe de gabinete»: coordina agendas, analiza datos y redacta informes.

La lectura entre líneas es clara: incluso con un modelo fuerte, hacen falta máquinas virtuales, gestión de memoria y de contexto, soporte multiagente y sistemas de permisos para llevar a producción agentes más fiables. Ese es precisamente el hueco que el Agent SDK y las nuevas funciones de la plataforma intentan cubrir.

Competencia y posicionamiento en el mercado

El lanzamiento de Sonnet 4.5 se interpreta dentro de una pugna tensa: OpenAI avanza con su próxima generación y Google insiste con Gemini, moviendo fichas que obligan a acelerar el paso. En este contexto, los agentes de larga duración, el uso directo del ordenador y la programación autónoma son vectores donde se disputa gran parte del valor empresarial.

Quien convenza a las compañías de que puede automatizar flujos reales con control y fiabilidad, capturará licencias y despliegues a gran escala. Anthropic apuesta por que la mezcla de un modelo potente y la infraestructura adecuada —la suya— cierre la brecha entre demostraciones y operación sostenida.

Recomendaciones de adopción y buenas prácticas

Si vas a probar Sonnet 4.5 en serio, ten presente que la autonomía no es gratis. Las acciones que el modelo puede ejecutar —leer y modificar archivos, mover datos, ejecutar comandos, navegar— requieren reglas claras y supervisión. Activar sistemas de permisos, auditar logs y establecer umbrales de intervención humana es crítico para reducir riesgos.

En flujos de código, los checkpoints de Claude Code y la memoria de la API ayudan a iterar con seguridad. Aun así, conviene automatizar pruebas y pipelines de validación, e introducir el modelo en etapas controladas (desde tareas de bajo impacto a componentes críticos) antes de delegar grandes responsabilidades.

Dónde leer más y cómo empezar

Anthropic recomienda actualizar a Sonnet 4.5 en todos los usos: apps, API y Claude Code. Presenta el modelo como un reemplazo directo con mejor rendimiento al mismo precio. Las novedades de Claude Code están disponibles para todos los usuarios; las de la plataforma de desarrolladores —incluido el Agent SDK— para todo el colectivo developer; y la ejecución de código y creación de archivos en las apps, en todos los planes de pago.

Para detalles técnicos y resultados de evaluación, la compañía apunta a su system card, página del modelo y documentación, además de publicaciones de ingeniería y un post de investigación en ciberseguridad. Quien quiera experimentar con generación de software en tiempo real tiene durante unos días «Imagina con Claude».

El retrato que dejan estos anuncios es el de un modelo que sube el listón en agentes, código y uso del ordenador, mientras refuerza escalabilidad, seguridad y herramientas para desarrolladores. Falta ver hasta qué punto la práctica acompaña a la teoría, pero hay signos concretos de madurez y un plan consistente para cerrar la brecha entre el «habla bien» y el «hace bien».

claude 4-1
Artículo relacionado:
Claude 4: Anthropic renueva la inteligencia artificial con modelos avanzados para programación y agentes autónomos