- GPT-5 y GPT-5.2 mejoran el razonamiento científico y matemático, con resultados punteros en benchmarks como GPQA Diamond y FrontierMath.
- Los modelos actúan como copilotos de investigación: ayudan a resolver problemas abiertos, optimizar experimentos y analizar literatura, pero requieren verificación humana.
- Su adopción se extiende a medicina, laboratorio húmedo, universidades y empresas, impulsando la productividad pero planteando retos éticos, de seguridad y regulación.
El salto de GPT-5 y GPT-5.2 en la investigación científica está redefiniendo la manera en que se hace ciencia: desde las matemáticas más teóricas hasta los experimentos de laboratorio húmedo, pasando por la biología, la física, la medicina o los materiales avanzados. Estos modelos no solo escriben textos; se han empezado a usar como auténticos copilotos de investigación capaces de sugerir hipótesis, ayudar a diseñar experimentos y encontrar patrones en datos que a una persona le llevarían meses.
Al mismo tiempo, OpenAI y el resto del ecosistema científico son muy claros en un punto clave: GPT-5 no es un “científico autónomo” ni un sustituto del método científico humano. Funciona más bien como un asistente con acceso descomunal a literatura, herramientas cuantitativas y capacidad de razonamiento estructurado, que puede acelerar el trabajo, pero que sigue necesitando supervisión experta, verificación y mucho criterio crítico por parte de los investigadores.
GPT-5 y GPT-5.2: nuevas generaciones de modelos para ciencia y matemáticas
OpenAI sitúa el 11 de diciembre de 2025 como fecha clave para la presentación oficial de GPT-5.2, la versión que describe como su modelo más avanzado hasta ahora para tareas científicas y matemáticas. Durante el último año, la compañía ha colaborado estrechamente con investigadores de campos como matemáticas, física, biología y ciencias de la computación para entender de forma práctica dónde la IA aporta valor real y dónde todavía se queda corta.
Este trabajo ha cristalizado en estudios de caso que abarcan disciplinas muy distintas, desde astronomía hasta ciencia de materiales, en los que GPT-5 y, más tarde, GPT-5.2 han intervenido en partes concretas del flujo de investigación: replantear demostraciones, explorar vías alternativas de prueba, revisar código de simulaciones, sintetizar artículos o proponer pequeñas variaciones de protocolos. Según OpenAI, con GPT-5.2 se empieza a ver una mejora no solo puntual, sino más estable y reproducible.
Dentro de la familia GPT-5.2 destacan dos variantes especializadas para ciencia y matemáticas: GPT-5.2 Pro y GPT-5.2 Thinking. Ambas se han optimizado para razonamiento profundo y tareas técnicas exigentes, donde un error sutil puede arruinar un análisis completo. GPT-5.2 Pro prioriza la fidelidad y la precisión, permitiendo un tiempo de razonamiento más amplio, mientras que GPT-5.2 Thinking se centra en decidir de forma inteligente cuándo “pararse a pensar” más y cuándo responder de forma más ágil.
Esta filosofía del “razonamiento escalonado” ya estaba presente en el diseño de GPT-5 con el modo GPT-5 Thinking, que actúa como un enrutador interno capaz de evaluar la complejidad de una consulta, el contexto disponible y las herramientas necesarias (por ejemplo, acceso a Python) antes de producir la respuesta. En preguntas sencillas responde rápido; en problemas complejos activa cadenas de razonamiento más largas y explícitas.
En el día a día, los usuarios pueden escoger entre varios modos de razonamiento de GPT-5: “Auto”, que deja al modelo decidir cuánto tiempo dedicarle al problema; “Instant”, que prioriza la rapidez sobre la profundidad; “Thinking”, para respuestas más meditadas y analíticas; y “Pro”, que es la variante más fiel y exigente, pensada para tareas donde la exactitud prima sobre la velocidad. Conviene recordar que GPT-5 es un modelo de pago, accesible mediante suscripción o pago por uso, algo especialmente relevante para instituciones que gestionan datos sensibles o presupuestos de investigación ajustados.
Rendimiento en benchmarks: GPQA, FrontierMath y FrontierScience
La mejora de GPT-5.2 en investigación científica no se apoya solo en impresiones subjetivas, sino también en resultados en benchmarks especializados. Uno de los más citados es GPQA Diamond, un conjunto de preguntas de opción múltiple a nivel de posgrado que cubre física, química y biología, diseñado para medir razonamiento avanzado y no solo memorización.
En GPQA Diamond, GPT-5.2 Pro alcanza un 93,2 % de aciertos y GPT-5.2 Thinking un 92,4 %, trabajando sin herramientas externas y con el esfuerzo de razonamiento configurado al máximo. Es decir, el modelo tiene que resolver los problemas “a pelo”, únicamente mediante su capacidad interna de análisis. Estas cifras lo colocan claramente por encima de generaciones anteriores y consolidan su papel como asistente en tareas de comprensión y resolución de problemas de nivel muy alto.
Otro test de referencia es FrontierMath (Tier 1-3), una evaluación de matemáticas de especialización avanzada en la que sí se permite el uso de una herramienta de Python. En este escenario, GPT-5.2 Thinking resuelve el 40,3 % de los problemas con el esfuerzo de razonamiento al máximo, porcentajes que, aunque puedan parecer modestos a ojos legos, suponen un salto importante en un terreno donde la mayoría de modelos previos apenas arañaban resultados útiles.
Más allá de los números, OpenAI insiste en que estos avances reflejan una mejora en la capacidad general de abstracción y razonamiento, no una mera habilidad estrecha optimizada para un único benchmark. Relacionan directamente estas capacidades con flujos de trabajo cotidianos en ciencia: programación de simulaciones, análisis estadístico de datos, planteamiento y refinamiento de experimentos o interpretación de resultados.
En paralelo, OpenAI ha introducido un marco más amplio llamado FrontierScience, pensado para evaluar el desempeño de modelos como GPT-5 en problemas científicos genuinamente nuevos, que no forman parte de los datos de entrenamiento. FrontierScience incluye desafíos en biología, química, física, matemáticas, informática y ciencias sociales, diseñados para exigir no solo conocimiento teórico, sino también planificación, pensamiento crítico y generalización.
Los primeros análisis muestran que GPT-5 rinde muy bien cuando la tarea se puede descomponer en pasos lógicos claros, mientras que sigue sufriendo cuando se le pide intuición creativa o comprensión profunda del contexto experimental. Esto encaja con la visión cada vez más extendida entre expertos en IA: los modelos generativos actuales son herramientas de apoyo potentes, pero no reemplazan la creatividad, la intuición ni la responsabilidad del científico humano.
Un caso emblemático: resolución de problemas abiertos en matemáticas
Uno de los ejemplos más llamativos del uso de estos modelos en ciencia pura es el caso de teoría del aprendizaje estadístico en el que GPT-5.2 Pro ayudó a cerrar un problema abierto relacionado con la monotonicidad de las curvas de aprendizaje de estimadores de máxima verosimilitud. La cuestión de fondo es intuitiva: cuando añadimos más datos a un modelo estadístico correctamente especificado, ¿debería disminuir siempre el error esperado o puede empeorar al menos en algunos tramos?
Investigaciones previas habían mostrado que, en determinadas condiciones prácticas, la curva de aprendizaje no siempre es monótona y que, al agregar datos, el error puede subir de forma contraintuitiva. Esta línea de trabajo se remonta a un problema planteado en 2019 en la Conference on Learning Theory (COLT) por Viering, Mey y Loog, que desencadenó múltiples artículos posteriores con ejemplos concretos y estrategias para recuperar la monotonicidad.
Pese a esos avances, quedaba por resolver un caso estándar considerado casi “de libro”: un modelo gaussiano con media conocida y desviación estándar desconocida, donde el modelo estadístico es correcto y los datos siguen una distribución normal idealizada. En ese escenario clásico, el nuevo trabajo concluye que la intuición tradicional se mantiene y que más datos sí implican un error medio que disminuye de forma predecible.
La diferencia clave del estudio, tal y como la cuenta OpenAI, no está solo en el resultado, sino en el proceso. En lugar de guiar al modelo paso a paso con un esquema de demostración detallado, los autores le plantearon directamente el problema abierto a GPT-5.2 Pro y analizaron con lupa la demostración que generó. Posteriormente, validaron el argumento con expertos externos en la materia, revisaron minuciosamente cada paso y, una vez consolidado, utilizaron el modelo para extender el resultado a dimensiones más altas y a otros modelos estadísticos habituales.
Este enfoque ilustra bien el tipo de colaboración emergente entre humanos e IA en investigación teórica: el modelo sugiere posibles rutas de prueba, los humanos ejercen el papel de árbitros rigurosos, corrigen, pulen y deciden qué se acepta como contribución válida. No hay delegación ciega, sino una combinación de exploración automatizada y escrutinio experto.
GPT-5 como copiloto de investigación: del número de Erdős al laboratorio húmedo
Más allá de la estadística teórica, GPT-5 ha protagonizado otros casos de uso muy mediáticos. OpenAI ha hecho público, por ejemplo, un trabajo en el que su modelo ayuda a resolver un complejo problema abierto de teoría de números relacionado con el legado de Erdős, en colaboración con un matemático de la Universidad de Columbia. El modelo contribuyó a explorar conjeturas, verificar pasos intermedios y proponer enfoques alternativos que resultaron fructíferos.
Otro ejemplo que ha llamado mucho la atención es la identificación de un cambio específico en células inmunológicas humanas en cuestión de minutos, una tarea que había consumido meses de esfuerzo a un equipo de científicos. GPT-5 propuso un experimento concreto para comprobar una hipótesis sobre ese cambio; los investigadores replicaron el experimento y confirmaron que la sugerencia era correcta, acortando así de manera notable el ciclo de prueba y error habitual.
Estos resultados se enmarcan en un movimiento más amplio de la industria tecnológica hacia el sector científico. Anthropic, por ejemplo, ha anunciado la integración de su chatbot Claude en herramientas utilizadas por grupos de investigación y empresas de ciencias de la vida. Google ha presentado un “co-científico” pensado para formular nuevas hipótesis y ha destacado que su modelo abierto Gemma contribuyó a descubrir una nueva vía potencial para terapias contra el cáncer.
OpenAI, por su parte, ha creado una unidad científica específica y ha incorporado a figuras como Alex Lupsasca, conocido por su trabajo teórico en agujeros negros. Entre los planes de la compañía está desarrollar una especie de “becario de investigación de IA automatizado” para el corto plazo y, mirando más lejos, una herramienta de investigación prácticamente automatizada de aquí a unos años, siempre bajo la premisa de mantener al investigador humano en el centro del proceso.
En el laboratorio húmedo, GPT-5 y sus sucesores se han probado como asistentes para optimizar protocolos experimentales. A partir de la literatura relevante y de datos previos, el modelo puede sugerir condiciones de temperatura, tiempos de incubación, dosis de reactivos o combinaciones de controles y réplicas. En varios casos reportados, pequeños ajustes propuestos por el modelo han mejorado el rendimiento de reacciones químicas o reducido significativamente el tiempo necesario para obtener resultados útiles.
Uso de GPT-5 en medicina y práctica clínica
Uno de los campos donde GPT-5 está mostrando un impacto práctico muy tangible es la medicina, tanto en la parte asistencial como en investigación clínica. Para empezar, el modelo se ha consolidado como herramienta para el análisis de informes clínicos complejos (laboratorios, pruebas de imagen, informes postoperatorios…), generando resúmenes condensados con los hallazgos clave que ahorran tiempo a los profesionales.
El procedimiento es sencillo: el médico o el investigador introduce el texto del informe o una imagen con el documento y solicita un resumen o la extracción de los puntos más relevantes. GPT-5 devuelve una versión sintética en la que destaca diagnósticos posibles, hallazgos críticos o recomendaciones de seguimiento. Eso sí, siempre bajo la premisa de que el profesional debe revisar y validar la información antes de tomar decisiones.
Otra aplicación potente es la generación de contenido médico de alta calidad, desde resúmenes clínicos hasta borradores de artículos científicos o materiales divulgativos para pacientes. A partir de unas pocas indicaciones en lenguaje natural (por ejemplo, “redacta un resumen sobre un paciente con fiebre persistente y mialgias”), el modelo produce textos coherentes y bien estructurados que los profesionales pueden editar y adaptar a sus necesidades. Contenido médico de alta calidad generado por IA puede acelerar la redacción, siempre con revisión humana.
GPT-5 también puede sugerir diagnósticos diferenciales a partir de síntomas y antecedentes descritos por el profesional. No sustituye el juicio clínico, pero ofrece una lista razonada de posibilidades, pruebas complementarias a considerar o banderas rojas que conviene descartar. En casos como un paciente de 50 años con fatiga, tos seca y disnea, el sistema puede enumerar diagnósticos probables y proponer estudios como radiografía de tórax, analítica, pruebas de función pulmonar o test virales.
En la parte de personalización de la atención, GPT-5 contribuye a ajustar planes de tratamiento y estrategias de prevención en función del perfil del paciente, siempre que los datos se introduzcan de manera anonimizada y respetando escrupulosamente la privacidad. Para un paciente de 70 años con hipertensión, diabetes tipo 2 y enfermedad renal crónica, por ejemplo, el modelo puede enumerar estrategias de manejo integrado, control de factores de riesgo, recomendaciones de estilo de vida y pautas de seguimiento a largo plazo basadas en guías clínicas.
Por último, GPT-5 se está utilizando como buscador inteligente de literatura médica. El profesional plantea una pregunta en lenguaje natural (“¿qué estudios recientes hay sobre telemedicina en enfermedades crónicas?”) y el modelo localiza y resume trabajos relevantes, ayudando a mantenerse al día sin tener que bucear manualmente en bases de datos interminables. Buscadores y herramientas tipo NotebookLM facilitan la organización y el resumen de la literatura para profesionales.
Calidad de las respuestas, alucinaciones y seguridad
Una crítica recurrente a generaciones anteriores de modelos, como O3 y O3-Pro, ha sido su tendencia a las alucinaciones: citar artículos reales pero sacar de ellos conclusiones erróneas o extrapolaciones incorrectas. Investigadores en polímeros para ciencia de materiales o en vías de señalización biológica han reportado que GPT-5 mejora claramente este comportamiento, citando literatura más pertinente y ofreciendo interpretaciones mejor alineadas con los textos originales.
El paper técnico de OpenAI indica que GPT-5 reduce de forma notable los errores factuales respecto a GPT-4o y a su propio modelo o3, especialmente cuando se activa el modo de razonamiento profundo. En entornos controlados, se habla de una disminución cercana al 45 % frente a GPT-4o y hasta del 80 % frente a o3 en determinadas tareas, gracias a una combinación de mejor entrenamiento, técnicas de verificación interna y un diseño más cuidadoso de las políticas de seguridad.
Aun así, el propio artículo de OpenAI reconoce que GPT-5 sigue incurriendo en conjeturas equivocadas o en inventarse datos, incluso cuando parece muy seguro. Por ello insisten, igual que muchos académicos, en que cada salida del modelo debe tratarse como una hipótesis a contrastar, no como una verdad cerrada. En investigación científica, donde reproducibilidad y verificabilidad son sagradas, este matiz es fundamental.
La cuestión de la seguridad va más allá de la exactitud técnico-científica. El acceso a modelos tan potentes como GPT-5 podría facilitar, sin controles adecuados, la difusión de conocimiento sensible en bioseguridad, química peligrosa u otros ámbitos delicados. De ahí que se haya abierto un debate internacional sobre modelos de acceso controlado, registro y auditoría de logs, trazabilidad de peticiones y filtros de seguridad a varios niveles. Herramientas como extensiones para identificar contenido IA forman parte del ecosistema de mitigación.
Organizaciones que utilizan GPT-5 para investigación deben coordinarse con equipos legales, delegados de protección de datos y comités de ética. Puestos como especialistas legales en instituciones sanitarias y responsables de protección de datos juegan un papel central a la hora de garantizar el cumplimiento de normativas, la confidencialidad de la información y la gestión responsable de los resultados generados con apoyo de IA.
Nuevas competencias para investigadores, universidades y empresas
La adopción de GPT-5 en investigación científica no va solo de instalar una nueva herramienta, sino de adquirir nuevas competencias. Los investigadores deben aprender a formular indicaciones eficaces (prompting), a interpretar criticamente las respuestas, a documentar el rol del modelo en el proceso y a integrar las sugerencias en protocolos experimentales o teóricos sin perder trazabilidad. Recursos sobre formular indicaciones eficaces y personalizar la interacción son clave.
Universidades e institutos de investigación están empezando a actualizar sus programas formativos para incorporar módulos de alfabetización en IA, ética, sesgos algorítmicos, protección de datos y propiedad intelectual generada con apoyo de modelos como GPT-5. Esto afecta no solo a las áreas STEM; también a ciencias sociales y humanidades, donde la IA se usa para analizar grandes corpus de texto, encuestas o datos históricos.
Las agencias financiadoras y fundaciones que apoyan proyectos científicos también tendrán que fijar reglas claras sobre el uso de GPT-5 en propuestas, artículos e informes. Entre ellas, transparentar si se ha usado IA, especificar la versión del modelo, detallar cómo se han validado los resultados y dejar constancia de qué parte del trabajo es genuinamente humana y cuál ha sido asistida por el sistema.
En paralelo, GPT-5 tiene un impacto directo en marketing, negocio y comunicación científica. Empresas de biotecnología, medtech o deep tech pueden utilizarlo para analizar datos de clientes, generar contenidos especializados, automatizar respuestas complejas y traducir hallazgos de investigación en mensajes comprensibles para inversores, socios o público general.
Plataformas como SendApp exploran precisamente este cruce entre IA avanzada y canales conversacionales, conectando GPT-5 con WhatsApp Business mediante APIs oficiales. Esto permite, por ejemplo, que un laboratorio comunique a sus socios los últimos resultados, gestione consultas técnicas de clientes internacionales o automatice parte de su divulgación científica manteniendo un tono coherente y profesional.
Para equipos que manejan grandes volúmenes de interacción, integrar GPT-5 en sistemas de gestión de conversaciones puede mejorar la eficiencia: el modelo sugiere respuestas, clasifica solicitudes, resume documentación técnica y alimenta chatbots inteligentes capaces de mantener el contexto, siempre con la posibilidad de que un humano revise o tome el control cuando la situación lo requiera.
Mirando el conjunto de todos estos usos, GPT-5 y GPT-5.2 se configuran como piezas centrales de un nuevo modo de hacer ciencia, en el que los modelos actúan como generadores de ideas, facilitadores de búsquedas bibliográficas exhaustivas, apoyos en demostraciones matemáticas y asistentes de laboratorio virtuales. La responsabilidad última sigue en manos de científicos, clínicos y equipos humanos, pero la velocidad para probar hipótesis, explorar caminos alternativos y conectar resultados dispersos se multiplica, abriendo una etapa en la que cinco años de trabajo con IA bien integrada podrían equivaler a décadas de progreso al ritmo tradicional.
Tabla de Contenidos
- GPT-5 y GPT-5.2: nuevas generaciones de modelos para ciencia y matemáticas
- Rendimiento en benchmarks: GPQA, FrontierMath y FrontierScience
- Un caso emblemático: resolución de problemas abiertos en matemáticas
- GPT-5 como copiloto de investigación: del número de Erdős al laboratorio húmedo
- Uso de GPT-5 en medicina y práctica clínica
- Calidad de las respuestas, alucinaciones y seguridad
- Nuevas competencias para investigadores, universidades y empresas
