- GPT-5 i GPT-5.2 milloren el raonament científic i matemàtic, amb resultats capdavanters en benchmarks com GPQA Diamond i FrontierMath.
- Els models actuen com a copilots de recerca: ajuden a resoldre problemes oberts, optimitzar experiments i analitzar literatura, però requereixen verificació humana.
- La seva adopció s'estén a medicina, laboratori humit, universitats i empreses, impulsant-ne la productivitat però plantejant reptes ètics, de seguretat i regulació.
El salt de GPT-5 i GPT-5.2 en la investigació científica està redefinint la manera com es fa ciència: des de les matemàtiques més teòriques fins als experiments de laboratori humit, passant per la biologia, la física, la medicina o els materials avançats. Aquests models no només escriuen textos; s'han començat a fer servir com a autèntics copilots d'investigació capaços de suggerir hipòtesis, ajudar a dissenyar experiments i trobar patrons en dades que farien mesos a una persona.
Alhora, OpenAI i la resta de l'ecosistema científic són molt clars en un punt clau: GPT-5 no és un “científic autònom” ni un substitut del mètode científic humà. Funciona més aviat com un assistent amb accés descomunal a literatura, eines quantitatives i capacitat de raonament estructurat, que pot accelerar el treball, però que segueix necessitant supervisió experta, verificació i molt de criteri crític per part dels investigadors.
GPT-5 i GPT-5.2: noves generacions de models per a ciència i matemàtiques
OpenAI situa l'11 de desembre del 2025 com a data clau per a la presentació oficial de GPT-5.2, la versió que descriu com el seu model més avançat fins ara per a tasques científiques i matemàtiques. Durant l'últim any, la companyia ha col·laborat estretament amb investigadors de camps com matemàtiques, física, biologia i ciències de la computació per entendre de manera pràctica on la IA aporta valor real i on encara es queda curta.
Aquest treball ha cristal·litzat en estudis de cas que abasten disciplines molt diferents, des d'astronomia fins a ciència de materials, en què GPT-5 i, més tard, GPT-5.2 han intervingut en parts concretes del flux de recerca: replantejar demostracions, explorar vies alternatives de prova, revisar codi de simulacions, sintetitzar articles o proposar petites variacions de protocols. Segons OpenAI, amb GPT-5.2 es comença a veure una millora no només puntual, sinó més estable i reproduïble.
Dins la família GPT-5.2 destaquen dues variants especialitzades per a ciència i matemàtiques: GPT-5.2 Pro i GPT-5.2 Thinking. Totes dues s'han optimitzat per a raonament profund i tasques tècniques exigents, on un error subtil pot arruïnar una anàlisi completa. GPT-5.2 Pro prioritza la fidelitat i la precisió, permetent un temps de raonament més ampli, mentre que GPT-5.2 Thinking se centra a decidir de manera intel·ligent quan “aturar-se a pensar” més i quan respondre de forma més àgil.
Aquesta filosofia del “raonament escalonat” ja era present en el disseny de GPT-5 amb la manera GPT-5 Thinking, que actua com un encaminador intern capaç davaluar la complexitat duna consulta, el context disponible i les eines necessàries (per exemple, accés a Python) abans de produir la resposta. En preguntes senzilles respon ràpid; en problemes complexos activa cadenes de raonament més llargues i explícites.
En el dia a dia, els usuaris poden escollir entre diverses maneres de raonament de GPT-5: “Auto”, que deixa al model decidir quant de temps dedicar al problema; Instant, que prioritza la rapidesa sobre la profunditat; Thinking, per a respostes més meditades i analítiques; i “Pro”, que és la variant més fidel i exigent, pensada per a tasques on l'exactitud prima sobre la velocitat. Convé recordar que GPT-5 és un model de pagament, accessible mitjançant subscripció o pagament per ús, cosa especialment rellevant per a institucions que gestionen dades sensibles o pressupostos de recerca ajustats.
Rendiment a benchmarks: GPQA, FrontierMath i FrontierScience
La millora de GPT-5.2 en investigació científica no es recolza només en impressions subjectives, sinó també en resultats en benchmarks especialitzats. Un dels més citats és GPQA Diamond, un conjunt de preguntes d'opció múltiple a nivell de postgrau que cobreix física, química i biologia, dissenyat per mesurar el raonament avançat i no només la memorització.
A GPQA Diamond, GPT-5.2 Pro assoleix un 93,2 % d'encerts i GPT-5.2 Thinking un 92,4 %, treballant sense eines externes i amb lesforç de raonament configurat al màxim. És a dir, el model ha de resoldre els problemes “a cabells”, únicament mitjançant la capacitat interna d'anàlisi. Aquestes xifres el col·loquen clarament per sobre de generacions anteriors i consoliden el seu paper com a assistent en tasques de comprensió i resolució de problemes de nivell molt alt.
Un altre test de referència és FrontierMath (Tier 1-3), una avaluació de matemàtiques d'especialització avançada en què sí que es permet l'ús d'una eina de Python. En aquest escenari, GPT-5.2 Thinking resol el 40,3 % dels problemes amb l'esforç de raonament al màxim, percentatges que, encara que puguin semblar modestos a ulls llunyans, suposen un salt important en un terreny on la majoria de models previs amb prou feines esgarrapaven resultats útils.
Més enllà dels números, OpenAI insisteix que aquests avenços reflecteixen una millora en la capacitat general d'abstracció i raonament, no una mera habilitat estreta optimitzada per a un únic benchmark. Relacionen directament aquestes capacitats amb fluxos de treball quotidians en ciència: programació de simulacions, anàlisi estadística de dades, plantejament i refinament dexperiments o interpretació de resultats.
En paral·lel, OpenAI ha introduït un marc més ampli anomenat FrontierScience, pensat per avaluar l'exercici de models com GPT-5 en problemes científics genuïnament nous, que no formen part de les dades d'entrenament. FrontierScience inclou desafiaments en biologia, química, física, matemàtiques, informàtica i ciències socials, dissenyats per exigir no sols coneixement teòric, sinó també planificació, pensament crític i generalització.
Les primeres anàlisis mostren que GPT-5 rendeix molt bé quan la tasca es pot descompondre en passos lògics clars, mentre que segueix patint quan se li demana intuïció creativa o comprensió profunda del context experimental. Això encaixa amb la visió cada cop més estesa entre experts en IA: els models generatius actuals són eines de suport potents, però no reemplacen la creativitat, la intuïció ni la responsabilitat del científic humà.
Un cas emblemàtic: resolució de problemes oberts en matemàtiques
Un dels exemples més cridaners de l'ús d'aquests models en ciència pura és el cas de teoria de l'aprenentatge estadístic en què GPT-5.2 Pro va ajudar a tancar un problema obert relacionat amb la monotonicitat de les corbes d'aprenentatge d'estimadors de màxima versemblança. La qüestió de fons és intuïtiva: quan afegim més dades a un model estadístic correctament especificat, hauríeu de disminuir sempre l'error esperat o podeu empitjorar almenys en alguns trams?
Investigacions prèvies havien mostrat que, en determinades condicions pràctiques, la corba d'aprenentatge no sempre és monòtona i que, en afegir dades, l'error pot pujar de manera contraintuïtiva. Aquesta línia de treball es remunta a un problema plantejat el 2019 a la Conference on Learning Theory (COLT) per Viering, Mey i Loog, que va desencadenar múltiples articles posteriors amb exemples concrets i estratègies per recuperar la monotonicitat.
Tot i aquests avenços, quedava per resoldre un cas estàndard considerat gairebé “de llibre”: un model gaussià amb mitjana coneguda i desviació estàndard desconeguda, on el model estadístic és correcte i les dades segueixen una distribució normal idealitzada. En aquest escenari clàssic, el nou treball conclou que la intuïció tradicional es manté i que més dades sí que impliquen un error mitjà que disminueix de forma predictible.
La diferència clau de l'estudi, tal com el compte OpenAI, no és només en el resultat, sinó en el procés. En lloc de guiar el model pas a pas amb un esquema de demostració detallat, els autors li van plantejar directament el problema obert a GPT-5.2 Pro i van analitzar amb lupa la demostració que va generar. Posteriorment, van validar l'argument amb experts externs en la matèria, van revisar minuciosament cada pas i, un cop consolidat, van fer servir el model per estendre el resultat a dimensions més altes ia altres models estadístics habituals.
Aquest enfocament il·lustra bé el tipus de col·laboració emergent entre humans i IA en investigació teòrica: el model suggereix possibles rutes de prova, els humans exerceixen el paper d'àrbitres rigorosos, corregeixen, poleixen i decideixen què s'accepta com a contribució vàlida. No hi ha delegació cega sinó una combinació d'exploració automatitzada i escrutini expert.
GPT-5 com a copilot de recerca: del número d'Erdős al laboratori humit
Més enllà de l'estadística teòrica, GPT-5 ha protagonitzat altres casos molt mediàtics d'ús. OpenAI ha fet públic, per exemple, un treball en què el seu model ajuda a resoldre un complex problema obert de teoria de números relacionat amb el llegat d'Erdős, en col·laboració amb un matemàtic de la Universitat de Columbia. El model va contribuir a explorar conjectures, verificar passos intermedis i proposar enfocaments alternatius que van resultar fructífers.
Un altre exemple que ha cridat molt l´atenció és la identificació d´un canvi específic en cèl·lules immunològiques humanes en qüestió de minuts, una tasca que havia consumit mesos desforç a un equip de científics. GPT-5 va proposar un experiment concret per comprovar una hipòtesi sobre aquest canvi; els investigadors van replicar l'experiment i van confirmar que el suggeriment era correcte, escurçant així de manera notable el cicle de prova i error habitual.
Aquests resultats s'emmarquen en un moviment més ampli de la indústria tecnològica cap al sector científic. Antròpic, per exemple, ha anunciat la integració del seu chatbot Claude en eines utilitzades per grups de recerca i empreses de ciències de la vida. Google ha presentat un “co-científic” pensat per formular noves hipòtesis i ha destacat que el seu model obert Gemma va contribuir a descobrir una nova via potencial per a teràpies contra el càncer.
OpenAI, per la seva banda, ha creat una unitat científica específica i ha incorporat figures com Alex Lupsasca, conegut pel seu treball teòric en forats negres. Entre els plans de la companyia està desenvolupar una mena de “becari de recerca d'IA automatitzat” per a curt termini i, mirant més lluny, una eina de recerca pràcticament automatitzada d'aquí a uns anys, sempre sota la premissa de mantenir l'investigador humà al centre del procés.
Al laboratori humit, GPT-5 i els seus successors s'han provat com a assistents per optimitzar protocols experimentals. A partir de la literatura rellevant i de dades prèvies, el model pot suggerir condicions de temperatura, temps d'incubació, dosis de reactius o combinacions de controls i rèpliques. En diversos casos reportats, petits ajustaments proposats pel model han millorat el rendiment de reaccions químiques o han reduït significativament el temps necessari per obtenir resultats útils.
Ús de GPT-5 en medicina i pràctica clínica
Un dels camps on GPT-5 està mostrant un impacte pràctic molt tangible és la medicina, tant a la part assistencial com en investigació clínica. Per començar, el model s'ha consolidat com a eina per a l'anàlisi d'informes clínics complexos (laboratoris, proves d'imatge, informes postoperatoris…), i s'han generat resums condensats amb les troballes clau que estalvien temps als professionals.
El procediment és senzill: el metge o investigador introdueix el text de l'informe o una imatge amb el document i sol·licita un resum o l'extracció dels punts més rellevants. GPT-5 torna una versió sintètica en què destaca diagnòstics possibles, troballes crítiques o recomanacions de seguiment. Això sí, sempre sota la premissa que el professional ha de revisar i validar la informació abans de prendre decisions.
Una altra aplicació potent és la generació de contingut mèdic d'alta qualitat, des de resums clínics fins a esborranys d'articles científics o materials divulgatius per a pacients. A partir d'unes poques indicacions en llenguatge natural (per exemple, redacta un resum sobre un pacient amb febre persistent i miàlgies), el model produeix textos coherents i ben estructurats que els professionals poden editar i adaptar a les seves necessitats. Contingut mèdic d'alta qualitat generat per IA pot accelerar la redacció, sempre amb revisió humana.
GPT-5 també pot suggerir diagnòstics diferencials a partir de símptomes i antecedents descrits pel professional. No substitueix el judici clínic, però ofereix una llista raonada de possibilitats, proves complementàries a considerar o banderes vermelles que cal descartar. En casos com un pacient de 50 anys amb fatiga, tos seca i dispnea, el sistema pot enumerar diagnòstics probables i proposar estudis com ara radiografia de tòrax, analítica, proves de funció pulmonar o test virals.
A la part de personalització de l'atenció, GPT-5 contribueix a ajustar plans de tractament i estratègies de prevenció en funció del perfil del pacient, sempre que les dades s'introdueixin de manera anonimitzada i respectant escrupolosament la privadesa. Per a un pacient de 70 anys amb hipertensió, diabetis tipus 2 i malaltia renal crònica, per exemple, el model pot enumerar estratègies de maneig integrat, control de factors de risc, recomanacions destil de vida i pautes de seguiment a llarg termini basades en guies clíniques.
Finalment, GPT-5 s'està utilitzant com a cercador intel·ligent de literatura mèdica. El professional planteja una pregunta en llenguatge natural (“quins estudis recents hi ha sobre telemedicina en malalties cròniques?”) i el model localitza i resumeix treballs rellevants, ajudant a mantenir-se al dia sense haver de bussejar manualment en bases de dades interminables. Cercadors i eines tipus NotebookLM faciliten l'organització i el resum de la literatura per a professionals.
Qualitat de les respostes, al·lucinacions i seguretat
Una crítica recurrent a generacions anteriors de models, com O3 i O3-Pro, ha estat la seva tendència a les al·lucinacions: citar articles reals però treure'n conclusions errònies o extrapolacions incorrectes. Investigadors en polímers per a ciència de materials o en vies de senyalització biològica han reportat que GPT-5 millora clarament aquest comportament, citant literatura més pertinent i oferint interpretacions més ben alineades amb els textos originals.
El paper tècnic d'OpenAI indica que GPT-5 redueix de manera notable els errors factuals respecte a GPT-4o i al seu propi model o3, especialment quan s'activa el mode de raonament profund. En entorns controlats, es parla d'una disminució propera al 45% davant de GPT-4o i fins al 80% davant d'o3 en determinades tasques, gràcies a una combinació de millor entrenament, tècniques de verificació interna i un disseny més curós de les polítiques de seguretat.
Tot i així, el mateix article d'OpenAI reconeix que GPT-5 segueix incorrent en conjectures equivocades o en inventar-se dades, fins i tot quan sembla molt segur. Per això insisteixen, igual que molts acadèmics, que cada sortida del model s'ha de tractar com una hipòtesi a contrastar, no com una veritat tancada. En investigació científica, on reproductibilitat i verificabilitat són sagrades, aquest matís és fonamental.
La qüestió de la seguretat va més enllà de l'exactitud tecnicocientífica. L'accés a models tan potents com GPT-5 podria facilitar sense controls adequats la difusió de coneixement sensible en bioseguretat, química perillosa o altres àmbits delicats. Per això s'ha obert un debat internacional sobre models d'accés controlat, registre i auditoria de logs, traçabilitat de peticions i filtres de seguretat a diversos nivells. Eines com extensions per identificar contingut IA formen part de l'ecosistema de mitigació.
Organitzacions que utilitzen GPT-5 per a investigació s'han de coordinar amb equips legals, delegats de protecció de dades i comitès d'ètica. Llocs com a especialistes legals en institucions sanitàries i responsables de protecció de dades tenen un paper central a l'hora de garantir el compliment de normatives, la confidencialitat de la informació i la gestió responsable dels resultats generats amb suport d'IA.
Noves competències per a investigadors, universitats i empreses
L'adopció de GPT-5 en investigació científica no només d'instal·lar una nova eina, sinó d'adquirir noves competències. Els investigadors han d'aprendre a formular indicacions eficaces (prompting), interpretar críticament les respostes, documentar el rol del model en el procés i integrar els suggeriments en protocols experimentals o teòrics sense perdre traçabilitat. Recursos sobre formular indicacions eficaces i personalitzar la interacció són clau.
Universitats i instituts de recerca comencen a actualitzar els seus programes formatius per incorporar mòduls d'alfabetització a IA, ètica, biaixos algorísmics, protecció de dades i propietat intel·lectual generada amb suport de models com GPT-5. Això afecta no només les àrees STEM; també a ciències socials i humanitats, on la IA es fa servir per analitzar grans corpus de text, enquestes o dades històriques.
Les agències finançadores i fundacions que donen suport a projectes científics també hauran de fixar regles clares sobre l'ús de GPT-5 en propostes, articles i informes. Entre elles, transparentar si s'ha fet servir IA, especificar la versió del model, detallar com s'han validat els resultats i deixar constància de quina part del treball és genuïnament humana i quina ha estat assistida pel sistema.
En paral·lel, GPT-5 té un impacte directe en màrqueting, negoci i comunicació científica. Empreses de biotecnologia, medtech o deep tech el poden utilitzar per analitzar dades de clients, generar continguts especialitzats, automatitzar respostes complexes i traduir troballes de recerca en missatges comprensibles per a inversors, socis o públic general.
Plataformes com SendApp exploren precisament aquesta cruïlla entre IA avançada i canals conversacionals, connectant GPT-5 amb WhatsApp Business mitjançant APIs oficials. Això permet, per exemple, que un laboratori comuniqui als seus socis els darrers resultats, gestioni consultes tècniques de clients internacionals o automatitzi part de la seva divulgació científica mantenint un to coherent i professional.
Per a equips que manegen grans volums dinteracció, integrar GPT-5 en sistemes de gestió de converses pot millorar leficiència: el model suggereix respostes, classifica sol·licituds, resumeix documentació tècnica i alimenta chatbots intel·ligents capaços de mantenir el context, sempre amb la possibilitat que un humà revisi o prengui el control quan la situació ho requereixi.
Mirant el conjunt de tots aquests usos, GPT-5 i GPT-5.2 es configuren com a peces centrals d'una nova manera de fer ciència, en què els models actuen com a generadors d'idees, facilitadors de cerques bibliogràfiques exhaustives, suports en demostracions matemàtiques i assistents de laboratori virtuals. La responsabilitat última segueix en mans de científics, clínics i equips humans, però la velocitat per provar hipòtesis, explorar camins alternatius i connectar resultats dispersos es multiplica, obrint una etapa en què cinc anys de treball amb IA ben integrada podrien equivaldre a dècades de progrés al ritme tradicional.
Taula de Continguts
- GPT-5 i GPT-5.2: noves generacions de models per a ciència i matemàtiques
- Rendiment a benchmarks: GPQA, FrontierMath i FrontierScience
- Un cas emblemàtic: resolució de problemes oberts en matemàtiques
- GPT-5 com a copilot de recerca: del número d'Erdős al laboratori humit
- Ús de GPT-5 en medicina i pràctica clínica
- Qualitat de les respostes, al·lucinacions i seguretat
- Noves competències per a investigadors, universitats i empreses
