Característiques de Gemini 3: tot el que canvia i per què importa

Darrera actualització: 23 novembre 2025
  • Gemini 3 estrena interfícies generatives i millora el raonament a nivell expert.
  • Multimodalitat reforçada amb 1M de tokens i millors resultats en imatge i vídeo.
  • Agents més capaços: Antigravity, integració a Workspace i ús d'eines.
  • Desplegament ampli i més seguretat, amb accés a app, Search, AI Studio i Vertex AI.

Característiques de Gemini 3

La nova generació de la IA de Google arriba amb una ambició clara: passar de xerrar a executar. Amb Gemini 3, la companyia fa un salt notable a raonament, multimodalitat i capacitat agèntica, i estrena, a més, una forma diferent d'interactuar: interfícies que el model genera sobre la marxa per ajudar-te a assolir el teu objectiu sense perdre temps en passos intermedis.

Tot això arriba acompanyat d'un redisseny de l'app, millores a Google Search, Workspace i eines per a desenvolupadors, i una aposta forta per la seguretat. Hi ha novetats visibles per a qualsevol, però bona part dels canvis es notaran sobretot en usos avançats: programació, anàlisi de dades, treball amb vídeos i imatges, i automatització amb agents que planifiquen i actuen amb supervisió humana.

Què és Gemini 3 i perquè marca un punt d'inflexió

A la pràctica, això es tradueix en respostes més directes i útils, una reducció de l'“adulació” típica d'alguns chatbots i una millor interpretació del context, fins i tot quan treballes amb entrades llargues o heterogènies (text, imatges, vídeo, àudio i codi).

A més, Google ha desplegat Gemini 3 en múltiples superfícies des del primer dia: l'app de Gemini, el Mode IA del cercador, AI Studio, Vertex AI, la CLI del model i una nova plataforma per a agents anomenada Google Antigravity, pensada per planificar i executar tasques complexes de programari amb accés a editor, terminal i navegador.

Per subratllar l'abast del llançament, la companyia recorda l'impacte acumulat de l'era Gemini: l'experiència de Vista Creada amb IA arriba a milers de milions de persones al mes, l'app supera els centenars de milions d'usuaris, la majoria de clients de Google Cloud ja utilitzen capacitats d'IA i milions de desenvolupadors han construït solucions amb els seus models generatius.

Novetats Gemini 3

Interfícies generatives i nova experiència dús

Gemini 3 estrena una app amb una estètica més neta i moderna que facilita iniciar converses i localitzar el que has produït a la carpeta "Les meves coses". La renovació no és cosmètica: el gran salt són les interfícies generatives, un tipus de resposta en què el model decideix el format òptim i genera vistes visuals i dinàmiques en lloc d'un bloc de text pla.

Entre els primers experiments hi ha el “disseny visual” (una vista tipus revista amb fotos i mòduls interactius) i la “vista dinàmica”, pensades per explorar resultats i personalitzar-los. Si us demaneu “planifiqueu un viatge de 3 dies a Roma a l'estiu”, obteniu un itinerari visual navegable, amb preguntes de seguiment i elements interactius.

La idea entronca amb l'anomenat codificació de vibracions: descrius l'objectiu en llenguatge natural i el sistema crea la interfície o el codi necessari per aconseguir-ho. Així, si un diagrama, una animació o una miniapp interactiva són millors que un paràgraf, Gemini 3 els genera dins l'experiència, sense obligar-vos a canviar d'eina.

L'experiència de compra també fa un salt: s'integren llistats, taules comparatives i preus directament des de Google Shopping Graph (amb desenes de milers de milions de referències) per construir guies interactives sense sortir del flux, a l'estil d'una pàgina de recomanacions especialitzada però generada al vol pel model.

  Com crear el teu logotip amb intel·ligència artificial: guia completa i exemples

Una altra millora pràctica és que, al cercador, un grup limitat de subscriptors pot optar per la variant de Gemini 3 Pro orientada al raonament per rebre resums més complets i fonamentats, i no només la resposta sintètica de la manera actual.

Interfície generativa de Gemini 3

Raonament avançat i el mode Deep Think

Google destaca un avenç substancial en proves d'alta dificultat: es parla de raonament de nivell doctorat, amb resultats molt competitius en bateries com Humanity's Last Exam o GPQA Diamond. En números, Gemini 3 Pro aconsegueix marques com el 37,5% a HLE (sense eines) i el 91,9% a GPQA Diamond, i estableix un estat de l'art en matemàtiques amb un 23,4% a MathArena Apex.

la manera Bessons 3 Pensament profund va un pas més enllà per a desafiaments especialment complexos i nous. En avaluacions internes supera Pro en múltiples fronts: 41,0% a Humanity's Last Exam (sense eines), 93,8% a GPQA Diamond i 45,1% a ARC-AGI quan es permet execució de codi, una combinació de raonament simbòlic, ús d'eines i programació pensada per a problemes difícils.

En dominis agèntics, el model mostra bona mà a Terminal-Bench 2.0 (54,2%), que mesura la seva habilitat per manejar un ordinador via terminal, i manté una presa de decisions estable en entorns perllongats com Vending-Bench 2, on va aconseguir un rendiment net superior als cinc mil dòlars en una simulació de negoci durant un any virtual.

Més enllà de les mètriques, el que és rellevant és el canvi de rol: d'assistent que respon a agent que actua. Gemini 3 planifica, divideix tasques en passos, demana aprovació si cal i executa amb control humà al bucle. És capaç de classificar una safata de Gmail, organitzar agendes creuant disponibilitat o preparar-ne un flux de treball complex combinant raonament, trucades a eines i navegació.

La comunitat de desenvolupadors i empreses ja percep millores tangibles: millor comprensió visual, generació de codi més fiable i més rendiment en tasques llargues. Tot això es tradueix en agents més útils, capaços de sostenir projectes amb coherència i sense desviar-se de lobjectiu al llarg del temps.

Raonament i Deep Think a Gemini 3

Multimodalitat i context a gran escala

Gemini 3 Pro reforça la seva comprensió multimodal i eleva el llistó en imatge i vídeo: destaca a MMMU-Pro (81%) i Video-MMMU (87,2%), i mostra avenços en precisió factual amb SimpleQA Verified (72,1%). La clau està en la capacitat de combinar text, codi, fotos, àudio i clips de vídeo dins del mateix context, interpretant relacions i matisos.

El model treballa amb grans quantitats dinformació gràcies a una finestra de context d'1 milió de tokens, suficient per a articles extensos, classes completes, repositoris de codi o múltiples documents en paral·lel. Això habilita casos molt pràctics: des d'unificar receptes familiars manuscrites (fins i tot en diversos idiomes) i convertir-les en un llibre de cuina, fins a transformar articles científics i vídeos llargs a targetes interactives i visualitzacions.

Per a programadors, Google parla d´un salt important en anàlisi de codi, raonament abstracte i execució controlada. En escenaris d'assistència al desenvolupament com Code Assist 3.0, es descriu una comprensió de l'arquitectura completa del repositori i una finestra de context ampliada de fins a 10 milions de tokens, útil per detectar dependències que es podrien trencar amb un canvi local.

  Guia completa de prompts de Gemini per treballar molt més ràpid

El model també millora el raonament paral·lel amb dades visuals i textuals, refinant la interpretació de taules, diagrames i interfícies. Aquest avenç és crucial quan el que importa no és només “veure” la imatge, sinó creuar-la amb text i números per extreure'n conclusions i executar accions.

Com a resultat, les respostes no sempre són textuals: de vegades la contestació ideal és una webapp interactiva (una calculadora, un simulador o un giny en temps real) que et permet explorar la solució de forma més intuïtiva dins del flux de Gemini.

Multimodalitat i context a Gemini 3

Agents, desenvolupament i la plataforma Google Antigravity

Gemini 3 ja està disponible per a desenvolupadors a Google AI Studio, Vertex AI i la CLI, i s'estrena Google Antigravity, una plataforma de desenvolupament basada en agents amb accés directe a l'editor, el terminal i el navegador. El sistema pot planificar i executar tasques de programari end-to-end, validant el propi codi i coordinant-se amb altres superfícies de la família Gemini (com el control de l'ordinador i l'edició d'imatges).

El model lidera proves com WebDev Arena (1.487 ELO), rendeix un 54,2% a Terminal-Bench 2.0 i aconsegueix un 76,2% a SWE-bench Verified, destacant en generació de codi sense exemples i en la creació de interfícies web riques a partir d'instruccions complexes. Per a les empreses, això accelera la construcció de solucions personalitzades basades en agents.

Casos reals ja ho aprofiten: companyies de presentacions automatitzades nodreixen el model amb documents tècnics per generar peces que abans prenien hores d'un analista. Amb Gemini 3, aquest treball es redueix a qüestió de minuts, gràcies al raonament multimodal i al context ampliat.

Integració amb Google Workspace i el cercador

L'impacte més visible per a equips arribarà a Espai de treball de Google. Gemini deixa de ser una barra lateral per integrar-se com a motor dins de Gmail, Docs, Sheets, Calendar, YouTube o Maps. A Gmail, per exemple, no només resumeix: redacta, prioritza, contesta i agenda reunions amb la teva disponibilitat real; a Sheets es comporta com un analista de dades que crea gràfics i taules dinàmiques a partir de les teves preguntes.

També es consolida Gemini Vids, capaç de generar presentacions de vídeo completes partint de documentació del Drive, i es potencia la col·laboració amb contingut multimodal: el model entén i combina text, imatges i clips per produir actius útils en menys temps.

En Cerca, a més dels resums amb Vista Creada amb IA, certs subscriptors poden canviar a Gemini 3 Pro per a respostes més riques basades en la seva capacitat d'anàlisi. I en compres, Gemini utilitza el Gràfic de compres de Google per generar guies de recomanació amb preus i detalls actualitzats sense redirigir-te fora de lexperiència.

Una altra millora notable és que el cercador pot desglossar millor les teves preguntes en subconsultes que investiga en nom teu, comprenent amb més precisió la intenció i evitant omissions que abans s'escapaven.

En conjunt, aquesta integració promet menys fricció: demanes el que necessites i, si escau, el model genera la vista, la taula, el calendari o la miniapp dins del mateix flux, sense obligar-te a saltar entre pestanyes.

Disponibilitat, desplegament i seguretat

Google assegura que Gemini 3 és el seu model més segur fins ara, gràcies al conjunt davaluacions més exhaustiu que han aplicat. Entre les millores: menor adulació, més resistència a prompt injection i millors defenses davant usos indeguts relacionats amb ciberatacs, amb validacions d'experts independents i organismes externs (com el AISI del Regne Unit) i de firmes especialitzades.

  Tecnologia Digital: Transformant el Món Actual

El desplegament és massiu: usuaris finals el troben a l'app de Gemini i al Mode IA del cercador, els desenvolupadors a la API de Gemini, AI Studio, Antigravity i CLI, i les organitzacions a través de Vertex AI i Gemini Enterprise. Algunes funcions avançades, com Deep Think o certes capacitats d'agent, s'ofereixen inicialment a subscriptors de Google AI Ultra i s'aniran ampliant.

Un apunt pràctic: Gemini 3 Pro s'ofereix gratis des del primer dia a app i web, una cosa inèdita fins ara, encara que el canvi a Pro dins de Search es reserva de moment a plans de pagament. A més, ja es pot provar des de Google AI Studio, i la seva arribada general s'anirà habilitant els propers dies segons regions i productes.

Google dóna suport al desplegament amb dades d'adopció: l'experiència d'IA al cercador arriba a milers de milions d'usuaris mensuals, l'app supera àmpliament el mig miler de milions, més del 70% dels clients de Google Cloud fan servir capacitats d'IA i 13 milions de desenvolupadors han creat solucions amb els models.

Aplicacions a empreses i casos d'ús

En entorns corporatius, Gemini 3 permet dissenyar solucions a mesura que integren agents, automatitzacions i IA multimodal en processos clau. Des de l'assistència al desenvolupament i la millora de pipelins de dades, fins a la creació d'experiències conversacionals que manegen documents, imatges i vídeos amb un mateix fil conductor.

Moltes companyies combinen aquestes capacitats amb pràctiques de ciberseguretat i pentesting per protegir models i dades, i despleguen infraestructures al núvol (AWS i Azure) que asseguren escalabilitat, disponibilitat i compliment. En analítica, s'integren dashboards i serveis d'intel·ligència de negoci (per exemple, amb Power BI) per convertir dades en decisions accionables, recolzant-se en el raonament i la generació de visualitzacions per part del model.

La suite es beneficia, a més, del grounding amb Google Search, que ancora respostes a informació veraç en temes d'actualitat, reduint al màxim les al·lucinacions. En programació, Gemini 3 entén l'arquitectura del repositori, suggereix canvis i alerta de dependències que es podrien trencar, cosa que estalvia temps a equips tècnics.

A futur, Google anticipa una personalització radical: models que s'ajusten, de forma privada i segura, a l'estil, to i coneixement de la teva organització sense necessitat de processos de afinació complexos. I compte: encara que l'usuari casual potser no noti tots els canvis, les àrees tècniques i de dades sí que perceben millores clares en precisió, velocitat i capacitat d'acció.

Gemini 3 redefineix la manera de treballar amb IA en unir raonament avançat, agents pràctics i interfícies generatives: menys fricció, més context i la possibilitat que la resposta sigui una experiència interactiva que us porti de l'objectiu a l'execució amb un parell d'indicacions ben donades.

gemini robotics-0
Article relacionat:
Google revoluciona la robòtica amb la seva IA Gemini Robotics