Nano Banana: el modelo de Google para editar imágenes con IA

Informatec Digital » Inteligencia Artificial » Nano Banana: qué es y cómo funciona el modelo de Google

Google confirma que "Nano Banana" es el alias de Gemini 2.5 Flash Image para generación y edición de imágenes.
Edición conversacional con coherencia de personajes y objetos y resultados consistentes.
Disponible gratis en la app de Gemini y para desarrolladores vía API, AI Studio y Vertex AI.
Refuerzos de seguridad con SynthID y filtros para contenido sensible.

En los últimos días, el nombre «Nano Banana» ha corrido como la pólvora en foros y redes técnicas por su desempeño en pruebas de edición visual con IA. Lo que parecía un misterio ya tiene autoría: detrás está Google y su nuevo motor de imágenes integrado en Gemini.

La compañía confirma que Nano Banana es el alias de Gemini 2.5 Flash Image, un sistema capaz de generar y retocar fotografías mediante lenguaje natural, manteniendo estilo, personajes y objetos con una consistencia que hasta ahora era complicada para estos modelos.

¿Qué es Nano Banana y quién está detrás?

Durante sus primeras apariciones, el modelo se dejó ver en rankings de LM Arena bajo el apodo «Nano Banana», generando especulaciones y bromas «bananeras» hasta que Google lo presentó oficialmente como parte de Gemini. La idea de fondo es clara: unificar generación y edición de imágenes en un flujo simple, conversacional y rápido.

Google recalca que su enfoque se apoya en el conocimiento del mundo de Gemini y en modelos de IA avanzados, lo que ayuda a entender el contexto de las instrucciones y a aplicar cambios más precisos que los de generadores puramente visuales.

Edición conversacional: del prompt al retoque fino

El modelo funciona con órdenes en lenguaje natural y permite dialogar con la imagen: se puede pedir «haz el cielo más dramático», «elimina ese cartel» o «cambia el color del coche a rojo» y refinar el resultado en sucesivas rondas sin empezar de cero.

Esta interacción multi‑turno reduce la fricción típica de las herramientas clásicas. Según Google, es posible seleccionar zonas concretas para ajustar color, iluminación o textura, eliminar elementos no deseados, sustituir fondos y añadir objetos que se integren respetando sombras y perspectiva.

10 Fascinantes datos sobre Marvin Minsky

Además de los retoques básicos, la plataforma entiende indicaciones como «coloca el mismo personaje en otra escena» o «muestra el producto desde varios ángulos», conservando el sujeto y su apariencia con consistencia entre ediciones.

Coherencia, calidad y velocidad

Uno de los avances destacados es la mejora de la coherencia visual en ediciones sucesivas: rasgos faciales, manos, mascotas u objetos se mantienen estables con menos deformaciones, algo que históricamente ponía en aprietos a los modelos generativos.

El fotorrealismo gana enteros con iluminación y texturas más naturales, y Google afirma un rendimiento muy rápido («lightning fast») que acelera ciclos creativos para tareas como variaciones de producto o escenas temáticas.

En pruebas comunitarias, el sistema ha escalado posiciones en LM Arena para edición de imágenes, situándose entre los motores con mejor experiencia de uso según valoraciones de usuarios.

Herramientas y casos de uso principales

Gemini 2.5 Flash Image agrupa funciones pensadas tanto para usuarios generales como para equipos creativos. Algunas de las más llamativas permiten componer imágenes a partir de varias fuentes y situarlas en un entorno coherente.

Retoque contextual: ajustes de color, exposición, textura o estilo sin perder elementos clave del original.
Eliminación y sustitución: borrar objetos, cambiar fondos o añadir elementos con integración de luz y sombras.
Composición y mezcla: combinar dos fotos en una sola escena y transferir patrones o estilos de una imagen a otra.
Edición multi‑turno: encadenar cambios (pintar paredes, añadir muebles, modificar vestuario) sin reiniciar el proceso.

En marketing, decoración, moda o contenidos para redes, la herramienta sirve para crear variantes con rapidez, mantener recursos de marca consistentes y probar ideas visuales sin acudir a software tradicional.

Seguridad y límites de uso

Para minimizar el abuso, Google aplica filtros que bloquean contenido violento o sexualmente explícito, y restringe la edición de personas reales o figuras públicas. El objetivo es reducir riesgos de desinformación y deepfakes.

La máquina de Turing: 8 aspectos que cambiaron la informática

Todas las imágenes generadas o editadas incorporan SynthID, una marca de agua digital imperceptible en el propio archivo que ayuda a verificar el origen. Junto a ello, la compañía habla de señales adicionales y controles proactivos para reforzar la trazabilidad.

La política de uso prohíbe expresamente la creación de material íntimo sin consentimiento y otras categorías sensibles, reforzando el enfoque de IA responsable en los servicios de Gemini.

Cómo usar Nano Banana en la app de Gemini

El acceso es directo: no hay que instalar nada aparte ni elegir un modelo específico. Basta con abrir Gemini, subir una foto y describir los cambios. Si quieres conservarlo todo menos un ajuste, puedes empezar con «En la foto original, …» para dejar claro que debe respetar el resto.

Algunos ejemplos útiles: «convierte a blanco y negro», «elimina el poste de la esquina», «añade un perro en el banco» o «cambia el vestido a color verde». El sistema intenta mantener rasgos y proporciones del sujeto mientras aplica el cambio.

También puedes subir dos fotos y pedir que el contenido de una aparezca en la otra, o que transfiera el estilo de un patrón (por ejemplo, alas de mariposa) a una prenda u objeto de la segunda imagen.

Disponibilidad y acceso para desarrolladores

La funcionalidad está disponible en la app de Gemini para el público general. Para integraciones profesionales, se puede acceder mediante la API de Gemini, Google AI Studio y Vertex AI, abriendo la puerta a flujos de trabajo en empresas y apps de terceros.

El uso en la aplicación es gratuito con límites razonables. Para desarrolladores, Google ofrece tarificación por uso; se menciona un coste de 30 dólares por millón de tokens como referencia en la API, con estimaciones aproximadas que sitúan cada imagen a céntimos de euro, según el caso de uso.

SmolVLM-256M: El modelo de inteligencia artificial más compacto

Contexto competitivo

El movimiento apunta directamente a rivales como Midjourney o DALL·E (OpenAI). La apuesta de Google está en la edición conversacional y la coherencia de resultados, apoyadas por el entendimiento contextual de Gemini.

Con el alias Nano Banana ya integrado en su ecosistema, la compañía intenta cerrar la brecha en un terreno donde velocidad, calidad y control son decisivos para el usuario final.

Preguntas frecuentes

¿Es Nano Banana una aplicación independiente?

No. Es un modelo dentro de Gemini, así que se utiliza desde la propia interfaz de la app.

¿Tiene coste para usuarios finales?

En la aplicación de Gemini se puede usar de forma gratuita con límites de uso. Las integraciones por API sí tienen tarificación.

¿Hay que seleccionar el modelo manualmente?

No. La selección es automática cuando realizas funciones de generación o edición de imágenes en Gemini.

Con un enfoque centrado en la edición por conversación, la coherencia de sujetos entre tomas y medidas de seguridad integradas, Nano Banana (Gemini 2.5 Flash Image) se perfila como una opción sólida para crear y retocar imágenes tanto en el día a día como en proyectos profesionales, ya sea desde la app de Gemini o mediante sus APIs.