ZeroSearch: la revolución de Alibaba para entrenar IA de forma eficiente y autónoma

Última actualización:
  • ZeroSearch reduce drásticamente el coste de entrenar modelos de IA mediante búsquedas simuladas, eliminando la dependencia de motores de búsqueda externos.
  • Utiliza un sistema de aprendizaje por refuerzo con ajuste supervisado que mejora la capacidad de recuperación de los LLMs y su razonamiento.
  • Permite que empresas y desarrolladores entrenen modelos avanzados a bajo coste, ganando autonomía y control sobre el proceso.

Qué es ZeroSearch, inteligencia artificial

En los últimos tiempos se ha disparado la innovación en el campo de la inteligencia artificial, especialmente en relación con modelos de lenguaje de gran tamaño (LLMs por sus siglas en inglés). Uno de los avances más relevantes de 2025 ha sido ZeroSearch, una tecnología desarrollada por Alibaba que está sacudiendo los cimientos de la forma en la que se entrenan estos modelos. ¿De qué va exactamente ZeroSearch y por qué está generando tanta expectación en el sector? En este artículo desgranamos a fondo esta nueva metodología, cómo funciona, qué ventajas ofrece respecto a los métodos tradicionales y cómo puede cambiar el desarrollo de la IA a todos los niveles.

En los círculos tecnológicos, no se habla de otra cosa: ZeroSearch promete reducir, nada menos, que un 88% los costes de entrenamiento de modelos de inteligencia artificial. Ese salto de eficiencia, lejos de ser un simple reclamo publicitario, tiene profundas implicaciones para empresas grandes y pequeñas, desarrolladores y, por supuesto, para el avance de la inteligencia artificial general.

¿Qué es ZeroSearch y cuál es su origen?

ZeroSearch es una nueva técnica basada en el aprendizaje por refuerzo, concebida para entrenar modelos de lenguaje sin depender de motores de búsqueda externos reales durante el proceso de entrenamiento. Esta innovación surge del laboratorio Tongyi de Alibaba, con el objetivo de solucionar dos problemas habituales en el entrenamiento de modelos IA que utilizan búsquedas web: el elevado coste económico por el uso de APIs y la imprevisibilidad en la calidad de los documentos recuperados.

Hasta ahora, el desarrollo de asistentes avanzados, chatbots o motores de recomendación requería enviar decenas de miles de consultas a buscadores como Google mediante servicios de pago, aumentando la factura y limitando la escalabilidad, especialmente para empresas con presupuestos ajustados.

ZeroSearch cambia las reglas del juego apostando por un sistema en el que el propio LLM aprende a simular el funcionamiento de un buscador, generando documentos relevantes o incluso ruidosos (irrelevantes) en respuesta a las consultas y permitiendo así el entrenamiento sin interacción externa.

Funcionamiento de ZeroSearch en la IA

¿Cómo funciona ZeroSearch? Explicación técnica detallada

El corazón de ZeroSearch es un marco de aprendizaje por refuerzo (RL, Reinforcement Learning) que elimina la necesidad de hacer búsquedas reales en internet durante el entrenamiento. Veamos paso a paso cómo se estructura este proceso según el planteamiento de Alibaba y los análisis exhaustivos publicados sobre la técnica.

  10 Fascinantes datos sobre Marvin Minsky

1. Ajuste supervisado ligero para simular búsquedas

Todo parte de un ajuste supervisado (SFT, Supervised Fine-Tuning) en el que el LLM se entrena para comportarse como un módulo de recuperación de información. A través de este ajuste, aprende a generar documentos de respuesta ante consultas, imitando el estilo textual y el tipo de contenido que ofrecería un motor de búsqueda real. Durante esta fase inicial, se recogen trayectorias de interacción entre el modelo y un buscador, estableciendo registros de consultas y documentos obtenidos.

Las trayectorias exitosas, es decir, aquellas que llevan a la respuesta correcta, se etiquetan como positivas (documentos útiles), mientras que las que derivan en errores o respuestas incorrectas se marcan como negativas (documentos ruidosos). Esta diferenciación servirá después para que el modelo entienda y reproduzca la dinámica de una búsqueda realista, incluyendo resultados relevantes y otros menos útiles.

2. Rol del aprendizaje por refuerzo con simulación curricular

Después del ajuste supervisado, el modelo pasa a la fase de entrenamiento por refuerzo, donde se refuerzan las buenas prácticas y se penalizan los fallos. Aquí, el propio LLM simulado hace de buscador, respondiendo a las consultas generadas por el modelo de política (policy model) y devolviendo documentos que pueden ser útiles o ruidosos.

La dificultad para el modelo va aumentando de forma progresiva, siguiendo una estrategia curricular que degrada lentamente la calidad de los documentos generados, de modo que el sistema aprende primero en entornos controlados y, a medida que progresa, se enfrenta a ejemplos cada vez más ruidosos o complejos. Este enfoque ayuda al modelo a desarrollar una capacidad robusta de búsqueda y razonamiento en condiciones realistas.

3. Diseño de recompensas y métricas de evaluación

Para guiar el aprendizaje, ZeroSearch utiliza una función de recompensa basada en el F1 score, que equilibra la precisión y el recall tomando en cuenta la coincidencia de palabras entre la predicción y la respuesta correcta. El objetivo es maximizar la exactitud en las respuestas finales que el modelo es capaz de generar, sin preocuparse excesivamente por el formato, ya que los LLMs suelen producir textos bien formateados de forma natural.

4. Interacción multi-turno y plantillas de razonamiento

Durante el entrenamiento, se emplean plantillas de interacción que dividen el proceso en tres etapas: razonamiento interno (delimitado entre etiquetas como <think>...</think>), realización de la consulta (<search>...</search>) y generación de la respuesta (<answer>...</answer>). Así, el modelo puede perfeccionar tanto su capacidad de formular consultas relevantes como de ofrecer respuestas fundamentadas.

5. Compatibilidad y escalabilidad

ZeroSearch es compatible con los principales modelos de lenguaje, como la familia Qwen-2.5, Qwen-2.5, LLaMA-3.2 y variantes base o ajustadas por instrucciones. Además, puede implementarse con diferentes algoritmos de refuerzo (PPO, GRPO, entre otros), lo que facilita su adopción en diversos entornos de desarrollo.

  Janus Pro: el modelo de IA de DeepSeek que revoluciona la generación de imágenes

Aplicaciones y resultados de ZeroSearch

Datos reales: ¿cuánto se ahorra y cómo rinde ZeroSearch?

Los experimentos realizados por Alibaba y recogidos en publicaciones y repositorios especializados muestran que ZeroSearch logra rendimientos equiparables, e incluso superiores, a los obtenidos mediante buscadores comerciales reales. El ahorro en costes es especialmente notable:

  • Realizar 64.000 consultas mediante la API de Google Search puede suponer un gasto de unos 586,70 dólares (aprox. 540 €).
  • El mismo volumen de consultas, generado y gestionado con un LLM de 14.000 millones de parámetros usando ZeroSearch, reduce el coste a apenas 70,80 dólares (unos 65 €).
  • Este diferencial implica un ahorro del 88% en el coste de entrenamiento, eliminando la dependencia de APIs externas y permitiendo una mayor escalabilidad.

Por otro lado, los resultados de calidad impresionan: los experimentos reflejan que un módulo de recuperación de 7B parámetros iguala el rendimiento de sistemas basados en Google Search, mientras que con 14B parámetros el modelo incluso lo supera en tareas de preguntas y respuestas, usando tanto datasets de un solo salto como de inferencia compleja.

Ventajas clave e impacto en la industria de la inteligencia artificial

La llegada de ZeroSearch supone un giro radical en la forma en que las empresas y desarrolladores pueden afrontar el entrenamiento de modelos avanzados:

  • Reducción drástica de la barrera económica: Facilita el acceso a técnicas de IA avanzada a pymes, startups y desarrolladores independientes que antes se veían frenados por el coste de las APIs comerciales.
  • Mayor control sobre el entrenamiento: Al generar documentos de forma simulada, los equipos pueden definir exactamente qué información recibe el modelo, ajustando la dificultad y la calidad según sus necesidades.
  • Impulso a la autonomía técnica: Minimiza la dependencia de grandes plataformas tecnológicas extranjeras, potenciando el desarrollo local de soluciones IA personalizadas.
  • Adaptabilidad y modularidad: ZeroSearch puede implementarse sobre modelos diversos y ajustarse a distintos flujos de trabajo y requisitos de negocio.

Diferencias frente a estrategias previas: RAG, búsquedas reales y simulaciones

Antes de ZeroSearch, la solución mayoritaria para proporcionar información actualizada y precisa a los LLMs era el uso de RAG (Retrieval-Augmented Generation), donde el modelo consulta fuentes externas mediante búsquedas reales. Sin embargo, esto presenta algunos problemas evidentes:

  • Coste elevado: El uso continuado de APIs puede disparar los presupuestos.
  • Calidad variable: Los documentos recuperados pueden ser muy inconsistentes dependiendo de las búsquedas y de la propia API.
  • Limitaciones legales y de privacidad: Depender de servicios de terceros implica riesgos legales y políticos, sobre todo si se entrena con información sensible.

ZeroSearch elimina la necesidad de recurrir continuamente a fuentes externas, permitiendo que el modelo aprenda a buscar “dentro de sí mismo” a medida que simula la experiencia de interactuar con un motor de búsqueda.

  Aprendizaje Automático: Conceptos Básicos y Avanzados

Impacto y aplicaciones reales: de Quark a la democratización de la IA

Alibaba ya ha integrado ZeroSearch en productos comerciales. Su aplicación Quark, impulsada por los modelos Qwen, ha experimentado mejoras notables en razonamiento y respuestas precisas a consultas complejas gracias a esta técnica. Pero tal vez lo más relevante es que ZeroSearch abre la puerta a que empresas más pequeñas diseñen sus propios modelos avanzados sin necesidad de infraestructuras externas y costosas.

manus ia-0
Artículo relacionado:
Todo lo que debes saber sobre Manus, el agente de IA que quiere hacer tu trabajo

La comunidad investigadora tiene acceso al repositorio de código, datasets y modelos pre-entrenados tanto en GitHub como en Hugging Face, lo que está fomentando la adopción y la experimentación a nivel global.

¿Cómo será el futuro de la formación de IA gracias a ZeroSearch?

A medida que estas técnicas maduren, veremos proliferar asistentes inteligentes con capacidades de búsqueda avanzadas sin depender de Google, Bing o similares. Eso abre nuevas oportunidades en el campo educativo, empresarial y de investigación, al tiempo que puede erosionar la hegemonía de los grandes motores de búsqueda en el sector de la inteligencia artificial.

Para España y Europa, suponer la posibilidad de crecimiento autónomo, reducción de dependencia tecnológica y costes y mayor control estratégico sobre los sistemas de información crítica.

El auge de ZeroSearch marca el inicio de una nueva era en la que el entrenamiento de modelos de inteligencia artificial dejará de ser un lujo al alcance de unos pocos para convertirse en una herramienta accesible, escalable y cada vez más sofisticada. Al enseñar a la IA a buscar sin salir de su propio entorno, Alibaba ha dado un paso de gigante hacia el desarrollo de sistemas autosuficientes, eficientes y adaptados a cualquier necesidad. Ya no se trata solo de reducir costes, sino de reinventar las reglas de juego para toda la industria de la inteligencia artificial.

Qué es e-commerce
Artículo relacionado:
Qué es e-commerce: 10 Claves para Entender el Comercio Electrónico