- Ollama permite ejecutar grandes modelos de lenguaje en local, sin depender de la nube y manteniendo la privacidad de los datos.
- La herramienta facilita instalación, gestión y ejecución de modelos como Llama, Mistral, Code Llama, LLaVA o Phi mediante una sencilla CLI y API.
- Es ideal para crear chatbots privados, aplicaciones de IA centradas en la privacidad e investigación con datos sensibles en macOS, Windows y Linux.
- Su sistema de Modelfiles, soporte de GPU y compatibilidad con la API de OpenAI la convierten en una plataforma muy flexible para proyectos avanzados de IA.

Si estás buscando una forma de trabajar con modelos de inteligencia artificial potentes sin depender de la nube, es muy probable que te hayas topado con Ollama. Esta herramienta se ha convertido en una de las opciones favoritas para desarrollar proyectos de IA en local, tanto para usos profesionales como personales.
Ollama simplifica muchísimo todo el lío de configurar entornos, descargar pesos, pelearse con dependencias y drivers de GPU. En esencia, te permite descargar, gestionar y ejecutar Grandes Modelos de Lenguaje (LLM) directamente en tu ordenador, con un enfoque muy fuerte en la privacidad, la seguridad y la personalización.
Qué es Ollama y qué la hace diferente
Ollama es una plataforma de código abierto pensada para ejecutar LLM de forma local en macOS, Windows y Linux. En vez de conectarte a una API en la nube (como la de OpenAI), los modelos se descargan a tu máquina y se ejecutan ahí, aprovechando tu CPU y, cuando es posible, tu GPU.
Funciona como una especie de “vehículo listo para conducir” construido sobre motores de inferencia de alto rendimiento como llama.cpp. En lugar de compilar bibliotecas, convertir pesos o ajustar mil parámetros a mano, usas comandos sencillos como ollama pull para descargar modelos o ollama run para hablar con ellos.
Su mayor diferencia respecto a otros enfoques es que combina en una sola herramienta: gestor de modelos, servidor API, CLI y sistema de personalización. Así lo puedes usar tanto desde la terminal como integrado en aplicaciones, scripts, frontends web o herramientas tipo Open WebUI. Esa integración reduce la dependencia externa de proveedores en muchos flujos de trabajo.
Además, Ollama está pensado para perfiles muy distintos: desarrolladores que integran IA en sus apps, investigadores que trabajan con datos sensibles, estudiantes que quieren un “ChatGPT local” para estudiar o redactar, y empresas que no pueden permitirse enviar datos a un proveedor externo.
Ventajas de usar LLM en local con Ollama
La principal razón por la que Ollama se ha hecho tan popular es que da respuesta a varias preocupaciones habituales cuando usamos IA en la nube: privacidad y seguridad, costes y dependencia externa.
En primer lugar, al ejecutar los modelos directamente en tu máquina, todos tus prompts, documentos y resultados se quedan en tu propio hardware. Nada sale de ahí, lo que es clave en entornos regulados (sanidad, finanzas, legal) o cuando trabajas con datos protegidos (HIPAA, RGPD, etc.). Mientras la instancia esté realmente local y no montes nada en servidores de terceros, el flujo de datos queda bajo tu control.
En segundo lugar, desaparecen los pagos por uso de API. Una vez que tienes tu equipo preparado, puedes generar texto, código o resúmenes sin pagar tokens ni suscripciones a un proveedor. Sí, necesitas invertir en hardware decente (sobre todo RAM y, si puedes, GPU), pero a cambio evitas sorpresas en la factura a final de mes.
Otra ventaja importante es que Ollama funciona sin conexión a internet una vez descargado el modelo. Esto viene muy bien si trabajas en lugares con mala cobertura, haces trabajo de campo, viajas a menudo o simplemente quieres asegurarte de que tu entorno de IA está disponible aunque se caiga la red.
Por último, la herramienta está muy orientada a la experimentación: puedes cambiar parámetros, usar plantillas de prompt, añadir adaptadores LoRA o importar modelos de terceros, todo centralizado en su sistema de Modelfiles. Eso la convierte en una base muy flexible para proyectos de nicho o investigación especializada.
Cómo funciona Ollama a nivel práctico
Internamente, Ollama crea un entorno aislado con todo lo necesario para ejecutar un modelo: pesos, archivos de configuración, bibliotecas y dependencias. Desde el punto de vista del usuario, tú solo te preocupas de qué modelo quieres, no de cómo se compila o qué versión de CUDA necesita.
El flujo típico es sencillo: primero descargas el modelo con ollama pull <nombre_modelo>, luego lo ejecutas con ollama run <nombre_modelo> y a partir de ahí interactúas con él escribiendo prompts. Puedes hacerlo directamente en la consola o a través de la API HTTP que expone en localhost:11434.
Ollama intenta aprovechar la GPU si está disponible y es compatible (NVIDIA, AMD, Apple Silicon vía Metal). Si no, se apoya en la CPU. En equipos con GPUs dedicadas modernas notarás una mejora enorme de rendimiento, sobre todo con modelos grandes. Aun así, también se puede usar solo con CPU, tirando de versiones cuantizadas de los modelos para reducir consumo de memoria.
En macOS y Windows, Ollama se instala como una aplicación que corre en segundo plano y añade el comando ollama al sistema. En Linux suele funcionar como un servicio systemd o dentro de un contenedor Docker, según prefieras. En entornos más complejos o cuando quieres aislar dependencias, usar Docker es muy habitual
Sea cual sea tu sistema, recuerda que la RAM y el espacio en disco son críticos. Para modelos de 7B necesitas como mínimo 8 GB de RAM, para 13B es mejor tener 16 GB y, si te vas a monstruos de 30B o 70B, 32 GB o más. En almacenamiento, los modelos pueden ir desde 2-3 GB para versiones pequeñas y cuantizadas hasta decenas de gigas para variantes grandes.
Gestión de modelos y comandos básicos de la CLI
Una vez instalado, la magia de Ollama pasa por su interfaz de línea de comandos. Aunque al principio pueda imponer un poco, los comandos clave se aprenden rápido y cubren casi todo lo que vas a hacer en el día a día.
Para descargar un modelo nuevo utilizas ollama pull <modelo>. El nombre suele seguir el patrón familia:etiqueta, por ejemplo llama3.2, mistral:7b o phi4-mini. Si omites la etiqueta, Ollama suele traer la versión “recomendada” más reciente.
Cuando quieres iniciar una conversación interactiva, ejecutas ollama run <modelo>. Si el modelo no está descargado, él mismo se encargará de hacerlo primero. Dentro de ese modo interactivo puedes escribir tus prompts y usar comandos especiales con barra, como /set parameter temperature 0.7 para cambiar la creatividad o /bye para salir.
Para saber qué modelos tienes ya en tu máquina, el comando es ollama list, que muestra nombres, tamaños y fecha de modificación. Si quieres limpiar espacio, puedes borrar uno con ollama rm <modelo>. Y si te interesa ver qué modelos están actualmente cargados en memoria y si están usando CPU o GPU, echas mano de ollama ps.
Cuando necesitas inspeccionar en detalle un modelo concreto, ollama show <modelo> te da su configuración: arquitectura, ventana de contexto, parámetros por defecto, plantilla de prompt y hasta el contenido del Modelfile si lo pides con la opción adecuada. Es una forma muy cómoda de entender por qué un modelo se comporta como se comporta.
Modelos más usados en Ollama y para qué sirven
Ollama no se limita a un único LLM: ofrece una biblioteca enorme de modelos preparados para distintos usos. Muchos de ellos pueden ajustarse aún más mediante archivos de configuración propios o adaptadores, pero ya de serie cubren necesidades muy distintas.
Por ejemplo, Llama 3.2 es uno de los grandes todoterreno. Se usa para generación de texto general, redacción, chat, traducción o resumen de documentos. Gracias a su buen soporte multilingüe, resulta muy útil para crear chatbots de atención al cliente, sistemas de recomendación o asistentes que entienden y generan español con bastante soltura.
Si lo tuyo es picar código, los modelos tipo Code Llama o variantes de Mistral orientadas a programación están pensados precisamente para eso. Se utilizan para generar funciones, revisar código, proponer refactorizaciones, crear pruebas unitarias o incluso montar APIs completas. Muchos desarrolladores los integran directamente en su flujo de trabajo de editor o terminal.
En el ámbito de la visión, modelos como LLaVA aportan capacidad multimodal: puedes pasarles imágenes junto con texto y obtener descripciones, respuestas a preguntas sobre lo que aparece en la foto o análisis de contenido visual. Esto abre puertas en sectores como comercio electrónico, marketing digital o análisis de imágenes médicas.
Para tareas más académicas y científicas, modelos como Phi-3 (y sucesores de la familia Phi) están entrenados con un fuerte componente de literatura de investigación. Suelen funcionar muy bien resumiendo artículos científicos, ayudando con estados del arte, comparando estudios o extrayendo ideas clave de textos largos.
En cualquier caso, si no tienes claro por dónde empezar, la propia biblioteca de modelos de Ollama ofrece fichas con instrucciones de instalación, casos de uso frecuentes y opciones de personalización. Lo normal es probar varios y quedarte con el que mejor se adapte a tu hardware y a las tareas que más repitas.
Casos de uso reales: de chatbots privados a investigación
Más allá de la teoría, Ollama brilla cuando lo pones a trabajar en problemas concretos. Uno de los usos más comunes es montar chatbots que corren íntegramente en servidores locales, sin enviar ni una línea de conversación a terceros. Esto interesa especialmente a empresas que tratan con datos delicados de clientes o expedientes internos.
En estas implementaciones, se suele integrar Ollama con sistemas ya existentes: CMS, CRM o aplicaciones internas. Por ejemplo, un gestor de contenidos puede usar un modelo local para sugerir titulares, reescribir párrafos o recomendar piezas relacionadas, todo sin salir del entorno corporativo. De forma similar, un CRM puede apoyarse en un modelo para resumir interacciones con clientes o sugerir próximas acciones.
En el mundo académico y sanitario, muchos grupos de investigación están empezando a usar Ollama para procesar conjuntos de datos clínicos o experimentales protegidos bajo normativas como HIPAA o RGPD. Suben los datos a su instancia local, tantean distintos modelos para análisis estadístico, generación de gráficos o redacción de artículos, y se aseguran de que nadie fuera de su infraestructura tiene acceso a esa información.
Otra aplicación muy potente es la creación de aplicaciones de IA centradas en la privacidad. Un par de ejemplos habituales son el análisis de contratos en despachos de abogados o el tratamiento de documentación interna en empresas que no se fían de un servicio externo. Como todo se ejecuta dentro de su red, resulta más sencillo demostrar cumplimiento normativo y mantener el control de los flujos de datos. Para reforzar la seguridad de la red interna, muchos equipos combinan estos despliegues con un servidor DNS local.
Por último, hay todo un ecosistema de usuarios que usan Ollama con interfaces gráficas de terceros como Open WebUI, que ofrecen experiencias tipo ChatGPT pero conectadas a tu servidor local. De este modo, se puede combinar la potencia de los LLM modernos con búsqueda en tus propios documentos (RAG), cuentas multiusuario o integración con herramientas, siempre sobre tu propia infraestructura.
Configuración avanzada, API y personalización con Modelfiles
Cuando ya dominas los comandos básicos, el siguiente paso natural es explotar la parte más avanzada de Ollama: su API HTTP y el sistema de Modelfiles. Con ellos puedes ajustar modelos, orquestar llamadas desde tus aplicaciones y afinar el comportamiento a un nivel bastante detallado.
La API viene integrada en el propio servidor y expone endpoints como /api/generate (para completar texto), /api/chat (para conversaciones con historial), /api/embeddings (para generar incrustaciones vectoriales) o /api/tags (para listar modelos). Puedes consumirla con curl, librerías HTTP o SDKs de OpenAI apuntando a localhost:11434/v1, ya que existe una capa de compatibilidad con el estilo de la API de OpenAI.
En paralelo, los Modelfiles son archivos de texto que describen cómo debe construirse o modificarse un modelo: desde qué base parte, qué adaptadores LoRA se aplican, qué plantilla de prompt se usa, qué parámetros por defecto tendrá o qué mensaje de sistema se establece. Con ollama create generas modelos personalizados a partir de estos ficheros.
Esto permite, por ejemplo, importar modelos externos en formato GGUF o Safetensors, aplicarles cuantización para reducir tamaño, añadirles un estilo de respuesta específico o integrar adaptadores entrenados para dominios concretos (como lenguaje médico o terminología jurídica). El resultado es un modelo nuevo, con su propio nombre, que puedes ejecutar o compartir igual que cualquiera de la biblioteca oficial.
Quien necesite exprimir hasta el último recurso tiene a su disposición un auténtico arsenal de parámetros de inferencia: temperature, top_p, top_k, num_predict, num_ctx, repeat_penalty y bastantes más. Controlar la ventana de contexto (num_ctx) es especialmente importante cuando trabajas con textos largos o conversaciones muy extensas, ya que determina cuánto “recuerda” el modelo de lo que le has dicho antes.
Por último, Ollama permite definir variables de entorno como OLLAMA_HOST, OLLAMA_MODELS u OLLAMA_NUM_PARALLEL para ajustar dónde escucha la API, en qué ruta guarda los modelos, cuántas peticiones procesa en paralelo o cuánto tiempo mantiene un modelo cargado. Esta parte de configuración fina es clave cuando despliegas la herramienta en servidores compartidos o entornos de producción.
Al juntar todo esto —ejecución local, biblioteca de modelos, API compatible con herramientas existentes y sistema de personalización— Ollama se convierte en una pieza central para cualquiera que quiera trabajar en serio con IA generativa en su propia infraestructura, desde un portátil modesto hasta clústeres más potentes.
Tabla de Contenidos
- Qué es Ollama y qué la hace diferente
- Ventajas de usar LLM en local con Ollama
- Cómo funciona Ollama a nivel práctico
- Gestión de modelos y comandos básicos de la CLI
- Modelos más usados en Ollama y para qué sirven
- Casos de uso reales: de chatbots privados a investigación
- Configuración avanzada, API y personalización con Modelfiles