- La IA local permite agentes autónomos que ejecutan tareas complejas en tu propio hardware manteniendo la privacidad de los datos.
- Stacks como NVIDIA NemoClaw integran modelos abiertos, sandboxing y control granular de herramientas para un despliegue seguro.
- Proyectos como OpenClaw, Jan AI, PocketBot u Ollama+Open WebUI acercan la automatización local a PC y móviles sin cuotas.
- Capturas de pantalla, voz, scraping web y carpetas personales estructuradas permiten automatizar gran parte de la vida digital.

La automatización con IA local está dejando de ser cosa de frikis con servidores en casa para convertirse en una opción real para cualquiera que quiera más control, privacidad y flexibilidad. Hoy ya no dependes sí o sí de la nube de una gran empresa para tener agentes capaces de leer tu pantalla, mover el ratón, trabajar con tus archivos o ejecutar flujos complejos en segundo plano.
El panorama ha explotado: desde stacks completos como NemoClaw de NVIDIA para agentes autónomos en tu propio hardware, hasta apps en el móvil tipo PocketBot que convierten lenguaje natural en automatizaciones del teléfono, pasando por plataformas abiertas como OpenClaw, asistentes tipo Jan AI, y guías prácticas para montarte tu “ChatGPT casero” con Ollama y Open WebUI. El objetivo es el mismo: montar un ecosistema en el que la IA viva en tu equipo, hable con tus programas y automatice tu día a día sin sacar tus datos de casa.
Qué es la automatización con IA local y por qué importa
Cuando hablamos de IA local para automatización, nos referimos a modelos y agentes que corren en tu propio dispositivo (PC, servidor, DGX, móvil) sin enviar datos sensibles a servidores externos. El modelo decide, ejecuta código, lee archivos, llama APIs y coordina herramientas, pero todo ocurre dentro de tu entorno controlado.
La evolución ha sido brutal: de simples chatbots que solo respondían preguntas hemos pasado a agentes de IA capaces de ejecutar cadenas de tareas, orquestar varios pasos, consultar diferentes fuentes de datos y tomar decisiones autónomas. Eso ha cambiado por completo cómo entendemos la automatización: el modelo ya no es solo “el que contesta”, es “el que actúa”.
Este cambio trae una consecuencia evidente: más autonomía implica más riesgo. Si le das a un agente acceso al sistema de archivos, a tus credenciales, a tu navegador o a tus herramientas de desarrollo, necesitas un diseño de seguridad serio. Aquí es donde los enfoques locales brillan, porque puedes limitar permisos, aislar procesos y supervisar con lupa qué hace el modelo en cada momento.
Además, los modelos abiertos con licencias libres tipo Apache-2.0 o MIT (como muchos Falcon, Bark, Jan, etc.) permiten montar soluciones sin atarte a contratos ni políticas de uso opacas. Puedes auditar el código, ajustar el modelo, aplicar fine-tuning e incluso integrarlo con hardware específico como GPUs A100 o estaciones NVIDIA DGX.
Para muchos sectores (sanidad, banca, legal, administraciones públicas), donde la privacidad y almacenamiento seguro es sagrada, la combinación de IA local + agentes autónomos + modelos abiertos está marcando la diferencia: automatizas, pero los datos no salen de tu perímetro.
Stacks de IA local para automatización avanzada: NemoClaw, OpenShell y OpenClaw
NVIDIA ha entrado fuerte en este juego con NemoClaw, un stack open source pensado para desplegar agentes autónomos de forma segura, en local y siempre activos. Está diseñado para correr en máquinas potentes como NVIDIA DGX Spark, pero la filosofía es aplicable a otros entornos certificados.
NemoClaw actúa como capa de orquestación: instala y coordina OpenShell (el runtime de seguridad) y OpenClaw (el framework de agentes multicanal), configura la inferencia del modelo (vía Ollama o NVIDIA NIM) y aplica políticas de seguridad desde el principio, no como parche de última hora.
En el corazón del stack suele estar NVIDIA Nemotron 3 Super 120B, un modelo de 120.000 millones de parámetros optimizado para agentes: muy bueno siguiendo instrucciones complejas, manejando herramientas y razonando en varios pasos. Eso sí, para mover algo de este tamaño necesitas GPU seria y mucha memoria; se habla de unos 87 GB solo para el modelo.
La inferencia se sirve normalmente con Ollama como runtime local, que expone una API REST en la propia máquina. NemoClaw habla con esa API para enviar prompts, recibir respuestas y coordinar llamadas a herramientas mediante el patrón de tool-calling.
El componente OpenShell es clave en la parte de seguridad: impone sandboxing, controla credenciales, hace de proxy de red y aplica el principio de menor privilegio. Monitoriza las conexiones que intenta hacer el agente y te permite aprobar o bloquear endpoints desde una interfaz tipo TUI. De esta manera, si el modelo intenta acceder a un servicio nuevo, no sale nada sin tu visto bueno.
Dentro del sandbox vive OpenClaw, la capa de agente multicanal. Es el encargado de hablar con plataformas como Telegram, Slack o Discord, gestionar la memoria del agente, conectar herramientas (scripts, APIs, navegadores) y mantener la conversación a largo plazo. Si quieres un asistente siempre encendido, accesible por mensajería y con memoria persistente, aquí está la pieza que lo hace posible.
Seguridad, sandboxing y despliegue local paso a paso
Uno de los grandes aciertos de este stack es que la seguridad está pensada desde el diseño, no añadida después. El error típico en proyectos de agentes es montar primero todas las funcionalidades y luego intentar “blindar” lo ya construido, generando agujeros por todas partes.
El mecanismo central es el sandboxing de ejecución. Todo código que el agente quiera ejecutar se corre dentro de un entorno aislado: no tiene acceso directo al sistema de archivos del host, no puede hacer llamadas de red arbitrarias ni escalar privilegios más allá de lo definido en la configuración.
Esto mitiga mucho el impacto de ataques tipo prompt injection o instrucciones maliciosas. Si el modelo decide hacer algo raro, el daño se queda confinado dentro del sandbox. Aun así, la propia NVIDIA reconoce que ningún sandbox es perfecto, por lo que recomiendan probar nuevas herramientas siempre en sistemas aislados.
Además, NemoClaw implementa control granular de herramientas y políticas en tiempo real. Por defecto, el agente solo puede hablar con un mínimo de endpoints de red. Cuando intenta algo nuevo, OpenShell lo bloquea y tú ves exactamente qué está intentando hacer (host, puerto, proceso). Puedes aprobar para esa sesión o añadir una política permanente en el host.
El flujo de despliegue en un DGX Spark suele seguir estos pasos: configurar Ubuntu 24.04 LTS con drivers NVIDIA siguiendo una guía de montaje de ordenadores, instalar Docker 28.x o superior con runtime de GPU, instalar Ollama y descargar el modelo Nemotron 3 Super 120B, y finalmente lanzar la instalación de NemoClaw con un único comando que dispara un asistente de configuración.
Este onboarding te guía por nombre del sandbox, proveedor de inferencia, modelo elegido, presets de seguridad y, si quieres, integración con Telegram. El tiempo activo de configuración se estima en 20-30 minutos, más otros 15-30 para bajar el modelo, según el ancho de banda.
En cuanto a rendimiento, hay que ser realistas: una respuesta con un modelo de 120B parámetros puede tardar entre 30 y 90 segundos en un contexto local. No es un problema en sí, pero hay que tenerlo en cuenta a la hora de diseñar los flujos de uso y el tipo de tareas que le encargas al agente.
Acceso remoto, interfaz web y hardware pensado para IA local
Una vez todo está montado, puedes interactuar con el agente de varias formas. La más habitual es vía Telegram, usando un bot creado con @BotFather. Es una elección práctica: API robusta, cifrado, apps para todo tipo de dispositivos y sin necesidad de exponer puertos de tu servidor al exterior.
El bot recibe tus mensajes, los reenvía al agente en el DGX y te devuelve la respuesta. Lo interesante es que, aunque la conversación pasa por la infraestructura de Telegram, la inferencia y el acceso a datos sensibles siguen siendo 100 % locales en tu máquina.
Además, NemoClaw ofrece una interfaz web privada accesible mediante una URL tokenizada que se genera una única vez al final del onboarding. Es crucial guardar esa URL en el momento, porque no se vuelve a mostrar. Para verla desde otra máquina de la red, hay que configurar un túnel SSH y el port forwarding a través de OpenShell.
Un detalle fino pero importante es que la URL debe abrirse con 127.0.0.1 en lugar de localhost. Usar localhost puede dar errores de origen no permitido (CORS), algo que puede hacerte perder tiempo si no lo conoces.
Para la operación diaria existen varios comandos CLI útiles: abrir una shell dentro del sandbox, ver el estado, seguir logs en tiempo real, listar sandboxes, iniciar o parar el bridge de Telegram, activar port forwarding, o ejecutar un script de desinstalación limpia que retira todo el stack.
En cuanto al hardware, NVIDIA DGX Spark está claramente pensado para estos casos de uso. Es un sistema compacto con GPUs NVIDIA y memoria unificada de gran ancho de banda, ideal para mover modelos de tamaño medio y grande con latencia baja sin tener que montar un datacenter completo.
La memoria unificada ayuda especialmente con uno de los cuellos de botella clásicos: mover datos entre CPU y GPU. Al compartir el espacio de memoria, el modelo accede a los datos de forma mucho más eficiente, permitiendo cargar modelos con decenas de miles de millones de parámetros en tiempo (casi) real, impensable hace poco en hardware de consumo.
Agentes de IA locales populares: ejemplos y casos de uso
Más allá del ecosistema NVIDIA, hay un buen puñado de agentes de IA y plataformas orientadas a la automatización en tu propio equipo que conviene conocer. Cada una apunta a un tipo de usuario y a un conjunto de tareas distinto.
OpenClaw, por ejemplo, se ha popularizado como plataforma de agentes de código abierto que actúa como asistente personal. Permite crear agentes personalizados para limpiar la bandeja de entrada, enviar mensajes, gestionar el calendario, organizar viajes o automatizar tareas repetitivas de la vida digital.
Se puede instalar en Windows, macOS y Linux, y está preparado para trabajar con modelos LLM en modo local, lo que mejora la privacidad y reduce la dependencia de la nube. Además, se integra con aplicaciones de mensajería como WhatsApp, Telegram, Discord, Slack, Signal o Mensajes de Apple, de modo que tu agente vive “detrás” de los chats que ya usas.
Mediante plugins, puedes darle acceso al navegador, redes sociales, gestores de correo y otras aplicaciones, además de permitirle interactuar con el sistema de archivos, ejecutar comandos y scripts, o automatizar tareas típicas de ofimática y productividad. Todo ello con un foco claro en que el usuario elija qué carpetas, apps y servicios están al alcance del agente.
En el ecosistema más generalista, destacan plataformas como Perplexity Computer, que transforma Perplexity de simple buscador conversacional en un asistente que puede ejecutar flujos de trabajo complejos. Este modo Computer permite navegar por la web, crear y gestionar documentos, programar código, procesar datos y coordinarse con servicios como Gmail, Slack, GitHub o Notion.
Su punto fuerte es aprovechar modelos como Claude, GPT, Gemini o el propio Sonar de Perplexity para gestionar grandes volúmenes de información y dividir tareas complejas en subtareas ejecutables en serie o en paralelo. Aunque no siempre sea totalmente local, el patrón de agente y la integración con herramientas son muy similares a los de los agentes que corren en tu máquina.
En el terreno puramente open source y local, Jan AI se presenta como un sustituto de ChatGPT instalable en Windows, Mac y Linux. Permite usar modelos locales como Llama (Meta) o Gemma (Google), o bien conectarse a modelos online como ChatGPT, Claude, Gemini, Mistral, Qwen o DeepSeek si te interesa una mezcla.
Jan AI funciona tanto como asistente conversacional clásico (preguntar, redactar, resumir, traducir, reescribir, explicar) como agente con capacidad de procesar archivos y documentos, ejecutar comandos y generar código en varios lenguajes. Además, su orientación a la personalización facilita crear tu propio agente con instrucciones específicas y alternar entre distintos “perfiles” según lo que estés haciendo.
Agentes en el dispositivo: PocketBot y automatización en el móvil
El concepto de IA local no se queda en el PC. También está llegando con fuerza a los móviles, donde cada vez más proyectos apuestan por modelos pequeños pero especializados para automatizar el teléfono sin pasar por la nube.
Un ejemplo claro es PocketBot, un agente que corre directamente en iPhone usando llama.cpp sobre Metal. Su misión es convertir lenguaje natural en automatizaciones del propio teléfono: en vez de tocar mil menús o atajos, describes lo que quieres y el agente se encarga de traducirlo a acciones.
PocketBot utiliza un modelo cuantizado de 3.000 millones de parámetros, ejecutándose completamente en local y sin enviar datos a servidores externos. El margen de memoria en un iPhone 15 Pro suele ser de 3-4 GB utilizables antes de que iOS empiece a matar procesos, por lo que el tamaño del modelo y la cuantización son críticos.
Uno de los retos que comentan sus creadores es encontrar modelos pequeños fiables para tool-calling y salidas estructuradas en JSON. Usando Qwen3, por ejemplo, se topan con problemas como nombres de parámetros inventados, JSON mal formado (corchetes que faltan) y adherencia irregular al esquema, lo que obliga a implementar capas de autocorrección y reintento.
También se debate mucho sobre el punto óptimo de cuantización para obtener la mejor relación calidad/memoria, barajando opciones como q4_K_M o q5_K_S según la generación de chip y la memoria disponible. Cada bit de menos en la cuantización significa modelos más manejables, pero puede penalizar razonamiento y precisión en llamadas a herramientas.
Otro frente es el ajuste de parámetros de muestreo según la tarea. Configuraciones típicas incluyen temperatura 0,7, top_p 0,8, top_k 20 y repeat_penalty 1,1, pero hay interés en separar estrategias de generación para conversación libre versus tool-calling, donde interesa más determinismo y menos creatividad.
Por último, en el móvil la gestión del contexto es especialmente delicada: se suele cachear el prompt del sistema en la KV cache para no reprocesarlo, y aplicar ventanas deslizantes para no exceder la capacidad; por eso conviene saber cómo guardar y organizar tus prompts.
Más allá de eso, hay espacio para trucos de resumen incremental, memoria selectiva o esquemas híbridos que combinen histórico comprimido y contexto inmediato.
Montar tu propio “ChatGPT local” con Ollama y Open WebUI
Para quienes no necesitan un stack tan complejo como NemoClaw, pero sí quieren un asistente tipo ChatGPT corriendo en su ordenador, se ha popularizado un enfoque muy práctico basado en Ollama y Open WebUI.
La idea es sencilla: Ollama se encarga de descargar y servir modelos (Llama, Gemma, Qwen, etc.) en tu máquina mediante una API local, y Open WebUI ofrece una interfaz web muy parecida a ChatGPT pero ejecutándose completamente en tu equipo. Todo el tráfico entre UI y modelo va por localhost.
En una guía paso a paso muy directa se detalla cómo, con unos 15 comandos de terminal, puedes tener esta configuración funcionando en menos de una hora. Incluye instalación de Python 3.11, configuración básica del sistema, instalación de Ollama y despliegue de Open WebUI, junto con capturas y tips de resolución de problemas.
El resultado es un entorno donde disfrutas de coste cero en suscripciones, privacidad total (los datos no salen de tu ordenador), tiempos de respuesta competitivos (sin colas de servidores compartidos) y libertad total para personalizar asistentes especializados según tus propias necesidades.
Además, Open WebUI integra funciones avanzadas como búsqueda web, intérprete de código, creación de modelos personalizados a partir de configuraciones específicas, y está preparando capacidades RAG avanzadas para montar bases de conocimiento personales. La idea es que puedas tener un “copiloto” entrenado con tus documentos y flujos de trabajo sin depender de terceros.
Tras unos meses de uso, muchos usuarios reportan que esta combinación ha sustituido por completo sus suscripciones de pago a soluciones en la nube, al tiempo que mejora la integración con sus propios datos y herramientas locales. El siguiente paso natural es conectar ese “ChatGPT casero” con agentes, scripts y servicios para coordinar automatizaciones más complejas.
Automatizar tu vida digital: ejemplos prácticos con IA local
Todo esto suena muy bien a nivel técnico, pero ¿qué puedes hacer en el día a día con agentes locales bien montados? Las posibilidades son bastante amplias si combinas modelos multimodales, acceso a pantalla, herramientas y almacenamiento estructurado.
Hay propuestas pensadas para automatizar el uso de tu propio ordenador con agentes que reciben capturas de pantalla y actúan sobre ellas. El flujo sería algo así: el sistema toma un screenshot, el agente lo procesa con un modelo capaz de trabajar con imágenes, entiende qué aplicación está abierta, qué botones hay, qué texto aparece, y en base a tu prompt decide qué hacer a continuación.
Con esta idea podrías, por ejemplo, configurar agentes especializados en traducción: el sistema captura la parte de la pantalla que quieras traducir, la amplía en una ventana tipo “traductor lupa” y genera una traducción casi instantánea usando un modelo pequeño (por ejemplo, de 4B parámetros) afinado para traducción, como una variante de PHI fine-tuneada.
Otro frente interesante es el de modelos visuales que transforman capturas en PDF. Imagina una herramienta que, a partir de screenshots de presentaciones, dashboards o documentos, genera PDFs bien formateados que luego puedes pulir o usar directamente en tus presentaciones. Integrando Python con Acrobat podrías automatizar todo el pipeline.
Para trabajar con la web sin depender de servicios externos, tecnologías veteranas como BeautifulSoup siguen siendo muy útiles. Puedes montar un scraper ligero que recorra varias páginas, se quede solo con el HTML necesario (por ejemplo, extraer únicamente
Si además el agente tiene acceso al cursor y a herramientas de edición de vídeo, se abre la puerta a automatizar tareas en programas como DaVinci Resolve o Adobe After Effects. El agente compararía el último screenshot con el siguiente, inferiría dónde tiene que colocar el ratón y qué acción ejecutar para progresar hacia el resultado que le has pedido.
En el plano del audio, puedes integrar un sistema de voz con evaluación humana: el agente genera una frase (por ejemplo, “Buenos días, mi amor”), tú le pones nota del 1 al 10 y decides si se guarda. Esa calificación puede servir para ajustar parámetros como la temperatura de generación, o bien puedes regularla manualmente desde una ventanita dedicada.
Guardando las locuciones en ficheros tipo {frase}-{número}.mp3 o .wav, puedes reutilizar y recombinar voces en futuras sesiones. Modelos como Bark, con licencia MIT, se prestan muy bien a esta personalización casi infinita, incluso añadiendo matices emocionales cuando tenga sentido.
Para organizar toda esta información, es fundamental dotar al agente de una carpeta personal estructurada en tu máquina: user-info/, search-data/, screenshots/, screenshots-for-translate/, voices/, lang/, code-spaces/… En lugar de subir tu código a GitHub, puedes guardar proyectos localmente y elegir qué repositorios o carpetas usa el agente como contexto en cada sesión.
Por último, si quieres que el modelo se adapte a ti durante cierto tiempo, puedes explorar técnicas de fine-tuning ligero como LoRA o QLoRA. Estas aproximaciones permiten ajustar el modelo a tu estilo o a tu dominio sin necesidad de reentrenar todo desde cero, aunque en entornos donde prima la productividad pura puede que no compense tenerlo siempre activo; lo ideal es poder activar o desactivar esa personalización.
En este contexto, también cobra importancia la elección del modelo base: muchos desarrolladores buscan modelos Apache-2.0 o MIT, tanto en tamaños pequeños (2-4B parámetros) para prototipos y dispositivos modestos, como en modelos de 30B entrenados con hardware de gama alta (por ejemplo, GPUs A100) para fine-tuning a gran escala. Se estima que unos pocos meses de trabajo serio en este campo pueden dar resultados muy competitivos.
Mirando todo el ecosistema en conjunto, la automatización con IA local está pasando de ser un experimento a una infraestructura sólida, tanto para usuarios individuales hartos de cuotas mensuales como para empresas que no pueden permitirse sacar datos sensibles fuera. Desde stacks listos para producción como NemoClaw hasta configuraciones caseras con Ollama y Open WebUI, pasando por agentes de escritorio y móviles como OpenClaw, Jan AI o PocketBot, el denominador común es el mismo: más control, más privacidad y una autonomía de la IA que, por primera vez, puedes gobernar tú.
Tabla de Contenidos
- Qué es la automatización con IA local y por qué importa
- Stacks de IA local para automatización avanzada: NemoClaw, OpenShell y OpenClaw
- Seguridad, sandboxing y despliegue local paso a paso
- Acceso remoto, interfaz web y hardware pensado para IA local
- Agentes de IA locales populares: ejemplos y casos de uso
- Agentes en el dispositivo: PocketBot y automatización en el móvil
- Montar tu propio “ChatGPT local” con Ollama y Open WebUI
- Automatizar tu vida digital: ejemplos prácticos con IA local