La IA local permet agents autònoms que executen tasques complexes al teu propi maquinari mantenint la privadesa de les dades.
Stacks com NVIDIA NemoClaw integren models oberts, sandboxing i control granular d'eines per a un desplegament segur.
Projectes com OpenClaw, Jan AI, PocketBot o Ollama+Open WebUI apropen l'automatització local a PC i mòbils sense quotes.
Captures de pantalla, veu, scraping web i carpetes personals estructurades permeten automatitzar gran part de la vida digital.
La automatització amb IA local està deixant de ser cosa de friquis amb servidors a casa per convertir-se en una opció real per a qualsevol que vulgui més control, privadesa i flexibilitat. Avui ja no depens sí o sí del núvol d'una gran empresa per tenir agents capaços de llegir la teva pantalla, moure el ratolí, treballar amb els fitxers o executar fluxos complexos en segon pla.
El panorama ha explotat: des de stacks complets com NemoClaw de NVIDIA per a agents autònoms al teu propi maquinari, fins a apps al mòbil tipus PocketBot que converteixen llenguatge natural en automatitzacions del telèfon, passant per plataformes obertes com OpenClaw, assistents tipus Jan AI, i guies pràctiques per muntar-te el teu “ChatGPT casolà” amb Ollama i Open WebUI. L'objectiu és el mateix: muntar un ecosistema on la IA visqui al teu equip, parli amb els teus programes i automatitzi el teu dia a dia sense treure les teves dades de casa.
Què és l'automatització amb IA local i per què importa
Quan parlem de IA local per a automatització, ens referim a models i agents que corren al teu propi dispositiu (PC, servidor, DGX, mòbil) sense enviar dades sensibles a servidors externs. El model decideix, executa codi, llegeix fitxers, anomena APIs i coordina eines, però tot passa dins del teu entorn controlat.
L'evolució ha estat brutal: de simples chatbots que només responien preguntes hem passat a agents d'IA capaços d'executar cadenes de tasques, orquestrar diversos passos, consultar diferents fonts de dades i prendre decisions autònomes. Això ha canviat completament com entenem l'automatització: el model ja no és només “el que contesta”, és “el que actua”.
Aquest canvi porta una conseqüència evident: més autonomia implica més risc. Si dónes a un agent accés al sistema de fitxers, a les teves credencials, al teu navegador oa les teves eines de desenvolupament, necessites un disseny de seguretat seriós. Aquí és on els enfocaments locals brillen, perquè pots limitar permisos, aïllar processos i supervisar amb lupa què fa el model a cada moment.
A més, els models oberts amb llicències lliures tipus Apache-2.0 o MIT (com molts Falcon, Bark, Jan, etc.) permeten muntar solucions sense lligar-te a contractes ni polítiques d'ús opaques. Pots auditar el codi, ajustar el model, aplicar fine-tuning i fins i tot integrar-lo amb maquinari específic com GPUs A100 o estacions NVIDIA DGX.
Per a molts sectors (sanitat, banca, legal, administracions públiques), on la privadesa i emmagatzematge segur és sagrada, la combinació de IA local + agents autònoms + models oberts està marcant la diferència: automatitzes, però les dades no surten del teu perímetre.
Stacks d'IA local per a automatització avançada: NemoClaw, OpenShell i OpenClaw
NVIDIA ha entrat fort en aquest joc amb NemoClaw, un stack open source pensat per desplegar agents autònoms de manera segura, en local i sempre actius. Està dissenyat per córrer en màquines potents com NVIDIA DGX Spark, però la filosofia és aplicable a altres entorns certificats.
NemoClaw actua com capa d'orquestració: instal·la i coordina OpenShell (el runtime de seguretat) i OpenClaw (el framework d'agents multicanal), configura la inferència del model (via Ollama o NVIDIA NIM) i aplica polítiques de seguretat des del principi, no com a pegat d'última hora.
Al cor de l'stack sol estar NVIDIA Nemotron 3 Super 120B, un model de 120.000 milions de paràmetres optimitzat per a agents: molt bo seguint instruccions complexes, manejant eines i raonant en diversos passos. Això sí, per moure una mica d'aquesta mida necessites GPU seriosa i molta memòria; es parla d'uns 87 GB només pel model.
La inferència se serveix normalment amb Ollama com a runtime local, que exposa una API REST a la pròpia màquina. NemoClaw parla amb aquesta API per enviar prompts, rebre respostes i coordinar trucades a eines mitjançant el patró de tool-calling.
el component OpenShell és clau a la part de seguretat: imposa sandboxing, controla credencials, fa de proxy de xarxa i aplica el principi de menor privilegi. Monitoritza les connexions que intenta fer l'agent i permet aprovar o bloquejar endpoints des d'una interfície tipus TUI. D'aquesta manera, si el model intenta accedir a un nou servei, no surt res sense el teu vistiplau.
Dins del sandbox viu OpenClaw, la capa d'agent multicanal. És l'encarregat de parlar amb plataformes com Telegram, Slack o Discord, gestionar la memòria de l'agent, connectar eines (scripts, API, navegadors) i mantenir la conversa a llarg termini. Si vols un assistent sempre encès, accessible per missatgeria i amb memòria persistent, aquí hi ha la peça que ho fa possible.
Seguretat, sandboxing i desplegament local pas a pas
Un dels grans encerts d?aquest stack és que la seguretat està pensada des del disseny, no afegida després. L'error típic en projectes d'agents és muntar primer totes les funcionalitats i després intentar “blindar” allò que ja s'ha construït, generant forats per tot arreu.
El mecanisme central és el sandboxing d'execució. Tot codi que l'agent vulgui executar es corre dins d'un entorn aïllat: no té accés directe al sistema de fitxers del host, no pot fer trucades de xarxa arbitràries ni escalar privilegis més enllà del que defineix la configuració.
Això mitiga molt l'impacte de atacs tipus prompt injection o instruccions malicioses. Si el model decideix fer alguna cosa rara, el dany es queda confinat dins del sandbox. Tot i així, la pròpia NVIDIA reconeix que cap sandbox és perfecte, per la qual cosa recomanen provar noves eines sempre en sistemes aïllats.
A més, NemoClaw implementa control granular d'eines i polítiques en temps real. Per defecte, l'agent només pot parlar amb un mínim d'endpoints de xarxa. Quan intenta alguna cosa nova, OpenShell ho bloqueja i tu veus exactament què està intentant fer (host, port, procés). Podeu aprovar per a aquesta sessió o afegir una política permanent al host.
El flux de desplegament en un DGX Spark sol seguir aquests passos: configurar Ubuntu 24.04 LTS amb drivers NVIDIA seguint una guia de muntatge d'ordinadors, instal·lar Docker 28.xo superior amb runtime de GPU, instal·lar Ollama i descarregar el model Nemotron 3 Super 120B, i finalment llançar la instal·lació de NemoClaw amb un únic comandament que dispara un assistent de configuració.
Aquest onboarding et guia per nom del sandbox, proveïdor d'inferència, model elegit, presets de seguretat i, si vols, integració amb Telegram. El temps actiu de configuració s'estima en 20-30 minuts, més 15-30 més per baixar el model, segons l'amplada de banda.
Pel que fa a rendiment, cal ser realistes: una resposta amb un model de 120B paràmetres pot trigar entre 30 i 90 segons en un context local. No és un problema per si mateix, però cal tenir-ho en compte a l'hora de dissenyar els fluxos d'ús i el tipus de tasques que encarregues a l'agent.
Accés remot, interfície web i maquinari pensat per a IA local
Un cop tot està muntat, pots interactuar amb l'agent de diverses maneres. La més habitual és via Telegram, usant un bot creat amb @BotFather. És una elecció pràctica: API robusta, xifrat, apps per a tot tipus de dispositius i sense necessitat d'exposar ports del vostre servidor a l'exterior.
El bot rep els teus missatges, els reenvia a l'agent al DGX i et torna la resposta. El més interessant és que, encara que la conversa passa per la infraestructura de Telegram, la inferència i l'accés a dades sensibles continuen sent 100% locals a la teva màquina.
A més, NemoClaw ofereix una interfície web privada accessible mitjançant una URL tokenitzada que es genera una única vegada al final de l'onboarding. És crucial desar aquesta URL en el moment, perquè no es torna a mostrar. Per veure-la des d'una altra màquina de la xarxa, cal configurar un túnel SSH i el port forwarding mitjançant OpenShell.
Un detall fi però important és que l'URL s'ha d'obrir amb 127.0.0.1 en lloc de localhost. Usar localhost pot donar errors d'origen no permès (CORS), cosa que et pot fer perdre temps si no el coneixes.
Per a l'operació diària n'hi ha diversos ordres CLI útils: obrir una intèrpret d'ordres dins del sandbox, veure l'estat, seguir logs en temps real, llistar sandboxes, iniciar o parar el bridge de Telegram, activar port forwarding, o executar un script de desinstal·lació neta que retira tot l'stack.
Pel que fa a el maquinari, NVIDIA DGX Spark està clarament pensat per a aquests casos dús. És un sistema compacte amb GPUs NVIDIA i memòria unificada de gran amplada de banda, ideal per moure models de mida mitjana i gran amb latència baixa sense haver de muntar un datacenter complet.
La memòria unificada ajuda especialment amb un dels colls de botella clàssics: moure dades entre CPU i GPU. En compartir l'espai de memòria, el model accedeix a les dades de manera molt més eficient, permetent carregar models amb desenes de milers de milions de paràmetres en temps (gairebé) real, impensable fa poc en maquinari de consum.
Agents d'IA locals populars: exemples i casos d'ús
Més enllà de l'ecosistema NVIDIA, hi ha un bon grapat de agents d'IA i plataformes orientades a l'automatització al teu propi equip que convé conèixer. Cadascuna apunta a un tipus d'usuari ia un conjunt de tasques diferents.
OpenClaw, per exemple, s'ha popularitzat com plataforma d'agents de codi obert que actua com a assistent personal. Permet crear agents personalitzats per netejar la safata dentrada, enviar missatges, gestionar el calendari, organitzar viatges o automatitzar tasques repetitives de la vida digital.
Es pot instal·lar en Windows, macOS i Linux, i està preparat per treballar amb models LLM en mode local, cosa que millora la privadesa i redueix la dependència del núvol. A més, s'integra amb aplicacions de missatgeria com WhatsApp, Telegram, Discord, Slack, Signal o Missatges d'Apple, de manera que el teu agent viu “darrere” dels xats que ja fas servir.
Mitjançant plugins, pots donar-li accés al navegador, xarxes socials, gestors de correu i altres aplicacions, a més de permetre-li interactuar amb el sistema de fitxers, executar ordres i scripts, o automatitzar tasques típiques d'ofimàtica i productivitat. Tot això amb un focus clar en què l'usuari esculli quines carpetes, apps i serveis estan a l'abast de l'agent.
A l'ecosistema més generalista, destaquen plataformes com Ordinador de perplexitat, que transforma Perplexity de simple cercador conversacional en un assistent que pot executar fluxos de treball complexos. Aquest mode Computer permet navegar per la web, crear i gestionar documents, programar codi, processar dades i coordinar-se amb serveis com Gmail, Slack, GitHub o Notion.
El seu punt fort és aprofitar models com Claude, GPT, Gemini o el mateix Sonar de Perplexity per gestionar grans volums d'informació i dividir tasques complexes en subtasques executables en sèrie o en paral·lel. Encara que no sempre sigui totalment local, el patró d'agent i la integració amb eines són molt similars als dels agents que corren a la màquina.
Al terreny purament open source i local, Jan AI es presenta com un substitut de ChatGPT instal·lable a Windows, Mac i Linux. Permet utilitzar models locals com Flama (Meta) o Gemma (Google), o bé connectar-se a models en línia com ChatGPT, Claude, Gemini, Mistral, Qwen o DeepSeek si t'interessa una barreja.
Jan AI funciona tant com assistent conversacional clàssic (preguntar, redactar, resumir, traduir, reescriure, explicar) com a agent amb capacitat de processar arxius i documents, executar ordres i generar codi en diversos llenguatges. A més, la seva orientació a la personalització facilita crear el teu propi agent amb instruccions específiques i alternar entre diferents perfils segons el que estiguis fent.
Agents al dispositiu: PocketBot i automatització al mòbil
El concepte de IA local no es queda al PC. També està arribant amb força als mòbils, on cada cop més projectes aposten per models petits però especialitzats per automatitzar el telèfon sense passar pel núvol.
Un exemple clar és PocketBot, un agent que corre directament a iPhone usant truca.cpp sobre Metall. La seva missió és convertir llenguatge natural en automatitzacions del telèfon: en comptes de tocar mil menús o dreceres, descrius el que vols i l'agent s'encarrega de traduir-lo a accions.
PocketBot utilitza un model quantitzat de 3.000 milions de paràmetres, executant-se completament en local i sense enviar dades a servidors externs. El marge de memòria en un iPhone 15 Pro sol ser de 3-4 GB utilitzables abans que iOS comenci a matar processos, de manera que la mida del model i la quantització són crítics.
Un dels reptes que comenten els seus creadors és trobar models petits fiables per a tool-calling i sortides estructurades a JSON. Usant Qwen3, per exemple, es topen amb problemes com a noms de paràmetres inventats, JSON mal format ( claudàtors que falten) i adherència irregular a l'esquema, cosa que obliga a implementar capes d'autocorrecció i reintent.
També es debat molt sobre el punt òptim de quantització per obtenir la millor relació qualitat/memòria, barrejant opcions com q4_K_M o q5_K_S segons la generació de xip i la memòria disponible. Cada bit a faltar en la quantització significa models més manejables, però pot penalitzar raonament i precisió en crides a eines.
Un altre front és l'ajust de paràmetres de mostreig segons la tasca. Configuracions típiques inclouen temperatura 0,7, top_p 0,8, top_k 20 i repeat_penalty 1,1, però hi ha interès a separar estratègies de generació per a conversa lliure versus tool-calling, on interessa més determinisme i menys creativitat.
Finalment, al mòbil la gestió del context és especialment delicada: se sol escorcollar el prompt del sistema a la KV cache per no reprocessar-lo, i aplicar finestres lliscants per no excedir la capacitat; per això convé saber com guardar i organitzar els teus prompts.
Més enllà d'això, hi ha espai per a trucs de resum incremental, memòria selectiva o esquemes híbrids que combinin històric comprimit i context immediat.
Muntar el teu propi “ChatGPT local” amb Ollama i Open WebUI
Per als que no necessiten un stack tan complex com NemoClaw, però sí que volen un assistent tipus ChatGPT corrent al vostre ordinador, s'ha popularitzat un enfocament molt pràctic basat en Ollama i Open WebUI.
La idea és senzilla: Ollama s'encarrega de descarregar i servir models (Truca, Gemma, Qwen, etc.) a la teva màquina mitjançant una API local, i Open WebUI ofereix una interfície web molt semblant a ChatGPT però executant-se completament al teu equip. Tot el trànsit entre UI i model va per localhost.
En una guia pas a pas molt directa es detalla com, amb uns 15 ordres de terminal, podeu tenir aquesta configuració funcionant en menys d'una hora. Inclou instal·lació de Python 3.11, configuració bàsica del sistema, instal·lació d'Ollama i desplegament d'Open WebUI, juntament amb captures i tipus de resolució de problemes.
El resultat és un entorn on gaudeixes de cost zero en subscripcions, privadesa total (les dades no surten del teu ordinador), temps de resposta competitius (sense cues de servidors compartits) i llibertat total per personalitzar assistents especialitzats segons les teves pròpies necessitats.
A més, Open WebUI integra funcions avançades com cerca web, intèrpret de codi, creació de models personalitzats a partir de configuracions específiques i està preparant capacitats RAG avançades per muntar bases de coneixement personals. La idea és que puguis tenir un copilot entrenat amb els teus documents i fluxos de treball sense dependre de tercers.
Després d'uns mesos d'ús, molts usuaris reporten que aquesta combinació ha substituït del tot les seves subscripcions de pagament a solucions al núvol, alhora que millora la integració amb les seves pròpies dades i eines locals. El pas natural següent és connectar aquest “ChatGPT casolà” amb agents, scripts i serveis per coordinar automatitzacions més complexes.
Automatitzar la teva vida digital: exemples pràctics amb IA local
Tot això sona molt bé a nivell tècnic, però què pots fer al dia a dia amb agents locals ben muntats? Les possibilitats són força àmplies si combines models multimodals, accés a pantalla, eines i emmagatzematge estructurat.
Hi ha propostes pensades per automatitzar l'ús del teu ordinador amb agents que reben captures de pantalla i actuen sobre elles. El flux seria una cosa així: el sistema pren un screenshot, l'agent el processa amb un model capaç de treballar amb imatges, entén quina aplicació està oberta, quins botons hi ha, quin text apareix, i sobre la base del teu prompt decideix què fer a continuació.
Amb aquesta idea podries, per exemple, configurar agents especialitzats en traducció: el sistema captura la part de la pantalla que vulguis traduir, l'amplia en una finestra tipus “traductor lupa” i genera una traducció gairebé instantània usant un model petit (per exemple, de 4B paràmetres) afinat per a traducció, com una variant de PHI fine-tunejada.
Un altre front interessant és el de models visuals que transformen captures en PDF. Imagina una eina que, a partir de screenshots de presentacions, dashboards o documents, genera PDFs ben formatats que després pots polir o fer servir directament a les teves presentacions. Integrant Python amb Acrobat podries automatitzar tot el pipeline.
Per treballar amb la web sense dependre de serveis externs, tecnologies veteranes com BeautifulSoup segueixen sent molt útils. Pots muntar un scraper lleuger que recorri diverses pàgines, es quedi només amb l'HTML necessari (per exemple, extreure'n únicament