- Lokālais mākslīgais intelekts ļauj autonomiem aģentiem veikt sarežģītus uzdevumus jūsu aparatūrā, vienlaikus saglabājot datu privātumu.
- Tādi steki kā NVIDIA NemoClaw integrē atvērtos modeļus, smilškastes tehnoloģiju un detalizētu rīku kontroli drošai izvietošanai.
- Tādi projekti kā OpenClaw, Jan AI, PocketBot vai Ollama+Open WebUI nodrošina lokālu automatizāciju datoros un mobilajās ierīcēs bez maksas.
- Ekrānuzņēmumi, balss ieraksti, tīmekļa datu kopēšana un strukturētas personiskās mapes ļauj automatizēt lielu daļu jūsu digitālās dzīves.
La automatizācija ar lokālo mākslīgo intelektu Tas vairs nav tikai tehnoloģiju entuziastu ar mājas serveriem pieejams, bet gan reāla iespēja ikvienam, kurš vēlas lielāku kontroli, privātumu un elastību. Mūsdienās jūs vairs neesat pilnībā atkarīgs no liela uzņēmuma mākoņpakalpojumiem, lai nodrošinātu aģentus, kas spēj lasīt jūsu ekrānu, pārvietot peli, strādāt ar jūsu failiem vai fonā vadīt sarežģītas darbplūsmas.
Situācija ir eksplodējusi: no pilni steks, piemēram, NVIDIA NemoClaw Sākot ar autonomiem aģentiem, kas darbojas jūsu pašu aparatūrā, līdz mobilajām lietotnēm, piemēram, PocketBot, kas pārveido dabisko valodu tālruņa automatizācijā, un ieskaitot atvērtas platformas, piemēram, OpenClaw, asistentus, piemēram, Jan AI, un praktiskas rokasgrāmatas sava "pašdarināta ChatGPT" iestatīšanai ar Ollama un Open WebUI, mērķis ir viens: izveidot ekosistēmu, kurā mākslīgais intelekts dzīvo jūsu datorā, mijiedarbojas ar jūsu programmām un automatizē jūsu ikdienas uzdevumus, neizņemot datus no jūsu sistēmas.
Kas ir lokālā mākslīgā intelekta automatizācija un kāpēc tā ir svarīga?
Kad mēs runājam par Vietējais mākslīgais intelekts automatizācijaiMēs runājam par modeļiem un aģentiem, kas darbojas jūsu ierīcē (datorā, serverī, DGX, mobilajā ierīcē), nesūtot sensitīvus datus uz ārējiem serveriem. Modelis pieņem lēmumus, izpilda kodu, lasa failus, izsauc API un koordinē rīkus, bet viss notiek jūsu kontrolētajā vidē.
Attīstība ir bijusi dramatiska: no vienkāršiem tērzēšanas robotiem, kas atbildēja tikai uz jautājumiem, mēs esam pārgājuši uz Mākslīgā intelekta aģenti, kas spēj izpildīt uzdevumu ķēdeslai organizētu vairākus soļus, konsultētos par dažādiem datu avotiem un pieņemtu autonomus lēmumus. Tas ir pilnībā mainījis mūsu izpratni par automatizāciju: modelis vairs nav tikai "tas, kurš atbild", bet gan "tas, kurš rīkojas".
Šīm izmaiņām ir viena acīmredzama sekas: Lielāka autonomija nozīmē lielāku riskuJa piešķirat aģentam piekļuvi failu sistēmai, jūsu akreditācijas datiem, pārlūkprogrammai vai izstrādes rīkiem, jums ir nepieciešams stabils drošības dizains. Šeit izceļas lokālās pieejas, jo jūs varat ierobežot atļaujas, izolēt procesus un rūpīgi uzraudzīt modeļa darbību jebkurā laikā.
Turklāt, atvērtie modeļi ar bezmaksas licencēm, piemēram, Apache-2.0 vai MIT (Tāpat kā daudzi Falcon, Bark, Jan u. c.) risinājumi, tie ļauj veidot risinājumus, nepiesaistoties līgumiem vai necaurspīdīgām lietošanas politikām. Varat auditēt kodu, pielāgot modeli, veikt precizēšanu un pat integrēt to ar specifisku aparatūru, piemēram, A100 grafiskajiem procesoriem vai NVIDIA DGX darbstacijām.
Daudzās nozarēs (veselības aprūpē, banku sektorā, juridiskajā jomā, valsts pārvaldē), kur Konfidencialitāte un droša glabāšana Tas ir svēts, apvienojums Vietējais mākslīgais intelekts + autonomie aģenti + atvērtie modeļi Tas rada atšķirību: jūs automatizējat, bet dati neiziet ārpus jūsu perimetra.
Vietējie mākslīgā intelekta steki progresīvai automatizācijai: NemoClaw, OpenShell un OpenClaw
NVIDIA ir spēcīgi iesaistījusies šajā spēlē ar NemoClawTas ir atvērtā pirmkoda programmatūras komplekts, kas paredzēts autonomu aģentu drošai lokālai izvietošanai un to nepārtrauktas darbības nodrošināšanai. Tas ir paredzēts darbībai jaudīgās ierīcēs, piemēram, NVIDIA DGX Spark, taču šī filozofija ir piemērojama arī citām sertificētām vidēm.
NemoClaw darbojas kā orķestra darbības spēja: instalē un koordinē OpenShell (drošības izpildlaiku) un OpenClaw (daudzkanālu aģenta ietvaru), konfigurē modeļa secinājumus (izmantojot Ollama vai NVIDIA NIM) un piemēro drošības politikas jau no paša sākuma, nevis kā pēdējā brīža ielāpu.
Steka centrā parasti atrodas NVIDIA Nemotron 3 Super 120BModelis ar 120.000 miljardiem parametru, kas optimizēts aģentiem: ļoti labs sarežģītu instrukciju izpildē, rīku apstrādē un daudzpakāpju spriešanā. Tomēr, lai palaistu kaut ko šāda izmēra, ir nepieciešams nopietns grafiskais procesors un daudz atmiņas; tikai modelim vien tiek minēti aptuveni 87 GB.
Secinājums parasti tiek pasniegts ar Ollama kā lokāla izpildlaika videkas pašā ierīcē atver REST API. NemoClaw sazinās ar šo API, lai nosūtītu uzvednes, saņemtu atbildes un koordinētu rīku izsaukumus, izmantojot rīku izsaukšanas modeli.
Komponents OpenShell ir galvenais drošības aspektāTas nodrošina smilškastes principu ievērošanu, kontrolē akreditācijas datus, darbojas kā tīkla starpniekserveris un piemēro mazāko privilēģiju principu. Tas uzrauga aģenta mēģinātos savienojumus un ļauj apstiprināt vai bloķēt galapunktus no TUI līdzīgas saskarnes. Tādā veidā, ja modelis mēģina piekļūt jaunam pakalpojumam, bez jūsu apstiprinājuma nekas nenotiek.
Smilšu kastes iekšienē dzīvo OpenClaw, daudzkanālu aģenta slānisTas apstrādā saziņu ar tādām platformām kā Telegram, Slack un Discord, pārvalda aģenta atmiņu, savieno rīkus (skriptus, API, pārlūkprogrammas) un uztur sarunu ilgtermiņā. Ja vēlaties vienmēr ieslēgtu asistentu, kam var piekļūt, izmantojot ziņojumapmaiņu, un ar pastāvīgu atmiņu, šī ir komponente, kas to padara iespējamu.
Drošība, smilškastes tehnoloģija un lokālā izvietošana soli pa solim
Viena no šīs stekas lielākajām priekšrocībām ir tā, ka Drošība tiek ņemta vērā jau no projektēšanas stadijas.netiek pievienots vēlāk. Tipiska kļūda aģentu projektos ir vispirms izveidot visas funkcionalitātes un pēc tam mēģināt "aizsargāt" jau izveidoto, radot caurumus visur.
Centrālais mehānisms ir izpildes smilškasteViss kods, ko aģents vēlas izpildīt, darbojas izolētā vidē: tam nav tiešas piekļuves resursdatora failu sistēmai, tas nevar veikt patvaļīgus tīkla izsaukumus un nevar piešķirt privilēģijas, kas pārsniedz konfigurācijā definēto.
Tas ievērojami mazina ietekmi, ko rada tūlītējas injekcijas uzbrukumi vai ļaunprātīgas instrukcijas. Ja modelis nolemj darīt kaut ko neparastu, kaitējums paliek ierobežots smilškastes ietvaros. Pat ja tā, NVIDIA pati atzīst, ka neviena smilškaste nav perfekta, tāpēc viņi iesaka vienmēr testēt jaunus rīkus izolētās sistēmās.
Turklāt NemoClaw aprīko rīku un politiku detalizēta kontrole reāllaikāPēc noklusējuma aģents var sazināties tikai ar ierobežotu skaitu tīkla galapunktu. Kad tas mēģina kaut ko jaunu, OpenShell to bloķē, un jūs varat precīzi redzēt, ko tas mēģina darīt (resursdators, ports, process). Pēc tam varat to apstiprināt šai sesijai vai pievienot pastāvīgu politiku resursdatoram.
DGX Spark izvietošanas plūsma parasti notiek šādi: konfigurēšana Ubuntu 24.04 LTS ar NVIDIA draiveriem pēc datora montāžas rokasgrāmataInstalējiet Docker 28.xo vai jaunāku versiju ar GPU izpildlaiku, instalējiet Ollama un lejupielādējiet Nemotron 3 Super 120B modeli un visbeidzot palaidiet NemoClaw instalāciju ar vienu komandu, kas aktivizē konfigurācijas vedni.
Šī ievadlekcija palīdzēs jums veikt smilškastes nosaukums, secinājumu nodrošinātājs, izvēlētais modelis, drošības iestatījumi Un, ja vēlaties, Telegram integrācija. Aktīvās iestatīšanas laiks ir aptuveni 20–30 minūtes, kā arī vēl 15–30 minūtes veidnes lejupielādei atkarībā no joslas platuma.
Runājot par veiktspēju, mums jābūt reālistiskiem: atbilde ar 120B parametru modeli var aizņemt no 30 un 90 sekundes lokālā kontekstā. Tā pati par sevi nav problēma, taču tā ir jāņem vērā, izstrādājot lietošanas plūsmas un aģentam piešķiramo uzdevumu veidus.
Attālā piekļuve, tīmekļa saskarne un aparatūra, kas paredzēta lokālam mākslīgajam intelektam
Kad viss ir iestatīts, varat mijiedarboties ar aģentu vairākos veidos. Visizplatītākais ir caur TelegramIzmantojot robotprogrammatūru, kas izveidota ar @BotFather, tā ir praktiska izvēle: stabila API, šifrēšana, lietotnes visu veidu ierīcēm un nav nepieciešams atklāt servera portus ārējai pasaulei.
Bots saņem jūsu ziņojumus, pārsūta tos aģentam DGX tīklā un nosūta jums atbildi. Interesanti ir tas, ka, lai gan saruna notiek, izmantojot Telegram infrastruktūru, Secinājumi un piekļuve sensitīviem datiem paliek 100% lokāli jūsu mašīnā.
Turklāt NemoClaw piedāvā privāta tīmekļa saskarne Piekļūstams, izmantojot tokenizētu URL, kas ģenerēts tikai vienu reizi ieviešanas beigās. Ir ļoti svarīgi nekavējoties saglabāt šo URL, jo tas vairs netiks parādīts. Lai to skatītu no citas tīkla iekārtas, ir jākonfigurē SSH tunelis un porta pāradresācija, izmantojot OpenShell.
Viena maza, bet svarīga detaļa ir tā, ka URL ir jāatver ar 127.0.0.1, nevis localhostIzmantojot localhost, var rasties neautorizētas izcelsmes (CORS) kļūdas, kas var tērēt jūsu laiku, ja par to nezināt.
Ikdienas darbībām ir vairāki noderīgas CLI komandas: atveriet čaulu smilškastē, skatiet statusu, sekojiet žurnāliem reāllaikā, uzskaitiet smilškastes, startējiet vai apturējiet Telegram tiltu, aktivizējiet portu pāradresāciju vai palaidiet tīru atinstalēšanas skriptu, kas noņem visu steku.
Kas attiecas uz aparatūru, NVIDIA DGX Spark Tas ir nepārprotami izstrādāts šādiem lietošanas gadījumiem. Tā ir kompakta sistēma ar NVIDIA grafiskajiem procesoriem un liela joslas platuma vienoto atmiņu, kas ir ideāli piemērota vidēja un liela izmēra modeļu darbināšanai ar zemu latentumu, neizveidojot pilnu datu centru.
La vienota atmiņa Tas jo īpaši palīdz ar vienu no klasiskajām problēmām: datu pārvietošanu starp centrālo procesoru un grafisko procesoru. Koplietojot atmiņas vietu, modelis piekļūst datiem daudz efektīvāk, ļaujot modeļus ar desmitiem miljardu parametru ielādēt (gandrīz) reāllaikā, kas līdz nesenam laikam bija neiedomājami patērētāju aparatūrā.
Populāri vietējie mākslīgā intelekta aģenti: piemēri un lietošanas gadījumi
Papildus NVIDIA ekosistēmai ir diezgan daudz Mākslīgā intelekta aģenti un automatizācijai paredzētas platformas jūsu komandā kuras ir vērts zināt. Katra no tām ir paredzēta cita veida lietotājiem un citam uzdevumu kopumam.
Piemēram, OpenClaw ir kļuvis populārs kā atvērtā koda aģentu platforma kas darbojas kā personīgais asistents. Tas ļauj jums izveidot pielāgotus aģentus, lai iztīrītu iesūtni, sūtītu ziņojumus, pārvaldītu kalendāru, organizētu ceļojumus vai automatizētu atkārtotus uzdevumus jūsu digitālajā dzīvē.
Var uzstādīt Windows, macOS un LinuxTas ir arī izstrādāts, lai lokāli darbotos ar LLM modeļiem, kas uzlabo privātumu un samazina atkarību no mākoņpakalpojumiem. Turklāt tas integrējas ar ziņojumapmaiņas lietotnēm, piemēram, WhatsApp, Telegram, Discord, Slack, Signal un Apple Messages, tāpēc jūsu aģents darbojas "aizkulisēs" jūsu jau izmantotajās tērzēšanās.
Izmantojot spraudņus, varat tam piešķirt piekļuvi pārlūkprogrammai, sociālajiem tīkliem, e-pasta klientiem un citām lietojumprogrammām, kā arī atļaut tam mijiedarboties ar failu sistēmu, izpildīt komandas un skriptusvai automatizēt tipiskus biroja un produktivitātes uzdevumus. Tas viss, skaidri koncentrējoties uz to, lai lietotājs varētu izvēlēties, kuras mapes, lietotnes un pakalpojumi ir pieejami aģentam.
Vispārīgākā ekosistēmā tādas platformas kā Apjukuma datorsTas pārveido Perplexity no vienkāršas sarunvalodas meklētājprogrammas par palīgu, kas spēj veikt sarežģītas darbplūsmas. Šis datora režīms ļauj pārlūkot tīmekli, veidot un pārvaldīt dokumentus, rakstīt kodu, apstrādāt datus un koordinēt darbību ar tādiem pakalpojumiem kā Gmail, Slack, GitHub un Notion.
Tā stiprā puse ir tādu modeļu kā Claude, GPT, Gemini vai Perplexity Sonar izmantošana, lai pārvaldītu lielus datu apjomus un sadalītu sarežģītus uzdevumus apakšuzdevumos, kurus var izpildīt secīgi vai paralēli. Lai gan ne vienmēr pilnībā lokāli, aģenta modelis un integrācija ar rīkiem ir ļoti līdzīga aģentu modelim, kas darbojas jūsu datorā.
Pilnīgi atvērtā koda un lokālajā vidē Jans AI Tas tiek piedāvāts kā ChatGPT aizstājējs, ko var instalēt operētājsistēmās Windows, Mac un Linux. Tas ļauj izmantot lokālus modeļus, piemēram, Llama (Meta) vai Gemma (Google), vai arī izveidot savienojumu ar tiešsaistes modeļiem, piemēram, ChatGPT, Claude, Gemini, Mistral, Qwen vai DeepSeek, ja jūs interesē abu modeļu kombinācija.
Jans AI darbojas gan kā klasiskais sarunu palīgs (jautāt, sagatavot melnrakstu, apkopot, tulkot, pārrakstīt, paskaidrot) kā aģentu, kas spēj apstrādāt failus un dokumentus, izpildīt komandas un ģenerēt kodu dažādās valodās. Turklāt tā pielāgošanas iespējas ļauj viegli izveidot savu aģentu ar īpašiem norādījumiem un pārslēgties starp dažādiem "profiliem" atkarībā no jūsu darāmā.
Aģenti ierīcē: PocketBot un mobilā automatizācija
Jēdziens Vietējais mākslīgais intelekts nepaliek datorāTas spēcīgi ietekmē arī mobilos tālruņus, kur arvien vairāk projektu izvēlas mazus, bet specializētus modeļus, lai automatizētu tālruņa darbību, neizmantojot mākoņpakalpojumus.
Spilgts piemērs ir PocketBot — aģents, kas darbojas tieši uz iPhone, izmantojot flame.cpp ierīcē MetalTās misija ir pārvērst dabisko valodu tālruņa automatizācijā: tā vietā, lai pārskatītu tūkstoš izvēlnes vai īsinājumtaustiņus, jūs aprakstāt to, ko vēlaties, un aģents rūpējas par tā pārvēršanu darbībās.
PocketBot izmanto kvantizētu modeli 3.000 miljardi parametruDarbojas pilnībā lokāli un nesūtot datus uz ārējiem serveriem. iPhone 15 Pro pieejamā atmiņa parasti ir 3–4 GB, ko var izmantot, pirms iOS sāk apturēt procesus, tāpēc modeļa lielums un kvantizācija ir kritiski svarīgi.
Viens no izaicinājumiem, ko tā veidotāji min, ir atrast Uzticami mazi modeļi rīku izsaukšanai un strukturētām izvadēm JSON valodā. Piemēram, izmantojot Qwen3, viņi saskaras ar tādām problēmām kā izdomāti parametru nosaukumi, nepareizi veidots JSON (trūkstošas iekavas) un nekonsekventa shēmas atbilstība, kas piespiež ieviest pašlabošanas un atkārtotas mēģināšanas slāņus.
Tāpat ir daudz diskusiju par to, optimālais kvantācijas punkts Lai sasniegtu vislabāko kvalitātes/atmiņas attiecību, apsveriet tādas opcijas kā q4_K_M vai q5_K_S atkarībā no mikroshēmas paaudzes un pieejamās atmiņas. Katrs mazāks bits kvantizācijā nozīmē vieglāk pārvaldāmus modeļus, taču tas var negatīvi ietekmēt spriešanas spējas un precizitāti rīku izsaukumos.
Vēl viena fronte ir pielāgošana paraugu ņemšanas parametri atkarībā no uzdevuma. Tipiskas konfigurācijas ietver temperatūru 0,7, top_p 0,8, top_k 20 un repeat_penalty 1,1, taču pastāv interese atdalīt ģenerēšanas stratēģijas brīvai sarunai no rīku izsaukšanas, kur interese ir lielāka determinisma un mazāka radošuma.
Visbeidzot, mobilajā tālrunī konteksta pārvaldība Tas ir īpaši delikāts: sistēmas uzvedne parasti tiek kešatmiņā saglabāta KV kešatmiņā, lai izvairītos no tās atkārtotas apstrādes, un tiek izmantoti bīdāmie logi, lai nepārsniegtu ietilpību; tāpēc ir noderīgi zināt, kā to izdarīt. saglabājiet un kārtojiet savus uzdevumus.
Turklāt pastāv vieta pakāpeniskiem apkopošanas trikiem, selektīvai atmiņai vai hibrīdshēmām, kas apvieno saspiestu vēsturi un tiešu kontekstu.
Izveidojiet savu “lokālo ChatGPT” ar Ollama un Open WebUI
Tiem, kam nav nepieciešams tik sarežģīts steks kā NemoClaw, bet kuri vēlas datorā darbojas ChatGPT tipa palīgsĻoti praktiska pieeja, kuras pamatā ir Ollama un Open WebUI, ir kļuvusi populāra.
Ideja ir vienkārša: Ollama Tā ir atbildīga par modeļu lejupielādi un apkalpošanu. (Llama, Gemma, Qwen utt.) jūsu datorā, izmantojot lokālu API, un Open WebUI piedāvā tīmekļa saskarni, kas ir ļoti līdzīga ChatGPT, bet pilnībā darbojas jūsu datorā. Visa datplūsma starp lietotāja saskarni un modeli notiek caur localhost.
Ļoti vienkāršā soli pa solim sniegtā instrukcijā ir sīki aprakstīts, kā, izmantojot dažus 15 termināļa komandasŠo iestatījumu var iestatīt un palaist mazāk nekā stundas laikā. Tas ietver Python 3.11 instalēšanu, pamata sistēmas konfigurēšanu, Ollama instalēšanu un Open WebUI izvietošanu, kā arī ekrānuzņēmumus un problēmu novēršanas padomus.
Rezultātā rodas vide, kurā jūs izbaudāt bez maksas abonementiPilnīga privātuma nodrošināšana (dati nekad nepamet jūsu datoru), konkurētspējīgi reakcijas laiki (nav koplietotu serveru rindu) un pilnīga brīvība pielāgot specializētos asistentus savām vajadzībām.
Turklāt Open WebUI integrē tādas uzlabotas funkcijas kā Tīmekļa meklēšana, koda interpretētājs, pielāgota modeļa izveide Pamatojoties uz konkrētām konfigurācijām, tā sagatavo uzlabotas RAG iespējas personīgo zināšanu bāzu veidošanai. Ideja ir tāda, ka jums var būt apmācīts "otrais pilots", kas pārzina jūsu dokumentus un darbplūsmas, nepaļaujoties uz trešajām pusēm.
Pēc dažu mēnešu lietošanas daudzi lietotāji ziņo, ka šī kombinācija ir pilnībā aizstājusi [iepriekšējo produktu/pakalpojumu]. viņu maksas abonementi mākoņrisinājumiemvienlaikus uzlabojot integrāciju ar viņu pašu lokālajiem datiem un rīkiem. Nākamais dabiskais solis ir savienot šo "pašdarināto ChatGPT" ar aģentiem, skriptiem un pakalpojumiem, lai koordinētu sarežģītākas automatizācijas.
Automatizējiet savu digitālo dzīvi: praktiski piemēri ar lokālo mākslīgo intelektu
Tehniskā līmenī tas viss izklausās lieliski, bet ko ar to ikdienā var iesākt? labi apmācīti vietējie aģentiIespējas ir diezgan plašas, ja apvienojat multimodālus modeļus, piekļuvi ekrānam, rīkus un strukturētu krātuvi.
Ir priekšlikumi, kas paredzēti automatizēt sava datora lietošanu ar aģentiem, kas saņem ekrānuzņēmumus un rīkojas ar tiem. Plūsma būtu apmēram šāda: sistēma uzņem ekrānuzņēmumu, aģents to apstrādā ar modeli, kas spēj strādāt ar attēliem, saprot, kura lietojumprogramma ir atvērta, kādas pogas ir redzamas, kāds teksts tiek parādīts, un, pamatojoties uz jūsu uzvedni, izlemj, ko darīt tālāk.
Ar šo ideju jūs varētu, piemēram, izveidot specializētus tulkošanas aģentusSistēma uztver ekrāna daļu, kuru vēlaties tulkot, palielina to "palielināmā stikla tulka" logā un ģenerē gandrīz tūlītēju tulkojumu, izmantojot nelielu modeli (piemēram, 4B parametrus), kas ir precīzi noregulēts tulkošanai, līdzīgi kā precīzi noregulēts PHI variants.
Vēl viena interesanta fronte ir tā, Vizuālie modeļi, kas pārveido ekrānuzņēmumus PDF failosIedomājieties rīku, kas no prezentāciju, informācijas paneļu vai dokumentu ekrānuzņēmumiem ģenerē labi formatētus PDF failus, kurus pēc tam varat uzlabot vai izmantot tieši savās prezentācijās. Integrējot Python ar Acrobat, jūs varētu automatizēt visu procesu.
Lai strādātu ar tīmekli, nepaļaujoties uz ārējiem pakalpojumiem, ir nepieciešamas tādas pieredzējušas tehnoloģijas kā BeautifulSoup joprojām ir ļoti noderīgiVarat iestatīt vieglu skrēperi, kas pārmeklē vairākas lapas un saglabā tikai nepieciešamo HTML (piemēram, izvelkot tikai
