- AI tempatan membolehkan ejen autonomi melaksanakan tugas kompleks pada perkakasan anda sendiri sambil mengekalkan privasi data.
- Tindanan seperti NVIDIA NemoClaw mengintegrasikan model terbuka, sandboxing dan kawalan alat berbutir untuk penggunaan yang selamat.
- Projek seperti OpenClaw, Jan AI, PocketBot atau Ollama+Open WebUI membawakan automasi setempat kepada PC dan telefon bimbit tanpa yuran.
- Tangkapan skrin, rakaman suara, pengikisan web dan folder peribadi berstruktur membolehkan anda mengautomasikan sebahagian besar kehidupan digital anda.
La automasi dengan AI tempatan Ia bukan sahaja untuk peminat teknologi dengan pelayan di rumah, malah menjadi pilihan sebenar bagi sesiapa sahaja yang mahukan lebih kawalan, privasi dan fleksibiliti. Hari ini, anda tidak lagi bergantung sepenuhnya pada awan syarikat besar untuk mempunyai ejen yang mampu membaca skrin anda, menggerakkan tetikus anda, mengendalikan fail anda atau menjalankan aliran kerja yang kompleks di latar belakang.
Keadaan telah meletup: dari susunan penuh seperti NemoClaw NVIDIA Daripada ejen autonomi yang berjalan pada perkakasan anda sendiri, kepada aplikasi mudah alih seperti PocketBot yang menukar bahasa semula jadi kepada automasi telefon, kepada platform terbuka seperti OpenClaw, pembantu seperti Jan AI dan panduan praktikal untuk menyediakan "ChatGPT buatan sendiri" anda sendiri dengan Ollama dan Open WebUI. Matlamatnya adalah sama: untuk membina ekosistem tempat AI hidup pada komputer anda, berinteraksi dengan program anda dan mengautomasikan tugas harian anda tanpa mengeluarkan data anda daripada sistem anda.
Apakah automasi AI tempatan dan mengapa ia penting?
Apabila kita bercakap tentang AI tempatan untuk automasiKami merujuk kepada model dan ejen yang berjalan pada peranti anda sendiri (PC, pelayan, DGX, mudah alih) tanpa menghantar data sensitif ke pelayan luaran. Model membuat keputusan, melaksanakan kod, membaca fail, memanggil API dan menyelaras alat, tetapi semuanya berlaku dalam persekitaran terkawal anda.
Evolusi ini sangat dramatik: daripada chatbot mudah yang hanya menjawab soalan, kita telah beralih kepada Ejen AI yang mampu melaksanakan rantaian tugasuntuk mengatur pelbagai langkah, merujuk sumber data yang berbeza dan membuat keputusan autonomi. Itu telah mengubah sepenuhnya cara kita memahami automasi: model bukan lagi sekadar "orang yang menjawab," tetapi "orang yang bertindak."
Perubahan ini mempunyai satu akibat yang jelas: Lebih banyak autonomi bermaksud lebih banyak risikoJika anda memberi ejen akses kepada sistem fail, kelayakan anda, pelayar anda atau alatan pembangunan anda, anda memerlukan reka bentuk keselamatan yang mantap. Di sinilah pendekatan tempatan menonjol, kerana anda boleh menyekat kebenaran, mengasingkan proses dan memantau dengan teliti apa yang dilakukan oleh model pada bila-bila masa.
Di samping itu, model terbuka dengan lesen percuma seperti Apache-2.0 atau MIT (Seperti kebanyakan penyelesaian Falcon, Bark, Jan, dll.), ia membolehkan anda membina penyelesaian tanpa terikat dengan kontrak atau dasar penggunaan yang tidak jelas. Anda boleh mengaudit kod, melaraskan model, menggunakan penalaan halus dan juga mengintegrasikannya dengan perkakasan tertentu seperti GPU A100 atau stesen kerja NVIDIA DGX.
Bagi banyak sektor (penjagaan kesihatan, perbankan, perundangan, pentadbiran awam), di mana Privasi dan storan selamat Ia suci, gabungan antara AI tempatan + ejen autonomi + model terbuka Ia membuat perbezaan: anda mengautomasikan, tetapi data tidak meninggalkan perimeter anda.
Susunan AI tempatan untuk automasi lanjutan: NemoClaw, OpenShell dan OpenClaw
NVIDIA telah memasuki permainan ini dengan kukuh NemoClawIa merupakan tindanan sumber terbuka yang direka untuk menggunakan ejen autonomi secara tempatan dengan selamat dan memastikan ia sentiasa dihidupkan. Ia direka bentuk untuk berjalan pada mesin berkuasa seperti NVIDIA DGX Spark, tetapi falsafahnya boleh digunakan untuk persekitaran bertauliah lain.
NemoClaw bertindak sebagai cape de orquestación: memasang dan menyelaras OpenShell (masa jalan keselamatan) dan OpenClaw (rangka kerja ejen berbilang saluran), mengkonfigurasi inferens model (melalui Ollama atau NVIDIA NIM) dan menggunakan dasar keselamatan dari awal, bukan sebagai tampalan saat akhir.
Di tengah-tengah timbunan biasanya NVIDIA Nemotron 3 Super 120BModel dengan 120.000 bilion parameter yang dioptimumkan untuk ejen: sangat mahir dalam mengikuti arahan yang kompleks, mengendalikan alatan dan penaakulan berbilang langkah. Walau bagaimanapun, untuk menjalankan sesuatu sebesar ini, anda memerlukan GPU yang serius dan banyak memori; sekitar 87 GB disebut untuk model sahaja.
Inferens biasanya disampaikan dengan Ollama sebagai runtime tempatanyang mendedahkan API REST pada mesin itu sendiri. NemoClaw berkomunikasi dengan API ini untuk menghantar gesaan, menerima respons dan menyelaras panggilan alat menggunakan corak panggilan alat.
Komponen OpenShell adalah kunci dalam aspek keselamatanIa menguatkuasakan sandboxing, mengawal kelayakan, bertindak sebagai proksi rangkaian dan menggunakan prinsip keistimewaan paling minimum. Ia memantau sambungan yang cuba dilakukan oleh ejen dan membolehkan anda meluluskan atau menyekat titik akhir daripada antara muka seperti TUI. Dengan cara ini, jika model cuba mengakses perkhidmatan baharu, tiada apa yang akan berlaku tanpa kelulusan anda.
Di dalam kotak pasir itu hidup OpenClaw, lapisan ejen berbilang saluranIa mengendalikan komunikasi dengan platform seperti Telegram, Slack dan Discord, mengurus memori ejen, menghubungkan alatan (skrip, API, pelayar) dan mengekalkan perbualan untuk jangka masa panjang. Jika anda mahukan pembantu yang sentiasa aktif, boleh diakses melalui pemesejan dan dengan memori berterusan, inilah komponen yang membolehkannya.
Keselamatan, sandboxing dan penggunaan setempat langkah demi langkah
Salah satu kekuatan hebat timbunan ini ialah Keselamatan dipertimbangkan dari peringkat reka bentuktidak ditambah kemudian. Kesilapan biasa dalam projek ejen adalah untuk membina semua fungsi terlebih dahulu dan kemudian cuba "melindungi" apa yang telah dibina, mewujudkan lubang di merata tempat.
Mekanisme pusat ialah sandboxing pelaksanaanSemua kod yang ingin dilaksanakan oleh ejen berjalan dalam persekitaran terpencil: ia tidak mempunyai akses langsung ke sistem fail hos, tidak boleh membuat panggilan rangkaian sewenang-wenangnya, dan tidak boleh meningkatkan keistimewaan melebihi apa yang ditakrifkan dalam konfigurasi.
Ini sangat mengurangkan kesan serangan suntikan segera atau arahan berniat jahat. Jika model memutuskan untuk melakukan sesuatu yang luar biasa, kerosakan akan kekal terkurung di dalam kotak pasir. Walaupun begitu, NVIDIA sendiri mengakui bahawa tiada kotak pasir yang sempurna, jadi mereka mengesyorkan sentiasa menguji alat baharu pada sistem terpencil.
Di samping itu, NemoClaw melaksanakan kawalan terperinci terhadap alatan dan dasar dalam masa nyataSecara lalai, ejen hanya boleh berkomunikasi dengan bilangan titik akhir rangkaian yang terhad. Apabila ia mencuba sesuatu yang baharu, OpenShell akan menyekatnya dan anda boleh melihat dengan tepat apa yang cuba dilakukannya (hos, port, proses). Anda kemudian boleh meluluskannya untuk sesi tersebut atau menambah dasar kekal pada hos.
Aliran penggunaan dalam DGX Spark biasanya mengikuti langkah-langkah berikut: konfigurasikan Ubuntu 24.04 LTS dengan pemacu NVIDIA mengikuti panduan pemasangan komputerPasang Docker 28.xo atau lebih tinggi dengan masa jalan GPU, pasang Ollama dan muat turun model Nemotron 3 Super 120B, dan akhirnya lancarkan pemasangan NemoClaw dengan satu arahan yang mencetuskan wizard konfigurasi.
Onboarding ini membimbing anda melalui nama kotak pasir, penyedia inferens, model yang dipilih, pratetap keselamatan Dan, jika anda mahu, integrasi Telegram. Masa persediaan aktif dianggarkan selama 20-30 minit, ditambah lagi 15-30 minit untuk memuat turun templat, bergantung pada lebar jalur.
Dari segi prestasi, kita perlu realistik: tindak balas dengan model parameter 120B boleh mengambil masa antara 30 dan 90 saat dalam konteks tempatan. Ia bukanlah satu masalah, tetapi ia perlu diambil kira semasa mereka bentuk aliran penggunaan dan jenis tugasan yang anda berikan kepada ejen.
Akses jauh, antara muka web dan perkakasan yang direka bentuk untuk AI tempatan
Setelah semuanya disediakan, anda boleh berinteraksi dengan ejen dalam beberapa cara. Yang paling biasa ialah melalui TelegramMenggunakan bot yang dicipta dengan @BotFather, ia merupakan pilihan yang praktikal: API yang mantap, penyulitan, aplikasi untuk semua jenis peranti dan tidak perlu mendedahkan port pelayan anda kepada dunia luar.
Bot menerima mesej anda, menghantarnya kepada ejen di DGX, dan menghantar balasan kepada anda. Perkara yang menarik ialah, walaupun perbualan melalui infrastruktur Telegram, Inferens dan akses kepada data sensitif kekal 100% setempat pada mesin anda.
Selain itu, NemoClaw menawarkan antara muka web peribadi Boleh diakses melalui URL bertoken yang dijana hanya sekali pada akhir onboarding. Adalah penting untuk menyimpan URL ini dengan segera, kerana ia tidak akan dipaparkan lagi. Untuk melihatnya dari mesin lain pada rangkaian, anda mesti mengkonfigurasi terowong SSH dan penghantaran port menggunakan OpenShell.
Satu butiran kecil tetapi penting ialah URL mesti dibuka dengan 127.0.0.1 dan bukannya localhostMenggunakan localhost boleh menyebabkan ralat asal tidak sah (CORS), yang boleh membuang masa anda jika anda tidak menyedarinya.
Untuk operasi harian terdapat beberapa arahan CLI yang berguna: buka cangkerang di dalam kotak pasir, lihat status, ikuti log dalam masa nyata, senaraikan kotak pasir, mulakan atau hentikan jambatan Telegram, aktifkan pemajuan port atau jalankan skrip penyahpasangan bersih yang mengalih keluar keseluruhan tindanan.
Bagi perkakasan, NVIDIA DGX Spark Ia direka bentuk dengan jelas untuk kes penggunaan ini. Ia merupakan sistem padat dengan GPU NVIDIA dan memori bersepadu jalur lebar tinggi, sesuai untuk menjalankan model bersaiz sederhana dan besar dengan kependaman rendah tanpa perlu menyediakan pusat data penuh.
La memori bersatu Ia membantu terutamanya dengan salah satu kesesakan klasik: memindahkan data antara CPU dan GPU. Dengan berkongsi ruang memori, model ini mengakses data dengan lebih cekap, membolehkan model dengan puluhan bilion parameter dimuatkan dalam (hampir) masa nyata—tidak dapat difikirkan sehingga baru-baru ini dalam perkakasan pengguna.
Ejen AI tempatan yang popular: contoh dan kes penggunaan
Di luar ekosistem NVIDIA, terdapat beberapa Ejen AI dan platform berorientasikan automasi dalam pasukan anda sendiri yang berbaloi untuk diketahui. Setiap satu menyasarkan jenis pengguna yang berbeza dan satu set tugasan yang berbeza.
OpenClaw, sebagai contoh, telah menjadi popular sebagai platform ejen sumber terbuka yang bertindak sebagai pembantu peribadi. Ia membolehkan anda mencipta ejen tersuai untuk membersihkan peti masuk anda, menghantar mesej, mengurus kalendar anda, mengatur perjalanan atau mengautomasikan tugas berulang dalam kehidupan digital anda.
Boleh dipasang di Windows, macOS dan LinuxIa juga direka bentuk untuk berfungsi dengan model LLM secara tempatan, yang meningkatkan privasi dan mengurangkan pergantungan awan. Tambahan pula, ia berintegrasi dengan aplikasi pemesejan seperti WhatsApp, Telegram, Discord, Slack, Signal dan Apple Messages, jadi ejen anda menjalankan "di sebalik tabir" sembang yang telah anda gunakan.
Melalui pemalam, anda boleh memberikannya akses kepada pelayar, rangkaian sosial, klien e-mel dan aplikasi lain, serta membenarkannya berinteraksi dengan sistem fail, melaksanakan arahan dan skripatau mengautomasikan tugas pejabat dan produktiviti yang biasa. Semua ini dengan tumpuan yang jelas untuk membolehkan pengguna memilih folder, aplikasi dan perkhidmatan yang tersedia untuk ejen.
Dalam ekosistem yang lebih umum, platform seperti Komputer KebingunganIni mengubah Perplexity daripada enjin carian perbualan yang mudah kepada pembantu yang mampu melaksanakan aliran kerja yang kompleks. Mod Komputer ini membolehkan anda melayari web, mencipta dan mengurus dokumen, menulis kod, memproses data dan menyelaras dengan perkhidmatan seperti Gmail, Slack, GitHub dan Notion.
Kekuatannya terletak pada memanfaatkan model seperti Claude, GPT, Gemini atau Sonar Perplexity sendiri untuk mengurus jumlah data yang besar dan membahagikan tugas kompleks kepada subtugas yang boleh dilaksanakan secara bersiri atau selari. Walaupun tidak selalunya sepenuhnya setempat, corak ejen dan penyepaduan dengan alatan adalah sangat serupa dengan ejen yang berjalan pada mesin anda.
Dalam bidang sumber terbuka sepenuhnya dan tempatan, Jan AI Ia dibentangkan sebagai pengganti ChatGPT yang boleh dipasang pada Windows, Mac dan Linux. Ia membolehkan anda menggunakan model tempatan seperti Llama (Meta) atau Gemma (Google), atau bersambung ke model dalam talian seperti ChatGPT, Claude, Gemini, Mistral, Qwen atau DeepSeek jika anda berminat dengan campuran.
Jan AI berfungsi sebagai pembantu perbualan klasik (bertanya, mendraf, meringkaskan, menterjemah, menulis semula, menerangkan) sebagai ejen yang mampu memproses fail dan dokumen, melaksanakan arahan dan menjana kod dalam pelbagai bahasa. Tambahan pula, fokus penyesuaiannya memudahkan untuk mencipta ejen anda sendiri dengan arahan khusus dan bertukar antara "profil" yang berbeza bergantung pada apa yang anda lakukan.
Ejen pada peranti: PocketBot dan automasi mudah alih
Konsep AI tempatan tidak kekal pada PCIa juga memberi impak yang kuat pada telefon bimbit, yang mana semakin banyak projek memilih model kecil tetapi khusus untuk mengautomasikan telefon tanpa melalui awan.
Satu contoh yang jelas ialah PocketBot, ejen yang berjalan terus pada iPhone menggunakan flame.cpp pada LogamMisinya adalah untuk menukar bahasa semula jadi kepada automasi telefon: daripada mengetik melalui seribu menu atau pintasan, anda menerangkan apa yang anda mahukan dan ejen akan menterjemahkannya kepada tindakan.
PocketBot menggunakan model terkuantum bagi 3.000 bilion parameterBerjalan sepenuhnya secara setempat dan tanpa menghantar data ke pelayan luaran. Memori yang tersedia pada iPhone 15 Pro biasanya boleh digunakan sebanyak 3-4 GB sebelum iOS mula menghentikan proses, jadi saiz model dan pengkuantuman adalah penting.
Salah satu cabaran yang disebut oleh penciptanya ialah mencari Model kecil yang boleh dipercayai untuk panggilan alat dan output berstruktur dalam JSON. Menggunakan Qwen3, sebagai contoh, mereka menghadapi masalah seperti nama parameter yang direka-reka, JSON yang salah bentuk (kurungan hilang) dan pematuhan skema yang tidak konsisten, memaksa pelaksanaan pembetulan kendiri dan lapisan cuba semula.
Terdapat juga banyak perdebatan tentang titik kuantisasi optimum Untuk mencapai nisbah kualiti/memori terbaik, pertimbangkan pilihan seperti q4_K_M atau q5_K_S bergantung pada penjanaan cip dan memori yang tersedia. Setiap bit yang kurang dalam kuantisasi bermakna model yang lebih mudah diurus, tetapi ia boleh memberi kesan negatif kepada penaakulan dan ketepatan dalam panggilan alat.
Satu lagi aspek ialah pelarasan parameter persampelan bergantung pada tugasan. Konfigurasi biasa termasuk suhu 0,7, top_p 0,8, top_k 20 dan repeat_penalty 1,1, tetapi terdapat minat untuk memisahkan strategi penjanaan untuk perbualan bebas berbanding panggilan alat, di mana lebih banyak determinisme dan kurang kreativiti adalah menarik.
Akhirnya, di telefon bimbit pengurusan konteks Ia amat sensitif: gesaan sistem biasanya disimpan dalam cache KV untuk mengelakkan pemprosesan semula, dan tetingkap gelongsor digunakan untuk mengelakkan kapasiti melebihi had; itulah sebabnya ia berguna untuk mengetahui caranya simpan dan susun gesaan anda.
Selain itu, terdapat ruang untuk helah ringkasan tambahan, ingatan terpilih atau skema hibrid yang menggabungkan sejarah termampat dan konteks segera.
Sediakan "ChatGPT tempatan" anda sendiri dengan Ollama dan Open WebUI
Bagi mereka yang tidak memerlukan timbunan yang serumit NemoClaw, tetapi mahukannya pembantu jenis ChatGPT yang berjalan pada komputer andaPendekatan yang sangat praktikal berdasarkan Ollama dan Open WebUI telah menjadi popular.
Ideanya mudah: Ollama Ia bertanggungjawab untuk memuat turun dan menyiarkan model (Llama, Gemma, Qwen, dll.) pada mesin anda melalui API tempatan, dan Open WebUI menawarkan antara muka web yang sangat serupa dengan ChatGPT tetapi berjalan sepenuhnya pada mesin anda. Semua trafik antara UI dan model akan melalui localhost.
Panduan langkah demi langkah yang sangat mudah memperincikan caranya, dengan beberapa 15 arahan terminalAnda boleh menjalankan persediaan ini dalam masa kurang daripada sejam. Ia merangkumi pemasangan Python 3.11, konfigurasi sistem asas, pemasangan Ollama dan penggunaan Open WebUI, berserta tangkapan skrin dan petua penyelesaian masalah.
Hasilnya adalah persekitaran di mana anda menikmati kos sifar untuk langgananPrivasi sepenuhnya (data tidak pernah meninggalkan komputer anda), masa tindak balas yang kompetitif (tiada giliran pelayan kongsi) dan kebebasan sepenuhnya untuk menyesuaikan pembantu khusus agar sesuai dengan keperluan anda sendiri.
Di samping itu, Open WebUI mengintegrasikan ciri-ciri canggih seperti Carian web, penterjemah kod, penciptaan model tersuai Berdasarkan konfigurasi tertentu, ia sedang menyediakan keupayaan RAG lanjutan untuk membina pangkalan pengetahuan peribadi. Ideanya ialah anda boleh mempunyai "juruterbang bersama" terlatih yang biasa dengan dokumen dan aliran kerja anda tanpa bergantung pada pihak ketiga.
Selepas beberapa bulan penggunaan, ramai pengguna melaporkan bahawa kombinasi ini telah menggantikan sepenuhnya [produk/perkhidmatan sebelumnya]. langganan berbayar mereka untuk penyelesaian awansambil menambah baik integrasi dengan data dan alatan tempatan mereka sendiri. Langkah semula jadi seterusnya ialah menghubungkan "ChatGPT buatan sendiri" ini dengan ejen, skrip dan perkhidmatan untuk menyelaras automasi yang lebih kompleks.
Automasikan kehidupan digital anda: contoh praktikal dengan AI tempatan
Semua ini kedengaran hebat pada tahap teknikal, tetapi apa yang sebenarnya boleh anda lakukan dalam kehidupan seharian dengannya? ejen tempatan yang terlatihKemungkinannya agak luas jika anda menggabungkan model multimodal, akses skrin, alatan dan storan berstruktur.
Terdapat cadangan yang direka untuk mengautomasikan penggunaan komputer anda sendiri dengan ejen yang menerima tangkapan skrin dan bertindak ke atasnya. Alirannya adalah seperti ini: sistem mengambil tangkapan skrin, ejen memprosesnya dengan model yang mampu berfungsi dengan imej, memahami aplikasi mana yang dibuka, butang apa yang ada, teks apa yang muncul dan berdasarkan gesaan anda, memutuskan apa yang perlu dilakukan seterusnya.
Dengan idea ini, anda boleh, sebagai contoh, menubuhkan ejen terjemahan khususSistem ini menangkap bahagian skrin yang anda ingin terjemahkan, membesarkannya dalam tetingkap "penterjemah kaca pembesar" dan menjana terjemahan hampir serta-merta menggunakan model kecil (cth., parameter 4B) yang ditala halus untuk terjemahan, seperti varian PHI yang ditala halus.
Satu lagi bahagian yang menarik ialah Model visual yang mengubah tangkapan skrin menjadi PDFBayangkan satu alat yang, daripada tangkapan skrin pembentangan, papan pemuka atau dokumen, menghasilkan PDF berformat baik yang kemudiannya boleh anda perhalusi atau gunakan terus dalam pembentangan anda. Dengan mengintegrasikan Python dengan Acrobat, anda boleh mengautomasikan keseluruhan saluran paip.
Untuk bekerja dengan web tanpa bergantung pada perkhidmatan luaran, teknologi veteran seperti BeautifulSoup masih sangat bergunaAnda boleh menyediakan pengikis ringan yang merangkak beberapa halaman dan hanya menyimpan HTML yang diperlukan (contohnya, hanya mengekstrak
