يُمكّن الذكاء الاصطناعي المحلي الوكلاء المستقلين من أداء مهام معقدة على أجهزتك الخاصة مع الحفاظ على خصوصية البيانات.
تدمج حزم البرامج مثل NVIDIA NemoClaw النماذج المفتوحة، والعزل، والتحكم الدقيق في الأدوات من أجل نشر آمن.
توفر مشاريع مثل OpenClaw و Jan AI و PocketBot أو Ollama+Open WebUI إمكانية التشغيل الآلي المحلي لأجهزة الكمبيوتر والهواتف المحمولة بدون رسوم.
تتيح لك لقطات الشاشة وتسجيل الصوت واستخراج البيانات من مواقع الويب والمجلدات الشخصية المنظمة أتمتة جزء كبير من حياتك الرقمية.
La الأتمتة باستخدام الذكاء الاصطناعي المحلي لم يعد الأمر مقتصراً على عشاق التقنية الذين يمتلكون خوادم منزلية، بل أصبح خياراً حقيقياً لكل من يرغب في مزيد من التحكم والخصوصية والمرونة. اليوم، لم تعد تعتمد كلياً على خدمات الحوسبة السحابية للشركات الكبرى لتشغيل برامج قادرة على قراءة شاشتك، وتحريك مؤشر الفأرة، والتعامل مع ملفاتك، أو تنفيذ عمليات معقدة في الخلفية.
لقد تفاقم الوضع بشكل كبير: من أنظمة كاملة مثل NemoClaw من NVIDIA بدءًا من الأنظمة الذكية المستقلة التي تعمل على أجهزتك الخاصة، مرورًا بتطبيقات الجوال مثل PocketBot التي تحوّل اللغة الطبيعية إلى أوامر هاتفية آلية، وصولًا إلى المنصات المفتوحة مثل OpenClaw، والمساعدين مثل Jan AI، والأدلة العملية لإعداد "ChatGPT" خاص بك باستخدام Ollama وOpen WebUI. الهدف واحد: بناء منظومة متكاملة حيث يعمل الذكاء الاصطناعي على حاسوبك، ويتفاعل مع برامجك، ويؤتمت مهامك اليومية دون نقل بياناتك خارج نظامك.
ما هي أتمتة الذكاء الاصطناعي المحلية ولماذا هي مهمة؟
عندما نتحدث عن الذكاء الاصطناعي المحلي للأتمتةنشير هنا إلى النماذج والوكلاء الذين يعملون على جهازك الخاص (حاسوب، خادم، DGX، هاتف محمول) دون إرسال بيانات حساسة إلى خوادم خارجية. يتخذ النموذج القرارات، وينفذ التعليمات البرمجية، ويقرأ الملفات، ويستدعي واجهات برمجة التطبيقات، وينسق الأدوات، ولكن كل ذلك يحدث ضمن بيئتك التي تتحكم بها.
لقد كان التطور جذرياً: من روبوتات الدردشة البسيطة التي كانت تجيب فقط على الأسئلة، انتقلنا إلى وكلاء الذكاء الاصطناعي القادرون على تنفيذ سلاسل المهاملتنسيق خطوات متعددة، والرجوع إلى مصادر بيانات مختلفة، واتخاذ قرارات مستقلة. لقد غيّر ذلك تمامًا فهمنا للأتمتة: لم يعد النموذج مجرد "من يجيب"، بل أصبح "من ينفذ".
لهذا التغيير نتيجة واحدة واضحة: المزيد من الاستقلالية يعني المزيد من المخاطرإذا منحتَ وكيلاً إمكانية الوصول إلى نظام الملفات، أو بيانات اعتمادك، أو متصفحك، أو أدوات التطوير الخاصة بك، فأنت بحاجة إلى تصميم أمني قوي. وهنا تبرز أهمية الأساليب المحلية، إذ يمكنك تقييد الأذونات، وعزل العمليات، ومراقبة ما يفعله النموذج عن كثب في أي وقت.
وبالإضافة إلى ذلك، نماذج مفتوحة برخص مجانية مثل Apache-2.0 أو MIT (كما هو الحال مع العديد من حلول Falcon وBark وJan وغيرها)، تتيح لك هذه الحلول بناء حلول دون التقيد بعقود أو سياسات استخدام مبهمة. يمكنك مراجعة الكود، وتعديل النموذج، وإجراء تحسينات دقيقة، وحتى دمجه مع أجهزة محددة مثل وحدات معالجة الرسومات A100 أو محطات عمل NVIDIA DGX.
بالنسبة للعديد من القطاعات (الرعاية الصحية، والخدمات المصرفية، والقانونية، والإدارة العامة)، حيث الخصوصية والتخزين الآمن إنه أمر مقدس، مزيج من الذكاء الاصطناعي المحلي + الوكلاء المستقلون + النماذج المفتوحة إنه يُحدث فرقاً: أنت تقوم بالأتمتة، لكن البيانات لا تغادر محيطك.
مجموعات الذكاء الاصطناعي المحلية للأتمتة المتقدمة: NemoClaw و OpenShell و OpenClaw
دخلت شركة NVIDIA هذا المجال بقوة من خلال نيموكلوهي حزمة برمجية مفتوحة المصدر مصممة لنشر الوكلاء المستقلين محليًا بشكل آمن وضمان تشغيلهم الدائم. صُممت للعمل على أجهزة قوية مثل NVIDIA DGX Spark، ولكن يمكن تطبيق فلسفتها على بيئات معتمدة أخرى.
يقوم نيمو كلاو بدور كابا دي أوركستاسيون: يقوم بتثبيت وتنسيق OpenShell (وقت تشغيل الأمان) و OpenClaw (إطار عمل الوكيل متعدد القنوات)، وتكوين استنتاج النموذج (عبر Ollama أو NVIDIA NIM) وتطبيق سياسات الأمان من البداية، وليس كتصحيح في اللحظة الأخيرة.
عادةً ما يكون جوهر المكدس إنفيديا نيموترون 3 سوبر 120 بينموذجٌ ذو 120.000 مليار مُعامل مُحسَّن للوكلاء: يتميز بقدرة فائقة على اتباع التعليمات المعقدة، والتعامل مع الأدوات، والاستدلال متعدد الخطوات. مع ذلك، يتطلب تشغيل برنامج بهذا الحجم وحدة معالجة رسومية قوية وذاكرة كبيرة؛ إذ يُذكر أن النموذج وحده يحتاج إلى حوالي 87 جيجابايت.
يتم تقديم الاستدلال عادةً مع أولاما كوقت تشغيل محليوالذي يُتيح واجهة برمجة تطبيقات REST على الجهاز نفسه. يتواصل NemoClaw مع واجهة برمجة التطبيقات هذه لإرسال المطالبات، واستقبال الردود، وتنسيق استدعاءات الأدوات باستخدام نمط استدعاء الأدوات.
المكون يُعد OpenShell عنصرًا أساسيًا في الجانب الأمني.يفرض هذا النظام حماية البيانات، ويتحكم في بيانات الاعتماد، ويعمل كوكيل للشبكة، ويطبق مبدأ أقل الامتيازات. كما يراقب الاتصالات التي يحاول البرنامج الوصول إليها، ويتيح لك الموافقة على نقاط النهاية أو حظرها من خلال واجهة سهلة الاستخدام. وبهذه الطريقة، إذا حاول البرنامج الوصول إلى خدمة جديدة، فلن يحدث أي شيء دون موافقتك.
داخل صندوق الرمل يعيش OpenClaw، طبقة الوكيل متعددة القنواتيتولى هذا النظام التواصل مع منصات مثل تيليجرام وسلاك وديسكورد، ويدير ذاكرة المساعد، ويربط الأدوات (البرامج النصية، وواجهات برمجة التطبيقات، والمتصفحات)، ويحافظ على استمرارية المحادثة. إذا كنت ترغب في مساعد يعمل باستمرار، ويمكن الوصول إليه عبر الرسائل، ويتمتع بذاكرة دائمة، فهذا هو المكون الذي يوفر لك ذلك.
الأمن، والعزل، والنشر المحلي خطوة بخطوة
إحدى نقاط القوة الكبيرة لهذه المجموعة هي أن تُؤخذ السلامة في الاعتبار منذ مرحلة التصميم.لا تُضاف لاحقًا. الخطأ الشائع في مشاريع الوكلاء هو بناء جميع الوظائف أولًا ثم محاولة "حماية" ما تم بناؤه بالفعل، مما يخلق ثغرات في كل مكان.
الآلية المركزية هي بيئة اختبار التنفيذيتم تشغيل جميع التعليمات البرمجية التي يريد الوكيل تنفيذها داخل بيئة معزولة: ليس لديه وصول مباشر إلى نظام ملفات المضيف، ولا يمكنه إجراء مكالمات شبكة عشوائية، ولا يمكنه تصعيد الامتيازات إلى ما هو محدد في التكوين.
وهذا يخفف بشكل كبير من تأثير هجمات الحقن الفوري أو التعليمات الخبيثة. إذا قرر النموذج القيام بشيء غير معتاد، فإن الضرر يبقى محصورًا داخل بيئة الاختبار المعزولة. ومع ذلك، تُقرّ NVIDIA نفسها بأنه لا توجد بيئة اختبار معزولة مثالية، لذا فهي توصي دائمًا باختبار الأدوات الجديدة على أنظمة معزولة.
بالإضافة إلى ذلك، يقوم NemoClaw بتنفيذ التحكم الدقيق في الأدوات والسياسات في الوقت الفعليبشكل افتراضي، لا يستطيع البرنامج الوكيل التواصل إلا مع عدد محدود من نقاط نهاية الشبكة. عندما يحاول القيام بشيء جديد، يقوم OpenShell بحظره، ويمكنك حينها معرفة ما يحاول فعله بالضبط (المضيف، المنفذ، العملية). يمكنك بعد ذلك الموافقة عليه لتلك الجلسة أو إضافة سياسة دائمة على المضيف.
عادةً ما تتبع عملية النشر في DGX Spark الخطوات التالية: التكوين أوبونتو 24.04 LTS مع برامج تشغيل NVIDIA بعد أ دليل تجميع الكمبيوترقم بتثبيت Docker 28.xo أو أعلى مع وقت تشغيل GPU، وقم بتثبيت Ollama وتنزيل طراز Nemotron 3 Super 120B، وأخيرًا قم بتشغيل تثبيت NemoClaw بأمر واحد يقوم بتشغيل معالج التكوين.
يرشدك هذا البرنامج التمهيدي خلال اسم بيئة الاختبار، ومزود الاستدلال، والنموذج المختار، وإعدادات الأمان المسبقة وإذا رغبت، يمكنك دمج تطبيق تيليجرام. يُقدّر وقت الإعداد الفعلي بـ 20-30 دقيقة، بالإضافة إلى 15-30 دقيقة أخرى لتنزيل القالب، وذلك حسب سرعة الإنترنت.
من حيث الأداء، يجب أن نكون واقعيين: يمكن أن تستغرق الاستجابة باستخدام نموذج ذي 120 مليار مُعامل ما بين 30 و 90 ثواني في سياق محلي. لا يمثل ذلك مشكلة في حد ذاته، ولكن يجب أخذه في الاعتبار عند تصميم مسارات الاستخدام ونوع المهام التي تُسند إلى الوكيل.
الوصول عن بُعد، وواجهة الويب، والأجهزة المصممة للذكاء الاصطناعي المحلي
بمجرد إعداد كل شيء، يمكنك التفاعل مع الوكيل بعدة طرق. وأكثرها شيوعًا هو عبر تطبيق تيليجرامباستخدام روبوت تم إنشاؤه باستخدام @BotFather، فهو خيار عملي: واجهة برمجة تطبيقات قوية، وتشفير، وتطبيقات لجميع أنواع الأجهزة، ولا حاجة لكشف منافذ الخادم الخاصة بك للعالم الخارجي.
يستقبل البوت رسائلك، ويعيد توجيهها إلى الوكيل على منصة DGX، ثم يرسل إليك ردًا. والجدير بالذكر أنه على الرغم من أن المحادثة تمر عبر بنية تيليجرام التحتية، يظل الاستدلال والوصول إلى البيانات الحساسة محليًا بنسبة 100% على جهازك.
بالإضافة إلى ذلك، يقدم نيمو كلاو واجهة ويب خاصة يمكن الوصول إليه عبر رابط مُرمّز يتم إنشاؤه مرة واحدة فقط عند انتهاء عملية الإعداد. من الضروري حفظ هذا الرابط فورًا، حيث لن يتم عرضه مرة أخرى. لعرضه من جهاز آخر على الشبكة، يجب عليك إعداد نفق SSH وتوجيه المنفذ باستخدام OpenShell.
من التفاصيل الصغيرة ولكن المهمة أنه يجب فتح عنوان URL باستخدام 127.0.0.1 بدلاً من localhostقد يؤدي استخدام localhost إلى حدوث أخطاء في المصدر غير المصرح به (CORS)، مما قد يضيع وقتك إذا لم تكن على دراية بذلك.
هناك العديد من العمليات اليومية أوامر سطر الأوامر المفيدة: افتح واجهة سطر الأوامر داخل بيئة الحماية، واعرض الحالة، وتابع السجلات في الوقت الفعلي، واعرض قائمة بيئات الحماية، وابدأ أو أوقف جسر Telegram، وقم بتنشيط إعادة توجيه المنفذ، أو قم بتشغيل برنامج نصي لإلغاء التثبيت يقوم بإزالة المكدس بأكمله.
أما بالنسبة للأجهزة ، NVIDIA DGX Spark من الواضح أنه مصمم خصيصًا لهذه الاستخدامات. إنه نظام صغير الحجم مزود بمعالجات رسوميات NVIDIA وذاكرة موحدة عالية النطاق الترددي، وهو مثالي لتشغيل النماذج متوسطة وكبيرة الحجم بزمن استجابة منخفض دون الحاجة إلى إنشاء مركز بيانات كامل.
La ذاكرة موحدة يُسهم ذلك بشكل خاص في حل إحدى المشكلات الكلاسيكية: نقل البيانات بين وحدة المعالجة المركزية ووحدة معالجة الرسومات. فمن خلال مشاركة مساحة الذاكرة، يصل النموذج إلى البيانات بكفاءة أكبر بكثير، مما يسمح بتحميل نماذج تحتوي على عشرات المليارات من المعلمات في الوقت الفعلي تقريبًا - وهو أمر كان لا يُتصور حتى وقت قريب في الأجهزة الاستهلاكية.
وكلاء الذكاء الاصطناعي المحليون الشائعون: أمثلة وحالات استخدام
وبعيدًا عن منظومة NVIDIA، هناك عدد لا بأس به من وكلاء الذكاء الاصطناعي والمنصات الموجهة نحو الأتمتة ضمن فريقك الخاص والتي تستحق المعرفة. كل منها يستهدف نوعًا مختلفًا من المستخدمين ومجموعة مختلفة من المهام.
على سبيل المثال، أصبح برنامج OpenClaw شائعًا مثل منصة وكيل مفتوحة المصدر وهو بمثابة مساعد شخصي. يتيح لك إنشاء وكلاء مخصصين لتنظيف بريدك الوارد، وإرسال الرسائل، وإدارة التقويم الخاص بك، وتنظيم الرحلات، أو أتمتة المهام المتكررة في حياتك الرقمية.
يمكن تثبيتها في Windows و macOS و Linuxكما أنه مصمم للعمل مع نماذج إدارة دورة حياة التطبيقات محليًا، مما يُحسّن الخصوصية ويقلل الاعتماد على الحوسبة السحابية. علاوة على ذلك، يتكامل مع تطبيقات المراسلة مثل واتساب، وتليجرام، وديسكورد، وسلاك، وسيجنال، ورسائل أبل، بحيث يعمل وكيلك "خلف الكواليس" ضمن المحادثات التي تستخدمها بالفعل.
من خلال الإضافات، يمكنك منحه إمكانية الوصول إلى المتصفح، وشبكات التواصل الاجتماعي، وبرامج البريد الإلكتروني، والتطبيقات الأخرى، بالإضافة إلى السماح له بذلك. التفاعل مع نظام الملفات، وتنفيذ الأوامر والبرامج النصيةأو أتمتة مهام المكتب والإنتاجية المعتادة. كل ذلك مع التركيز بشكل واضح على تمكين المستخدم من اختيار المجلدات والتطبيقات والخدمات المتاحة للوكيل.
وفي النظام البيئي الأكثر عمومية، منصات مثل حاسوب الحيرةيحوّل هذا الوضع برنامج Perplexity من مجرد محرك بحث بسيط إلى مساعد قادر على تنفيذ مهام معقدة. يتيح لك وضع الكمبيوتر هذا تصفح الإنترنت، وإنشاء المستندات وإدارتها، وكتابة التعليمات البرمجية، ومعالجة البيانات، والتنسيق مع خدمات مثل Gmail وSlack وGitHub وNotion.
تكمن قوتها في الاستفادة من نماذج مثل Claude وGPT وGemini، أو Sonar الخاصة بشركة Perplexity، لإدارة كميات هائلة من البيانات وتقسيم المهام المعقدة إلى مهام فرعية يمكن تنفيذها بالتسلسل أو بالتوازي. ورغم أنها ليست محلية بالكامل دائمًا، إلا أن نمط الوكيل وتكامله مع الأدوات يشبه إلى حد كبير نمط الوكلاء الذين يعملون على جهازك.
في مجال المصادر المفتوحة والمحلية البحتة، جان أي يُقدَّم هذا البرنامج كبديل لبرنامج ChatGPT، ويمكن تثبيته على أنظمة ويندوز وماك ولينكس. يتيح لك استخدام نماذج محلية مثل Llama (Meta) أو Gemma (Google)، أو الاتصال بنماذج عبر الإنترنت مثل ChatGPT وClaude وGemini وMistral وQwen وDeepSeek إذا كنت مهتمًا بمزيج من هذه النماذج.
يعمل برنامج Jan AI على كلا الجانبين مساعد محادثة كلاسيكي (اسأل، صغ، لخص، ترجم، أعد كتابة، اشرح) كوكيل قادر على معالجة الملفات والمستندات، وتنفيذ الأوامر، وإنشاء التعليمات البرمجية بلغات متعددة. علاوة على ذلك، فإن تركيزه على التخصيص يسهل إنشاء وكيلك الخاص بتعليمات محددة والتبديل بين "ملفات تعريف" مختلفة حسب ما تقوم به.
العملاء على الجهاز: PocketBot والأتمتة المتنقلة
مفهوم لا يبقى الذكاء الاصطناعي المحلي على جهاز الكمبيوتركما أنها تُحدث تأثيراً قوياً على الهواتف المحمولة، حيث يختار المزيد والمزيد من المشاريع نماذج صغيرة ولكنها متخصصة لأتمتة الهاتف دون المرور عبر السحابة.
ومن الأمثلة الواضحة على ذلك PocketBot، وهو برنامج يعمل مباشرة على استخدام iPhone مع flame.cpp على Metalتتمثل مهمتها في تحويل اللغة الطبيعية إلى عمليات أتمتة الهاتف: فبدلاً من النقر عبر ألف قائمة أو اختصار، يمكنك وصف ما تريد وسيتولى الوكيل مهمة ترجمته إلى إجراءات.
يستخدم PocketBot نموذجًا كميًا لـ 3.000 مليار معلمةيعمل التطبيق محليًا بالكامل دون إرسال البيانات إلى خوادم خارجية. تبلغ سعة الذاكرة المتاحة في جهاز iPhone 15 Pro عادةً 3-4 جيجابايت قابلة للاستخدام قبل أن يبدأ نظام iOS بإيقاف العمليات، لذا يُعد حجم النموذج ونسبة التكميم أمرًا بالغ الأهمية.
أحد التحديات التي ذكرها مبتكروها هو إيجاد نماذج صغيرة موثوقة لاستدعاء الأدوات والمخرجات المنظمة في JSON. باستخدام Qwen3، على سبيل المثال، يواجهون مشاكل مثل أسماء المعلمات المصطنعة، و JSON غير المنسق (الأقواس المفقودة) وعدم اتساق الالتزام بالمخطط، مما يجبر على تنفيذ طبقات التصحيح الذاتي وإعادة المحاولة.
وهناك أيضاً جدل كبير حول نقطة التكميم المثلى لتحقيق أفضل نسبة بين الجودة والذاكرة، ضع في اعتبارك خيارات مثل q4_K_M أو q5_K_S، وذلك حسب جيل الشريحة والذاكرة المتاحة. كل بت أقل في التكميم يعني نماذج أسهل في التعامل، ولكنه قد يؤثر سلبًا على الاستدلال ودقة استدعاءات الأدوات.
أما الجبهة الأخرى فهي تعديل معلمات أخذ العينات بحسب المهمة. تتضمن التكوينات النموذجية درجة الحرارة 0,7، و top_p 0,8، و top_k 20، و repeat_penalty 1,1، ولكن هناك اهتمام بفصل استراتيجيات التوليد للمحادثة الحرة مقابل استدعاء الأدوات، حيث يكون المزيد من الحتمية وأقل إبداعًا هو الأهم.
وأخيراً، على الهاتف المحمول إدارة السياق الأمر حساس للغاية: عادةً ما يتم تخزين موجه النظام مؤقتًا في ذاكرة التخزين المؤقت KV لتجنب إعادة معالجته، وتُستخدم النوافذ المنزلقة لتجنب تجاوز السعة؛ ولهذا السبب من المفيد معرفة كيفية القيام بذلك. احفظ ونظّم مطالباتك.
إلى جانب ذلك، هناك مجال لحيل التلخيص التدريجي، أو الذاكرة الانتقائية، أو المخططات الهجينة التي تجمع بين التاريخ المضغوط والسياق المباشر.
قم بإعداد "ChatGPT المحلي" الخاص بك باستخدام Ollama و Open WebUI
لأولئك الذين لا يحتاجون إلى مجموعة معقدة مثل NemoClaw، ولكنهم يرغبون مساعد من نوع ChatGPT يعمل على جهاز الكمبيوتر الخاص بكأصبح النهج العملي للغاية القائم على Ollama و Open WebUI شائعًا.
الفكرة بسيطة: أولاما وهو مسؤول عن تنزيل النماذج وتقديمها (مثل لاما، جيما، كوين، إلخ) على جهازك عبر واجهة برمجة تطبيقات محلية، ويوفر Open WebUI واجهة ويب مشابهة جدًا لـ ChatGPT ولكنها تعمل بالكامل على جهازك. جميع البيانات المتبادلة بين واجهة المستخدم والنموذج تمر عبر localhost.
دليل بسيط للغاية خطوة بخطوة يشرح بالتفصيل كيفية القيام بذلك، مع بعض 15 أمراً طرفياًيمكنك إعداد هذا النظام وتشغيله في أقل من ساعة. يتضمن ذلك تثبيت بايثون 3.11، وتكوين النظام الأساسي، وتثبيت أولاما، ونشر واجهة المستخدم الرسومية المفتوحة، بالإضافة إلى لقطات شاشة ونصائح لحل المشكلات.
والنتيجة هي بيئة تستمتع بها اشتراكات مجانيةخصوصية تامة (لا تغادر البيانات جهاز الكمبيوتر الخاص بك أبدًا)، وأوقات استجابة تنافسية (لا توجد قوائم انتظار للخوادم المشتركة)، وحرية كاملة لتخصيص المساعدين المتخصصين بما يتناسب مع احتياجاتك الخاصة.
بالإضافة إلى ذلك، يدمج Open WebUI ميزات متقدمة مثل البحث عبر الإنترنت، ومترجم الأكواد، وإنشاء نماذج مخصصة استنادًا إلى إعدادات محددة، تعمل الشركة على تطوير قدرات متقدمة في مجال أنظمة RAG لبناء قواعد معرفية شخصية. الفكرة هي أن يكون لديك "مساعد" مدرب على دراية بمستنداتك وسير عملك دون الاعتماد على جهات خارجية.
بعد بضعة أشهر من الاستخدام، أفاد العديد من المستخدمين أن هذا المزيج قد حل محل [المنتج/الخدمة السابقة] تمامًا. اشتراكاتهم المدفوعة في حلول الحوسبة السحابيةمع تحسين التكامل مع بياناتهم وأدواتهم المحلية. وتتمثل الخطوة الطبيعية التالية في ربط هذا "البرنامج الآلي المخصص للدردشة" بالوكلاء والبرامج النصية والخدمات لتنسيق عمليات أتمتة أكثر تعقيدًا.
أتمتة حياتك الرقمية: أمثلة عملية باستخدام الذكاء الاصطناعي المحلي
كل هذا يبدو رائعاً على المستوى التقني، ولكن ما الذي يمكنك فعله فعلياً في الحياة اليومية باستخدامه؟ وكلاء محليون مدربون تدريباً جيداًتتسع الاحتمالات بشكل كبير إذا قمت بدمج النماذج متعددة الوسائط، والوصول إلى الشاشة، والأدوات، والتخزين المنظم.
هناك مقترحات مصممة لـ أتمتة استخدام جهاز الكمبيوتر الخاص بك مع وجود وكلاء يستقبلون لقطات الشاشة ويتخذون الإجراءات اللازمة بناءً عليها. سيكون سير العمل كالتالي: يلتقط النظام لقطة شاشة، ثم يقوم الوكيل بمعالجتها باستخدام نموذج قادر على التعامل مع الصور، ويفهم التطبيق المفتوح، والأزرار الموجودة، والنص الظاهر، وبناءً على طلبك، يقرر الخطوة التالية.
باستخدام هذه الفكرة، يمكنك، على سبيل المثال، إنشاء وكلاء ترجمة متخصصينيقوم النظام بالتقاط جزء الشاشة الذي تريد ترجمته، وتكبيره في نافذة "مترجم العدسة المكبرة"، وإنشاء ترجمة فورية تقريبًا باستخدام نموذج صغير (على سبيل المثال، معلمات 4B) تم ضبطه بدقة للترجمة، مثل نسخة معدلة بدقة من PHI.
ومن بين الجوانب الأخرى المثيرة للاهتمام جانب ... نماذج مرئية تحول لقطات الشاشة إلى ملفات PDFتخيل أداةً تُنشئ ملفات PDF مُنسقة بشكلٍ جيد من لقطات شاشة العروض التقديمية أو لوحات المعلومات أو المستندات، لتتمكن من تحسينها أو استخدامها مباشرةً في عروضك التقديمية. من خلال دمج لغة بايثون مع برنامج Acrobat، يُمكنك أتمتة العملية بأكملها.
للعمل مع الإنترنت دون الاعتماد على خدمات خارجية، تُستخدم تقنيات قديمة مثل لا تزال BeautifulSoup مفيدة للغايةيمكنك إعداد برنامج استخراج بيانات خفيف الوزن يقوم بفهرسة عدة صفحات، مع الاحتفاظ فقط بملفات HTML الضرورية (على سبيل المثال، استخراج فقط