- লোকাল এআই ডেটার গোপনীয়তা বজায় রেখে আপনার নিজস্ব হার্ডওয়্যারে স্বয়ংক্রিয় এজেন্টদের জটিল কাজ সম্পাদন করতে সক্ষম করে।
- এনভিডিয়া নেমোক্ল (NVIDIA NemoClaw)-এর মতো স্ট্যাকগুলো নিরাপদ ডেপ্লয়মেন্টের জন্য ওপেন মডেল, স্যান্ডবক্সিং এবং গ্র্যানুলার টুল কন্ট্রোলকে সমন্বিত করে।
- OpenClaw, Jan AI, PocketBot বা Ollama+Open WebUI-এর মতো প্রজেক্টগুলো কোনো ফি ছাড়াই পিসি ও মোবাইলে লোকাল অটোমেশন নিয়ে আসে।
- স্ক্রিনশট, ভয়েস রেকর্ডিং, ওয়েব স্ক্র্যাপিং এবং সুসংগঠিত ব্যক্তিগত ফোল্ডারের মাধ্যমে আপনি আপনার ডিজিটাল জীবনের অনেক কিছুই স্বয়ংক্রিয় করতে পারেন।
La স্থানীয় এআই দিয়ে অটোমেশন এটি এখন শুধু হোম সার্ভার থাকা প্রযুক্তিপ্রেমীদের মধ্যেই সীমাবদ্ধ নেই, বরং যারা আরও বেশি নিয়ন্ত্রণ, গোপনীয়তা এবং নমনীয়তা চান, তাদের সকলের জন্য একটি বাস্তব বিকল্প হয়ে উঠছে। আজ, আপনার স্ক্রিন পড়া, মাউস নাড়ানো, ফাইল নিয়ে কাজ করা বা ব্যাকগ্রাউন্ডে জটিল ওয়ার্কফ্লো চালানোর মতো এজেন্ট পাওয়ার জন্য আপনাকে আর কোনো বড় কোম্পানির ক্লাউডের উপর পুরোপুরি নির্ভর করতে হয় না।
পরিস্থিতি বিস্ফোরিত হয়েছে: থেকে এনভিডিয়ার নেমোক্ল-এর মতো সম্পূর্ণ স্ট্যাক আপনার নিজের হার্ডওয়্যারে চালিত স্বায়ত্তশাসিত এজেন্ট থেকে শুরু করে পকেটবটের মতো মোবাইল অ্যাপ, যা স্বাভাবিক ভাষাকে ফোন অটোমেশনে রূপান্তর করে, এবং এর সাথে ওপেনক্ল-এর মতো ওপেন প্ল্যাটফর্ম, জ্যান এআই-এর মতো অ্যাসিস্ট্যান্ট, ওলামা এবং ওপেন ওয়েবইউআই ব্যবহার করে আপনার নিজস্ব "হোমমেড চ্যাটজিপিটি" সেট আপ করার ব্যবহারিক নির্দেশিকা—সবকিছুর লক্ষ্য একই: এমন একটি ইকোসিস্টেম তৈরি করা যেখানে এআই আপনার কম্পিউটারে বাস করবে, আপনার প্রোগ্রামগুলোর সাথে যোগাযোগ করবে, এবং আপনার সিস্টেম থেকে ডেটা বের না করেই আপনার দৈনন্দিন কাজগুলোকে স্বয়ংক্রিয় করবে।
স্থানীয় এআই অটোমেশন কী এবং এটি কেন গুরুত্বপূর্ণ?
যখন আমরা সম্পর্কে কথা বলুন অটোমেশনের জন্য স্থানীয় এআইআমরা এমন মডেল এবং এজেন্টের কথা বলছি যা কোনো সংবেদনশীল ডেটা বাহ্যিক সার্ভারে না পাঠিয়ে আপনার নিজের ডিভাইসে (পিসি, সার্ভার, ডিজিএক্স, মোবাইল) চলে। মডেলটি সিদ্ধান্ত নেয়, কোড এক্সিকিউট করে, ফাইল পড়ে, এপিআই কল করে এবং টুলগুলোর মধ্যে সমন্বয় সাধন করে, কিন্তু সবকিছুই আপনার নিয়ন্ত্রিত পরিবেশের মধ্যেই ঘটে।
এই বিবর্তনটি নাটকীয়: শুধুমাত্র প্রশ্নের উত্তর দিত এমন সাধারণ চ্যাটবট থেকে আমরা এখন এমন পর্যায়ে পৌঁছেছি যেখানে টাস্ক চেইন সম্পাদন করতে সক্ষম এআই এজেন্টএকাধিক ধাপ সমন্বয় করা, বিভিন্ন ডেটা উৎস থেকে তথ্য সংগ্রহ করা এবং স্বায়ত্তশাসিত সিদ্ধান্ত গ্রহণ করা। এটি অটোমেশন সম্পর্কে আমাদের ধারণাকে সম্পূর্ণরূপে বদলে দিয়েছে: মডেলটি এখন আর কেবল "যে উত্তর দেয়" তার মধ্যে সীমাবদ্ধ নেই, বরং "যে কাজ করে" তার মধ্যেই সীমাবদ্ধ।
এই পরিবর্তনের একটি সুস্পষ্ট পরিণতি রয়েছে: অধিক স্বায়ত্তশাসন মানেই অধিক ঝুঁকি।আপনি যদি কোনো এজেন্টকে ফাইল সিস্টেম, আপনার ক্রেডেনশিয়াল, আপনার ব্রাউজার বা আপনার ডেভেলপমেন্ট টুলস ব্যবহারের অনুমতি দেন, তাহলে আপনার একটি শক্তিশালী নিরাপত্তা ব্যবস্থা প্রয়োজন। এখানেই লোকাল অ্যাপ্রোচগুলো বিশেষভাবে কার্যকর, কারণ এর মাধ্যমে আপনি পারমিশন সীমাবদ্ধ করতে, প্রসেসগুলোকে আলাদা করতে এবং মডেলটি যেকোনো সময়ে কী করছে তা নিবিড়ভাবে পর্যবেক্ষণ করতে পারেন।
এছাড়াও, অ্যাপাচি-২.০ বা এমআইটি-এর মতো বিনামূল্যের লাইসেন্সযুক্ত উন্মুক্ত মডেল। ফ্যালকন, বার্ক, জ্যান ইত্যাদির মতো অনেক সলিউশনের মতোই, এগুলো আপনাকে কোনো চুক্তি বা অস্বচ্ছ ব্যবহার নীতির সাথে আবদ্ধ না হয়েই সলিউশন তৈরি করার সুযোগ দেয়। আপনি কোড নিরীক্ষা করতে, মডেল সামঞ্জস্য করতে, সূক্ষ্ম সমন্বয় করতে এবং এমনকি এটিকে A100 GPU বা NVIDIA DGX ওয়ার্কস্টেশনের মতো নির্দিষ্ট হার্ডওয়্যারের সাথে একীভূত করতে পারেন।
অনেক খাতের জন্য (স্বাস্থ্যসেবা, ব্যাংকিং, আইন, জনপ্রশাসন), যেখানে গোপনীয়তা এবং নিরাপদ স্টোরেজ এটি পবিত্র, এই সংমিশ্রণ স্থানীয় এআই + স্বায়ত্তশাসিত এজেন্ট + উন্মুক্ত মডেল এর একটা প্রভাব পড়ছে: আপনি স্বয়ংক্রিয় ব্যবস্থা নিচ্ছেন, কিন্তু ডেটা আপনার সীমানার বাইরে যাচ্ছে না।
উন্নত অটোমেশনের জন্য স্থানীয় এআই স্ট্যাক: নেমোক্ল, ওপেনশেল এবং ওপেনক্ল
এনভিডিয়া এই খেলায় জোরালোভাবে প্রবেশ করেছে নেমোক্লএটি একটি ওপেন-সোর্স স্ট্যাক, যা স্থানীয়ভাবে স্বায়ত্তশাসিত এজেন্টদের নিরাপদে স্থাপন করতে এবং তাদের সর্বদা চালু রাখা নিশ্চিত করার জন্য ডিজাইন করা হয়েছে। এটি NVIDIA DGX Spark-এর মতো শক্তিশালী মেশিনে চালানোর জন্য ডিজাইন করা হয়েছে, তবে এর মূলনীতি অন্যান্য অনুমোদিত পরিবেশের ক্ষেত্রেও প্রযোজ্য।
নেমোক্ল কাজ করে capa de orquestaciónএটি OpenShell (সিকিউরিটি রানটাইম) এবং OpenClaw (মাল্টি-চ্যানেল এজেন্ট ফ্রেমওয়ার্ক) ইনস্টল ও সমন্বয় করে, মডেল ইনফারেন্স কনফিগার করে (Ollama বা NVIDIA NIM-এর মাধ্যমে) এবং শুরু থেকেই সিকিউরিটি পলিসি প্রয়োগ করে, শেষ মুহূর্তের প্যাচ হিসেবে নয়।
স্ট্যাকের কেন্দ্রস্থলে সাধারণত এনভিডিয়া নেমোট্রন ৩ সুপার ১২০বিএজেন্টদের জন্য অপ্টিমাইজ করা ১২০ বিলিয়ন প্যারামিটার বিশিষ্ট একটি মডেল: যা জটিল নির্দেশাবলী অনুসরণ, টুলস পরিচালনা এবং বহু-ধাপের যুক্তিতে অত্যন্ত পারদর্শী। তবে, এত বড় আকারের কিছু চালানোর জন্য আপনার একটি শক্তিশালী জিপিইউ এবং প্রচুর মেমরি প্রয়োজন; শুধুমাত্র মডেলটির জন্যই প্রায় ৮৭ জিবি মেমরির কথা উল্লেখ করা হয়েছে।
অনুমান সাধারণত পরিবেশন করা হয় ওলামা স্থানীয় রানটাইম হিসাবেযা মেশিনটিতেই একটি REST API উন্মুক্ত করে। NemoClaw এই API-এর মাধ্যমে টুল-কলিং প্যাটার্ন ব্যবহার করে প্রম্পট পাঠাতে, প্রতিক্রিয়া গ্রহণ করতে এবং টুল কল সমন্বয় করতে যোগাযোগ করে।
উপাদান নিরাপত্তার দিক থেকে ওপেনশেল অত্যন্ত গুরুত্বপূর্ণ।এটি স্যান্ডবক্সিং কার্যকর করে, ক্রেডেনশিয়াল নিয়ন্ত্রণ করে, নেটওয়ার্ক প্রক্সি হিসেবে কাজ করে এবং ন্যূনতম বিশেষাধিকারের নীতি প্রয়োগ করে। এটি এজেন্টের সংযোগ স্থাপনের প্রচেষ্টাগুলো পর্যবেক্ষণ করে এবং আপনাকে একটি TUI-সদৃশ ইন্টারফেস থেকে এন্ডপয়েন্ট অনুমোদন বা ব্লক করার সুযোগ দেয়। এইভাবে, মডেলটি যদি কোনো নতুন পরিষেবা অ্যাক্সেস করার চেষ্টা করে, তবে আপনার অনুমোদন ছাড়া কিছুই ঘটে না।
স্যান্ডবক্সের ভিতরে বাস করে ওপেনক্ল, মাল্টি-চ্যানেল এজেন্ট লেয়ারএটি টেলিগ্রাম, স্ল্যাক এবং ডিসকর্ডের মতো প্ল্যাটফর্মের সাথে যোগাযোগ পরিচালনা করে, এজেন্টের মেমরি সামলায়, বিভিন্ন টুল (স্ক্রিপ্ট, এপিআই, ব্রাউজার) সংযুক্ত করে এবং কথোপকথন দীর্ঘমেয়াদে বজায় রাখে। আপনি যদি এমন একজন অ্যাসিস্ট্যান্ট চান যিনি সর্বদা সক্রিয়, মেসেজিংয়ের মাধ্যমে অ্যাক্সেসযোগ্য এবং যার মেমরি স্থায়ী, তবে এই কম্পোনেন্টটিই তা সম্ভব করে তোলে।
নিরাপত্তা, স্যান্ডবক্সিং এবং স্থানীয় ডেপ্লয়মেন্ট ধাপে ধাপে
এই স্ট্যাকটির অন্যতম প্রধান শক্তি হলো যে নকশা পর্যায় থেকেই নিরাপত্তার বিষয়টি বিবেচনা করা হয়।পরে যোগ করা হয়নি। এজেন্ট প্রজেক্টে সাধারণ ভুলটি হলো প্রথমে সমস্ত কার্যকারিতা তৈরি করা এবং তারপরে যা তৈরি করা হয়েছে তা "সুরক্ষিত" করার চেষ্টা করা, যা সর্বত্র ফাঁক তৈরি করে।
কেন্দ্রীয় প্রক্রিয়াটি হল এক্সিকিউশন স্যান্ডবক্সিংএজেন্ট যে সমস্ত কোড চালাতে চায়, তা একটি বিচ্ছিন্ন পরিবেশে চলে: হোস্টের ফাইল সিস্টেমে এর কোনো সরাসরি অ্যাক্সেস থাকে না, যথেচ্ছভাবে নেটওয়ার্ক কল করতে পারে না, এবং কনফিগারেশনে সংজ্ঞায়িত সীমার বাইরে বিশেষাধিকার বাড়াতে পারে না।
এটি এর প্রভাবকে অনেকাংশে প্রশমিত করে। প্রম্পট ইনজেকশন আক্রমণ অথবা ক্ষতিকর নির্দেশাবলী। মডেলটি যদি অস্বাভাবিক কিছু করার সিদ্ধান্ত নেয়, তবে ক্ষতিটি স্যান্ডবক্সের মধ্যেই সীমাবদ্ধ থাকে। তা সত্ত্বেও, এনভিডিয়া নিজেও স্বীকার করে যে কোনো স্যান্ডবক্সই নিখুঁত নয়, তাই তারা সবসময় বিচ্ছিন্ন সিস্টেমে নতুন টুল পরীক্ষা করার পরামর্শ দেয়।
এছাড়াও, NemoClaw বাস্তবায়ন করে রিয়েল টাইমে টুল এবং পলিসিগুলির সূক্ষ্ম নিয়ন্ত্রণডিফল্টরূপে, এজেন্ট শুধুমাত্র সীমিত সংখ্যক নেটওয়ার্ক এন্ডপয়েন্টের সাথে যোগাযোগ করতে পারে। যখন এটি নতুন কিছু করার চেষ্টা করে, OpenShell এটিকে ব্লক করে দেয়, এবং এটি ঠিক কী করার চেষ্টা করছে (হোস্ট, পোর্ট, প্রসেস) তা আপনি দেখতে পারেন। এরপর আপনি সেই সেশনের জন্য এটিকে অনুমোদন করতে পারেন অথবা হোস্টে একটি স্থায়ী পলিসি যোগ করতে পারেন।
একটি DGX Spark-এ ডেপ্লয়মেন্ট প্রক্রিয়াটি সাধারণত এই ধাপগুলো অনুসরণ করে: কনফিগার করুন এনভিডিয়া ড্রাইভার সহ উবুন্টু ২৪.০৪ এলটিএস একটি অনুসরণ করে কম্পিউটার অ্যাসেম্বলি গাইডGPU রানটাইম সহ Docker 28.xo বা তার উচ্চতর সংস্করণ ইনস্টল করুন, Ollama ইনস্টল করুন এবং Nemotron 3 Super 120B মডেলটি ডাউনলোড করুন, এবং সবশেষে একটিমাত্র কমান্ডের মাধ্যমে NemoClaw ইনস্টলেশন চালু করুন যা একটি কনফিগারেশন উইজার্ড চালু করবে।
এই অনবোর্ডিং আপনাকে এর মাধ্যমে পথ দেখাবে স্যান্ডবক্সের নাম, ইনফারেন্স প্রোভাইডার, নির্বাচিত মডেল, নিরাপত্তা প্রিসেট এবং, আপনি চাইলে, টেলিগ্রাম ইন্টিগ্রেশনও করতে পারেন। ব্যান্ডউইথের উপর নির্ভর করে, সক্রিয় সেটআপের জন্য আনুমানিক ২০-৩০ মিনিট এবং টেমপ্লেট ডাউনলোড করতে আরও ১৫-৩০ মিনিট সময় লাগে।
কর্মক্ষমতার দিক থেকে আমাদের বাস্তববাদী হতে হবে: একটি ১২০ বিলিয়ন প্যারামিটার মডেলের প্রতিক্রিয়া নিতে সময় লাগতে পারে 30 এবং 90 সেকেন্ড স্থানীয় প্রেক্ষাপটে। এটি নিজে কোনো সমস্যা নয়, কিন্তু ব্যবহারের প্রবাহ (uses flow) ডিজাইন করার সময় এবং এজেন্টকে যে ধরনের কাজ বরাদ্দ করা হয়, তা বিবেচনায় রাখা প্রয়োজন।
রিমোট অ্যাক্সেস, ওয়েব ইন্টারফেস, এবং স্থানীয় এআই-এর জন্য ডিজাইন করা হার্ডওয়্যার
একবার সবকিছু সেট আপ হয়ে গেলে, আপনি বিভিন্ন উপায়ে এজেন্টের সাথে যোগাযোগ করতে পারেন। সবচেয়ে সাধারণ উপায়টি হলো টেলিগ্রামের মাধ্যমে@BotFather দিয়ে তৈরি একটি বট ব্যবহার করা একটি বাস্তবসম্মত পছন্দ: শক্তিশালী এপিআই, এনক্রিপশন, সব ধরনের ডিভাইসের জন্য অ্যাপ, এবং আপনার সার্ভার পোর্টগুলো বহির্বিশ্বের কাছে উন্মুক্ত করার কোনো প্রয়োজন নেই।
বটটি আপনার বার্তাগুলো গ্রহণ করে, সেগুলো DGX-এ থাকা এজেন্টের কাছে পাঠিয়ে দেয় এবং আপনাকে একটি উত্তর পাঠিয়ে দেয়। মজার ব্যাপার হলো, যদিও কথোপকথনটি টেলিগ্রামের পরিকাঠামোর মাধ্যমে সম্পন্ন হয়, সংবেদনশীল তথ্যে অনুমান এবং প্রবেশাধিকার শতভাগ স্থানীয় থাকে। আপনার মেশিনে।
এছাড়াও, নেমোক্ল অফার করে একটি ব্যক্তিগত ওয়েব ইন্টারফেস অনবোর্ডিং শেষে শুধুমাত্র একবার তৈরি হওয়া একটি টোকেনাইজড ইউআরএল-এর মাধ্যমে এটি অ্যাক্সেস করা যায়। এই ইউআরএলটি অবিলম্বে সংরক্ষণ করা অত্যন্ত জরুরি, কারণ এটি আর দেখানো হবে না। নেটওয়ার্কের অন্য কোনো মেশিন থেকে এটি দেখার জন্য, আপনাকে ওপেনশেল (OpenShell) ব্যবহার করে একটি এসএসএইচ (SSH) টানেল এবং পোর্ট ফরওয়ার্ডিং কনফিগার করতে হবে।
একটি ছোট কিন্তু গুরুত্বপূর্ণ বিষয় হলো যে URL-টি অবশ্যই খুলতে হবে লোকালহোস্টের পরিবর্তে 127.0.0.1লোকালহোস্ট ব্যবহার করলে অননুমোদিত উৎস (CORS) ত্রুটি দেখা দিতে পারে, যা সম্পর্কে আপনি অবগত না থাকলে আপনার সময় নষ্ট করতে পারে।
দৈনন্দিন কার্যক্রমের জন্য বেশ কয়েকটি রয়েছে দরকারী CLI কমান্ডস্যান্ডবক্সের ভিতরে একটি শেল খুলুন, স্ট্যাটাস দেখুন, রিয়েল টাইমে লগ অনুসরণ করুন, স্যান্ডবক্সগুলির তালিকা দেখুন, টেলিগ্রাম ব্রিজ চালু বা বন্ধ করুন, পোর্ট ফরওয়ার্ডিং সক্রিয় করুন, অথবা একটি ক্লিন আনইনস্টল স্ক্রিপ্ট চালান যা সম্পূর্ণ স্ট্যাকটি সরিয়ে দেয়।
হার্ডওয়্যার হিসাবে, এনভিআইডিএ ডিজিএক্স স্পার্ক এটি স্পষ্টতই এই ধরনের ব্যবহারের জন্যই ডিজাইন করা হয়েছে। এটি এনভিডিয়া জিপিইউ এবং উচ্চ-ব্যান্ডউইথের ইউনিফাইড মেমরিযুক্ত একটি কম্প্যাক্ট সিস্টেম, যা একটি পূর্ণাঙ্গ ডেটা সেন্টার স্থাপন না করেই কম ল্যাটেন্সিতে মাঝারি ও বড় আকারের মডেল চালানোর জন্য আদর্শ।
La ইউনিফাইড স্মৃতি এটি বিশেষ করে একটি চিরায়ত প্রতিবন্ধকতা দূর করতে সাহায্য করে: সিপিইউ এবং জিপিইউ-এর মধ্যে ডেটা স্থানান্তর। মেমরি স্পেস শেয়ার করার মাধ্যমে, মডেলটি আরও অনেক দক্ষতার সাথে ডেটা অ্যাক্সেস করে, যার ফলে কয়েক হাজার কোটি প্যারামিটারযুক্ত মডেলও (প্রায়) রিয়েল টাইমে লোড করা যায়—যা সাম্প্রতিককাল পর্যন্ত কনজিউমার হার্ডওয়্যারের ক্ষেত্রে ছিল অকল্পনীয়।
জনপ্রিয় স্থানীয় এআই এজেন্ট: উদাহরণ এবং ব্যবহারের ক্ষেত্র
এনভিডিয়া ইকোসিস্টেমের বাইরেও বেশ কয়েকটি রয়েছে। আপনার নিজের টিমে এআই এজেন্ট এবং অটোমেশন-ভিত্তিক প্ল্যাটফর্ম যেগুলো জেনে রাখা দরকার। প্রত্যেকটি ভিন্ন ধরনের ব্যবহারকারী এবং ভিন্ন ভিন্ন ধরনের কাজকে লক্ষ্য করে তৈরি।
উদাহরণস্বরূপ, OpenClaw জনপ্রিয় হয়ে উঠেছে কারণ ওপেন সোর্স এজেন্ট প্ল্যাটফর্ম যা একজন ব্যক্তিগত সহকারী হিসেবে কাজ করে। এটি আপনাকে আপনার ইনবক্স পরিষ্কার করতে, বার্তা পাঠাতে, ক্যালেন্ডার পরিচালনা করতে, ভ্রমণের পরিকল্পনা করতে বা আপনার ডিজিটাল জীবনের পুনরাবৃত্তিমূলক কাজগুলো স্বয়ংক্রিয় করতে নিজস্ব এজেন্ট তৈরি করার সুযোগ দেয়।
ইনস্টল করা যাবে উইন্ডোজ, ম্যাকোস এবং লিনাক্সএটি স্থানীয়ভাবে এলএলএম মডেলগুলোর সাথে কাজ করার জন্য ডিজাইন করা হয়েছে, যা গোপনীয়তা বাড়ায় এবং ক্লাউডের উপর নির্ভরতা কমায়। এছাড়াও, এটি WhatsApp, Telegram, Discord, Slack, Signal, এবং Apple Messages-এর মতো মেসেজিং অ্যাপগুলোর সাথে ইন্টিগ্রেট করে, ফলে আপনার এজেন্ট আপনার ব্যবহৃত চ্যাটগুলোর "নেপথ্যে" থেকে কাজ করে।
প্লাগইনগুলির মাধ্যমে, আপনি এটিকে ব্রাউজার, সোশ্যাল নেটওয়ার্ক, ইমেল ক্লায়েন্ট এবং অন্যান্য অ্যাপ্লিকেশনগুলিতে অ্যাক্সেস দিতে পারেন, সেইসাথে অনুমতিও দিতে পারেন। ফাইল সিস্টেমের সাথে ইন্টারঅ্যাক্ট করা, কমান্ড এবং স্ক্রিপ্ট চালানোঅথবা সাধারণ অফিস ও উৎপাদনশীলতার কাজগুলো স্বয়ংক্রিয় করুন। এই সবকিছুর মূল লক্ষ্য হলো, ব্যবহারকারী যেন বেছে নিতে পারেন কোন ফোল্ডার, অ্যাপ এবং পরিষেবাগুলো এজেন্টের জন্য উপলব্ধ থাকবে।
আরও সাধারণ বাস্তুতন্ত্রে, প্ল্যাটফর্ম যেমন ধাঁধা কম্পিউটারএটি পারপ্লেক্সিটিকে একটি সাধারণ কথোপকথনমূলক সার্চ ইঞ্জিন থেকে এমন এক সহকারীতে রূপান্তরিত করে যা জটিল ওয়ার্কফ্লো সম্পাদন করতে সক্ষম। এই কম্পিউটার মোড আপনাকে ওয়েব ব্রাউজ করতে, ডকুমেন্ট তৈরি ও পরিচালনা করতে, কোড লিখতে, ডেটা প্রসেস করতে এবং Gmail, Slack, GitHub ও Notion-এর মতো পরিষেবাগুলির সাথে সমন্বয় করতে দেয়।
এর শক্তি নিহিত রয়েছে Claude, GPT, Gemini, বা Perplexity-র নিজস্ব Sonar-এর মতো মডেল ব্যবহার করে বিপুল পরিমাণ ডেটা পরিচালনা করা এবং জটিল কাজগুলোকে এমন উপ-কাজে বিভক্ত করা, যা ধারাবাহিকভাবে বা সমান্তরালভাবে চালানো যায়। যদিও এটি সবসময় পুরোপুরি স্থানীয় নয়, তবে এর এজেন্ট প্যাটার্ন এবং বিভিন্ন টুলের সাথে এর ইন্টিগ্রেশন আপনার মেশিনে চলমান এজেন্টগুলোর মতোই।
সম্পূর্ণরূপে উন্মুক্ত উৎস এবং স্থানীয় পরিসরে, জান এআই এটিকে ChatGPT-এর একটি বিকল্প হিসেবে উপস্থাপন করা হয়েছে, যা Windows, Mac, এবং Linux-এ ইনস্টল করা যায়। এটি আপনাকে Llama (Meta) বা Gemma (Google)-এর মতো স্থানীয় মডেল ব্যবহার করার সুযোগ দেয়, অথবা আপনি যদি দুটোর মিশ্রণে আগ্রহী হন, তবে ChatGPT, Claude, Gemini, Mistral, Qwen, বা DeepSeek-এর মতো অনলাইন মডেলের সাথে সংযোগ স্থাপন করতে পারেন।
জান এআই উভয়ভাবেই কাজ করে ক্লাসিক কথোপকথন সহকারী (জিজ্ঞাসা করা, খসড়া তৈরি করা, সারসংক্ষেপ করা, অনুবাদ করা, পুনর্লিখন করা, ব্যাখ্যা করা) এমন একটি এজেন্ট হিসেবে যা ফাইল ও ডকুমেন্ট প্রসেস করতে, কমান্ড কার্যকর করতে এবং বিভিন্ন ভাষায় কোড তৈরি করতে সক্ষম। অধিকন্তু, এর কাস্টমাইজেশন সুবিধা থাকায় নির্দিষ্ট নির্দেশনাসহ আপনার নিজস্ব এজেন্ট তৈরি করা এবং কাজের ধরনের ওপর নির্ভর করে বিভিন্ন "প্রোফাইলের" মধ্যে পরিবর্তন করা সহজ হয়।
ডিভাইসের এজেন্ট: পকেটবট এবং মোবাইল অটোমেশন
এর ধারণা স্থানীয় এআই পিসিতে থাকে নাএটি মোবাইল ফোনের ক্ষেত্রেও জোরালো প্রভাব ফেলছে, যেখানে ক্রমবর্ধমান সংখ্যক প্রকল্প ক্লাউডের সাহায্য ছাড়াই ফোনকে স্বয়ংক্রিয় করতে ছোট কিন্তু বিশেষায়িত মডেল বেছে নিচ্ছে।
এর একটি স্পষ্ট উদাহরণ হলো পকেটবট, একটি এজেন্ট যা সরাসরি চলে মেটালে flame.cpp ব্যবহার করে আইফোনএর লক্ষ্য হলো স্বাভাবিক ভাষাকে ফোন অটোমেশনে রূপান্তর করা: হাজারো মেনু বা শর্টকাটে ট্যাপ করার পরিবর্তে, আপনি কী চান তা বর্ণনা করেন এবং এজেন্টটি সেটিকে কাজে পরিণত করার দায়িত্ব নেয়।
পকেটবট একটি কোয়ান্টাইজড মডেল ব্যবহার করে 3.000 বিলিয়ন প্যারামিটারসম্পূর্ণরূপে স্থানীয়ভাবে চলে এবং কোনো বাহ্যিক সার্ভারে ডেটা পাঠায় না। একটি iPhone 15 Pro-তে সাধারণত ৩-৪ জিবি মেমরি ব্যবহারযোগ্য থাকে, এরপরই iOS প্রসেস বন্ধ করা শুরু করে, তাই মডেলের আকার এবং কোয়ান্টাইজেশন অত্যন্ত গুরুত্বপূর্ণ।
এর নির্মাতারা যে চ্যালেঞ্জগুলোর কথা উল্লেখ করেন, তার মধ্যে একটি হলো খুঁজে বের করা। টুল-কলিং এবং কাঠামোগত আউটপুটের জন্য নির্ভরযোগ্য ছোট মডেল JSON-এ। উদাহরণস্বরূপ, Qwen3 ব্যবহার করার সময় তারা মনগড়া প্যারামিটার নাম, ত্রুটিপূর্ণ JSON (বন্ধনী না থাকা) এবং স্কিমা মেনে চলার ক্ষেত্রে অসামঞ্জস্যতার মতো সমস্যার সম্মুখীন হন, যা স্ব-সংশোধন এবং পুনঃপ্রচেষ্টা স্তর বাস্তবায়নে বাধ্য করে।
এ নিয়েও অনেক বিতর্ক রয়েছে কোয়ান্টাইজেশনের সর্বোত্তম বিন্দু সর্বোত্তম কোয়ালিটি/মেমরি অনুপাত অর্জনের জন্য, চিপের জেনারেশন এবং উপলব্ধ মেমরির উপর নির্ভর করে q4_K_M বা q5_K_S-এর মতো অপশনগুলো বিবেচনা করুন। কোয়ান্টাইজেশনে প্রতিটি কম বিটের অর্থ হলো আরও সহজে পরিচালনাযোগ্য মডেল, কিন্তু এটি টুল কলের ক্ষেত্রে রিজনিং এবং নির্ভুলতার উপর নেতিবাচক প্রভাব ফেলতে পারে।
আরেকটি দিক হলো সমন্বয় সাধন। নমুনা পরামিতি কাজের ধরনের ওপর নির্ভর করে। সাধারণ কনফিগারেশনগুলোর মধ্যে রয়েছে টেম্পারেচার ০.৭, টপ_পি ০.৮, টপ_কে ২০ এবং রিপিট_পেনাল্টি ১.১, কিন্তু মুক্ত কথোপকথন এবং টুল-কলিংয়ের জন্য জেনারেশন স্ট্র্যাটেজি আলাদা করার ব্যাপারে আগ্রহ রয়েছে, যেখানে অধিকতর সুনির্দিষ্টতা এবং কম সৃজনশীলতা কাম্য।
অবশেষে, মোবাইল ফোনে প্রসঙ্গ ব্যবস্থাপনা এটি বিশেষভাবে সংবেদনশীল: সিস্টেম প্রম্পটটি সাধারণত পুনরায় প্রক্রিয়াকরণ এড়াতে কেভি ক্যাশে (KV cache) ক্যাশ করা হয়, এবং ধারণক্ষমতা অতিক্রম করা এড়াতে স্লাইডিং উইন্ডো ব্যবহার করা হয়; এই কারণেই এটি কীভাবে কাজ করে তা জানা দরকারি। আপনার প্রম্পটগুলি সংরক্ষণ এবং সংগঠিত করুন.
এর বাইরেও, ক্রমবর্ধমান সারসংক্ষেপের কৌশল, নির্বাচিত স্মৃতি, বা সংকুচিত ইতিহাস ও তাৎক্ষণিক প্রসঙ্গকে সমন্বিত করে এমন সংকর পদ্ধতির সুযোগ রয়েছে।
Ollama এবং Open WebUI ব্যবহার করে আপনার নিজস্ব “স্থানীয় ChatGPT” তৈরি করুন।
যাদের নেমোক্ল-এর মতো জটিল স্ট্যাকের প্রয়োজন নেই, কিন্তু চান আপনার কম্পিউটারে চলমান একটি ChatGPT-ধরণের সহকারীOllama এবং Open WebUI-এর উপর ভিত্তি করে একটি অত্যন্ত বাস্তবসম্মত পদ্ধতি জনপ্রিয় হয়ে উঠেছে।
ধারণাটি সহজ: ওল্লামা এটি মডেল ডাউনলোড এবং পরিবেশন করার জন্য দায়ী। আপনার মেশিনে একটি লোকাল এপিআই-এর মাধ্যমে লামা, জেমা, কুইন ইত্যাদি ব্যবহার করা যায়, এবং ওপেন ওয়েবইউআই (Open WebUI) চ্যাটজিপিটি (ChatGPT)-র মতোই একটি ওয়েব ইন্টারফেস প্রদান করে, যা সম্পূর্ণভাবে আপনার মেশিনে চলে। ইউআই (UI) এবং মডেলের মধ্যে সমস্ত ট্র্যাফিক লোকালহোস্টের মাধ্যমে পরিচালিত হয়।
একটি অত্যন্ত সহজবোধ্য ধাপে ধাপে নির্দেশিকা কয়েকটি বিষয়ের সাহায্যে এর পদ্ধতি বিশদভাবে বর্ণনা করে। ১৫টি টার্মিনাল কমান্ডআপনি এক ঘণ্টারও কম সময়ে এই সেটআপটি চালু করে ফেলতে পারবেন। এতে পাইথন ৩.১১ ইনস্টলেশন, বেসিক সিস্টেম কনফিগারেশন, ওলামা ইনস্টলেশন এবং ওপেন ওয়েবইউআই ডেপ্লয়মেন্ট অন্তর্ভুক্ত রয়েছে, সাথে আছে স্ক্রিনশট এবং সমস্যা সমাধানের টিপস।
এর ফলে এমন একটি পরিবেশ তৈরি হয় যেখানে আপনি উপভোগ করেন বিনামূল্যে সাবস্ক্রিপশনসম্পূর্ণ গোপনীয়তা (ডেটা কখনও আপনার কম্পিউটার থেকে বাইরে যায় না), প্রতিযোগিতামূলক দ্রুত প্রতিক্রিয়া (কোনো শেয়ার্ড সার্ভার কিউ নেই), এবং আপনার নিজস্ব প্রয়োজন অনুসারে বিশেষায়িত অ্যাসিস্ট্যান্টদের কাস্টমাইজ করার সম্পূর্ণ স্বাধীনতা।
এছাড়াও, ওপেন ওয়েবইউআই উন্নত বৈশিষ্ট্যগুলিকে একীভূত করে যেমন ওয়েব অনুসন্ধান, কোড ইন্টারপ্রেটার, কাস্টম মডেল তৈরি নির্দিষ্ট কনফিগারেশনের উপর ভিত্তি করে, এটি ব্যক্তিগত নলেজ বেস তৈরির জন্য উন্নত RAG সক্ষমতা প্রস্তুত করছে। এর মূল উদ্দেশ্য হলো, আপনি তৃতীয় পক্ষের উপর নির্ভর না করেই আপনার ডকুমেন্ট এবং ওয়ার্কফ্লো সম্পর্কে পরিচিত একজন প্রশিক্ষিত 'সহ-পাইলট' পেতে পারেন।
কয়েক মাস ব্যবহারের পর অনেক ব্যবহারকারী জানিয়েছেন যে, এই সমন্বয়টি [পূর্ববর্তী পণ্য/পরিষেবাটিকে] সম্পূর্ণরূপে প্রতিস্থাপন করেছে। ক্লাউড সলিউশনের জন্য তাদের প্রদত্ত সাবস্ক্রিপশনএকই সাথে তাদের নিজস্ব স্থানীয় ডেটা এবং টুলগুলির সাথে ইন্টিগ্রেশন উন্নত করা। পরবর্তী স্বাভাবিক পদক্ষেপ হলো আরও জটিল অটোমেশন সমন্বয় করার জন্য এই 'স্বদেশী চ্যাটজিপিটি'-কে এজেন্ট, স্ক্রিপ্ট এবং পরিষেবাগুলির সাথে সংযুক্ত করা।
আপনার ডিজিটাল জীবনকে স্বয়ংক্রিয় করুন: স্থানীয় এআই-এর বাস্তব উদাহরণ
প্রযুক্তিগতভাবে এই সবকিছু শুনতে দারুণ লাগে, কিন্তু দৈনন্দিন জীবনে এটা দিয়ে আসলে কী করা যায়? সুপ্রশিক্ষিত স্থানীয় এজেন্টমাল্টিমোডাল মডেল, স্ক্রিন অ্যাক্সেস, টুলস এবং স্ট্রাকচার্ড স্টোরেজকে একত্রিত করলে সম্ভাবনাগুলো বেশ ব্যাপক হয়ে ওঠে।
এর জন্য তৈরি করা প্রস্তাবনা রয়েছে আপনার নিজের কম্পিউটারের ব্যবহার স্বয়ংক্রিয় করুন এমন এজেন্টের মাধ্যমে যা স্ক্রিনশট গ্রহণ করে এবং সে অনুযায়ী কাজ করে। কার্যপ্রবাহটি হবে অনেকটা এইরকম: সিস্টেমটি একটি স্ক্রিনশট নেয়, এজেন্টটি ছবি নিয়ে কাজ করতে সক্ষম একটি মডেলের সাহায্যে সেটিকে প্রসেস করে, কোন অ্যাপ্লিকেশন খোলা আছে, কী কী বাটন আছে, কী লেখা দেখা যাচ্ছে তা বোঝে এবং আপনার নির্দেশনার উপর ভিত্তি করে পরবর্তী করণীয় সম্পর্কে সিদ্ধান্ত নেয়।
এই ধারণাটি দিয়ে আপনি, উদাহরণস্বরূপ, বিশেষায়িত অনুবাদ এজেন্ট নিয়োগ করুনসিস্টেমটি স্ক্রিনের যে অংশটি আপনি অনুবাদ করতে চান তা ধারণ করে, সেটিকে একটি 'ম্যাগনিফাইং গ্লাস ট্রান্সলেটর' উইন্ডোতে বড় করে দেখায় এবং অনুবাদের জন্য সূক্ষ্মভাবে টিউন করা একটি ছোট মডেল (যেমন, ৪বি প্যারামিটার) ব্যবহার করে প্রায় তাৎক্ষণিক একটি অনুবাদ তৈরি করে, যা অনেকটা PHI-এর একটি সূক্ষ্মভাবে টিউন করা সংস্করণের মতো।
আরেকটি আকর্ষণীয় দিক হলো যে ভিজ্যুয়াল মডেল যা স্ক্রিনশটকে পিডিএফে রূপান্তর করেএমন একটি টুলের কথা ভাবুন যা প্রেজেন্টেশন, ড্যাশবোর্ড বা ডকুমেন্টের স্ক্রিনশট থেকে সুবিন্যস্ত পিডিএফ তৈরি করে, যা আপনি পরে পরিমার্জন করতে বা সরাসরি আপনার প্রেজেন্টেশনে ব্যবহার করতে পারেন। পাইথনের সাথে অ্যাক্রোব্যাটকে সংযুক্ত করে আপনি এই সম্পূর্ণ প্রক্রিয়াটিকে স্বয়ংক্রিয় করতে পারেন।
বাহ্যিক পরিষেবার উপর নির্ভর না করে ওয়েবের সাথে কাজ করার জন্য, অভিজ্ঞ প্রযুক্তি যেমন BeautifulSoup এখনও খুব দরকারীআপনি একটি হালকা স্ক্র্যাপার সেট আপ করতে পারেন যা একাধিক পৃষ্ঠা ক্রল করে এবং শুধুমাত্র প্রয়োজনীয় HTML রাখে (উদাহরণস্বরূপ, শুধুমাত্র নিষ্কাশন করে)।
