- Trí tuệ nhân tạo cục bộ (Local AI) cho phép các tác nhân tự động thực hiện các tác vụ phức tạp trên phần cứng của bạn trong khi vẫn đảm bảo quyền riêng tư dữ liệu.
- Các nền tảng như NVIDIA NemoClaw tích hợp các mô hình mở, môi trường biệt lập và khả năng kiểm soát công cụ chi tiết để triển khai an toàn.
- Các dự án như OpenClaw, Jan AI, PocketBot hay Ollama+Open WebUI mang đến khả năng tự động hóa cục bộ cho máy tính và thiết bị di động mà không mất phí.
- Chụp màn hình, ghi âm giọng nói, trích xuất dữ liệu từ web và tạo thư mục cá nhân có cấu trúc cho phép bạn tự động hóa phần lớn cuộc sống kỹ thuật số của mình.
La tự động hóa với trí tuệ nhân tạo cục bộ Công nghệ này không chỉ dành riêng cho những người đam mê công nghệ với máy chủ tại nhà mà còn trở thành một lựa chọn thực sự cho bất kỳ ai muốn có nhiều quyền kiểm soát, quyền riêng tư và tính linh hoạt hơn. Ngày nay, bạn không còn hoàn toàn phụ thuộc vào điện toán đám mây của một công ty lớn để có các tác nhân có khả năng đọc màn hình, di chuyển chuột, làm việc với tập tin hoặc chạy các quy trình công việc phức tạp trong nền.
Tình hình đã trở nên nghiêm trọng: từ các bộ phần mềm hoàn chỉnh như NemoClaw của NVIDIA. Từ các tác nhân tự động chạy trên phần cứng của riêng bạn đến các ứng dụng di động như PocketBot chuyển đổi ngôn ngữ tự nhiên thành các thao tác tự động trên điện thoại, và bao gồm cả các nền tảng mở như OpenClaw, các trợ lý ảo như Jan AI, và các hướng dẫn thực hành để thiết lập "ChatGPT tự chế" của riêng bạn với Ollama và Open WebUI, mục tiêu đều giống nhau: xây dựng một hệ sinh thái nơi AI tồn tại trên máy tính của bạn, tương tác với các chương trình của bạn và tự động hóa các tác vụ hàng ngày mà không cần lấy dữ liệu của bạn ra khỏi hệ thống.
Tự động hóa AI cục bộ là gì và tại sao nó lại quan trọng?
Khi chúng ta nói về Trí tuệ nhân tạo cục bộ cho tự động hóaChúng tôi đang đề cập đến các mô hình và tác nhân chạy trên thiết bị của riêng bạn (PC, máy chủ, DGX, thiết bị di động) mà không gửi dữ liệu nhạy cảm đến máy chủ bên ngoài. Mô hình đưa ra quyết định, thực thi mã, đọc tệp, gọi API và điều phối các công cụ, nhưng tất cả đều diễn ra trong môi trường được kiểm soát của bạn.
Sự phát triển diễn ra vô cùng ngoạn mục: từ những chatbot đơn giản chỉ trả lời câu hỏi, chúng ta đã tiến tới... Các tác nhân AI có khả năng thực hiện chuỗi nhiệm vụ.Để điều phối nhiều bước, tham khảo các nguồn dữ liệu khác nhau và đưa ra quyết định tự động. Điều đó đã thay đổi hoàn toàn cách chúng ta hiểu về tự động hóa: mô hình không còn chỉ là "người trả lời", mà là "người hành động".
Sự thay đổi này dẫn đến một hệ quả hiển nhiên: Quyền tự chủ càng lớn thì rủi ro càng cao.Nếu bạn cấp cho một tác nhân quyền truy cập vào hệ thống tập tin, thông tin đăng nhập, trình duyệt hoặc công cụ phát triển của bạn, bạn cần một thiết kế bảo mật mạnh mẽ. Đây là lúc các phương pháp cục bộ phát huy tác dụng, bởi vì bạn có thể hạn chế quyền hạn, cô lập các tiến trình và giám sát chặt chẽ những gì mô hình đang làm tại bất kỳ thời điểm nào.
Hơn nữa, các mô hình mở với giấy phép tự do như Apache-2.0 hoặc MIT (Giống như nhiều giải pháp của Falcon, Bark, Jan, v.v.), chúng cho phép bạn xây dựng các giải pháp mà không bị ràng buộc bởi hợp đồng hoặc các chính sách sử dụng không rõ ràng. Bạn có thể kiểm tra mã, điều chỉnh mô hình, tinh chỉnh và thậm chí tích hợp nó với phần cứng cụ thể như GPU A100 hoặc máy trạm NVIDIA DGX.
Đối với nhiều lĩnh vực (y tế, ngân hàng, pháp luật, hành chính công), nơi mà Bảo mật và lưu trữ an toàn Nó thiêng liêng, sự kết hợp của Trí tuệ nhân tạo cục bộ + tác nhân tự động + mô hình mở Điều này tạo nên sự khác biệt: bạn tự động hóa, nhưng dữ liệu không rời khỏi phạm vi của bạn.
Các nền tảng AI cục bộ cho tự động hóa nâng cao: NemoClaw, OpenShell và OpenClaw
NVIDIA đã tham gia cuộc chơi này một cách mạnh mẽ với NemoClawĐây là một bộ công nghệ mã nguồn mở được thiết kế để triển khai các tác nhân tự động một cách an toàn tại chỗ và đảm bảo chúng luôn hoạt động. Nó được thiết kế để chạy trên các máy mạnh mẽ như NVIDIA DGX Spark, nhưng triết lý này cũng có thể áp dụng cho các môi trường được chứng nhận khác.
NemoClaw đóng vai trò là áo choàng dàn nhạc: Cài đặt và điều phối OpenShell (môi trường thực thi bảo mật) và OpenClaw (khung tác nhân đa kênh), cấu hình suy luận mô hình (thông qua Ollama hoặc NVIDIA NIM) và áp dụng các chính sách bảo mật ngay từ đầu, chứ không phải là bản vá lỗi vào phút cuối.
Cốt lõi của ngăn xếp thường là NVIDIA Nemotron 3 Super 120BMột mô hình với 120.000 tỷ tham số được tối ưu hóa cho các tác nhân: rất giỏi trong việc tuân theo các hướng dẫn phức tạp, xử lý công cụ và suy luận đa bước. Tuy nhiên, để chạy một hệ thống có quy mô lớn như vậy, bạn cần một GPU mạnh mẽ và rất nhiều bộ nhớ; riêng mô hình đã được đề cập cần khoảng 87 GB.
Suy luận thường được thực hiện kèm theo Ollama như một môi trường chạy cục bộĐiều này cho phép truy cập API REST trên chính máy chủ. NemoClaw giao tiếp với API này để gửi lời nhắc, nhận phản hồi và điều phối các lệnh gọi công cụ bằng cách sử dụng mô hình gọi công cụ.
Thanh phân OpenShell đóng vai trò then chốt trong khía cạnh bảo mật.Nó thực thi cơ chế hộp cát, kiểm soát thông tin xác thực, hoạt động như một máy chủ proxy mạng và áp dụng nguyên tắc quyền hạn tối thiểu. Nó giám sát các kết nối mà tác nhân cố gắng thực hiện và cho phép bạn phê duyệt hoặc chặn các điểm cuối từ giao diện giống như TUI. Bằng cách này, nếu mô hình cố gắng truy cập một dịch vụ mới, sẽ không có gì xảy ra nếu không có sự chấp thuận của bạn.
Bên trong hộp cát có cuộc sống OpenClaw, lớp tác nhân đa kênhNó xử lý việc giao tiếp với các nền tảng như Telegram, Slack và Discord, quản lý bộ nhớ của trợ lý ảo, kết nối các công cụ (script, API, trình duyệt) và duy trì cuộc hội thoại lâu dài. Nếu bạn muốn một trợ lý luôn hoạt động, có thể truy cập qua tin nhắn và có bộ nhớ bền vững, thì đây chính là thành phần giúp điều đó trở thành hiện thực.
Bảo mật, môi trường biệt lập và triển khai cục bộ từng bước một.
Một trong những điểm mạnh lớn của bộ công cụ này là... Yếu tố an toàn được xem xét ngay từ giai đoạn thiết kế.Không được thêm vào sau này. Sai lầm điển hình trong các dự án agent là xây dựng tất cả các chức năng trước rồi mới cố gắng "bảo vệ" những gì đã xây dựng, tạo ra những lỗ hổng ở khắp mọi nơi.
Cơ chế trung tâm là thực thi trong môi trường biệt lậpTất cả mã mà tác nhân muốn thực thi đều chạy trong một môi trường biệt lập: nó không có quyền truy cập trực tiếp vào hệ thống tệp của máy chủ, không thể thực hiện các cuộc gọi mạng tùy ý và không thể leo thang đặc quyền vượt quá những gì được định nghĩa trong cấu hình.
Điều này giúp giảm thiểu đáng kể tác động của tấn công tiêm nhanh hoặc các chỉ thị độc hại. Nếu mô hình quyết định thực hiện điều gì đó bất thường, thiệt hại sẽ vẫn nằm trong phạm vi môi trường thử nghiệm. Mặc dù vậy, chính NVIDIA cũng thừa nhận rằng không có môi trường thử nghiệm nào là hoàn hảo, vì vậy họ khuyến nghị luôn kiểm tra các công cụ mới trên các hệ thống biệt lập.
Ngoài ra, NemoClaw còn triển khai Kiểm soát chi tiết các công cụ và chính sách trong thời gian thựcTheo mặc định, tác nhân chỉ có thể giao tiếp với một số lượng giới hạn các điểm cuối mạng. Khi nó cố gắng thực hiện điều gì đó mới, OpenShell sẽ chặn nó và bạn có thể thấy chính xác những gì nó đang cố gắng làm (máy chủ, cổng, tiến trình). Sau đó, bạn có thể phê duyệt nó cho phiên đó hoặc thêm chính sách vĩnh viễn trên máy chủ.
Quy trình triển khai trong DGX Spark thường tuân theo các bước sau: cấu hình Ubuntu 24.04 LTS với trình điều khiển NVIDIA sau một hướng dẫn lắp ráp máy tínhCài đặt Docker 28.xo trở lên với môi trường chạy GPU, cài đặt Ollama và tải xuống mô hình Nemotron 3 Super 120B, và cuối cùng khởi chạy quá trình cài đặt NemoClaw bằng một lệnh duy nhất kích hoạt trình hướng dẫn cấu hình.
Hướng dẫn nhập môn này sẽ hướng dẫn bạn qua... Tên môi trường thử nghiệm, nhà cung cấp suy luận, mô hình đã chọn, thiết lập bảo mật Và nếu muốn, bạn cũng có thể tích hợp Telegram. Thời gian thiết lập ban đầu ước tính khoảng 20-30 phút, cộng thêm 15-30 phút để tải xuống mẫu, tùy thuộc vào tốc độ băng thông.
Về mặt hiệu năng, chúng ta cần phải thực tế: phản hồi với mô hình tham số 120B có thể mất từ... 30 và 90 giây Trong bối cảnh địa phương. Bản thân điều đó không phải là vấn đề, nhưng cần được tính đến khi thiết kế luồng sử dụng và loại nhiệm vụ bạn giao cho tác nhân.
Truy cập từ xa, giao diện web và phần cứng được thiết kế cho AI cục bộ.
Sau khi mọi thứ được thiết lập xong, bạn có thể tương tác với trợ lý ảo theo nhiều cách. Cách phổ biến nhất là qua TelegramSử dụng bot được tạo bằng @BotFather là một lựa chọn thiết thực: API mạnh mẽ, mã hóa, ứng dụng cho mọi loại thiết bị và không cần phải để lộ cổng máy chủ của bạn ra bên ngoài.
Bot nhận tin nhắn của bạn, chuyển tiếp chúng đến nhân viên hỗ trợ trên DGX và gửi lại phản hồi cho bạn. Điều thú vị là, mặc dù cuộc hội thoại diễn ra thông qua cơ sở hạ tầng của Telegram, Việc suy luận và truy cập dữ liệu nhạy cảm vẫn hoàn toàn được thực hiện tại chỗ. trên máy của bạn.
Ngoài ra, NemoClaw còn cung cấp giao diện web riêng tư Có thể truy cập thông qua URL được mã hóa, chỉ được tạo một lần duy nhất vào cuối quá trình thiết lập. Điều quan trọng là phải lưu URL này ngay lập tức, vì nó sẽ không được hiển thị lại. Để xem URL này từ một máy khác trên mạng, bạn phải cấu hình đường hầm SSH và chuyển tiếp cổng bằng OpenShell.
Một chi tiết nhỏ nhưng quan trọng là URL phải được mở bằng 127.0.0.1 thay vì localhostViệc sử dụng localhost có thể gây ra lỗi nguồn gốc không được ủy quyền (CORS), điều này có thể làm mất thời gian của bạn nếu bạn không biết.
Đối với hoạt động hàng ngày, có một số các lệnh CLI hữu ích: Mở một cửa sổ dòng lệnh bên trong môi trường sandbox, xem trạng thái, theo dõi nhật ký theo thời gian thực, liệt kê các môi trường sandbox, khởi động hoặc dừng cầu nối Telegram, kích hoạt chuyển tiếp cổng hoặc chạy một tập lệnh gỡ cài đặt sạch sẽ để loại bỏ toàn bộ hệ thống.
Đối với phần cứng, NVIDIA DGX Spark Rõ ràng nó được thiết kế cho những trường hợp sử dụng này. Đó là một hệ thống nhỏ gọn với GPU NVIDIA và bộ nhớ hợp nhất băng thông cao, lý tưởng để chạy các mô hình có kích thước trung bình và lớn với độ trễ thấp mà không cần phải thiết lập một trung tâm dữ liệu hoàn chỉnh.
La bộ nhớ hợp nhất Điều này đặc biệt hữu ích trong việc giải quyết một trong những nút thắt cổ điển: di chuyển dữ liệu giữa CPU và GPU. Bằng cách chia sẻ không gian bộ nhớ, mô hình truy cập dữ liệu hiệu quả hơn nhiều, cho phép tải các mô hình với hàng chục tỷ tham số trong thời gian (gần như) thực – điều không thể tưởng tượng được cho đến gần đây trên phần cứng dành cho người tiêu dùng.
Các tác nhân AI địa phương phổ biến: ví dụ và trường hợp sử dụng
Ngoài hệ sinh thái của NVIDIA, còn có khá nhiều... Các tác nhân AI và nền tảng tự động hóa trong nhóm của bạn. Có những ứng dụng đáng để bạn biết đến. Mỗi ứng dụng nhắm đến một loại người dùng khác nhau và một tập hợp các nhiệm vụ khác nhau.
Ví dụ, OpenClaw đã trở nên phổ biến vì... nền tảng tác nhân mã nguồn mở Nó hoạt động như một trợ lý cá nhân. Nó cho phép bạn tạo các tác nhân tùy chỉnh để dọn dẹp hộp thư đến, gửi tin nhắn, quản lý lịch, sắp xếp chuyến đi hoặc tự động hóa các tác vụ lặp đi lặp lại trong cuộc sống kỹ thuật số của bạn.
Có thể được cài đặt trong Windows, macOS và LinuxNó cũng được thiết kế để hoạt động với các mô hình LLM cục bộ, giúp cải thiện quyền riêng tư và giảm sự phụ thuộc vào điện toán đám mây. Hơn nữa, nó tích hợp với các ứng dụng nhắn tin như WhatsApp, Telegram, Discord, Slack, Signal và Apple Messages, vì vậy trợ lý ảo của bạn sẽ hoạt động "ẩn sau hậu trường" của các cuộc trò chuyện mà bạn vẫn thường sử dụng.
Thông qua các plugin, bạn có thể cấp quyền truy cập cho nó vào trình duyệt, mạng xã hội, ứng dụng email và các ứng dụng khác, cũng như cho phép nó thực thi các chức năng cần thiết. Tương tác với hệ thống tập tin, thực thi các lệnh và tập lệnh.hoặc tự động hóa các tác vụ văn phòng và năng suất thông thường. Tất cả điều này đều tập trung vào việc cho phép người dùng lựa chọn thư mục, ứng dụng và dịch vụ nào có sẵn cho trợ lý ảo.
Trong hệ sinh thái tổng quát hơn, các nền tảng như... Máy tính PerplexityĐiều này biến Perplexity từ một công cụ tìm kiếm đàm thoại đơn giản thành một trợ lý có khả năng thực hiện các quy trình công việc phức tạp. Chế độ Máy tính này cho phép bạn duyệt web, tạo và quản lý tài liệu, viết mã, xử lý dữ liệu và phối hợp với các dịch vụ như Gmail, Slack, GitHub và Notion.
Điểm mạnh của nó nằm ở việc tận dụng các mô hình như Claude, GPT, Gemini, hoặc Sonar của chính Perplexity để quản lý khối lượng dữ liệu lớn và chia nhỏ các tác vụ phức tạp thành các tác vụ con có thể được thực thi tuần tự hoặc song song. Mặc dù không phải lúc nào cũng hoàn toàn cục bộ, mô hình tác nhân và sự tích hợp với các công cụ rất giống với các tác nhân chạy trên máy tính của bạn.
Trong phạm vi mã nguồn mở và cục bộ thuần túy, Tháng Một AI Nó được giới thiệu như một phần mềm thay thế ChatGPT, có thể cài đặt trên Windows, Mac và Linux. Nó cho phép bạn sử dụng các mô hình cục bộ như Llama (Meta) hoặc Gemma (Google), hoặc kết nối với các mô hình trực tuyến như ChatGPT, Claude, Gemini, Mistral, Qwen hoặc DeepSeek nếu bạn muốn kết hợp cả hai.
Jan AI hoạt động như một phần của trợ lý đàm thoại cổ điển (Hỏi, soạn thảo, tóm tắt, dịch, viết lại, giải thích) như một tác nhân có khả năng xử lý các tập tin và tài liệu, thực thi các lệnh và tạo mã bằng nhiều ngôn ngữ khác nhau. Hơn nữa, khả năng tùy chỉnh cao giúp bạn dễ dàng tạo ra tác nhân của riêng mình với các hướng dẫn cụ thể và chuyển đổi giữa các "hồ sơ" khác nhau tùy thuộc vào công việc bạn đang làm.
Các tác nhân trên thiết bị: PocketBot và tự động hóa di động
Khái niệm về Trí tuệ nhân tạo cục bộ không lưu trữ trên máy tính.Điều này cũng đang tạo ra tác động mạnh mẽ đến điện thoại di động, nơi ngày càng nhiều dự án lựa chọn các mô hình nhỏ nhưng chuyên dụng để tự động hóa điện thoại mà không cần thông qua điện toán đám mây.
Một ví dụ rõ ràng là PocketBot, một tác nhân chạy trực tiếp trên... iPhone sử dụng flame.cpp trên MetalNhiệm vụ của nó là chuyển đổi ngôn ngữ tự nhiên thành các thao tác tự động trên điện thoại: thay vì phải thao tác qua hàng ngàn menu hoặc phím tắt, bạn chỉ cần mô tả điều mình muốn và trợ lý ảo sẽ lo việc chuyển đổi điều đó thành các hành động.
PocketBot sử dụng mô hình lượng tử hóa của 3.000 tỷ thông sốỨng dụng hoạt động hoàn toàn cục bộ và không gửi dữ liệu đến máy chủ bên ngoài. Bộ nhớ khả dụng trên iPhone 15 Pro thường chỉ khoảng 3-4 GB trước khi iOS bắt đầu tắt các tiến trình, vì vậy kích thước mô hình và lượng tử hóa là rất quan trọng.
Một trong những thách thức mà những người tạo ra nó đề cập đến là việc tìm kiếm Các mô hình nhỏ đáng tin cậy để gọi công cụ và tạo ra các đầu ra có cấu trúc. trong JSON. Ví dụ, khi sử dụng Qwen3, họ gặp phải các vấn đề như tên tham số tự tạo, JSON bị lỗi (thiếu dấu ngoặc) và tuân thủ lược đồ không nhất quán, buộc phải triển khai các lớp tự sửa lỗi và thử lại.
Cũng có nhiều tranh luận về vấn đề này. điểm lượng tử tối ưu Để đạt được tỷ lệ chất lượng/bộ nhớ tốt nhất, hãy xem xét các tùy chọn như q4_K_M hoặc q5_K_S tùy thuộc vào thế hệ chip và bộ nhớ khả dụng. Mỗi bit ít hơn trong quá trình lượng tử hóa đồng nghĩa với các mô hình dễ quản lý hơn, nhưng nó có thể ảnh hưởng tiêu cực đến khả năng suy luận và độ chính xác trong các lệnh gọi công cụ.
Một mặt trận khác là việc điều chỉnh tham số lấy mẫu Tùy thuộc vào nhiệm vụ. Các cấu hình điển hình bao gồm nhiệt độ 0,7, top_p 0,8, top_k 20 và repeat_penalty 1,1, nhưng người ta quan tâm đến việc tách biệt các chiến lược tạo cho hội thoại tự do so với gọi công cụ, nơi cần tính xác định cao hơn và tính sáng tạo thấp hơn.
Cuối cùng, trên điện thoại di động quản lý bối cảnh Vấn đề này đặc biệt nhạy cảm: dấu nhắc hệ thống thường được lưu vào bộ nhớ cache KV để tránh xử lý lại, và cửa sổ trượt được sử dụng để tránh vượt quá dung lượng; đó là lý do tại sao việc biết cách xử lý vấn đề này lại rất hữu ích. Lưu và sắp xếp các lời nhắc của bạn.
Ngoài ra, vẫn còn chỗ cho các thủ thuật tóm tắt từng bước, bộ nhớ chọn lọc hoặc các phương án kết hợp giữa lịch sử được nén và ngữ cảnh tức thời.
Thiết lập "ChatGPT cục bộ" của riêng bạn với Ollama và Open WebUI.
Dành cho những ai không cần một bộ công cụ phức tạp như NemoClaw, nhưng vẫn muốn có một bộ công cụ như vậy. một trợ lý ảo kiểu ChatGPT chạy trên máy tính của bạnMột phương pháp rất thực tiễn dựa trên Ollama và Open WebUI đã trở nên phổ biến.
Ý tưởng này rất đơn giản: Ollama Nó chịu trách nhiệm tải xuống và cung cấp các mô hình. (Llama, Gemma, Qwen, v.v.) trên máy tính của bạn thông qua API cục bộ, và Open WebUI cung cấp giao diện web rất giống với ChatGPT nhưng chạy hoàn toàn trên máy tính của bạn. Tất cả lưu lượng truy cập giữa giao diện người dùng và mô hình đều đi qua localhost.
Một hướng dẫn từng bước rất đơn giản mô tả chi tiết cách thực hiện, với một vài 15 lệnh thiết bị đầu cuốiBạn có thể thiết lập và vận hành hệ thống này trong vòng chưa đầy một giờ. Quá trình này bao gồm cài đặt Python 3.11, cấu hình hệ thống cơ bản, cài đặt Ollama và triển khai Open WebUI, cùng với ảnh chụp màn hình và các mẹo khắc phục sự cố.
Kết quả là một môi trường mà bạn có thể tận hưởng. đăng ký không mất phíBảo mật tuyệt đối (dữ liệu không bao giờ rời khỏi máy tính của bạn), thời gian phản hồi cạnh tranh (không có hàng đợi máy chủ dùng chung) và hoàn toàn tự do tùy chỉnh các trợ lý chuyên biệt cho phù hợp với nhu cầu của riêng bạn.
Ngoài ra, Open WebUI còn tích hợp các tính năng nâng cao như: Tìm kiếm trên web, trình thông dịch mã, tạo mô hình tùy chỉnh Dựa trên các cấu hình cụ thể, hệ thống đang chuẩn bị các khả năng RAG tiên tiến để xây dựng cơ sở kiến thức cá nhân. Ý tưởng là bạn có thể có một "trợ lý" được đào tạo bài bản, quen thuộc với tài liệu và quy trình làm việc của bạn mà không cần phụ thuộc vào bên thứ ba.
Sau vài tháng sử dụng, nhiều người dùng cho biết sự kết hợp này đã hoàn toàn thay thế [sản phẩm/dịch vụ trước đây]. các gói đăng ký trả phí của họ cho các giải pháp đám mâyđồng thời cải thiện khả năng tích hợp với dữ liệu và công cụ địa phương của riêng họ. Bước tiếp theo cần thiết là kết nối "ChatGPT tự chế" này với các tác nhân, kịch bản và dịch vụ để phối hợp các quy trình tự động hóa phức tạp hơn.
Tự động hóa cuộc sống kỹ thuật số của bạn: các ví dụ thực tiễn với trí tuệ nhân tạo cục bộ
Về mặt kỹ thuật, tất cả những điều này nghe có vẻ tuyệt vời, nhưng bạn có thể thực sự làm gì với nó trong cuộc sống hàng ngày? đại lý địa phương được đào tạo bài bảnNếu kết hợp các mô hình đa phương thức, truy cập màn hình, công cụ và lưu trữ có cấu trúc, thì khả năng ứng dụng sẽ rất rộng.
Có những đề xuất được thiết kế cho Tự động hóa việc sử dụng máy tính của chính bạn. Với các tác nhân nhận ảnh chụp màn hình và xử lý chúng. Quy trình sẽ diễn ra như sau: hệ thống chụp ảnh màn hình, tác nhân xử lý ảnh bằng một mô hình có khả năng làm việc với hình ảnh, hiểu được ứng dụng nào đang mở, những nút nào hiện có, văn bản nào xuất hiện, và dựa trên lời nhắc của bạn, quyết định hành động tiếp theo.
Với ý tưởng này, bạn có thể, ví dụ, thiết lập các đại lý dịch thuật chuyên biệtHệ thống sẽ chụp phần màn hình bạn muốn dịch, phóng to nó trong cửa sổ "dịch bằng kính lúp" và tạo ra bản dịch gần như tức thì bằng cách sử dụng một mô hình nhỏ (ví dụ: tham số 4B) được tinh chỉnh cho việc dịch thuật, giống như một biến thể được tinh chỉnh của PHI.
Một mặt trận thú vị khác là... Các mô hình trực quan chuyển đổi ảnh chụp màn hình thành PDFHãy tưởng tượng một công cụ có thể tạo ra các tệp PDF được định dạng tốt từ ảnh chụp màn hình các bài thuyết trình, bảng điều khiển hoặc tài liệu, sau đó bạn có thể chỉnh sửa hoặc sử dụng trực tiếp trong bài thuyết trình của mình. Bằng cách tích hợp Python với Acrobat, bạn có thể tự động hóa toàn bộ quy trình.
Để làm việc với web mà không phụ thuộc vào các dịch vụ bên ngoài, cần đến các công nghệ lâu đời như... BeautifulSoup vẫn rất hữu íchBạn có thể thiết lập một công cụ thu thập dữ liệu nhẹ để quét nhiều trang và chỉ giữ lại HTML cần thiết (ví dụ: chỉ trích xuất một phần nhỏ).
