I'm here

Posted on Mar 23 • Originally published at reddit.com

Chạy 40 NanoClaw agent trên VPS 1GB: bài toán thật không nằm ở số lượng

#openclaw #nanoclaw #automation #ops

Có một use case mình thấy khá đáng bàn: một anh đang nhồi cả một “tổ chức tự động” lên con DigitalOcean Droplet 1GB giá khoảng 4 euro/tháng, chạy 40 NanoClaw agent và dùng Paperclip để điều phối. Nghe thì rất đã, nhưng câu hỏi đi kèm mới là phần đáng tiền: làm sao đặt OKR, giữ agent chủ động, sinh cron hợp lý và cho các agent nói chuyện với nhau mà không biến hệ thống thành một mớ hỗn độn.

Theo mình, đây là đúng kiểu bài toán mà anh em rất dễ đánh giá sai. Đa số người mới sẽ nhìn vào con số 40 agent rồi tưởng năng lực hệ thống nằm ở số lượng. Thực tế, khi hạ tầng chỉ có 1GB RAM và ngân sách cực mỏng, năng lực thật lại nằm ở thiết kế điều phối và biên vận hành.

Đừng bắt đầu từ số lượng agent

Nếu mục tiêu là tạo ra một bộ máy tự động chạy được việc thật, mình sẽ không bắt đầu bằng câu hỏi “có thể chạy bao nhiêu agent”, mà bắt đầu bằng 4 câu hỏi này:

mỗi agent có một đầu việc rất rõ chưa
agent nào được phép chủ động, agent nào chỉ được chạy theo trigger
khi thất bại thì có rollback hoặc báo động về người quản lý không
chi phí token, RAM, I/O và thời gian chờ đã được chặn trần chưa

Một hệ nhiều agent mà không có ranh giới rõ thì rất dễ rơi vào cảnh agent đẻ thêm việc cho nhau, ghi đè context của nhau, tranh tài nguyên, rồi cuối cùng người vận hành phải đi dọn rác nhiều hơn lúc chưa tự động hóa.

Với cấu hình siêu rẻ, nên chia hệ thành 4 lớp

Nếu anh em muốn chạy kiểu “doanh nghiệp mini tự hành” trên máy yếu, mình nghiêng về mô hình 4 lớp sau:

1. Lớp điều phối trung tâm

Chỉ nên có một nơi quyết định lịch chạy, ưu tiên và giới hạn đồng thời. Paperclip hay bất kỳ scheduler nào cũng phải đóng vai trò cổng kiểm soát, không chỉ là công cụ bắn job.

Nhiệm vụ của lớp này:

xếp hàng công việc
giới hạn số agent chạy song song
chặn các job ít giá trị khi máy đang căng
ưu tiên job tạo doanh thu, giảm rủi ro hoặc trả lời khách hàng

Nếu bài gốc nói đang cho 5 agent dùng chung DeepSeek token cùng lúc thì phần cần soi đầu tiên không phải là “có chạy được không”, mà là “5 agent đó có thực sự xứng đáng chạy đồng thời không”. Trên máy nhỏ, song song quá tay thường làm độ ổn định giảm nhanh hơn tốc độ xử lý tăng.

2. Lớp agent chuyên trách

Mỗi agent chỉ nên làm một vai trò hẹp. Ví dụ:

agent thu thập dữ liệu lead
agent tổng hợp báo cáo vận hành
agent theo dõi lỗi hệ thống
agent viết nháp nội dung
agent kiểm tra chất lượng đầu ra

Sai lầm phổ biến là tạo ra “siêu agent” cái gì cũng làm. Con đó vừa tốn context, vừa khó debug, vừa khó đo chất lượng. Agent hẹp vai trò thì dễ thay, dễ đo và dễ tắt riêng từng phần khi có sự cố.

3. Lớp trí nhớ và trạng thái

Muốn agent proactive thì phải có trạng thái để bám vào. Không thể chỉ trông chờ mỗi prompt kiểu “hãy chủ động hơn”.

Mình thường nghĩ proactive theo hướng này:

có danh sách mục tiêu đang mở
có tín hiệu nào đủ điều kiện để kích hoạt hành động tiếp theo
có thời điểm kiểm tra lại nếu chưa xử lý xong
có nơi ghi nhận việc gì đã làm, việc gì đang chờ, việc gì bị kẹt

Nói ngắn gọn: proactive không phải tính cách, mà là kết quả của state machine đủ tốt.

4. Lớp quan sát và can thiệp

Dù tự động đến đâu vẫn cần đường cho con người ngắt mạch. Ít nhất phải có:

log tập trung
trạng thái job gần nhất
cảnh báo khi job fail lặp lại
nút tạm dừng các nhóm cron
một bảng điều khiển đủ để biết hệ đang làm gì

Không có lớp này thì hệ thống không còn là “tự động”, mà là “mù thông tin”.

Làm OKR cho agent thế nào để không bị màu mè

Phần hay nhất trong bài Reddit là tác giả hỏi về OKR. Đây là chỗ nhiều đội thích nói lớn nhưng đo rất mơ hồ.

Theo mình, đừng viết OKR theo kiểu truyền cảm hứng. Viết như vận hành.

Ví dụ một Objective tốt:

giảm thời gian xử lý lead inbound từ 6 giờ xuống dưới 30 phút

Các Key Result đi kèm nên rất cụ thể:

95% lead mới được agent phân loại trong vòng 10 phút
tỷ lệ lead bị gắn sai tag dưới 3%
các job enrichment thất bại được retry tối đa 2 lần và báo người phụ trách trong vòng 5 phút

Khi đó agent không còn là demo công nghệ nữa. Nó trở thành một phần tử trong dây chuyền vận hành với chỉ số rõ ràng.

Muốn agent proactive thì đừng để cron mọc hoang

Nhiều hệ multi-agent chết không phải vì model yếu, mà vì cron mọc lung tung. Cứ thấy việc gì lặp là tạo thêm một lịch. Một thời gian sau không ai biết job nào còn cần, job nào đang đè job khác, job nào spam token vô ích.

Mình thấy cách an toàn hơn là chia cron thành 3 nhóm:

Cron nhịp tim

Dùng cho các việc kiểm tra định kỳ nhẹ như xem inbox, xem queue, xem trạng thái pipeline.

Cron cam kết thời gian

Dùng cho các việc phải chạy đúng giờ như báo cáo ngày, đồng bộ dữ liệu cuối ngày, nhắc nhở deadline.

Cron phục hồi

Dùng cho retry, cleanup, reconcile state, hoặc vá các tác vụ có khả năng lỗi.

Khi cron được phân nhóm như vậy, anh em dễ audit hơn rất nhiều. Chỉ cần nhìn lịch chạy là biết mục đích của từng job, thay vì nhìn một rừng trigger vô nghĩa.

Giao tiếp liên agent: ít nhưng có cấu trúc

Nếu cho các agent chat qua lại tự do, hệ sẽ nhanh chóng đốt token vào việc giải thích lẫn nhau. Cách mình thấy bền hơn là để các agent giao tiếp qua artifact hoặc event rõ ràng:

một bản brief chuẩn hóa
một record trạng thái công việc
một kết quả kiểm tra dạng pass/fail + lý do
một event queue có schema cố định

Tức là agent không nên “nói chuyện” quá nhiều. Agent nên “giao nhận” thông tin theo mẫu. Càng ít tự do ở lớp giao tiếp, hệ càng ít hỗn loạn.

Với mô hình 40 agent trên máy 1GB, phần thiếu thường không phải AI

Nếu nhìn thực chiến, chỗ còn thiếu thường là:

phân tầng ưu tiên công việc
cơ chế kill switch khi hệ chạy sai
bộ nhớ trạng thái đủ gọn để không phình RAM
chuẩn bàn giao giữa các agent
tiêu chí dừng để agent không loop vô hạn
dashboard để chủ hệ biết hôm nay bộ máy tạo ra giá trị gì

Nói cách khác, AI chỉ là động cơ. Muốn thành “tổ chức tự động” thì anh em còn cần cả hệ quản trị ở bên trên.

Kết luận

Mình khá thích kiểu use case này vì nó buộc người làm phải nghĩ như operator chứ không chỉ như người thích thử model. Chạy được 40 NanoClaw agent trên một con máy rẻ là chuyện vui. Nhưng biến nó thành một hệ biết tự ưu tiên việc, biết tự kiểm tra, biết báo khi sai và không đốt chi phí bừa bãi mới là phần khó thật.

Nếu anh em cũng đang build kiểu multi-agent gọn nhẹ, mình nghĩ nên soi lại 4 thứ trước: scheduler, state, cron hygiene và chuẩn giao tiếp giữa agent. Làm chắc bốn chỗ đó rồi mới tăng số lượng agent. Không thì hệ càng đông, mình càng mệt.

AI & Automation (vnROM)