I'm here

Posted on Mar 25 • Originally published at reddit.com

Dựng hệ multi-agent bằng OpenClaw: chỗ anh em dễ kẹt không phải số agent, mà là orchestration và shared memory

#openclaw #multiagent #automation #architecture

Bên r/OpenClawUseCases đang có một bài chia sẻ khá trúng bệnh của rất nhiều đội bắt đầu đụng tới multi-agent: ai cũng thích nghĩ tới sơ đồ 5 agent, 7 agent, chia vai rất đẹp, nhưng phần làm họ kẹt thật lại nằm ở những thứ rất đời thường như state nằm ở đâu, ai là người quyết định cuối, và hệ thống có đang bị đốt tiền vô ích không.

Tác giả bài gốc kể rằng có một developer nhắn xin hỗ trợ vì bị tê liệt bởi các lựa chọn kiến trúc. Nên để main agent spawn sub-agent hay tách thành worker pipeline riêng? Dùng shared memory hay memory tách biệt? Quản lý state kiểu gì? Đó đều là những câu hỏi rất thật, và cũng là chỗ nhiều anh em tự làm khó mình từ quá sớm.

Điều mình thấy đáng giá ở bài này là nó không cố biến multi-agent thành thứ gì huyền bí. Ngược lại, nó kéo câu chuyện về đúng bản chất vận hành: trước khi bàn tới số lượng agent, phải trả lời được ai điều phối, ai chịu trách nhiệm, và dữ liệu chung sẽ được giữ ra sao.

Cái bẫy lớn nhất: thiết kế cả hệ thống trước khi có một agent nào thật sự chạy tốt

Đây là ý mình đồng ý mạnh nhất với tác giả.

Rất nhiều team bước vào bài toán agent theo kiểu:

agent A đi nghiên cứu
agent B viết nội dung
agent C QA
agent D đăng bài
agent E theo dõi phản hồi

Nghe rất hợp lý trên whiteboard. Nhưng khi đụng triển khai, mọi thứ bắt đầu rối rất nhanh:

không rõ agent nào có quyền ra quyết định cuối
output giữa các agent không khớp format
context bị trùng lặp hoặc thiếu hụt
token bị đốt vào việc nhắc lại cùng một thông tin
lỗi xuất hiện nhưng không biết phải truy về agent nào

Nếu chưa có một agent đơn lẻ chạy ổn để giải quyết một tác vụ trọn vẹn, việc thiết kế nguyên một đội agent thường chỉ làm độ phức tạp tăng trước khi giá trị xuất hiện.

Bài học thực chiến ở đây là: đừng bắt đầu bằng sơ đồ tổ chức. Hãy bắt đầu bằng một công việc thật, một agent thật, và một tiêu chí hoàn thành đủ rõ.

Vì sao mô hình orchestrator thường thắng

Tác giả đề xuất một mô hình rất quen nhưng vẫn đúng trong nhiều case thực tế: một orchestrator nhìn được toàn cục và giao việc cho các specialist.

Mình nghĩ đây là lựa chọn hợp lý cho phần lớn đội nhỏ hoặc bài toán nội bộ vì mấy lý do.

1. Có một đầu mối chịu trách nhiệm

Nếu không có agent trung tâm, hệ multi-agent rất dễ rơi vào cảnh không ai thực sự “own” kết quả cuối. Mỗi agent chỉ tối ưu phần việc của nó, còn lỗi ở giao điểm thì bị trôi.

Orchestrator giúp gom ba việc quan trọng về một nơi:

đọc mục tiêu tổng thể
phân rã việc
kiểm duyệt trước khi cho output rời hệ thống

Khi cần debug, anh em cũng biết nên nhìn từ đâu trước.

2. Dễ kiểm soát context hơn

Một hệ nhiều agent không đáng sợ vì số agent nhiều, mà đáng sợ vì context bị lệch giữa các agent.

Nếu orchestrator là nơi đọc brief gốc, giữ trạng thái tiến độ và phát việc theo từng bước, lượng context phải chia sẻ sẽ bớt loạn hơn rất nhiều. Specialist không cần biết toàn bộ câu chuyện, chỉ cần biết phần đủ để làm đúng việc của nó.

3. Hợp với vận hành ngoài đời hơn là mô hình ngang hàng

Trong lý thuyết, mạng agent ngang hàng nghe có vẻ đẹp. Nhưng trong môi trường doanh nghiệp, hệ thống thường cần:

tuyến phê duyệt rõ
quyền hạn rõ
log rõ
đường rollback rõ

Mô hình orchestrator đáp ứng mấy yêu cầu này tốt hơn hẳn so với kiểu để nhiều agent thương lượng ngang hàng.

Shared memory mới là chỗ ăn hành nhiều nhất

Tác giả nói thẳng rằng phần khó nhất là shared memory, và mình thấy nhận định này rất chuẩn.

Nhiều người nghĩ thách thức chính của multi-agent là prompt hay model. Thực tế, hệ thống bắt đầu gãy khi các agent không nhìn cùng một sự thật.

Khi không có shared state tử tế, anh em sẽ thấy đủ thứ triệu chứng quen thuộc:

agent nghiên cứu và agent viết hiểu khác nhau về mục tiêu
agent sau lặp lại việc agent trước đã làm
một chỉnh sửa mới không được phản ánh cho toàn hệ
output mâu thuẫn nhưng không rõ phát sinh ở bước nào

Điểm hay trong bài gốc là tác giả không chọn giải pháp cầu kỳ. Họ dùng một “shared-brain directory” bằng file JSON để agent đọc trước khi làm và ghi lại sau khi xong.

Nghe hơi thô, nhưng nhiều khi chính kiểu đơn giản này lại sống dai.

Shared memory đơn giản thường hợp hơn over-engineering ở giai đoạn đầu

Rất nhiều đội mới làm multi-agent hay nhảy ngay vào vector DB, event bus, state graph phức tạp hoặc một lớp memory quá tham vọng. Kết quả là họ phải bảo trì kiến trúc trước cả khi chứng minh được workflow đó đáng tồn tại.

Trong giai đoạn đầu, anh em thường chỉ cần ba thứ:

một nơi lưu trạng thái chung dễ đọc
một format đủ ổn định để agent khác dùng lại
một cơ chế ghi dấu ai vừa làm gì và khi nào

File JSON, YAML, Google Sheet hay một bảng Postgres đơn giản nhiều lúc đã đủ.

Cái cần giữ kỷ luật không phải là độ hoành tráng của memory layer, mà là quy ước cập nhật:

agent nào được quyền sửa trường nào
khi nào được xem state là hoàn tất
nếu output fail thì phải ghi lại theo chuẩn nào

Không có mấy quy ước này, dù dùng công nghệ xịn tới đâu shared memory vẫn thành bãi chiến trường.

Route model theo tác vụ là cách tiết kiệm tiền thật sự

Một ý khác trong bài gốc rất đáng mang về áp dụng ngay: không phải agent nào cũng cần model đắt.

Đây là sai lầm khá phổ biến. Khi mới dựng hệ, nhiều đội có xu hướng ném model xịn nhất vào tất cả agent cho đỡ nghĩ. Cách đó nhanh, nhưng thường dẫn tới hai hậu quả:

chi phí leo thang rất nhanh
team chậm học được bản chất từng tác vụ thực sự cần mức suy luận nào

Nếu tách tác vụ kỹ hơn, anh em sẽ thấy:

orchestrator hoặc agent ra quyết định cuối mới cần model mạnh
agent phân loại, chuẩn hóa dữ liệu, đổi format hoặc chạy checklist có thể dùng model rẻ hơn
một số bước thậm chí không cần model, chỉ cần code deterministic

Điểm này cực quan trọng với các pipeline chạy hằng ngày. Tiền không cháy ở một lần demo. Tiền cháy ở chỗ một quyết định lười biếng bị lặp đi lặp lại hàng nghìn lần.

Confirmation loop là lớp chống tai nạn đáng có

Bài gốc cũng nhấn mạnh chuyện mọi output nên quay lại cho orchestrator kiểm rồi mới “ship”. Mình nghĩ đây là một nguyên tắc rất lành mạnh.

Multi-agent có một vấn đề tâm lý khá nguy hiểm: nhìn hệ tự chạy nhiều bước rất dễ tạo cảm giác nó đã trưởng thành. Nhưng càng nhiều bước tự động, rủi ro một lỗi nhỏ đi xa càng lớn.

Một confirmation loop tốt không nhất thiết phải phức tạp. Nó chỉ cần đảm bảo rằng trước khi output rời hệ thống, phải có một bước kiểm tra cuối dựa trên:

đúng brief hay chưa
format có chuẩn không
có thiếu dữ liệu bắt buộc không
có dấu hiệu hallucination hay mâu thuẫn không

Nếu làm nội bộ, bước này có thể do orchestrator đảm nhận. Nếu làm cho khách hàng hoặc tác vụ nhạy cảm, nên có thêm human-in-the-loop ở các ngưỡng quan trọng.

Vậy anh em nên bắt đầu multi-agent như thế nào cho đỡ tự hành?

Nếu rút bài chia sẻ này thành một lộ trình thực chiến, mình sẽ đề xuất như sau.

Bước 1: chứng minh một agent đơn có thể hoàn thành một việc có giá trị

Đừng mở rộng trước khi có một tác vụ thật chạy ổn từ đầu tới cuối.

Bước 2: chỉ thêm agent thứ hai khi agent đầu tiên đụng trần rõ ràng

Ví dụ:

cần tách tác vụ nghiên cứu và tác vụ tổng hợp vì context quá dài
cần một worker riêng cho phần crawl hoặc code execution
cần một reviewer chuyên trách để giảm lỗi trước khi publish

Bước 3: định nghĩa shared state trước khi tăng số lượng vai

Phải biết trạng thái nào là nguồn sự thật, ai cập nhật, và consumer phía sau sẽ đọc theo format nào.

Bước 4: gắn cost tracking từ sớm

Nếu không đo từ đầu, rất khó biết agent nào đang tạo giá trị và agent nào chỉ đang làm hệ nghe có vẻ thông minh hơn.

Bước 5: giữ đường can thiệp thủ công

Một hệ tốt không phải hệ không cần con người, mà là hệ cho con người nhảy vào đúng lúc khi có bất thường.

Kết luận

Mình thích bài chia sẻ này vì nó kéo câu chuyện multi-agent về lại mặt đất. Bài toán không nằm ở việc anh em có thể nghĩ ra bao nhiêu vai agent, mà ở chỗ anh em có đang xây được một hệ dễ hiểu, dễ debug và chịu được chi phí vận hành thật hay không.

Nếu đang phân vân kiến trúc cho OpenClaw hay bất kỳ stack agent nào khác, mình nghĩ đây là nguyên tắc đáng giữ:

bắt đầu nhỏ
có orchestrator khi workflow bắt đầu nhiều nhánh
giữ shared memory đơn giản tới mức có thể
route model theo đúng độ khó công việc
luôn có vòng kiểm tra trước khi output đi ra ngoài

Làm được mấy thứ đó trước, rồi hãy mơ tới đội quân 7 agent. Thường thì anh em sẽ thấy mình không cần nhiều agent như tưởng tượng ban đầu, nhưng hệ lại chạy chắc hơn hẳn.

AI & Automation (vnROM)