Chọn kiến trúc memory cho AI agent: bài học từ OpenClaw và MaxHermes

#ai #agents #memory #openclaw

Bài thảo luận trên r/OpenClawUseCases đặt một câu hỏi khá hay: cùng là “memory” cho AI agent, nhưng OpenClaw và MaxHermes đang tối ưu cho hai kiểu vận hành khác nhau. Nếu chỉ hỏi framework nào tốt hơn thì hơi vội. Câu đáng hỏi hơn là: workload của mình cần loại trí nhớ nào, và mình có đủ kỷ luật để nuôi nó không?

Hai kiểu compounding rất khác nhau

Với OpenClaw, năng lực thường tích lũy qua các file SKILL.md do người vận hành viết và chỉnh. Cách này có một điểm mạnh lớn: mình kiểm soát được scope, giọng điệu, quy trình, cảnh báo, và các bước bắt buộc. Nếu team chịu khó viết skill tốt, chất lượng có thể tăng rất chắc.

Đổi lại, nó có chi phí vận hành rõ ràng:

phải biết lúc nào nên tạo skill mới;
phải viết đủ cụ thể để agent dùng lại được;
phải bảo trì khi tool, API, hoặc quy trình đổi;
skill quá nhiều hoặc quá rộng có thể làm context nặng và khó chọn đúng.

MaxHermes đi hướng khác: kỹ năng có thể được sinh tự động từ chính workflow, nhất là khi tác vụ phức tạp, có sửa lỗi, có user correction, hoặc phát hiện cách làm hiệu quả hơn. Điểm hấp dẫn là procedural memory hình thành ngay trong lúc làm việc, gần như không cần người ngồi viết tài liệu thủ công.

Nhưng tự động sinh skill cũng có mặt trái: nếu không có lớp kiểm soát chất lượng, hệ thống rất dễ tích lũy thói quen sai, pattern nửa vời, hoặc skill trùng lặp.

Điểm mấu chốt: memory không chỉ là “nhớ nhiều hơn”

Trong vận hành agent, “memory tốt” không đơn giản là lưu thêm dữ liệu. Mình thấy nên tách ít nhất 4 lớp:

User memory: người dùng thích gì, cấm gì, mục tiêu dài hạn là gì.
Session memory: trong cuộc làm việc hiện tại đã quyết định gì.
Procedural memory: lần sau gặp task tương tự thì làm theo quy trình nào.
Knowledge memory: tài liệu, dữ kiện, quyết định, kết quả nghiên cứu có thể tra lại.

Một hệ thống có thể rất mạnh ở procedural memory nhưng yếu ở user modeling. Hoặc rất tốt ở retrieval nhưng không biết biến kinh nghiệm thành quy trình. Vì vậy khi so sánh framework, anh em nên hỏi cụ thể: nó đang giải quyết lớp memory nào?

Khi nào OpenClaw hợp hơn?

OpenClaw hợp với workload cần kiểm soát và audit rõ:

tác vụ liên quan tới API write, publish, gửi tin, hoặc thao tác có rủi ro;
quy trình doanh nghiệp cần giữ tone, format, checklist cố định;
team muốn biết chính xác agent đang dựa vào hướng dẫn nào;
cần tách memory người đọc được với memory máy dùng được;
muốn có “runbook sống” để nhiều agent hoặc nhiều phiên làm việc cùng kế thừa.

Nói ngắn gọn: nếu sai một bước có thể gây hậu quả thật, mình vẫn thích memory do người viết, có review, có rule rõ ràng.

Khi nào auto-generated skills hợp hơn?

Cách của MaxHermes có thể hợp hơn với môi trường nhiều thử nghiệm, tốc độ cao:

tác vụ lặp lại nhưng chưa có quy trình ổn định;
agent thường tự phát hiện shortcut hoặc workaround;
chi phí viết skill thủ công quá cao;
người dùng chấp nhận để hệ thống học từ lỗi và correction;
workload thiên về cá nhân hóa lâu dài hơn là compliance chặt.

Ở đây, lợi thế là tốc độ compounding. Một agent càng làm nhiều càng tự đóng gói được kinh nghiệm, miễn là có cơ chế dọn rác và đánh giá lại.

Checklist thực tế trước khi chọn kiến trúc memory

Nếu anh em đang xây AI assistant nội bộ, mình sẽ bắt đầu bằng mấy câu này:

Memory nào bắt buộc phải đúng 100%, memory nào chỉ cần gợi ý?
Có cần con người đọc, sửa, review memory không?
Khi agent học sai, rollback bằng cách nào?
Skill sinh ra có owner không, hay cứ tích lũy mãi?
Context cost tăng theo số skill, số tài liệu, hay theo retrieval strategy?
Có phân biệt “sở thích người dùng” với “quy trình thao tác” không?
Kết thúc session rồi, thứ gì bắt buộc phải còn sống?

Nếu chưa trả lời được các câu này, tranh luận framework nào tốt hơn thường sẽ bị lệch.

Một hướng lai có vẻ bền hơn

Cá nhân mình nghiêng về kiến trúc lai:

các workflow rủi ro cao dùng skill thủ công, có checklist và guardrail;
các workflow khám phá cho phép auto-capture kinh nghiệm;
memory tự sinh chỉ vào trạng thái “candidate”, chưa được coi là canonical ngay;
định kỳ có bước compact, merge, hoặc promote thành skill chính thức;
tách rõ memory cho người đọc và memory cho máy query.

Cách này chậm hơn auto-learning thuần túy, nhưng đỡ biến agent thành một đống thói quen khó kiểm soát. Đồng thời nó cũng nhẹ hơn việc bắt con người viết tay mọi thứ từ đầu.

Kết luận thực dụng: memory architecture nên đi từ rủi ro và tần suất của workload, không đi từ demo. Với AI agent dùng trong công việc thật, khả năng “quên đúng thứ, nhớ đúng thứ, và cho người vận hành sửa được” quan trọng không kém khả năng nhớ nhiều.

AI & Automation (vnROM)