Manthan Gupta – một AI research engineer – đã công bố một bài viết cực kỳ chi tiết về hệ thống bộ nhớ của Clawdbot, khiến cộng đồng AI agent cục bộ “phát cuồng” với gần 1.900 lượt thích và hàng nghìn bookmark chỉ trong vài giờ.
Clawdbot không chỉ là một AI assistant thông thường. Nó là một agent tự trị chạy 24/7 cục bộ (trên máy Mac Mini, Linux server, hoặc bất kỳ thiết bị nào đủ mạnh), có khả năng quản lý email, lịch trình, ghi chú, tương tác Telegram/WhatsApp… mà không gửi dữ liệu lên đám mây.
Yếu tố làm nên sự khác biệt lớn nhất chính là hệ thống bộ nhớ hai lớp thông minh, minh bạch và cực kỳ mạnh mẽ. Hãy cùng khám phá chi tiết cách Clawdbot “nhớ mãi không quên” mà vẫn giữ được hiệu suất cao.
Nguyên tắc cốt lõi: “Memory is plain Markdown in the agent workspace”
Toàn bộ bộ nhớ của Clawdbot được lưu trữ hoàn toàn dưới dạng file Markdown thuần túy trong thư mục workspace của agent (mặc định: ~/clawd/).
Cấu trúc thư mục điển hình:
~/clawd/
├── MEMORY.md # Layer 2: Bộ nhớ dài hạn – kiến thức được tổng hợp, tinh chỉnh
└── memory/
├── 2026-01-26.md # Layer 1: Nhật ký hàng ngày (append-only)
├── 2026-01-25.md
└── ...
Không có cơ sở dữ liệu độc quyền, không có định dạng bí mật. Bạn có thể mở bất kỳ file nào bằng VS Code, Obsidian, Typora… và đọc hiểu ngay lập tức.
Layer 1: Daily Logs – Nhật ký hàng ngày (append-only)
Mỗi ngày, Clawdbot tạo một file Markdown mới theo định dạng YYYY-MM-DD.md trong thư mục memory/.
- Agent ghi liên tục vào file này suốt cả ngày (append-only, không sửa/xóa).
- Nội dung bao gồm: cuộc trò chuyện, quyết định, quan sát, sở thích người dùng, sự kiện quan trọng…
- Ví dụ nội dung điển hình:
## 09:15 AM - Email xử lý
Đã gửi email nhắc nhở meeting cho team dev về deadline sprint 14/2.
## 14:00 PM - User Preference
Người dùng nói rõ thích dùng TypeScript hơn JavaScript thuần khi viết tool mới.
→ Ưu điểm: minh bạch tuyệt đối, dễ debug, dễ khôi phục nếu có lỗi.
Layer 2: Long-term Memory – MEMORY.md – Kiến thức dài hạn được nén & tinh chỉnh
Đây là file duy nhất chứa kiến thức dài hạn được tổng hợp từ hàng trăm/nghìn ngày nhật ký.
- Clawdbot định kỳ (thường sau mỗi ngày hoặc khi đạt ngưỡng token) sẽ nén và tổng hợp thông tin quan trọng từ các file daily log → ghi vào
MEMORY.md. - Quá trình nén thông minh:
- Loại bỏ thông tin trùng lặp, chi tiết không cần thiết.
- Giữ lại các user preference, kiến thức nền, quy tắc hành vi, sự kiện quan trọng.
- Viết lại ngắn gọn, có cấu trúc (dùng heading, bullet points).
Ví dụ đoạn trong MEMORY.md:
## User Preferences
- Ưu tiên TypeScript > JavaScript
- Thích nhận thông báo Telegram bằng voice note khi có thể
- Không thích dùng emoji quá nhiều trong email chuyên nghiệp
## Projects
- Đang phát triển tool tự động hóa báo cáo tài chính cá nhân (dùng Python + Pandas)
- Deadline quan trọng: 15/03/2026 – hoàn thành MVP
→ Nhờ đó, khi context window của LLM (Claude, Grok, Gemini…) đầy, agent vẫn có thể tải nhanh kiến thức cốt lõi mà không mất quá nhiều token.
Cơ chế tìm kiếm thông minh: Hybrid Vector + Keyword Search trên SQLite
Clawdbot không chỉ đọc file Markdown thô. Nó còn xây dựng index tìm kiếm ngữ nghĩa bằng SQLite + sqlite-vec.
- Mỗi đoạn Markdown (chunk) được:
- Chia nhỏ thành các đoạn ~300–500 token.
- Tạo embedding vector (dùng model cục bộ hoặc OpenAI nếu cấu hình).
- Lưu vào SQLite với extension sqlite-vec.
- Khi cần nhớ lại thông tin cũ, Clawdbot thực hiện hybrid search:
- Vector search (ngữ nghĩa gần nhất)
- BM25 / FTS5 keyword search (từ khóa chính xác)
- Kết hợp weighted merging → trả về top-k kết quả tốt nhất.
- Có cơ chế lazy sync + file watch: chỉ index lại khi file thay đổi → tiết kiệm tài nguyên.
→ Kết quả: Clawdbot có thể tìm kiếm và recall thông tin từ hàng năm trước chỉ trong vài giây, ngay cả khi context window giới hạn.
Eviction & Compression – Xả và nén thông minh
Trước khi nén, Clawdbot thực hiện bước eviction (xả bớt):
- Loại bỏ các đoạn ít quan trọng (dựa trên tần suất truy cập, mức độ liên quan).
- Chỉ giữ lại thông tin có giá trị dài hạn.
- Sau đó mới tổng hợp → ghi vào
MEMORY.md.
Điều này giúp tránh tình trạng “bộ nhớ phình to” và giữ hiệu suất ổn định khi chạy liên tục 24/7.
Tại sao hệ thống này vượt trội hơn bộ nhớ đám mây?
| Tiêu chí | Clawdbot (cục bộ) | Bộ nhớ đám mây (Claude Projects, Grok Memory…) |
|---|---|---|
| Quyền sở hữu dữ liệu | 100% thuộc về bạn – file Markdown trên máy | Thuộc công ty cung cấp dịch vụ |
| Minh bạch | Mở hoàn toàn, đọc được bằng text editor | Đóng, không xem được nội dung thực tế |
| Chi phí dài hạn | Chỉ tốn điện + API LLM (nếu dùng) | Subscription cố định + tăng theo dung lượng |
| Privacy | Không gửi dữ liệu ra ngoài | Dữ liệu được xử lý trên server công ty |
| Khả năng tùy biến | Có thể hack, mở rộng dễ dàng | Giới hạn bởi API nhà cung cấp |
Đó là lý do nhiều người sẵn sàng mua Mac Mini hoặc server nhỏ chỉ để chạy Clawdbot 24/7 – họ muốn một AI cá nhân thực sự thuộc về mình.
Hệ thống bộ nhớ hai lớp của Clawdbot là một minh chứng xuất sắc cho triết lý: AI mạnh không cần phải phức tạp và đóng kín. Chỉ cần Markdown + SQLite + tìm kiếm hybrid thông minh là đã có thể xây dựng một agent nhớ lâu, thông minh, và hoàn toàn cục bộ.
Nếu bạn đang tìm kiếm một AI assistant cá nhân thực sự riêng tư, có khả năng chạy tự trị liên tục, Clawdbot hiện đang là một trong những lựa chọn mạnh mẽ nhất năm 2026.
Top comments (0)