Một thread đang nổi trong r/hermesagent chia sẻ cách giảm chi phí token cho agentic AI tới mức rất mạnh: thay vì nạp toàn bộ tài liệu, skill, policy, lịch sử và workspace vào context ngay từ đầu, hãy tổ chức tri thức thành cây và để agent tra cứu theo nhu cầu.
Ý tưởng này không mới, nhưng đáng chú ý vì nó đánh đúng một lỗi vận hành rất phổ biến: anh em tối ưu model trước, trong khi phần đốt tiền thật lại nằm ở cách nhồi context.
Vấn đề: agent không đắt vì “thông minh”, mà vì đọc quá nhiều
Khi chạy agent hằng ngày, chi phí thường phình ra ở vài điểm:
- file bootstrap quá dài, mỗi lần gọi model đều phải đọc lại
- skill/tool documentation bị nạp nguyên khối dù chỉ dùng một phần nhỏ
- lịch sử hội thoại kéo dài nhưng không được tóm tắt theo nhiệm vụ
- workspace có nhiều file liên quan lỏng lẻo, agent tự mở quá tay
- mỗi prompt đều mang theo quá nhiều “phòng trường hợp”
Kết quả là một tác vụ nhỏ cũng có thể tốn hàng chục nghìn token trước khi model thật sự bắt đầu giải quyết vấn đề.
Cách tiếp cận đáng học: biến context thành chỉ mục, không phải kho hàng
Điểm hay trong hướng này là tách tri thức thành nhiều tầng:
- Tầng bản đồ: mô tả ngắn có những nhóm thông tin nào, nằm ở đâu.
- Tầng chỉ mục: mỗi nhóm có vài dòng tóm tắt, keyword, khi nào nên đọc.
- Tầng nội dung đầy đủ: chỉ mở khi nhiệm vụ thật sự cần.
- Tầng ký ức đã nén: lịch sử dài được chuyển thành quyết định, quy ước, trạng thái hiện tại.
Nói đơn giản: thay vì bắt model đọc cả thư viện, mình đưa cho nó mục lục tốt, rồi yêu cầu nó mở đúng chương.
Checklist giảm token cho agent hằng ngày
Anh em có thể áp dụng theo thứ tự này, không cần làm một lần quá lớn:
1. Chia bootstrap thành nhiều file nhỏ
Đừng để một file system/context khổng lồ chứa mọi thứ. Nên tách theo nhóm:
- quy tắc an toàn và quyền hạn
- thông tin dự án
- hướng dẫn tool
- workflow hay dùng
- trạng thái hiện tại
- ghi chú dài hạn
File đầu vào chính chỉ nên nói: “nếu cần X thì đọc file Y”.
2. Dùng mô tả ngắn trước, nội dung dài sau
Ví dụ với skill hoặc tool, phần luôn nạp chỉ nên có:
Tên: forum-publish
Dùng khi: cần đăng bài lên Forem
Đọc thêm: skills/forum/SKILL.md
Không dùng khi: chỉ cần nháp nội dung
Chỉ khi tác vụ thật sự là đăng bài mới mở hướng dẫn đầy đủ.
3. Ép agent giải thích vì sao cần mở file
Một rule nhỏ nhưng hiệu quả:
Trước khi đọc file dài, hãy nêu một câu lý do file đó có khả năng thay đổi kết quả.
Rule này giúp giảm thói quen “mở cho chắc”. Với agent chạy tự động, đây là khác biệt lớn.
4. Tóm tắt lịch sử theo quyết định, không theo đoạn chat
Đừng lưu kiểu “người dùng nói A, agent nói B” quá nhiều. Thứ cần giữ là:
- quyết định đã chốt
- cấu hình đang dùng
- lỗi đã gặp và cách xử lý
- việc không được làm lại
- nguồn dữ liệu đã dùng
Một memory tốt nên giúp agent hành động đúng, không phải tái hiện toàn bộ cuộc trò chuyện.
5. Đặt ngân sách context theo loại việc
Không phải việc nào cũng cần model đọc sâu. Có thể chia ngân sách:
- tác vụ nhỏ: chỉ đọc chỉ mục và file liên quan trực tiếp
- tác vụ vừa: đọc thêm lịch sử gần nhất và checklist
- tác vụ lớn: mới mở tài liệu nền, log dài, hoặc nhiều nguồn
Nếu không có ngân sách, agent thường mặc định dùng nhiều nhất có thể.
Khi nào không nên cắt context quá mạnh
Giảm token không có nghĩa là làm agent mù thông tin. Có vài việc vẫn cần context rộng:
- thao tác có rủi ro phá dữ liệu hoặc publish ra ngoài
- debug lỗi liên quan nhiều module
- quyết định kiến trúc dài hạn
- trả lời thay mặt thương hiệu hoặc cộng đồng
- các tác vụ từng có lỗi lặp lại trong quá khứ
Với các việc này, tiết kiệm token bằng cách đọc có chọn lọc, không phải bỏ qua bước kiểm chứng.
Một công thức thực dụng
Nếu anh em đang vận hành agent cho công việc thật, mình sẽ bắt đầu bằng công thức này:
Context mặc định = mục tiêu hiện tại + trạng thái ngắn + chỉ mục tài liệu
Context mở rộng = chỉ đọc file được chỉ mục trỏ tới
Context dài hạn = memory dạng quyết định, không phải transcript thô
Context rủi ro = bắt buộc kiểm tra lại trước khi ghi/xóa/publish
Cách này không chỉ giảm chi phí. Nó còn làm agent ổn định hơn vì model ít bị nhiễu bởi tài liệu không liên quan.
Kết luận
Bài học chính từ thread này là: muốn agent rẻ hơn, đừng chỉ hỏi “dùng model nào”. Hãy hỏi thêm “mỗi lượt agent đang đọc những gì, và có thật sự cần đọc không”.
Trong nhiều hệ thống, tối ưu context routing, memory compaction và file indexing có thể đem lại lợi ích lớn hơn đổi sang model rẻ hơn. Model tốt giúp agent làm đúng việc; context gọn giúp agent không phải trả tiền để đọc sai thứ.
Top comments (0)