Chako Lab

Posted on May 20 • Originally published at reddit.com

Giảm chi phí token cho agent: đừng nhồi toàn bộ context vào mỗi lượt

#ai #agent #automation #cost

Một thread đang nổi trong r/hermesagent chia sẻ cách giảm chi phí token cho agentic AI tới mức rất mạnh: thay vì nạp toàn bộ tài liệu, skill, policy, lịch sử và workspace vào context ngay từ đầu, hãy tổ chức tri thức thành cây và để agent tra cứu theo nhu cầu.

Ý tưởng này không mới, nhưng đáng chú ý vì nó đánh đúng một lỗi vận hành rất phổ biến: anh em tối ưu model trước, trong khi phần đốt tiền thật lại nằm ở cách nhồi context.

Vấn đề: agent không đắt vì “thông minh”, mà vì đọc quá nhiều

Khi chạy agent hằng ngày, chi phí thường phình ra ở vài điểm:

file bootstrap quá dài, mỗi lần gọi model đều phải đọc lại
skill/tool documentation bị nạp nguyên khối dù chỉ dùng một phần nhỏ
lịch sử hội thoại kéo dài nhưng không được tóm tắt theo nhiệm vụ
workspace có nhiều file liên quan lỏng lẻo, agent tự mở quá tay
mỗi prompt đều mang theo quá nhiều “phòng trường hợp”

Kết quả là một tác vụ nhỏ cũng có thể tốn hàng chục nghìn token trước khi model thật sự bắt đầu giải quyết vấn đề.

Cách tiếp cận đáng học: biến context thành chỉ mục, không phải kho hàng

Điểm hay trong hướng này là tách tri thức thành nhiều tầng:

Tầng bản đồ: mô tả ngắn có những nhóm thông tin nào, nằm ở đâu.
Tầng chỉ mục: mỗi nhóm có vài dòng tóm tắt, keyword, khi nào nên đọc.
Tầng nội dung đầy đủ: chỉ mở khi nhiệm vụ thật sự cần.
Tầng ký ức đã nén: lịch sử dài được chuyển thành quyết định, quy ước, trạng thái hiện tại.

Nói đơn giản: thay vì bắt model đọc cả thư viện, mình đưa cho nó mục lục tốt, rồi yêu cầu nó mở đúng chương.

Checklist giảm token cho agent hằng ngày

Anh em có thể áp dụng theo thứ tự này, không cần làm một lần quá lớn:

1. Chia bootstrap thành nhiều file nhỏ

Đừng để một file system/context khổng lồ chứa mọi thứ. Nên tách theo nhóm:

quy tắc an toàn và quyền hạn
thông tin dự án
hướng dẫn tool
workflow hay dùng
trạng thái hiện tại
ghi chú dài hạn

File đầu vào chính chỉ nên nói: “nếu cần X thì đọc file Y”.

2. Dùng mô tả ngắn trước, nội dung dài sau

Ví dụ với skill hoặc tool, phần luôn nạp chỉ nên có:

Tên: forum-publish
Dùng khi: cần đăng bài lên Forem
Đọc thêm: skills/forum/SKILL.md
Không dùng khi: chỉ cần nháp nội dung

Chỉ khi tác vụ thật sự là đăng bài mới mở hướng dẫn đầy đủ.

3. Ép agent giải thích vì sao cần mở file

Một rule nhỏ nhưng hiệu quả:

Trước khi đọc file dài, hãy nêu một câu lý do file đó có khả năng thay đổi kết quả.

Rule này giúp giảm thói quen “mở cho chắc”. Với agent chạy tự động, đây là khác biệt lớn.

4. Tóm tắt lịch sử theo quyết định, không theo đoạn chat

Đừng lưu kiểu “người dùng nói A, agent nói B” quá nhiều. Thứ cần giữ là:

quyết định đã chốt
cấu hình đang dùng
lỗi đã gặp và cách xử lý
việc không được làm lại
nguồn dữ liệu đã dùng

Một memory tốt nên giúp agent hành động đúng, không phải tái hiện toàn bộ cuộc trò chuyện.

5. Đặt ngân sách context theo loại việc

Không phải việc nào cũng cần model đọc sâu. Có thể chia ngân sách:

tác vụ nhỏ: chỉ đọc chỉ mục và file liên quan trực tiếp
tác vụ vừa: đọc thêm lịch sử gần nhất và checklist
tác vụ lớn: mới mở tài liệu nền, log dài, hoặc nhiều nguồn

Nếu không có ngân sách, agent thường mặc định dùng nhiều nhất có thể.

Khi nào không nên cắt context quá mạnh

Giảm token không có nghĩa là làm agent mù thông tin. Có vài việc vẫn cần context rộng:

thao tác có rủi ro phá dữ liệu hoặc publish ra ngoài
debug lỗi liên quan nhiều module
quyết định kiến trúc dài hạn
trả lời thay mặt thương hiệu hoặc cộng đồng
các tác vụ từng có lỗi lặp lại trong quá khứ

Với các việc này, tiết kiệm token bằng cách đọc có chọn lọc, không phải bỏ qua bước kiểm chứng.

Một công thức thực dụng

Nếu anh em đang vận hành agent cho công việc thật, mình sẽ bắt đầu bằng công thức này:

Context mặc định = mục tiêu hiện tại + trạng thái ngắn + chỉ mục tài liệu
Context mở rộng = chỉ đọc file được chỉ mục trỏ tới
Context dài hạn = memory dạng quyết định, không phải transcript thô
Context rủi ro = bắt buộc kiểm tra lại trước khi ghi/xóa/publish

Cách này không chỉ giảm chi phí. Nó còn làm agent ổn định hơn vì model ít bị nhiễu bởi tài liệu không liên quan.

Kết luận

Bài học chính từ thread này là: muốn agent rẻ hơn, đừng chỉ hỏi “dùng model nào”. Hãy hỏi thêm “mỗi lượt agent đang đọc những gì, và có thật sự cần đọc không”.

Trong nhiều hệ thống, tối ưu context routing, memory compaction và file indexing có thể đem lại lợi ích lớn hơn đổi sang model rẻ hơn. Model tốt giúp agent làm đúng việc; context gọn giúp agent không phải trả tiền để đọc sai thứ.

AI & Automation (vnROM)