Một chia sẻ đang được chú ý trong cộng đồng Hermes Agent: có người đã dùng hết hạn mức subscription opencode-go trước khi hết tháng, chủ yếu bằng cách chạy Hermes Agent với GLM 5.1, DeepSeek-V4-Pro và nhiều nhất là DeepSeek-V4-Flash. Điểm đáng nói không phải là “đốt token cho vui”, mà là con số trong phần Insights: hơn 1 tỷ token trong tháng, nhiều khả năng phần lớn đến từ cache và context lặp lại.
Câu chuyện này là một tín hiệu khá thực tế cho anh em đang vận hành agent: chi phí không chỉ nằm ở “mỗi câu trả lời tốn bao nhiêu”, mà nằm ở cách agent nạp ngữ cảnh, gọi tool, đọc skill, giữ memory và lặp lại các khối thông tin qua từng lượt.
Vì sao một agent có thể ăn token nhanh như vậy
Khi dùng agent kiểu Hermes, token không chỉ đến từ prompt người dùng. Một lượt chạy thường có thêm:
- system prompt và persona
- danh sách tool hoặc skill được nhét vào context
- memory, lịch sử phiên, ghi chú vận hành
- nội dung file được đọc trong quá trình làm việc
- kết quả tool, log, lỗi, diff, HTML, JSON
- cache prefix được tính vào thống kê của một số provider
Vì vậy, một câu hỏi nhìn bên ngoài có vẻ ngắn vẫn có thể kéo theo một context rất lớn. Nếu agent được thiết kế theo kiểu “mang cả nhà kho vào mỗi lượt”, token sẽ tăng cực nhanh, nhất là khi chạy nhiều automation hoặc tác vụ dài.
Bài học chính: tối ưu context trước khi đổi model
Phản xạ phổ biến là thấy tốn thì đổi sang model rẻ hơn. Cách đó có ích, nhưng chưa đủ. Nếu context bị phình, model rẻ vẫn bị kéo vào cùng một bài toán: đọc quá nhiều thứ không cần thiết.
Mình nghĩ thứ tự tối ưu nên là:
- Giảm context cố định mỗi lượt.
- Chỉ nạp skill/tool theo nhu cầu.
- Tách model theo loại việc.
- Sau đó mới so sánh giá model.
Nếu đảo ngược thứ tự, anh em dễ rơi vào tình trạng “rẻ hơn mỗi token” nhưng tổng token vẫn quá lớn.
Checklist giảm token cho Hermes Agent
1. Đừng nạp toàn bộ skill vào mọi lượt
Nếu system prompt luôn liệt kê hàng chục skill kèm mô tả dài, mỗi câu chat đều phải trả phí cho phần đó. Cách tốt hơn là dùng cơ chế tìm skill theo nhu cầu:
- câu hỏi thường: không nạp skill
- cần thao tác web: tìm skill web/browser
- cần GitHub: nạp skill GitHub
- cần forum/email/media: nạp đúng nhóm đó
Nguyên tắc đơn giản: skill là thư viện tra cứu, không phải đồ phải mang theo trong balo mọi lúc.
2. Tóm tắt memory vận hành thành các dòng ngắn
Memory nên giữ những thứ có giá trị định tuyến hoặc sở thích dài hạn, ví dụ:
- người dùng thích câu trả lời ngắn hay dài
- project nào đang active
- tool nào có giới hạn đặc biệt
- thiết bị hoặc account alias quan trọng
Những log dài, giải thích cũ, hướng dẫn setup chi tiết nên để ở file hoặc kho tri thức riêng, chỉ đọc khi cần.
3. Cắt log trước khi đưa vào model
Agent thường phí token vì dán nguyên log dài. Với lỗi build/test, nhiều khi chỉ cần:
- command đã chạy
- 30-80 dòng quanh lỗi
- exit code
- file liên quan
- lần thử trước đó đã làm gì
Nếu tool trả về hàng nghìn dòng, nên lọc trước. Đừng bắt model đọc cả đống output chỉ để tìm một stack trace.
4. Dùng model nhanh/rẻ cho tác vụ hằng ngày
Trong câu chuyện Reddit, người đăng nhắc DeepSeek-V4-Flash là model có giá trị tốt cho tác vụ thường ngày. Đây là hướng đáng cân nhắc: không phải lượt nào cũng cần model mạnh nhất.
Một cách chia tầng thực dụng:
| Loại việc | Model gợi ý |
|---|---|
| chat nhanh, phân loại, tóm tắt ngắn | model nhanh/rẻ |
| đọc log, sửa lỗi vừa phải | model trung bình có context tốt |
| refactor lớn, thiết kế kiến trúc, quyết định rủi ro | model mạnh hơn |
| automation chạy nền lặp lại | model rẻ, prompt ngắn, output giới hạn |
Điểm quan trọng là routing. Nếu mọi tin nhắn Telegram đều đi qua model đắt và context dài, chi phí sẽ tăng mà trải nghiệm vẫn chậm.
5. Đặt ngân sách theo phiên hoặc theo loại tác vụ
Anh em nên có ngưỡng cảnh báo đơn giản:
- mỗi lượt chat thường không quá một mức token nhất định
- tác vụ nền không được đọc file ngoài phạm vi cần thiết
- automation định kỳ phải có max runtime và max output
- job crawl/web phải giới hạn số trang và số ký tự
Nếu agent có quyền tự chạy nhiều tool, ngân sách là lan can an toàn chứ không chỉ là chuyện tiền.
Một công thức vận hành gọn hơn
Với agent cá nhân hoặc agent làm việc qua Telegram/Discord, mình sẽ cấu hình theo hướng:
- Mặc định trả lời ngắn, không đọc vault/session nếu chưa cần.
- Chỉ tìm và nạp skill khi task có dấu hiệu cần tool chuyên biệt.
- Log dài phải được lọc trước khi đưa vào context.
- Model mặc định là loại nhanh/rẻ; chỉ nâng cấp khi task có rủi ro hoặc cần suy luận sâu.
- Sau mỗi tác vụ dài, lưu summary ngắn thay vì giữ toàn bộ transcript làm context tiếp theo.
Cách này không làm agent “kém thông minh” đi. Ngược lại, nó giúp agent tập trung hơn vì bớt bị nhiễu bởi thông tin không liên quan.
Kết luận thực tế
Câu chuyện dùng hơn 1 tỷ token trong tháng nghe có vẻ cực đoan, nhưng nó phản ánh đúng một vấn đề thật: agentic workflow có thể khuếch đại token rất nhanh nếu không kiểm soát context.
Nếu anh em đang dùng Hermes Agent hoặc một hệ agent tương tự, đừng chỉ hỏi “model nào rẻ nhất”. Hãy hỏi thêm:
- mỗi lượt agent đang nạp những gì
- phần nào lặp lại mà không cần thiết
- tool nào trả output quá dài
- memory nào nên tóm tắt lại
- tác vụ nào không cần model mạnh
Tối ưu được những điểm này thì kể cả dùng model tốt hơn, chi phí và độ trễ vẫn dễ kiểm soát hơn nhiều.
Top comments (0)