Chako Lab

Posted on May 23 • Originally published at reddit.com

Giảm chi phí Hermes Agent: bài học từ một tháng hơn 1 tỷ token

#ai #hermes #automation #cost

Một chia sẻ đang được chú ý trong cộng đồng Hermes Agent: có người đã dùng hết hạn mức subscription opencode-go trước khi hết tháng, chủ yếu bằng cách chạy Hermes Agent với GLM 5.1, DeepSeek-V4-Pro và nhiều nhất là DeepSeek-V4-Flash. Điểm đáng nói không phải là “đốt token cho vui”, mà là con số trong phần Insights: hơn 1 tỷ token trong tháng, nhiều khả năng phần lớn đến từ cache và context lặp lại.

Câu chuyện này là một tín hiệu khá thực tế cho anh em đang vận hành agent: chi phí không chỉ nằm ở “mỗi câu trả lời tốn bao nhiêu”, mà nằm ở cách agent nạp ngữ cảnh, gọi tool, đọc skill, giữ memory và lặp lại các khối thông tin qua từng lượt.

Vì sao một agent có thể ăn token nhanh như vậy

Khi dùng agent kiểu Hermes, token không chỉ đến từ prompt người dùng. Một lượt chạy thường có thêm:

system prompt và persona
danh sách tool hoặc skill được nhét vào context
memory, lịch sử phiên, ghi chú vận hành
nội dung file được đọc trong quá trình làm việc
kết quả tool, log, lỗi, diff, HTML, JSON
cache prefix được tính vào thống kê của một số provider

Vì vậy, một câu hỏi nhìn bên ngoài có vẻ ngắn vẫn có thể kéo theo một context rất lớn. Nếu agent được thiết kế theo kiểu “mang cả nhà kho vào mỗi lượt”, token sẽ tăng cực nhanh, nhất là khi chạy nhiều automation hoặc tác vụ dài.

Bài học chính: tối ưu context trước khi đổi model

Phản xạ phổ biến là thấy tốn thì đổi sang model rẻ hơn. Cách đó có ích, nhưng chưa đủ. Nếu context bị phình, model rẻ vẫn bị kéo vào cùng một bài toán: đọc quá nhiều thứ không cần thiết.

Mình nghĩ thứ tự tối ưu nên là:

Giảm context cố định mỗi lượt.
Chỉ nạp skill/tool theo nhu cầu.
Tách model theo loại việc.
Sau đó mới so sánh giá model.

Nếu đảo ngược thứ tự, anh em dễ rơi vào tình trạng “rẻ hơn mỗi token” nhưng tổng token vẫn quá lớn.

Checklist giảm token cho Hermes Agent

1. Đừng nạp toàn bộ skill vào mọi lượt

Nếu system prompt luôn liệt kê hàng chục skill kèm mô tả dài, mỗi câu chat đều phải trả phí cho phần đó. Cách tốt hơn là dùng cơ chế tìm skill theo nhu cầu:

câu hỏi thường: không nạp skill
cần thao tác web: tìm skill web/browser
cần GitHub: nạp skill GitHub
cần forum/email/media: nạp đúng nhóm đó

Nguyên tắc đơn giản: skill là thư viện tra cứu, không phải đồ phải mang theo trong balo mọi lúc.

2. Tóm tắt memory vận hành thành các dòng ngắn

Memory nên giữ những thứ có giá trị định tuyến hoặc sở thích dài hạn, ví dụ:

người dùng thích câu trả lời ngắn hay dài
project nào đang active
tool nào có giới hạn đặc biệt
thiết bị hoặc account alias quan trọng

Những log dài, giải thích cũ, hướng dẫn setup chi tiết nên để ở file hoặc kho tri thức riêng, chỉ đọc khi cần.

3. Cắt log trước khi đưa vào model

Agent thường phí token vì dán nguyên log dài. Với lỗi build/test, nhiều khi chỉ cần:

command đã chạy
30-80 dòng quanh lỗi
exit code
file liên quan
lần thử trước đó đã làm gì

Nếu tool trả về hàng nghìn dòng, nên lọc trước. Đừng bắt model đọc cả đống output chỉ để tìm một stack trace.

4. Dùng model nhanh/rẻ cho tác vụ hằng ngày

Trong câu chuyện Reddit, người đăng nhắc DeepSeek-V4-Flash là model có giá trị tốt cho tác vụ thường ngày. Đây là hướng đáng cân nhắc: không phải lượt nào cũng cần model mạnh nhất.

Một cách chia tầng thực dụng:

Loại việc	Model gợi ý
chat nhanh, phân loại, tóm tắt ngắn	model nhanh/rẻ
đọc log, sửa lỗi vừa phải	model trung bình có context tốt
refactor lớn, thiết kế kiến trúc, quyết định rủi ro	model mạnh hơn
automation chạy nền lặp lại	model rẻ, prompt ngắn, output giới hạn

Điểm quan trọng là routing. Nếu mọi tin nhắn Telegram đều đi qua model đắt và context dài, chi phí sẽ tăng mà trải nghiệm vẫn chậm.

5. Đặt ngân sách theo phiên hoặc theo loại tác vụ

Anh em nên có ngưỡng cảnh báo đơn giản:

mỗi lượt chat thường không quá một mức token nhất định
tác vụ nền không được đọc file ngoài phạm vi cần thiết
automation định kỳ phải có max runtime và max output
job crawl/web phải giới hạn số trang và số ký tự

Nếu agent có quyền tự chạy nhiều tool, ngân sách là lan can an toàn chứ không chỉ là chuyện tiền.

Một công thức vận hành gọn hơn

Với agent cá nhân hoặc agent làm việc qua Telegram/Discord, mình sẽ cấu hình theo hướng:

Mặc định trả lời ngắn, không đọc vault/session nếu chưa cần.
Chỉ tìm và nạp skill khi task có dấu hiệu cần tool chuyên biệt.
Log dài phải được lọc trước khi đưa vào context.
Model mặc định là loại nhanh/rẻ; chỉ nâng cấp khi task có rủi ro hoặc cần suy luận sâu.
Sau mỗi tác vụ dài, lưu summary ngắn thay vì giữ toàn bộ transcript làm context tiếp theo.

Cách này không làm agent “kém thông minh” đi. Ngược lại, nó giúp agent tập trung hơn vì bớt bị nhiễu bởi thông tin không liên quan.

Kết luận thực tế

Câu chuyện dùng hơn 1 tỷ token trong tháng nghe có vẻ cực đoan, nhưng nó phản ánh đúng một vấn đề thật: agentic workflow có thể khuếch đại token rất nhanh nếu không kiểm soát context.

Nếu anh em đang dùng Hermes Agent hoặc một hệ agent tương tự, đừng chỉ hỏi “model nào rẻ nhất”. Hãy hỏi thêm:

mỗi lượt agent đang nạp những gì
phần nào lặp lại mà không cần thiết
tool nào trả output quá dài
memory nào nên tóm tắt lại
tác vụ nào không cần model mạnh

Tối ưu được những điểm này thì kể cả dùng model tốt hơn, chi phí và độ trễ vẫn dễ kiểm soát hơn nhiều.

AI & Automation (vnROM)