Gần đây thấy nhiều người phản ánh Claude Code bị hết token rất nhanh, kể cả gói $200/tháng. Mình tổng hợp lại nội dung từ một video khá hữu ích để anh em tham khảo.
1. Vấn đề cốt lõi
Mỗi lần bạn gửi prompt, Claude sẽ đọc lại toàn bộ cuộc hội thoại từ đầu.
Điều này dẫn đến:
- Token không tăng tuyến tính mà tăng theo cấp số nhân
- Chat càng dài → chi phí càng cao
Ví dụ:
- Message đầu: ~500 tokens
- Message thứ 30: ~15,000 tokens
Có trường hợp lên tới 98.5% token chỉ dùng để đọc lại lịch sử chat.
Ngoài ra:
- Context càng dài → chất lượng output càng giảm
- Hiện tượng “loss in the middle” khiến nội dung ở giữa bị bỏ qua
2. Tier 1 – Mẹo cơ bản
Luôn dùng chat mới cho task mới
Sử dụng /clear khi đổi chủ đề.
Đây là cách đơn giản nhưng hiệu quả nhất để tiết kiệm token.
Gộp nhiều yêu cầu vào một prompt
Thay vì gửi nhiều message liên tiếp, hãy gộp lại thành một.
Chỉ gửi phần cần thiết
Không nên paste toàn bộ file hoặc repo.
Chỉ gửi đúng đoạn code hoặc phần liên quan.
Dùng plan mode trước khi thực hiện
Giúp AI hiểu rõ yêu cầu trước khi làm, tránh đi sai hướng.
Tắt các MCP server không cần thiết
Một số server có thể tiêu tốn hàng chục nghìn token mỗi message.
Theo dõi token usage
Sử dụng:
/context/cost
Để biết token đang bị tiêu ở đâu.
Quan sát quá trình AI làm việc
Nếu thấy đi sai hướng, dừng ngay để tránh lãng phí token.
3. Tier 2 – Tối ưu nâng cao
Giữ file claude.md ngắn gọn
- Dưới 200 dòng
- Chỉ chứa thông tin quan trọng
File này được đọc lại mỗi lần chat.
Chỉ định rõ file hoặc function
Tránh yêu cầu chung chung như “check toàn bộ repo”.
Compact context sớm
Nên compact khi khoảng 60%, không nên đợi đến 95%.
Tránh nghỉ giữa chừng quá lâu
Nếu nghỉ hơn 5 phút, hệ thống sẽ mất cache và tính lại token từ đầu.
Hạn chế output quá dài
Command output lớn sẽ làm tăng token đáng kể.
4. Tier 3 – Nâng cao
Chọn model phù hợp
- Sonnet: sử dụng mặc định
- Haiku: task đơn giản
- Opus: task phức tạp
Hạn chế dùng sub-agent
Sub-agent có thể tiêu tốn nhiều hơn 7–10 lần token so với bình thường.
Tận dụng thời gian off-peak
Giờ thấp điểm giúp session kéo dài hơn.
Tối ưu file claude.md
Biến nó thành nơi lưu:
- Quyết định
- Quy tắc
- Kiến trúc
Không lưu toàn bộ hội thoại.
Mindset quan trọng
Đây không phải là vấn đề giới hạn token thấp.
Vấn đề chính là cách quản lý context.
Để tiết kiệm token:
- Giữ context ngắn
- Tránh chat kéo dài
- Cung cấp thông tin chính xác
- Kiểm soát quá trình làm việc của AI
Tóm lại: không phải Claude đắt, mà là cách sử dụng chưa tối ưu.
Anh em đang dùng Claude Code có gặp tình trạng tương tự không? Có cách nào hay hơn thì chia sẻ thêm.
Top comments (0)