addROM

Posted on Apr 3

18 mẹo tiết kiệm token khi dùng Claude Code (tăng hiệu quả 2–5 lần)

#claudecode #ai #token #claude

Gần đây thấy nhiều người phản ánh Claude Code bị hết token rất nhanh, kể cả gói $200/tháng. Mình tổng hợp lại nội dung từ một video khá hữu ích để anh em tham khảo.

1. Vấn đề cốt lõi

Mỗi lần bạn gửi prompt, Claude sẽ đọc lại toàn bộ cuộc hội thoại từ đầu.

Điều này dẫn đến:

Token không tăng tuyến tính mà tăng theo cấp số nhân
Chat càng dài → chi phí càng cao

Ví dụ:

Message đầu: ~500 tokens
Message thứ 30: ~15,000 tokens

Có trường hợp lên tới 98.5% token chỉ dùng để đọc lại lịch sử chat.

Ngoài ra:

Context càng dài → chất lượng output càng giảm
Hiện tượng “loss in the middle” khiến nội dung ở giữa bị bỏ qua

2. Tier 1 – Mẹo cơ bản

Luôn dùng chat mới cho task mới

Sử dụng /clear khi đổi chủ đề.

Đây là cách đơn giản nhưng hiệu quả nhất để tiết kiệm token.

Gộp nhiều yêu cầu vào một prompt

Thay vì gửi nhiều message liên tiếp, hãy gộp lại thành một.

Chỉ gửi phần cần thiết

Không nên paste toàn bộ file hoặc repo.
Chỉ gửi đúng đoạn code hoặc phần liên quan.

Dùng plan mode trước khi thực hiện

Giúp AI hiểu rõ yêu cầu trước khi làm, tránh đi sai hướng.

Tắt các MCP server không cần thiết

Một số server có thể tiêu tốn hàng chục nghìn token mỗi message.

Theo dõi token usage

Sử dụng:

/context
/cost

Để biết token đang bị tiêu ở đâu.

Quan sát quá trình AI làm việc

Nếu thấy đi sai hướng, dừng ngay để tránh lãng phí token.

3. Tier 2 – Tối ưu nâng cao

Giữ file `claude.md` ngắn gọn

Dưới 200 dòng
Chỉ chứa thông tin quan trọng

File này được đọc lại mỗi lần chat.

Chỉ định rõ file hoặc function

Tránh yêu cầu chung chung như “check toàn bộ repo”.

Compact context sớm

Nên compact khi khoảng 60%, không nên đợi đến 95%.

Tránh nghỉ giữa chừng quá lâu

Nếu nghỉ hơn 5 phút, hệ thống sẽ mất cache và tính lại token từ đầu.

Hạn chế output quá dài

Command output lớn sẽ làm tăng token đáng kể.

4. Tier 3 – Nâng cao

Chọn model phù hợp

Sonnet: sử dụng mặc định
Haiku: task đơn giản
Opus: task phức tạp

Hạn chế dùng sub-agent

Sub-agent có thể tiêu tốn nhiều hơn 7–10 lần token so với bình thường.

Tận dụng thời gian off-peak

Giờ thấp điểm giúp session kéo dài hơn.

Tối ưu file `claude.md`

Biến nó thành nơi lưu:

Quyết định
Quy tắc
Kiến trúc

Không lưu toàn bộ hội thoại.

Mindset quan trọng

Đây không phải là vấn đề giới hạn token thấp.

Vấn đề chính là cách quản lý context.

Để tiết kiệm token:

Giữ context ngắn
Tránh chat kéo dài
Cung cấp thông tin chính xác
Kiểm soát quá trình làm việc của AI

Tóm lại: không phải Claude đắt, mà là cách sử dụng chưa tối ưu.

Anh em đang dùng Claude Code có gặp tình trạng tương tự không? Có cách nào hay hơn thì chia sẻ thêm.

AI & Automation (vnROM)

18 mẹo tiết kiệm token khi dùng Claude Code (tăng hiệu quả 2–5 lần)

1. Vấn đề cốt lõi

2. Tier 1 – Mẹo cơ bản

Luôn dùng chat mới cho task mới

Gộp nhiều yêu cầu vào một prompt

Chỉ gửi phần cần thiết

Dùng plan mode trước khi thực hiện

Tắt các MCP server không cần thiết

Theo dõi token usage

Quan sát quá trình AI làm việc

3. Tier 2 – Tối ưu nâng cao

Giữ file `claude.md` ngắn gọn

Chỉ định rõ file hoặc function

Compact context sớm

Tránh nghỉ giữa chừng quá lâu

Hạn chế output quá dài

4. Tier 3 – Nâng cao

Chọn model phù hợp

Hạn chế dùng sub-agent

Tận dụng thời gian off-peak

Tối ưu file `claude.md`

Mindset quan trọng

Top comments (0)

1. Vấn đề cốt lõi

2. Tier 1 – Mẹo cơ bản

Luôn dùng chat mới cho task mới

Gộp nhiều yêu cầu vào một prompt

Chỉ gửi phần cần thiết

Dùng plan mode trước khi thực hiện

Tắt các MCP server không cần thiết

Theo dõi token usage

Quan sát quá trình AI làm việc

3. Tier 2 – Tối ưu nâng cao

Giữ file claude.md ngắn gọn

Chỉ định rõ file hoặc function

Compact context sớm

Tránh nghỉ giữa chừng quá lâu

Hạn chế output quá dài

4. Tier 3 – Nâng cao

Chọn model phù hợp

Hạn chế dùng sub-agent

Tận dụng thời gian off-peak

Tối ưu file claude.md

Mindset quan trọng

Giữ file `claude.md` ngắn gọn

Tối ưu file `claude.md`