AI & Automation (vnROM)

Cover image for 18 mẹo tiết kiệm token khi dùng Claude Code (tăng hiệu quả 2–5 lần)
addROM
addROM

Posted on

18 mẹo tiết kiệm token khi dùng Claude Code (tăng hiệu quả 2–5 lần)

Gần đây thấy nhiều người phản ánh Claude Code bị hết token rất nhanh, kể cả gói $200/tháng. Mình tổng hợp lại nội dung từ một video khá hữu ích để anh em tham khảo.


1. Vấn đề cốt lõi

Mỗi lần bạn gửi prompt, Claude sẽ đọc lại toàn bộ cuộc hội thoại từ đầu.

Điều này dẫn đến:

  • Token không tăng tuyến tính mà tăng theo cấp số nhân
  • Chat càng dài → chi phí càng cao

Ví dụ:

  • Message đầu: ~500 tokens
  • Message thứ 30: ~15,000 tokens

Có trường hợp lên tới 98.5% token chỉ dùng để đọc lại lịch sử chat.

Ngoài ra:

  • Context càng dài → chất lượng output càng giảm
  • Hiện tượng “loss in the middle” khiến nội dung ở giữa bị bỏ qua

2. Tier 1 – Mẹo cơ bản

Luôn dùng chat mới cho task mới

Sử dụng /clear khi đổi chủ đề.

Đây là cách đơn giản nhưng hiệu quả nhất để tiết kiệm token.

Gộp nhiều yêu cầu vào một prompt

Thay vì gửi nhiều message liên tiếp, hãy gộp lại thành một.

Chỉ gửi phần cần thiết

Không nên paste toàn bộ file hoặc repo.
Chỉ gửi đúng đoạn code hoặc phần liên quan.

Dùng plan mode trước khi thực hiện

Giúp AI hiểu rõ yêu cầu trước khi làm, tránh đi sai hướng.

Tắt các MCP server không cần thiết

Một số server có thể tiêu tốn hàng chục nghìn token mỗi message.

Theo dõi token usage

Sử dụng:

  • /context
  • /cost

Để biết token đang bị tiêu ở đâu.

Quan sát quá trình AI làm việc

Nếu thấy đi sai hướng, dừng ngay để tránh lãng phí token.


3. Tier 2 – Tối ưu nâng cao

Giữ file claude.md ngắn gọn

  • Dưới 200 dòng
  • Chỉ chứa thông tin quan trọng

File này được đọc lại mỗi lần chat.

Chỉ định rõ file hoặc function

Tránh yêu cầu chung chung như “check toàn bộ repo”.

Compact context sớm

Nên compact khi khoảng 60%, không nên đợi đến 95%.

Tránh nghỉ giữa chừng quá lâu

Nếu nghỉ hơn 5 phút, hệ thống sẽ mất cache và tính lại token từ đầu.

Hạn chế output quá dài

Command output lớn sẽ làm tăng token đáng kể.


4. Tier 3 – Nâng cao

Chọn model phù hợp

  • Sonnet: sử dụng mặc định
  • Haiku: task đơn giản
  • Opus: task phức tạp

Hạn chế dùng sub-agent

Sub-agent có thể tiêu tốn nhiều hơn 7–10 lần token so với bình thường.

Tận dụng thời gian off-peak

Giờ thấp điểm giúp session kéo dài hơn.

Tối ưu file claude.md

Biến nó thành nơi lưu:

  • Quyết định
  • Quy tắc
  • Kiến trúc

Không lưu toàn bộ hội thoại.

Mindset quan trọng

Đây không phải là vấn đề giới hạn token thấp.

Vấn đề chính là cách quản lý context.


Để tiết kiệm token:

  • Giữ context ngắn
  • Tránh chat kéo dài
  • Cung cấp thông tin chính xác
  • Kiểm soát quá trình làm việc của AI

Tóm lại: không phải Claude đắt, mà là cách sử dụng chưa tối ưu.

Anh em đang dùng Claude Code có gặp tình trạng tương tự không? Có cách nào hay hơn thì chia sẻ thêm.

Top comments (0)