Thảo luận nóng trên r/ClaudeCode: auto-memory có thể là một nguyên nhân làm token usage tăng bất thường

#claudecode #anthropic #tokenusage #tintuc

Bên r/ClaudeCode đang có một thảo luận khá nóng về chuyện chi phí token tăng bất thường trong Claude Code. Điểm đáng chú ý là tác giả không chỉ than phiền kiểu cảm tính, mà còn đưa ra một giả thuyết kỹ thuật khá cụ thể: khi tính năng auto-memory được bật, hệ thống có thể sinh thêm các lượt xử lý nền khiến tổng token bị đội lên đáng kể trong một số phiên làm việc dài.

Chuyện gì đang được cộng đồng bàn tán

Theo bài viết đang nổi trên mục hot, tác giả cho rằng một số tài khoản có thể gặp tình huống mỗi tin nhắn không chỉ phục vụ cho phản hồi chính, mà còn kéo theo một nhánh xử lý song song để trích xuất memory. Nếu cơ chế này diễn ra đồng thời với luồng phản hồi chính thì cache prompt có thể không phát huy tác dụng như anh em kỳ vọng, từ đó làm chi phí input token tăng mạnh.

Điểm khiến cộng đồng chú ý là mô tả này khớp với cảm nhận mà nhiều người từng gặp gần đây:

phiên chat dài nhưng tốc độ ăn quota vượt dự đoán
ngay cả message đầu tiên cũng có lúc tốn bất thường
việc ngắt phiên chưa chắc đã dừng hết các xử lý nền

Nói ngắn gọn, đây chưa phải kết luận chính thức từ Anthropic, nhưng nó là một hướng giải thích đủ hợp lý để nhiều người kỹ thuật phải dừng lại kiểm tra.

Vì sao chủ đề này đáng quan tâm

Nếu anh em dùng Claude Code cho tác vụ dài hơi như refactor, debug hoặc chạy agent trên codebase lớn, chênh lệch chi phí token không còn là chuyện nhỏ. Chỉ cần một nhánh xử lý nền lặp lại ở mỗi turn, tổng chi phí cả phiên có thể phình lên rất nhanh mà người dùng bình thường khó nhận ra.

Vấn đề còn nằm ở tính minh bạch. Khi người dùng thấy quota tụt mạnh nhưng giao diện không chỉ rõ luồng nào đang tiêu tốn tài nguyên, cảm giác mất kiểm soát sẽ xuất hiện ngay. Với nhóm làm việc chuyên nghiệp, đây là rủi ro vận hành thật sự chứ không chỉ là một bug khó chịu.

Giả thuyết kỹ thuật từ bài đăng

Bài viết mô tả một cơ chế được gọi là extractMemories, tạm hiểu là nhánh xử lý dùng để tự động rút ra memory sau mỗi tin nhắn. Nếu auto-memory đang bật và tài khoản rơi vào một số cờ thử nghiệm phía máy chủ, nhánh này có thể:

đọc lại một phần hoặc toàn bộ context hội thoại
chạy song song với phản hồi chính
tạo thêm lượt tính token đầu vào ngoài luồng chat mà người dùng đang nhìn thấy
tiếp tục chạy nền ngay cả khi người dùng tưởng phiên đã dừng

Tác giả cũng nhấn mạnh đây là một lời giải thích khả dĩ, không phải xác nhận cuối cùng. Dù vậy, chính vì nó đủ chi tiết nên giá trị của bài viết không nằm ở việc kết luận thay Anthropic, mà ở chỗ giúp cộng đồng biết mình nên kiểm tra điểm nào đầu tiên.

Cách xử lý ngắn hạn mà cộng đồng đang truyền nhau

Khuyến nghị thực dụng nhất từ thảo luận này là: nếu anh em đang thấy usage tăng quá nhanh, hãy thử tắt auto-memory trong Claude Code rồi theo dõi lại một vài phiên làm việc tương đương.

Cách tiếp cận hợp lý là làm theo từng bước:

Chọn một phiên làm việc có độ dài và độ phức tạp tương tự nhau.
Ghi lại mức tiêu thụ trước khi thay đổi.
Tắt auto-memory.
Chạy lại vài phiên tương tự để xem tốc độ tiêu token có giảm rõ không.
Nếu khác biệt lớn, nhiều khả năng anh em đã chạm đúng một nguồn gây phình chi phí.

Đây không phải bản vá cấp hệ thống, nhưng là phép thử vận hành rất đáng làm vì chi phí thử gần như bằng không.

Góc nhìn tin tức: tín hiệu lớn hơn nằm ở kỳ vọng của người dùng

Điều đáng đọc nhất trong bài hot này không chỉ là chi tiết kỹ thuật, mà là thông điệp phía sau: người dùng Claude Code giờ không còn chỉ hỏi mô hình có mạnh hay không, mà đang soi rất kỹ tính dự đoán được của chi phí, độ minh bạch của các tiến trình nền và khả năng kiểm soát session.

Nói cách khác, khi agent coding đi sâu vào công việc thật, trải nghiệm vận hành bắt đầu quan trọng ngang với chất lượng model. Một công cụ mạnh nhưng khiến đội ngũ không đoán được tại sao quota bốc hơi nhanh thì sớm muộn cũng bị đem ra mổ xẻ.

Anh em nên rút ra gì lúc này

Từ góc độ thực chiến, có ba việc mình nghĩ anh em nên làm ngay:

kiểm tra xem auto-memory hiện có đang bật hay không
tách riêng các phiên thử nghiệm để đo mức tiêu thụ token trước và sau khi đổi cấu hình
tránh kết luận quá sớm rằng mọi trường hợp usage cao đều do model yếu hay do người dùng prompt dở

Nhiều khi bài toán không nằm ở một nguyên nhân duy nhất, nhưng thảo luận lần này cho cộng đồng một điểm bắt đầu khá rõ để tự đối chiếu.

Nếu Anthropic lên tiếng hoặc có thêm bằng chứng kỹ thuật mạnh hơn, đây có thể sẽ là một trong những chủ đề đáng theo dõi nhất quanh Claude Code trong thời gian tới.

AI & Automation (vnROM)