Anthropic vừa công bố postmortem giải thích vì sao nhiều anh em thấy Claude Code "ngu đi" suốt gần một tháng qua. Điểm đáng chú ý không nằm ở một lỗi đơn lẻ, mà ở việc có tới 3 thay đổi khác nhau chồng lên nhau theo từng giai đoạn, khiến trải nghiệm xuống chất lượng theo kiểu rất khó đoán.
Với anh em đang dùng AI coding tool mỗi ngày, đây là một tin tức đáng theo dõi vì nó nhắc lại một bài học rất thực tế: chỉ cần thay reasoning mặc định, cache hành vi sai, hoặc system prompt bị siết quá mạnh là chất lượng đầu ra có thể tụt thấy rõ, dù model lõi không hề đổi theo hướng mà người dùng mong muốn.
3 nguyên nhân chính khiến trải nghiệm Claude Code xuống chất lượng
Theo nội dung đang được chia sẻ mạnh trên r/ClaudeCode, Anthropic mô tả 3 sự cố riêng:
Giảm reasoning effort mặc định từ high xuống medium vào ngày 4/3
Mục tiêu là giảm latency, nhưng người dùng cảm nhận khác ngay gần như lập tức. Động thái này được hoàn tác vào ngày 7/4.Lỗi cache làm Claude mất lịch sử reasoning trong suốt session từ ngày 26/3
Thay vì chỉ tối ưu bộ nhớ cho session idle, bug khiến hệ thống xóa reasoning history ở mọi lượt tiếp theo. Kết quả là Claude vẫn tiếp tục làm task nhưng quên mất vì sao trước đó nó ra quyết định như vậy. Việc này còn làm cache miss tăng lên, kéo usage limit tụt nhanh hơn dự kiến.Một thay đổi trong system prompt giới hạn phản hồi giữa các lần gọi tool xuống 25 từ từ ngày 16/4
Prompt mới còn giới hạn final response xuống 100 từ. Theo mô tả từ postmortem, thay đổi này làm chất lượng coding giảm rõ rệt trên cả Opus 4.6 và 4.7, trước khi bị revert vào ngày 20/4.
Điểm khó là 3 vấn đề này không ảnh hưởng toàn bộ traffic giống nhau tại cùng một thời điểm. Chúng chạm vào các nhóm người dùng khác nhau theo lịch khác nhau, nên từ phía cộng đồng sẽ xuất hiện cảm giác Claude lúc tốt lúc dở, rất khó khoanh vùng nguyên nhân nếu chỉ nhìn từ trải nghiệm cá nhân.
Vì sao tin này quan trọng với anh em đang dùng AI coding tool
Có 3 góc mình nghĩ anh em nên để ý.
1. Cảm giác "model dạo này kém hơn" đôi khi là do lớp vận hành, không phải do model lõi
Trong thực tế, người dùng thường nói gọn là model bị ngu đi. Nhưng vụ này cho thấy cảm nhận đó có thể đến từ nhiều lớp:
- mặc định reasoning bị đổi
- cache hoạt động sai
- prompt điều phối bị siết quá tay
- giới hạn nội bộ làm hành vi model mất tự nhiên
Nói cách khác, chất lượng sản phẩm AI không chỉ nằm ở checkpoint model mà còn nằm ở orchestration xung quanh nó.
2. Tối ưu latency hay chi phí nếu làm quá tay có thể phá đúng thứ người dùng đang trả tiền để nhận
Giảm reasoning để tăng tốc nghe rất hợp lý ở góc vận hành. Nhưng với công cụ coding, người dùng thường chấp nhận chậm hơn một chút để đổi lấy output chắc hơn, nhất quán hơn. Khi hệ thống tự đổi mặc định mà không quản trị kỳ vọng tốt, phản ứng ngược là điều dễ hiểu.
3. Minh bạch postmortem vẫn là cách tốt nhất để lấy lại niềm tin
Điểm cộng trong câu chuyện này là Anthropic đã công khai khá rõ nguyên nhân, mốc thời gian và tình trạng khắc phục. Trong thế giới AI tool, điều này rất đáng giá vì nó giúp anh em phân biệt được đâu là bug vận hành, đâu là thay đổi sản phẩm có chủ đích, và đâu là thứ cần tự kiểm chứng lại trong workflow của mình.
Bài học thực dụng cho team đang triển khai agent hoặc AI workflow
Nếu anh em đang build workflow quanh Claude Code hoặc bất kỳ coding agent nào khác, mình nghĩ có thể rút ra mấy checklist sau.
Theo dõi chất lượng bằng tín hiệu cụ thể, đừng chỉ theo cảm giác
Nên ghi lại một vài benchmark nội bộ kiểu:
- thời gian hoàn thành task mẫu
- số vòng sửa lại để đạt output chấp nhận được
- tỷ lệ gọi tool thừa
- độ ổn định của reasoning giữa các turn
- số token hoặc usage bị tăng bất thường
Khi có log kiểu này, team sẽ phát hiện sớm hơn chuyện chất lượng giảm do hệ thống xung quanh model.
Tách bạch phần model và phần điều phối
Nếu workflow của anh em có nhiều lớp prompt, cache, tool routing và guardrail, hãy xem từng lớp như một nguồn lỗi độc lập. Đừng mặc định kết quả dở là do model kém hơn. Nhiều khi vấn đề nằm ở policy hoặc middleware do chính mình thêm vào.
Giữ một bộ regression task nhỏ nhưng sát việc thật
Một bộ task ngắn, chạy đều mỗi ngày hoặc mỗi đợt thay đổi cấu hình, sẽ hữu ích hơn rất nhiều so với cảm giác dùng chung chung. Chỉ cần 5 đến 10 task đại diện cho việc thật là đã đủ phát hiện xu hướng xấu.
Khi có dấu hiệu bất thường, kiểm tra cả cache và prompt hệ thống
Đây là hai nơi dễ gây lỗi kiểu khó nhìn thấy nhất. Người dùng cuối thường chỉ thấy output khác đi, nhưng không thấy nguyên nhân nằm ở logic session hoặc câu lệnh hệ thống.
Góc nhìn tin tức: đây là case rất đáng tham khảo cho mọi sản phẩm AI
Tin tức này không chỉ liên quan riêng tới Claude Code. Nó là ví dụ khá điển hình cho một vấn đề lớn hơn trong sản phẩm AI hiện nay: chất lượng người dùng cảm nhận được là tổng hợp của model, mặc định suy luận, cơ chế cache, prompt điều phối và cách rollout thay đổi.
Nếu anh em đang chọn tool để code, hoặc đang tự build agent cho team, case này nhắc rất rõ một điều: hãy đánh giá sản phẩm ở tầng trải nghiệm thực tế, và luôn giữ thói quen đo lại sau mỗi thay đổi, kể cả khi nhà cung cấp không đổi model headline.
Ở góc tích cực, việc postmortem được công khai cùng thông tin rằng các lỗi đã được sửa từ ngày 20/4 và usage limit sẽ được reset cho subscriber cũng cho thấy áp lực từ cộng đồng vẫn có tác dụng. Khi người dùng báo đúng vấn đề và nhà cung cấp chịu minh bạch, chất lượng sản phẩm sẽ có cơ hội quay về quỹ đạo nhanh hơn.
Top comments (0)