sunworld

Posted on Apr 18 • Originally published at reddit.com

Opus 4.7 đang bị cộng đồng Claude Code phàn nàn nặng: vấn đề nằm ở model hay cấu hình sử dụng?

#claudecode #anthropic #ai #tintuc

Mấy giờ gần đây, một bài viết trên cộng đồng Claude Code đang leo rất nhanh với luận điểm khá gắt: Opus 4.7 cho trải nghiệm tệ bất thường trong công việc thực tế. Tác giả mô tả model hay tự suy diễn, bám vào kết luận sai, khó sửa khi đã hiểu nhầm, và tệ hơn là làm người dùng mất thêm nhiều vòng kiểm tra thủ công.

Nếu bỏ qua phần cảm xúc, đây vẫn là một tín hiệu đáng để anh em làm sản phẩm, automation hoặc coding workflow chú ý.

Chuyện gì đang xảy ra?

Theo bài đăng gốc, người dùng đã đốt khoảng 120 USD credit thử nghiệm trong một ngày và gặp liên tiếp nhiều lỗi vận hành:

Model sửa README nhưng không bám đúng framing đã được yêu cầu.
Khi dữ liệu đánh giá thay đổi, model vẫn giữ nguyên kết luận cũ thay vì tự kiểm tra lại.
Một số hướng dẫn kỹ thuật bị bịa thêm chi tiết không có thật.
Khi bị phản biện bằng log và bằng chứng, model vẫn cố bảo vệ kết luận sai thay vì quay lại xác minh nguồn.

Tại thời điểm mình lấy mẫu, chủ đề này đã có khoảng 484 upvote và 254 bình luận, đủ để xem như một tín hiệu cộng đồng chứ không còn là một ca lẻ.

Vì sao đây là tin đáng chú ý?

Với người dùng chat thông thường, một model trả lời kém có thể chỉ gây khó chịu. Nhưng với anh em đang dùng agent để làm việc thật, lỗi kiểu này đắt hơn nhiều vì nó tạo ra chi phí giám sát:

phải đọc lại diff kỹ hơn
phải xác minh từng khẳng định thay vì tin vào bước tổng hợp
phải lặp lại prompt để kéo model về đúng phạm vi
phải trả thêm token cho các vòng sửa sai

Nói ngắn gọn, nếu model mạnh hơn trên benchmark nhưng làm tăng chi phí kiểm duyệt trong production thì lợi ích thực tế có thể âm.

Có thể nguyên nhân không chỉ nằm ở bản thân model

Một điểm cần giữ tỉnh táo là bài viết Reddit phản ánh trải nghiệm thực chiến của một người dùng, không phải benchmark chuẩn hóa. Vấn đề có thể đến từ nhiều lớp cùng lúc:

preset reasoning hoặc effort đang để quá thấp
agent wrapper can thiệp vào cách model suy nghĩ và dùng tool
prompt hệ thống hoặc profile đang làm model quá tự tin
regression thật từ model ở một số dạng task cụ thể
ngữ cảnh phiên làm việc dài khiến model bám chặt vào giả định cũ

Nói cách khác, đây là tin xấu cho trải nghiệm người dùng, nhưng chưa đủ để kết luận toàn bộ Opus 4.7 đều kém hơn 4.6 trong mọi tình huống.

Điều doanh nghiệp nên làm ngay nếu đang dùng Claude Code hoặc agent coding

Thay vì tranh cãi model nào mạnh hơn trên mạng, anh em nên kiểm tra lại pipeline vận hành theo checklist này:

1. Tách rõ task nào cần độ chính xác cao

Các việc như:

sửa tài liệu kỹ thuật
cập nhật cấu hình
đọc log rồi kết luận nguyên nhân
sinh hướng dẫn triển khai

là nhóm rất dễ gây thiệt hại nếu model tự suy diễn. Đừng gom chúng chung với các task sáng tạo hoặc exploratory.

2. Bắt model phải xác minh trước khi kết luận

Nếu workflow của anh em chưa ép bước kiểm tra log, file, API response hoặc diff thật trước khi kết luận, thì model nào cũng sẽ có cửa bịa. Vấn đề không chỉ là model mạnh hay yếu, mà là workflow có chặn hallucination đủ sớm không.

3. Theo dõi chi phí sửa sai, không chỉ chi phí token

Một model rẻ hơn nhưng khiến kỹ sư phải canh nhiều hơn thường không thực sự rẻ. Hãy đo thêm:

số vòng prompt trung bình để hoàn tất task
số lần phải rollback hoặc sửa tay
tỷ lệ kết luận sai trên log hoặc số liệu thật
thời gian review của con người trên mỗi tác vụ

4. So sánh theo repo và task thật của chính mình

Bài học lớn nhất từ các đợt model update là: benchmark công khai không đại diện cho codebase của anh em. Nếu đang cân nhắc nâng phiên bản, hãy chạy A/B trên chính task thật của đội mình trong vài ngày trước khi đổi mặc định.

Góc nhìn thực tế

Tin quan trọng ở đây không phải là một bài than phiền viral. Tin quan trọng là cộng đồng người dùng nặng đô đang bắt đầu mô tả cùng một kiểu rủi ro: model có thể trông tự tin hơn mức đáng tin.

Với đội làm sản phẩm hoặc automation, đây là thứ cần theo dõi sát hơn cả chỉ số benchmark đẹp. Một agent coding hữu ích không chỉ cần thông minh, mà còn phải biết dừng lại để kiểm tra khi dữ liệu thay đổi.

Nếu Anthropic hoặc cộng đồng có thêm benchmark thực chiến rõ hơn trong vài ngày tới, mình nghĩ đây sẽ là chủ đề đáng theo dõi tiếp, vì nó ảnh hưởng trực tiếp tới cách anh em chọn model cho môi trường làm việc thật.

AI & Automation (vnROM)