Một meme đang lên rất nhanh ở r/vibecoding chọc đúng vào một thói quen mà khá nhiều anh em làm cùng AI dính phải: vừa mở máy là nhồi cho model một cục prompt dài như tài liệu dự án, rồi ngạc nhiên khi quota hoặc context bay màu quá sớm.
Nhìn thì buồn cười, nhưng đây không chỉ là chuyện tiết kiệm lượt dùng Claude. Nó là dấu hiệu cho thấy workflow làm việc với AI chưa được thiết kế đúng. Khi prompt nào cũng thành một bản đặc tả khổng lồ, chi phí tăng lên, tốc độ phản hồi chậm đi, và chất lượng đầu ra thường còn tệ hơn vì model phải bơi trong quá nhiều tín hiệu lẫn nhiễu.
Vì sao anh em đụng limit nhanh
Có mấy kiểu rất hay gặp:
- Dồn toàn bộ bối cảnh dự án vào mỗi lần hỏi, kể cả phần không liên quan tới task hiện tại.
- Viết prompt như một wishlist: vừa muốn sửa bug, vừa muốn refactor, vừa muốn thêm feature, vừa muốn giải thích kiến trúc.
- Copy nguyên log, nguyên file lớn, nguyên stack trace nhiều lần giữa các vòng trao đổi.
- Không tách việc theo pha: khám phá, chốt hướng, rồi mới triển khai.
- Mỗi lần model trả lời chưa đúng là lại thêm hướng dẫn mới chồng lên hướng dẫn cũ.
Kết quả là cửa sổ ngữ cảnh bị lấp đầy bởi những thứ lẽ ra không cần phải mang theo suốt phiên làm việc.
Vấn đề thật sự không nằm ở model, mà nằm ở cách đóng gói công việc
Mình thấy nhiều anh em đánh giá model theo kiểu: con này yếu, con kia mau hết quota, con nọ không chịu nghe. Nhưng nếu workflow lộn xộn thì model nào cũng xuống sức.
AI làm tốt nhất khi bài toán có biên rõ ràng:
- mục tiêu cụ thể
- phạm vi dữ liệu vừa đủ
- tiêu chí xong việc rõ ràng
- đầu ra mong muốn được chỉ định trước
Ngược lại, nếu mình quăng vào một mớ hỗn hợp gồm lịch sử, cảm xúc, giả định, ý tưởng mới và backlog tồn đọng, model sẽ tiêu token để giữ ngữ cảnh thay vì tạo ra kết quả hữu ích.
Cách giảm token mà vẫn tăng chất lượng đầu ra
1. Chia prompt theo lớp
Đừng nhét tất cả vào một khối. Mình thường tách ra:
- Bối cảnh nền: dự án này là gì, stack gì, ràng buộc gì.
- Nhiệm vụ hiện tại: đúng một việc cần xử lý trong lượt này.
- Đầu ra mong muốn: patch, checklist, kế hoạch, truy vấn SQL, hay đoạn giải thích.
Chỉ lớp thứ hai và thứ ba mới cần thay đổi thường xuyên. Bối cảnh nền nên được rút gọn thành một phiên bản ngắn, không phải nguyên wiki dự án.
2. Mỗi lượt chỉ giao một job chính
Nếu vừa sửa bug đăng nhập, vừa tối ưu schema, vừa xin review bảo mật, gần như chắc chắn model sẽ trả về một mớ nửa mùa. Một lượt tốt thường chỉ nên có một mục tiêu chính và tối đa một ràng buộc phụ.
Ví dụ tốt:
- Phân tích vì sao flow đăng nhập bằng magic link bị loop và đề xuất 2 hướng sửa.
- Viết migration thêm cột
last_seen_at, không đụng logic khác. - Review file này theo góc nhìn security, chỉ liệt kê lỗi mức cao và cách vá.
3. Dùng tóm tắt trung gian thay vì kéo cả lịch sử
Sau vài vòng làm việc, hãy yêu cầu model hoặc tự mình chốt lại một bản summary ngắn:
- mình đã thử gì
- hướng nào bị loại
- quyết định hiện tại là gì
- bước tiếp theo là gì
Lượt sau chỉ cần mang summary đó đi tiếp. Cách này giảm token mạnh hơn nhiều so với việc giữ nguyên toàn bộ cuộc hội thoại.
4. Chỉ đính kèm dữ liệu có liên quan trực tiếp
Nhiều anh em có thói quen quăng cả repo hoặc dán file rất dài chỉ để hỏi một bug nhỏ. Nếu lỗi nằm ở middleware auth thì đừng gửi thêm component UI, seed data, hay file cấu hình không liên quan.
Nguyên tắc đơn giản là: model chỉ nên nhìn thấy những gì nó cần để ra quyết định đúng cho task hiện tại.
5. Chốt format đầu ra trước
Một prompt ngắn nhưng chỉ rõ format thường hiệu quả hơn prompt dài nhưng mơ hồ. Ví dụ:
- trả lời bằng checklist 5 bước
- chỉ đưa diff logic, không viết lại toàn file
- nêu 3 rủi ro lớn nhất trước, rồi mới tới đề xuất
- nếu thiếu dữ liệu thì hỏi lại tối đa 2 câu
Format tốt giúp model bớt lan man, đồng thời tiết kiệm cả token đầu vào lẫn đầu ra.
Với vibe coding, quota không chỉ là chi phí mà còn là nhịp làm việc
Anh em nào build nhanh bằng Claude, Cursor hay các agent tương tự sẽ thấy chuyện này rất rõ: khi đốt quota quá sớm, cả nhịp làm việc bị gãy.
- Đang debug dở thì phải chờ reset.
- Đang triển khai một luồng dài thì context bị loãng.
- Đang review code thì buộc phải cắt ngắn bước kiểm tra cuối.
Cho nên tối ưu prompt không phải mẹo vặt. Nó là năng lực vận hành. Team nào biết chia việc, biết tóm tắt, biết kiểm soát ngữ cảnh thì cùng một số lượt dùng vẫn ship được nhiều việc hơn.
Một workflow gọn mà mình thấy hiệu quả
Nếu anh em hay chạm limit, có thể thử khung này:
- Viết một brief nền 5-10 dòng cho dự án.
- Mỗi task chỉ mô tả đúng một mục tiêu.
- Gắn thêm dữ liệu tối thiểu cần thiết.
- Yêu cầu đầu ra theo format cố định.
- Sau khi xong một chặng, tạo summary ngắn để dùng cho lượt sau.
Nghe đơn giản, nhưng chỉ riêng việc bỏ thói quen dồn mọi thứ vào một prompt đã giúp chất lượng làm việc ổn định hơn hẳn.
Góc nhìn đáng chú ý từ meme này
Điểm hay của post đang hot không phải ở trò đùa về Claude. Nó phản ánh một chuyển dịch khá rõ trong cộng đồng vibe coding: anh em bắt đầu nhận ra lợi thế không còn nằm ở việc biết viết prompt dài, mà nằm ở việc biết thiết kế quy trình cộng tác với AI.
Người dùng nào coi model như một bãi chứa ngữ cảnh sẽ sớm đụng trần. Người dùng nào coi model như một cộng sự cần brief đúng, giao việc rõ, và handoff gọn thì đi được xa hơn nhiều.
Nếu nhìn theo hướng đó, meme này thực ra là một mẩu tin nhỏ nhưng rất đúng thời điểm: thời của prompt dài để gây ấn tượng đang qua dần, nhường chỗ cho thời của prompt gọn nhưng có cấu trúc.
Top comments (0)