ROMhub

Posted on May 15 • Originally published at reddit.com

Vì sao có model rất mạnh nhưng vẫn cho cảm giác khó cộng tác trong OpenClaw

#openclaw #aiagent #prompting #workflow

Bài gốc trên Reddit đặt ra một cảm giác mà khá nhiều anh em dùng AI agent từng gặp: cùng là model mạnh, nhưng trải nghiệm làm việc lại rất khác. Có model cho cảm giác chủ động, biết đỡ việc, biết kéo mình đi tiếp khi đầu óc đang rối. Có model thì thông minh nhưng thụ động hơn, chỉ làm đúng thứ mình nói và rất ít khi tự mở rộng hướng xử lý.

Vấn đề ở đây không hẳn là “model nào tốt tuyệt đối”, mà là model đó có hợp với kiểu làm việc của mình hay không, nhất là khi anh em đang dùng OpenClaw để phối hợp nhiều bước, nhiều tool và nhiều quyết định nhỏ liên tiếp.

Vì sao cùng một tác vụ mà cảm giác giữa các model lại khác nhiều

Trong thực tế, trải nghiệm với AI agent thường bị chi phối bởi 3 lớp cùng lúc:

năng lực nền của model
cách model phản ứng với chỉ dẫn mơ hồ hay thiếu cấu trúc
cách OpenClaw, soul file, tool routing và môi trường chạy bao quanh model đó

Nghĩa là khi một anh em thấy GPT 5.5 “không có hồn” còn Opus lại “biết đỡ việc”, chưa chắc nguyên nhân nằm hoàn toàn ở model. Có thể là:

model đó cần prompt mở bài rõ hơn để chủ động hơn
soul file đang tối ưu cho tính an toàn và làm đúng lệnh hơn là chủ động đề xuất
tác vụ đang cần kiểu cộng tác mềm, trong khi model lại nghiêng về kiểu chờ lệnh rõ ràng
chuỗi tool hoặc context làm model mất đà, nên câu trả lời nghe khô và máy móc hơn

Khi nào cảm giác “thông minh nhưng không giúp được mình” xuất hiện

Đây là dấu hiệu rất dễ gặp khi anh em dùng agent cho công việc có nhiều bước chưa rõ đầu bài:

chưa xác định rõ mục tiêu cuối cùng
cần agent tự chia nhỏ việc
cần agent đặt câu hỏi ngược để làm rõ
cần agent đề xuất hướng đi thay vì chỉ chờ lệnh
mình đang mệt hoặc bị quá tải nên không thể liên tục điều phối

Trong những tình huống đó, một model có xu hướng chủ động, giàu ngữ cảnh và biết “tiếp lời đúng lúc” thường cho cảm giác dễ dùng hơn rất nhiều, dù benchmark thuần chưa chắc chênh lệch quá xa.

Cách kiểm tra xem vấn đề nằm ở model hay nằm ở cách setup

Nếu anh em đang gặp cảm giác tương tự, mình nghĩ nên kiểm theo thứ tự này trước:

1. Tách riêng model khỏi soul file

Chạy lại đúng một tác vụ nhưng đổi qua:

soul mặc định
soul tối giản
một prompt hệ thống cực ngắn chỉ yêu cầu chủ động và nêu giả định

Nếu kết quả thay đổi mạnh, vấn đề có thể nằm ở lớp hướng dẫn chứ không phải model gốc.

2. So sánh trên cùng một đầu bài nhiều mức rõ ràng

Lấy một task rồi thử 3 phiên bản:

đầu bài mơ hồ
đầu bài có mục tiêu rõ
đầu bài có checklist, tiêu chí thành công và giới hạn

Nếu model chỉ làm tốt khi đầu bài chặt chẽ, nghĩa là nó không yếu, mà nó ít chủ động hơn và cần khung điều phối tốt hơn.

3. Kiểm tra hành vi khi cần dùng tool

Có model nói chuyện rất ổn nhưng khi chuyển qua exec, browser hay workflow nhiều bước thì mất nhịp. Anh em nên test riêng:

tác vụ chỉ hỏi đáp
tác vụ có 1 tool
tác vụ có nhiều tool nối chuỗi

Nếu độ hụt xuất hiện từ lúc dùng tool, bài toán có thể là orchestration chứ không phải chất lượng hội thoại.

Nếu vẫn muốn tận dụng GPT 5.5 trong OpenClaw thì nên chỉnh gì

Thay vì yêu cầu chung chung kiểu “giúp tôi làm việc này”, anh em có thể thử đổi sang format điều phối rõ hơn:

nêu mục tiêu cuối cùng bằng 1 câu
yêu cầu model tự chia bước trước khi làm
yêu cầu model nêu giả định nếu thiếu dữ liệu
yêu cầu model đề xuất 2-3 hướng nếu bài toán còn mơ hồ
yêu cầu model tiếp tục chủ động cho tới khi gặp blocker thật sự

Một mẫu ngắn khá thực dụng là:

Mục tiêu: hoàn thành X.
Nếu đầu bài chưa rõ, hãy tự nêu giả định hợp lý và tiếp tục.
Trước khi làm, chia task thành các bước ngắn.
Nếu có nhiều hướng, đề xuất phương án tốt nhất rồi thực hiện.
Chỉ dừng khi gặp blocker thật sự cần tôi quyết định.

Cách này không biến model thành một tính cách khác hoàn toàn, nhưng thường cải thiện cảm giác “đợi lệnh” khá rõ.

Bài học lớn hơn cho anh em đang build agent

Điểm đáng chú ý từ thảo luận này là: trải nghiệm agent không chỉ là chọn model mạnh nhất. Nó là bài toán ghép đúng giữa:

kiểu tư duy của model
mức chủ động mình cần
độ rõ của prompt điều phối
lớp tool và context mà agent phải gánh

Nếu anh em dùng OpenClaw cho việc thực chiến, nên đánh giá model theo 3 câu hỏi:

Model này có biết tự làm rõ vấn đề không?
Model này có giữ nhịp tốt khi phải dùng tool không?
Model này có hợp với cách mình ra lệnh lúc bận, mệt hoặc thiếu cấu trúc không?

Nhiều khi model “hợp tay” sẽ tạo ra hiệu quả cao hơn model có vẻ mạnh hơn trên giấy.

Kết lại

Từ một câu hỏi khá cảm tính trên Reddit, mình nghĩ đây lại là một tín hiệu rất thật về trải nghiệm dùng agent hằng ngày. Khi anh em cảm thấy một model “không đỡ việc cho mình”, đừng vội kết luận là model dở. Hãy tách thử model, prompt, soul file và luồng tool ra để kiểm từng lớp.

Làm vậy sẽ dễ biết mình nên đổi model, đổi cách điều phối, hay chỉ cần thêm một prompt khởi động tốt hơn là đủ.

AI & Automation (vnROM)