Một bài thảo luận mới trên r/openclaw đang chạm đúng vào một chủ đề rất dễ gây hiểu lầm trong thế giới agent: cứ hệ nào gắn nhãn “self learning” thì nghe có vẻ như đang tiến gần hơn tới một trợ lý biết tự cải thiện thật sự.
Nhưng khi bóc kỹ trải nghiệm dùng thử Hermes mà tác giả bài gốc chia sẻ, thứ đáng bàn không phải là marketing của từ này. Cái đáng bàn là: nếu một agent tự làm, tự chấm điểm kết quả của chính nó, rồi tự ghi lại thành skill để dùng về sau, thì ai đang kiểm soát chất lượng thật?
Và đây mới là tin đáng chú ý cho anh em theo dõi mảng agent vận hành.
Hermes đang hứa hẹn điều gì?
Theo mô tả trong bài Reddit, điểm khiến nhiều người tò mò ở Hermes là cái gọi là “self learning”. Nhưng cách nó hoạt động không phải kiểu mô hình tự học ở nghĩa machine learning truyền thống.
Cách gần đúng hơn là:
- agent làm task
- agent tự đánh giá xem mình làm có ổn không
- agent rút từ đó thành skill viết dưới dạng markdown
- lần sau tái sử dụng skill đó
- và tiếp tục điều chỉnh skill theo thời gian
Nghe trên giấy thì khá hấp dẫn. Nó hứa hẹn một vòng lặp mà trong đó agent không cần con người viết skill tay từ đầu cho mọi thứ.
Nếu mọi thứ chạy đúng, đây là một ý tưởng đáng chú ý vì nó có thể giảm công sức “đóng gói kinh nghiệm” của người vận hành.
Vấn đề lớn nhất không nằm ở skill, mà nằm ở bộ chấm điểm
Điểm tác giả bài Reddit chê mạnh nhất lại rất đáng suy nghĩ: chính agent là người tự đánh giá xem mình làm tốt hay không.
Theo trải nghiệm được kể lại, Hermes gần như luôn tin rằng nó đã làm tốt, kể cả khi kết quả thực tế bị sai hoặc lẫn lộn dữ liệu.
Đây là một vấn đề rất thật trong vận hành agent:
- nếu bộ thực thi sai, đã nguy hiểm
- nhưng nếu bộ tự kiểm sai mà vẫn chấm mình đạt, hệ sẽ bắt đầu ghi sai lầm thành “bài học”
Đó là lúc lỗi không còn chỉ xảy ra một lần. Nó có thể được đóng gói lại thành skill rồi quay về phá các lần chạy sau.
Nói ngắn gọn: một hệ tự học mà không có lớp kiểm chứng độc lập rất dễ biến thành hệ tự củng cố ảo tưởng của chính nó.
Tại sao điều này đáng lo hơn một lỗi trả lời sai thông thường?
Một câu trả lời sai lẻ tẻ thì anh em còn nhìn thấy và sửa. Nhưng trong mô hình “tự cải thiện”, rủi ro lớn hơn nằm ở chỗ sai lầm được hợp thức hóa thành trí nhớ vận hành.
Cụ thể, sẽ có ít nhất ba tầng rủi ro.
1. Sai nhưng vẫn được ghi nhận là đúng
Nếu agent tự chấm điểm quá dễ dãi, nó sẽ không phân biệt được khác biệt giữa:
- hoàn thành thật
- làm gần đúng
- làm sai nhưng trông có vẻ hợp lý
Với các tác vụ nghiên cứu, lấy dữ liệu, viết skill hay thao tác nhiều bước, đây là lỗ hổng rất lớn.
2. Con người sửa tay nhưng hệ có thể ghi đè lại
Tác giả bài gốc nêu ra một chi tiết rất đáng chú ý: khi người dùng sửa skill bằng tay để làm cho kết quả đúng hơn, Hermes vẫn có thể tiếp tục “tự cải thiện” rồi ghi đè lên các chỉnh sửa đó.
Nếu điều này xảy ra thường xuyên, toàn bộ lợi ích của việc tinh chỉnh bằng kinh nghiệm thật sẽ bị bào mòn. Người vận hành rơi vào cảnh sửa xong rồi lại phải canh xem hệ có phá lại không.
Trong môi trường thực chiến, đó là kiểu mệt mỏi rất nhanh giết chết niềm tin vào công cụ.
3. Hệ tạo cảm giác thông minh hơn thực tế
Từ “self learning” dễ khiến người dùng kỳ vọng rằng hệ đang ngày càng tốt hơn. Nhưng nếu không có lớp đánh giá độc lập, thứ tăng lên có thể chỉ là độ tự tin của hệ vào output của chính nó.
Và đó là một loại rủi ro khó thấy hơn nhiều so với crash hay timeout.
Đây có phải là tin xấu hoàn toàn cho Hermes không?
Theo mình thì chưa nên kết luận như vậy.
Bài Reddit gốc cũng không chê theo kiểu phủ nhận sạch. Tác giả vẫn nói họ sẽ tiếp tục theo dõi dự án vì về mặt ý tưởng, nó vẫn có thể trở nên rất hay nếu làm đúng.
Điều đó khá hợp lý.
Bản thân ý tưởng agent tự rút kinh nghiệm thành skill không hề dở. Ngược lại, nó là một hướng rất đáng theo dõi vì nó chạm đúng bài toán tốn công nhất của hệ agent: làm sao biến kinh nghiệm từ các lần chạy trước thành tài sản tái sử dụng.
Vấn đề chỉ là nếu muốn hướng này sống được ngoài đời thật, vòng học phải có guardrail tốt hơn nhiều.
Một vòng “tự học” đáng tin cần gì?
Nếu nhìn từ góc độ vận hành, mình nghĩ ít nhất phải có bốn lớp.
1. Đánh giá tách khỏi thực thi
Agent làm task không nên là tác nhân duy nhất chấm task đó.
Ít nhất cần:
- một model khác
- hoặc rule-based checks độc lập
- hoặc schema/expected-output validation
- hoặc human review với các loại task nhạy cảm
Nếu không có lớp chéo này, rất dễ rơi vào cảnh vừa đá bóng vừa thổi còi.
2. Skill do máy tạo ra phải có quyền hạn thấp hơn skill đã được duyệt
Một skill tự sinh ra không nên được quyền ngang hàng với skill đã được con người sửa và xác nhận.
Hệ nên phân biệt rõ:
- draft skill
- reviewed skill
- locked skill
Không phân tầng như vậy thì chuyện ghi đè kinh nghiệm đúng bằng kinh nghiệm sai chỉ còn là vấn đề thời gian.
3. Cần log rõ vì sao hệ tin rằng nó làm tốt
Một hệ nói “tôi đã thành công” là chưa đủ. Phải biết nó dựa vào tín hiệu gì:
- output đủ schema?
- dữ liệu đối chiếu đúng nguồn?
- người dùng xác nhận?
- benchmark pass?
Không truy được lý do thì không audit được chất lượng học.
4. Phải có cơ chế rollback hoặc chặn skill xuống production
Nếu một skill mới được tự sinh ra mà chưa qua kiểm chứng, nó nên ở staging trước, không nên tự động vào production path.
Đây là nguyên tắc rất quen trong vận hành phần mềm, và càng đúng hơn với agent.
Góc nhìn rộng hơn: cộng đồng đang bớt tin vào lời hứa, bắt đầu soi cơ chế
Điều mình thấy đáng chú ý từ bài thảo luận này không chỉ là Hermes bị chê. Mà là cách cộng đồng đang phản ứng với các từ khóa hấp dẫn như “self learning”, “self improvement”, “autonomous adaptation”.
Trước đây, chỉ cần nghe ý tưởng là nhiều người đã thấy phấn khích. Còn bây giờ, người dùng bắt đầu hỏi kỹ hơn:
- học bằng cách nào
- ai chấm đúng sai
- sửa tay có bị ghi đè không
- hệ mạnh hơn thật hay chỉ tự tin hơn
Đó là một tín hiệu tốt cho cả hệ sinh thái agent. Nó cho thấy cộng đồng đang bước dần từ giai đoạn mê khái niệm sang giai đoạn đánh giá theo logic vận hành.
OpenClaw nên được nhìn lại ra sao từ câu chuyện này?
Có một điểm ngầm nhưng khá quan trọng trong bài Reddit: tác giả cuối cùng vẫn chọn ở lại với OpenClaw, dù đã thử Hermes.
Điều này không nhất thiết có nghĩa OpenClaw hoàn hảo hơn. Nhưng nó gợi ra một lợi thế thực dụng của cách làm “thô mà kiểm soát được”:
- skill viết tay tuy tốn công hơn
- memory markdown nghe kém hào nhoáng hơn
- nhưng người vận hành biết cái gì đang tồn tại và vì sao nó ở đó
Trong nhiều hệ thống thực chiến, khả năng kiểm soát và dự đoán thường đáng tiền hơn cảm giác “hệ tự lớn lên”.
Kết luận
Bài thảo luận này đáng chú ý không phải vì nó chứng minh Hermes thất bại. Nó đáng chú ý vì nó nhắc lại một sự thật rất quan trọng với mọi agent framework đang theo đuổi hướng tự cải thiện:
nếu không có lớp đánh giá độc lập, “self learning” rất dễ trở thành “self-approval”.
Với anh em theo dõi OpenClaw, Hermes hay bất kỳ hệ agent mới nào, đây là câu hỏi nên giữ rất chặt: hệ có thật sự học tốt hơn, hay chỉ đang tự tin hơn vào lỗi của chính nó?
Nếu chưa trả lời được câu đó, thì thứ an toàn hơn trong thực chiến vẫn thường là hệ mà con người còn nhìn thấy, hiểu được và khóa lại được các bài học quan trọng.
Top comments (0)