I'm here

Posted on Apr 22 • Originally published at reddit.com

Meta đang cho thấy vì sao agent AI vẫn kẹt ở bài toán thao tác máy tính

#ai #agents #automation #openclaw

Mấy hôm nay mình thấy nhiều anh em bàn về chuyện Meta theo dõi thao tác bàn phím, chuột và ảnh chụp màn hình nội bộ để huấn luyện agent AI. Nếu chỉ nhìn ở lớp bề mặt, đây đúng là một câu chuyện nhạy cảm về giám sát nhân sự. Nhưng ở góc nhìn xây hệ thống agent, mình nghĩ đây còn là tín hiệu rất rõ về một nút thắt kỹ thuật mà gần như ai làm computer-use agent cũng đang đụng phải: dữ liệu thao tác thực tế trên giao diện.

Vì sao các agent giỏi viết vẫn chưa thật sự giỏi làm

Mô hình ngôn ngữ hiện tại đã rất mạnh ở các bài toán như:

viết code
tóm tắt tài liệu
trả lời câu hỏi từ kho tri thức lớn
sinh nội dung theo prompt

Nhưng khi chuyển sang tác vụ kiểu:

mở dashboard nội bộ
bấm đúng bộ lọc trong UI thay đổi liên tục
copy số liệu sang spreadsheet
chỉnh format
soạn email cập nhật cho stakeholder

thì độ ổn định tụt xuống rất nhanh.

Lý do không nằm ở chuyện model “không đủ thông minh”, mà nằm ở chỗ dữ liệu huấn luyện cho hành động trên máy tính vẫn quá thiếu và quá bẩn.

Với code thì có GitHub. Với văn bản thì có internet. Còn với chuỗi thao tác thật trên phần mềm nội bộ, web app riêng, công cụ enterprise, IDE cá nhân hóa, hay các workflow văn phòng lộn xộn hằng ngày thì gần như không có một “Common Crawl cho hành động”.

Meta đang cố lấy thứ dữ liệu mà open source gần như không có

Nếu nội dung Reddit kia phản ánh đúng xu hướng, thứ Meta cần không chỉ là ảnh màn hình. Cái họ cần là cặp dữ liệu hoàn chỉnh hơn:

trạng thái màn hình tại từng thời điểm
hành động ngay sau đó của con người
chuỗi chuyển trạng thái dẫn tới kết quả mong muốn

Đây là loại dữ liệu cực quý cho agent kiểu computer use vì nó phản ánh đúng cách con người xử lý những tình huống mà dữ liệu tổng hợp rất khó mô phỏng:

popup xuất hiện bất ngờ
trang render chậm
nút bấm đổi vị trí
menu dropdown thay đổi DOM
người dùng bấm nhầm rồi sửa
người dùng dùng phím tắt theo thói quen

Những thứ này nghe nhỏ, nhưng lại là phần làm agent ngoài đời thất bại nhiều nhất.

Tại sao dữ liệu synthetic chưa đủ cứu bài toán này

Nhiều anh em hay nghĩ cứ dựng môi trường mô phỏng rồi cho agent tự học là đủ. Vấn đề là UI ngoài đời không sạch như sandbox:

layout không ổn định
web app có trạng thái phụ thuộc session
độ trễ thay đổi theo mạng và backend
cùng một tác vụ nhưng mỗi người lại thao tác khác nhau
có vô số trường hợp “xử lý bằng phản xạ” rất khó viết thành rule

Dữ liệu synthetic thường mạnh ở happy path. Còn sản phẩm thực tế lại chết ở edge case.

Đây cũng là lý do nhiều hệ thống browser automation hay computer-use demo rất ấn tượng khi quay video, nhưng đem vào workflow dài 20-30 bước thì bắt đầu rơi lỗi dây chuyền. Chỉ cần một popup hoặc một bước đợi sai nhịp là toàn bộ phiên chạy hỏng.

Nếu nhìn từ góc độ kiến trúc, đây là bước chuyển từ text model sang action model

Mình nghĩ điểm đáng chú ý nhất không phải scandal truyền thông, mà là tín hiệu kiến trúc:

trước đây mô hình chủ yếu tối ưu để hiểu và sinh văn bản
bây giờ mô hình cần hiểu màn hình và dự đoán hành động tiếp theo

Nói ngắn gọn, ngành đang đi từ model biết sang model làm.

Muốn model làm được việc trên máy tính, chỉ có hai hướng lớn:

Grounding theo từng bước: chụp màn hình, phân tích UI, tìm tọa độ, rồi click/type
Behavior cloning / action prediction: nhìn ngữ cảnh màn hình và dự đoán trực tiếp thao tác kế tiếp từ dữ liệu người dùng thật

Hướng 1 dễ xây hơn cho cộng đồng vì tận dụng vision model và rule engine hiện có. Nhưng nó thường chậm, dễ gãy, và phải vá liên tục.

Hướng 2 khó hơn rất nhiều vì cần kho dữ liệu khổng lồ, nhưng nếu làm được thì hiệu quả có thể vượt hẳn trong những workflow nhiều bước.

Bài học rất thực tế cho anh em đang dùng OpenClaw hoặc các agent tương tự

Mình thấy chủ đề này chạm đúng một câu hỏi quan trọng: nếu không có dữ liệu hành động chất lượng cao, anh em nên kỳ vọng gì ở agent today?

Theo mình, có 4 bài học rất thực dụng.

1. Đừng đánh giá agent chỉ bằng demo một bước

Một agent bấm được một nút đúng chưa nói lên nhiều điều.

Thứ cần đo là:

tỷ lệ hoàn thành end-to-end
khả năng hồi phục sau lỗi
số bước trung bình trước khi fail
độ ổn định qua nhiều phiên chạy
mức phụ thuộc vào UI cố định

Nếu anh em đang build use case thực chiến, nên benchmark theo workflow dài thay vì benchmark theo screenshot đẹp.

2. Tối ưu workflow để giảm nhu cầu “nhìn màn hình rồi đoán”

Càng nhiều bước phải suy luận từ pixel, agent càng dễ gãy.

Khi có thể, nên ưu tiên:

API thay cho thao tác UI
structured selectors thay cho OCR/phỏng đoán tọa độ
form chuẩn hóa thay cho workflow tự do
checkpoint rõ ràng sau từng cụm bước

Nói cách khác, nên thiết kế lại hệ thống để agent bớt phải làm việc kiểu “người vận hành chuột ảo”.

3. Bổ sung cơ chế recovery thay vì chỉ cố tăng độ thông minh

Nhiều pipeline fail không phải vì model quá yếu, mà vì không có tầng phục hồi.

Một số pattern nên có:

retry có điều kiện
xác minh sau mỗi hành động quan trọng
fallback selector
timeout phân tầng
yêu cầu xác nhận người dùng ở bước rủi ro cao
lưu state để resume thay vì chạy lại từ đầu

Đây là phần thường tạo khác biệt lớn hơn việc chỉ đổi model đắt hơn.

4. Dữ liệu riêng sẽ trở thành lợi thế cạnh tranh lớn

Nếu các công ty lớn thật sự đang thu thập trace thao tác người dùng ở quy mô lớn, thì khoảng cách sau này không chỉ nằm ở model base, mà nằm ở dữ liệu vận hành độc quyền.

Với cộng đồng open source hoặc đội nhỏ, điều đó gợi ý một hướng đi rõ ràng hơn:

thu thập log thao tác từ chính workflow của mình
gắn nhãn các bước fail/success
chuẩn hóa replay format
lưu lại screen-state + action + outcome cho các tác vụ lặp lại

Không nhất thiết phải đợi tới quy mô Meta. Chỉ cần có dataset tốt cho một domain hẹp, agent đã có thể cải thiện đáng kể.

Câu hỏi khó nhất: dữ liệu nhiều rồi thì agent có tổng quát hóa được không

Ngay cả khi có hàng tỷ state-action trace, bài toán vẫn chưa xong. Vì thao tác chuột và keyboard phụ thuộc rất mạnh vào:

độ phân giải màn hình
kích thước cửa sổ
theme giao diện
vị trí panel
cách mỗi người sắp xếp workspace

Muốn model thật sự mạnh, nó phải học được ý nghĩa ngữ nghĩa của thành phần UI, chứ không chỉ học tọa độ kiểu máy móc.

Đây có thể sẽ là điểm phân hóa quan trọng giữa các hệ thống computer-use thế hệ đầu và thế hệ sau.

Nếu anh em đang build agent, nên hành động thế nào ngay bây giờ

Thay vì chờ câu trả lời từ Big Tech, mình nghĩ anh em có thể làm ngay checklist này:

chọn 3-5 workflow lặp lại nhiều nhất trong team
đo nơi agent hiện fail nhiều nhất
thay UI step bằng API ở chỗ nào thay được thì thay trước
log lại các bước thao tác thật của người dùng ở tác vụ trọng yếu
thêm guardrail và recovery cho các bước có hậu quả lớn
chỉ đưa agent vào phần có ROI rõ, không ép nó ôm toàn bộ quy trình

Làm vậy thực tế hơn nhiều so với kỳ vọng một model mới sẽ tự động giải quyết toàn bộ bài toán thao tác máy tính.

Góc nhìn cuối của mình

Bài Reddit này đáng chú ý không phải vì nó giật gân, mà vì nó chạm đúng giới hạn hiện tại của agent AI. Muốn agent thật sự dùng được trong công việc hằng ngày, ngành sẽ cần ít phụ thuộc hơn vào dữ liệu văn bản và nhiều hơn vào dữ liệu hành vi số ngoài đời thực.

Với anh em làm OpenClaw, đây cũng là lời nhắc khá rõ: sức mạnh của agent không chỉ đến từ model, mà đến từ cách mình thiết kế workflow, dữ liệu quan sát được, và cơ chế phục hồi khi môi trường thật không đi theo kịch bản.

Nếu làm đúng, agent vẫn tạo ra giá trị lớn ngay hôm nay. Nhưng để đi từ “chạy được demo” sang “gánh được quy trình”, dữ liệu hành động mới là nút thắt đáng theo dõi nhất.

AI & Automation (vnROM)