AI & Automation (vnROM)

Cover image for Meta đang cho thấy vì sao agent AI vẫn kẹt ở bài toán thao tác máy tính
I'm here
I'm here

Posted on • Originally published at reddit.com

Meta đang cho thấy vì sao agent AI vẫn kẹt ở bài toán thao tác máy tính

Mấy hôm nay mình thấy nhiều anh em bàn về chuyện Meta theo dõi thao tác bàn phím, chuột và ảnh chụp màn hình nội bộ để huấn luyện agent AI. Nếu chỉ nhìn ở lớp bề mặt, đây đúng là một câu chuyện nhạy cảm về giám sát nhân sự. Nhưng ở góc nhìn xây hệ thống agent, mình nghĩ đây còn là tín hiệu rất rõ về một nút thắt kỹ thuật mà gần như ai làm computer-use agent cũng đang đụng phải: dữ liệu thao tác thực tế trên giao diện.

Vì sao các agent giỏi viết vẫn chưa thật sự giỏi làm

Mô hình ngôn ngữ hiện tại đã rất mạnh ở các bài toán như:

  • viết code
  • tóm tắt tài liệu
  • trả lời câu hỏi từ kho tri thức lớn
  • sinh nội dung theo prompt

Nhưng khi chuyển sang tác vụ kiểu:

  • mở dashboard nội bộ
  • bấm đúng bộ lọc trong UI thay đổi liên tục
  • copy số liệu sang spreadsheet
  • chỉnh format
  • soạn email cập nhật cho stakeholder

thì độ ổn định tụt xuống rất nhanh.

Lý do không nằm ở chuyện model “không đủ thông minh”, mà nằm ở chỗ dữ liệu huấn luyện cho hành động trên máy tính vẫn quá thiếu và quá bẩn.

Với code thì có GitHub. Với văn bản thì có internet. Còn với chuỗi thao tác thật trên phần mềm nội bộ, web app riêng, công cụ enterprise, IDE cá nhân hóa, hay các workflow văn phòng lộn xộn hằng ngày thì gần như không có một “Common Crawl cho hành động”.

Meta đang cố lấy thứ dữ liệu mà open source gần như không có

Nếu nội dung Reddit kia phản ánh đúng xu hướng, thứ Meta cần không chỉ là ảnh màn hình. Cái họ cần là cặp dữ liệu hoàn chỉnh hơn:

  • trạng thái màn hình tại từng thời điểm
  • hành động ngay sau đó của con người
  • chuỗi chuyển trạng thái dẫn tới kết quả mong muốn

Đây là loại dữ liệu cực quý cho agent kiểu computer use vì nó phản ánh đúng cách con người xử lý những tình huống mà dữ liệu tổng hợp rất khó mô phỏng:

  • popup xuất hiện bất ngờ
  • trang render chậm
  • nút bấm đổi vị trí
  • menu dropdown thay đổi DOM
  • người dùng bấm nhầm rồi sửa
  • người dùng dùng phím tắt theo thói quen

Những thứ này nghe nhỏ, nhưng lại là phần làm agent ngoài đời thất bại nhiều nhất.

Tại sao dữ liệu synthetic chưa đủ cứu bài toán này

Nhiều anh em hay nghĩ cứ dựng môi trường mô phỏng rồi cho agent tự học là đủ. Vấn đề là UI ngoài đời không sạch như sandbox:

  • layout không ổn định
  • web app có trạng thái phụ thuộc session
  • độ trễ thay đổi theo mạng và backend
  • cùng một tác vụ nhưng mỗi người lại thao tác khác nhau
  • có vô số trường hợp “xử lý bằng phản xạ” rất khó viết thành rule

Dữ liệu synthetic thường mạnh ở happy path. Còn sản phẩm thực tế lại chết ở edge case.

Đây cũng là lý do nhiều hệ thống browser automation hay computer-use demo rất ấn tượng khi quay video, nhưng đem vào workflow dài 20-30 bước thì bắt đầu rơi lỗi dây chuyền. Chỉ cần một popup hoặc một bước đợi sai nhịp là toàn bộ phiên chạy hỏng.

Nếu nhìn từ góc độ kiến trúc, đây là bước chuyển từ text model sang action model

Mình nghĩ điểm đáng chú ý nhất không phải scandal truyền thông, mà là tín hiệu kiến trúc:

  • trước đây mô hình chủ yếu tối ưu để hiểu và sinh văn bản
  • bây giờ mô hình cần hiểu màn hình và dự đoán hành động tiếp theo

Nói ngắn gọn, ngành đang đi từ model biết sang model làm.

Muốn model làm được việc trên máy tính, chỉ có hai hướng lớn:

  1. Grounding theo từng bước: chụp màn hình, phân tích UI, tìm tọa độ, rồi click/type
  2. Behavior cloning / action prediction: nhìn ngữ cảnh màn hình và dự đoán trực tiếp thao tác kế tiếp từ dữ liệu người dùng thật

Hướng 1 dễ xây hơn cho cộng đồng vì tận dụng vision model và rule engine hiện có. Nhưng nó thường chậm, dễ gãy, và phải vá liên tục.

Hướng 2 khó hơn rất nhiều vì cần kho dữ liệu khổng lồ, nhưng nếu làm được thì hiệu quả có thể vượt hẳn trong những workflow nhiều bước.

Bài học rất thực tế cho anh em đang dùng OpenClaw hoặc các agent tương tự

Mình thấy chủ đề này chạm đúng một câu hỏi quan trọng: nếu không có dữ liệu hành động chất lượng cao, anh em nên kỳ vọng gì ở agent today?

Theo mình, có 4 bài học rất thực dụng.

1. Đừng đánh giá agent chỉ bằng demo một bước

Một agent bấm được một nút đúng chưa nói lên nhiều điều.

Thứ cần đo là:

  • tỷ lệ hoàn thành end-to-end
  • khả năng hồi phục sau lỗi
  • số bước trung bình trước khi fail
  • độ ổn định qua nhiều phiên chạy
  • mức phụ thuộc vào UI cố định

Nếu anh em đang build use case thực chiến, nên benchmark theo workflow dài thay vì benchmark theo screenshot đẹp.

2. Tối ưu workflow để giảm nhu cầu “nhìn màn hình rồi đoán”

Càng nhiều bước phải suy luận từ pixel, agent càng dễ gãy.

Khi có thể, nên ưu tiên:

  • API thay cho thao tác UI
  • structured selectors thay cho OCR/phỏng đoán tọa độ
  • form chuẩn hóa thay cho workflow tự do
  • checkpoint rõ ràng sau từng cụm bước

Nói cách khác, nên thiết kế lại hệ thống để agent bớt phải làm việc kiểu “người vận hành chuột ảo”.

3. Bổ sung cơ chế recovery thay vì chỉ cố tăng độ thông minh

Nhiều pipeline fail không phải vì model quá yếu, mà vì không có tầng phục hồi.

Một số pattern nên có:

  • retry có điều kiện
  • xác minh sau mỗi hành động quan trọng
  • fallback selector
  • timeout phân tầng
  • yêu cầu xác nhận người dùng ở bước rủi ro cao
  • lưu state để resume thay vì chạy lại từ đầu

Đây là phần thường tạo khác biệt lớn hơn việc chỉ đổi model đắt hơn.

4. Dữ liệu riêng sẽ trở thành lợi thế cạnh tranh lớn

Nếu các công ty lớn thật sự đang thu thập trace thao tác người dùng ở quy mô lớn, thì khoảng cách sau này không chỉ nằm ở model base, mà nằm ở dữ liệu vận hành độc quyền.

Với cộng đồng open source hoặc đội nhỏ, điều đó gợi ý một hướng đi rõ ràng hơn:

  • thu thập log thao tác từ chính workflow của mình
  • gắn nhãn các bước fail/success
  • chuẩn hóa replay format
  • lưu lại screen-state + action + outcome cho các tác vụ lặp lại

Không nhất thiết phải đợi tới quy mô Meta. Chỉ cần có dataset tốt cho một domain hẹp, agent đã có thể cải thiện đáng kể.

Câu hỏi khó nhất: dữ liệu nhiều rồi thì agent có tổng quát hóa được không

Ngay cả khi có hàng tỷ state-action trace, bài toán vẫn chưa xong. Vì thao tác chuột và keyboard phụ thuộc rất mạnh vào:

  • độ phân giải màn hình
  • kích thước cửa sổ
  • theme giao diện
  • vị trí panel
  • cách mỗi người sắp xếp workspace

Muốn model thật sự mạnh, nó phải học được ý nghĩa ngữ nghĩa của thành phần UI, chứ không chỉ học tọa độ kiểu máy móc.

Đây có thể sẽ là điểm phân hóa quan trọng giữa các hệ thống computer-use thế hệ đầu và thế hệ sau.

Nếu anh em đang build agent, nên hành động thế nào ngay bây giờ

Thay vì chờ câu trả lời từ Big Tech, mình nghĩ anh em có thể làm ngay checklist này:

  • chọn 3-5 workflow lặp lại nhiều nhất trong team
  • đo nơi agent hiện fail nhiều nhất
  • thay UI step bằng API ở chỗ nào thay được thì thay trước
  • log lại các bước thao tác thật của người dùng ở tác vụ trọng yếu
  • thêm guardrail và recovery cho các bước có hậu quả lớn
  • chỉ đưa agent vào phần có ROI rõ, không ép nó ôm toàn bộ quy trình

Làm vậy thực tế hơn nhiều so với kỳ vọng một model mới sẽ tự động giải quyết toàn bộ bài toán thao tác máy tính.

Góc nhìn cuối của mình

Bài Reddit này đáng chú ý không phải vì nó giật gân, mà vì nó chạm đúng giới hạn hiện tại của agent AI. Muốn agent thật sự dùng được trong công việc hằng ngày, ngành sẽ cần ít phụ thuộc hơn vào dữ liệu văn bản và nhiều hơn vào dữ liệu hành vi số ngoài đời thực.

Với anh em làm OpenClaw, đây cũng là lời nhắc khá rõ: sức mạnh của agent không chỉ đến từ model, mà đến từ cách mình thiết kế workflow, dữ liệu quan sát được, và cơ chế phục hồi khi môi trường thật không đi theo kịch bản.

Nếu làm đúng, agent vẫn tạo ra giá trị lớn ngay hôm nay. Nhưng để đi từ “chạy được demo” sang “gánh được quy trình”, dữ liệu hành động mới là nút thắt đáng theo dõi nhất.

Top comments (0)