I'm here

Posted on May 15 • Originally published at reddit.com

Khi test OpenClaw trên 5 thiết bị cùng lúc, anh em nên nhìn vào điều gì?

#openclaw #automation #workflow #mobilerun

Bài test này nhìn qua thì giống một clip demo ngắn, nhưng mình thấy nó chạm đúng một câu hỏi mà nhiều anh em đang cân nhắc khi triển khai OpenClaw: nếu mình đẩy một agent workflow ra nhiều thiết bị cùng lúc thì trải nghiệm vận hành thực tế sẽ ra sao?

Điểm đáng chú ý ở case này là tác giả không chỉ chạy một agent đơn lẻ, mà đang thử OpenClaw cùng các mobilerun skills từ ClawHub trên 5 thiết bị đồng thời. Với mình, đây là kiểu thử nghiệm rất có giá trị vì nó đụng thẳng vào bài toán ngoài đời: agent không chỉ cần trả lời được, mà còn phải sống ổn trong môi trường nhiều màn hình, nhiều phiên làm việc, nhiều điểm chạm.

Vì sao bài test 5 thiết bị đáng quan tâm

Khi anh em đưa OpenClaw vào công việc thật, chuyện thường gặp không phải là “model có trả lời hay không”, mà là:

có giữ được trạng thái ổn định giữa nhiều thiết bị không
thao tác có bị lệch ngữ cảnh khi luân phiên giữa mobile và desktop không
automation có đủ mượt để dùng hằng ngày hay chỉ đẹp trong video demo
khi thêm skill mới thì toàn bộ workflow có bắt đầu rối lên không

Một bài test nhiều thiết bị giúp lộ ra rất nhanh các điểm này.

Mình rút ra 3 ý thực dụng từ case này

1. Multi-device không phải tính năng trang trí

Nếu OpenClaw được dùng như lớp điều phối công việc, thì việc xuất hiện trên nhiều thiết bị gần như là yêu cầu mặc định.

Ví dụ:

trên điện thoại: nhận thông báo, duyệt nhanh, kích hoạt lệnh ngắn
trên laptop: đọc log, sửa prompt, chỉnh workflow
trên máy phụ hoặc máy test: kiểm tra hành vi của skill mới trước khi đưa vào luồng chính

Nói cách khác, giá trị không nằm ở số lượng thiết bị, mà nằm ở việc mỗi thiết bị phục vụ một vai trò khác nhau trong cùng một hệ thống.

2. Skill ecosystem mới là phần quyết định trải nghiệm

Tác giả nhắc tới mobilerun skills từ ClawHub. Đây là chỗ mình nghĩ nhiều anh em dễ đánh giá thiếu.

Một agent chỉ mạnh khi nó có bộ skill đủ sát với tác vụ thật. Nếu anh em muốn OpenClaw chạy tốt trên nhiều thiết bị, hãy ưu tiên các skill có đặc điểm sau:

đầu vào và đầu ra rõ ràng
ít bước xác nhận thừa
chạy ổn định trong môi trường mobile
lỗi xảy ra thì dễ đọc và dễ retry

Bởi vì ở môi trường multi-device, chỉ cần một skill hay treo hoặc trả kết quả mơ hồ là toàn bộ trải nghiệm sẽ xuống rất nhanh.

3. Video demo chỉ là bước đầu, thứ cần theo dõi là độ bền của workflow

Một clip chạy mượt trong 30 đến 60 giây chưa nói lên nhiều. Cái cần đo là:

sau 3 ngày dùng liên tục có phát sinh lỗi lặp lại không
khi đổi mạng hoặc đổi thiết bị có mất phiên không
khi nhiều tác vụ đến gần nhau có bị nghẽn không
khi người dùng chen tay vào giữa luồng thì agent có phục hồi đúng không

Nếu anh em cũng đang test kiểu này, mình khuyên nên ghi lại một checklist nhỏ sau mỗi lần chạy.

Checklist ngắn để tự đánh giá bài test tương tự

thiết bị nào là nơi ra lệnh chính
thiết bị nào chỉ để nhận kết quả
skill nào ổn định nhất
skill nào lỗi nhiều nhất
có bước nào nên đẩy về cron hoặc background thay vì chạy trực tiếp không
có cần tách agent điều phối và agent thực thi ra riêng không

Chỉ cần theo dõi 5 đến 6 dòng như vậy trong vài ngày là anh em sẽ nhìn ra workflow nào đáng giữ, workflow nào nên bỏ.

Nếu mình là người tiếp tục case này

Mình sẽ đi tiếp theo hướng sau:

chốt vai trò từng thiết bị trong hệ thống
chọn 1 đến 2 workflow dùng thật mỗi ngày để test liên tục
log lỗi theo từng skill thay vì chỉ nhìn kết quả chung
tách bài test trình diễn và bài test độ bền
sau đó mới tối ưu prompt hoặc model

Lý do là trong hệ thống automation, bottleneck thường không nằm ở câu trả lời của model trước, mà nằm ở orchestration và độ ổn định của toolchain.

Kết lại

Mình thích các bài chia sẻ kiểu này vì nó thực tế hơn nhiều so với những demo chỉ hỏi đáp một lượt. Khi OpenClaw bắt đầu chạy được trên nhiều thiết bị cùng lúc, anh em mới thật sự nhìn thấy nó có hợp với cách mình làm việc hay không.

Nếu đang build setup tương tự, mình nghĩ mục tiêu tốt nhất không phải là “chạy được trên 5 thiết bị”, mà là “mỗi thiết bị đều có vai trò rõ ràng và workflow vẫn bền sau nhiều ngày dùng thật”.

AI & Automation (vnROM)