I'm here

Posted on Apr 21 • Originally published at reddit.com

Khi cho OpenClaw gọi điện ra ngoài, mình mới thấy trợ lý AI bắt đầu hữu dụng thật sự

#openclaw #automation #voiceai #workflows

Có một kiểu trải nghiệm mà chắc khá nhiều anh em từng gặp với agent: demo thì rất đã, nhưng đem vào việc đời thường lại vấp ngay ở những chỗ nhỏ nhưng khó tự động hóa. Bài chia sẻ mình đọc gần đây về việc gắn khả năng gọi điện cho OpenClaw làm mình thấy đây là một ví dụ rất rõ về chuyện đó.

Điểm hay không nằm ở chuyện “AI biết nói chuyện qua điện thoại” cho ngầu. Giá trị thật nằm ở chỗ agent đi qua được một mắt xích vốn trước giờ luôn làm workflow bị gãy: phải gọi cho người thật hoặc doanh nghiệp thật.

Vấn đề mà nhiều workflow agent đang gặp

Một agent có thể tìm kiếm, tóm tắt, lập kế hoạch, tổng hợp thông tin, nhưng nhiều tác vụ ngoài đời vẫn kẹt ở đây:

cần gọi hỏi giá dịch vụ
cần đặt lịch hoặc dời lịch hẹn
cần kiểm tra hàng còn hay hết
cần xác nhận giờ mở cửa vì website không còn đúng
cần nói chuyện với một đầu mối mà không có API

Khi thiếu bước này, toàn bộ chuỗi tự động hóa thường quay về kiểu nửa vời:

agent chuẩn bị thông tin
con người nhấc máy gọi
con người ghi chú lại
agent mới được tiếp tục xử lý

Nghe thì nhỏ, nhưng chính bước chen giữa đó làm cho agent từ “trợ lý” biến thành “công cụ phụ trợ”.

Điều thay đổi khi cho OpenClaw khả năng gọi điện

Trong case này, tác giả dùng một skill nhỏ tên là Ring-a-Ding để cho OpenClaw thực hiện outbound call qua CLI. Thiết lập nghe có vẻ không quá bóng bẩy về giao diện, nhưng lại chạm đúng chỗ đau nhất của automation: kết nối được agent với thế giới thật.

Từ một tính năng nghe có vẻ niche, nó mở ra khá nhiều dạng việc rất đời thường:

1. Xin báo giá từ nhiều nơi

Đây là dạng việc cực hợp với agent gọi điện.

Quy trình có thể hình dung như sau:

anh em đưa danh sách cửa hàng hoặc nhà cung cấp
agent gọi lần lượt để hỏi cùng một bộ câu hỏi
agent ghi lại giá, thời gian, điều kiện, điểm khác biệt
agent trả về một bảng so sánh gọn gàng

Lợi ích lớn nhất không phải chỉ là tiết kiệm thời gian gọi từng nơi, mà là chuẩn hóa dữ liệu đầu vào. Khi cùng một mẫu câu hỏi được dùng cho nhiều nơi, phần so sánh về sau đáng tin hơn hẳn.

2. Đặt lịch và xử lý việc vặt có ma sát cao

Nhiều việc cá nhân nhìn thì nhỏ nhưng làm rất mất nhịp:

đặt lịch cắt tóc
dời lịch khám
hỏi khung giờ còn trống
xác nhận lại lịch hẹn đã chốt

Đây là nhóm việc mà anh em không muốn tự làm nhưng cũng không đáng để viết cả một hệ thống tích hợp riêng. Một agent gọi điện được sẽ lấp đúng khoảng trống đó.

3. Kiểm tra thông tin thực địa

Mình thấy đây mới là use case dễ áp dụng hằng ngày nhất.

Website của nhiều cửa hàng cập nhật chậm, Google Maps có khi sai giờ mở cửa, còn các trang thương mại điện tử không phải lúc nào cũng phản ánh đúng hàng tồn kho tại chi nhánh. Trong mấy tình huống như vậy, gọi xác nhận vẫn là cách nhanh nhất.

Nếu agent làm thay được bước này, giá trị sử dụng tăng lên rất rõ vì nó xử lý được các việc nhỏ nhưng lặp lại liên tục.

Bài học lớn: agent hữu ích khi nó gỡ ma sát, không phải khi nó phô diễn năng lực

Mình khá đồng ý với góc nhìn trong bài gốc: thứ làm thay đổi cảm nhận không phải là agent “giỏi hơn” theo nghĩa trình diễn, mà là agent bớt làm người dùng phải nhảy ra khỏi workflow.

Một hệ thống agent chỉ thực sự ăn vào thói quen làm việc khi nó xử lý được các đoạn như:

chờ máy bên kia bắt máy
nói cùng một câu hỏi nhiều lần
ghi chép lại câu trả lời
tổng hợp các khác biệt nhỏ giữa các lựa chọn

Những đoạn này rất tốn năng lượng tinh thần, dù không khó về mặt chuyên môn. Bởi vậy, khi agent gánh được phần đó, cảm giác sử dụng thay đổi từ “thỉnh thoảng thử cho vui” sang “đem dùng thật mỗi ngày”.

Nếu anh em muốn thử, nên bắt đầu từ đâu

Theo mình, đừng bắt đầu bằng những kịch bản quá tham. Hãy chọn một việc có đủ ba yếu tố sau:

tần suất lặp lại
nội dung hỏi tương đối chuẩn hóa
kết quả đầu ra có thể tóm tắt lại thành checklist hoặc bảng

Ví dụ phù hợp để thử đầu tiên:

hỏi báo giá từ 3-5 đơn vị cùng ngành
kiểm tra giờ mở cửa hoặc tồn kho của vài cửa hàng
đặt lịch cho một tác vụ cá nhân đơn giản

Sau đó mới nâng dần lên các workflow phức tạp hơn như:

agent chủ động gọi, thu thập dữ liệu, rồi đề xuất lựa chọn tốt nhất
agent gọi để xác minh thông tin trước khi chạy một bước tự động hóa tiếp theo
agent phối hợp giữa gọi điện, lịch, nhắn tin và ghi nhớ dài hạn

Những lưu ý thực tế trước khi triển khai

Nếu anh em muốn biến ý tưởng này thành hệ thống dùng thật, mình nghĩ nên kiểm soát ít nhất 4 thứ:

Phạm vi hành động

giới hạn loại cuộc gọi agent được phép thực hiện
chỉ cho phép gọi tới danh sách số đã duyệt trong giai đoạn đầu

Mẫu câu hỏi

chuẩn bị prompt hoặc script hỏi ngắn, rõ, dễ tổng hợp
tránh để agent lan man hoặc hỏi những gì không cần thiết

Ghi log và tóm tắt

lưu lại kết quả từng cuộc gọi theo cấu trúc
tách rõ phần dữ kiện, suy luận và đề xuất bước tiếp theo

Cơ chế con người duyệt

với các cuộc gọi có ảnh hưởng đến lịch, tiền hoặc cam kết, nên có bước xác nhận cuối
đừng đẩy thẳng sang full autonomy quá sớm

Kết lại

Case này đáng chú ý vì nó nhắc mình một điều rất thực dụng: giá trị của agent không nằm ở việc nó làm được thứ quá mới lạ, mà ở việc nó chạm vào đúng những đoạn ma sát khiến anh em ngại làm bằng tay.

Khi OpenClaw có thể thay mình gọi hỏi giá, kiểm tra thông tin, đặt lịch hoặc xác nhận những thứ ngoài API, nó bắt đầu tiến gần hơn tới vai trò trợ lý thật thay vì chỉ là công cụ hỗ trợ trong màn hình chat.

Nếu đang tìm một hướng nâng cấp OpenClaw theo kiểu dùng được ngay, mình nghĩ “cho agent chạm được vào điện thoại” là một hướng rất đáng thử.

AI & Automation (vnROM)