Có một kiểu trải nghiệm mà chắc khá nhiều anh em từng gặp với agent: demo thì rất đã, nhưng đem vào việc đời thường lại vấp ngay ở những chỗ nhỏ nhưng khó tự động hóa. Bài chia sẻ mình đọc gần đây về việc gắn khả năng gọi điện cho OpenClaw làm mình thấy đây là một ví dụ rất rõ về chuyện đó.
Điểm hay không nằm ở chuyện “AI biết nói chuyện qua điện thoại” cho ngầu. Giá trị thật nằm ở chỗ agent đi qua được một mắt xích vốn trước giờ luôn làm workflow bị gãy: phải gọi cho người thật hoặc doanh nghiệp thật.
Vấn đề mà nhiều workflow agent đang gặp
Một agent có thể tìm kiếm, tóm tắt, lập kế hoạch, tổng hợp thông tin, nhưng nhiều tác vụ ngoài đời vẫn kẹt ở đây:
- cần gọi hỏi giá dịch vụ
- cần đặt lịch hoặc dời lịch hẹn
- cần kiểm tra hàng còn hay hết
- cần xác nhận giờ mở cửa vì website không còn đúng
- cần nói chuyện với một đầu mối mà không có API
Khi thiếu bước này, toàn bộ chuỗi tự động hóa thường quay về kiểu nửa vời:
- agent chuẩn bị thông tin
- con người nhấc máy gọi
- con người ghi chú lại
- agent mới được tiếp tục xử lý
Nghe thì nhỏ, nhưng chính bước chen giữa đó làm cho agent từ “trợ lý” biến thành “công cụ phụ trợ”.
Điều thay đổi khi cho OpenClaw khả năng gọi điện
Trong case này, tác giả dùng một skill nhỏ tên là Ring-a-Ding để cho OpenClaw thực hiện outbound call qua CLI. Thiết lập nghe có vẻ không quá bóng bẩy về giao diện, nhưng lại chạm đúng chỗ đau nhất của automation: kết nối được agent với thế giới thật.
Từ một tính năng nghe có vẻ niche, nó mở ra khá nhiều dạng việc rất đời thường:
1. Xin báo giá từ nhiều nơi
Đây là dạng việc cực hợp với agent gọi điện.
Quy trình có thể hình dung như sau:
- anh em đưa danh sách cửa hàng hoặc nhà cung cấp
- agent gọi lần lượt để hỏi cùng một bộ câu hỏi
- agent ghi lại giá, thời gian, điều kiện, điểm khác biệt
- agent trả về một bảng so sánh gọn gàng
Lợi ích lớn nhất không phải chỉ là tiết kiệm thời gian gọi từng nơi, mà là chuẩn hóa dữ liệu đầu vào. Khi cùng một mẫu câu hỏi được dùng cho nhiều nơi, phần so sánh về sau đáng tin hơn hẳn.
2. Đặt lịch và xử lý việc vặt có ma sát cao
Nhiều việc cá nhân nhìn thì nhỏ nhưng làm rất mất nhịp:
- đặt lịch cắt tóc
- dời lịch khám
- hỏi khung giờ còn trống
- xác nhận lại lịch hẹn đã chốt
Đây là nhóm việc mà anh em không muốn tự làm nhưng cũng không đáng để viết cả một hệ thống tích hợp riêng. Một agent gọi điện được sẽ lấp đúng khoảng trống đó.
3. Kiểm tra thông tin thực địa
Mình thấy đây mới là use case dễ áp dụng hằng ngày nhất.
Website của nhiều cửa hàng cập nhật chậm, Google Maps có khi sai giờ mở cửa, còn các trang thương mại điện tử không phải lúc nào cũng phản ánh đúng hàng tồn kho tại chi nhánh. Trong mấy tình huống như vậy, gọi xác nhận vẫn là cách nhanh nhất.
Nếu agent làm thay được bước này, giá trị sử dụng tăng lên rất rõ vì nó xử lý được các việc nhỏ nhưng lặp lại liên tục.
Bài học lớn: agent hữu ích khi nó gỡ ma sát, không phải khi nó phô diễn năng lực
Mình khá đồng ý với góc nhìn trong bài gốc: thứ làm thay đổi cảm nhận không phải là agent “giỏi hơn” theo nghĩa trình diễn, mà là agent bớt làm người dùng phải nhảy ra khỏi workflow.
Một hệ thống agent chỉ thực sự ăn vào thói quen làm việc khi nó xử lý được các đoạn như:
- chờ máy bên kia bắt máy
- nói cùng một câu hỏi nhiều lần
- ghi chép lại câu trả lời
- tổng hợp các khác biệt nhỏ giữa các lựa chọn
Những đoạn này rất tốn năng lượng tinh thần, dù không khó về mặt chuyên môn. Bởi vậy, khi agent gánh được phần đó, cảm giác sử dụng thay đổi từ “thỉnh thoảng thử cho vui” sang “đem dùng thật mỗi ngày”.
Nếu anh em muốn thử, nên bắt đầu từ đâu
Theo mình, đừng bắt đầu bằng những kịch bản quá tham. Hãy chọn một việc có đủ ba yếu tố sau:
- tần suất lặp lại
- nội dung hỏi tương đối chuẩn hóa
- kết quả đầu ra có thể tóm tắt lại thành checklist hoặc bảng
Ví dụ phù hợp để thử đầu tiên:
- hỏi báo giá từ 3-5 đơn vị cùng ngành
- kiểm tra giờ mở cửa hoặc tồn kho của vài cửa hàng
- đặt lịch cho một tác vụ cá nhân đơn giản
Sau đó mới nâng dần lên các workflow phức tạp hơn như:
- agent chủ động gọi, thu thập dữ liệu, rồi đề xuất lựa chọn tốt nhất
- agent gọi để xác minh thông tin trước khi chạy một bước tự động hóa tiếp theo
- agent phối hợp giữa gọi điện, lịch, nhắn tin và ghi nhớ dài hạn
Những lưu ý thực tế trước khi triển khai
Nếu anh em muốn biến ý tưởng này thành hệ thống dùng thật, mình nghĩ nên kiểm soát ít nhất 4 thứ:
Phạm vi hành động
- giới hạn loại cuộc gọi agent được phép thực hiện
- chỉ cho phép gọi tới danh sách số đã duyệt trong giai đoạn đầu
Mẫu câu hỏi
- chuẩn bị prompt hoặc script hỏi ngắn, rõ, dễ tổng hợp
- tránh để agent lan man hoặc hỏi những gì không cần thiết
Ghi log và tóm tắt
- lưu lại kết quả từng cuộc gọi theo cấu trúc
- tách rõ phần dữ kiện, suy luận và đề xuất bước tiếp theo
Cơ chế con người duyệt
- với các cuộc gọi có ảnh hưởng đến lịch, tiền hoặc cam kết, nên có bước xác nhận cuối
- đừng đẩy thẳng sang full autonomy quá sớm
Kết lại
Case này đáng chú ý vì nó nhắc mình một điều rất thực dụng: giá trị của agent không nằm ở việc nó làm được thứ quá mới lạ, mà ở việc nó chạm vào đúng những đoạn ma sát khiến anh em ngại làm bằng tay.
Khi OpenClaw có thể thay mình gọi hỏi giá, kiểm tra thông tin, đặt lịch hoặc xác nhận những thứ ngoài API, nó bắt đầu tiến gần hơn tới vai trò trợ lý thật thay vì chỉ là công cụ hỗ trợ trong màn hình chat.
Nếu đang tìm một hướng nâng cấp OpenClaw theo kiểu dùng được ngay, mình nghĩ “cho agent chạm được vào điện thoại” là một hướng rất đáng thử.
Top comments (0)