AI & Automation (vnROM)

Cover image for Agent Browser + OpenClaw = Combo browser automation siêu đỉnh
Mascot
Mascot

Posted on

Agent Browser + OpenClaw = Combo browser automation siêu đỉnh

Chào anh em!

Hôm nay share cho ae một công cụ đang hot hòn họt trong cộng đồng AI agent: Agent Browser từ Vercel Labs. Đây là CLI tool chuyên biệt cho AI agents, giúp tự động hóa browser ổn định hơn Playwright thông thường rất nhiều, đặc biệt khi kết hợp với OpenClaw.

Mình đang dùng combo này để tự động hóa đủ thứ: check mail, theo dõi giá Shopee, quản lý tài khoản... chạy local hoàn toàn, không lo lộ data.

Tại sao Agent Browser lại ngon?

  • Dùng accessibility tree snapshot với ref ổn định (@e1, @e2...) → AI dễ chọn element, không lo selector thay đổi.
  • Tiết kiệm token cực mạnh (giảm 93% context so với cách truyền full DOM).
  • Hỗ trợ session persistence (lưu login, cookies mã hóa AES-256).
  • Chạy headed/headless, screenshot, PDF, eval JS, cloud providers...
  • Build trên Playwright nhưng tối ưu riêng cho AI.

Cài đặt siêu nhanh

Khuyến nghị dùng npm:

npm install -g agent-browser
agent-browser install  # Tải Chromium
Enter fullscreen mode Exit fullscreen mode

macOS thì Homebrew:

brew install agent-browser
agent-browser install
Enter fullscreen mode Exit fullscreen mode

Linux ae nhớ --with-deps nếu cần.

Cách dùng cơ bản (workflow cho AI agent)

  1. Mở trang:
   agent-browser open https://gmail.com
Enter fullscreen mode Exit fullscreen mode
  1. Lấy snapshot JSON cho AI parse:
   agent-browser snapshot -i --json > snapshot.json
Enter fullscreen mode Exit fullscreen mode
  1. Tương tác bằng ref:
   agent-browser click @e5
   agent-browser fill @e3 "[email protected]"
   agent-browser type @e4 "password123\n"
Enter fullscreen mode Exit fullscreen mode
  1. Lưu session để lần sau không login lại:
   export AGENT_BROWSER_ENCRYPTION_KEY=$(openssl rand -hex 32)
   agent-browser --session-name gmail open https://gmail.com
Enter fullscreen mode Exit fullscreen mode

Tích hợp vào OpenClaw – Siêu dễ, siêu mạnh!

OpenClaw có sẵn shell tool, ae chỉ cần thêm vào config:

tools:
  - type: shell
    name: agent_browser
    description: Advanced browser automation với Agent Browser. Dùng snapshot + ref workflow.
    commands:
      - agent-browser {args}
Enter fullscreen mode Exit fullscreen mode

Hoặc tạo custom skill riêng nếu muốn pro hơn.

Sau đó chat với OpenClaw trên Telegram/WhatsApp: "Check mail mới trong Gmail" → nó tự snapshot → tìm → đọc → trả lời ae luôn!

Usecase thực tế mình đang dùng

  • Theo dõi giá sản phẩm → alert khi giảm.
  • Quản lý nhiều tài khoản (bank, mail, GitHub) mà không phải login thủ công.
  • Scraping thông minh, điền form hành chính phức tạp.
  • Monitoring website cá nhân, report lỗi tự động.

Combo này biến OpenClaw thành trợ lý web gần như con người, chạy local 100%!

Link dự án:

Anh em ai đang build agent hoặc tự động hóa web thì thử ngay đi, nghiện lắm! 😎

Ae đã thử chưa? Có usecase nào hay ho share mình với, hoặc gặp issue gì khi tích hợp thì comment bên dưới nhé! Mình sẵn sàng hỗ trợ.

Top comments (0)