hello anh em
Nếu anh em đang dùng OpenClaw mà thấy nó đôi khi trả lời kiểu "ngáo ngáo" về thông tin mới, hoặc không biết cách tìm kiếm dữ liệu thực tế trên mạng, thì bài viết này là dành cho anh em. Mình và thằng đệ Nghiện (👨🏻💻) sẽ hướng dẫn anh em cách lắp "giác quan thứ 6" cho OpenClaw bằng bộ đôi AnyCrawl và Crawl4AI.
1. Tay trái và tay phải cho OpenClaw: Tại sao cần cả hai?
Trong thế giới của OpenClaw, dữ liệu là thức ăn. Nhưng không phải thức ăn nào cũng giống nhau:
- AnyCrawl: Đây là công cụ cào web đa năng.
- Thế mạnh: Tích hợp sẵn Google Search API. Nó có thể tự đi tìm URL cho anh em.
- Tốc độ: Dùng engine
cheeriocực nhẹ, quét hàng nghìn trang tin tức chỉ tốn "vài giọt" RAM. - JSON Mode: Trích xuất dữ liệu thẳng ra định dạng JSON (như giá tiền, tên sản phẩm) cực chuẩn để làm MMO hoặc lập trình.
- Crawl4AI: Đây là chuyên gia "dọn dẹp" content cho AI.
- Thế mạnh: Nội dung trả về là Markdown cực sạch. Nó loại bỏ hết quảng cáo, menu thừa, chỉ giữ lại nội dung cốt lõi giúp OpenClaw đọc không bị loãng.
- Xử lý khó: Khi AnyCrawl gặp các trang web "chảnh" render Javascript phức tạp, Crawl4AI sẽ ra tay "mổ xẻ".
2. Hướng dẫn setup Skill crawl-pro cho OpenClaw
Để OpenClaw dùng được hai thằng này, anh em cần tạo một Skill. Cấu trúc folder trong OpenClaw sẽ như sau: skills/crawl-pro/index.js.
Mã nguồn thực chiến (Copy về và đổi IP của anh em):
import axios from 'axios';
// Cấu hình Endpoint - Anh em nhớ đổi IP cho đúng nhé
const ANYCRAWL_URL = 'http://192.168.1.111:8880';
const CRAWL4AI_URL = 'http://192.168.1.111:11235';
/**
* 1. Tuyệt chiêu AnyCrawl Search & Scrape (nhanh và tiện)
*/
export async function anycrawl_fast_search({ query, pages = 1 }) {
try {
const response = await axios.post(`${ANYCRAWL_URL}/v1/search`, {
query,
pages,
limit: 10
}, {
headers: { 'Authorization': `Bearer ${process.env.ANYCRAWL_API_KEY}` }
});
return response.data; // Trả về list URL và description
} catch (error) {
return `Lỗi Search: ${error.message}`;
}
}
/**
* 2. Tuyệt chiêu AnyCrawl Scrape (dùng Cheerio cho nhanh)
*/
export async function anycrawl_scrape_quick({ url }) {
try {
const response = await axios.post(`${ANYCRAWL_URL}/v1/scrape`, {
url,
engine: "cheerio", // Mặc định dùng cheerio cho nhẹ
formats: ["markdown"]
}, {
headers: { 'Authorization': `Bearer ${process.env.ANYCRAWL_API_KEY}` }
});
return response.data.data.markdown;
} catch (error) {
return `Lỗi Scrape nhanh: ${error.message}`;
}
}
/**
* 3. Tuyệt chiêu Crawl4AI (dùng khi cần đọc Docs hoặc phân tích sâu)
*/
export async function crawl4ai_deep_fetch({ url }) {
try {
const response = await axios.post(`${CRAWL4AI_URL}/crawl`, {
urls: [url],
schema: "markdown"
}, {
headers: { 'Authorization': `Bearer ${process.env.CRAWL4AI_API_TOKEN}` }
});
return response.data; // Trả về Markdown cực sạch cho OpenClaw nuốt
} catch (error) {
return `Lỗi Crawl4AI: ${error.message}`;
}
}
3. Một vài usecase cho anh em
Usecase 1: Tự động soi đối thủ (Competitor Monitoring)
Anh em bảo OpenClaw: "Dùng AnyCrawl search 5 quán cà phê mới mở ở Thái Nguyên, sau đó scrape menu và giá của tụi nó về cho tao".
- Kết quả: OpenClaw dùng AnyCrawl tìm URL -> Lấy giá menu -> Tổng hợp thành bảng so sánh. Anh em ngồi uống trà đá cũng biết đối thủ đang làm gì.
Usecase 2: Mảng MMO - Săn kèo Airdrop/Affiliate
Anh em bảo OpenClaw: "Lên Google tìm các kèo Airdrop mới nhất trong 24h qua, dùng Crawl4AI đọc kỹ điều khoản rồi báo cho tao kèo nào ngon nhất".
- Kết quả: AnyCrawl search kèo -> Crawl4AI lọc sạch đống nội dung rác trên các trang web tin tức -> OpenClaw phân tích logic và báo kèo "thơm" về Telegram cho anh em.
Usecase 3: Mảng Coding - Tự học Framework mới (Zalo Mini App)
Đây là kèo mình đang làm: "Đệ ơi, đọc toàn bộ tài liệu Zalo Mini App và ZaloPay SDK, sau đó viết cho tao bộ khung app Rút lì xì Tết".
- Kết quả: OpenClaw dùng Crawl4AI "nuốt" trọn bộ Docs (vốn cực kỳ lằng nhằng). Nhờ Markdown sạch, nó hiểu rõ các hàm API và ... code vẫn như shit :)))
Usecase 4: Mảng SEO và GEO:
Giờ là 1:30 sáng, mình đang nhờ nó cào toàn bộ bài viết trên blog vnrom.net và tối ưu lại SEO và GEO. Nó trả lời như này ae à, không biết sáng mai dậy có nên cơm cháo gì không:
Cập nhật: Đến tầm trưa hôm sau mới xong ae ạ, trong lúc chạy nó cũng dừng lại mấy lần, mình phải vào kiểm tra và nhắc nó thì nó mới biết lỗi để fix và chạy tiếp. Đây là báo cáo sau khi xong của nó:
Chỉ dám bảo nó viết lại thôi chứ chưa dám bảo nó tự thay luôn, vẫn rén lắm, check lại cho chắc =]]]
4. Bí kíp vận hành của mình và thằng đệ
- Ưu tiên AnyCrawl + Cheerio: Khi chỉ cần lấy thông tin bề nổi (tin tức, giá cả).
- Dùng AnyCrawl Playwright: Khi gặp các trang SPA (React, Vue) mà Cheerio không thấy nội dung.
- Dùng Crawl4AI: Khi cần OpenClaw đọc hiểu một vấn đề phức tạp (như tài liệu kỹ thuật, luật pháp, phân tích chuyên sâu).
Lắp thêm tay chân cho thằng đệ của ae, để thấy sức mạnh thực sự của một AI Agent nó là như nào nhé :)))
Cre: Duy & Nghiện (👨🏻💻)


Top comments (0)