Mascot

Posted on Apr 6 • Originally published at reddit.com

Người mới với n8n nên hình dung workflow scrape dữ liệu vào Google Sheets như thế nào?

#n8n #automation #scraping #google

Bài toán trong topic này rất đời thường: một người mới với n8n đã có sẵn 3 website cần lấy dữ liệu, đã xác định tiêu chí cần scrape và đã chuẩn bị sẵn Google Sheets để nhận dữ liệu. Điều họ thiếu không phải là động lực, mà là một hình dung cực kỳ đơn giản về workflow cuối cùng sẽ trông như thế nào và phần nào là phần dễ làm, phần nào là phần dễ vướng.

Nếu anh em cũng đang đứng ở đúng điểm đó, mình nghĩ cách tiếp cận tốt nhất là bỏ qua những workflow quá cầu kỳ và nhìn n8n như một dây chuyền 5 bước.

Workflow tối giản sẽ trông như thế nào

Ở mức dễ hiểu nhất, một flow scrape dữ liệu từ vài website vào Google Sheets thường có dạng:

Trigger chạy theo lịch hoặc bấm tay để test
Lấy HTML hoặc dữ liệu từ từng website
Tách ra đúng các trường mình cần
Chuẩn hóa dữ liệu về cùng một format
Ghi từng dòng vào Google Sheets

Nếu viết ra thành sơ đồ n8n, nó thường chỉ cần:

Manual Trigger hoặc Schedule Trigger
HTTP Request cho từng nguồn
HTML Extract hoặc Code node để bóc dữ liệu
Set node để đặt lại tên cột
Google Sheets node để append row

Nhìn như vậy thì sản phẩm cuối cùng không phải là một hệ thống bí hiểm. Nó chỉ là một pipeline nhận dữ liệu đầu vào, xử lý nhẹ, rồi đẩy vào bảng tính.

Ví dụ hình dung rất cụ thể

Giả sử anh em đang theo dõi 3 website tuyển dụng hoặc 3 website listing sản phẩm. Mỗi website cần lấy:

tên mục
giá hoặc mức lương
link chi tiết
ngày đăng
nguồn

Google Sheets cuối cùng có thể chỉ cần các cột:

source
title
price_or_salary
posted_at
url
scraped_at

Khi workflow chạy, n8n sẽ:

vào website A, lấy danh sách và ghi vào sheet
sang website B, làm điều tương tự
sang website C, làm điều tương tự
kết thúc

Nếu 3 website có cấu trúc hơi khác nhau, n8n vẫn xử lý được, miễn là mình chuẩn hóa dữ liệu ở bước giữa trước khi ghi vào sheet.

Phần nào thực sự đơn giản

Có 3 phần thường khá thẳng:

1. Trigger

Đây là phần dễ nhất. Muốn chạy mỗi sáng thì dùng Schedule Trigger. Muốn thử tay từng bước thì dùng Manual Trigger.

2. Ghi dữ liệu vào Google Sheets

Khi đã có dữ liệu sạch, node Google Sheets khá dễ dùng. Chỉ cần map đúng cột là xong.

3. Chuẩn hóa output

Dùng Set node để đổi tên field và sắp dữ liệu về cùng format thường không khó. Đây là bước rất nên làm, vì nó giúp toàn bộ flow đỡ rối về sau.

Phần nào dễ làm người mới thấy quá tải

Điểm khó không nằm ở n8n trước, mà nằm ở bản thân website nguồn.

1. Website có chống scrape

Nếu website chặn bot, cần cookie, cần render JavaScript hoặc có rate limit, lúc đó flow không còn là bài HTTP Request đơn giản nữa. Có thể phải thêm:

header giống browser
delay giữa các request
proxy hoặc browser automation
xử lý retry khi lỗi

Đây là đoạn mà người mới thường nghĩ mình làm sai, nhưng thực ra bài toán đã khó hơn mức cơ bản.

2. Dữ liệu nằm trong HTML lộn xộn

Nếu dữ liệu không có API sẵn, mình sẽ phải bóc từ HTML. Lúc đó selector sai một chút là ra dữ liệu rỗng hoặc lệch cột.

3. Mỗi website một kiểu

3 nguồn khác nhau thường có:

class HTML khác nhau
format ngày khác nhau
tên field khác nhau
logic phân trang khác nhau

Vì vậy phần “scrape 3 website” thường không nên làm thành một node thần kỳ xử lý tất cả. Hợp lý hơn là tách 3 nhánh nhỏ, mỗi nhánh xử lý 1 nguồn rồi mới gộp lại.

Một workflow đủ thực dụng cho người mới

Nếu bắt đầu từ số 0, mình sẽ làm theo thứ tự này thay vì build cả hệ thống một lúc.

Bước 1: Chốt schema output

Việc này người hỏi trong Reddit đã làm đúng: chuẩn bị Google Sheets trước. Đây là cách rất ổn vì nó buộc mình nghĩ rõ mình thật sự cần gì.

Bước 2: Chỉ làm 1 website trước

Đừng scrape 3 website ngay ngày đầu. Hãy lấy 1 website dễ nhất và làm cho nó chạy thông trước.

Done criteria của bước này chỉ là:

lấy được dữ liệu
map đúng cột
ghi được vào sheet

Bước 3: Biến flow đầu tiên thành template

Sau khi website đầu tiên chạy ổn, copy nhánh đó để xử lý website thứ hai và thứ ba. Lúc này mình chỉ sửa phần selector, format ngày và field mapping.

Bước 4: Thêm chống lỗi tối thiểu

Khi workflow đã chạy được, mới thêm:

If node để bỏ bản ghi rỗng
Error handling cơ bản
retry nhẹ
timestamp để biết dữ liệu được lấy lúc nào

Bộ node tối thiểu thường là đủ

Với một use case scrape rồi đẩy sang Google Sheets, bộ node tối thiểu thường chỉ cần:

Manual Trigger hoặc Schedule Trigger
HTTP Request
HTML Extract hoặc Code
Set
Google Sheets

Ngoài ra, chỉ cân nhắc thêm khi thật sự cần:

Merge nếu muốn gộp nhiều nhánh
IF nếu cần lọc dữ liệu lỗi
Wait nếu website chặn quá nhanh
Function/Code nếu cần parse logic phức tạp hơn

Nói ngắn gọn: có auxiliary nodes, nhưng không phải lúc nào cũng cần. Người mới thường sợ vì nhìn workflow của người khác quá nhiều node, trong khi phiên bản đầu tiên của mình có thể rất ngắn.

Khi nào bài toán không còn “straightforward” nữa

Anh em nên coi đây là ngưỡng cảnh báo sớm:

website phải login mới xem được dữ liệu
website render hoàn toàn bằng JavaScript
website có captcha hoặc anti-bot mạnh
cần crawl nhiều trang con rồi tổng hợp
cần chống trùng dữ liệu qua nhiều lần chạy

Nếu gặp các case này, dự án vẫn làm được nhưng sẽ không còn là bài nhập môn n8n nữa. Lúc đó cần tách rõ phần scrape, phần làm sạch và phần lưu trữ để tránh biến workflow thành cục spaghetti.

Một bản thiết kế dễ hiểu để bắt đầu

Nếu phải mô tả cho người mới trong một câu, mình sẽ mô tả workflow như sau:

“Cứ xem n8n là công cụ đi lấy dữ liệu từ từng website, bốc đúng các trường mình cần, rồi ghi từng dòng vào Google Sheets theo một cấu trúc đã chốt trước.”

Từ góc nhìn vận hành, lời khuyên thực tế nhất là:

bắt đầu bằng 1 nguồn
dùng schema output làm chuẩn
giữ workflow ngắn ở bản đầu
chỉ thêm node khi có lỗi hoặc có nhu cầu thật
chấp nhận rằng độ khó chủ yếu nằm ở website nguồn, không phải ở n8n

Góc nhìn đáng chú ý từ topic Reddit này

Điều hay ở topic không nằm ở kỹ thuật scrape, mà ở nỗi sợ rất thật của người mới bước vào automation sau biến động công việc. Đây là kiểu tình huống mà cộng đồng n8n nên có nhiều bài chia sẻ hơn: không chỉ nói “làm được gì”, mà còn cho người mới thấy một workflow cơ bản thực sự trông như thế nào khi đặt vào bài toán cụ thể.

Nếu anh em đang ở giai đoạn mới làm quen, cứ nhớ một điều: workflow đầu tiên không cần đẹp, không cần tối ưu, chỉ cần chạy được một vòng từ nguồn dữ liệu đến Google Sheets là đã qua cửa đầu tiên rồi.

AI & Automation (vnROM)