AI & Automation (vnROM)

Cover image for Workflow tạo ảnh từ văn bản với Google Whisk và n8n
Mascot
Mascot

Posted on • Edited on • Originally published at workflowfree.com

Workflow tạo ảnh từ văn bản với Google Whisk và n8n

Chào bạn, hôm nay chúng ta sẽ cùng ngồi lại để bàn về một chủ đề cực kỳ thú vị dành cho dân chơi hệ "tự động hóa" (automation) và yêu thích nghệ thuật AI.

Nếu bạn đã từng vọc vạch qua các mô hình tạo ảnh của Google (thường được cộng đồng gọi vui là Google Banana với các model như Flow hay Whisk), chắc hẳn bạn đã nếm trải cảm giác "thủ công mỹ nghệ" mệt mỏi thế nào. Cứ mỗi lần muốn tạo một bức ảnh, bạn lại phải truy cập web, nhập prompt, chỉnh thông số, chờ đợi... lặp đi lặp lại rất tốn thời gian.

Tin vui là tôi vừa tìm ra một giải pháp để xử lý gọn gàng vấn đề này. Một workflow tự động trên n8n giúp bạn biến văn bản thành hình ảnh (Text to Image) chỉ trong một nốt nhạc. Hãy cùng tôi mổ xẻ chi tiết cách làm này nhé.

Tại sao bạn cần workflow này?

Trước khi đi vào kỹ thuật, hãy nói về "nỗi đau" (pain point) một chút. Trước đây, khi muốn sử dụng sức mạnh của Google Banana (Flow/Whisk) để tạo ảnh, quy trình thường là:

  1. Truy cập trang web thử nghiệm.
  2. Đăng nhập, xác thực lằng nhằng.
  3. Nhập prompt thủ công.
  4. Tải ảnh về bằng tay.

Nó không sai, nhưng nó chậm. Workflow mà tôi giới thiệu dưới đây sẽ giải quyết triệt để bài toán này. Nó hoạt động như một cỗ máy ngầm: nhận lệnh từ bạn -> tự động gửi yêu cầu -> lấy ảnh về -> đóng gói thành file. Không cần click chuột mỏi tay nữa.

Các công cụ cần chuẩn bị

Để xây dựng được hệ thống này, chúng ta không cần quá nhiều công cụ phức tạp, chủ yếu xoay quanh hệ sinh thái n8n và Google:

  1. n8n: Đây là trái tim của hệ thống. Một nền tảng workflow automation tuyệt vời (bạn có thể chạy self-hosted hoặc cloud).
  2. Google API: Cụ thể là các endpoint ẩn mà chúng ta sẽ khai thác để gửi yêu cầu tạo ảnh.
  3. Công cụ Web hỗ trợ: Dùng để lấy Project IDAuthorization (token xác thực) – đây là chìa khóa để n8n có thể "nói chuyện" được với Google.

Phân tích chi tiết luồng xử lý (workflow anatomy)

Đây là phần quan trọng nhất. Workflow này không chỉ đơn giản là một đường thẳng, nó có logic xử lý để đảm bảo đầu vào (prompt) của bạn được chuyển hóa thành đầu ra (ảnh) chính xác nhất.

Dưới đây là hình ảnh toàn cảnh của workflow sau khi cài đặt lên n8n:

workflow tự động hóa tạo hình ảnh từ văn bản bằng n8n và Google API

Chúng ta sẽ đi qua từng node để hiểu cơ chế hoạt động:

1. On form submission (Cổng tiếp nhận)

Mọi thứ bắt đầu từ đây. Node này đóng vai trò là giao diện đầu vào (Trigger). Thay vì code cứng (hard-code), chúng ta tạo một biểu mẫu để người dùng có thể linh hoạt nhập:

  • Mô hình (Model): Chọn Whisk hoặc Flow.
  • Tỷ lệ khung hình (Aspect Ratio): Vuông, Chữ nhật đứng, Ngang...
  • Văn bản đầu vào (Prompt): Mô tả bức ảnh bạn muốn tạo.

2. Clean_Prompt (Vệ sinh dữ liệu)

Không phải lúc nào prompt nhập vào cũng chuẩn. Node này (thường là Code node hoặc Edit Fields) sẽ giúp làm sạch văn bản, loại bỏ các ký tự lạ hoặc định dạng lại chuỗi string sao cho phù hợp nhất trước khi gửi đi. Bước này tuy nhỏ nhưng giúp giảm thiểu lỗi API rất nhiều.

3. Setup_first (Thiết lập thông số cốt lõi)

Đây là "bộ não" chứa thông tin xác thực. Tại node này, chúng ta sẽ gán các biến quan trọng:

  • Project ID: Định danh dự án Google.
  • Authorization: Token xác thực quyền truy cập.
  • Session ID: Phiên làm việc. Lưu ý: Nếu workflow không chạy, 99% lỗi nằm ở việc điền sai thông tin ở node này.

4. Switch1 & Switch2 (Bộ điều hướng thông minh)

Tại sao lại cần Switch? Vì mỗi mô hình (Whisk hay Flow) và mỗi tỷ lệ khung hình có thể yêu cầu các tham số payload (dữ liệu gửi đi) khác nhau.

  • Hệ thống sẽ kiểm tra xem bạn chọn tỷ lệ nào, mô hình nào.
  • Sau đó nó sẽ định tuyến đến nhánh xử lý tương ứng để set thông số kỹ thuật chính xác.

5. HTTP Request1 (Gửi lệnh tạo ảnh)

Sau khi đã có đủ: Prompt sạch + Token xác thực + Thông số kỹ thuật đúng, node này sẽ thực hiện một cú gọi (POST request) trực tiếp đến Google API. Đây là lúc phép màu xảy ra – Google server sẽ xử lý và trả về dữ liệu hình ảnh (thường dưới dạng base64 hoặc binary).

6. Convert to File1 (Đóng gói thành phẩm)

Dữ liệu trả về từ API có thể là một chuỗi mã hóa khó hiểu với người dùng phổ thông. Node này sẽ chuyển đổi (convert) dữ liệu đó thành một file hình ảnh thực thụ (như .jpg, .png) để bạn có thể xem, tải về hoặc đẩy sang các nền tảng khác (Telegram, Drive, Slack...).


Hướng dẫn cài đặt và cấu hình

Để sở hữu workflow này, bạn làm theo các bước sau. Tôi khuyên bạn nên làm chậm và kỹ bước lấy Token.

Bước 1: Tải và Import Workflow

Bạn cần tải file JSON của workflow về và import vào n8n của mình.

Bước 2: Cấu hình Credentials (Quan trọng)

Sau khi import, bạn mở node Setup_first. Tại đây bạn cần điền chính xác Project IDAuthorization. Vì đây là các API không công khai chính thức (unofficial/experimental), việc lấy token cần chút thủ thuật.

Để biết cách lấy đúng hai thông số này, bạn hãy xem hướng dẫn chi tiết tại bài viết này:
👉 Hướng dẫn lấy Authorization và Project ID chuẩn nhất

Mẹo nhỏ: Token của Google thường có thời hạn. Nếu sau một thời gian workflow báo lỗi 401 hoặc 403, hãy quay lại bước này để lấy token mới và cập nhật vào node Setup_first.


Việc ứng dụng n8n để tự động hóa Google Banana/Whisk là một ví dụ điển hình cho thấy công nghệ giúp chúng ta tiết kiệm thời gian như thế nào. Thay vì làm "culi" cho máy tính, hãy để máy tính làm việc cho bạn.

Hy vọng bài viết này giúp bạn setup thành công hệ thống tạo ảnh tự động của riêng mình. Nếu gặp vướng mắc ở bước nào, đặc biệt là đoạn HTTP Request, đừng ngần ngại kiểm tra kỹ lại phần Authorization nhé. Chúc bạn có những bức ảnh AI thật chất lượng

Top comments (0)