vnROM for vnROM Team

Posted on Dec 25, 2025

exo: Xây dựng cluster AI tại nhà với thiết bị thông thường

#exo #ai #opensource #selfhosted

Chào cả nhà! 👋

Hôm nay mình muốn giới thiệu một dự án mã nguồn mở mà mình vô tình biết - exo - một công cụ cho phép bạn xây dựng và chạy một cluster AI hoàn toàn tại nhà bằng những thiết bị thông thường mà bạn đã có!

Nếu bạn từng muốn chạy những mô hình AI lớn như LLaMA 3.1 405B hoặc DeepSeek R1 nhưng bị "sợ" giá cả của cloud API (OpenAI API có thể tốn hàng chục đô/tháng), thì exo chính là giải pháp cho bạn.

Exo là gì?

exo là một dự án open-source cho phép bạn kết nối nhiều thiết bị khác nhau như MacBook, laptop, PC, Linux, Raspberry Pi, điện thoại Android, thậm chí là smartwatch vào một cluster AI phân tán để chạy các mô hình ngôn ngữ lớn (LLM).

Điểm mạnh chính:

Không cần thiết bị đắt tiền: Sử dụng máy tính, laptop cũ, hoặc Raspberry Pi mà bạn đã có
Chia sẻ tài nguyên động: Exo tự động chia nhỏ mô hình AI dựa trên khả năng của mỗi thiết bị
Phát hiện tự động: Không cần cấu hình phức tạp—exo tự tìm kiếm các thiết bị khác trên mạng
API tương thích ChatGPT: Bạn có thể sử dụng nó giống như OpenAI API, chỉ cần thay đổi một dòng code
Hoàn toàn riêng tư: Tất cả dữ liệu của bạn xử lý ngoại tuyến trên mạng nhà
Mã nguồn mở: 32k+ stars trên GitHub, cộng đồng đang phát triển nhanh

Tại sao nên sử dụng exo?

Tiết kiệm chi phí

OpenAI API tốn khoảng $0.03-$0.30 mỗi 1,000 tokens. Nếu bạn dùng thường xuyên, chi phí sẽ rất cao. Với exo, bạn chỉ cần trả tiền điện để chạy máy.

Bảo mật và quyền riêng tư

Mọi thứ chạy ngoại tuyến trên mạng riêng của bạn. Không ai khác có thể xem dữ liệu của bạn.

Học tập và thử nghiệm

Muốn tìm hiểu cách hoạt động của LLM? exo cho phép bạn chạy chúng trên phần cứng của mình và tùy chỉnh theo nhu cầu.

Không phụ thuộc vào nhà cung cấp

Bạn sở hữu toàn bộ hệ thống—không bị phụ thuộc vào các dịch vụ bên thứ ba.

Yêu cầu hệ thống

Trước khi cài đặt, hãy kiểm tra:

Python 3.12+ (bắt buộc)
Một hoặc nhiều thiết bị có đủ RAM tổng cộng để chứa mô hình
Tất cả thiết bị trên cùng mạng Wi-Fi (hoặc kết nối qua Tailscale)

Ví dụ về yêu cầu RAM:

Llama 3.2 3B: 6GB (1 MacBook Air)
Llama 3.1 8B: 16GB (2 MacBook Air 8GB cộng lại)
Llama 3.1 70B: 140GB (GPU cluster)
DeepSeek R1 671B: 1.3TB+ (cluster lớn)

Thiết bị hỗ trợ:

MacBook (Apple Silicon)
Laptop Linux (Intel, AMD, CPU)
NVIDIA GPU (RTX series)
Raspberry Pi
iPhone/iPad
Android devices
IoT devices

Hướng dẫn cài đặt (3 bước đơn giản)

Bước 1: Kiểm tra phiên bản Python

python3 --version

Nếu bạn có Python 3.11 trở xuống, hãy cập nhật:

# Trên macOS (dùng Homebrew)
brew install [email protected]

# Trên Ubuntu/Debian
sudo apt-get update
sudo apt-get install python3.12 python3.12-venv

Bước 2: Clone và cài đặt exo

git clone https://github.com/exo-explore/exo.git
cd exo
pip install -e .

# Hoặc sử dụng venv (khuyên dùng)
source install.sh

Quá trình cài đặt sẽ mất khoảng 5-10 phút.

Bước 3: Chạy exo

Trên thiết bị đầu tiên:

exo

Trên thiết bị thứ hai (nếu có):

exo

Thế là xong! Exo sẽ tự động tìm kiếm và kết nối với thiết bị khác. Bạn sẽ thấy một giao diện web tương tự ChatGPT tại:

http://localhost:52415

Ví dụ sử dụng thực tế

1. Sử dụng giao diện Web (dễ nhất)

Mở trình duyệt, vào http://localhost:52415 và bắt đầu hỏi những câu hỏi—giống như ChatGPT!

2. Sử dụng API (cho lập trình viên)

Nếu muốn tích hợp vào ứng dụng của mình:

# Chạy Llama 3.2 3B
curl http://localhost:52415/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
     "model": "llama-3.2-3b",
     "messages": [{"role": "user", "content": "Exo là gì?"}],
     "temperature": 0.7
   }'

3. Chạy mô hình lớn (405B parameters)

curl http://localhost:52415/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
     "model": "llama-3.1-405b",
     "messages": [{"role": "user", "content": "Giải thích về distributed computing"}],
     "temperature": 0.7
   }'

4. Mô hình thị giác (Vision)

curl http://localhost:52415/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
     "model": "llava-1.5-7b-hf",
     "messages": [{
       "role": "user",
       "content": [
         {"type": "text", "text": "Hình ảnh này có gì?"},
         {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}}
       ]
     }],
     "temperature": 0.0
   }'

Mô hình được hỗ trợ

LLaMA: 3B, 8B, 70B, 405B
Mistral: 7B, 8x7B (Mixture of Experts)
DeepSeek: R1 (671B), Coder
Qwen: Các phiên bản khác nhau
LLaVA: Mô hình vision-language
Phi: Microsoft Phi series

Mẹo tối ưu hiệu suất

Nâng cấp macOS: Nếu dùng Mac, cập nhật lên Sequoia mới nhất
Chạy configure_mlx.sh: Trên Mac để tối ưu GPU
Thêm GPU: GPU mạnh hơn CPU nhiều lần, nên ưu tiên
Chọn mô hình phù hợp: Llama 3.2 3B nhanh hơn rất nhiều so với 70B
Đặt EXO_HOME: Nếu muốn lưu mô hình ở vị trí khác

  export EXO_HOME=/path/to/storage
  exo

Khắc phục sự cố phổ biến

Lỗi: "Python version too old"

→ Cập nhật lên Python 3.12+ rồi cài đặt lại

SSL Certificate Error trên Mac

→ Chạy:

/Applications/Python\ 3.12/Install\ Certificates.command

Không khám phá được thiết bị khác

→ Kiểm tra:

Tất cả thiết bị trên cùng Wi-Fi
Tường lửa không chặn UDP
Nếu cần, dùng Tailscale: exo --tailscale

Tốc độ chậm

→ Chạy debug logs để xem điều gì đang xảy ra:

DEBUG=9 exo

Lợi ích cho cộng đồng Việt Nam

Với exo, cộng đồng AI Việt Nam có thể:

Chạy AI ngoại tuyến: Không lo về kiểm duyệt nội dung hoặc kết nối
Tiết kiệm chi phí: Đặc biệt hữu ích khi cloud APIs rất đắt
Học tập: Hiểu sâu hơn về cách hoạt động của LLM
Cộng tác: Chia sẻ cluster AI với bạn bè hoặc đồng nghiệp

Đây là một dự án đang phát triển tích cực với cộng đồng rất sôi nổi:

GitHub: exo-explore/exo (32k+ stars!)
Discord & Telegram: Tham gia cộng đồng để thảo luận
Contribute: Dự án chào đón các pull requests từ cộng đồng
Bounty Program: Nhận thưởng khi giải quyết vấn đề

AI & Automation (vnROM)