sunworld

Posted on May 9 • Originally published at reddit.com

Qwen 3.6 27B chạy offline tiệm cận Claude Opus: nhận định từ đồng sáng lập Hugging Face

#claudecode #qwen #opensource #localllm

Bối cảnh: một tuyên bố gây chú ý từ Hugging Face

Tuần này, Thomas Wolf — đồng sáng lập kiêm Chief Science Officer của Hugging Face — đã đưa ra một nhận định khiến cộng đồng Claude Code xôn xao: Qwen 3.6 27B, chạy hoàn toàn offline trên máy cá nhân, cho hiệu năng tiệm cận với Claude Opus mới nhất khi dùng trong Claude Code.

Đây không phải là một lời khen xã giao. Wolf là người có tiếng nói trong giới open-source AI và thường xuyên thử nghiệm các mô hình mã nguồn mở trong thực tế. Việc một mô hình 27B tham số có thể sánh ngang Opus — dòng model mạnh nhất của Anthropic với số tham số lớn hơn rất nhiều — là một tín hiệu đáng chú ý về tốc độ phát triển của AI mã nguồn mở.

Qwen 3.6 27B là gì?

Qwen 3.6 27B là mô hình ngôn ngữ mã nguồn mở do Alibaba phát triển, ra mắt tháng 4/2026. Một vài con số đáng chú ý:

27 tỷ tham số — kích thước vừa đủ để chạy trên phần cứng tiêu dùng
Context window gốc 262K token, có thể mở rộng lên hơn 1 triệu token
Hỗ trợ multimodal: text, ảnh, video
Tập trung vào agentic coding — khả năng tự động lập kế hoạch và thực thi tác vụ code
Mã nguồn mở hoàn toàn, tải về từ Hugging Face hoặc ModelScope

Điểm đặc biệt: bản 4-bit quantization chỉ cần khoảng 18GB RAM để chạy — vừa vặn với một chiếc MacBook Pro M4 hay máy workstation tầm trung.

"Airplane mode" nghĩa là gì?

Khi Wolf nói "airplane mode", ý anh ấy là chạy hoàn toàn offline, không cần kết nối internet, không gọi API.

Điều này có ý nghĩa lớn với Claude Code vì thông thường Claude Code phải gọi đến API của Anthropic để sử dụng Claude Opus hoặc Sonnet. Mỗi lần gọi API đều:

Tốn chi phí (Opus đắt hơn đáng kể so với Sonnet)
Cần kết nối mạng ổn định
Có giới hạn rate limit
Gửi code của bạn lên máy chủ bên thứ ba

Với Qwen 3.6 27B chạy local, anh em có thể dùng Claude Code với tất cả sức mạnh của nó (đọc file, sửa code, chạy lệnh, tự động hóa) nhưng inference chạy ngay trên máy mình. Không phí API, không giới hạn request, không lo lộ code.

Cách thiết lập: Claude Code + model local

Về mặt kỹ thuật, Claude Code không bắt buộc phải dùng model của Anthropic. Nó giao tiếp qua Anthropic Messages API, và mình có thể chuyển hướng request đến một local server chạy model open-source.

Quy trình cơ bản:

Tải Qwen 3.6 27B từ Hugging Face (bản GGUF 4-bit cho người dùng phổ thông)
Chạy local inference bằng LM Studio, Ollama, hoặc vLLM
Dùng proxy như LiteLLM để dịch giữa Anthropic API format và OpenAI-compatible format mà local server hỗ trợ
Cấu hình Claude Code trỏ đến proxy thay vì api.anthropic.com

Người dùng trên Reddit còn chia sẻ một cách thú vị hơn: dùng AI Desktop 98 — một app macOS miễn phí với giao diện hoài cổ — để chạy Qwen local, sau đó kết nối với Claude Code qua proxy.

Hiệu năng thực tế: gần Opus đến mức nào?

Không có benchmark chính thức nào so sánh trực tiếp Qwen 3.6 27B với Opus trong Claude Code. Nhưng từ thảo luận cộng đồng và các bài đánh giá độc lập, có thể rút ra vài điểm:

Tiêu chí	Qwen 3.6 27B (local)	Claude Opus (cloud)
Tốc độ phản hồi	Nhanh trên Apple Silicon, chậm hơn trên CUDA tầm trung	Ổn định
Code generation	Rất tốt với agentic coding, có lợi thế về context dài	Xuất sắc, ổn định nhất
Debug & refactor	Tốt, đôi khi cần prompt chi tiết hơn	Rất tốt
Chi phí	0 đồng sau khi setup	Vài chục đến vài trăm USD/tháng tùy mức dùng
Quyền riêng tư	Tuyệt đối — mọi thứ trên máy bạn	Code được gửi lên server Anthropic
Rate limit	Không có	Có giới hạn theo tier

Điểm mạnh rõ nhất của Qwen 3.6 27B là context window siêu dài và khả năng agentic coding được thiết kế từ đầu. Với những dự án cần xử lý lượng code lớn trong một phiên làm việc, đây là lợi thế thực sự.

Có nên chuyển hoàn toàn sang local model?

Câu trả lời ngắn: chưa, nhưng đáng để thử song song.

Opus vẫn vượt trội về độ ổn định và khả năng làm theo hướng dẫn phức tạp (instruction following). Những tác vụ đòi hỏi độ chính xác cao, nhiều bước phối hợp, hay cần suy luận an toàn (safety-critical reasoning) thì Opus vẫn là lựa chọn hàng đầu.

Nhưng với phần lớn công việc hàng ngày — viết test, refactor, generate boilerplate, giải thích code, tạo documentation — Qwen 3.6 27B chạy local đang trở thành một lựa chọn cực kỳ hợp lý, đặc biệt khi mình muốn:

Làm việc offline (máy bay, quán cafe không wifi ổn định)
Tiết kiệm chi phí API dài hạn
Giữ code hoàn toàn trên máy cá nhân
Không bị giới hạn số lượng request mỗi ngày

Tổng kết

Việc một mô hình 27B mã nguồn mở có thể tiếp cận hiệu năng của dòng Opus — vốn là đỉnh cao của AI đóng — là minh chứng rõ ràng rằng khoảng cách giữa open-source và proprietary đang thu hẹp nhanh hơn nhiều người dự đoán.

Nếu anh em đang dùng Claude Code hàng ngày, dành một buổi cuối tuần để setup Qwen 3.6 27B local là khoản đầu tư thời gian xứng đáng. Không chỉ tiết kiệm về lâu dài, mà còn mở ra một hướng làm việc mới: AI coding agent mạnh mẽ, riêng tư, và hoàn toàn nằm trong tầm kiểm soát của mình.

AI & Automation (vnROM)