Qwen-Image-2.0: Infographic chuyên nghiệp và tạo hình ảnh chân thực
Khám phá Qwen-Image-2.0, mô hình tạo hình ảnh thế hệ mới của Alibaba với khả năng render typography chuyên nghiệp, độ phân giải gốc 2K và khả năng tạo và chỉnh sửa hình ảnh hợp nhất.
Qwen-Image-2.0: Infographic chuyên nghiệp và tạo hình ảnh chân thực
Giới thiệu
Đội ngũ Qwen của Alibaba đã ra mắt Qwen-Image-2.0, mô hình nền tảng tạo hình ảnh thế hệ mới. Được thiết kế như một hệ thống tạo và chỉnh sửa hợp nhất, Qwen-Image-2.0 kết hợp Encoder Qwen3-VL 8B với Diffusion Decoder 7B, mang lại hiệu suất hiệu quả ở quy mô lớp 7B.
Những điểm nổi bật chính của Qwen-Image-2.0 bao gồm:
- Render typography chuyên nghiệp: Hỗ trợ chỉ dẫn 1k token để tạo trực tiếp infographic chuyên nghiệp, bao gồm PPT, poster, truyện tranh và nhiều hơn nữa
- Tuân thủ ngữ nghĩa mạnh hơn: Hỗ trợ độ phân giải gốc 2K cho các cảnh thực tế chi tiết
- Render văn bản cải tiến: Khả năng hiểu và tạo tích hợp, hợp nhất tạo và chỉnh sửa hình ảnh trong một mô hình duy nhất
- Kiến trúc mô hình nhẹ hơn: Kích thước mô hình nhỏ hơn với tốc độ suy luận nhanh hơn
Khả năng chính
Qwen-Image-2.0 tổ chức các thế mạnh cốt lõi xung quanh năm nguyên tắc — Chính xác, Phức tạp, Thẩm mỹ, Chân thực và Căn chỉnh.
Typography chuyên nghiệp và bố cục phức tạp
Một trong những tính năng đáng chú ý là hỗ trợ chỉ dẫn 1k token, cho phép tạo các bố cục trực quan phức tạp trực tiếp từ prompt văn bản chi tiết:
- Slide timeline: Tạo slide trình bày với timeline có cấu trúc và các mốc được gắn nhãn
- Báo cáo A/B Testing: Tạo infographic chi tiết với dữ liệu số chính xác và biểu đồ
- Poster song ngữ: Sản xuất poster với văn bản đa ngôn ngữ trong bố cục nghệ thuật
Thư pháp thẩm mỹ
Qwen-Image-2.0 thể hiện khả năng render nhiều phong cách thư pháp Trung Quốc với độ chính xác đáng chú ý:
- Cuộn mực: Thư pháp hành thư theo phong cách mực Trung Quốc truyền thống
- Chữ Vàng Mảnh (瘦金体): Render các tác phẩm thơ có ý nghĩa lịch sử
- Tiểu Khải (小楷): Tái tạo chính xác các văn bản cổ điển với chi tiết ký tự tinh xảo
Độ phân giải gốc 2K và chân thực ảnh
Mô hình tạo hình ảnh ở độ phân giải gốc 2K:
- Cảnh con người: Mô tả chân thực bao gồm phản chiếu môi trường tinh tế
- Cảnh thiên nhiên: Mô hình hóa hơn 23 sắc xanh lá khác nhau với hiệu ứng ánh sáng tự nhiên như tán xạ Tyndall
- Bố cục sáng tạo: Xử lý prompt phức tạp về mặt vật lý trong khi duy trì tính nhất quán giải phẫu
Tạo và chỉnh sửa hình ảnh hợp nhất
Là mô hình hợp nhất, xử lý cả tác vụ tạo và chỉnh sửa trong một kiến trúc duy nhất:
- Tổng hợp nhiều hình ảnh: Hợp nhất ảnh riêng biệt thành một bố cục tự nhiên với ánh sáng nhất quán
- Chỉnh sửa xuyên chiều: Đặt nhân vật minh họa vào cảnh ảnh chụp
- Chồng văn bản: Thêm yếu tố thư pháp vào hình ảnh hiện có
Hiệu suất mô hình
Hiệu suất được đánh giá qua kiểm tra mù trên bảng xếp hạng AI Arena. Tính đến ngày 9 tháng 2 năm 2026:
Bảng xếp hạng Elo văn bản sang hình ảnh
| Hạng | Mô hình | Điểm Elo | Tổ chức |
|---|---|---|---|
| 1 | Gemini-3-Pro-Image-Preview | 1050 | |
| 2 | GPT Image 1.5 | 1043 | OpenAI |
| 3 | Qwen-Image-2.0 | 1029 | Alibaba |
| 4 | Gemini-2.5-Flash-Image-Preview | 1010 | |
| 5 | Imagen 4 Ultra Preview 0606 | 1005 |
Bảng xếp hạng Elo chỉnh sửa hình ảnh
| Hạng | Mô hình | Điểm Elo | Tổ chức |
|---|---|---|---|
| 1 | Gemini-3-Pro-Image-Preview | 1042 | |
| 2 | Qwen-Image-2.0 | 1034 | Alibaba |
| 3 | Seedream 4.5 | 1011 | ByteDance |
| 4 | Qwen-Image-Edit-2511 | 1002 | Alibaba |
| 5 | Gemini-2.5-Flash-Image-Preview | 1000 |
Kiến trúc mô hình
Qwen-Image-2.0 được xây dựng trên kiến trúc gọn nhẹ nhưng hiệu quả:
- Encoder: Qwen3-VL 8B để hiểu hình ảnh và xử lý chỉ dẫn
- Decoder: Diffusion Decoder 7B để tổng hợp hình ảnh chất lượng cao
- Kích thước hiệu quả: Hiệu suất lớp 7B
- Dung lượng chỉ dẫn: Hỗ trợ prompt tối đa 1k token
Kết luận
Qwen-Image-2.0 đại diện cho một bước tiến đáng chú ý trong các mô hình tạo hình ảnh nền tảng. Sự kết hợp giữa render typography chuyên nghiệp, độ phân giải gốc 2K và khả năng tạo-chỉnh sửa hợp nhất biến nó thành công cụ đa năng cho các tác vụ tạo nội dung hình ảnh.
Chi tiết kỹ thuật tại arXiv (2508.02324).
Nguồn: Blog Qwen — Qwen-Image-2.0