Qwen-Image-2.0: Infographic chuyên nghiệp và tạo hình ảnh chân thực

Khám phá Qwen-Image-2.0, mô hình tạo hình ảnh thế hệ mới của Alibaba với khả năng render typography chuyên nghiệp, độ phân giải gốc 2K và khả năng tạo và chỉnh sửa hình ảnh hợp nhất.

News
Qwen-Image-2.0: Infographic chuyên nghiệp và tạo hình ảnh chân thực

Qwen-Image-2.0: Infographic chuyên nghiệp và tạo hình ảnh chân thực

Giới thiệu

Đội ngũ Qwen của Alibaba đã ra mắt Qwen-Image-2.0, mô hình nền tảng tạo hình ảnh thế hệ mới. Được thiết kế như một hệ thống tạo và chỉnh sửa hợp nhất, Qwen-Image-2.0 kết hợp Encoder Qwen3-VL 8B với Diffusion Decoder 7B, mang lại hiệu suất hiệu quả ở quy mô lớp 7B.

Những điểm nổi bật chính của Qwen-Image-2.0 bao gồm:

  • Render typography chuyên nghiệp: Hỗ trợ chỉ dẫn 1k token để tạo trực tiếp infographic chuyên nghiệp, bao gồm PPT, poster, truyện tranh và nhiều hơn nữa
  • Tuân thủ ngữ nghĩa mạnh hơn: Hỗ trợ độ phân giải gốc 2K cho các cảnh thực tế chi tiết
  • Render văn bản cải tiến: Khả năng hiểu và tạo tích hợp, hợp nhất tạo và chỉnh sửa hình ảnh trong một mô hình duy nhất
  • Kiến trúc mô hình nhẹ hơn: Kích thước mô hình nhỏ hơn với tốc độ suy luận nhanh hơn

Khả năng chính

Qwen-Image-2.0 tổ chức các thế mạnh cốt lõi xung quanh năm nguyên tắc — Chính xác, Phức tạp, Thẩm mỹ, Chân thựcCăn chỉnh.

Typography chuyên nghiệp và bố cục phức tạp

Một trong những tính năng đáng chú ý là hỗ trợ chỉ dẫn 1k token, cho phép tạo các bố cục trực quan phức tạp trực tiếp từ prompt văn bản chi tiết:

  • Slide timeline: Tạo slide trình bày với timeline có cấu trúc và các mốc được gắn nhãn
  • Báo cáo A/B Testing: Tạo infographic chi tiết với dữ liệu số chính xác và biểu đồ
  • Poster song ngữ: Sản xuất poster với văn bản đa ngôn ngữ trong bố cục nghệ thuật

Thư pháp thẩm mỹ

Qwen-Image-2.0 thể hiện khả năng render nhiều phong cách thư pháp Trung Quốc với độ chính xác đáng chú ý:

  • Cuộn mực: Thư pháp hành thư theo phong cách mực Trung Quốc truyền thống
  • Chữ Vàng Mảnh (瘦金体): Render các tác phẩm thơ có ý nghĩa lịch sử
  • Tiểu Khải (小楷): Tái tạo chính xác các văn bản cổ điển với chi tiết ký tự tinh xảo

Độ phân giải gốc 2K và chân thực ảnh

Mô hình tạo hình ảnh ở độ phân giải gốc 2K:

  • Cảnh con người: Mô tả chân thực bao gồm phản chiếu môi trường tinh tế
  • Cảnh thiên nhiên: Mô hình hóa hơn 23 sắc xanh lá khác nhau với hiệu ứng ánh sáng tự nhiên như tán xạ Tyndall
  • Bố cục sáng tạo: Xử lý prompt phức tạp về mặt vật lý trong khi duy trì tính nhất quán giải phẫu

Tạo và chỉnh sửa hình ảnh hợp nhất

Là mô hình hợp nhất, xử lý cả tác vụ tạo và chỉnh sửa trong một kiến trúc duy nhất:

  • Tổng hợp nhiều hình ảnh: Hợp nhất ảnh riêng biệt thành một bố cục tự nhiên với ánh sáng nhất quán
  • Chỉnh sửa xuyên chiều: Đặt nhân vật minh họa vào cảnh ảnh chụp
  • Chồng văn bản: Thêm yếu tố thư pháp vào hình ảnh hiện có

Hiệu suất mô hình

Hiệu suất được đánh giá qua kiểm tra mù trên bảng xếp hạng AI Arena. Tính đến ngày 9 tháng 2 năm 2026:

Bảng xếp hạng Elo văn bản sang hình ảnh

HạngMô hìnhĐiểm EloTổ chức
1Gemini-3-Pro-Image-Preview1050Google
2GPT Image 1.51043OpenAI
3Qwen-Image-2.01029Alibaba
4Gemini-2.5-Flash-Image-Preview1010Google
5Imagen 4 Ultra Preview 06061005Google

Bảng xếp hạng Elo chỉnh sửa hình ảnh

HạngMô hìnhĐiểm EloTổ chức
1Gemini-3-Pro-Image-Preview1042Google
2Qwen-Image-2.01034Alibaba
3Seedream 4.51011ByteDance
4Qwen-Image-Edit-25111002Alibaba
5Gemini-2.5-Flash-Image-Preview1000Google

Kiến trúc mô hình

Qwen-Image-2.0 được xây dựng trên kiến trúc gọn nhẹ nhưng hiệu quả:

  • Encoder: Qwen3-VL 8B để hiểu hình ảnh và xử lý chỉ dẫn
  • Decoder: Diffusion Decoder 7B để tổng hợp hình ảnh chất lượng cao
  • Kích thước hiệu quả: Hiệu suất lớp 7B
  • Dung lượng chỉ dẫn: Hỗ trợ prompt tối đa 1k token

Kết luận

Qwen-Image-2.0 đại diện cho một bước tiến đáng chú ý trong các mô hình tạo hình ảnh nền tảng. Sự kết hợp giữa render typography chuyên nghiệp, độ phân giải gốc 2K và khả năng tạo-chỉnh sửa hợp nhất biến nó thành công cụ đa năng cho các tác vụ tạo nội dung hình ảnh.

Chi tiết kỹ thuật tại arXiv (2508.02324).


Nguồn: Blog Qwen — Qwen-Image-2.0