Qwen-Image-2.0: Infografis Profesional dan Pembuatan Gambar Fotorealistis

Jelajahi Qwen-Image-2.0, model pembuatan gambar generasi baru dari Alibaba dengan rendering tipografi profesional, resolusi native 2K, dan kemampuan pembuatan dan pengeditan gambar terpadu.

News
Qwen-Image-2.0: Infografis Profesional dan Pembuatan Gambar Fotorealistis

Qwen-Image-2.0: Infografis Profesional dan Pembuatan Gambar Fotorealistis

Pendahuluan

Tim Qwen dari Alibaba telah merilis Qwen-Image-2.0, model dasar pembuatan gambar generasi baru. Dirancang sebagai sistem pembuatan dan pengeditan terpadu, Qwen-Image-2.0 menggabungkan Encoder Qwen3-VL 8B dengan Diffusion Decoder 7B, memberikan performa efisien pada skala kelas 7B.

Sorotan utama Qwen-Image-2.0 meliputi:

  • Rendering Tipografi Profesional: Mendukung instruksi 1k token untuk pembuatan langsung infografis profesional, termasuk PPT, poster, komik, dan lainnya
  • Kepatuhan Semantik Lebih Kuat: Dukungan resolusi native 2K untuk adegan realistis yang sangat detail
  • Rendering Teks yang Ditingkatkan: Kemampuan pemahaman dan pembuatan terintegrasi, menyatukan pembuatan dan pengeditan gambar dalam satu model
  • Arsitektur Model Lebih Ringan: Ukuran model lebih kecil dengan kecepatan inferensi lebih cepat

Kemampuan Utama

Qwen-Image-2.0 mengorganisir kekuatan intinya di sekitar lima prinsip — Presisi, Kompleksitas, Estetika, Realisme, dan Keselarasan.

Tipografi Profesional dan Komposisi Kompleks

Salah satu fitur menonjol adalah dukungan instruksi 1k token, memungkinkan pembuatan komposisi visual kompleks langsung dari prompt teks terperinci:

  • Slide Timeline: Pembuatan slide presentasi dengan timeline terstruktur dan milestone berlabel
  • Laporan A/B Testing: Pembuatan infografis terperinci dengan data numerik akurat dan grafik
  • Poster Dwibahasa: Produksi poster dengan teks multibahasa dalam tata letak artistik

Kaligrafi Estetis

Qwen-Image-2.0 menunjukkan kemampuan merender beberapa gaya kaligrafi Tiongkok dengan akurasi tinggi:

  • Gulungan Tinta: Kaligrafi tulisan tangan dalam gaya tinta Tiongkok tradisional
  • Tulisan Emas Tipis (瘦金体): Rendering naskah puisi bersejarah
  • Tulisan Reguler Kecil (小楷): Reproduksi akurat teks klasik dengan detail karakter halus

Resolusi Native 2K dan Fotorealisme

Model menghasilkan gambar pada resolusi native 2K:

  • Adegan Manusia: Penggambaran realistis termasuk refleksi lingkungan yang halus
  • Adegan Alam: Pemodelan lebih dari 23 nuansa hijau berbeda dengan efek cahaya alami seperti hamburan Tyndall
  • Komposisi Kreatif: Menangani prompt yang secara fisik kompleks sambil mempertahankan konsistensi anatomis

Pembuatan dan Pengeditan Gambar Terpadu

Sebagai model terpadu, menangani tugas pembuatan dan pengeditan dalam satu arsitektur:

  • Sintesis Multi-Gambar: Menggabungkan foto terpisah menjadi komposisi natural dengan pencahayaan konsisten
  • Pengeditan Lintas Dimensi: Menempatkan karakter ilustrasi ke dalam adegan fotografis
  • Overlay Teks: Menambahkan elemen kaligrafi ke gambar yang ada

Performa Model

Performa dievaluasi melalui pengujian buta pada papan peringkat AI Arena. Per 9 Februari 2026:

Papan Peringkat Elo Teks ke Gambar

PeringkatModelSkor EloOrganisasi
1Gemini-3-Pro-Image-Preview1050Google
2GPT Image 1.51043OpenAI
3Qwen-Image-2.01029Alibaba
4Gemini-2.5-Flash-Image-Preview1010Google
5Imagen 4 Ultra Preview 06061005Google

Papan Peringkat Elo Pengeditan Gambar

PeringkatModelSkor EloOrganisasi
1Gemini-3-Pro-Image-Preview1042Google
2Qwen-Image-2.01034Alibaba
3Seedream 4.51011ByteDance
4Qwen-Image-Edit-25111002Alibaba
5Gemini-2.5-Flash-Image-Preview1000Google

Arsitektur Model

Qwen-Image-2.0 dibangun di atas arsitektur yang kompak namun efisien:

  • Encoder: Qwen3-VL 8B untuk pemahaman visual dan pemrosesan instruksi
  • Decoder: Diffusion Decoder 7B untuk sintesis gambar berkualitas tinggi
  • Ukuran Efektif: Efisiensi kelas 7B
  • Kapasitas Instruksi: Mendukung prompt hingga 1k token

Kesimpulan

Qwen-Image-2.0 mewakili kemajuan penting dalam model pembuatan gambar dasar. Kombinasi rendering tipografi profesional, resolusi native 2K, dan kemampuan pembuatan-pengeditan terpadu menjadikannya alat serbaguna untuk berbagai tugas pembuatan konten visual.

Detail teknis lebih lanjut di arXiv (2508.02324).


Sumber: Blog Qwen — Qwen-Image-2.0