Qwen-Image-2.0 : Infographies professionnelles et génération d'images photoréalistes

Découvrez Qwen-Image-2.0, le modèle de génération d'images de nouvelle génération d'Alibaba avec rendu typographique professionnel, résolution native 2K et capacités unifiées de génération et d'édition.

News
Qwen-Image-2.0 : Infographies professionnelles et génération d'images photoréalistes

Qwen-Image-2.0 : Infographies professionnelles et génération d’images photoréalistes

Introduction

L’équipe Qwen d’Alibaba a publié Qwen-Image-2.0, un modèle fondamental de génération d’images de nouvelle génération. Conçu comme un système unifié de génération et d’édition, Qwen-Image-2.0 combine un encodeur Qwen3-VL de 8B avec un décodeur de diffusion de 7B, offrant des performances efficaces à l’échelle de la classe 7B.

Les points forts de Qwen-Image-2.0 comprennent :

  • Rendu typographique professionnel : Prend en charge les instructions de 1k tokens pour la génération directe d’infographies professionnelles, y compris les PPT, affiches, bandes dessinées et plus
  • Adhérence sémantique renforcée : Prise en charge de la résolution native 2K pour des scènes réalistes finement détaillées
  • Rendu de texte amélioré : Capacités intégrées de compréhension et de génération, unifiant la génération et l’édition d’images dans un seul modèle
  • Architecture de modèle plus légère : Taille de modèle réduite avec une vitesse d’inférence plus rapide

Capacités clés

Qwen-Image-2.0 organise ses forces principales autour de cinq principes — Précision, Complexité, Esthétique, Réalisme et Alignement.

Typographie professionnelle et compositions complexes

L’une des fonctionnalités remarquables est la prise en charge des instructions de 1k tokens, permettant de générer des compositions visuelles complexes directement à partir de prompts textuels détaillés :

  • Diapositives chronologiques : Génération de diapositives de présentation avec des chronologies structurées et des jalons étiquetés
  • Rapports de tests A/B : Création d’infographies détaillées avec des données numériques précises et des graphiques
  • Affiches bilingues : Production d’affiches avec du texte multilingue dans des mises en page artistiques

Calligraphie esthétique

Qwen-Image-2.0 démontre la capacité de restituer plusieurs styles de calligraphie chinoise avec une précision notable :

  • Rouleau d’encre : Calligraphie cursive dans le style traditionnel à l’encre de Chine
  • Écriture Or Mince (瘦金体) : Rendu de scripts poétiques historiquement significatifs
  • Petite Écriture Régulière (小楷) : Reproduction précise de textes classiques avec des détails fins

Résolution native 2K et photoréalisme

Le modèle génère des images en résolution native 2K, permettant un haut niveau de détail photoréaliste :

  • Scènes humaines : Représentations réalistes incluant des reflets environnementaux fins
  • Scènes naturelles : Modélisation de plus de 23 nuances distinctes de vert avec des effets de lumière naturelle comme la diffusion de Tyndall
  • Compositions créatives : Traitement de prompts physiquement complexes tout en maintenant la cohérence anatomique

Génération et édition d’images unifiées

En tant que modèle unifié, Qwen-Image-2.0 gère à la fois les tâches de génération et d’édition au sein d’une seule architecture :

  • Synthèse multi-images : Fusion de photos séparées en une composition naturelle avec un éclairage cohérent
  • Édition cross-dimensionnelle : Placement de personnages illustrés dans des scènes photographiques tout en préservant l’intégrité visuelle
  • Superposition de texte : Ajout d’éléments calligraphiques aux images existantes avec un alignement et un style appropriés

Performances du modèle

Les performances de Qwen-Image-2.0 ont été évaluées par des tests à l’aveugle sur le classement AI Arena. Au 9 février 2026 :

Classement Elo texte vers image

RangModèleScore EloOrganisation
1Gemini-3-Pro-Image-Preview1050Google
2GPT Image 1.51043OpenAI
3Qwen-Image-2.01029Alibaba
4Gemini-2.5-Flash-Image-Preview1010Google
5Imagen 4 Ultra Preview 06061005Google

Classement Elo d’édition d’images

RangModèleScore EloOrganisation
1Gemini-3-Pro-Image-Preview1042Google
2Qwen-Image-2.01034Alibaba
3Seedream 4.51011ByteDance
4Qwen-Image-Edit-25111002Alibaba
5Gemini-2.5-Flash-Image-Preview1000Google

Architecture du modèle

Qwen-Image-2.0 est construit sur une architecture compacte mais efficace :

  • Encodeur : Qwen3-VL de 8B pour la compréhension visuelle et le traitement des instructions
  • Décodeur : Décodeur de diffusion de 7B pour la synthèse d’images de haute qualité
  • Taille effective : Efficacité de classe 7B, équilibrant performance et accessibilité computationnelle
  • Capacité d’instructions : Prend en charge des prompts jusqu’à 1k tokens

Conclusion

Qwen-Image-2.0 représente une avancée notable dans les modèles de génération d’images. Sa combinaison de rendu typographique professionnel, de résolution native 2K et de capacités unifiées de génération-édition en fait un outil polyvalent pour un large éventail de tâches de création de contenu visuel.

Pour plus de détails techniques, consultez le rapport sur arXiv (2508.02324).


Source : Blog Qwen — Qwen-Image-2.0