Qwen-Image-2.0 : Infographies professionnelles et génération d'images photoréalistes
Découvrez Qwen-Image-2.0, le modèle de génération d'images de nouvelle génération d'Alibaba avec rendu typographique professionnel, résolution native 2K et capacités unifiées de génération et d'édition.
Qwen-Image-2.0 : Infographies professionnelles et génération d’images photoréalistes
Introduction
L’équipe Qwen d’Alibaba a publié Qwen-Image-2.0, un modèle fondamental de génération d’images de nouvelle génération. Conçu comme un système unifié de génération et d’édition, Qwen-Image-2.0 combine un encodeur Qwen3-VL de 8B avec un décodeur de diffusion de 7B, offrant des performances efficaces à l’échelle de la classe 7B.
Les points forts de Qwen-Image-2.0 comprennent :
- Rendu typographique professionnel : Prend en charge les instructions de 1k tokens pour la génération directe d’infographies professionnelles, y compris les PPT, affiches, bandes dessinées et plus
- Adhérence sémantique renforcée : Prise en charge de la résolution native 2K pour des scènes réalistes finement détaillées
- Rendu de texte amélioré : Capacités intégrées de compréhension et de génération, unifiant la génération et l’édition d’images dans un seul modèle
- Architecture de modèle plus légère : Taille de modèle réduite avec une vitesse d’inférence plus rapide
Capacités clés
Qwen-Image-2.0 organise ses forces principales autour de cinq principes — Précision, Complexité, Esthétique, Réalisme et Alignement.
Typographie professionnelle et compositions complexes
L’une des fonctionnalités remarquables est la prise en charge des instructions de 1k tokens, permettant de générer des compositions visuelles complexes directement à partir de prompts textuels détaillés :
- Diapositives chronologiques : Génération de diapositives de présentation avec des chronologies structurées et des jalons étiquetés
- Rapports de tests A/B : Création d’infographies détaillées avec des données numériques précises et des graphiques
- Affiches bilingues : Production d’affiches avec du texte multilingue dans des mises en page artistiques
Calligraphie esthétique
Qwen-Image-2.0 démontre la capacité de restituer plusieurs styles de calligraphie chinoise avec une précision notable :
- Rouleau d’encre : Calligraphie cursive dans le style traditionnel à l’encre de Chine
- Écriture Or Mince (瘦金体) : Rendu de scripts poétiques historiquement significatifs
- Petite Écriture Régulière (小楷) : Reproduction précise de textes classiques avec des détails fins
Résolution native 2K et photoréalisme
Le modèle génère des images en résolution native 2K, permettant un haut niveau de détail photoréaliste :
- Scènes humaines : Représentations réalistes incluant des reflets environnementaux fins
- Scènes naturelles : Modélisation de plus de 23 nuances distinctes de vert avec des effets de lumière naturelle comme la diffusion de Tyndall
- Compositions créatives : Traitement de prompts physiquement complexes tout en maintenant la cohérence anatomique
Génération et édition d’images unifiées
En tant que modèle unifié, Qwen-Image-2.0 gère à la fois les tâches de génération et d’édition au sein d’une seule architecture :
- Synthèse multi-images : Fusion de photos séparées en une composition naturelle avec un éclairage cohérent
- Édition cross-dimensionnelle : Placement de personnages illustrés dans des scènes photographiques tout en préservant l’intégrité visuelle
- Superposition de texte : Ajout d’éléments calligraphiques aux images existantes avec un alignement et un style appropriés
Performances du modèle
Les performances de Qwen-Image-2.0 ont été évaluées par des tests à l’aveugle sur le classement AI Arena. Au 9 février 2026 :
Classement Elo texte vers image
| Rang | Modèle | Score Elo | Organisation |
|---|---|---|---|
| 1 | Gemini-3-Pro-Image-Preview | 1050 | |
| 2 | GPT Image 1.5 | 1043 | OpenAI |
| 3 | Qwen-Image-2.0 | 1029 | Alibaba |
| 4 | Gemini-2.5-Flash-Image-Preview | 1010 | |
| 5 | Imagen 4 Ultra Preview 0606 | 1005 |
Classement Elo d’édition d’images
| Rang | Modèle | Score Elo | Organisation |
|---|---|---|---|
| 1 | Gemini-3-Pro-Image-Preview | 1042 | |
| 2 | Qwen-Image-2.0 | 1034 | Alibaba |
| 3 | Seedream 4.5 | 1011 | ByteDance |
| 4 | Qwen-Image-Edit-2511 | 1002 | Alibaba |
| 5 | Gemini-2.5-Flash-Image-Preview | 1000 |
Architecture du modèle
Qwen-Image-2.0 est construit sur une architecture compacte mais efficace :
- Encodeur : Qwen3-VL de 8B pour la compréhension visuelle et le traitement des instructions
- Décodeur : Décodeur de diffusion de 7B pour la synthèse d’images de haute qualité
- Taille effective : Efficacité de classe 7B, équilibrant performance et accessibilité computationnelle
- Capacité d’instructions : Prend en charge des prompts jusqu’à 1k tokens
Conclusion
Qwen-Image-2.0 représente une avancée notable dans les modèles de génération d’images. Sa combinaison de rendu typographique professionnel, de résolution native 2K et de capacités unifiées de génération-édition en fait un outil polyvalent pour un large éventail de tâches de création de contenu visuel.
Pour plus de détails techniques, consultez le rapport sur arXiv (2508.02324).
Source : Blog Qwen — Qwen-Image-2.0