Qwen-Image-2.0: อินโฟกราฟิกระดับมืออาชีพและการสร้างภาพสมจริง
สำรวจ Qwen-Image-2.0 โมเดลสร้างภาพรุ่นใหม่จาก Alibaba พร้อมการเรนเดอร์ตัวอักษรระดับมืออาชีพ ความละเอียดเนทีฟ 2K และความสามารถในการสร้างและแก้ไขภาพแบบรวมศูนย์
Qwen-Image-2.0: อินโฟกราฟิกระดับมืออาชีพและการสร้างภาพสมจริง
บทนำ
ทีม Qwen จาก Alibaba ได้เปิดตัว Qwen-Image-2.0 โมเดลพื้นฐานสำหรับการสร้างภาพรุ่นใหม่ ออกแบบเป็นระบบรวมการสร้างและแก้ไขภาพ Qwen-Image-2.0 ผสมผสาน Encoder Qwen3-VL ขนาด 8B กับ Diffusion Decoder ขนาด 7B มอบประสิทธิภาพระดับ 7B
จุดเด่นหลักของ Qwen-Image-2.0 ได้แก่:
- การเรนเดอร์ตัวอักษรระดับมืออาชีพ: รองรับคำสั่ง 1k โทเค็น สำหรับสร้างอินโฟกราฟิกระดับมืออาชีพโดยตรง รวมถึง PPT โปสเตอร์ การ์ตูน และอื่น ๆ
- การยึดมั่นทางความหมายที่แข็งแกร่งขึ้น: รองรับความละเอียดเนทีฟ 2K สำหรับฉากสมจริงที่มีรายละเอียดสูง
- การเรนเดอร์ข้อความที่ปรับปรุงแล้ว: ความสามารถในการเข้าใจและสร้างแบบบูรณาการ รวมการสร้างและแก้ไขภาพในโมเดลเดียว
- สถาปัตยกรรมโมเดลที่เบาลง: ขนาดโมเดลเล็กลงพร้อมความเร็วในการอนุมานที่เร็วขึ้น
ความสามารถหลัก
Qwen-Image-2.0 จัดระเบียบจุดแข็งหลักรอบหลักการห้าประการ — ความแม่นยำ ความซับซ้อน สุนทรียศาสตร์ ความสมจริง และ การจัดเรียง
ตัวอักษรมืออาชีพและการจัดองค์ประกอบที่ซับซ้อน
หนึ่งในคุณสมบัติที่โดดเด่นคือการรองรับคำสั่ง 1k โทเค็น ช่วยให้สร้างองค์ประกอบภาพที่ซับซ้อนได้โดยตรงจากข้อความ:
- สไลด์ไทม์ไลน์: สร้างสไลด์นำเสนอพร้อมไทม์ไลน์ที่มีโครงสร้างและจุดสำคัญ
- รายงาน A/B Testing: สร้างอินโฟกราฟิกที่มีข้อมูลตัวเลขที่แม่นยำและกราฟ
- โปสเตอร์สองภาษา: สร้างโปสเตอร์พร้อมข้อความหลายภาษาในเลย์เอาต์ศิลปะ
ศิลปะการเขียนพู่กัน
Qwen-Image-2.0 แสดงความสามารถในการเรนเดอร์สไตล์การเขียนพู่กันจีนหลายรูปแบบ:
- ม้วนหมึก: การเขียนพู่กันแบบหวัดในสไตล์หมึกจีนดั้งเดิม
- อักษรทองบาง (瘦金体): เรนเดอร์บทกวีที่มีความสำคัญทางประวัติศาสตร์
- อักษรปกติขนาดเล็ก (小楷): จำลองข้อความคลาสสิกอย่างแม่นยำ
ความละเอียดเนทีฟ 2K และความสมจริงแบบภาพถ่าย
โมเดลสร้างภาพที่ความละเอียดเนทีฟ 2K:
- ฉากบุคคล: การแสดงภาพที่สมจริงรวมถึงการสะท้อนสภาพแวดล้อมที่ละเอียด
- ฉากธรรมชาติ: จำลองเฉดสีเขียวกว่า 23 เฉดพร้อมเอฟเฟกต์แสงธรรมชาติ เช่น การกระจาย Tyndall
- การจัดองค์ประกอบสร้างสรรค์: จัดการกับพรอมต์ที่ซับซ้อนทางกายภาพโดยรักษาความสอดคล้องทางกายวิภาค
การสร้างและแก้ไขภาพแบบรวมศูนย์
ในฐานะโมเดลรวม สามารถจัดการทั้งงานสร้างและแก้ไขในสถาปัตยกรรมเดียว:
- การสังเคราะห์หลายภาพ: รวมภาพถ่ายแยกเป็นภาพเดียวที่ดูเป็นธรรมชาติ
- การแก้ไขข้ามมิติ: วางตัวละครภาพประกอบลงในฉากถ่ายภาพ
- การซ้อนข้อความ: เพิ่มองค์ประกอบอักษรวิจิตรบนภาพที่มีอยู่
ประสิทธิภาพของโมเดล
ประสิทธิภาพได้รับการประเมินผ่านการทดสอบแบบปิดตาบน AI Arena ณ วันที่ 9 กุมภาพันธ์ 2026:
ตารางอันดับ Elo ข้อความเป็นภาพ
| อันดับ | โมเดล | คะแนน Elo | องค์กร |
|---|---|---|---|
| 1 | Gemini-3-Pro-Image-Preview | 1050 | |
| 2 | GPT Image 1.5 | 1043 | OpenAI |
| 3 | Qwen-Image-2.0 | 1029 | Alibaba |
| 4 | Gemini-2.5-Flash-Image-Preview | 1010 | |
| 5 | Imagen 4 Ultra Preview 0606 | 1005 |
ตารางอันดับ Elo การแก้ไขภาพ
| อันดับ | โมเดล | คะแนน Elo | องค์กร |
|---|---|---|---|
| 1 | Gemini-3-Pro-Image-Preview | 1042 | |
| 2 | Qwen-Image-2.0 | 1034 | Alibaba |
| 3 | Seedream 4.5 | 1011 | ByteDance |
| 4 | Qwen-Image-Edit-2511 | 1002 | Alibaba |
| 5 | Gemini-2.5-Flash-Image-Preview | 1000 |
สถาปัตยกรรมโมเดล
Qwen-Image-2.0 สร้างบนสถาปัตยกรรมที่กะทัดรัดแต่มีประสิทธิภาพ:
- Encoder: Qwen3-VL ขนาด 8B สำหรับการเข้าใจภาพและประมวลผลคำสั่ง
- Decoder: Diffusion Decoder ขนาด 7B สำหรับการสังเคราะห์ภาพคุณภาพสูง
- ขนาดที่มีประสิทธิภาพ: ประสิทธิภาพระดับ 7B
- ความจุคำสั่ง: รองรับพรอมต์สูงสุด 1k โทเค็น
สรุป
Qwen-Image-2.0 เป็นความก้าวหน้าที่น่าสังเกตในโมเดลสร้างภาพพื้นฐาน การผสมผสานระหว่างการเรนเดอร์ตัวอักษรระดับมืออาชีพ ความละเอียดเนทีฟ 2K และความสามารถในการสร้าง-แก้ไขแบบรวมศูนย์ ทำให้เป็นเครื่องมือที่หลากหลายสำหรับงานสร้างเนื้อหาภาพ
รายละเอียดทางเทคนิคเพิ่มเติมที่ arXiv (2508.02324)
แหล่งที่มา: บล็อก Qwen — Qwen-Image-2.0