Qwen-Image-2.0: อินโฟกราฟิกระดับมืออาชีพและการสร้างภาพสมจริง

สำรวจ Qwen-Image-2.0 โมเดลสร้างภาพรุ่นใหม่จาก Alibaba พร้อมการเรนเดอร์ตัวอักษรระดับมืออาชีพ ความละเอียดเนทีฟ 2K และความสามารถในการสร้างและแก้ไขภาพแบบรวมศูนย์

News • 10 กุมภาพันธ์ 2569

Qwen-Image-2.0: อินโฟกราฟิกระดับมืออาชีพและการสร้างภาพสมจริง

บทนำ

ทีม Qwen จาก Alibaba ได้เปิดตัว Qwen-Image-2.0 โมเดลพื้นฐานสำหรับการสร้างภาพรุ่นใหม่ ออกแบบเป็นระบบรวมการสร้างและแก้ไขภาพ Qwen-Image-2.0 ผสมผสาน Encoder Qwen3-VL ขนาด 8B กับ Diffusion Decoder ขนาด 7B มอบประสิทธิภาพระดับ 7B

จุดเด่นหลักของ Qwen-Image-2.0 ได้แก่:

การเรนเดอร์ตัวอักษรระดับมืออาชีพ: รองรับคำสั่ง 1k โทเค็น สำหรับสร้างอินโฟกราฟิกระดับมืออาชีพโดยตรง รวมถึง PPT โปสเตอร์ การ์ตูน และอื่น ๆ
การยึดมั่นทางความหมายที่แข็งแกร่งขึ้น: รองรับความละเอียดเนทีฟ 2K สำหรับฉากสมจริงที่มีรายละเอียดสูง
การเรนเดอร์ข้อความที่ปรับปรุงแล้ว: ความสามารถในการเข้าใจและสร้างแบบบูรณาการ รวมการสร้างและแก้ไขภาพในโมเดลเดียว
สถาปัตยกรรมโมเดลที่เบาลง: ขนาดโมเดลเล็กลงพร้อมความเร็วในการอนุมานที่เร็วขึ้น

ความสามารถหลัก

Qwen-Image-2.0 จัดระเบียบจุดแข็งหลักรอบหลักการห้าประการ — ความแม่นยำ ความซับซ้อน สุนทรียศาสตร์ ความสมจริง และ การจัดเรียง

ตัวอักษรมืออาชีพและการจัดองค์ประกอบที่ซับซ้อน

หนึ่งในคุณสมบัติที่โดดเด่นคือการรองรับคำสั่ง 1k โทเค็น ช่วยให้สร้างองค์ประกอบภาพที่ซับซ้อนได้โดยตรงจากข้อความ:

สไลด์ไทม์ไลน์: สร้างสไลด์นำเสนอพร้อมไทม์ไลน์ที่มีโครงสร้างและจุดสำคัญ
รายงาน A/B Testing: สร้างอินโฟกราฟิกที่มีข้อมูลตัวเลขที่แม่นยำและกราฟ
โปสเตอร์สองภาษา: สร้างโปสเตอร์พร้อมข้อความหลายภาษาในเลย์เอาต์ศิลปะ

ศิลปะการเขียนพู่กัน

Qwen-Image-2.0 แสดงความสามารถในการเรนเดอร์สไตล์การเขียนพู่กันจีนหลายรูปแบบ:

ม้วนหมึก: การเขียนพู่กันแบบหวัดในสไตล์หมึกจีนดั้งเดิม
อักษรทองบาง (瘦金体): เรนเดอร์บทกวีที่มีความสำคัญทางประวัติศาสตร์
อักษรปกติขนาดเล็ก (小楷): จำลองข้อความคลาสสิกอย่างแม่นยำ

ความละเอียดเนทีฟ 2K และความสมจริงแบบภาพถ่าย

โมเดลสร้างภาพที่ความละเอียดเนทีฟ 2K:

ฉากบุคคล: การแสดงภาพที่สมจริงรวมถึงการสะท้อนสภาพแวดล้อมที่ละเอียด
ฉากธรรมชาติ: จำลองเฉดสีเขียวกว่า 23 เฉดพร้อมเอฟเฟกต์แสงธรรมชาติ เช่น การกระจาย Tyndall
การจัดองค์ประกอบสร้างสรรค์: จัดการกับพรอมต์ที่ซับซ้อนทางกายภาพโดยรักษาความสอดคล้องทางกายวิภาค

การสร้างและแก้ไขภาพแบบรวมศูนย์

ในฐานะโมเดลรวม สามารถจัดการทั้งงานสร้างและแก้ไขในสถาปัตยกรรมเดียว:

การสังเคราะห์หลายภาพ: รวมภาพถ่ายแยกเป็นภาพเดียวที่ดูเป็นธรรมชาติ
การแก้ไขข้ามมิติ: วางตัวละครภาพประกอบลงในฉากถ่ายภาพ
การซ้อนข้อความ: เพิ่มองค์ประกอบอักษรวิจิตรบนภาพที่มีอยู่

ประสิทธิภาพของโมเดล

ประสิทธิภาพได้รับการประเมินผ่านการทดสอบแบบปิดตาบน AI Arena ณ วันที่ 9 กุมภาพันธ์ 2026:

ตารางอันดับ Elo ข้อความเป็นภาพ

อันดับ	โมเดล	คะแนน Elo	องค์กร
1	Gemini-3-Pro-Image-Preview	1050	Google
2	GPT Image 1.5	1043	OpenAI
3	Qwen-Image-2.0	1029	Alibaba
4	Gemini-2.5-Flash-Image-Preview	1010	Google
5	Imagen 4 Ultra Preview 0606	1005	Google

ตารางอันดับ Elo การแก้ไขภาพ

อันดับ	โมเดล	คะแนน Elo	องค์กร
1	Gemini-3-Pro-Image-Preview	1042	Google
2	Qwen-Image-2.0	1034	Alibaba
3	Seedream 4.5	1011	ByteDance
4	Qwen-Image-Edit-2511	1002	Alibaba
5	Gemini-2.5-Flash-Image-Preview	1000	Google

สถาปัตยกรรมโมเดล

Qwen-Image-2.0 สร้างบนสถาปัตยกรรมที่กะทัดรัดแต่มีประสิทธิภาพ:

Encoder: Qwen3-VL ขนาด 8B สำหรับการเข้าใจภาพและประมวลผลคำสั่ง
Decoder: Diffusion Decoder ขนาด 7B สำหรับการสังเคราะห์ภาพคุณภาพสูง
ขนาดที่มีประสิทธิภาพ: ประสิทธิภาพระดับ 7B
ความจุคำสั่ง: รองรับพรอมต์สูงสุด 1k โทเค็น

สรุป

Qwen-Image-2.0 เป็นความก้าวหน้าที่น่าสังเกตในโมเดลสร้างภาพพื้นฐาน การผสมผสานระหว่างการเรนเดอร์ตัวอักษรระดับมืออาชีพ ความละเอียดเนทีฟ 2K และความสามารถในการสร้าง-แก้ไขแบบรวมศูนย์ ทำให้เป็นเครื่องมือที่หลากหลายสำหรับงานสร้างเนื้อหาภาพ

รายละเอียดทางเทคนิคเพิ่มเติมที่ arXiv (2508.02324)

แหล่งที่มา: บล็อก Qwen — Qwen-Image-2.0