Qwen-Image-2.0: อินโฟกราฟิกระดับมืออาชีพและการสร้างภาพสมจริง

สำรวจ Qwen-Image-2.0 โมเดลสร้างภาพรุ่นใหม่จาก Alibaba พร้อมการเรนเดอร์ตัวอักษรระดับมืออาชีพ ความละเอียดเนทีฟ 2K และความสามารถในการสร้างและแก้ไขภาพแบบรวมศูนย์

News
Qwen-Image-2.0: อินโฟกราฟิกระดับมืออาชีพและการสร้างภาพสมจริง

Qwen-Image-2.0: อินโฟกราฟิกระดับมืออาชีพและการสร้างภาพสมจริง

บทนำ

ทีม Qwen จาก Alibaba ได้เปิดตัว Qwen-Image-2.0 โมเดลพื้นฐานสำหรับการสร้างภาพรุ่นใหม่ ออกแบบเป็นระบบรวมการสร้างและแก้ไขภาพ Qwen-Image-2.0 ผสมผสาน Encoder Qwen3-VL ขนาด 8B กับ Diffusion Decoder ขนาด 7B มอบประสิทธิภาพระดับ 7B

จุดเด่นหลักของ Qwen-Image-2.0 ได้แก่:

  • การเรนเดอร์ตัวอักษรระดับมืออาชีพ: รองรับคำสั่ง 1k โทเค็น สำหรับสร้างอินโฟกราฟิกระดับมืออาชีพโดยตรง รวมถึง PPT โปสเตอร์ การ์ตูน และอื่น ๆ
  • การยึดมั่นทางความหมายที่แข็งแกร่งขึ้น: รองรับความละเอียดเนทีฟ 2K สำหรับฉากสมจริงที่มีรายละเอียดสูง
  • การเรนเดอร์ข้อความที่ปรับปรุงแล้ว: ความสามารถในการเข้าใจและสร้างแบบบูรณาการ รวมการสร้างและแก้ไขภาพในโมเดลเดียว
  • สถาปัตยกรรมโมเดลที่เบาลง: ขนาดโมเดลเล็กลงพร้อมความเร็วในการอนุมานที่เร็วขึ้น

ความสามารถหลัก

Qwen-Image-2.0 จัดระเบียบจุดแข็งหลักรอบหลักการห้าประการ — ความแม่นยำ ความซับซ้อน สุนทรียศาสตร์ ความสมจริง และ การจัดเรียง

ตัวอักษรมืออาชีพและการจัดองค์ประกอบที่ซับซ้อน

หนึ่งในคุณสมบัติที่โดดเด่นคือการรองรับคำสั่ง 1k โทเค็น ช่วยให้สร้างองค์ประกอบภาพที่ซับซ้อนได้โดยตรงจากข้อความ:

  • สไลด์ไทม์ไลน์: สร้างสไลด์นำเสนอพร้อมไทม์ไลน์ที่มีโครงสร้างและจุดสำคัญ
  • รายงาน A/B Testing: สร้างอินโฟกราฟิกที่มีข้อมูลตัวเลขที่แม่นยำและกราฟ
  • โปสเตอร์สองภาษา: สร้างโปสเตอร์พร้อมข้อความหลายภาษาในเลย์เอาต์ศิลปะ

ศิลปะการเขียนพู่กัน

Qwen-Image-2.0 แสดงความสามารถในการเรนเดอร์สไตล์การเขียนพู่กันจีนหลายรูปแบบ:

  • ม้วนหมึก: การเขียนพู่กันแบบหวัดในสไตล์หมึกจีนดั้งเดิม
  • อักษรทองบาง (瘦金体): เรนเดอร์บทกวีที่มีความสำคัญทางประวัติศาสตร์
  • อักษรปกติขนาดเล็ก (小楷): จำลองข้อความคลาสสิกอย่างแม่นยำ

ความละเอียดเนทีฟ 2K และความสมจริงแบบภาพถ่าย

โมเดลสร้างภาพที่ความละเอียดเนทีฟ 2K:

  • ฉากบุคคล: การแสดงภาพที่สมจริงรวมถึงการสะท้อนสภาพแวดล้อมที่ละเอียด
  • ฉากธรรมชาติ: จำลองเฉดสีเขียวกว่า 23 เฉดพร้อมเอฟเฟกต์แสงธรรมชาติ เช่น การกระจาย Tyndall
  • การจัดองค์ประกอบสร้างสรรค์: จัดการกับพรอมต์ที่ซับซ้อนทางกายภาพโดยรักษาความสอดคล้องทางกายวิภาค

การสร้างและแก้ไขภาพแบบรวมศูนย์

ในฐานะโมเดลรวม สามารถจัดการทั้งงานสร้างและแก้ไขในสถาปัตยกรรมเดียว:

  • การสังเคราะห์หลายภาพ: รวมภาพถ่ายแยกเป็นภาพเดียวที่ดูเป็นธรรมชาติ
  • การแก้ไขข้ามมิติ: วางตัวละครภาพประกอบลงในฉากถ่ายภาพ
  • การซ้อนข้อความ: เพิ่มองค์ประกอบอักษรวิจิตรบนภาพที่มีอยู่

ประสิทธิภาพของโมเดล

ประสิทธิภาพได้รับการประเมินผ่านการทดสอบแบบปิดตาบน AI Arena ณ วันที่ 9 กุมภาพันธ์ 2026:

ตารางอันดับ Elo ข้อความเป็นภาพ

อันดับโมเดลคะแนน Eloองค์กร
1Gemini-3-Pro-Image-Preview1050Google
2GPT Image 1.51043OpenAI
3Qwen-Image-2.01029Alibaba
4Gemini-2.5-Flash-Image-Preview1010Google
5Imagen 4 Ultra Preview 06061005Google

ตารางอันดับ Elo การแก้ไขภาพ

อันดับโมเดลคะแนน Eloองค์กร
1Gemini-3-Pro-Image-Preview1042Google
2Qwen-Image-2.01034Alibaba
3Seedream 4.51011ByteDance
4Qwen-Image-Edit-25111002Alibaba
5Gemini-2.5-Flash-Image-Preview1000Google

สถาปัตยกรรมโมเดล

Qwen-Image-2.0 สร้างบนสถาปัตยกรรมที่กะทัดรัดแต่มีประสิทธิภาพ:

  • Encoder: Qwen3-VL ขนาด 8B สำหรับการเข้าใจภาพและประมวลผลคำสั่ง
  • Decoder: Diffusion Decoder ขนาด 7B สำหรับการสังเคราะห์ภาพคุณภาพสูง
  • ขนาดที่มีประสิทธิภาพ: ประสิทธิภาพระดับ 7B
  • ความจุคำสั่ง: รองรับพรอมต์สูงสุด 1k โทเค็น

สรุป

Qwen-Image-2.0 เป็นความก้าวหน้าที่น่าสังเกตในโมเดลสร้างภาพพื้นฐาน การผสมผสานระหว่างการเรนเดอร์ตัวอักษรระดับมืออาชีพ ความละเอียดเนทีฟ 2K และความสามารถในการสร้าง-แก้ไขแบบรวมศูนย์ ทำให้เป็นเครื่องมือที่หลากหลายสำหรับงานสร้างเนื้อหาภาพ

รายละเอียดทางเทคนิคเพิ่มเติมที่ arXiv (2508.02324)


แหล่งที่มา: บล็อก Qwen — Qwen-Image-2.0