Hướng dẫn prompt GPT Image 2: 80 prompt, đánh giá và mẹo API (2026)

Đây là hướng dẫn nhắc nhở GPT Image 2 và bài đánh giá thực hành dành cho những người sáng tạo cần lời nhắc hữu ích trước tiên: quảng cáo sản phẩm, áp phích, hình thu nhỏ, ký tự, hình ảnh xã hội, mô hình giao diện người dùng, chỉnh sửa và khung hình đầu tiên sẵn sàng cho video.

Sử dụng các đường dẫn nhanh bên dưới nếu bạn đã biết mình cần gì:

Lời nhắc sao chép: xem 80 ví dụ về lời nhắc GPT Image 2 sẵn sàng sao chép bên dưới.
Xem kết quả kiểm tra: kiểm tra điểm đánh giá thực hành và những hạn chế.
Biến hình ảnh thành video: thực hiện theo quy trình chuyển hình ảnh thành video của PixVerse.

GPT Image 2 mạnh nhất khi hình ảnh cần hoạt động giống như một nội dung được thiết kế: văn bản có thể đọc được, bố cục gọn gàng, bố cục sản phẩm, mô hình giao diện người dùng, đồ họa thông tin, tài liệu tham khảo có thể chỉnh sửa và khung hình đầu tiên sẵn sàng cho video. Sẽ kém tin cậy hơn khi công việc phụ thuộc vào việc tái tạo chính xác logo thương hiệu, bản sao tuân thủ nhỏ, phông chữ độc quyền hoặc nội dung cuối cùng minh bạch phải được gửi mà không có QA thủ công.

OpenAI đã giới thiệu ChatGPT Images 2.0 vào ngày 21 tháng 4 năm 2026. Người sáng tạo thường tìm kiếm trải nghiệm tương tự như GPT Image 2, gpt-image-2 hoặc ChatGPT Images 2.0. Lần đầu tiên chúng tôi thử nghiệm nó trong tuần ra mắt và xem lại hướng dẫn này vào ngày 22 tháng 6 năm 2026 dựa trên hướng dẫn nhắc nhở chính thức của OpenAI, trang định giá API và tài liệu trợ giúp về Hình ảnh ChatGPT.

5 GPT Image 2 nhắc nhở sao chép trước

Năm lời nhắc này bao gồm các trường hợp sử dụng có giá trị cao nhất trong hướng dẫn này. Mỗi cái đều có cùng một định dạng: trường hợp sử dụng, lời nhắc, tốt nhất và mẹo.

Ví dụ gợi ý 1: Chụp ảnh sản phẩm

Trường hợp sử dụng: Hình ảnh chính của sản phẩm thương mại điện tử

Nhắc nhở:

Tạo hình ảnh anh hùng thương mại điện tử cao cấp cho loa không dây màu đen mờ trên bệ bê tông. Sản phẩm nằm ở vị trí thứ ba bên phải với các cạnh sắc nét, kết cấu vật liệu chân thực, bóng tiếp xúc rõ ràng và ánh sáng viền ấn tượng. Để lại phần thứ ba bên trái làm khoảng trống cho dòng tiêu đề. Không có logo thương hiệu giả, không có hình mờ, không có vật thể thừa. Tỷ lệ khung hình 16:9.

Tốt nhất cho: Danh sách sản phẩm, quảng cáo xã hội phải trả tiền, hình ảnh nổi bật trên trang đích

Mẹo: Nếu bạn cung cấp hình ảnh tham khảo, hãy thêm “giữ chính xác hình dạng, màu sắc, nhãn và tỷ lệ của sản phẩm”.

Ví dụ gợi ý 2: Quảng cáo AI

Trường hợp sử dụng: Áp phích chiến dịch có văn bản chính xác

Nhắc nhở:

Tạo áp phích giới thiệu sản phẩm dọc cho một công cụ thiết kế hư cấu. Tiêu đề: “TẠO NHANH HƠN”. Tiêu đề phụ: “TỪ KHUYẾN CÁO ĐẾN CHIẾN DỊCH”. Lưới Thụy Sĩ sạch sẽ, nền trắng nhạt, kiểu chữ màu đen, hình dạng có điểm nhấn màu xanh điện, phân cấp mạnh mẽ, chỉ văn bản chính xác, không thêm từ, không hình mờ. Tỷ lệ khung hình 9:16.

Tốt nhất cho: Ý tưởng quảng cáo, thử nghiệm áp phích, đồ họa ra mắt, hình ảnh chiến dịch xã hội

Mẹo: Giữ văn bản tiêu đề ngắn gọn và trích dẫn chính xác. Văn bản dài khó hiển thị rõ ràng hơn.

Ví dụ gợi ý 3: Tính nhất quán của ký tự

Trường hợp sử dụng: Bảng tham chiếu ký tự

Nhắc nhở:

Tạo bảng tham chiếu nhân vật chuyên nghiệp cho người chuyển phát nhanh khoa học viễn tưởng gốc có tên “NOVA”. Bao gồm các chế độ xem mặt trước, mặt bên và mặt sau; bốn nét mặt; chú thích áo khoác, ủng và ba lô; và một hàng bảng màu. Giữ nguyên khuôn mặt, kiểu tóc, trang phục và tỷ lệ giống nhau ở mọi góc nhìn. Nền trắng sạch sẽ, nhãn dễ đọc, phong cách nghệ thuật ý tưởng. Tỷ lệ khung hình 16:9.

Tốt nhất cho: Nhân vật trong trò chơi, tài liệu tham khảo hoạt hình, linh vật thương hiệu, bảng phân cảnh

Mẹo: Lặp lại các điểm neo nhận dạng trong mỗi lần tái tạo: tên, khuôn mặt, kiểu tóc, trang phục, bảng màu và vai trò.

Ví dụ gợi ý 4: Hình thu nhỏ hoặc hình ảnh mạng xã hội

Trường hợp sử dụng: Hình thu nhỏ hoặc bài đăng trên mạng xã hội của YouTube

Nhắc nhở:

Tạo hình thu nhỏ đậm nét YouTube cho video về nhắc nhở hình ảnh AI. Nội dung chính: “LỜI KHUYÊN TỐT HƠN”. Hiển thị kết quả hình ảnh trước và sau trên màn hình chia đôi, với thẻ nhắc lộn xộn ở bên trái và hình ảnh chiến dịch bóng bẩy ở bên phải. Độ tương phản cao, bố cục rõ ràng, văn bản dễ đọc, không có logo giả, không có từ thừa. Tỷ lệ khung hình 16:9.

Tốt nhất cho: Hình thu nhỏ, giải thích xã hội, đồ họa blog, nội dung của người sáng tạo

Mẹo: Cho mô hình biết chính xác số lượng từ sẽ xuất hiện và vị trí của chúng.

Ví dụ gợi ý 5: Khung hình đầu tiên chuyển từ hình ảnh sang video

Trường hợp sử dụng: Khung hình đầu tiên cho chuyển đổi hình ảnh sang video PixVerse

Nhắc nhở:

Tạo khung hình đầu tiên mang tính điện ảnh cho clip chuyển từ hình ảnh sang video: một chai nước hoa thủy tinh đặt trên đá đen ướt, một dải sương mỏng phía sau, hình bóng tiền cảnh mạnh mẽ, các lớp chiều sâu có thể nhìn thấy, phản chiếu tinh tế, không gian trống cho chuyển động của máy ảnh, không có tay, không có văn bản, không có hình mờ. Tỷ lệ khung hình 16:9.

Tốt nhất cho: Tiết lộ sản phẩm, quảng cáo ngắn, phần mở đầu video ca nhạc, clip xã hội mang tính điện ảnh

Mẹo: Thêm một dấu hiệu chuyển động vào ảnh tĩnh, chẳng hạn như sương mù, bụi, hơi nước, vải, ánh sáng màn hình hoặc phản chiếu.

Biến GPT Image 2 của bạn thành video với PixVerse

Lời nhắc GPT Image 2 mạnh có thể tạo ra hình ảnh tĩnh. PixVerse là bước tiếp theo khi vẫn cần chuyển động, chuyển động của camera hoặc một clip chiến dịch ngắn.

Tạo khung hình đầu tiên với GPT Image 2.
Tải hình ảnh đã được phê duyệt lên PixVerse.
Thêm lời nhắc chuyển động tập trung.
Xuất một video ngắn để thử nghiệm, quảng cáo, bài đăng trên mạng xã hội hoặc trang sản phẩm.

Lời nhắc chuyển động để thử:

Sử dụng hình ảnh làm khung hình đầu tiên. Từ từ đẩy máy ảnh về phía sản phẩm trong khi sương mù trôi về phía sau. Giữ nguyên hình dạng, nhãn, ánh sáng và vị trí của sản phẩm.
Sử dụng hình ảnh làm khung hình đầu tiên. Thêm chuyển động nhẹ nhàng của máy ảnh cầm tay, vải chuyển động trong gió và hiệu ứng thị sai nền mềm mại. Không thay đổi khuôn mặt hoặc trang phục của nhân vật.
Sử dụng hình ảnh làm khung hình đầu tiên. Tạo hoạt ảnh cho từng ánh đèn thành phố lần lượt bật lên trong khi máy ảnh hơi xoay sang trái. Giữ nguyên tất cả văn bản áp phích có thể đọc được.
Sử dụng hình ảnh làm khung hình đầu tiên. Xoay sản phẩm một cách tinh tế trên bệ, thêm đèn viền chuyển động và giữ cho nền sạch sẽ.
Sử dụng hình ảnh làm khung hình đầu tiên. Thêm hơi nước, phản chiếu và chuyển động chậm của camera từ trên xuống. Bảo quản hình dạng, vị trí đĩa và màu sắc của thực phẩm.

Để có cấu trúc motion prompt tốt hơn, hãy xem hướng dẫn prompt video AI, hướng dẫn công cụ chuyển ảnh thành video và workflow tạo quảng cáo video AI.

Cách viết lời nhắc GPT Image 2 thực sự có tác dụng

Lời nhắc GPT Image 2 tốt nhất không chỉ mô tả một bức tranh. Họ mô tả công việc mà bức tranh cần làm. Lời nhắc dành cho quảng cáo trên mạng xã hội phải khác với lời nhắc về phần giới thiệu sản phẩm, đồ họa thông tin, màn hình giao diện người dùng hoặc khung hình đầu tiên cho video.

Một mẫu bắt đầu đáng tin cậy trông như thế này:

Tạo [loại hình ảnh] cho [trường hợp sử dụng]. Chủ đề chính: [chủ đề cụ thể và chi tiết hiển thị]. Văn bản chính xác, nếu có: “[bản sao phải xuất hiện]”. Bố cục: [đóng khung, bố cục, không gian âm, vị trí chủ đề]. Phong cách và ánh sáng: [ngôn ngữ hình ảnh, phương tiện, tâm trạng, hướng ánh sáng]. Ràng buộc: [những gì không được thay đổi, không thêm từ, không có hình mờ]. Định dạng đầu ra: [tỷ lệ khung hình, nền trong suốt, khung hình sẵn sàng cho video].

Công thức:

Chủ đề + phong cách hình ảnh + bố cục + ánh sáng + chi tiết + ràng buộc + trường hợp sử dụng đầu ra

Kỹ năng 1: Đặt tên công việc trước phong cách

Bắt đầu với loại đầu ra: áp phích, quảng cáo sản phẩm, màn hình ứng dụng, bảng ký tự, sơ đồ giáo dục, chỉnh sửa hoặc khung hình đầu tiên chuyển từ hình ảnh sang video. GPT Image 2 làm theo lời nhắc tốt hơn khi hiểu được tiêu chuẩn thành công.

Dấu nhắc yếu:

Một chiếc loa tương lai thú vị, đậm chất điện ảnh, có độ chi tiết cao.

Lời nhắc tốt hơn:

Tạo quảng cáo sản phẩm cao cấp cho loa không dây màu đen mờ. Hình ảnh phải hoạt động như biểu ngữ chiến dịch 16:9, với sản phẩm ở bên phải, dòng tiêu đề ngắn ở bên trái, không gian âm rõ ràng và các cạnh sản phẩm sắc nét.

Lời nhắc thứ hai cho người mẫu biết hình ảnh sẽ được đánh giá như thế nào: không chỉ bởi vẻ đẹp mà còn bởi bố cục, thứ bậc và khả năng sử dụng.

Kỹ năng 2: Coi văn bản như tài sản bị khóa

Nếu văn bản quan trọng, hãy đặt nó trong dấu ngoặc kép và cho mô hình biết cách hiển thị nó. Đừng yêu cầu “khẩu hiệu” trừ khi bạn muốn người mẫu phát minh ra từ ngữ.

Sử dụng mẫu này:

Tiêu đề: “ÂM THANH BẠN CÓ THỂ CẢM NHẬN”. Hiển thị nguyên văn dòng tiêu đề. Không có từ thừa, không có văn bản trùng lặp, không có logo giả. Loại sans-serif màu trắng đậm, ở bên trái của bố cục, có thể đọc được từ xa.

Để sao chép dài, hãy chia văn bản thành các dòng riêng biệt trong lời nhắc. Nếu kết quả viết sai chính tả một từ, hãy tạo lại với ít văn bản hơn, loại lớn hơn và ngôn ngữ “chỉ văn bản chính xác” chặt chẽ hơn.

Kỹ năng 3: Cung cấp cho người mẫu một chiếc máy ảnh và bố cục

GPT Image 2 có thể tuân theo các tín hiệu bố cục nhưng cần được nêu rõ ràng. Thêm khoảng cách máy ảnh, góc, vị trí chủ thể, không gian âm và tỷ lệ khung hình.

Cụm từ hữu ích:

Cận cảnh về kết cấu, bàn tay, khuôn mặt, chất liệu, nhãn sản phẩm.
Ảnh rộng dành cho môi trường, cảnh câu chuyện, áp phích thành phố và khung hình sẵn sàng cho video.
Từ trên xuống dành cho đồ ăn, cảnh bàn làm việc, bố cục phẳng, bộ dụng cụ đóng gói.
Thứ ba bên trái / thứ ba bên phải dành cho bố cục quảng cáo có sự cân bằng giữa văn bản và sản phẩm.
Lưới sạch dành cho mô hình giao diện người dùng, bảng ký tự, sơ đồ và đồ họa thông tin.

Kỹ Năng 4: Viết Chỉnh Sửa Trong Ba Câu

Lời nhắc chỉnh sửa hoạt động tốt nhất khi chúng tách biệt sự thay đổi, các phần tử bị khóa và hiện thực vật lý.

Thay thế chiếc ô tô đang đỗ bằng một chiếc xe đạp cổ điển. Bảo quản chính xác ngôi nhà, hàng rào, đường lái xe, cảnh quan, hướng chiếu sáng, góc camera và thời gian trong ngày. Hãy ghép tỷ lệ xe đạp, bóng tiếp xúc và phối cảnh với cảnh hiện có.*

Mô hình đó mạnh hơn việc “làm cho cái này trông đẹp hơn” vì nó cho GPT Image 2 biết nơi nào được phép sáng tạo và nơi nào không.

Kỹ năng 5: Thêm tín hiệu chuyển động khi hình ảnh sẽ trở thành video

Nếu hình ảnh tĩnh sẽ trở thành nguồn chuyển hình ảnh sang video PixVerse, hãy nhắc về độ sâu và độ sẵn sàng chuyển động. Yêu cầu tiền cảnh, trung cảnh, hậu cảnh, bóng chủ thể rõ ràng và một dấu hiệu chuyển động có thể nhìn thấy: bụi, vải, tóc, mưa, phản chiếu, chuyển động của xe, sản phẩm quay hoặc đường đẩy của máy ảnh.

Thay vì:

Một phi hành gia trên sa mạc.

sử dụng:

Khung hình đầu tiên mang tính điện ảnh cho clip chuyển từ hình ảnh sang video: một phi hành gia đơn độc đứng ở rìa miệng núi lửa sa mạc rực sáng vào lúc bình minh, mũi đất và bụi sẵn sàng di chuyển trong gió, hình bóng tiền cảnh mạnh mẽ, các lớp sâu rõ ràng và ánh sáng đường chân trời ấm áp.

Thư viện nhắc nhở GPT Image 2: 80 ví dụ sẵn sàng sao chép

Mỗi góc dưới đây bao gồm mười lời nhắc. Lời nhắc đầu tiên trong mỗi nhóm là ứng cử viên tốt nhất cho một ví dụ trực quan vì nó nhấn mạnh khả năng mà góc đó muốn thể hiện; các lời nhắc khác chỉ là ví dụ bằng văn bản mà bạn có thể sao chép, điều chỉnh và kiểm tra.

Mô-đun nhắc nhở	Số nhắc	Tốt nhất cho
Lời nhắc về chụp ảnh sản phẩm và quảng cáo AI	21-30	Danh sách sản phẩm, quảng cáo trả phí, hình ảnh anh hùng thương mại điện tử, mô hình bao bì
Lời nhắc hiển thị logo và văn bản	20-11	Áp phích, bảng menu, hình thu nhỏ, bìa album, kiểm tra tiêu đề chính xác
Lời nhắc về tính nhất quán của ký tự	41-50	Bảng ký tự, linh vật, nội dung trò chơi, hàng biểu cảm
Lời nhắc về áp phích, hình thu nhỏ và cảnh phim	1-10	Hình ảnh anh hùng, ảnh tĩnh biên tập, cảnh không khí, điểm hấp dẫn trực quan
Lời nhắc về hình ảnh và đồ họa thông tin trên mạng xã hội	31-40	Hình ảnh blog, người giải thích, đồ họa so sánh, nội dung giáo dục có thể chia sẻ
Lời nhắc mô phỏng giao diện người dùng	51-60	Màn hình ứng dụng, trang tổng quan, hồ sơ mạng xã hội, khái niệm giao diện người dùng sản phẩm
Chuyển giao phong cách và lời nhắc nghệ thuật tường thuật	61-70	Truyện tranh, bảng câu chuyện, nghệ thuật biên tập, khám phá khái niệm
Lời nhắc từ khung hình đầu tiên từ hình ảnh sang video	71-80	Quy trình chuyển động PixVerse, tiết lộ sản phẩm, chỉnh sửa, khung nguồn đa tham chiếu

1. Lời nhắc về áp phích, hình thu nhỏ và cảnh điện ảnh

Góc này phù hợp nhất với ảnh chân dung, ảnh xã luận, phong cảnh đời sống và ảnh tĩnh trong không khí nơi ánh sáng và chủ nghĩa hiện thực đóng vai trò quan trọng.

Lời nhắc 1:

Tạo chân dung điện ảnh của một nhân vật đơn độc đang đứng trong môi trường chuyển màu từ cam sang đỏ đậm. Ánh sáng bóng mạnh từ phía sau, độ tương phản bóng sâu, sàn bóng phản chiếu phản chiếu hình người. Bố cục đối xứng, thiết kế tối giản, không có nền lộn xộn. Tâm trạng trầm ngâm và mạnh mẽ, giống như một cảnh tĩnh trong một bộ phim khoa học viễn tưởng. Tỷ lệ khung hình 16:9.

Lời nhắc 2:

Một khung cảnh đường phố chân thật ở Seoul sau cơn mưa. Một người bán hoa đóng cửa một cửa hàng nhỏ vào giờ xanh, hình ảnh phản chiếu trên mặt đường ẩm ướt, ánh sáng ấm áp của cửa hàng, tư thế tự nhiên mệt mỏi, cảm giác phim tài liệu 50mm, kết cấu da chân thực, không có tư thế quyến rũ, không có hình mờ. Tỷ lệ khung hình 3:2.

Lời nhắc 3:

Cận cảnh những bàn tay phong hóa đang sửa chữa chiếc máy ảnh phim cũ trên chiếc bàn gỗ trầy xước. Ánh sáng cửa sổ từ máy ảnh bên trái, có thể nhìn thấy bụi, kết cấu da màu đồng và đen, độ sâu trường ảnh nông, tâm trạng xưởng yên tĩnh, giống như ảnh thực, không có lớp phủ văn bản. Tỷ lệ khung hình 4:3.

Lời nhắc 4:

Sân ga tàu đêm yên tĩnh ở Bắc Âu khi tuyết rơi nhẹ. Một du khách mặc áo khoác dài đứng dưới ngọn đèn nhà ga ấm áp, có thể nhìn thấy hơi thở trong không khí lạnh, cửa sổ xe lửa phát sáng ở hậu cảnh, chủ nghĩa hiện thực điện ảnh, bảng màu hạn chế, cảm giác phim tài liệu 35mm, không có văn bản. Tỷ lệ khung hình 16:9.

Lời nhắc 5:

Một bức ảnh chụp món ăn được biên tập từ trên xuống về món mì thủ công đặt trên đĩa sứ sẫm màu, hơi nước bốc lên, đũa đặt nghiêng, bàn gỗ cũ, ánh sáng mặt bên dịu, kết cấu và ánh dầu thực tế, không có nhãn hiệu, không có lớp phủ văn bản. Tỷ lệ khung hình 4:5.

Nhắc 6:

Một bức chân dung theo phong cách phim tài liệu hiện thực về một nghệ nhân gốm sứ đang trang trí chiếc bát đất sét trên bàn xoay gốm. Cận cảnh vừa phải, bàn tay và đất sét quay với tiêu điểm sắc nét, tạp dề có vết bẩn tự nhiên, ánh sáng cửa sổ nhà xưởng dịu nhẹ, hậu cảnh là kệ đựng những chiếc bát chưa hoàn thiện, kết cấu trung thực, không chỉnh sửa hào nhoáng, không có văn bản. Tỷ lệ khung hình 3:2.

Nhắc 7:

Một đoạn phim rộng về một thị trấn miền núi nhỏ sau cơn bão mùa hè. Sương mù bốc lên từ những cây thông xanh thẫm, ánh sáng ấm áp xuất hiện trong cửa sổ ngôi nhà, phản chiếu con đường ướt dẫn về phía trung tâm, một người cầm ô đi từ xa, quy mô tự nhiên, bầu không khí chân thực, không có văn bản. Tỷ lệ khung hình 16:9.

Nhắc 8:

Ảnh chụp cận cảnh một chiếc đồng hồ đeo tay cổ điển đặt trên một tấm vải lanh gấp lại. Kim loại được chải rõ ràng, những vết xước nhỏ trên vỏ, các dấu hiệu trên mặt đồng hồ có thể đọc được nhưng hư cấu, ánh sáng buổi sáng định hướng dịu, độ sâu trường ảnh nông, tâm trạng ảnh sản phẩm được biên tập tinh tế, không có logo thương hiệu thực. Tỷ lệ khung hình 4:5.

Nhắc 9:

Khung cảnh trong nhà chân thực của một studio kiến trúc nhỏ vào đêm khuya. Hai nhà thiết kế xem xét các mô hình xốp và sơ đồ sàn in dưới đèn bàn, tách cà phê gần đó, bóng thực tế, không gian làm việc lộn xộn thực tế, tâm trạng tập trung bình tĩnh, giao diện phim 35mm, không có lớp phủ văn bản. Tỷ lệ khung hình 16:9.

Nhắc 10:

Hình ảnh biên tập thời trang tự nhiên về một người mẫu mặc áo khoác màu kem đơn giản đứng gần lối vào tàu điện ngầm vào lúc chạng vạng. Đèn đường bắt đầu phát sáng, nền thành phố im lặng, nếp gấp vải chân thực, tư thế thoải mái, khung hình ngang tầm mắt, hạt phim tinh tế, không nhìn thấy tên thương hiệu, không có văn bản. Tỷ lệ khung hình 2:3.

Điều cần tìm: Kết quả phải có hướng ánh sáng đáng tin cậy, sự phản chiếu hoặc bóng hợp lý về mặt vật lý và tư thế của chủ thể tự nhiên. Nếu hình ảnh trông quá bóng bẩy, hãy thêm nhiều chi tiết mang tính tư liệu hơn và loại bỏ ngôn ngữ chất lượng mơ hồ.

2. Lời nhắc hiển thị logo và văn bản

GPT Image 2 mạnh nhất khi lời nhắc coi văn bản là yêu cầu thiết kế chứ không phải trang trí.

Nhắc 11:

Một tấm áp phích thành phố Mùa xuân 2026 nổi bật cho New York với thiết kế hiện đại táo bạo và không khí ăn mừng trang nhã. Nền kết cấu trắng nhạt sạch sẽ với không gian âm rộng rãi. Một người chèo thuyền kayak thu nhỏ chèo trên dải nước phản chiếu hẹp ở góc dưới bên phải. Làn sóng quét lên trên theo một đường cong thư pháp năng động, dần dần biến thành sông Hudson rồi thành một bức tranh toàn cảnh vẽ tay đẹp như mơ của Manhattan. Bên trong bố cục hình dòng sông chảy: Tòa nhà Empire State, Cầu Brooklyn, tán cây của Công viên Trung tâm, Trung tâm Thương mại Một Thế giới, những mái nhà bằng đá nâu, những chiếc taxi màu vàng, bến phà và Tượng Nữ thần Tự do ở khoảng cách nhẹ nhàng. Sương mù buổi sáng êm dịu, ánh sáng mùa xuân vàng, điểm nhấn tinh tế trong màu xanh nước biển và vàng. Kiểu chữ trang nhã ở phía dưới bên trái ghi “MÙA XUÂN 2026” với khẩu hiệu dọc “NEW YORK - THÀNH PHỐ CỦA NHỮNG CẦU, GIẤC MƠ VÀ SÁNG TẠO”. Văn bản phải sắc nét và bố cục đẹp mắt. Không có thêm từ nào. Thiết kế đồ họa cao cấp, tỷ lệ khung hình 9:16.

Nhắc 12:

Tạo áp phích giới thiệu dọc cho hội nghị thiết kế hư cấu mang tên “FRAME 2026”. Dòng tiêu đề lớn: “ KHUNG 2026 “. Phụ đề: “THIẾT KẾ BẰNG TƯỞNG TƯỢNG MÁY”. Lưới Thụy Sĩ rõ ràng, nền trắng nhạt, kiểu chữ màu đen, một điểm nhấn hình học màu đỏ, không gian âm rộng rãi, văn bản hoàn toàn dễ đọc, không thêm từ, không hình mờ. Tỷ lệ khung hình 9:16.

Nhắc 13:

Tạo bìa album tối giản có tiêu đề “TÍN HIỆU MỀM”. Tên nghệ sĩ: “MIRA VALE”. Kiểu chữ căn giữa, kết cấu giấy màu xanh lam nhạt, hình minh họa đường nhỏ màu bạc của tháp radio, khoảng cách trang nhã, không có văn bản thừa, không có logo, tỷ lệ khung hình 1:1.

Nhắc 14:

Tạo áp phích cửa sổ hiệu sách có nội dung “ĐỌC THÊM CHẬM” bằng kiểu chữ serif lớn. Dòng nhỏ hơn: “TUẦN ĐỌC XUÂN”. Hình ảnh phản chiếu đường phố buổi tối ấm áp trong kính, kết cấu giấy màu kem, kiểu chữ dễ đọc, không có từ thừa, không có hình mờ. Tỷ lệ khung hình 4:5.

Nhắc 15:

Tạo một áp phích triển lãm bảo tàng có tiêu đề “ĐỐI TƯỢNG CỦA NGÀY MAI”. Phụ đề: “LỊCH SỬ THIẾT KẾ NĂM 2026”. Văn bản màu đen trên giấy trắng nhạt, một vật thể mạ crôm trừu tượng ở giữa, bố cục hiện đại rõ ràng, chỉ văn bản có thể đọc chính xác, không có biểu tượng giả. Tỷ lệ khung hình 9:16.

Nhắc 16:

Tạo áp phích lễ hội âm nhạc dọc với tiêu đề chính xác là “PHIÊN SAU ÁNH SÁNG”. Văn bản nhỏ hơn: “12-14 tháng 6”. Sử dụng nền màu xanh nước biển đậm, một đèn sân khấu hình tròn phát sáng, kiểu chữ sans-serif cô đọng trang nhã, không gian âm cân bằng, chỉ văn bản chính xác, không thêm từ, không hình mờ. Tỷ lệ khung hình 9:16.

Nhắc 17:

Tạo bảng menu quán cà phê sạch sẽ có tiêu đề “THỰC ĐƠN SÁNG”. Bao gồm chính xác bốn món: “ESPRESSO”, “MATCHA LATTE”, “BÁNH THẠCH”, “COLD BREW”. Nền màu kem ấm áp, kiểu chữ serif màu đen, các đường phân chia đơn giản, có thể đọc được từ xa, không có giá, không có mục thừa. Tỷ lệ khung hình 4:5.

Nhắc 18:

Tạo đồ họa chiến dịch xã hội hình vuông cho một câu lạc bộ chạy bộ hư cấu. Nội dung chính: CHẠY SÔNG. Dòng phụ: “7 giờ sáng THỨ BẢY”. Kiểu chữ động đậm nét, dòng sông trừu tượng, bảng màu xanh lá cây và đen tươi sáng, phân cấp rõ ràng, không có văn bản thừa, không có logo thực. Tỷ lệ khung hình 1:1.

Nhắc 19:

Tạo bìa sách cho cuốn tiểu thuyết hư cấu có tựa đề “CÁC MÁY QUIET”. Tên tác giả: “ELENA ROWE”. Bìa tối giản với hình con chim máy nhỏ màu bạc, nền đen mờ, kiểu chữ tinh tế, chỉ có văn bản chính xác, không có biểu tượng của nhà xuất bản, không có bản sao bổ sung. Tỷ lệ khung hình 2:3.

Nhắc 20:

Tạo một áp phích lớp học có tiêu đề “HỎI CÂU HỎI TỐT HƠN”. Bao gồm ba dòng ngắn gọn: “Quan sát”, “Giải thích”, “Kiểm tra”. Thiết kế biên tập thân thiện, nền vàng mềm mại, biểu tượng đường nét đơn giản, văn bản có độ tương phản cao dễ đọc, không thừa chữ, không hình mờ. Tỷ lệ khung hình 4:5.

Nội dung cần tìm: Mọi chữ cái đều phải đọc được. Nếu mô hình thêm từ bổ sung, hãy trình bày lại bản sao là “chỉ văn bản chính xác” và đặt mỗi dòng trên một dòng riêng trong dấu nhắc.

3. Chụp ảnh sản phẩm và lời nhắc quảng cáo AI

Sử dụng góc này cho hình ảnh chiến dịch, ảnh chụp anh hùng, quảng cáo trên mạng xã hội, mô hình thương mại điện tử và kể chuyện về sản phẩm.

Nhắc 21:

Một quảng cáo sản phẩm cao cấp cho loa không dây màu đen mờ đặt trên bệ bê tông. Tiêu đề: “ÂM THANH BẠN CÓ THỂ CẢM NHẬN”. Sản phẩm bên phải, loại màu trắng đậm bên trái, viền sáng ấn tượng, bóng sạch, phong cách chiến dịch công nghệ sang trọng, viền sản phẩm sắc nét, không có logo thương hiệu giả, không có hình mờ. Tỷ lệ khung hình 16:9.

Nhắc 22:

Biên tập ảnh serum dưỡng da trên kính mờ. Chai trong suốt có nhãn đơn giản ghi “LUMA SERUM”, ánh sáng khuếch tán dịu nhẹ, nền xanh nhạt, phong cách chiến dịch làm đẹp cao cấp, văn bản nhãn sắc nét, phản chiếu rõ ràng, không có đạo cụ bổ sung, tỷ lệ khung hình 4:5.

Nhắc 23:

Quảng cáo trên mạng xã hội hình vuông về một chai du lịch bền bỉ trên đường mòn núi vào giờ vàng. Khẩu hiệu: “XÂY DỰNG CHO CON ĐƯỜNG DÀI”. Sản phẩm hiển thị rõ ràng ở phía trước, tay cầm tự nhiên, ánh nắng ấm áp, văn bản đọc rõ nét ở một phần ba phía dưới, không cần thêm từ, tỷ lệ khung hình 1:1.

Nhắc 24:

Một bức ảnh sản phẩm thương mại điện tử rõ ràng về tai nghe không dây trên nền trắng tinh. Góc nhìn thẳng, hình bóng sắc nét, bóng tiếp xúc tinh tế, kết cấu đệm tai có thể nhìn thấy, không văn bản, không logo, không đạo cụ, chụp ảnh sản phẩm độ phân giải cao. Tỷ lệ khung hình 1:1.

Nhắc 25:

Hình ảnh chiến dịch theo phong cách biển quảng cáo cho cốc cà phê bằng gốm. Tiêu đề: “BUỔI SÁNG, HẤP DẪN”. Sản phẩm lớn ở phía trước, ánh sáng cửa sổ nhà bếp ấm áp, hơi nước dịu nhẹ, dòng chữ in đậm dễ đọc ở phía trên bên trái, không có bản sao thừa, không có hình mờ. Tỷ lệ khung hình 16:9.

Nhắc 26:

Hình ảnh nổi bật trong thương mại điện tử cao cấp về chiếc ba lô đi bộ đường dài tối giản trên mỏm đá. Sản phẩm được đặt chính giữa, có thể nhìn thấy túi trước và dây đai, ánh sáng buổi sáng dịu nhẹ trên núi cao, bóng rõ ràng, không có người, không có logo, không có lớp phủ văn bản, kết cấu nylon chân thực và các chi tiết khóa kéo. Tỷ lệ khung hình 1:1.

Nhắc 27:

Hình ảnh chiến dịch chăm sóc da bóng bẩy cho lọ kem dưỡng ẩm bằng thủy tinh mờ. Tiêu đề: “CALM IN A JAR”. Sản phẩm ở phía dưới bên phải, nền xanh nhạt, phản chiếu mặt nước êm dịu, vùng nhãn rõ nét không có nhãn hiệu giả, kiểu chữ màu trắng trang nhã, không thêm chữ. Tỷ lệ khung hình 4:5.

Nhắc 28:

Ảnh sản phẩm mang tính điện ảnh về tai nghe không dây màu trắng mờ đặt trong hộp sạc mở. Nền than tối, viền sáng mỏng, phản chiếu tinh tế bên dưới, không gian âm rõ ràng cho tiêu đề chiến dịch, không logo, không chữ, các cạnh sản phẩm sắc nét. Tỷ lệ khung hình 16:9.

Nhắc 29:

Mô hình bao bì đồ ăn nhẹ hình vuông cho một thương hiệu granola hư cấu có tên “NOVA OATS”. Trưng bày một túi đứng thẳng trên bề mặt gỗ sáng màu, dòng chữ sắc nét, yến mạch và trái cây sấy khô xung quanh đế, ánh sáng tự nhiên ấm áp, thiết kế bao bì cao cấp nhưng dễ tiếp cận, không có nhãn hiệu phụ. Tỷ lệ khung hình 1:1.

Nhắc 30:

Ảnh chụp sản phẩm trang sức sang trọng gồm một chiếc nhẫn bạc có đính một viên đá nhỏ màu xanh lam trên bề mặt nhung sẫm màu. Chi tiết cận cảnh, phản chiếu kim loại chân thực, điểm sáng dịu từ phía trên bên trái, bóng rõ ràng, không có bàn tay, không có văn bản, không có hình mờ, sản phẩm được tách biệt rõ ràng khỏi nền. Tỷ lệ khung hình 4:5.

Những gì cần tìm: Sản phẩm phải tiếp tục là hình ảnh nổi bật. Nếu mô hình phát minh ra quá nhiều chi tiết bao bì, hãy chỉ định “bao bì đơn giản” hoặc “bảo quản chính xác sản phẩm đầu vào” khi sử dụng hình ảnh tham chiếu.

4. Lời nhắc về hình ảnh và đồ họa thông tin trên mạng xã hội

Góc này hữu ích cho các sơ đồ, phần giải thích, bản đồ quy trình làm việc, biểu đồ, hình ảnh lớp học và hình minh họa blog cần nhãn dễ đọc.

Nhắc 31:

Tạo một đồ họa thông tin rõ ràng có tiêu đề “CÁCH HÌNH ẢNH HOẠT ĐỘNG”. Năm bước được gắn nhãn: “Cảnh”, “Chủ đề”, “Văn bản”, “Bố cục”, “Ràng buộc”. Biểu tượng biên tập phẳng, mũi tên giữa các bước, độ tương phản cao, nền trắng, nhãn sans-serif dễ đọc, khoảng cách nhất quán, không có văn bản thừa, không có hình mờ. Tỷ lệ khung hình 16:9.

Nhắc 32:

Sơ đồ giáo dục thể hiện các lớp của ống kính máy ảnh. Bao gồm các bộ phận được gắn nhãn: “Phần tử phía trước”, “Khẩu độ”, “Nhóm lấy nét”, “Cảm biến hình ảnh”. Hình minh họa cắt rời rõ ràng, nền trắng, phong cách sách giáo khoa, dòng đầu rõ ràng, nhãn dễ đọc, không trang trí lộn xộn. Tỷ lệ khung hình 16:9.

Nhắc 33:

So sánh đồ họa thông tin có tiêu đề “POST PROMPT VS SẢN PHẨM PROMPT”. Hai cột, sáu hàng, nhãn ngắn gọn, nền trung tính, văn bản màu đen, dòng nhấn màu xanh lam, phong cách đồ họa blog chuyên nghiệp, tất cả bản sao đều có thể đọc được, không có văn bản thừa. Tỷ lệ khung hình 16:9.

Nhắc 34:

Tạo hình ảnh hướng dẫn từng bước có tiêu đề “CÁCH LÀM LẠNH”. Năm bước được minh họa bằng các nhãn ngắn: “Xay”, “Dốc”, “Lọc”, “Đổ”, “Phục vụ”. Tông màu đất ấm, mũi tên rõ ràng, kiểu biểu tượng nhất quán, văn bản dễ đọc, không cần thêm từ. Tỷ lệ khung hình 16:9.

Nhắc 35:

Tạo một biểu đồ so sánh rõ ràng có tiêu đề “QUY TRÌNH LÀM VIỆC HÌNH ẢNH AI”. Ba cột: “Bản nháp”, “Tinh chỉnh”, “Hoạt hình”. Sử dụng các biểu tượng đơn giản, nhãn ngắn, độ tương phản cao, khoảng cách rộng, nền trắng, phong cách đồ họa blog chuyên nghiệp, tất cả văn bản đều có thể đọc được. Tỷ lệ khung hình 16:9.

Nhắc 36:

Tạo đồ họa thông tin theo dòng thời gian rõ ràng có tiêu đề “TỪ NHẬN ĐẾN POSTER”. Năm giai đoạn: “Tóm tắt”, “Bố cục”, “Văn bản”, “Đánh giá”, “Xuất”. Dòng chảy ngang, vòng tròn được đánh số đơn giản, bảng màu xanh và đen, nhãn có độ tương phản cao, không có văn bản thừa, không có hình mờ. Tỷ lệ khung hình 16:9.

Nhắc 37:

Tạo sơ đồ giáo dục có tiêu đề “VAI TRÒ HÌNH ẢNH THAM KHẢO”. Ba thẻ có nhãn: “Chủ đề”, “Phong cách”, “Nền”. Hiển thị hình thu nhỏ hình ảnh đơn giản, mũi tên vào một khung đầu ra cuối cùng, nhãn rõ ràng, nền trắng, khoảng cách nhất quán, không có văn bản thừa. Tỷ lệ khung hình 16:9.

Nhắc 38:

Tạo cây quyết định có tiêu đề “HƯỚNG DẪN HÌNH ẢNH NÀO?”. Các nhánh: “Văn bản”, “Sản phẩm”, “Cảnh”, “Chỉnh sửa”. Sử dụng các hộp và mũi tên rõ ràng, kiểu chữ sans-serif dễ đọc, nền màu xám tối thiểu, một màu nhấn màu xanh lá cây, không thêm từ, không trang trí lộn xộn. Tỷ lệ khung hình 16:9.

Nhắc 39:

Tạo đồ họa thông tin về danh sách kiểm tra an toàn có tiêu đề “TRƯỚC KHI BẠN TẠO”. Bốn kiểm tra: “Quyền”, “Quyền riêng tư”, “Văn bản”, “Thương hiệu”. Sử dụng các biểu tượng kiểm tra đơn giản, nhãn ngắn gọn, nền trắng, kiểu trung tâm trợ giúp SaaS chuyên nghiệp, độ tương phản cao, không cần sao chép thêm. Tỷ lệ khung hình 4:5.

Nhắc 40:

Tạo phần giải thích trực quan có tiêu đề “NHẤP NHẬN CHỈNH SỬA HÌNH ẢNH”. Ba hàng xếp chồng lên nhau: “Thay đổi”, “Bảo tồn”, “Khớp”. Bao gồm các biểu tượng ví dụ nhỏ cho mỗi hàng, dòng đầu rõ ràng, nhãn dễ đọc, màu sắc hạn chế, không có văn bản bổ sung, không có hình mờ. Tỷ lệ khung hình 16:9.

Những gì cần tìm: Kiểm tra nhãn trước. Nếu hình ảnh đẹp nhưng chữ sai thì đầu ra không sử dụng được. Đối với biểu đồ dày đặc, hãy giảm số lượng nhãn và tạo lại.

5. Lời nhắc về tính nhất quán của ký tự

Bảng ký tự rất hữu ích vì chúng nén danh tính, tủ quần áo, bảng màu và biểu thức vào một khung tham chiếu.

Nhắc 41:

Tạo bảng tham chiếu nhân vật chuyên nghiệp cho một nhân vật RPG giả tưởng nguyên bản: một nữ pháp sư trẻ với mái tóc bạc và đôi mắt màu tím, mặc một chiếc áo choàng đen được trang trí công phu với các họa tiết rune phát sáng. Bao gồm trên nền trắng rõ ràng: vòng quay ba chế độ xem hiển thị mặt trước, mặt bên và mặt sau; các biến thể biểu cảm trên khuôn mặt thể hiện sự trung tính, mỉm cười, tức giận và ngạc nhiên; phân tích chi tiết về trang phục và trang bị; một hàng mẫu màu của bảng màu; và những ghi chú ngắn gọn về xây dựng thế giới bằng kiểu chữ rõ ràng. Bố cục lưới có tổ chức, phong cách nghệ thuật ý tưởng, độ phân giải cao. Tỷ lệ khung hình 16:9.

Nhắc 42:

Tạo bảng ký tự chuyển phát nhanh khoa học viễn tưởng cho nhân vật gốc có tên “NOVA”. Bao gồm các chế độ xem trước, bên và sau, bốn biểu cảm khuôn mặt, chú thích áo khoác và ba lô, mẫu bảng màu, nền trắng rõ ràng, nhãn dễ đọc, khuôn mặt và áo khoác nhất quán trên tất cả các chế độ xem. Tỷ lệ khung hình 16:9.

Nhắc 43:

Tạo một bảng nhân vật trong sách dành cho trẻ em về một người giúp việc rừng nhỏ mặc áo mưa màu xanh lá cây. Bao gồm hàng biểu cảm, hàng chống đỡ, tư thế đi bộ, tư thế vẫy tay, bảng màu, ghi chú đơn giản dễ đọc, phong cách minh họa mềm mại, không có ký tự thừa. Tỷ lệ khung hình 16:9.

Nhắc 44:

Tạo bảng nhân vật thám tử cyberpunk cho nhân vật gốc có tên “REI”. Bao gồm chế độ xem trước, chế độ xem bên, chế độ xem sau, ba biểu cảm, chú thích áo khoác, đạo cụ thiết bị, bảng màu neon, nhãn rõ ràng, khuôn mặt và kiểu tóc nhất quán. Tỷ lệ khung hình 16:9.

Nhắc 45:

Tạo bảng tham khảo linh vật cho một thợ làm bánh robot thân thiện. Bao gồm tư thế toàn thân, ba biểu cảm trên khuôn mặt, chi tiết tạp dề, đạo cụ làm bánh ngọt, bảng màu, quay vòng đơn giản, nền trắng sạch sẽ, nhãn dễ đọc. Tỷ lệ khung hình 16:9.

Nhắc 46:

Tạo bảng nhân vật trong trò chơi di động cho một trinh sát sa mạc ban đầu tên là “KAI”. Bao gồm các chế độ xem mặt trước, mặt bên và mặt sau, ba tư thế hành động, chú thích khăn quàng cổ và thắt lưng tiện ích, bảng màu, nhãn dễ đọc, khuôn mặt và trang phục nhất quán, nền trắng nhạt. Tỷ lệ khung hình 16:9.

Nhắc 47:

Tạo một bảng nhân vật thương gia trong làng tưởng tượng ấm cúng cho một nhân vật gốc tên là “MARN”. Bao gồm chế độ xem toàn thân phía trước, chế độ xem bên, hàng chống đỡ với đèn lồng và sổ cái, bốn nghiên cứu biểu hiện, chú thích kết cấu vải, bảng màu ấm áp, bố cục lưới gọn gàng, ghi chú dễ đọc. Tỷ lệ khung hình 16:9.

Nhắc 48:

Tạo một bảng thiết kế máy bay không người lái bảo trì khoa học viễn tưởng. Bao gồm các góc nhìn từ trên xuống, bên cạnh và phía trước, bảng chi tiết nhỏ cho cảm biến, chân hạ cánh, cánh tay dụng cụ, bộ pin và đèn cảnh báo. Bố cục nghệ thuật khái niệm kỹ thuật rõ ràng, nền trung tính, nhãn dễ đọc, kiểu dáng công nghiệp nhất quán. Tỷ lệ khung hình 16:9.

Nhắc 49:

Tạo bảng nhân vật hoạt hình dành cho trẻ em cho một nhà phát minh ban đầu trong lớp học tên là “MILO”. Bao gồm một tư thế đứng, một tư thế suy nghĩ, một tư thế hào hứng, hàng biểu cảm, đạo cụ ba lô và sổ tay, bảng màu sáng nhưng hạn chế, nhãn dễ đọc, không có ký tự phụ. Tỷ lệ khung hình 16:9.

Nhắc 50:

Tạo bảng tham khảo trang phục chiến thuật cho người chuyển phát nhanh cyberpunk nguyên bản. Bao gồm các chế độ xem mặt trước, mặt sau và mặt bên, chú thích áo khoác, chi tiết giày, chi tiết túi xách, mẫu màu, ba tư thế bóng, văn bản nhãn sắc nét, kiểu tóc và khuôn mặt nhất quán trên các chế độ xem. Tỷ lệ khung hình 16:9.

Nội dung cần tìm: Khuôn mặt, trang phục và bảng màu giống nhau phải tồn tại ở các chế độ xem. Nếu góc nhìn bên thay đổi trang phục, hãy tái tạo bằng ngôn ngữ “bảo tồn” mạnh mẽ hơn.

6. Lời nhắc mô phỏng giao diện người dùng và ảnh chụp màn hình mạng xã hội

Góc độ này hoạt động khi bạn cần một khái niệm ứng dụng thực tế, trang tổng quan, hồ sơ mạng xã hội hoặc giao diện người dùng sản phẩm trông có cấu trúc đủ để thảo luận với nhóm.

Nhắc 51:

Ảnh chụp màn hình iPhone siêu thực về trang hồ sơ hư cấu trên Instagram của Leonardo da Vinci, tên người dùng @davinci_official, như thể anh ấy là một người có ảnh hưởng hiện đại vào năm 2026. Ảnh hồ sơ là một bức chân dung tự họa thời Phục hưng được cắt theo hình tròn. Bio viết: “Nghệ sĩ, kỹ sư, nhà phát minh | Hiện đang mổ xẻ mọi thứ | DM cho hoa hồng”. Lưới hiển thị 9 bài đăng: Mona Lisa được đóng khung lại thành một bức ảnh selfie trong gương, một bản phác thảo trên máy bay trực thăng có chú thích “vừa đánh rơi thiết kế máy bay không người lái mới của tôi”, một nghiên cứu giải phẫu được đăng dưới dạng ảnh tiến trình tập thể dục, Bữa tối cuối cùng được dàn dựng như một cảnh quay nhóm trong bữa tiệc tối và các bản kết hợp lỗi thời sáng tạo khác. Số lượng người theo dõi: 12,4 triệu. Câu chuyện nổi bật được gắn nhãn Phác thảo, Phát minh và Cuộc sống Florence. Thanh trạng thái iOS hoàn chỉnh với văn bản của nhà cung cấp dịch vụ ghi “Renaissance 5G”, biểu tượng pin và hiện tại thời gian. Giao diện người dùng ở chế độ tối xuyên suốt. Chất lượng ảnh chụp màn hình chân thực, tỷ lệ khung hình 9:16.

Nhắc 52:

Màn hình giới thiệu thực tế trên thiết bị di động dành cho ứng dụng thói quen hư cấu có tên “LUMA”. Tiêu đề: “XÂY DỰNG NGÀY TỐT HƠN”. Nút: “Bắt đầu ngay” và “Xem bản demo”. Bố cục gọn gàng theo phong cách iOS, nền trắng mềm mại, điểm nhấn màu xanh lam, văn bản giao diện người dùng dễ đọc, hiển thị ngay bên trong khung điện thoại. Tỷ lệ khung hình 9:16.

Nhắc 53:

Bảng điều khiển SaaS trên máy tính để bàn dành cho công cụ phân tích thương mại điện tử. Thanh bên bên trái, thẻ KPI hàng đầu cho Doanh thu, Đơn đặt hàng, Tỷ lệ chuyển đổi, biểu đồ đường và bảng sản phẩm hàng đầu. Giao diện màu trắng sạch sẽ, khoảng cách chân thực, nhãn mác dễ đọc, không có tên thương hiệu thực. Tỷ lệ khung hình 16:9.

Nhắc 54:

Màn hình ứng dụng thời tiết thực tế trên thiết bị di động dành cho ứng dụng hư cấu có tên “SKYLINE”. Thành phố hiện tại: “Lisbon”. Nhiệt độ đầu dòng: “22C”. Thẻ về Gió, Độ ẩm, Tia cực tím và Hoàng hôn. Giao diện màu xanh dịu, nhãn dễ đọc, khung iPhone, không có nhãn hiệu ứng dụng thực sự. Tỷ lệ khung hình 9:16.

Nhắc 55:

Màn hình ứng dụng đặt chỗ nhà hàng hiển thị xác nhận đặt chỗ. Tên quán: “Bàn Bắc”. Ngày: “18 tháng 6”. Thời gian: “7h30 tối”. Quy mô tiệc: “4 khách”. Hình ảnh món ăn biên tập ấm áp ở trên cùng, nút CTA rõ ràng ghi “Thêm vào lịch”, văn bản giao diện người dùng dễ đọc. Tỷ lệ khung hình 9:16.

Nhắc 56:

Bảng điều khiển phân tích máy tính để bàn thực tế dành cho studio sáng tạo hư cấu. Điều hướng bên trái, các thẻ hàng đầu cho Lượt xem, Thời gian xem, Doanh thu và Người theo dõi mới, biểu đồ dạng đường và bảng chiến dịch. Giao diện người dùng màu trắng sạch sẽ, điểm nhấn màu xanh lam, nhãn dễ đọc, khoảng cách thực tế, không có tên thương hiệu thực. Tỷ lệ khung hình 16:9.

Nhắc 57:

Màn hình thanh toán trên thiết bị di động cho một cửa hàng bán thiết bị ngoài trời hư cấu có tên “TrailCart”. Hiển thị hình thu nhỏ của sản phẩm, bước số lượng, thẻ địa chỉ giao hàng, trường giảm giá, tổng giá và nút CTA có nội dung “Đặt hàng”. Phong cách iOS hiện đại, văn bản UI dễ đọc, không có logo thực. Tỷ lệ khung hình 9:16.

Nhắc 58:

Mô hình giao diện người dùng máy tính bảng dành cho ứng dụng thư viện nhắc nhở. Hiển thị các tab có nhãn “Áp phích”, “Sản phẩm”, “Giao diện người dùng” và “Chỉnh sửa”. Bảng điều khiển chính bao gồm ba thẻ nhắc nhở với văn bản xem trước ngắn, nút sao chép và chip danh mục. Giao diện sạch sẽ, độ dễ đọc cao, không có tên thương hiệu thực sự. Tỷ lệ khung hình 4:3.

Nhắc 59:

Màn hình cài đặt SaaS cho công cụ hình ảnh AI hư cấu. Các phần được gắn nhãn “Mẫu”, “Chất lượng”, “Tỷ lệ khung hình”, “Hình ảnh tham chiếu” và “An toàn”. Sử dụng nút chuyển đổi, menu thả xuống, thanh trượt và nút Lưu rõ ràng. Giao diện người dùng chuyên nghiệp yên tĩnh, nhãn dễ đọc, không có sự lộn xộn về trang trí. Tỷ lệ khung hình 16:9.

Nhắc 60:

Màn hình ứng dụng hành trình du lịch trên thiết bị di động cho chuyến đi hư cấu đến Kyoto. Tiêu đề ghi “Cuối tuần ở Kyoto”. Thẻ cho “Ngày 1”, “Ngày 2”, “Đi chùa” và “Bữa tối”. Giao diện người dùng trung tính mềm mại, khoảng cách thực tế, xem trước bản đồ nhỏ, văn bản có thể đọc được, không có nhãn hiệu ứng dụng thực sự. Tỷ lệ khung hình 9:16.

Những gì cần tìm: Bố cục phải giống như một giao diện thực chứ không phải một áp phích trang trí. Kiểm tra nhãn điều hướng, văn bản nút, khoảng cách biểu tượng và liệu phân cấp màn hình có thể sử dụng được hay không.

7. Gợi ý chuyển giao phong cách và nghệ thuật kể chuyện

Lời nhắc tường thuật ngắn kiểm tra xem GPT Image 2 có thể suy luận thông qua các câu chuyện cười bằng hình ảnh, kể chuyện nhiều khung và văn bản nhỏ trong một cảnh hay không.

Nhắc 61:

Bên trong triển lãm bảo tàng có tựa đề “Công nghệ cổ đại: Kỷ nguyên máy tính để bàn”, một lập trình viên trong tủ trưng bày bằng kính đang trình diễn trực tiếp cách viết mã trên màn hình CRT trong khi các học sinh kinh ngạc áp mặt vào kính. Tấm bảng triển lãm có nội dung: “Homo Developerus (c. 2005) - Con người nguyên thủy sử dụng các thiết bị đầu vào dựa trên bàn phím.” Hộp trưng bày thứ hai gần đó hiển thị một cuốn sách vật lý có nhãn “Stack Overflow - Phiên bản in, Tập 1 trên 4.827”. Phong cách minh họa hoạt hình 2D, ánh sáng bảo tàng ấm áp, giọng điệu hài hước và hoài cổ. Tỷ lệ khung hình 16:9.

Nhắc 62:

Một bộ truyện tranh bốn khung có tựa đề “BUỔI SÁNG”. Bảng 1: báo động tắt. Ô 2: Nhân vật pha cà phê. Ô 3: Nhân vật ngồi làm việc. Bảng 4: nhân vật đã ngủ ở bàn làm việc. Phong cách minh họa tối giản ấm áp, tính cách biểu cảm, tiêu đề dễ đọc, không cần thêm văn bản. Tỷ lệ khung hình 16:9.

Nhắc 63:

Một minh họa biên tập duy nhất cho một bài viết về tự động hóa sáng tạo. Một nhà thiết kế và trợ lý AI sắp xếp các storyboard bằng giấy trên một chiếc bàn lớn, ánh sáng studio dịu nhẹ, sự hài hước tinh tế, phong cách minh họa tạp chí hiện đại, không nhìn thấy logo thương hiệu, không có chữ. Tỷ lệ khung hình 3:2.

Nhắc 64:

Một hình minh họa theo phong cách trang nhất của một tờ báo có tiêu đề “THE MORNING HERALD”. Tiêu đề chính: “THÀNH PHỐ PHÊ DUYỆT VƯỜN TRÊN MÁI”. Bố cục hai cột, một khu vực ảnh hội đồng thành phố mang tính chân thực, thiết kế bảng tính rộng cổ điển, tiêu đề và dòng tiêu đề dễ đọc, không có văn bản bài viết bổ sung. Tỷ lệ khung hình 4:5.

Nhắc 65:

Truyện tranh hai khung về một robot đang học vẽ. Bảng 1: robot nghiên cứu cẩn thận một khung vẽ trống. Hình 2: Robot kiêu hãnh thể hiện một bức tranh lộn xộn nhưng đầy quyến rũ. Ánh sáng studio ấm áp, ngôn ngữ cơ thể biểu cảm, không có lời thoại bong bóng, tiêu đề đơn giản: “CỐ THI ĐẦU TIÊN”. Tỷ lệ khung hình 16:9.

Nhắc 66:

Truyện tranh biên tập ba khung có tựa đề “THEADLINE”. Bảng 1: một nhà thiết kế bình tĩnh mở một tập tin trống. Ô 2: đồng hồ nhảy về phía trước và những tờ giấy dán đầy trên bàn. Bảng 3: nhà thiết kế trình bày một tấm áp phích bóng bẩy với sự nhẹ nhõm đáng kinh ngạc. Phong cách minh họa biểu cảm tối giản, tiêu đề dễ đọc, không có bong bóng lời thoại. Tỷ lệ khung hình 16:9.

Nhắc 67:

Một minh họa tạp chí siêu thực về sự tập trung sáng tạo: một người ngồi bên chiếc bàn nhỏ lơ lửng trong một thư viện yên tĩnh có những cửa sổ rực sáng, mỗi cửa sổ thể hiện một ý tưởng còn dang dở khác nhau. Ánh sáng điện ảnh dịu nhẹ, tâm trạng trầm ngâm, bố cục rõ ràng, không nhìn thấy logo thương hiệu, không có văn bản. Tỷ lệ khung hình 3:2.

Nhắc 68:

Bảng phân cảnh bốn bảng dành cho đoạn giới thiệu giới thiệu sản phẩm. Bảng 1: hộp đóng kín trên bàn. Bảng 2: Ánh sáng rò rỉ từ hộp. Bảng 3: tay nâng nắp. Bảng 4: hình bóng sản phẩm phát sáng lộ ra. Không có nhãn hiệu dễ đọc, không có lời thoại, ánh sáng điện ảnh, đường viền bảng điều khiển rõ ràng. Tỷ lệ khung hình 16:9.

Nhắc 69:

Một bức tranh tầm sâu bảo tàng hài hước có tựa đề “Trò chuyện nhóm đầu tiên”. Hiển thị các nhân vật có vẻ ngoài cổ xưa tụ tập xung quanh các phiến đá với các bong bóng thông điệp được khắc phía trên, ánh sáng ấm áp của bảo tàng, hình minh họa xã luận vui nhộn, chỉ có tiêu đề có thể đọc được, không có văn bản bổ sung. Tỷ lệ khung hình 16:9.

Nhắc 70:

Áp phích tường thuật chia đôi màn hình hiển thị quá trình lặp lại sáng tạo “trước” và “sau”. Bên trái: bức tường phác thảo lộn xộn và những ghi chú thô ráp. Bên phải: bảng chiến dịch được đánh bóng sạch sẽ. Hình minh họa biên tập hiện đại, độ tương phản mạnh, không logo, không thêm từ nào ngoài “TRƯỚC” và “SAU”. Tỷ lệ khung hình 16:9.

Nội dung cần tìm: Cảnh phải truyền đạt ý tưởng một cách trực quan. Nếu trò đùa phụ thuộc hoàn toàn vào văn bản, hãy đơn giản hóa việc thiết lập và làm cho hành động thể chất rõ ràng hơn.

8. Lời nhắc và chỉnh sửa tham chiếu từ hình ảnh sang video đầu tiên

Góc này là nơi GPT Image 2 không chỉ là một trình tạo lần đầu tiên. Nó rất hữu ích cho việc cắt bỏ sản phẩm, hoán đổi trang phục, thay đổi nền, chỉnh sửa dựa trên tham chiếu và khung tĩnh được thiết kế cho chuyển động.

Nhắc 71:

Tạo khung hình đầu tiên mang tính điện ảnh cho clip chuyển từ hình ảnh sang video: một phi hành gia đơn độc đứng ở rìa miệng núi lửa sa mạc rực sáng vào lúc bình minh, mũi đất và bụi sẵn sàng di chuyển trong gió, hình bóng tiền cảnh mạnh mẽ, các lớp sâu rõ ràng, ánh sáng đường chân trời ấm áp, không văn bản, không hình mờ. Tỷ lệ khung hình 16:9.

Nhắc 72:

Sử dụng Hình ảnh 1 làm ảnh sản phẩm và Hình ảnh 2 làm tham chiếu kiểu nền. Đặt sản phẩm vào khung cảnh từ Hình 2. Giữ nguyên hình dạng, văn bản nhãn, tỷ lệ, màu sắc và chất liệu của sản phẩm một cách chính xác. Kết hợp ánh sáng, tỷ lệ, bóng tối và phối cảnh. Không tạo kiểu lại sản phẩm. Không có logo hoặc hình mờ bổ sung.

Nhắc 73:

Xóa nền khỏi hình ảnh sản phẩm đầu vào. Tạo ra nền trong suốt với hình bóng sắc nét, các cạnh rõ ràng, không có quầng sáng, không có viền. Giữ nguyên hình dạng chai, hình dạng nắp, văn bản nhãn, màu nhãn và độ sắc nét của bản in. Không thay đổi tỷ lệ.

Nhắc 74:

Chỉ thay đổi thời tiết và ánh sáng trong hình ảnh đầu vào. Làm cho khung cảnh giống như một buổi tối mùa đông với tuyết rơi nhẹ. Bảo toàn chính xác con người, tòa nhà, bảng hiệu, góc camera, vị trí đối tượng và bố cục. Giữ nguyên tất cả văn bản có thể đọc được.

Nhắc 75:

Hình 1 là người được bảo tồn. Hình ảnh 2 là tài liệu tham khảo về áo khoác. Hình ảnh 3 là hình ảnh tham khảo về ủng. Mặc quần áo cho người trong Hình 1 bằng cách sử dụng quần áo từ Hình 2 và 3. Giữ nguyên khuôn mặt, hình dáng cơ thể, tư thế, bàn tay, hậu cảnh, góc máy và ánh sáng một cách chính xác. Chỉ thay quần áo.

Nhắc 76:

Sử dụng ảnh sản phẩm đầu vào làm chủ đề khóa. Đặt sản phẩm trên quầy phòng tắm bằng đá cẩm thạch sạch sẽ với ánh sáng dịu nhẹ của cửa sổ buổi sáng. Giữ nguyên hình dạng sản phẩm, nội dung nhãn, màu sắc nắp, tỷ lệ và chất liệu một cách chính xác. Kết hợp bóng tiếp xúc, tỷ lệ và phối cảnh. Không thêm nhãn, logo hoặc đạo cụ bổ sung.

Nhắc 77:

Tạo khung hình đầu tiên mang tính điện ảnh cho clip chuyển từ hình ảnh sang video: một chai nước hoa thủy tinh đứng trên đá đen ướt khi một dải sương mù mỏng di chuyển phía sau nó. Sản phẩm được đặt ở giữa, hình bóng mạnh mẽ, độ sâu tiền cảnh và hậu cảnh rõ ràng, không có bàn tay, không có văn bản, không có hình mờ. Tỷ lệ khung hình 16:9.

Nhắc 78:

Chỉnh sửa chân dung đầu vào bằng cách chỉ thay đổi nền thành phông nền studio biên tập rõ ràng với màu xám ấm. Giữ nguyên khuôn mặt, mái tóc, quần áo, tư thế, màu da, góc máy, hướng ánh sáng và biểu cảm một cách chính xác. Làm cho bóng nền mới và độ sâu phù hợp một cách tự nhiên.

Nhắc 79:

Sử dụng Hình ảnh 1 làm ảnh phòng và Hình ảnh 2 làm tài liệu tham khảo về nghệ thuật treo tường. Thêm tác phẩm nghệ thuật từ Hình 2 vào bức tường trống ở Hình 1. Bảo quản đồ nội thất, sàn nhà, ánh sáng cửa sổ, góc camera, cân bằng màu sắc và bố cục phòng một cách chính xác. Khớp tỷ lệ khung hình, phối cảnh và bóng tường.

Nhắc 80:

Tạo khung hình đầu tiên sẵn sàng cho video để giới thiệu sản phẩm: một hộp đen mờ đóng kín trên bàn, ánh sáng xanh lam mỏng rò rỉ từ đường nối, các hạt bụi nhìn thấy được trong chùm tia, camera được đặt ở vị trí thấp và gần, các lớp có độ sâu mạnh, không gian trống cho chuyển động, không có văn bản, không có logo. Tỷ lệ khung hình 16:9.

Nội dung cần tìm: Đối với các chỉnh sửa, kết quả đầu ra chỉ thành công nếu các chi tiết bị khóa vẫn bị khóa. Đối với các khung hình sẵn sàng cho video, hãy kiểm tra khả năng tách chủ thể, độ sâu tiền cảnh/nền sau và liệu cảnh đó có cho PixVerse không gian để chuyển động hay không.

Đánh giá GPT Image 2: Kết quả và điểm kiểm tra

Đã thử nghiệm và cập nhật: ngày 23 tháng 6 năm 2026.

Phần đánh giá này được cố ý đặt sau thư viện nhắc nhở vì hầu hết người đọc truy cập trang này đều cần có ví dụ trước. Việc đánh giá vẫn quan trọng: GPT Image 2 hữu ích khi văn bản, cấu trúc và hướng dẫn theo sau quan trọng hơn việc khám phá trực quan một cách lỏng lẻo.

Xem lại thứ nguyên	Điểm (1-5)	Những gì chúng tôi thấy trong các bài kiểm tra thực hành
Độ chính xác của văn bản	4	Các tiêu đề lớn, nhãn ngắn, tiêu đề áp phích, mục menu, các bước đồ họa thông tin và nhãn giao diện người dùng đơn giản sẽ dễ kiểm soát hơn khi trích dẫn bản sao chính xác. Bản sao pháp lý nhỏ và đoạn văn dày đặc vẫn cần được xem xét cẩn thận.
Tính nhất quán của ký tự	3	Các bảng ký tự, hàng biểu cảm, chú thích trang phục và bảng màu đều hữu ích làm tài liệu tham khảo, nhưng khuôn mặt, tỷ lệ và chi tiết trang phục có thể trôi qua các chế độ xem từ bên cạnh và phía sau.
Kiểm soát phong cách	4	Mô hình này tuân theo hướng trực quan rộng rãi khi lời nhắc đặt tên cho trường hợp sử dụng, bố cục, phương tiện, ánh sáng và các ràng buộc thay vì chỉ xếp chồng các từ khóa kiểu.
Chủ nghĩa hiện thực của sản phẩm	4	Bố cục quảng cáo sản phẩm, không gian âm của chiến dịch, bề mặt sạch sẽ và bố cục ưu tiên sản phẩm rất mạnh mẽ, nhưng nhãn thực, logo, hình dạng bao bì và các tuyên bố được quy định vẫn cần QA thủ công.
Khả năng chỉnh sửa	3	Mẫu “thay đổi, giữ nguyên, khớp” hoạt động tốt hơn so với các yêu cầu chỉnh sửa rộng rãi, nhưng vẫn cần xem xét các ranh giới lựa chọn, đầu ra có nền trong suốt và bảo quản sản phẩm chính xác.

Tìm kiếm câu hỏi	Câu trả lời thực tế
Tốt nhất cho	Áp phích văn bản chính xác, khái niệm quảng cáo sản phẩm, mô hình giao diện người dùng, đồ họa thông tin, bảng ký tự, chỉnh sửa tham chiếu và khung hình đầu tiên để chuyển hình ảnh thành video.
Hạn chế chính	Văn bản nhỏ, nhãn hiệu chính xác, phông chữ độc quyền, bản sao hợp pháp, sản phẩm có nền trong suốt phức tạp và nhãn sản phẩm bị khóa vẫn cần được xem xét.
Tính khả dụng của API	Sử dụng lộ trình API `gpt-image-2` của OpenAI cho quy trình làm việc của nhà phát triển. Truy cập ChatGPT Images 2.0 và thanh toán API là các đường dẫn riêng biệt.
ghi chú API	Kể từ ngày 22 tháng 6 năm 2026, OpenAI liệt kê mức giá mã thông báo GPT-Image-2 cho đầu vào hình ảnh, đầu vào hình ảnh được lưu vào bộ nhớ đệm, đầu ra hình ảnh, đầu vào văn bản và đầu vào văn bản được lưu vào bộ nhớ đệm.
Quy trình làm việc video	Nhắc nhở các cạnh của chủ thể rõ ràng, các lớp độ sâu và một tín hiệu chuyển động nếu hình ảnh sau này có thể trở thành nguồn chuyển từ hình ảnh sang video.
Các lựa chọn thay thế để so sánh	Sử dụng Nano Banana 2 để kiểm tra ảnh thực tế nhanh, Midjourney để khám phá cách điệu và PixVerse khi được phê duyệt vẫn cần trở thành nội dung video.

Cách chúng tôi thử nghiệm GPT Image 2

Chúng tôi đã thử nghiệm GPT Image 2 trên các bức chân dung, áp phích nhiều văn bản, bố cục kiểu sản phẩm, bảng ký tự, mô hình giao diện người dùng và cảnh tường thuật thử nghiệm. Mục tiêu không phải là tạo ra điểm chuẩn; đó là để xem liệu nhà thiết kế, nhà tiếp thị hoặc người sáng tạo có thể sử dụng kết quả đầu ra với các chỉnh sửa nhẹ thay vì xây dựng lại nội dung từ đầu hay không.

Khu vực thử nghiệm	Lời nhắc mẫu	Những gì chúng tôi đã kiểm tra
Chân dung và ảnh tĩnh điện ảnh	12	Kiểm soát ánh sáng, kết cấu da, độ phản chiếu, tâm trạng và tính nhất quán của cảnh.
Bố cục áp phích và kiểu chữ	14	Chính tả tiêu đề, văn bản nhiều dòng, phân cấp, không gian âm và đánh bóng giống thương hiệu.
Bảng ký tự và khái niệm	9	Tính nhất quán của nhiều chế độ xem, chi tiết trang phục, căn chỉnh bảng màu và độ chính xác của nhãn.
Mô hình giao diện người dùng và xã hội	8	Bố cục hiện thực, văn bản nhỏ, khoảng cách biểu tượng, lưới nguồn cấp dữ liệu và độ tin cậy của ảnh chụp màn hình.
Lời nhắc thử nghiệm	10+	Hài hước, lý luận tường thuật, vị trí đối tượng và độ chính xác của chú thích nhỏ.

Mô hình rất rõ ràng: GPT Image 2 thưởng cho các bản tóm tắt chính xác hơn là các chuỗi từ khóa. Khi lời nhắc đặt tên cho công việc và xác định thành công, mô hình có xu hướng giữ nguyên cấu trúc. Khi lời nhắc yêu cầu một hình ảnh đẹp mà không bị ràng buộc, kết quả vẫn có thể trông bóng bẩy nhưng khó sử dụng lại hơn.

Đánh giá kết quả theo trường hợp sử dụng

Trường hợp sử dụng	Điều gì đã làm việc tốt	Những gì vẫn cần xem xét
Hiển thị văn bản	Các tiêu đề lớn, nhãn ngắn, tiêu đề áp phích, mục menu, các bước đồ họa thông tin và nhãn giao diện người dùng đơn giản sẽ dễ kiểm soát hơn khi trích dẫn bản sao chính xác.	Bản sao hợp pháp nhỏ, đoạn văn dày đặc, phông chữ cách điệu và các từ lặp đi lặp lại vẫn có thể trôi đi. Giữ bản sao ngắn gọn và kiểm tra từng chữ cái.
Hình ảnh sản phẩm	GPT Image 2 đã xử lý tốt bố cục quảng cáo sản phẩm, không gian âm của chiến dịch, bề mặt sạch sẽ và bố cục ưu tiên sản phẩm.	Nhãn thật, logo, hình dạng bao bì và các tuyên bố được quy định phải được kiểm tra thủ công hoặc tổng hợp từ các tài sản đã được phê duyệt.
mô hình giao diện người dùng	Màn hình di động, trang tổng quan, thẻ, nút, menu và hệ thống phân cấp giống như ứng dụng trông có vẻ hợp lý khi lời nhắc đặt tên cho các thành phần giao diện thực.	Hãy coi kết quả đầu ra là mô hình khái niệm chứ không phải giao diện người dùng sản xuất. Các nhãn nhỏ, căn chỉnh biểu tượng và dữ liệu chính xác thường cần được dọn dẹp.
Tính nhất quán của ký tự	Các bảng ký tự, hàng biểu cảm, chú thích trang phục và bảng màu đều hữu ích như những tài liệu tham khảo sáng tạo.	Khuôn mặt, chi tiết trang phục và tỷ lệ có thể thay đổi theo từng góc nhìn. Lặp lại các neo nhận dạng và tạo lại nếu các chế độ xem bên hoặc phía sau bị lệch.
Khung hình đầu tiên chuyển từ hình ảnh sang video	Các khung hình rộng với tiền cảnh, trung cảnh, hậu cảnh và một tín hiệu chuyển động đã mang lại cho PixVerse nhiều tài liệu nguồn hữu dụng hơn.	Hình ảnh quá đông, văn bản nặng và tín hiệu chuyển động không rõ ràng khiến việc tạo video sau này trở nên khó khăn hơn.
Chỉnh sửa và tổng hợp	Mẫu lời nhắc “thay đổi, giữ nguyên, khớp” hoạt động tốt hơn so với các yêu cầu chỉnh sửa rộng rãi.	Ranh giới lựa chọn, đầu ra nền trong suốt, bảo quản sản phẩm chính xác và chi tiết đẹp vẫn yêu cầu QA.

Để so sánh mẫu mã, sự phân biệt hữu ích không phải là thương hiệu với thương hiệu. GPT Image 2 hoạt động giống như một trợ lý thiết kế có cấu trúc dành cho những hình ảnh nặng về giao tiếp. Midjourney vẫn hữu ích cho việc khám phá cách điệu và định hướng nghệ thuật theo chiều rộng. Nano Banana 2 là điểm so sánh mạnh mẽ về tính chân thực, chi tiết vật liệu và khả năng lặp lại hình ảnh nhanh. PixVerse là lớp quy trình công việc tiếp theo khi hình ảnh tĩnh phải trở thành clip, quảng cáo, giới thiệu sản phẩm hoặc quay câu chuyện.

Những lỗi nhắc nhở GPT Image 2 thường gặp

Yêu cầu độ chính xác mà không đưa ra bản sao chính xác. Nếu hình ảnh cần văn bản, hãy viết chính xác văn bản và cho biết nó sẽ xuất hiện ở đâu.
Tải quá nhiều lời nhắc với mọi chi tiết có thể. Bắt đầu với cảnh cốt lõi, sau đó tinh chỉnh từng biến một.
Bỏ qua những bất biến trong quá trình chỉnh sửa. Cho người mẫu biết những gì phải không thay đổi: danh tính, hậu cảnh, tư thế, ánh sáng, hình dạng sản phẩm, văn bản nhãn hoặc góc máy ảnh.
Sử dụng các từ có tính chất trang trí cho các nhiệm vụ chức năng. “Đẹp” không làm cho nhãn có thể đọc được. Sử dụng các cụm từ như “văn bản nhãn sắc nét”, “sạch sẽ” và “có thể đọc được từ xa”.
Bỏ qua tỷ lệ khung hình. Một hình ảnh vuông đẹp có thể không thành công dưới dạng hình thu nhỏ của quảng cáo dọc hoặc video.
Xử lý biểu trưng như văn bản chung. GPT Image 2 có thể thiết kế ý tưởng biểu tượng nhưng nhãn hiệu thương hiệu chính xác thường phải được tổng hợp từ tài sản thương hiệu đã được phê duyệt.

Ghi chú về giá và API GPT Image 2

Trang định giá API của OpenAI liệt kê GPT-Image-2 với mức giá dựa trên mã thông báo. Tính đến ngày 22 tháng 6 năm 2026, mức giá niêm yết là:

Mục	Giá niêm yết
Đầu vào hình ảnh	8,00 USD / 1 triệu token
Đầu vào hình ảnh được lưu trong bộ nhớ đệm	2,00 USD / 1 triệu token
Đầu ra hình ảnh	30,00 USD / 1 triệu token
Nhập văn bản	5,00 USD / 1 triệu token
Nhập văn bản được lưu vào bộ nhớ đệm	1,25 USD / 1 triệu token

Chi phí tạo thực tế phụ thuộc vào độ dài prompt, hình ảnh tham chiếu, kích thước đầu ra, bộ nhớ đệm, chất lượng và đường dẫn truy cập bạn sử dụng. Nếu bạn dùng ChatGPT thay vì API, giới hạn gói và hạn ngạch sẽ tách biệt với giá token API. Nếu bạn đang xây dựng ứng dụng có thể lặp lại hoặc quy trình batch, hướng dẫn prompt cho mô hình tạo hình ảnh của OpenAI cũng đáng đọc.

Sự khác biệt đó quan trọng đối với những người tìm kiếm hỏi liệu GPT Image 2 có miễn phí hay không hoặc API GPT Image 2 có giá bao nhiêu. Tính khả dụng của ChatGPT Images 2.0, hạn ngạch gói ChatGPT, thanh toán API OpenAI và tín dụng PixVerse là các đường dẫn thương mại riêng biệt. Đối với công việc có khối lượng lớn, hãy so sánh chi phí trên mỗi nội dung được chấp nhận sau khi thử lại, không chỉ giá niêm yết của một lần thử tạo.

Lựa chọn quy trình làm việc	Lời khuyên thực tế và lời khuyên cài đặt
Áp phích hoặc sơ đồ có nhiều văn bản	Sử dụng ít từ hơn cho mỗi hình ảnh, trích dẫn bản sao chính xác, chỉ định thứ bậc và sử dụng cài đặt chất lượng cao hơn khi ngân sách cho phép.
Hình ảnh sản phẩm	Khóa hình dạng, nhãn, màu sắc, chất liệu và góc camera của sản phẩm. Nếu sử dụng tài liệu tham khảo, hãy lặp lại danh sách lưu giữ trong mỗi lần chỉnh sửa.
mô hình giao diện người dùng	Mô tả màn hình như một giao diện được vận chuyển: điều hướng, thẻ, nút, trạng thái, nhãn và khoảng cách. Tránh ngôn ngữ nghệ thuật khái niệm.
Chỉnh sửa đa tài liệu tham khảo	Dán nhãn cho mỗi hình ảnh theo vai trò: chủ đề, phong cách, hình nền, trang phục, sản phẩm hoặc tài liệu tham khảo.
Tạo hàng loạt	So sánh chi phí cho mỗi hình ảnh được chấp nhận, không chỉ chi phí cho mỗi lần thử. Lần chạy rẻ hơn không hề rẻ hơn nếu cần thử lại nhiều lần.
Sản xuất PixVerse	Tạo hoặc nhập hình ảnh tĩnh, sau đó sử dụng tính năng chuyển hình ảnh thành video khi nội dung cần chuyển động, chuyển động của camera hoặc các biến thể chiến dịch.

Đối với các nhóm quyết định nên sử dụng quy trình làm việc hình ảnh ưu tiên API hay quy trình làm việc của người sáng tạo, câu hỏi thực tế không chỉ là “GPT Image 2 có thể tạo hình ảnh tĩnh không?” Đó cũng là “Điều gì xảy ra sau khi hình ảnh tĩnh được phê duyệt?” Nếu bạn muốn so sánh chất lượng hình ảnh lần đầu, hãy xem bài kiểm tra nhanh chóng GPT Image 2 và Nano Banana 2 của chúng tôi. Nếu bạn cần tạo tự động từ thiết bị đầu cuối hoặc quy trình làm việc của tác nhân AI, thì hướng dẫn PixVerse CLI sẽ bao gồm việc tạo hình ảnh và video từ quy trình dòng lệnh.

Quy trình chuyển đổi hình ảnh thành video PixVerse chi tiết

Sau khi hình ảnh GPT Image 2 được phê duyệt, bạn có thể coi hình ảnh đó là khung hình đầu tiên cho video. Phần quan trọng là chuẩn bị ảnh tĩnh trước khi tạo hiệu ứng cho nó. Mô hình video sẽ không sửa được văn bản áp phích sai chính tả, nhãn sản phẩm bị biến dạng hoặc mô hình giao diện người dùng trông có vẻ sai một cách kỳ diệu.

1. Tạo ảnh tĩnh làm khung hình đầu tiên

Nếu bạn biết hình ảnh có thể trở thành một đoạn clip, hãy thêm tính năng sẵn sàng chuyển động vào lời nhắc hình ảnh. Yêu cầu các cạnh của chủ thể rõ ràng, độ sâu tiền cảnh và hậu cảnh, đường đi của camera và một tín hiệu vật lý có thể di chuyển: vải, bụi, hơi nước, mưa, tóc, ánh sáng màn hình, phản chiếu sản phẩm hoặc nguồn sáng thay đổi.

Thay vì chỉ nhắc poster sản phẩm, hãy nhắc poster sản phẩm có thể trở thành khung mở đầu video:

Tạo khung hình đầu tiên của chiến dịch 16:9 cho loa màu đen mờ trên bệ bê tông. Giữ loa sắc nét ở phía bên phải với không gian âm rõ ràng ở bên trái. Thêm bụi mềm vào chùm ánh sáng và ánh sáng LED màu xanh lam huyền ảo có thể tạo hiệu ứng động sau này. Không có văn bản thừa, không có logo giả, không có hình mờ.

2. Xem lại hình ảnh trước khi thêm chuyển động

Kiểm tra ảnh tĩnh như file thiết kế cuối cùng. Xem xét chính tả, hình học sản phẩm, nhãn, bàn tay, khuôn mặt, căn chỉnh giao diện người dùng, xác nhận quyền sở hữu và các yếu tố nhạy cảm với quyền. Nếu hình ảnh nguồn không đạt bất kỳ bước kiểm tra nào trong số đó, hãy tạo lại hoặc chỉnh sửa ảnh tĩnh trước khi chuyển sang video.

3. Viết lời nhắc chuyển động riêng

Lời nhắc video không được lặp lại toàn bộ lời nhắc hình ảnh. Nó sẽ mô tả những gì di chuyển và những gì vẫn bị khóa.

Sử dụng hình ảnh làm khung hình đầu tiên. Camera từ từ đẩy về phía loa. Đèn LED màu xanh lam bật lên, bụi di chuyển qua chùm ánh sáng và độ phản chiếu của nền hơi dịch chuyển. Giữ nguyên hình dạng, chất liệu, vị trí của loa và tất cả các chi tiết thiết kế có thể nhìn thấy được. Không thêm văn bản, biểu tượng, hình kim hoặc sản phẩm bổ sung mới.

4. Chỉ hoạt hình sau khi vẫn hoạt động

Nếu bạn đang sử dụng PixVerse, bạn có thể tạo hình ảnh GPT Image 2 trong ứng dụng hoặc nhập hình ảnh đã hoàn thiện, sau đó sử dụng tính năng chuyển hình ảnh thành video để thêm chuyển động. Sử dụng image-to-video để chuyển động trực tiếp từ ảnh tĩnh, PixVerse V6 để có quy trình sáng tạo rộng hơn trong 15 giây và C1 khi cảnh quay cần kiểm soát tham chiếu điện ảnh nhiều hơn.

Vào ngày 22 tháng 4 năm 2026, PixVerse đã ra mắt GPT Image 2 dưới dạng tùy chọn chuyển văn bản thành hình ảnh, tham gia Nano Banana 2, Seedream và HappyHorse 1.0 trong dòng sản phẩm.

Nếu bạn đang quyết định giữa OpenAI và mẫu hình ảnh của Google cho cùng một bản tóm tắt, hãy xem so sánh GPT Image 2 với Nano Banana 2 của chúng tôi để biết kết quả song song từ các lời nhắc giống hệt nhau.

Nếu công việc nhắc nhở của bạn chủ yếu là về video thì hướng dẫn công cụ AI chuyển hình ảnh thành video tốt nhất của chúng tôi sẽ giải thích cách chọn quy trình chuyển động phù hợp sau khi hình ảnh tĩnh đã sẵn sàng.

Hãy dùng thử PixVerse: mở ứng dụng PixVerse.

Câu hỏi thường gặp

Lời nhắc GPT Image 2 tốt nhất là gì?

Lời nhắc GPT Image 2 hay nhất mô tả công việc sản xuất rõ ràng chứ không chỉ là phong cách trực quan. Những lời nhắc mạnh mẽ thường bao gồm chủ đề, loại đầu ra, văn bản chính xác nếu cần, bố cục, ánh sáng, giới hạn, tỷ lệ khung hình và trường hợp sử dụng cuối cùng. Quảng cáo sản phẩm, áp phích văn bản chính xác, bảng ký tự, mô hình giao diện người dùng, đồ họa thông tin và khung hình đầu tiên từ hình ảnh đến video là những danh mục gợi ý đặc biệt tốt để bắt đầu.

Làm cách nào để viết lời nhắc GPT Image 2 tốt hơn?

Hãy sử dụng công thức này: chủ đề cộng với phong cách hình ảnh cộng với bố cục cộng với ánh sáng cộng với các chi tiết cộng với các ràng buộc cộng với trường hợp sử dụng đầu ra. Cho GPT Image 2 biết hình ảnh cần làm gì, trích dẫn văn bản chính xác, chỉ định bố cục và tỷ lệ khung hình, đồng thời liệt kê những gì không được thay đổi. Đối với các chỉnh sửa, hãy tách riêng thay đổi, các thành phần bị khóa và các yêu cầu về tính hiện thực.

GPT Image 2 có tốt cho hình ảnh sản phẩm không?

Vâng. GPT Image 2 rất hữu ích cho các khái niệm quảng cáo sản phẩm, hình ảnh nổi bật trong thương mại điện tử, mô hình bao bì, hình cắt sản phẩm và hình ảnh chiến dịch. Nhóm sản phẩm vẫn phải xem xét hình dạng sản phẩm, văn bản nhãn, tuyên bố được quy định, biểu trưng và chi tiết đóng gói trước khi sử dụng kết quả đầu ra trong quảng cáo hoặc danh sách sản phẩm.

GPT Image 2 có thể tạo hình ảnh bằng văn bản không?

Có, GPT Image 2 có thể tạo hình ảnh có văn bản dễ đọc, đặc biệt là các tiêu đề ngắn, nhãn, áp phích, mục menu, các bước đồ họa thông tin và nhãn giao diện người dùng. Để có kết quả tốt nhất, hãy đặt văn bản chính xác trong dấu ngoặc kép, chỉ định vị trí xuất hiện, giữ bản sao ngắn gọn và thêm các ràng buộc như “chỉ văn bản chính xác”, “không có từ bổ sung” và “không có văn bản trùng lặp”.

Làm cách nào để biến hình ảnh GPT Image 2 thành video?

Trước tiên, hãy tạo hoặc phê duyệt hình ảnh tĩnh, sau đó tải hình ảnh đó lên PixVerse để chuyển đổi hình ảnh thành video. Viết lời nhắc chuyển động riêng mô tả những gì di chuyển và những gì vẫn bị khóa. Lời nhắc chuyển động tốt đề cập đến chuyển động của máy ảnh, bảo toàn chủ thể, chuyển động nền và các hạn chế như không có văn bản mới, không có biểu trưng mới và không có sản phẩm bổ sung.

GPT Image 2 và Nano Banana 2: cái nào tốt hơn?

GPT Image 2 thường tốt hơn cho các đầu ra thiết kế có cấu trúc như áp phích nhiều văn bản, sơ đồ, mô hình giao diện người dùng, bản tóm tắt trực quan có thể chỉnh sửa và khung hình đầu tiên từ hình ảnh sang video. Nano Banana 2 đáng được so sánh khi tính chân thực, chi tiết vật liệu và khả năng lặp lại hình ảnh nhanh quan trọng hơn. Xem so sánh GPT Image 2 và Nano Banana 2 để biết kết quả nhanh chóng tương tự.

GPT Image 2 có giống với ChatGPT Images 2.0 không?

Đối với mục đích tìm kiếm, có. Nhiều người dùng sử dụng GPT Image 2, gpt-image-2 và ChatGPT Images 2.0 để mô tả trải nghiệm tạo hình ảnh ChatGPT mới hơn của OpenAI. Tên dành cho sản phẩm của OpenAI là ChatGPT Images 2.0, trong khi gpt-image-2 là cụm từ mà các nhà phát triển và người tạo kiểu mô hình thường sử dụng khi thảo luận về quy trình làm việc API.

GPT Image 2 có miễn phí không và API có giá bao nhiêu?

Trợ giúp OpenAI liệt kê ChatGPT Images 2.0 có sẵn trên tất cả các cấp, nhưng hạn ngạch gói và thanh toán API là riêng biệt. Kể từ ngày 22 tháng 6 năm 2026, OpenAI liệt kê đầu ra hình ảnh GPT-Image-2 ở mức 30,00 USD cho mỗi 1 triệu mã thông báo; chi phí thực tế phụ thuộc vào độ dài lời nhắc, tài liệu tham khảo, kích thước đầu ra, chất lượng và bộ nhớ đệm.