Hướng dẫn prompt video AI: 7 cách sửa đã kiểm chứng
Tìm hiểu 7 cách sửa prompt video AI với ví dụ tốt và xấu, thử nghiệm prompt trên PixVerse và quy tắc áp dụng cho đa số mô hình.
Phần lớn lỗi trong prompt video AI không đến từ việc thiếu tưởng tượng. Chúng đến từ những thói quen từng hiệu quả với tạo ảnh, nhưng lại hỏng khi mô hình phải tạo chuyển động, nhịp thời gian, chuyển động camera, tính nhất quán của chủ thể và đôi khi cả âm thanh trong cùng một clip.
Hướng dẫn prompt video AI này tập trung vào bảy cách sửa thực tế cho tạo video hiện đại. Các mẹo được thiết kế cho những mô hình mà creator có thể so sánh trên PixVerse, bao gồm Seedance 2.0, HappyHorse 1.0, PixVerse V6, PixVerse C1, Kling O3 và Kling 3.0. Chúng cũng áp dụng rộng rãi cho nhiều trình tạo video AI khác, vì các điểm lỗi thường giống nhau: prompt quá tải, nhãn phong cách mơ hồ, chuyển động camera xung đột, negative prompt giả, từ tốc độ gây jitter, drift từ ảnh tham chiếu và các tính từ chất lượng quá chung.
Mục tiêu không phải là làm mọi prompt ngắn hơn hoặc kỹ thuật hơn. Mục tiêu là để mỗi chỉ dẫn đều có lý do tồn tại. Một prompt video mạnh nói trước điều quan trọng, đưa ra một đường chuyển động rõ, bảo vệ tính nhất quán của chủ thể và dùng ngôn ngữ thị giác cụ thể thay vì các từ gu thẩm mỹ quá rộng.
Cách chúng tôi kiểm tra các prompt video AI này
Trong bài viết này, cả bảy case prompt đều được tạo trên PixVerse với cùng một thiết lập tạo video cơ bản và bật âm thanh cho mọi clip. Mục tiêu không phải là quảng bá một mẹo riêng cho một mô hình, mà là cô lập tác động của cấu trúc prompt khi môi trường test được giữ nhất quán. Video nguồn dài khoảng 5 giây; sáu clip dùng đầu ra ngang 1280x720, còn case ảnh tham chiếu dùng đầu ra dọc 720x1280. Mỗi file đều có track âm thanh.
Benchmark của chúng tôi thiên về tính thực dụng, không phải bảng xếp hạng. Mỗi video được đánh giá theo sáu tiêu chí production:
- Bám prompt: Clip có làm theo chỉ dẫn cốt lõi không?
- Kiểm soát chuyển động: Hành động chính có đọc được mà không bị jitter hoặc vỡ hình không?
- Nhất quán chủ thể: Sản phẩm, người hoặc vật thể có giữ được hình dạng không?
- Ổn định camera: Đường camera được chỉ định có sạch và ổn định không?
- Sẵn sàng âm thanh: Prompt có cho mô hình manh mối âm thanh dùng được không?
- Khả dụng trong production: Clip có thể dùng trong blog, bản nháp quảng cáo, pitch hoặc tutorial prompt mà không làm người đọc bối rối không?
Các quy tắc này được viết như heuristic dùng được trên nhiều mô hình, vì phần lớn trình tạo video AI hiện nay có cùng điểm yếu: drift theo thời gian, motion mơ hồ, đường camera không ổn định và chỉ dẫn chủ thể cạnh tranh nhau.
Để hiểu thêm về các mô hình, bạn có thể đọc đánh giá Seedance 2.0, so sánh HappyHorse 1.0 vs Seedance 2.0 và đánh giá Kling O3 cùng Kling 3.0. Nếu muốn biến thử nghiệm prompt thành workflow sản xuất có thể lặp lại, hướng dẫn AI video API giải thích cách tự động hóa text-to-video và image-to-video.
Tip 1: Prompt dài hơn không tạo output tốt hơn
Prompt dài có thể tạo cảm giác an toàn vì có vẻ cung cấp nhiều chi tiết hơn. Nhưng trong thực tế, prompt video AI dài thường làm loãng chỉ dẫn chính. Câu đầu tiên mang nhiều quyền kiểm soát nhất, trong khi các chi tiết sau đó có thể trở thành gợi ý yếu và cạnh tranh nhau.
Lỗi thường gặp: nghĩ rằng prompt 200 từ sẽ kiểm soát tốt hơn
Prompt xấu:
Video prompt: Một chai nước hoa sang trọng trong studio thanh lịch, ánh sáng đẹp, phản chiếu cinematic, vẻ ngoài quảng cáo premium, chất liệu đắt tiền, hạt bụi mềm, chuyển động mượt, không khí tinh tế, high quality, texture tinh xảo, chuyển động camera dramatic, storytelling cảm xúc, năng lượng thương hiệu xa xỉ, kính chân thực, chất lỏng vàng, highlight lấp lánh, slow motion, bóng đổ thanh lịch, perfect composition, no distortion, no flicker, no bad anatomy, no messy background, no extra objects, video chuyên nghiệp, phong cách quảng cáo viral.
Prompt này trông chi tiết, nhưng phần lớn chi tiết lại chung chung hoặc trùng lặp. Mô hình phải chọn giữa chuyển động sản phẩm, ánh sáng, phong cách, phản chiếu, hạt bụi, nhãn chất lượng và cách diễn đạt phủ định. Chỉ dẫn chính bị chôn mất.
Vì sao thất bại
Mô hình video xử lý văn bản như một chuỗi chỉ dẫn. Hành động chính xuất hiện càng sớm và càng rõ, mô hình càng dễ giữ nó xuyên suốt thời gian. Điều này đặc biệt quan trọng với clip dài hơn, vì coherence theo thời gian vốn đã khó. Nghiên cứu của OpenAI về Sora cũng ghi nhận rằng mô hình video vẫn gặp thách thức với vật lý chính xác và quan hệ nhân quả, nên việc thêm chỉ dẫn yếu sau ý chính không tự động tạo thêm kiểm soát.
Cách sửa prompt
Dùng cấu trúc 50-80 từ:
Câu 1: chủ thể + hành động + địa điểm.
Câu 2: camera + phong cách.
Câu 3: ràng buộc.
Prompt tốt hơn:
Video prompt: Một chai nước hoa thủy tinh trong suốt đứng trên đá cẩm thạch đen khi ánh rim light ấm xuyên qua chất lỏng vàng. Chai thực hiện một showcase turn rất nhỏ, chỉ đủ để lộ nhẹ cạnh bên, rồi trở về vị trí hero ở giữa. Macro push-in chậm từ độ cao nhãn đến nắp, ánh sáng sản phẩm studio sang trọng, bụi vàng mềm phía sau chai. Kết thúc ở khung sản phẩm ổn định và căn giữa, không text overlay, không vật thể thừa. Audio: chuyển động kính rất nhẹ, room tone studio mềm.
Test prompt thực tế
Thiết lập test: tạo video trên PixVerse với cùng một thiết lập cơ bản cho cả bảy case. Cài đặt tạo: 5 giây, độ phân giải 720p, tỷ lệ 16:9, bật âm thanh cho chuyển động kính nhẹ và room tone studio. Điều test kiểm tra: prompt gọn có giữ được nhận dạng sản phẩm, chuyển động tiết chế, ánh sáng và kiểm soát camera mà không chôn hành động chính hay không.
Trong test quảng cáo sản phẩm này, prompt sạch hoạt động vì giữ hành động chính dễ theo dõi: chai sản phẩm thực hiện chuyển động showcase tiết chế trong khi camera push vào trong setup thương mại có kiểm soát. Chai vẫn ở giữa, chất lỏng vàng đọc được qua kính và backlight ấm tạo cảm giác premium mà không cần danh sách tính từ dài.
Bài học chính: ngắn không có nghĩa là mơ hồ. Một prompt gọn với chủ thể rõ, một hành động tiết chế, một chuyển động camera và vài ràng buộc thường tốt hơn prompt dài đầy sở thích rời rạc.
Tip 2: “Cinematic” gần như vô dụng
“Cinematic” là một trong những từ phổ biến nhất trong prompt video AI, nhưng quá rộng để kiểm soát đáng tin cậy. Nó có thể nghĩa là bóng tối phim kinh dị, ánh vàng lãng mạn, hiện thực tài liệu, sương sci-fi hoặc nhiều kiểu film look không liên quan.
Lỗi thường gặp: dùng “cinematic” như công tắc chất lượng
Prompt xấu:
Video prompt: Một thám tử nghỉ hưu đi qua con hẻm mưa vào ban đêm. Cinematic, professional, dramatic, movie quality.
Prompt này đưa ra mood, nhưng không đưa ra look cụ thể. Output có thể tối, sáng, noir, handheld, bóng bẩy, thô hoặc ở giữa.
Vì sao thất bại
Dữ liệu huấn luyện kết nối các từ rộng như “cinematic” với nhiều phân phối hình ảnh khác nhau. Mô hình không biết bạn muốn nhánh nào của “cinematic” nếu bạn không gọi tên ngôn ngữ thị giác thật: setup ánh sáng, cảm giác ống kính, bố cục, đường camera, bảng màu hoặc cue kiểu đạo diễn. Nghiên cứu Runway Gen-3 Alpha cũng nhấn mạnh caption video mô tả, nhắc rằng ngôn ngữ thị giác cụ thể tốt hơn nhãn mơ hồ.
Cách sửa prompt
Thay “cinematic” bằng một cue thị giác hẹp:
Bố cục kiểu đạo diễn, setup ánh sáng, hành vi ống kính, tỷ lệ khung hình hoặc bảng màu.
Prompt tốt hơn:
Video prompt: Một thám tử nghỉ hưu mặc áo khoác dài tối màu đi qua con hẻm ướt mưa vào ban đêm. Push-in chậm từ wide shot đến medium close-up, neon đỏ và xanh phản chiếu trên đá lát ướt, phối cảnh một điểm dọc con hẻm, flare anamorphic 2.39:1 từ biển neon thực, khói thuốc băng qua mặt ông. Audio: mưa trên mặt đường, tiếng xe xa, tiếng hum neon mềm.
Test prompt thực tế
Thiết lập test: tạo video trên PixVerse với cùng một thiết lập cơ bản cho cả bảy case. Cài đặt tạo: 5 giây, 720p, 16:9, bật âm thanh cho mưa và ambience đô thị. Điều test kiểm tra: ngôn ngữ điện ảnh cụ thể có tạo bầu không khí ổn định hơn từ “cinematic” chung chung không.
Test con hẻm mưa hoạt động vì prompt gọi tên các yếu tố film nhìn thấy được: đá lát ướt, phản chiếu neon, phối cảnh một điểm, push-in chậm và ánh sáng noir. Thám tử vẫn là điểm neo thị giác, trong khi chiều sâu con hẻm, mặt đất ướt và biển đỏ-xanh tạo mood. Clip có cảm giác filmic vì prompt mô tả shot nên trông như thế nào, không phải vì dựa vào từ “cinematic.”
Tip 3: Xếp chồng chuyển động camera gây jitter
Mô hình video AI có thể theo chuyển động camera, nhưng dễ kiểm soát hơn khi chuyển động có một hướng chính. Xếp nhiều cue camera thường tạo jitter, drift hoặc transition ngoài ý muốn.
Lỗi thường gặp: kết hợp nhiều hướng camera
Prompt xấu:
Video prompt: Một đoàn tàu từ tính thu nhỏ đi qua thành phố terrarium bằng kính. Camera push in, pan left, orbit quanh tàu, tilt up qua các tháp rêu và thêm handheld shake.
Nghe như một camera move thật trong phim, nhưng với tạo video nó tạo quá nhiều vector không gian. Mô hình có thể cố thực hiện theo thứ tự hoặc trộn chúng thành chuyển động bất ổn.
Vì sao thất bại
Chuyển động camera mang tính không gian. Push-in, pan, orbit, tilt và handheld shake mô tả các vector khác nhau. Khi xếp nhiều vector, mô hình phải quyết định cái nào chiếm ưu thế và khi nào chuyển. Kết quả có thể là rung lắc thấy rõ tại điểm chuyển.
Cách sửa prompt
Dùng một chuyển động camera chính cộng một cue texture:
Chuyển động chính: push-in chậm.
Texture: cảm giác handheld nhẹ.
Prompt tốt hơn:
Video prompt: Một đoàn tàu từ tính thu nhỏ lướt qua thành phố terrarium bằng kính trên bàn thí nghiệm, đi qua các tháp rêu, cửa sổ nhỏ và giọt ngưng tụ trên tường kính. Camera: một lateral tracking move mượt duy nhất song song với tàu, chỉ có handheld texture nhẹ. Giữ tàu ở trung tâm khi nền trượt qua. Audio: tiếng hum điện mềm, rung đường ray nhỏ, giọt nước trên kính, room tone mờ.
Test prompt thực tế
Thiết lập test: tạo video trên PixVerse với cùng một thiết lập cơ bản cho cả bảy case. Cài đặt tạo: 5 giây, 720p, 16:9, bật âm thanh. Điều test kiểm tra: một lateral tracking duy nhất có giữ được chủ thể nhỏ dễ đọc trong khi nền tạo chuyển động không.
Case này hữu ích vì cảnh có nhiều nguồn dễ gây hỗn loạn camera: phản chiếu kính, tòa nhà nhỏ, ngưng tụ, tàu chuyển động và tỉ lệ macro. Prompt tốt hơn chỉ cho mô hình một vector camera, rồi dùng nền chuyển động để tạo năng lượng thị giác. Khi review, hãy kiểm tra tàu có ở giữa không, phản chiếu kính có ổn định không và sound design có hỗ trợ cảm giác thu nhỏ không.
Clip tạo ra là một trong những minh họa rõ nhất của nhóm. Tàu vẫn đọc được ở phần dưới khung hình, trong khi thành phố terrarium phủ rêu tạo parallax và chiều sâu. Vì prompt dùng một lateral tracking thay vì xếp push, pan, orbit và tilt, cảnh có chuyển động mà camera không tự chống lại chính nó.
Tip 4: Không có negative prompt thật trong ô prompt thường
Nhiều creator mang thói quen Stable Diffusion vào video prompting và viết danh sách như “negative: jitter, bent limbs, flicker, deformation.” Trong phần lớn trình tạo video AI, nếu không có ô negative prompt riêng, đây không phải negative prompt thật. Nó chỉ là thêm chữ.
Lỗi thường gặp: viết chỉ dẫn “negative” trong prompt
Prompt xấu:
Video prompt: Một thợ đồng hồ sửa một khối lập phương cơ khí lơ lửng dưới đèn bàn. Negative: jitter, bad hands, bent fingers, flicker, deformation, broken gears, unstable lighting.
Điều này có thể làm output tệ hơn vì mô hình vẫn đọc các từ “jitter”, “bent fingers” và “deformation.” Thay vì chặn các khái niệm đó, prompt có thể đưa thêm liên tưởng nhiễu.
Vì sao thất bại
Trừ khi giao diện có ô negative prompt riêng, toàn bộ chữ trong prompt thường được xử lý như chỉ dẫn tích cực. Mô hình không tự hiểu “negative:” là loại trừ cứng. Nếu muốn ổn định, hãy nêu trực tiếp trạng thái ổn định mong muốn.
Cách sửa prompt
Dùng câu ràng buộc tích cực:
Khuôn mặt giữ ổn định.
Tay chân chuyển động tự nhiên.
Ánh sáng giữ nhất quán, không flicker.
Tỷ lệ cơ thể giữ nhất quán xuyên suốt.
Prompt tốt hơn:
Video prompt: Một thợ đồng hồ dùng nhíp đồng đặt một bánh răng trong suốt vào khối lập phương cơ khí nhỏ đang lơ lửng dưới đèn bàn ấm. Camera từ tay push chậm đến khối lập phương. Tay chuyển động tự nhiên, cạnh bánh răng giữ sắc nét, khối lập phương ở giữa, ánh đèn ấm giữ nhất quán không flicker. Audio: tiếng click nhíp đồng, tiếng tick bánh răng nhỏ, room tone xưởng yên tĩnh.
Test prompt thực tế
Thiết lập test: tạo video trên PixVerse với cùng một thiết lập cơ bản cho cả bảy case. Cài đặt tạo: 5 giây, 720p, 16:9, bật âm thanh cho tiếng cơ khí nhỏ và room tone xưởng. Điều test kiểm tra: độ ổn định của tay, độ rõ cạnh vật thể, độ nhất quán ánh sáng và liệu ràng buộc tích cực có giảm artifact thấy được không.
Case này làm vấn đề negative prompt trở nên rõ ràng vì tay, bánh răng nhỏ, cạnh trong suốt và ánh sáng ấm đều dễ sinh artifact. Prompt tốt hơn không liệt kê điều không được xảy ra, mà nêu trạng thái mong muốn: tay tự nhiên, cạnh bánh răng sắc, khối lập phương ở giữa và ánh đèn ổn định. Khi review, hãy so sánh xem các ràng buộc có làm khối lập phương dễ kiểm tra hơn theo từng frame không.
Output cho người xem một điểm quan sát sạch: nhíp, khối lập phương trong suốt và chi tiết bánh răng vẫn tách biệt dưới đèn. Bàn tay đủ gần để tạo áp lực cho mô hình, nhưng ràng buộc tích cực làm hành vi mục tiêu rõ ràng. Điều này hữu ích hơn một danh sách negative vô tình lặp lại “deformation” hoặc “bad hands.”
Tip 5: Từ “fast” làm giảm chất lượng output
“Fast” có vẻ hữu ích khi bạn muốn tốc độ, nhưng thường đẩy mô hình video vào chuyển động không ổn định. Vấn đề tệ hơn khi prompt đã có hành động phức tạp, chuyển động camera, hạt hiệu ứng hoặc nhiều chủ thể.
Lỗi thường gặp: yêu cầu mọi thứ đều nhanh
Prompt xấu:
Video prompt: Một longboarder đi fast xuống đường núi, fast camera, quick turns, fast motion blur, dynamic speed, intense action, rapid movement.
Prompt này tạo nhiều yếu tố tốc độ cao cạnh tranh nhau. Mô hình phải di chuyển chủ thể, camera, hiệu ứng và timing cảnh cùng lúc, có thể tạo jitter và vỡ hình.
Vì sao thất bại
Tốc độ không chỉ là phong cách. Nó là yêu cầu theo thời gian. Khi nhiều yếu tố tăng tốc cùng lúc, mô hình phải giữ giải phẫu, hình dạng vật thể, đường camera, coherence nền và timing hiệu ứng dưới áp lực chuyển động cao hơn. Thay vì viết “fast”, hãy mô tả dấu hiệu vật lý khiến tốc độ nhìn thấy được.
Cách sửa prompt
Thay “fast” bằng chi tiết chuyển động vật lý:
Bàn chân chạm đất mạnh.
Mỗi bước vươn hết.
Cánh tay vung ở góc 90 độ.
Motion blur đến từ nền, không phải mặt.
Prompt tốt hơn:
Video prompt: Một longboarder downhill nghiêng vào khúc cua đường núi ướt mưa, gối nén thấp, tay sau lơ lửng cách nhựa đường vài inch. Mỗi bánh xe bắn một lớp nước mỏng ra ngoài khi phản quang ven đường kéo thành vệt nền mềm. Camera giữ thấp cạnh board trong một tracking shot ổn định. Mũ bảo hiểm và áo khoác giữ ổn định. Audio: tiếng bánh xe hum, tiếng rít đường ướt, áp lực gió, một board carve.
Test prompt thực tế
Thiết lập test: tạo video trên PixVerse với cùng một thiết lập cơ bản cho cả bảy case. Cài đặt tạo: 5 giây, 720p, 16:9, bật âm thanh. Điều test kiểm tra: ngôn ngữ chuyển động vật lý có tạo cảm giác tốc độ mà không làm mô hình quá tải không.
Case này tránh từ “fast” nhưng vẫn làm tốc độ nhìn thấy được. Board nghiêng, gối nén, bánh xe bắn nước và phản quang nền kéo thành vệt. Khi review, hãy xem longboarder có ổn định về giải phẫu không, camera có thấp và ổn định không, âm thanh bánh xe và nhựa đường ướt có tạo tốc độ mà không gây vỡ hình không.
Kết quả truyền đạt tốc độ bằng bằng chứng vật lý, không phải bằng từ “fast.” Vị trí camera thấp, phản chiếu đường ướt, tư thế nén và nước bắn khiến đoạn downhill có vẻ nhanh nhưng cơ thể và board vẫn đọc được. Đây là trọng tâm của tip: tốc độ dễ kiểm soát hơn khi được viết như quan hệ nguyên nhân-kết quả.
Tip 6: Mô tả lại ảnh tham chiếu gây drift chủ thể
Prompt image-to-video không nên lặp lại mọi thứ đã thấy trong ảnh tải lên. Nếu ảnh đã cho thấy một túi xách đen có cấu trúc dưới spotlight, và prompt lại mô tả cùng chiếc túi bằng từ hơi khác, mô hình nhận hai đầu vào cho cùng một chủ thể: ảnh và văn bản. Khác biệt nhỏ giữa chúng có thể gây drift.
Lỗi thường gặp: mô tả lại ảnh tham chiếu
Prompt xấu cho image-to-video:
Video prompt: Một túi da đen với quai cong, khóa bạc, thân có cấu trúc, các panel may và nền studio tối nằm dưới spotlight dramatic.
Nếu các chi tiết đó đã có trong ảnh, prompt có thể mời mô hình diễn giải lại chúng. Output có thể đổi silhouette vật thể, thay vật liệu, di chuyển chi tiết trang trí hoặc thay nền.
Vì sao thất bại
Ảnh tham chiếu đã là một chỉ dẫn thị giác mạnh. Mô tả lại chủ thể nhìn thấy được tạo kênh chỉ dẫn thứ hai có thể không khớp hoàn toàn với pixel. Để giữ identity, hãy dùng prompt cho phần ảnh không thể thể hiện: chuyển động và hành vi camera.
Cách sửa prompt
Với image-to-video, hãy giữ prompt ở ba nhiệm vụ: chỉ dẫn chuyển động, chỉ dẫn camera và một quy tắc nhất quán.
Prompt tốt hơn:
Video prompt: Giữ nguyên hoàn toàn vật thể tham chiếu. Chỉ thêm camera push-in nhẹ từ framing hiện tại trong khi một highlight hẹp đi chậm qua bề mặt nhìn thấy. Giữ chính xác silhouette, vật liệu, chi tiết trang trí, nền, hướng ánh sáng và bố cục của ảnh tham chiếu. Audio: tone showroom mềm, cộng hưởng kính rất nhẹ, tiếng vải cọ tinh tế.
Test prompt thực tế
Thiết lập test: tạo video trên PixVerse với cùng một thiết lập cơ bản cho cả bảy case. Cài đặt tạo: 5 giây, 720p, tỷ lệ 9:16, image-to-video với âm thanh cho tiếng vật liệu tinh tế và room tone. Điều test kiểm tra: prompt dựa trên tham chiếu có giữ identity sản phẩm trong khi thêm chuyển động camera và ánh sáng không.
Case này chỉ hiệu quả nếu ảnh tham chiếu đã định nghĩa vật thể. Prompt cố ý tránh mô tả lại màu, hình dạng, vật liệu hoặc chi tiết trang trí, và tránh yêu cầu mô hình phát minh cơ chế ẩn hoặc phần bên trong không thấy được. Khi review, hãy kiểm tra túi có giữ cùng silhouette, vị trí khóa, hình dáng quai, texture da và nền studio tối không, trong khi camera và highlight tạo chuyển động. Nếu mô hình thay đổi vật thể, prompt có thể vẫn đang cạnh tranh với ảnh tham chiếu.
Clip tạo ra cố ý tiết chế. Điều này phù hợp với tip: sản phẩm vẫn là hero, spotlight giữ ngôn ngữ thị giác gần với tham chiếu, và chuyển động chỉ giới hạn ở push-in kiểu trưng bày thay vì biến đổi. Với video sản phẩm dựa trên tham chiếu, sự ổn định có vẻ nhàm chán thường đáng giá hơn chuyển động tham vọng.
Tip 7: Từ chất lượng chung không làm gì cả
Các từ như “amazing”, “beautiful”, “high quality”, “epic” và “professional” rất phổ biến trong prompt video AI, nhưng hiếm khi cho kiểm soát đáng tin cậy. Chúng là nhãn tần suất cao, kết nối với quá nhiều loại output.
Lỗi thường gặp: nhồi prompt bằng tính từ chất lượng
Prompt xấu:
Video prompt: Một cảnh lễ hội amazing, beautiful, epic với high quality visuals, stunning motion, professional lighting và perfect composition.
Prompt này nói với mô hình rằng output nên tốt, nhưng không nói “tốt” trong cảnh này nghĩa là gì.
Vì sao thất bại
Từ chất lượng chung lấy mẫu từ phân phối rất rộng. “Epic” có thể nghĩa là phong cảnh rộng, trận chiến, bầu trời phát sáng, quy mô lớn, nhạc nặng, slow motion hoặc giáp fantasy. Mô hình không thể suy ra ý định chính xác nếu bạn không thay tính từ bằng thứ gì đó nhìn thấy được và cụ thể.
Cách sửa prompt
Thay mọi tính từ chung bằng một cue nhìn thấy được:
Bố cục kiểu đạo diễn.
Setup ánh sáng.
Thông số ống kính.
Bảng màu.
Hành vi vật liệu.
Prompt tốt hơn:
Video prompt: Lễ hội diều ban đêm diễn ra trên cánh đồng muối trắng phủ một lớp nước mỏng như gương. Ba con diều trong suốt hình sinh vật biển sâu lơ lửng phía trên, các xương sườn phát quang xanh lam-xanh lục nhịp dưới lớp vải. Low-angle slow push-in từ phản chiếu ngang mắt cá chân đến đuôi con diều gần nhất, cảm giác lens rộng 24mm, tương phản cyan-magenta, đèn lồng dọc đường chân trời. Audio: vải phấp phới, dây căng rung, bước chân trong nước nông, tiếng đám đông xa.
Test prompt thực tế
Thiết lập test: tạo video trên PixVerse với cùng một thiết lập cơ bản cho cả bảy case. Cài đặt tạo: 5 giây, 720p, 16:9, bật âm thanh cho vải, bước chân và ambience đám đông. Điều test kiểm tra: cue thị giác cụ thể có tạo tính nhất quán phong cách mạnh hơn các từ chất lượng chung không.
Case này thay mọi từ chất lượng chung bằng thứ nhìn thấy được: phản chiếu cánh đồng muối, diều hình sinh vật trong suốt, xương sườn phát quang, camera thấp, cảm giác wide-lens, tương phản cyan-magenta và đèn lồng ở đường chân trời. Khi review, hãy xem mô hình có giữ identity thị giác lạ này không hay drift thành cảnh lễ hội chung.
Output giữ ý tưởng quan trọng nhất: diều trong suốt hình sinh vật biển sâu với xương sườn xanh lam-xanh lục phát sáng. Góc camera trông cao hơn framing ngang mắt cá chân trong prompt, nên độ bám camera chưa hoàn hảo. Dù vậy, identity thị giác vẫn mạnh hơn nhiều so với prompt chỉ nói “beautiful epic festival”, chứng minh giá trị của danh từ cụ thể, cue ánh sáng và quan hệ màu.
Bad Case 1: Prompt chất lượng mơ hồ
Prompt xấu:
Video prompt: Tạo một cool cinematic AI video về thành phố tương lai. Làm nó beautiful, realistic, dramatic, high quality và viral.
Sai ở đâu
Prompt này vi phạm Tip 2 và Tip 7. Nó dựa vào “cinematic”, “beautiful”, “dramatic” và “high quality” nhưng không gọi tên một shot cụ thể. Không có chủ thể, hành động, đường camera, timeline hay frame cuối.
Prompt đã sửa
Video prompt: Một reveal thành phố tương lai trong 6 giây. Camera lướt thấp trên con phố ướt mưa với biển hologram xanh phản chiếu trên mặt đường. Một drone giao hàng bay sát ống kính rồi vút lên về phía tháp kính. Smooth forward tracking, bảng màu xanh lạnh, ánh sáng ấm ở lối vào tháp, mưa nhẹ, giao thông xa, một drone pass-by.
Bad Case 2: Prompt tốc độ quá tải
Prompt xấu:
Video prompt: Một longboarder lao fast xuống đường núi, né xe, nhảy qua cây đổ, trượt qua tia lửa, cut sang drone shot, cut sang wheel close-up, cut sang phản chiếu mũ bảo hiểm, rồi kết thúc với logo và pháo hoa, tất cả trong 5 giây, fast camera, perfect sound.
Sai ở đâu
Prompt này vi phạm Tip 1, Tip 3, Tip 4 và Tip 5. Nó quá dài, xếp chồng hành động, thêm loại trừ giả bằng cách diễn đạt quá tải và dùng “fast” trên quá nhiều yếu tố chuyển động. Mô hình có thể tạo năng lượng, nhưng không thể hoàn tất cảnh sạch.
Prompt đã sửa
Video prompt: Một longboarder downhill nghiêng vào khúc cua đường núi ướt mưa, gối nén thấp, tay sau lơ lửng cách nhựa đường vài inch. Mỗi bánh xe bắn một lớp nước mỏng ra ngoài khi phản quang ven đường kéo thành vệt nền mềm. Camera giữ thấp cạnh board trong một tracking shot ổn định. Mũ bảo hiểm và áo khoác giữ ổn định. Audio: tiếng bánh xe hum, tiếng rít đường ướt, áp lực gió, một board carve.
Mẫu prompt video AI có thể copy ngay
Dùng cấu trúc này cho lần thử đầu tiên rõ ràng:
Video prompt: [Chủ thể] + [một hành động] + [địa điểm]. [Một chuyển động camera] + [phong cách, ống kính, ánh sáng hoặc bố cục cụ thể]. [Ràng buộc tích cực: điều gì phải giữ ổn định, điều gì nên vắng mặt và có cần âm thanh không].
Ví dụ:
Video prompt: Một tách cà phê gốm nằm trên bàn gỗ tối khi hơi nước bốc lên thành các vòng chậm. Macro push-in chậm, ánh tungsten bên hông ấm, độ sâu trường ảnh nông, nền quán cà phê buổi sáng yên tĩnh. Hình dạng tách giữ ổn định, không có text overlay, audio gồm room tone mềm và tiếng thìa chạm nhẹ.
Kết luận
Prompt video AI tốt hơn không phải là prompt dài hơn. Chúng rõ hơn. Đặt chủ thể, hành động và địa điểm lên trước. Thay “cinematic” và các từ chất lượng chung bằng cue thị giác cụ thể. Dùng một chuyển động camera. Tránh negative prompt giả. Thay “fast” bằng chi tiết chuyển động vật lý. Với image-to-video, đừng mô tả lại ảnh tham chiếu.
Những cách sửa này hiệu quả trên phần lớn trình tạo video AI hiện nay vì chúng nhắm vào các điểm yếu chung: drift theo thời gian, sampling phong cách mơ hồ, camera jitter, thiếu nhất quán chủ thể và chuyển động quá tải. PixVerse hữu ích ở đây vì creator có thể so sánh cùng một prompt trên Seedance 2.0, HappyHorse 1.0, PixVerse V6, PixVerse C1, Kling O3 và Kling 3.0 mà không phải dựng lại workflow trong nhiều công cụ.
FAQ
Prompt video AI tốt là gì?
Prompt video AI tốt cho mô hình một shot rõ: chủ thể, hành động, địa điểm, một chuyển động camera, cue phong cách nhìn thấy được và vài ràng buộc tích cực. “Chai nước hoa thủy tinh trên đá cẩm thạch đen, showcase turn nhỏ, rim light ấm, phản chiếu ổn định” mạnh hơn “cinematic luxury product video.”
Prompt video AI nên dài bao nhiêu?
Với nhiều prompt text-to-video, 50 đến 80 từ là điểm khởi đầu hữu ích. Đặt chủ thể, hành động và địa điểm trước, rồi thêm camera, ánh sáng, chi tiết chuyển động và âm thanh. Nếu câu đầu mơ hồ, thêm nhiều chữ thường tạo ít kiểm soát hơn.
Vì sao “cinematic” không hoạt động tốt trong prompt video AI?
“Cinematic” quá rộng với prompt trình tạo video AI. Hãy dùng ngôn ngữ điện ảnh nhìn thấy được, như “35mm handheld feel”, “rainy alley with neon reflections”, “slow dolly-in”, “hard backlight” hoặc “warm practical lights in the background.”
Trình tạo video AI có hỗ trợ negative prompts không?
Một số công cụ có ô negative prompt riêng, nhưng ô prompt video thông thường thường đọc mọi chữ như chỉ dẫn. Thay vì liệt kê lỗi, hãy viết ràng buộc tích cực: “hands remain natural”, “camera stays steady”, “background remains empty” hoặc “product silhouette stays intact.”
Làm sao viết prompt image-to-video mà không đổi chủ thể?
Với image-to-video, đừng mô tả lại ảnh đã tải lên. Dùng prompt cho chuyển động, hành vi camera, thay đổi ánh sáng, âm thanh và quy tắc ổn định: “Giữ vật thể tham chiếu intact. Thêm push-in nhẹ. Giữ silhouette, vật liệu, nền và bố cục.”
Nên dùng trình tạo video AI nào để test prompt?
Bài viết này giữ một thiết lập tạo video PixVerse nhất quán trong cả bảy bài test. Các tip prompt video AI tương tự áp dụng cho phần lớn trình tạo hiện nay vì chúng nhắm vào các vấn đề chung: sampling phong cách mơ hồ, drift theo thời gian, camera jitter, chuyển động quá tải và thiếu nhất quán ảnh tham chiếu.
Ví dụ prompt video AI nào hữu ích để test?
Ví dụ hữu ích nên test từng kỹ năng một: xoay sản phẩm để test độ chính xác chuyển động, con hẻm mưa để test kiểm soát phong cách, một tracking shot để test ổn định camera, và prompt vật thể tham chiếu để test nhất quán chủ thể. Đánh giá kết quả qua độ bám prompt, kiểm soát chuyển động, coherence theo thời gian, âm thanh và khả năng dùng trong sản xuất.