Guía de prompts para video con IA: 7 mejoras probadas

Aprende siete mejoras para prompts de video con IA con ejemplos, pruebas de prompts en PixVerse y reglas aplicables a la mayoría de modelos.

PixVerse Research • 30 de junio de 2026

Guía de prompts para video con IA: 7 mejoras probadas

La mayoría de los fallos en un prompt de video con IA no vienen de falta de imaginación. Vienen de hábitos que funcionaban en generación de imágenes, pero se rompen cuando el modelo tiene que generar movimiento, timing, cámara, consistencia del sujeto y, a veces, audio en el mismo clip.

Esta guía de prompts para video con IA se centra en siete correcciones prácticas para la generación de video actual. Están pensadas para los modelos que los creadores pueden comparar en PixVerse, como Seedance 2.0, HappyHorse 1.0, PixVerse V6, PixVerse C1, Kling O3 y Kling 3.0. También se aplican a la mayoría de generadores de video IA porque los puntos débiles son compartidos: prompts sobrecargados, etiquetas de estilo vagas, movimientos de cámara en conflicto, falsos negative prompts, palabras de velocidad que causan jitter, deriva de imagen de referencia y adjetivos genéricos de calidad.

El objetivo no es hacer todos los prompts más cortos ni más técnicos. El objetivo es que cada instrucción se gane su lugar. Un buen prompt de video dice primero qué importa, da una ruta de movimiento limpia, protege la consistencia del sujeto y usa lenguaje visual concreto en lugar de palabras amplias de gusto.

Probar prompts de video IA en PixVerse

Cómo probamos estos prompts de video IA

Para este artículo, generamos los siete casos en PixVerse con la misma configuración base de generación de video y con audio activado en todos los clips. El objetivo no es promover un truco específico de un modelo, sino aislar la estructura del prompt manteniendo constante el entorno de prueba. Los videos fuente duran unos 5 segundos; seis clips usan salida horizontal 1280x720, mientras que el caso con imagen de referencia usa salida vertical 720x1280. Cada archivo incluye una pista de audio.

Nuestro benchmark es práctico, no de ranking. Revisamos cada video con seis criterios de producción:

Adherencia al prompt: ¿El clip sigue la instrucción central?
Control de movimiento: ¿La acción principal se lee sin jitter ni colapso visual?
Consistencia del sujeto: ¿Productos, personas u objetos mantienen su forma?
Estabilidad de cámara: ¿La ruta de cámara especificada se mantiene limpia?
Preparación de audio: ¿El prompt da al modelo pistas sonoras útiles?
Utilidad de producción: ¿El clip podría funcionar en un blog, borrador de anuncio, pitch o tutorial de prompts sin confundir al lector?

Estas reglas están escritas como heurísticas cross-model porque la mayoría de generadores de video IA actuales comparten los mismos puntos de presión: deriva temporal, movimiento ambiguo, rutas de cámara inestables e instrucciones de sujeto que compiten entre sí.

Para más contexto sobre los modelos, consulta nuestra reseña de Seedance 2.0, la comparación HappyHorse 1.0 vs Seedance 2.0 y la reseña de Kling O3 y Kling 3.0. Si quieres convertir las pruebas de prompts en un flujo repetible, la guía de API de video IA explica rutas de automatización para texto a video e imagen a video.

Tip 1: Los prompts más largos no producen mejores resultados

Un prompt largo puede parecer más seguro porque parece aportar más detalle. En la práctica, los prompts largos de video con IA suelen diluir la instrucción principal. La primera frase tiene más control, mientras que los detalles posteriores pueden convertirse en sugerencias débiles que compiten entre sí.

Error común: tratar un prompt de 200 palabras como más controlado

Prompt incorrecto:

Prompt de video: Una botella de perfume de lujo en un estudio elegante, iluminación hermosa, reflejos cinematográficos, look comercial premium, materiales caros, partículas suaves, movimiento fluido, atmósfera refinada, alta calidad, textura delicada, un movimiento de cámara dramático, storytelling emocional, energía de marca de lujo, vidrio realista, líquido dorado, brillos resplandecientes, cámara lenta, sombras elegantes, composición perfecta, sin distorsión, sin parpadeo, sin mala anatomía, sin fondo desordenado, sin objetos extra, video profesional, estilo de anuncio viral.

Este prompt parece detallado, pero la mayoría de los detalles son genéricos o redundantes. El modelo tiene que elegir entre movimiento del producto, iluminación, estilo, reflejos, partículas, etiquetas de calidad y frases negativas. La instrucción central queda enterrada.

Por qué falla

Los modelos de video procesan el texto como una secuencia de instrucciones. Cuanto antes y más clara sea la acción central, más fácil es conservarla a lo largo del tiempo. Esto importa especialmente en clips largos, donde la coherencia temporal ya exige mucho del modelo. La investigación de OpenAI sobre Sora señala que los modelos de video aún tienen retos con física exacta y relaciones causa-efecto, así que añadir instrucciones débiles después de la idea principal no crea automáticamente más control.

Corrección del prompt

Usa una estructura de 50 a 80 palabras:

Frase 1: sujeto + acción + ubicación.
Frase 2: cámara + estilo.
Frase 3: restricciones.

Mejor prompt:

Prompt de video: Una botella de perfume de vidrio transparente está sobre mármol negro mientras una luz de borde cálida atraviesa el líquido dorado. La botella hace un giro de exhibición muy pequeño, apenas lo suficiente para revelar un borde lateral, y vuelve a una posición hero centrada. Push-in macro lento desde la altura de la etiqueta hasta la tapa, iluminación de producto de estudio de lujo, polvo dorado suave detrás de la botella. Termina en un encuadre de producto centrado y estable, sin texto superpuesto, sin objetos extra. Audio: movimiento sutil de vidrio, tono suave de estudio.

Prueba real del prompt

Configuración de prueba: generación de video en PixVerse con la misma configuración base para los siete casos. Configuración de generación: 5 segundos, resolución 720p, relación 16:9, audio activado para movimiento sutil de vidrio y tono de estudio. Qué comprueba esta prueba: si un prompt compacto puede conservar identidad de producto, movimiento contenido, iluminación y control de cámara sin enterrar la acción principal.

En esta prueba comercial de producto, el prompt limpio funcionó porque mantuvo la acción principal fácil de seguir: una botella realiza un movimiento de exhibición contenido mientras la cámara avanza dentro de una puesta comercial controlada. La botella permanece centrada, el líquido dorado se lee a través del vidrio y la luz trasera cálida crea una atmósfera premium sin necesitar una lista larga de adjetivos.

La lección clave: corto no significa vago. Un prompt compacto con sujeto claro, una acción contenida, un movimiento de cámara y pocas restricciones suele superar a un prompt largo lleno de preferencias dispersas.

Tip 2: “Cinematic” casi no sirve

“Cinematic” es una de las palabras más comunes en prompts de video con IA, pero es demasiado amplia para ser fiable. Puede significar sombras de terror, luz dorada romántica, realismo documental, neblina sci-fi o muchos looks de cine sin relación entre sí.

Error común: usar “cinematic” como interruptor de calidad

Prompt incorrecto:

Prompt de video: Un detective retirado camina por un callejón lluvioso de noche. Cinematic, professional, dramatic, movie quality.

Esto da un mood, pero no un look específico. La salida puede ser oscura, brillante, noir, handheld, pulida, áspera o algo intermedio.

Por qué falla

Los datos de entrenamiento conectan palabras amplias como “cinematic” con muchas distribuciones visuales. El modelo no sabe qué rama de “cinematic” quieres salvo que nombres el lenguaje visual real: iluminación, sensación de lente, composición, ruta de cámara, paleta o una referencia de dirección reconocible. La investigación de Runway Gen-3 Alpha también destaca captions de video descriptivos, un recordatorio útil de que el lenguaje visual concreto supera a las etiquetas vagas.

Corrección del prompt

Sustituye “cinematic” por una pista visual estrecha:

Composición tipo director, esquema de iluminación, comportamiento de lente, relación de aspecto o paleta de color.

Mejor prompt:

Prompt de video: Un detective retirado con un abrigo largo oscuro camina por un callejón empapado de lluvia de noche. Push-in lento de plano abierto a primer plano medio, neones rojos y azules reflejados sobre adoquines mojados, perspectiva de un punto hacia el fondo del callejón, flare anamórfico 2.39:1 de letreros de neón reales, humo de cigarrillo cruzando su rostro. Audio: lluvia sobre el pavimento, tráfico lejano, zumbido suave de neón.

Prueba real del prompt

Configuración de prueba: generación de video en PixVerse con la misma configuración base para los siete casos. Configuración de generación: 5 segundos, resolución 720p, relación 16:9, audio activado para lluvia y ambiente urbano. Qué comprueba esta prueba: si el lenguaje cinematográfico específico crea una atmósfera más estable que la palabra genérica “cinematic.”

La prueba del callejón funcionó porque el prompt nombró elementos visibles: adoquines mojados, reflejos de neón, perspectiva de un punto, push-in lento e iluminación noir. El detective sigue siendo el ancla visual mientras la profundidad del callejón, el suelo mojado y los letreros rojo-azules crean el mood. El clip se siente fílmico porque el prompt describe cómo debe verse el plano, no porque dependa de “cinematic.”

Tip 3: Apilar movimientos de cámara produce jitter

Los modelos de video IA pueden seguir movimientos de cámara, pero son más fáciles de controlar cuando el movimiento tiene una dirección principal. Apilar señales de cámara suele crear jitter, deriva o transiciones no deseadas.

Error común: combinar varias direcciones de cámara

Prompt incorrecto:

Prompt de video: Un tren magnético en miniatura viaja por una ciudad dentro de un terrario de vidrio. La cámara empuja hacia dentro, panea a la izquierda, orbita alrededor del tren, inclina hacia arriba por las torres de musgo y añade temblor handheld.

Suena como un movimiento real de cine, pero para generación crea demasiados vectores espaciales. El modelo puede intentar ejecutarlos en secuencia o mezclarlos en un movimiento inestable.

Por qué falla

El movimiento de cámara es espacial. Un push-in, un paneo, una órbita, un tilt y un temblor handheld describen vectores distintos. Cuando se apilan, el modelo tiene que decidir cuál domina y cuándo cambiar. El resultado puede ser un bamboleo visible en el punto de transición.

Corrección del prompt

Usa un movimiento principal más una pista de textura:

Movimiento principal: push-in lento.
Textura: ligera sensación handheld.

Mejor prompt:

Prompt de video: Un tren magnético en miniatura se desliza por una ciudad de terrario de vidrio sobre una mesa de laboratorio, pasando torres de musgo, ventanas diminutas y gotas de condensación en las paredes de vidrio. Cámara: un único tracking lateral suave paralelo al tren, solo con ligera textura handheld. Mantén el tren centrado mientras el fondo se desliza. Audio: zumbido eléctrico suave, vibración diminuta de riel, gotas de agua en vidrio, tono de sala amortiguado.

Prueba real del prompt

Configuración de prueba: generación de video en PixVerse con la misma configuración base para los siete casos. Configuración de generación: 5 segundos, resolución 720p, relación 16:9, audio activado. Qué comprueba esta prueba: si un único tracking lateral puede mantener legible un sujeto pequeño mientras el fondo crea movimiento.

Este caso es útil porque la escena tiene muchas fuentes tentadoras de caos: reflejos de vidrio, edificios diminutos, condensación, un tren en movimiento y escala macro. El mejor prompt da al modelo un solo vector de cámara y usa el fondo móvil para crear energía visual. En la revisión, comprueba si el tren queda centrado, si los reflejos del vidrio permanecen estables y si el diseño sonoro apoya la escala miniatura.

El clip generado es una de las demostraciones más claras de la tanda. El tren permanece legible en la parte inferior del encuadre mientras la ciudad de musgo crea paralaje y profundidad. Al usar un solo tracking lateral en lugar de apilar push, pan, órbita y tilt, la escena tiene movimiento sin que la cámara luche consigo misma.

Tip 4: No hay negative prompts en el campo principal

Muchos creadores llevan hábitos de Stable Diffusion al prompting de video y escriben listas como “negative: jitter, bent limbs, flicker, deformation.” En la mayoría de generadores de video IA, si no hay un campo negativo dedicado, eso no es un negative prompt real. Es solo más texto.

Error común: escribir instrucciones “negative” dentro del prompt

Prompt incorrecto:

Prompt de video: Un relojero repara un cubo flotante de engranajes bajo una lámpara de escritorio. Negative: jitter, bad hands, bent fingers, flicker, deformation, broken gears, unstable lighting.

Esto puede empeorar el resultado porque el modelo sigue leyendo las palabras “jitter”, “bent fingers” y “deformation.” En lugar de bloquear esos conceptos, el prompt puede introducir asociaciones ruidosas.

Por qué falla

Salvo que la interfaz tenga un campo dedicado de negative prompt, todo el texto suele tratarse como instrucción positiva. El modelo no entiende automáticamente “negative:” como exclusión dura. Si quieres estabilidad, declara directamente el estado estable deseado.

Corrección del prompt

Usa restricciones positivas:

El rostro permanece estable.
Las extremidades se mueven de forma natural.
La iluminación se mantiene consistente, sin parpadeo.
Las proporciones del cuerpo permanecen consistentes.

Mejor prompt:

Prompt de video: Un relojero usa pinzas de latón para colocar un engranaje transparente dentro de un pequeño cubo flotante de mecanismo bajo una lámpara cálida. La cámara empuja lentamente desde las manos hacia el cubo. Las manos se mueven de forma natural, los bordes del engranaje permanecen nítidos, el cubo queda centrado y la luz cálida se mantiene constante sin parpadeo. Audio: clic de pinzas de latón, tic de engranaje diminuto, tono tranquilo de taller.

Prueba real del prompt

Configuración de prueba: generación de video en PixVerse con la misma configuración base para los siete casos. Configuración de generación: 5 segundos, resolución 720p, relación 16:9, audio activado para sonido mecánico pequeño y tono de taller. Qué comprueba esta prueba: estabilidad de manos, claridad de bordes, consistencia de luz y si las restricciones positivas reducen artefactos visibles.

Este caso deja claro el problema de los negative prompts porque manos, engranajes pequeños, bordes transparentes y luz cálida son propensos a artefactos. En lugar de listar lo que no debe ocurrir, el buen prompt declara el estado deseado: manos naturales, bordes nítidos, cubo centrado y luz estable. En la revisión, compara si las restricciones hacen que el cubo sea más fácil de inspeccionar fotograma a fotograma.

El resultado da un punto de inspección limpio: pinzas, cubo transparente y detalle del engranaje quedan separados bajo la lámpara. La mano está lo bastante cerca para poner presión al modelo, pero las restricciones positivas aclaran el comportamiento esperado. Eso hace el clip más útil que una lista negativa que repite “deformation” o “bad hands.”

Tip 5: La palabra “fast” degrada la calidad

“Fast” parece útil cuando quieres velocidad, pero a menudo empuja a los modelos de video hacia movimiento inestable. El problema empeora si el prompt ya incluye acción compleja, cámara, partículas o varios sujetos.

Error común: pedir que todo se mueva rápido

Prompt incorrecto:

Prompt de video: Un longboarder baja fast por una carretera de montaña, fast camera, quick turns, fast motion blur, dynamic speed, intense action, rapid movement.

Esto crea varios elementos rápidos compitiendo. El modelo tiene que mover sujeto, cámara, efectos y timing a la vez, lo que puede producir jitter y colapso visual.

Por qué falla

La velocidad no es solo estilo; es una exigencia temporal. Cuando varios elementos aceleran al mismo tiempo, el modelo debe conservar anatomía, forma del objeto, ruta de cámara, coherencia del fondo y timing de efectos bajo más presión de movimiento. En lugar de escribir “fast”, describe las señales físicas que hacen visible la velocidad.

Corrección del prompt

Sustituye “fast” por detalles físicos de movimiento:

Los pies golpean el suelo con fuerza.
Cada zancada se extiende por completo.
Los brazos se balancean a 90 grados.
El motion blur viene del fondo, no del rostro.

Mejor prompt:

Prompt de video: Un longboarder en descenso se inclina hacia una curva de carretera de montaña mojada por la lluvia, rodillas comprimidas, mano trasera flotando a pocos centímetros del asfalto. Cada rueda lanza una fina pulverización de agua hacia fuera mientras los reflectores de la carretera se estiran en trazos suaves de fondo. La cámara se mantiene baja junto a la tabla en un tracking estable. Casco y chaqueta permanecen estables. Audio: zumbido de ruedas, siseo de asfalto mojado, presión del viento, un carving de tabla.

Prueba real del prompt

Configuración de prueba: generación de video en PixVerse con la misma configuración base para los siete casos. Configuración de generación: 5 segundos, resolución 720p, relación 16:9, audio activado. Qué comprueba esta prueba: si el lenguaje físico de movimiento puede crear velocidad percibida sin sobrecargar el modelo.

Este caso evita la palabra “fast” y aun así hace visible la velocidad. La tabla se inclina, las rodillas se comprimen, las ruedas lanzan agua y los reflectores del fondo se estiran en trazos. En la revisión, mira si el longboarder se mantiene anatómicamente estable, si la cámara queda baja y firme, y si el sonido de ruedas y asfalto mojado crea velocidad sin colapso visual.

El resultado comunica velocidad mediante evidencia física, no con la palabra “fast.” La cámara baja, los reflejos de carretera mojada, la postura comprimida y el agua proyectada hacen que el descenso se sienta rápido mientras cuerpo y tabla siguen siendo legibles. Ese es el punto del tip: la velocidad se controla mejor cuando se describe como causa y efecto.

Tip 6: Volver a describir la imagen de referencia causa deriva

Los prompts de imagen a video no deben repetir todo lo que ya se ve en la imagen cargada. Si la imagen ya muestra un bolso negro estructurado bajo un foco, y el prompt describe el mismo bolso con palabras ligeramente distintas, el modelo recibe dos entradas para el mismo sujeto: la imagen y el texto. Las pequeñas diferencias pueden causar deriva.

Error común: describir otra vez la imagen de referencia

Prompt incorrecto para imagen a video:

Prompt de video: Un bolso de cuero negro con asa curva, cierre plateado, cuerpo estructurado, paneles cosidos y fondo de estudio oscuro está bajo un foco dramático.

Si esos detalles ya están en la imagen, el prompt puede invitar al modelo a reinterpretarlos. La salida puede cambiar la silueta, alterar el material, mover detalles decorativos o reemplazar el fondo.

Por qué falla

Una imagen de referencia ya es una instrucción visual fuerte. Volver a describir el sujeto visible crea un segundo canal de instrucción que puede no coincidir perfectamente con los píxeles. Para preservar identidad, usa el prompt para lo que la imagen no puede mostrar: movimiento y comportamiento de cámara.

Corrección del prompt

Para imagen a video, reduce el prompt a tres tareas: instrucción de movimiento, instrucción de cámara y una regla de consistencia.

Mejor prompt:

Prompt de video: Mantén el objeto de referencia completamente intacto. Añade solo un suave push-in desde el encuadre actual mientras un brillo estrecho se desplaza lentamente por la superficie visible. Conserva la silueta exacta, materiales, detalles decorativos, fondo, dirección de luz y composición de la imagen de referencia. Audio: tono suave de sala de exposición, resonancia leve de vidrio, roce sutil de tela.

Prueba real del prompt

Configuración de prueba: generación de video en PixVerse con la misma configuración base para los siete casos. Configuración de generación: 5 segundos, resolución 720p, relación 9:16, imagen a video con audio activado para sonido material sutil y tono de sala. Qué comprueba esta prueba: si un prompt basado en referencia puede preservar identidad de producto mientras añade movimiento de cámara y luz.

Este caso solo funciona si la imagen de referencia ya define el objeto. El prompt evita describir de nuevo color, forma, material o detalles decorativos, y evita pedir al modelo que invente mecanismos ocultos o partes interiores invisibles. En la revisión, inspecciona si el bolso conserva la silueta, posición del cierre, forma del asa, textura del cuero y fondo oscuro mientras la cámara y el brillo crean movimiento. Si el modelo cambia el objeto, el prompt probablemente sigue compitiendo con la imagen de referencia.

El clip generado es deliberadamente contenido. Eso lo hace útil para este tip: el producto sigue siendo el héroe, el foco mantiene el lenguaje visual cerca de la referencia y el movimiento se limita a un push-in de exhibición en lugar de una transformación. En video de producto guiado por referencia, una estabilidad aburrida suele valer más que un movimiento ambicioso.

Tip 7: Las palabras genéricas de calidad no hacen nada

Palabras como “amazing”, “beautiful”, “high quality”, “epic” y “professional” son comunes en prompts de video IA, pero rara vez dan control fiable. Son etiquetas de alta frecuencia conectadas a demasiadas salidas.

Error común: llenar el prompt con adjetivos de calidad

Prompt incorrecto:

Prompt de video: Una escena de festival amazing, beautiful y epic con high quality visuals, stunning motion, professional lighting y perfect composition.

Este prompt dice al modelo que la salida debe ser buena, pero no dice qué significa “buena” en esta escena.

Por qué falla

Las palabras genéricas de calidad muestrean distribuciones amplias. “Epic” puede significar un paisaje amplio, batalla, cielo brillante, gran escala, música pesada, cámara lenta o armadura de fantasía. El modelo no puede inferir tu intención exacta salvo que sustituyas el adjetivo por algo visible y específico.

Corrección del prompt

Sustituye cada adjetivo genérico por una pista visible con nombre:

Composición tipo director.
Esquema de iluminación.
Especificación de lente.
Paleta de color.
Comportamiento de material.

Mejor prompt:

Prompt de video: Un festival nocturno de cometas ocurre sobre una salina blanca cubierta por una fina lámina de agua. Tres cometas translúcidas con forma de criaturas de aguas profundas flotan arriba, con costillas bioluminiscentes azul-verdosas pulsando bajo la tela. Push-in lento en ángulo bajo desde reflejos a la altura del tobillo hasta la cola de la cometa más cercana, sensación de lente 24mm, contraste cian-magenta, faroles en el horizonte. Audio: tela ondeando, vibración de cuerda tensa, pasos en agua baja, murmullo lejano de multitud.

Prueba real del prompt

Configuración de prueba: generación de video en PixVerse con la misma configuración base para los siete casos. Configuración de generación: 5 segundos, resolución 720p, relación 16:9, audio activado para tela, pasos y ambiente de multitud. Qué comprueba esta prueba: si las pistas visuales específicas crean una consistencia de estilo más fuerte que las palabras genéricas de calidad.

Este caso sustituye cada palabra genérica de calidad por algo visible: reflejos de salina, cometas translúcidas con forma de criatura, costillas bioluminiscentes, cámara baja, sensación gran angular, contraste cian-magenta y faroles en el horizonte. En la revisión, comprueba si el modelo preserva esta identidad visual poco común en lugar de derivar hacia un festival genérico.

La salida conserva la idea más importante: cometas translúcidas de criatura marina con costillas azul-verdosas brillantes. El ángulo de cámara se lee más alto que la altura de tobillo del prompt, así que la adherencia de cámara no es perfecta. Aun así, la identidad visual es mucho más fuerte que un prompt que solo dice “beautiful epic festival”, lo que demuestra el valor de sustantivos concretos, pistas de iluminación y relaciones de color.

Bad Case 1: El prompt de calidad vaga

Prompt incorrecto:

Prompt de video: Haz un cool cinematic AI video sobre una ciudad futurista. Hazlo beautiful, realistic, dramatic, high quality y viral.

Qué está mal

Este prompt viola Tip 2 y Tip 7. Depende de “cinematic”, “beautiful”, “dramatic” y “high quality” sin nombrar un plano concreto. No hay sujeto, acción, ruta de cámara, timeline ni frame final.

Prompt corregido

Prompt de video: Revelación de ciudad futurista de 6 segundos. La cámara se desliza baja sobre una calle mojada por la lluvia con señales holográficas azules reflejadas en el pavimento. Un dron de entrega pasa cerca de la lente y sube hacia una torre de vidrio. Tracking suave hacia delante, paleta azul fría, luz cálida en la entrada de la torre, lluvia suave, tráfico lejano, un paso de dron.

Bad Case 2: El prompt de velocidad sobrecargado

Prompt incorrecto:

Prompt de video: Un longboarder baja fast por una carretera de montaña, esquiva tráfico, salta sobre un árbol caído, derrapa con chispas, corta a un plano de dron, corta a un close-up de rueda, corta a un reflejo en el casco, y termina con logo y fuegos artificiales, todo en 5 segundos, fast camera, perfect sound.

Qué está mal

Este prompt viola Tip 1, Tip 3, Tip 4 y Tip 5. Es demasiado largo, apila acciones, añade exclusiones falsas mediante frases sobrecargadas y usa “fast” en demasiados elementos móviles. El modelo puede generar energía, pero no puede terminar la escena de forma limpia.

Prompt corregido

Prompt de video: Un longboarder en descenso se inclina hacia una curva de carretera de montaña mojada por la lluvia, rodillas comprimidas, mano trasera flotando a pocos centímetros del asfalto. Cada rueda lanza una fina pulverización de agua hacia fuera mientras los reflectores de la carretera se estiran en trazos suaves de fondo. La cámara se mantiene baja junto a la tabla en un tracking estable. Casco y chaqueta permanecen estables. Audio: zumbido de ruedas, siseo de asfalto mojado, presión del viento, un carving de tabla.

Plantilla lista para copiar de prompt de video IA

Usa esta estructura para un primer intento limpio:

Prompt de video: [Sujeto] + [una acción] + [ubicación]. [Un movimiento de cámara] + [estilo, lente, iluminación o composición específicos]. [Restricciones positivas: qué debe permanecer estable, qué debe estar ausente y si se necesita audio].

Ejemplo:

Prompt de video: Una taza de cerámica está sobre una mesa de madera oscura mientras el vapor sube en rizos lentos. Push-in macro lento, luz lateral cálida de tungsteno, poca profundidad de campo, fondo tranquilo de cafetería matutina. La forma de la taza permanece estable, sin texto superpuesto, el audio incluye tono suave de sala y un leve tintineo de cuchara.

Conclusión final

Los mejores prompts de video IA no son más largos. Son más claros. Pon primero sujeto, acción y ubicación. Sustituye “cinematic” y las palabras genéricas de calidad por pistas visuales específicas. Usa un solo movimiento de cámara. Evita falsos negative prompts. Sustituye “fast” por detalles físicos de movimiento. Para imagen a video, no vuelvas a describir la imagen de referencia.

Estas correcciones funcionan en la mayoría de generadores de video IA actuales porque atacan debilidades compartidas: deriva temporal, muestreo de estilo vago, jitter de cámara, inconsistencia del sujeto y movimiento sobrecargado. PixVerse es útil aquí porque los creadores pueden comparar el mismo prompt en Seedance 2.0, HappyHorse 1.0, PixVerse V6, PixVerse C1, Kling O3 y Kling 3.0 sin reconstruir el flujo en herramientas separadas.

FAQ

¿Qué es un buen prompt de video con IA?

Un buen prompt de video IA da al modelo un plano claro: sujeto, acción, ubicación, un movimiento de cámara, pistas de estilo visibles y pocas restricciones positivas. “Botella de perfume de vidrio sobre mármol negro, pequeño giro de exhibición, luz cálida de borde, reflejo estable” es más fuerte que “cinematic luxury product video.”

¿Cuánto debe durar un prompt de video IA?

Para muchos prompts de texto a video, 50 a 80 palabras es un buen punto de partida. Pon primero sujeto, acción y ubicación; luego añade cámara, luz, movimiento y audio. Si la primera frase es vaga, más palabras suelen crear menos control.

¿Por qué “cinematic” no funciona bien en prompts de video IA?

“Cinematic” es demasiado amplio para prompts de generador de video IA. Usa lenguaje visible de cine, como “35mm handheld feel”, “rainy alley with neon reflections”, “slow dolly-in”, “hard backlight” o “warm practical lights in the background.”

¿Los generadores de video IA admiten negative prompts?

Algunas herramientas tienen un campo dedicado de negative prompt, pero el campo normal de prompt suele leer todo como instrucción. En lugar de listar fallos, escribe restricciones positivas: “hands remain natural”, “camera stays steady”, “background remains empty” o “product silhouette stays intact.”

¿Cómo escribo un prompt de imagen a video sin cambiar el sujeto?

En imagen a video, no vuelvas a describir la imagen cargada. Usa el prompt para movimiento, cámara, cambios de luz, audio y reglas de estabilidad: “Mantén intacto el objeto de referencia. Añade un push-in suave. Conserva silueta, material, fondo y composición.”

¿Qué generador de video IA debo usar para probar prompts?

Este artículo mantuvo una sola configuración de generación en PixVerse para las siete pruebas. Los mismos tips de prompts de video IA se aplican a la mayoría de generadores actuales porque atacan problemas compartidos: estilo vago, deriva temporal, jitter de cámara, movimiento sobrecargado e inconsistencia de imagen de referencia.

¿Qué ejemplos de prompts de video IA sirven para testear?

Los ejemplos útiles prueban una habilidad a la vez: un giro de producto para precisión de movimiento, un callejón lluvioso para control de estilo, un tracking único para estabilidad de cámara y un prompt con objeto de referencia para consistencia del sujeto. Evalúa adherencia, control de movimiento, coherencia temporal, audio y utilidad de producción.