AI Video Prompt Guide: 7 getestete Fixes für bessere Videos
Lernen Sie sieben AI-Video-Prompt-Fixes mit Beispielen, PixVerse-Prompt-Tests und modellübergreifenden Regeln für Text-to-Video und Image-to-Video.
Die meisten Fehler bei AI-Video-Prompts entstehen nicht durch fehlende Vorstellungskraft. Sie entstehen durch Gewohnheiten, die bei Bildgenerierung funktioniert haben, aber scheitern, sobald ein Modell Bewegung, Timing, Kameraführung, Motivkonsistenz und manchmal auch Audio im selben Clip erzeugen muss.
Dieser AI Video Prompt Guide konzentriert sich auf sieben praktische Fixes für moderne Videogenerierung. Die Tipps sind für Modelle gedacht, die Creator heute auf PixVerse vergleichen können, darunter Seedance 2.0, HappyHorse 1.0, PixVerse V6, PixVerse C1, Kling O3 und Kling 3.0. Sie gelten auch für die meisten anderen AI Video Generatoren, weil die Schwachstellen ähnlich sind: überladene Prompts, vage Stilwörter, widersprüchliche Kamerabewegungen, falsche negative Prompts, Speed-Wörter mit Jitter-Risiko, Drift bei Referenzbildern und generische Qualitätsadjektive.
Das Ziel ist nicht, jeden Prompt kürzer oder technischer zu machen. Das Ziel ist, dass jede Anweisung ihren Platz verdient. Ein starker Video-Prompt nennt zuerst das Wichtigste, gibt eine klare Bewegungsbahn vor, schützt die Motivkonsistenz und nutzt konkrete visuelle Sprache statt breiter Geschmackswörter.
So haben wir diese AI Video Prompts getestet
Für diesen Artikel haben wir alle sieben Prompt-Fälle in PixVerse mit demselben Basis-Setup für die Videogenerierung getestet und bei jedem Clip Audio aktiviert. Ziel ist nicht ein modellgebundener Trick, sondern der Vergleich der Prompt-Struktur bei konsistentem Testumfeld. Die Quellvideos sind jeweils etwa 5 Sekunden lang; sechs Clips nutzen 1280x720 im Querformat, der Referenzbild-Fall nutzt 720x1280 im Hochformat. Jede Datei enthält eine Audiospur.
Unser Benchmark ist praxisnah und nicht leaderboard-getrieben. Wir haben jedes Video nach sechs Produktionskriterien geprüft:
- Prompt-Treue: Folgt der Clip der Kernanweisung?
- Bewegungskontrolle: Ist die Hauptaktion ohne Jitter oder visuellen Kollaps lesbar?
- Motivkonsistenz: Behalten Produkte, Personen oder Objekte ihre Form?
- Kamerastabilität: Bleibt der angegebene Kamerapfad sauber?
- Audio-Readiness: Gibt der Prompt dem Modell nutzbare Sound-Hinweise?
- Produktionsnutzen: Könnte der Clip in Blog, Anzeigenentwurf, Pitch oder Prompt-Tutorial funktionieren, ohne Leser zu verwirren?
Diese Regeln sind als modellübergreifende Heuristiken formuliert, weil die meisten aktuellen AI-Video-Generatoren ähnliche Druckpunkte teilen: zeitlichen Drift, mehrdeutige Bewegung, instabile Kamerapfade und konkurrierende Motiv-Anweisungen.
Für mehr Kontext zu den getesteten Modellen lesen Sie unseren Seedance 2.0 Review, den Vergleich HappyHorse 1.0 vs Seedance 2.0 und den Kling O3 und Kling 3.0 Review. Wenn Sie Prompt-Tests in einen wiederholbaren Produktionsworkflow überführen möchten, erklärt der AI Video API Guide Automatisierungspfade für Text-to-Video und Image-to-Video.
Tip 1: Längere Prompts erzeugen nicht automatisch bessere Videos
Ein längerer Prompt kann sicherer wirken, weil er mehr Details zu enthalten scheint. In der Praxis verwässern lange AI-Video-Prompts oft die Hauptanweisung. Der erste Satz trägt am meisten Kontrolle, während spätere Details zu schwachen Vorschlägen werden können, die miteinander konkurrieren.
Häufiger Fehler: Einen 200-Wörter-Prompt für kontrollierter halten
Schlechter Prompt:
Video prompt: Eine luxuriöse Parfümflasche in einem eleganten Studio, schönes Licht, cinematografische Reflexionen, Premium-Commercial-Look, teure Materialien, weiche Partikel, glatte Bewegung, raffinierte Atmosphäre, hohe Qualität, feine Textur, dramatische Kamerabewegung, emotionales Storytelling, Luxusmarken-Energie, realistisches Glas, goldene Flüssigkeit, funkelnde Highlights, Slow Motion, elegante Schatten, perfekte Komposition, keine Verzerrung, kein Flackern, keine schlechte Anatomie, kein unordentlicher Hintergrund, keine zusätzlichen Objekte, professionelles Video, viraler Anzeigenstil.
Dieser Prompt sieht detailliert aus, aber die meisten Details sind generisch oder redundant. Das Modell muss zwischen Produktbewegung, Licht, Stil, Reflexionen, Partikeln, Qualitätslabels und negativen Formulierungen wählen. Die Kernanweisung wird begraben.
Warum das scheitert
Videomodelle verarbeiten Text als Sequenz von Anweisungen. Je früher und klarer die Kernaktion erscheint, desto leichter kann das Modell sie über die Zeit bewahren. Das ist besonders bei längeren Clips wichtig, weil zeitliche Kohärenz bereits anspruchsvoll ist. OpenAIs Sora-Forschung beschreibt, dass Videomodelle bei exakter Physik und Ursache-Wirkung weiterhin Herausforderungen haben. Schwache Zusatzanweisungen nach der Hauptidee schaffen daher nicht automatisch mehr Kontrolle.
Prompt-Fix
Nutzen Sie eine Struktur mit etwa 50 bis 80 Wörtern:
Satz 1: Motiv + Aktion + Ort.
Satz 2: Kamera + Stil.
Satz 3: Einschränkungen.
Besserer Prompt:
Video prompt: Eine klare Glas-Parfümflasche steht auf schwarzem Marmor, während warmes Rim Light durch goldene Flüssigkeit fällt. Die Flasche macht eine sehr kleine Showcase-Drehung, gerade genug, um eine leichte Seitenkante zu zeigen, und kehrt dann in eine zentrierte Hero-Position zurück. Langsamer Macro-Push-in von Etikettenhöhe bis zur Kappe, luxuriöses Studio-Produktlicht, weicher Goldstaub hinter der Flasche. Ende auf einem stabilen zentrierten Produktframe, keine Texteinblendung, keine zusätzlichen Objekte. Audio: subtile Glasbewegung, weicher Studio-Raumton.
Realer Prompt-Test
Testsetup: PixVerse-Videogenerierung mit demselben Basis-Setup für alle sieben Fälle. Generierung: 5 Sekunden, 720p, 16:9, Audio an für subtile Glasbewegung und Studio-Raumton. Was der Test prüft: ob ein kompakter Prompt Produktidentität, zurückhaltende Bewegung, Licht und Kamerakontrolle bewahren kann, ohne die Hauptaktion zu begraben.
In diesem Produkttest funktionierte der klare Prompt, weil die Hauptaktion leicht zu verfolgen bleibt: Eine Produktflasche zeigt eine zurückhaltende Showcase-Bewegung, während die Kamera durch ein kontrolliertes Commercial-Setup pusht. Die Flasche bleibt zentriert, die goldene Flüssigkeit ist durch das Glas lesbar und das warme Gegenlicht erzeugt Premium-Stimmung ohne lange Adjektivliste.
Die wichtigste Lektion: Kurz heißt nicht vage. Ein kompakter Prompt mit klarem Motiv, einer zurückhaltenden Aktion, einer Kamerabewegung und wenigen Einschränkungen schlägt oft einen langen Prompt voller verstreuter Wünsche.
Tip 2: “Cinematic” ist fast nutzlos
“Cinematic” ist eines der häufigsten Wörter in AI-Video-Prompts, aber für zuverlässige Kontrolle ist es zu breit. Es kann Horror-Schatten, romantisches Goldlicht, dokumentarischen Realismus, Sci-Fi-Dunst oder viele andere Filmlooks bedeuten.
Häufiger Fehler: “Cinematic” als Qualitätsschalter nutzen
Schlechter Prompt:
Video prompt: Ein pensionierter Detektiv läuft nachts durch eine verregnete Gasse. Cinematic, professional, dramatic, movie quality.
Das gibt dem Modell eine Stimmung, aber keinen konkreten Look. Das Ergebnis kann dunkel, hell, noir, handheld, glänzend, grob oder irgendetwas dazwischen sein.
Warum das scheitert
Trainingsdaten verbinden breite Wörter wie “cinematic” mit vielen visuellen Verteilungen. Das Modell weiß nicht, welchen Zweig Sie meinen, wenn Sie nicht die eigentliche visuelle Sprache nennen: Lichtsetup, Linsengefühl, Komposition, Kamerapfad, Farbpalette oder eine erkennbare Regie-Anmutung. Runways Gen-3-Alpha-Forschung betont ebenfalls beschreibende Video-Captions. Das erinnert daran, dass konkrete visuelle Sprache stärker ist als vage Labels.
Prompt-Fix
Ersetzen Sie “cinematic” durch einen engen visuellen Hinweis:
Regieartige Komposition, Lichtsetup, Linsenverhalten, Seitenverhältnis oder Farbpalette.
Besserer Prompt:
Video prompt: Ein pensionierter Detektiv in einem langen dunklen Mantel läuft nachts durch eine regennasse Gasse. Langsamer Push-in von Totale zu mittlerer Nahaufnahme, rote und blaue Neonreflexe auf nassen Pflastersteinen, Ein-Punkt-Perspektive in die Gasse, anamorpher 2.39:1 Lens Flare von praktischen Neonschildern, Zigarettenrauch zieht über sein Gesicht. Audio: Regen auf Pflaster, entfernter Verkehr, leises Neonbrummen.
Realer Prompt-Test
Testsetup: PixVerse-Videogenerierung mit demselben Basis-Setup für alle sieben Fälle. Generierung: 5 Sekunden, 720p, 16:9, Audio an für Regen und Stadtatmosphäre. Was der Test prüft: ob konkrete Filmsprache eine stabilere Atmosphäre schafft als das generische Wort “cinematic.”
Der regennasse Gassentest funktionierte, weil der Prompt sichtbare Filmelemente nannte: regennasse Pflastersteine, Neonreflexe, Ein-Punkt-Perspektive, langsamer Push-in und Noir-Licht. Der Detektiv bleibt der visuelle Anker, während Tiefe, nasser Boden und rot-blaue Schilder die Stimmung erzeugen. Der Clip wirkt filmisch, weil der Prompt beschreibt, wie die Einstellung aussehen soll, nicht weil er sich auf “cinematic” stützt.
Tip 3: Gestapelte Kamerabewegungen erzeugen Jitter
AI-Videomodelle können Kamerabewegungen folgen, sind aber leichter zu kontrollieren, wenn die Bewegung eine Hauptrichtung hat. Mehrere Kamera-Cues führen oft zu Jitter, Drift oder ungewollten Übergängen.
Häufiger Fehler: Mehrere Kamerarichtungen kombinieren
Schlechter Prompt:
Video prompt: Ein magnetischer Miniaturzug fährt durch eine Glas-Terrarium-Stadt. Die Kamera pusht hinein, schwenkt nach links, umkreist den Zug, tiltet durch die Moostürme nach oben und fügt Handheld-Shake hinzu.
Das klingt wie eine echte Filmbewegung, erzeugt für die Generierung aber zu viele räumliche Vektoren. Das Modell kann versuchen, sie nacheinander auszuführen, oder sie in instabile Bewegung mischen.
Warum das scheitert
Kamerabewegung ist räumlich. Push-in, Pan, Orbit, Tilt und Handheld-Shake beschreiben jeweils andere Bewegungsvektoren. Werden mehrere gestapelt, muss das Modell entscheiden, welcher dominiert und wann gewechselt wird. Das Ergebnis kann ein sichtbares Wackeln am Übergangspunkt sein.
Prompt-Fix
Nutzen Sie eine Hauptbewegung plus einen Texturhinweis:
Hauptbewegung: langsamer Push-in.
Textur: leichte Handheld-Anmutung.
Besserer Prompt:
Video prompt: Ein magnetischer Miniaturzug gleitet durch eine Glas-Terrarium-Stadt auf einem Labortisch, vorbei an Moostürmen, winzigen Fenstern und Kondensperlen auf den Glaswänden. Kamera: eine einzige glatte laterale Tracking-Bewegung parallel zum Zug, nur leichte Handheld-Textur. Den Zug zentriert halten, während der Hintergrund vorbeigleitet. Audio: leises elektrisches Brummen, kleine Schienenvibration, Wassertropfen auf Glas, gedämpfter Raumton.
Realer Prompt-Test
Testsetup: PixVerse-Videogenerierung mit demselben Basis-Setup für alle sieben Fälle. Generierung: 5 Sekunden, 720p, 16:9, Audio an. Was der Test prüft: ob eine einzige laterale Tracking-Bewegung ein kleines Motiv lesbar hält, während der Hintergrund Bewegung erzeugt.
Dieser Fall ist nützlich, weil die Szene viele verführerische Quellen für Kamera-Chaos enthält: Glasreflexe, winzige Gebäude, Kondensation, einen bewegten Zug und Makro-Maßstab. Der bessere Prompt gibt dem Modell nur einen Kameravektor und nutzt den bewegten Hintergrund für visuelle Energie. Prüfen Sie, ob der Zug zentriert bleibt, die Glasreflexe stabil bleiben und das Sounddesign die Miniaturgröße unterstützt.
Der generierte Clip ist eine der klarsten Demonstrationen im Test. Der Zug bleibt unten im Frame lesbar, während die moosige Terrarium-Stadt Parallaxe und Tiefe erzeugt. Da der Prompt nur eine laterale Tracking-Bewegung nutzt und nicht Push, Pan, Orbit und Tilt stapelt, hat die Szene Bewegung, ohne dass die Kamera mit sich selbst kämpft.
Tip 4: Es gibt keine negative Prompts im normalen Promptfeld
Viele Creator übernehmen Stable-Diffusion-Gewohnheiten in Video-Prompts und schreiben Listen wie “negative: jitter, bent limbs, flicker, deformation.” In den meisten AI Video Generatoren ist das ohne eigenes Negative-Prompt-Feld kein echter negative Prompt. Es ist nur mehr Text.
Häufiger Fehler: “Negative” Anweisungen in den Prompt schreiben
Schlechter Prompt:
Video prompt: Ein Uhrmacher repariert unter einer Schreibtischlampe einen schwebenden Uhrwerkswürfel. Negative: jitter, bad hands, bent fingers, flicker, deformation, broken gears, unstable lighting.
Das kann das Ergebnis verschlechtern, weil das Modell die Wörter “jitter”, “bent fingers” und “deformation” weiterhin liest. Statt diese Konzepte zu blockieren, kann der Prompt störende Assoziationen einführen.
Warum das scheitert
Wenn die Oberfläche kein eigenes Negative-Prompt-Feld anbietet, wird der gesamte Prompttext meist als positive Anweisung behandelt. Das Modell versteht “negative:” nicht automatisch als harte Ausschlussregel. Wenn Sie Stabilität wollen, beschreiben Sie den gewünschten stabilen Zustand direkt.
Prompt-Fix
Nutzen Sie positive Einschränkungen:
Das Gesicht bleibt stabil.
Gliedmaßen bewegen sich natürlich.
Das Licht bleibt konsistent und flackert nicht.
Körperproportionen bleiben durchgehend konsistent.
Besserer Prompt:
Video prompt: Ein Uhrmacher setzt mit Messingpinzetten ein transparentes Zahnrad in einen winzigen schwebenden Uhrwerkswürfel unter einer warmen Schreibtischlampe. Die Kamera pusht langsam von den Händen zum Würfel. Die Hände bewegen sich natürlich, die Zahnradkanten bleiben scharf, der Würfel bleibt zentriert und das warme Lampenlicht bleibt konsistent ohne Flackern. Audio: Klick der Messingpinzetten, kleines Zahnradticken, ruhiger Werkstatt-Raumton.
Realer Prompt-Test
Testsetup: PixVerse-Videogenerierung mit demselben Basis-Setup für alle sieben Fälle. Generierung: 5 Sekunden, 720p, 16:9, Audio an für kleine mechanische Sounds und Werkstatt-Raumton. Was der Test prüft: Handstabilität, Kantenklarheit, Lichtkonsistenz und ob positive Einschränkungen sichtbare Artefakte reduzieren.
Dieser Fall macht das Negative-Prompt-Problem deutlich, weil Hände, kleine Zahnräder, transparente Kanten und warmes Licht artefaktanfällig sind. Der bessere Prompt listet nicht auf, was nicht passieren soll, sondern nennt den gewünschten Zustand: natürliche Hände, scharfe Zahnradkanten, zentrierter Würfel und stabiles Lampenlicht. Prüfen Sie, ob diese Einschränkungen den Würfel frameweise leichter inspizierbar machen.
Der Output bietet einen klaren Inspektionspunkt: Pinzetten, transparenter Würfel und Zahnraddetail bleiben unter der Lampe getrennt sichtbar. Die Hand ist nah genug, um das Modell zu fordern, aber die positiven Einschränkungen machen das Zielverhalten klar. Das ist nützlicher als eine negative Liste, die Wörter wie “deformation” oder “bad hands” wiederholt.
Tip 5: Das Wort “fast” verschlechtert die Qualität
“Fast” wirkt nützlich, wenn Sie Geschwindigkeit wollen, treibt Videomodelle aber oft zu instabiler Bewegung. Das Problem wird größer, wenn der Prompt bereits komplexe Aktion, Kamerabewegung, Partikel oder mehrere Motive enthält.
Häufiger Fehler: Alles soll schnell sein
Schlechter Prompt:
Video prompt: Ein Longboarder fährt fast eine Bergstraße hinunter, fast camera, quick turns, fast motion blur, dynamic speed, intense action, rapid movement.
Das erzeugt mehrere konkurrierende Hochgeschwindigkeitselemente. Das Modell muss Motiv, Kamera, Effekte und Timing gleichzeitig bewegen, was Jitter und visuellen Zusammenbruch auslösen kann.
Warum das scheitert
Geschwindigkeit ist nicht nur Stil. Sie ist eine zeitliche Anforderung. Wenn mehrere Elemente gleichzeitig beschleunigen, muss das Modell Anatomie, Objektform, Kamerapfad, Hintergrundkohärenz und Effekttiming unter höherem Bewegungsdruck bewahren. Schreiben Sie statt “fast” die physischen Zeichen, die Geschwindigkeit sichtbar machen.
Prompt-Fix
Ersetzen Sie “fast” durch physische Bewegungsdetails:
Füße treffen den Boden kraftvoll.
Jeder Schritt streckt sich vollständig.
Arme schwingen im 90-Grad-Winkel.
Motion Blur kommt aus dem Hintergrund, nicht aus dem Gesicht.
Besserer Prompt:
Video prompt: Ein Downhill-Longboarder lehnt sich in eine regennasse Bergstraßenkurve, Knie komprimiert, hintere Hand wenige Zentimeter über dem Asphalt. Jedes Rad wirft einen dünnen Sprühfilm Wasser nach außen, während Straßenreflektoren zu weichen Hintergrundspuren werden. Die Kamera bleibt tief neben dem Board in einem stabilen Tracking-Shot. Helm und Jacke bleiben stabil. Audio: Radbrummen, nasser Straßenhiss, Winddruck, ein Board-Carve.
Realer Prompt-Test
Testsetup: PixVerse-Videogenerierung mit demselben Basis-Setup für alle sieben Fälle. Generierung: 5 Sekunden, 720p, 16:9, Audio an. Was der Test prüft: ob physische Bewegungssprache Geschwindigkeit erzeugt, ohne das Modell zu überladen.
Dieser Fall vermeidet das Wort “fast” und macht Geschwindigkeit trotzdem sichtbar. Das Board neigt sich, die Knie komprimieren, die Räder sprühen Wasser und die Reflektoren ziehen Bewegungsspuren. Prüfen Sie, ob der Longboarder anatomisch stabil bleibt, die Kamera niedrig und ruhig bleibt und der Sound von Rädern und nassem Asphalt Geschwindigkeit erzeugt, ohne visuell zu kollabieren.
Das Ergebnis vermittelt Geschwindigkeit durch physische Belege statt durch das Wort “fast.” Niedrige Kamera, nasse Straßenreflexe, komprimierte Haltung und Wasserspray lassen die Abfahrt schnell wirken, während Körper und Board lesbar bleiben. Genau darum geht es: Geschwindigkeit ist kontrollierbarer, wenn sie als Ursache und Wirkung beschrieben wird.
Tip 6: Referenzbilder erneut zu beschreiben verursacht Drift
Image-to-Video-Prompts sollten nicht alles wiederholen, was im hochgeladenen Bild bereits sichtbar ist. Wenn das Bild bereits eine strukturierte schwarze Handtasche im Spotlight zeigt und der Prompt dieselbe Tasche mit leicht anderen Worten beschreibt, erhält das Modell zwei Eingaben für dasselbe Motiv: Bild und Text. Kleine Abweichungen können Drift verursachen.
Häufiger Fehler: Das Referenzbild noch einmal beschreiben
Schlechter Prompt für Image-to-Video:
Video prompt: Eine schwarze Ledertasche mit gebogenem Griff, silberner Schließe, strukturierter Form, genähten Paneelen und dunklem Studiohintergrund steht unter einem dramatischen Spotlight.
Wenn diese Details bereits im Bild sind, kann der Prompt das Modell einladen, sie neu zu interpretieren. Der Output kann Silhouette, Material, dekorative Details oder Hintergrund verändern.
Warum das scheitert
Ein Referenzbild ist bereits eine starke visuelle Anweisung. Das sichtbare Motiv erneut zu beschreiben, erzeugt einen zweiten Anweisungskanal, der nicht perfekt zu den Pixeln passen muss. Um Identität zu bewahren, nutzen Sie den Prompt für das, was das Bild nicht zeigen kann: Bewegung und Kameraverhalten.
Prompt-Fix
Für Image-to-Video sollte der Prompt nur drei Aufgaben erfüllen:
Bewegungsanweisung, Kameraanweisung und eine Konsistenzregel.
Besserer Prompt:
Video prompt: Das Referenzobjekt vollständig intakt halten. Nur einen sanften Kamera-Push-in aus dem aktuellen Framing hinzufügen, während ein schmaler Lichtstreifen langsam über die sichtbare Oberfläche wandert. Exakte Silhouette, Materialien, dekorative Details, Hintergrund, Lichtrichtung und Komposition des Referenzbilds bewahren. Audio: weicher Showroom-Ton, schwache Glasresonanz, subtile Stoffreibung.
Realer Prompt-Test
Testsetup: PixVerse-Videogenerierung mit demselben Basis-Setup für alle sieben Fälle. Generierung: 5 Sekunden, 720p, 9:16, Image-to-Video mit Audio an für subtile Materialgeräusche und Raumton. Was der Test prüft: ob ein referenzgesteuerter Prompt Produktidentität bewahrt, während Kamera- und Lichtbewegung hinzugefügt werden.
Dieser Fall funktioniert nur, wenn das Referenzbild das Objekt bereits definiert. Der Prompt vermeidet es, Farbe, Form, Material oder dekorative Details erneut zu beschreiben, und fordert das Modell nicht auf, versteckte Mechanik oder unsichtbare Innenteile zu erfinden. Prüfen Sie, ob die Handtasche Silhouette, Schließenposition, Griffform, Ledertextur und dunklen Studiohintergrund behält, während Kamera und Highlight Bewegung erzeugen. Wenn das Modell das Objekt verändert, konkurriert der Prompt vermutlich noch mit dem Referenzbild.
Der generierte Clip ist absichtlich zurückhaltend. Das passt zu diesem Tip: Das Produkt bleibt der Held, das Spotlight hält die visuelle Sprache nahe an der Referenz und die Bewegung beschränkt sich auf einen Display-Push-in statt auf eine Transformation. Bei referenzbasierten Produktvideos ist langweilige Stabilität oft wertvoller als ambitionierte Bewegung.
Tip 7: Generische Qualitätswörter bewirken nichts
Wörter wie “amazing”, “beautiful”, “high quality”, “epic” und “professional” sind in AI-Video-Prompts häufig, geben aber selten zuverlässige Kontrolle. Es sind hochfrequente Labels, die mit zu vielen Output-Arten verbunden sind.
Häufiger Fehler: Den Prompt mit Qualitätsadjektiven füllen
Schlechter Prompt:
Video prompt: Eine amazing, beautiful, epic Festivalszene mit high quality visuals, stunning motion, professional lighting und perfect composition.
Dieser Prompt sagt dem Modell, dass der Output gut sein soll, aber nicht, was “gut” in dieser Szene bedeutet.
Warum das scheitert
Generische Qualitätswörter sampeln breite Verteilungen. “Epic” kann weite Landschaft, Schlacht, leuchtenden Himmel, großen Maßstab, schwere Musik, Slow Motion oder Fantasy-Rüstung bedeuten. Das Modell kann Ihre genaue Absicht nicht ableiten, wenn Sie das Adjektiv nicht durch etwas Sichtbares und Spezifisches ersetzen.
Prompt-Fix
Ersetzen Sie jedes generische Adjektiv durch einen benannten sichtbaren Hinweis:
Regieartige Komposition.
Lichtsetup.
Linsenspezifikation.
Farbpalette.
Materialverhalten.
Besserer Prompt:
Video prompt: Ein nächtliches Drachenfestival entfaltet sich auf einer weißen Salzfläche, die von einer dünnen Wasserspiegelung bedeckt ist. Drei transparente Drachen in Form von Tiefseewesen schweben darüber, blaugrüne biolumineszente Rippen pulsieren unter dem Stoff. Niedriger langsamer Push-in von knöchelhohen Reflexionen zum nächsten Drachenschwanz, 24mm-Weitwinkelgefühl, Cyan-Magenta-Kontrast, Laternen am Horizont. Audio: flatternder Stoff, gespannte Schnurvibration, Schritte im flachen Wasser, entferntes Publikumsraunen.
Realer Prompt-Test
Testsetup: PixVerse-Videogenerierung mit demselben Basis-Setup für alle sieben Fälle. Generierung: 5 Sekunden, 720p, 16:9, Audio an für Stoff, Schritte und Publikum. Was der Test prüft: ob spezifische visuelle Hinweise stärkere Stilkonstanz erzeugen als generische Qualitätswörter.
Dieser Fall ersetzt jedes generische Qualitätswort durch etwas Sichtbares: Salzflächenreflexe, transparente Kreaturendrachen, biolumineszente Rippen, niedrige Kamerahöhe, Weitwinkelgefühl, Cyan-Magenta-Kontrast und Horizontlaternen. Prüfen Sie, ob das Modell diese ungewöhnliche visuelle Identität bewahrt, statt in eine generische Festivalszene abzudriften.
Der Output bewahrt die wichtigste Idee: transparente Tiefsee-Kreaturendrachen mit blaugrün leuchtenden Rippen. Der Kamerawinkel wirkt höher als das knöchelhohe Framing im Prompt, daher ist die Kameratreue nicht perfekt. Trotzdem ist die visuelle Identität deutlich stärker als bei einem Prompt, der nur “beautiful epic festival” sagt. Das zeigt den Wert konkreter Nomen, Licht-Hinweise und Farbbeziehungen.
Bad Case 1: Der vage Qualitäts-Prompt
Schlechter Prompt:
Video prompt: Erstelle ein cool cinematic AI video über eine futuristische Stadt. Mach es beautiful, realistic, dramatic, high quality und viral.
Was falsch ist
Dieser Prompt verletzt Tip 2 und Tip 7. Er hängt von “cinematic”, “beautiful”, “dramatic” und “high quality” ab, ohne eine konkrete Einstellung zu benennen. Es gibt kein Motiv, keine Aktion, keinen Kamerapfad, keine Timeline und keinen finalen Frame.
Korrigierter Prompt
Video prompt: Eine 6-sekündige futuristische Stadtenthüllung. Die Kamera gleitet niedrig über eine regennasse Straße, blaue holografische Schilder spiegeln sich im Asphalt. Eine Lieferdrohne fliegt nah an der Linse vorbei und steigt zu einem Glasturm auf. Glattes Vorwärts-Tracking, kühle blaue Palette, warmes Licht am Turmeingang, weicher Regen, entfernter Verkehr, ein Drohnenvorbeiflug.
Bad Case 2: Der überladene Speed-Prompt
Schlechter Prompt:
Video prompt: Ein Longboarder rast fast eine Bergstraße hinunter, weicht Verkehr aus, springt über einen umgestürzten Baum, slidet durch Funken, Cut zu Drohne, Cut zu Rad-Close-up, Cut zu Helmreflexion, endet dann mit Logo und Feuerwerk, alles in 5 Sekunden, fast camera, perfect sound.
Was falsch ist
Dieser Prompt verletzt Tip 1, Tip 3, Tip 4 und Tip 5. Er ist zu lang, stapelt Aktionen, fügt durch überladene Formulierungen falsche Ausschlüsse hinzu und nutzt “fast” für zu viele bewegte Elemente. Das Modell kann Energie erzeugen, aber die Szene nicht sauber abschließen.
Korrigierter Prompt
Video prompt: Ein Downhill-Longboarder lehnt sich in eine regennasse Bergstraßenkurve, Knie komprimiert, hintere Hand wenige Zentimeter über dem Asphalt. Jedes Rad wirft einen dünnen Sprühfilm Wasser nach außen, während Straßenreflektoren zu weichen Hintergrundspuren werden. Die Kamera bleibt tief neben dem Board in einem stabilen Tracking-Shot. Helm und Jacke bleiben stabil. Audio: Radbrummen, nasser Straßenhiss, Winddruck, ein Board-Carve.
Copy-Ready AI Video Prompt Template
Nutzen Sie diese Struktur für einen sauberen ersten Versuch:
Video prompt: [Motiv] + [eine Aktion] + [Ort]. [Eine Kamerabewegung] + [konkreter Stil, Linse, Licht oder Komposition]. [Positive Einschränkungen: was stabil bleiben muss, was fehlen soll und ob Audio gebraucht wird].
Beispiel:
Video prompt: Eine Keramiktasse steht auf einem dunklen Holztisch, während Dampf langsam aufsteigt. Langsamer Macro-Push-in, warmes Tungsten-Seitenlicht, geringe Tiefenschärfe, ruhiger Morgen-Café-Hintergrund. Die Tassenform bleibt stabil, keine Texteinblendung, Audio enthält weichen Raumton und leises Löffelklingen.
Schlussfolgerung
Bessere AI-Video-Prompts sind nicht länger. Sie sind klarer. Stellen Sie Motiv, Aktion und Ort nach vorn. Ersetzen Sie “cinematic” und generische Qualitätswörter durch spezifische visuelle Hinweise. Nutzen Sie eine Kamerabewegung. Vermeiden Sie falsche negative Prompts. Ersetzen Sie “fast” durch physische Bewegungsdetails. Für Image-to-Video sollten Sie das Referenzbild nicht erneut beschreiben.
Diese Fixes funktionieren bei den meisten aktuellen AI Video Generatoren, weil sie gemeinsame Schwächen adressieren: zeitlichen Drift, vages Stil-Sampling, Kamera-Jitter, Motivinkonsistenz und überladene Bewegung. PixVerse ist hier nützlich, weil Creator denselben Prompt über Seedance 2.0, HappyHorse 1.0, PixVerse V6, PixVerse C1, Kling O3 und Kling 3.0 vergleichen können, ohne den Workflow in getrennten Tools neu aufzubauen.
FAQ
Was ist ein guter AI Video Prompt?
Ein guter AI Video Prompt gibt dem Modell eine klare Einstellung: Motiv, Aktion, Ort, eine Kamerabewegung, sichtbare Stilhinweise und wenige positive Einschränkungen. “Glas-Parfümflasche auf schwarzem Marmor, kleine Showcase-Drehung, warmes Rim Light, stabile Reflexion” ist stärker als “cinematic luxury product video.”
Wie lang sollte ein AI Video Prompt sein?
Für viele Text-to-Video-Prompts sind 50 bis 80 Wörter ein guter Ausgangspunkt. Schreiben Sie Motiv, Aktion und Ort zuerst, dann Kamera, Licht, Bewegungsdetails und Audio. Wenn der erste Satz vage ist, erzeugen mehr Wörter meist weniger Kontrolle.
Warum funktioniert “cinematic” in AI Video Prompts nicht gut?
“Cinematic” ist für AI-Video-Generator-Prompts zu breit. Nutzen Sie sichtbare Filmsprache wie “35mm handheld feel”, “rainy alley with neon reflections”, “slow dolly-in”, “hard backlight” oder “warm practical lights in the background.”
Unterstützen AI Video Generatoren negative Prompts?
Manche Tools haben ein eigenes Negative-Prompt-Feld, aber ein normales Video-Prompt-Feld liest meist den gesamten Text als Anweisung. Listen Sie keine Fehler auf, sondern schreiben Sie positive Einschränkungen: “hands remain natural”, “camera stays steady”, “background remains empty” oder “product silhouette stays intact.”
Wie schreibe ich einen Image-to-Video-Prompt, ohne das Motiv zu verändern?
Beschreiben Sie bei Image-to-Video das hochgeladene Bild nicht erneut. Nutzen Sie den Prompt für Bewegung, Kamera, Lichtänderungen, Audio und Stabilitätsregeln: “Das Referenzobjekt intakt halten. Einen sanften Push-in hinzufügen. Silhouette, Material, Hintergrund und Komposition bewahren.”
Welchen AI Video Generator sollte ich zum Testen von Prompts nutzen?
Dieser Artikel hielt ein PixVerse-Generierungssetup über alle sieben Tests hinweg konstant. Dieselben AI-Video-Prompt-Tipps gelten für die meisten aktuellen Generatoren, weil sie gemeinsame Probleme adressieren: vages Stil-Sampling, zeitlichen Drift, Kamera-Jitter, überladene Bewegung und Inkonsistenz bei Referenzbildern.
Welche AI Video Prompt Beispiele eignen sich zum Testen?
Nützliche Beispiele testen jeweils eine Fähigkeit: eine Produktdrehung für Bewegungspräzision, eine regnerische Gasse für Stilkontrolle, ein einzelner Tracking-Shot für Kamerastabilität und ein Referenzobjekt-Prompt für Motivkonsistenz. Bewerten Sie Prompt-Adhärenz, Bewegungskontrolle, zeitliche Kohärenz, Audio und Produktionsnutzen.