Grok Imagine im Test: xAI-Video auf PixVerse (Leitfaden 2026)

Grok Imagine bringt Text-zu-Video, Bild-zu-Video, Referenz-, Extend- und Modify-Modi auf PixVerse. Erfahren Sie Funktionen, Kosten, Use Cases und den Einstieg.

Product Update
Grok Imagine im Test: xAI-Video auf PixVerse (Leitfaden 2026)

Grok Imagine ist xAIs generatives Video-Audio-Modell, das Text-Prompts und Standbilder in Videoclips mit synchronisiertem Audio umwandelt. Verfugbar auf PixVerse fur Pro- und Premium-Abonnenten bietet es jetzt sechs Generierungsmodi - Text-zu-Video, Bild-zu-Video, Referenz, Extend, Modify und eine integrierte Bearbeitungssuite - und ist damit eine der vielseitigsten Modelloptionen auf der Plattform.

Dies ist keine reine Funktionsubersicht. Stattdessen ist dieser Leitfaden rund um die Entscheidungen aufgebaut, die Sie bei der Nutzung von Grok Imagine tatsachlich treffen: welcher Modus zu Ihrem Projekt passt, wie hoch die End-to-End-Kosten sind, welche Prompting-Strategien funktionieren und wann Sie besser ein anderes Modell einsetzen sollten.

Die 30-Sekunden-Version

FrageAntwort
Was ist das?xAIs Video- und Audiogenerierungsmodell, eingefuhrt am 28. Januar 2026
Wo kann ich es nutzen?In PixVerse - kein separates xAI-Abonnement erforderlich
Wer hat Zugriff?Pro- und Premium-Abonnenten von PixVerse
Maximale Auflosung720p (fur 1080p/4K nutzen Sie PixVerse V6)
Maximale DauerBis zu 15 Sekunden pro Generierung (je nach Modus)
Besondere FunktionenReferenzmodus (Mehrbild-Steuerung), Extend (bestehendes Video fortsetzen), Modify (bearbeiten ohne Neugenerierung), natives Audio
Startkosten10 Credits/Sekunde bei 480p

Grok Imagine vs. Grok-Chatbot: Nicht dasselbe

Grok chatbot vs Grok Imagine

Wenn Sie anderswo Grok-Tests gelesen haben, behandeln die meisten den Grok-Chatbot - xAIs textbasierten Konversations-KI-Assistenten, der mit ChatGPT und Claude konkurriert. Grok Imagine ist ein vollig separates Produkt. Es teilt den Markennamen Grok, kann aber keinen Textchat, keine Mathematik, kein Coding und keine Websuche. Es erzeugt ausschliesslich Video und Audio.

Diese Unterscheidung ist wichtig, weil die Starken und Schwachen des Grok-Chatbots (starke Mathematikfahigkeiten, grosses Anfragekontingent, uneinheitliche Safety-Guardrails) nichts mit der Videoausgabequalitat von Grok Imagine zu tun haben. Es sind unterschiedliche Modelle fur unterschiedliche Einsatzzwecke.

Welchen Modus sollten Sie verwenden?

Grok Imagine mode selection flowchart

Grok Imagine hat auf PixVerse sechs Modi. Anstatt jeden Parameter aufzulisten, finden Sie hier einen Entscheidungsleitfaden basierend darauf, was Sie erreichen mochten:

“Ich habe eine Textidee und mochte sie als Video sehen.”

Verwenden Sie: Text-zu-Video

Sie schreiben einen Prompt, das Modell generiert ein Video von Grund auf. Das ist der einfachste Modus und fur die meisten Projekte Ihr Startpunkt. Der Dauerbereich liegt bei 1-15 Sekunden, und Sie konnen aus sieben Seitenverhaltnissen (16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3) wahlen, passend zu Ihrer Zielplattform.

Am besten fur: Konzept-Exploration, Moodboards, Social-Media-Entwurfe ohne bestehende visuelle Assets.

”Ich habe ein Bild, das ich zum Leben erwecken mochte.”

Verwenden Sie: Bild-zu-Video

Laden Sie ein Standbild hoch, und das Modell animiert es unter Beibehaltung der Komposition. Das Quellbild wird zum Startframe. Das funktioniert besonders gut fur Produktaufnahmen, Portrats und Landschaftsszenen, bei denen das ursprungliche Framing erhalten bleiben soll.

Am besten fur: Animation von Illustrationen, Produktfotografie, Design-Mockups.

”Ich brauche eine Figur oder ein Objekt, das uber mehrere Shots hinweg konsistent bleibt.”

Verwenden Sie: Referenzmodus

Reference mode workflow with multi-image guidance

Hier unterscheidet sich Grok Imagine von den meisten Videomodellen. Im Referenzmodus konnen Sie bis zu 7 Bilder hochladen, die den Videoinhalt beeinflussen - Figuren, Objekte, Umgebungen - ohne den ersten Frame festzulegen. Das Modell nutzt diese Bilder als visuelle Anker und generiert gleichzeitig frei aus Ihrem Prompt.

Sie konnen bestimmte Referenzbilder im Prompt mit @Image1, @Image2 usw. adressieren. Zum Beispiel: “A woman (@Image1) orders coffee in a cafe (@Image2) while it rains outside” zeigt dem Modell klar, welches Referenzbild welchem Element zugeordnet ist.

ParameterWert
Referenzbilder1-7
Dauer1-10 Sekunden (Standard 8s)
Auflosung480p oder 720p

Am besten fur: Storytelling mit mehreren Shots, Storyboards, Brand-Videos mit konsistenter Figurenidentitat.

Warum das wichtig ist: Die meisten Videomodelle bieten entweder Bild-zu-Video (wodurch der erste Frame auf Ihr Bild fixiert wird) oder gar kein Referenzsystem. Der Referenzmodus liegt dazwischen - Ihre Bilder steuern den Inhalt, ohne die Komposition einzuschranken. Kein anderes Modell auf PixVerse bietet dies derzeit.

”Mein Video ist fast richtig, aber zu kurz.”

Verwenden Sie: Extend-Modus

Geben Sie ein bestehendes Video (2-15 Sekunden, MP4) und einen Prompt ein, der beschreibt, was als Nachstes passiert. Das Modell hangt neues Material nahtlos an. Die Ausgabe ist ein durchgehender Clip: Original + Erweiterung.

ParameterWert
Verlangerungsdauer2-10 Sekunden (Standard 6s)
QuellvideoMP4 (H.264/H.265/AV1), 2-15 Sekunden
AusgabeauflosungEntspricht der Quelle (max. 720p)

Abgerechnet wird nur der erweiterte Teil. Wird eine 10-Sekunden-Quelle um 6 Sekunden verlangert, zahlen Sie fur 6 Sekunden, nicht fur 16.

Am besten fur: Verlangerung von Clips auf Plattform-Mindestlangen (TikToks 15s, YouTube Shorts 60s bei Verkettung), Enden fur abrupte Schnitte hinzufugen, langere Erzahlungen schrittweise aufbauen.

Cross-Model-Tipp: Der Extend-Button erscheint bei jedem Video in PixVerse, unabhangig davon, welches Modell es erzeugt hat. Sie konnen einen PixVerse-V6-Clip, einen Sora-Clip oder einen Veo-Clip mit dem Extend-Modus von Grok Imagine verlangern.

”Mein Video braucht eine gezielte Anderung, aber ich mochte nicht neu anfangen.”

Verwenden Sie: Modify-Modus

Laden Sie ein bestehendes Video hoch und beschreiben Sie, was geandert werden soll - Hintergrund tauschen, Beleuchtung anpassen, Farbe eines Objekts andern, Wettereffekte hinzufugen. Das Modell bearbeitet das Video und bewahrt dabei die ursprungliche Dauer und das Seitenverhaltnis.

ParameterWert
QuellvideodauerMax. 8 Sekunden
Verarbeitung der EingabeAutomatisch auf 854x480 skaliert
AusgabeauflosungAuto, 480p oder 720p

Am besten fur: Color-Grading-Experimente, Hintergrundtausch, saisonale Varianten (Sommer->Winter), iterative Verfeinerung, wenn 90% des Videos bereits stimmen.

Wichtiger Trade-off: Die automatische Skalierung auf 854x480 bedeutet Detailverlust bei hochauflosenden Eingaben. Wenn Ihre Quelle ein scharfes 1080p-Video ist, wirkt die Bearbeitung weicher. Planen Sie das ein oder setzen Sie Modify fruh in Ihrer Pipeline ein, bevor Sie final hochskalieren.

”Ich mochte bestehendes Material in einen anderen visuellen Stil uberfuhren.”

Verwenden Sie: Bearbeitungssuite (Restyle, Objektmanipulation, Sketches to Life)

Die Bearbeitungstools von Grok Imagine transformieren bestehende Videos, statt sie von Grund auf neu zu generieren:

  • Restyle: Kunstlerische Stile anwenden - Cyberpunk, Anime, Retro, Origami, Watercolor, Mosaic
  • Objektmanipulation: Objekte hinzufugen, entfernen oder austauschen
  • Sketches to Life: Linienzeichnungen animieren
  • Add Performance: Figurenanimation auf statische Figuren anwenden
  • Scene Control: Wetter, Jahreszeiten, Farben andern

Am besten fur: Stilvariationen aus einem einzigen Quellclip erstellen, grobe Skizzen in animierte Vorschauen umwandeln, visuelle Behandlungen fur Anzeigen per A/B-Test vergleichen.

Was ein typisches Projekt wirklich kostet

Preisangaben pro Sekunde sind fur API-Budgets hilfreich, aber wenig praktisch fur kreative Projektplanung. Hier sehen Sie, was reale Workflows in PixVerse-Credits kosten:

Szenario 1: Ein 15-sekundiges TikTok-Produktvideo

SchrittModusDauerAuflosungCredits
EntwurfsgenerierungText-zu-Video10s480p100
Auf 15s verlangernExtend5s480p75
Gesamt15s480p175

Mit einem Uberarbeitungszyklus (Entwurf einmal neu generieren) sollten Sie rund 275 Credits einplanen.

Szenario 2: Ein 3-Shot-Brand-Storyboard

SchrittModusDauerAuflosungCredits
Shot 1 (Referenz, 2 Referenzbilder)Referenz8s720p180
Shot 2 (Referenz, gleiche Referenzen)Referenz8s720p180
Shot 3 (Referenz, gleiche Referenzen)Referenz6s720p135
Shot-2-Beleuchtung anpassenModify8s720p180
Gesamt30s720p675

Szenario 3: Einen bestehenden Clip restylen

SchrittModusDauerAuflosungCredits
Restyle zu AnimeBearbeitungssuite8s480p120

Einzelne Generierung ohne Iteration: 120 Credits.

Preisreferenztabelle

Modus480p (Credits/Sekunde)720p (Credits/Sekunde)
Text-zu-Video1015
Bild-zu-Video1015
Referenz1522.5
Extend1522.5
Modify1522.5

Die drei neueren Modi (Referenz, Extend, Modify) kosten pro Sekunde mehr, weil sie zusatzliche Eingabe-Assets verarbeiten.

Prompting-Strategien, die mit Grok Imagine funktionieren

Weak prompt versus strong prompt example

Grok Imagine reagiert auf Prompts anders als textbasiertes Grok oder andere Videomodelle. Nach Tests uber mehrere Projekte hinweg zeigen sich folgende Muster, die konsistent bessere Ergebnisse liefern:

Schreiben Sie filmisch, nicht nur beschreibend

Grok Imagine reagiert gut auf Prompts, die wie Shot-Beschreibungen formuliert sind statt nur wie Szenenbeschreibungen.

Schwacher: “A city street at night with neon signs and people walking”

Starker: “Dolly forward through a rain-slicked Tokyo alley, neon signs reflecting in puddles, shallow depth of field, a figure with an umbrella enters frame right, cinematic 2.39:1 framing”

Das Modell hat integrierte Kameraprasets (Zoom In/Out, Dolly Out, Tilt Up, Pan Right, Timelapse), und Prompts mit filmischer Sprache aktivieren diese in der Regel praziser.

Nutzen Sie @Image-Tags im Referenzmodus gezielt

Wenn Sie den Referenzmodus mit mehreren Bildern verwenden, liefern vage Prompts wie “create a video using these images” inkonsistente Resultate. Ordnen Sie stattdessen jedes Referenzbild explizit einem Element zu:

“@Image1 (the red sports car) drifts around a mountain corner with @Image3 (the sunset sky) in the background while @Image2 (the driver character) grips the steering wheel in close-up”

Platzieren Sie die Hauptaktion fruh im Prompt

Grok Imagine generiert sequenziell ab dem ersten Frame. Wenn Ihr Prompt die zentrale Aktion erst am Ende nennt, kann die Dauer aufgebraucht sein, bevor das Modell dort ankommt. Nennen Sie die primare Bewegung oder das zentrale Ereignis deshalb fruh.

Schwacher: “A quiet forest scene with birds, then suddenly a deer leaps across a stream”

Starker: “A deer leaps across a forest stream in golden hour light, camera tracking its arc, birds scatter from nearby branches”

Geben Sie ein zur Dauer passendes Tempo an

Fur langere Clips (10-15 Sekunden) sollten Sie das Tempo im Prompt angeben. Ohne diese Steuerung kann das Modell alle Bewegung in die ersten Sekunden legen und den Rest statisch lassen.

“Slow zoom into an abandoned library (0-5s), dust particles catch light beams (5-10s), a book falls from a shelf (10-12s), pages flutter to the ground (12-15s)“

Wann Sie ein anderes Modell einsetzen sollten

When to choose a different model than Grok Imagine

Grok Imagine ist nicht immer die beste Wahl. In den folgenden Situationen liefert ein anderes Modell auf PixVerse bessere Ergebnisse:

Wenn Sie eine Auflosung uber 720p benotigen

Verwenden Sie stattdessen PixVerse V6. V6 generiert nativ in 1080p und unterstutzt 4K-Upscaling. Wenn Ihr Projekt Broadcast-Qualitat, Festival-Einreichungen oder Wiedergabe auf grossen Bildschirmen erfordert, reicht 720p nicht aus.

Wenn Sie prazise filmische Objektivkontrolle benotigen

Verwenden Sie stattdessen PixVerse V6. V6 bietet mehr als 20 Objektivparameter, darunter Brennweite, Scharfentiefe und chromatische Aberration. Grok Imagine hat 6 Kameraprasets - praktisch, aber weniger granular.

Wenn Sie in einem Durchgang Clips langer als 15 Sekunden benotigen

Verwenden Sie stattdessen Sora 2. Sora unterstutzt bis zu 20 Sekunden pro Generierung. Bei Grok Imagine mussten Sie generieren + verlangern, was Kosten und potenzielle Kontinuitatsprobleme an der Naht erhoht.

Wenn die Audioqualitat kritisch ist

Verwenden Sie ein spezialisiertes Audio-Tool. Das native Audio von Grok Imagine ist fur Entwurfe und Social Content praktisch, aber Dialogklarheit und Musikgenerierung variieren. Fur hochwertige Produktionen erzeugen Sie das Video mit Grok Imagine und bearbeiten den Ton separat.

Wenn Ihr Quellvideo hochauflosend ist und Sie die Qualitat erhalten mochten

Vermeiden Sie den Modify-Modus. Die automatische Skalierung auf 854x480 verschlechtert hochauflosende Eingaben. Wenn Sie eine 1080p-Quelle haben, skalieren Sie sie entweder selbst zuerst herunter (damit Sie das Ergebnis steuern) oder nutzen einen anderen Bearbeitungsansatz.

Technische Spezifikationen auf einen Blick

Zur schnellen Orientierung finden Sie hier einen Vergleich der sechs Modi:

DimensionText-zu-VideoBild-zu-VideoReferenzExtendModifyBearbeitungssuite
EingabePromptPrompt + BildPrompt + 1-7 BilderPrompt + Video (2-15s)Prompt + VideoVideo + Stil/Anweisung
Dauer1-15s1-15s1-10sErweiterung: 2-10sEntspricht Quelle (max. 8s)Entspricht Quelle
Seitenverhaltnisse7 Optionen7 Optionen7 OptionenEntspricht QuelleEntspricht QuelleEntspricht Quelle
Auflosung480p / 720p480p / 720p480p / 720pEntspricht Quelle (max. 720p)Auto / 480p / 720p480p / 720p
AudioJaJaJaJaJaVariiert

Haufig gestellte Fragen

Was ist der Unterschied zwischen Grok Imagine und dem Grok-Chatbot?

Grok Imagine ist xAIs Modell fur Video- und Audiogenerierung. Der Grok-Chatbot (verfugbar uber x.com und SuperGrok-Abos fur 30 USD/Monat) ist fur Textkonversationen, Coding, Mathematik und Websuche gedacht. Beide tragen denselben Markennamen, sind aber separate Produkte mit unterschiedlichen Fahigkeiten. Fur die Nutzung von Grok Imagine auf PixVerse benotigen Sie kein SuperGrok-Abonnement.

Was ist der Referenzmodus, und worin unterscheidet er sich von Bild-zu-Video?

Bei Bild-zu-Video wird Ihr hochgeladenes Bild zum ersten Frame des Videos - das Modell animiert ab genau diesem Startpunkt. Im Referenzmodus beeinflussen Ihre Bilder, was erscheint (Figuren, Objekte, Umgebungen), ohne einen Frame festzulegen. Bild-zu-Video bedeutet “animiere dieses Bild”, der Referenzmodus bedeutet “generiere ein Video mit diesen visuellen Elementen”.

Kann ich ein Video erweitern oder bearbeiten, das nicht mit Grok Imagine erstellt wurde?

Ja. Die Buttons fur Extend und Modify erscheinen bei allen Videoergebnissen in PixVerse, unabhangig vom Ursprungsmodell. Sie konnen ein PixVerse-V6-Video mit Grok Imagine verlangern oder einen mit Sora generierten Clip bearbeiten. Die Quelle muss lediglich im MP4-Format vorliegen und innerhalb der Dauerlimits liegen.

Warum sind die neuen Modi pro Sekunde teurer?

Referenz-, Extend- und Modify-Modus verarbeiten neben dem Prompt zusatzliche Eingabe-Assets (Referenzbilder oder Quellvideos). Dieser Mehraufwand fuhrt zu den hoheren Basiskosten von 15 Credits/Sekunde statt 10 Credits/Sekunde bei standardmassigem Text-zu-Video und Bild-zu-Video.

Wie lang kann ein Video maximal sein?

Eine einzelne Text-zu-Video- oder Bild-zu-Video-Generierung unterstutzt bis zu 15 Sekunden. Mit dem Extend-Modus konnen Sie pro Erweiterung 2-10 zusatzliche Sekunden anhangen. Theoretisch lassen sich mehrere Erweiterungen verketten, um langere Videos zu erstellen, wobei die Kontinuitat uber viele Generationen hinweg nachlassen kann.

Soll ich fur mein Projekt Grok Imagine oder PixVerse V6 verwenden?

Das hangt von Ihrer Prioritat ab. Wahlen Sie Grok Imagine, wenn Sie Referenzmodus fur Figurenkonsistenz, Extend/Modify fur die Bearbeitung bestehender Clips oder native Audiogenerierung benotigen. Wahlen Sie PixVerse V6, wenn Sie 1080p+-Auflosung, erweiterte Objektivsteuerung oder die hochste Ausgabequalitat fur professionelle Auslieferung brauchen. Viele Kreative nutzen beide im selben Projekt - Grok Imagine fur schnelle Iteration und PixVerse V6 fur finale Renderings.

Erste Schritte

  1. Melden Sie sich mit einem Pro- oder Premium-Konto bei PixVerse an
  2. Wahlen Sie Grok Imagine im Modellselektor
  3. Wahlen Sie anhand des obigen Leitfadens einen Modus
  4. Konfigurieren Sie Auflosung, Dauer und Seitenverhaltnis
  5. Generieren, prufen und mit Extend oder Modify iterieren, ohne neu zu starten

Fur die technische API-Dokumentation besuchen Sie die offizielle xAI-Dokumentation.