Grok Imagine im Test: xAI-Video auf PixVerse (Leitfaden 2026)
Grok Imagine bringt Text-zu-Video, Bild-zu-Video, Referenz-, Extend- und Modify-Modi auf PixVerse. Erfahren Sie Funktionen, Kosten, Use Cases und den Einstieg.
Grok Imagine ist xAIs generatives Video-Audio-Modell, das Text-Prompts und Standbilder in Videoclips mit synchronisiertem Audio umwandelt. Verfugbar auf PixVerse fur Pro- und Premium-Abonnenten bietet es jetzt sechs Generierungsmodi - Text-zu-Video, Bild-zu-Video, Referenz, Extend, Modify und eine integrierte Bearbeitungssuite - und ist damit eine der vielseitigsten Modelloptionen auf der Plattform.
Dies ist keine reine Funktionsubersicht. Stattdessen ist dieser Leitfaden rund um die Entscheidungen aufgebaut, die Sie bei der Nutzung von Grok Imagine tatsachlich treffen: welcher Modus zu Ihrem Projekt passt, wie hoch die End-to-End-Kosten sind, welche Prompting-Strategien funktionieren und wann Sie besser ein anderes Modell einsetzen sollten.
Die 30-Sekunden-Version
| Frage | Antwort |
|---|---|
| Was ist das? | xAIs Video- und Audiogenerierungsmodell, eingefuhrt am 28. Januar 2026 |
| Wo kann ich es nutzen? | In PixVerse - kein separates xAI-Abonnement erforderlich |
| Wer hat Zugriff? | Pro- und Premium-Abonnenten von PixVerse |
| Maximale Auflosung | 720p (fur 1080p/4K nutzen Sie PixVerse V6) |
| Maximale Dauer | Bis zu 15 Sekunden pro Generierung (je nach Modus) |
| Besondere Funktionen | Referenzmodus (Mehrbild-Steuerung), Extend (bestehendes Video fortsetzen), Modify (bearbeiten ohne Neugenerierung), natives Audio |
| Startkosten | 10 Credits/Sekunde bei 480p |
Grok Imagine vs. Grok-Chatbot: Nicht dasselbe

Wenn Sie anderswo Grok-Tests gelesen haben, behandeln die meisten den Grok-Chatbot - xAIs textbasierten Konversations-KI-Assistenten, der mit ChatGPT und Claude konkurriert. Grok Imagine ist ein vollig separates Produkt. Es teilt den Markennamen Grok, kann aber keinen Textchat, keine Mathematik, kein Coding und keine Websuche. Es erzeugt ausschliesslich Video und Audio.
Diese Unterscheidung ist wichtig, weil die Starken und Schwachen des Grok-Chatbots (starke Mathematikfahigkeiten, grosses Anfragekontingent, uneinheitliche Safety-Guardrails) nichts mit der Videoausgabequalitat von Grok Imagine zu tun haben. Es sind unterschiedliche Modelle fur unterschiedliche Einsatzzwecke.
Welchen Modus sollten Sie verwenden?

Grok Imagine hat auf PixVerse sechs Modi. Anstatt jeden Parameter aufzulisten, finden Sie hier einen Entscheidungsleitfaden basierend darauf, was Sie erreichen mochten:
“Ich habe eine Textidee und mochte sie als Video sehen.”
Verwenden Sie: Text-zu-Video
Sie schreiben einen Prompt, das Modell generiert ein Video von Grund auf. Das ist der einfachste Modus und fur die meisten Projekte Ihr Startpunkt. Der Dauerbereich liegt bei 1-15 Sekunden, und Sie konnen aus sieben Seitenverhaltnissen (16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3) wahlen, passend zu Ihrer Zielplattform.
Am besten fur: Konzept-Exploration, Moodboards, Social-Media-Entwurfe ohne bestehende visuelle Assets.
”Ich habe ein Bild, das ich zum Leben erwecken mochte.”
Verwenden Sie: Bild-zu-Video
Laden Sie ein Standbild hoch, und das Modell animiert es unter Beibehaltung der Komposition. Das Quellbild wird zum Startframe. Das funktioniert besonders gut fur Produktaufnahmen, Portrats und Landschaftsszenen, bei denen das ursprungliche Framing erhalten bleiben soll.
Am besten fur: Animation von Illustrationen, Produktfotografie, Design-Mockups.
”Ich brauche eine Figur oder ein Objekt, das uber mehrere Shots hinweg konsistent bleibt.”
Verwenden Sie: Referenzmodus

Hier unterscheidet sich Grok Imagine von den meisten Videomodellen. Im Referenzmodus konnen Sie bis zu 7 Bilder hochladen, die den Videoinhalt beeinflussen - Figuren, Objekte, Umgebungen - ohne den ersten Frame festzulegen. Das Modell nutzt diese Bilder als visuelle Anker und generiert gleichzeitig frei aus Ihrem Prompt.
Sie konnen bestimmte Referenzbilder im Prompt mit @Image1, @Image2 usw. adressieren. Zum Beispiel: “A woman (@Image1) orders coffee in a cafe (@Image2) while it rains outside” zeigt dem Modell klar, welches Referenzbild welchem Element zugeordnet ist.
| Parameter | Wert |
|---|---|
| Referenzbilder | 1-7 |
| Dauer | 1-10 Sekunden (Standard 8s) |
| Auflosung | 480p oder 720p |
Am besten fur: Storytelling mit mehreren Shots, Storyboards, Brand-Videos mit konsistenter Figurenidentitat.
Warum das wichtig ist: Die meisten Videomodelle bieten entweder Bild-zu-Video (wodurch der erste Frame auf Ihr Bild fixiert wird) oder gar kein Referenzsystem. Der Referenzmodus liegt dazwischen - Ihre Bilder steuern den Inhalt, ohne die Komposition einzuschranken. Kein anderes Modell auf PixVerse bietet dies derzeit.
”Mein Video ist fast richtig, aber zu kurz.”
Verwenden Sie: Extend-Modus
Geben Sie ein bestehendes Video (2-15 Sekunden, MP4) und einen Prompt ein, der beschreibt, was als Nachstes passiert. Das Modell hangt neues Material nahtlos an. Die Ausgabe ist ein durchgehender Clip: Original + Erweiterung.
| Parameter | Wert |
|---|---|
| Verlangerungsdauer | 2-10 Sekunden (Standard 6s) |
| Quellvideo | MP4 (H.264/H.265/AV1), 2-15 Sekunden |
| Ausgabeauflosung | Entspricht der Quelle (max. 720p) |
Abgerechnet wird nur der erweiterte Teil. Wird eine 10-Sekunden-Quelle um 6 Sekunden verlangert, zahlen Sie fur 6 Sekunden, nicht fur 16.
Am besten fur: Verlangerung von Clips auf Plattform-Mindestlangen (TikToks 15s, YouTube Shorts 60s bei Verkettung), Enden fur abrupte Schnitte hinzufugen, langere Erzahlungen schrittweise aufbauen.
Cross-Model-Tipp: Der Extend-Button erscheint bei jedem Video in PixVerse, unabhangig davon, welches Modell es erzeugt hat. Sie konnen einen PixVerse-V6-Clip, einen Sora-Clip oder einen Veo-Clip mit dem Extend-Modus von Grok Imagine verlangern.
”Mein Video braucht eine gezielte Anderung, aber ich mochte nicht neu anfangen.”
Verwenden Sie: Modify-Modus
Laden Sie ein bestehendes Video hoch und beschreiben Sie, was geandert werden soll - Hintergrund tauschen, Beleuchtung anpassen, Farbe eines Objekts andern, Wettereffekte hinzufugen. Das Modell bearbeitet das Video und bewahrt dabei die ursprungliche Dauer und das Seitenverhaltnis.
| Parameter | Wert |
|---|---|
| Quellvideodauer | Max. 8 Sekunden |
| Verarbeitung der Eingabe | Automatisch auf 854x480 skaliert |
| Ausgabeauflosung | Auto, 480p oder 720p |
Am besten fur: Color-Grading-Experimente, Hintergrundtausch, saisonale Varianten (Sommer->Winter), iterative Verfeinerung, wenn 90% des Videos bereits stimmen.
Wichtiger Trade-off: Die automatische Skalierung auf 854x480 bedeutet Detailverlust bei hochauflosenden Eingaben. Wenn Ihre Quelle ein scharfes 1080p-Video ist, wirkt die Bearbeitung weicher. Planen Sie das ein oder setzen Sie Modify fruh in Ihrer Pipeline ein, bevor Sie final hochskalieren.
”Ich mochte bestehendes Material in einen anderen visuellen Stil uberfuhren.”
Verwenden Sie: Bearbeitungssuite (Restyle, Objektmanipulation, Sketches to Life)
Die Bearbeitungstools von Grok Imagine transformieren bestehende Videos, statt sie von Grund auf neu zu generieren:
- Restyle: Kunstlerische Stile anwenden - Cyberpunk, Anime, Retro, Origami, Watercolor, Mosaic
- Objektmanipulation: Objekte hinzufugen, entfernen oder austauschen
- Sketches to Life: Linienzeichnungen animieren
- Add Performance: Figurenanimation auf statische Figuren anwenden
- Scene Control: Wetter, Jahreszeiten, Farben andern
Am besten fur: Stilvariationen aus einem einzigen Quellclip erstellen, grobe Skizzen in animierte Vorschauen umwandeln, visuelle Behandlungen fur Anzeigen per A/B-Test vergleichen.
Was ein typisches Projekt wirklich kostet
Preisangaben pro Sekunde sind fur API-Budgets hilfreich, aber wenig praktisch fur kreative Projektplanung. Hier sehen Sie, was reale Workflows in PixVerse-Credits kosten:
Szenario 1: Ein 15-sekundiges TikTok-Produktvideo
| Schritt | Modus | Dauer | Auflosung | Credits |
|---|---|---|---|---|
| Entwurfsgenerierung | Text-zu-Video | 10s | 480p | 100 |
| Auf 15s verlangern | Extend | 5s | 480p | 75 |
| Gesamt | 15s | 480p | 175 |
Mit einem Uberarbeitungszyklus (Entwurf einmal neu generieren) sollten Sie rund 275 Credits einplanen.
Szenario 2: Ein 3-Shot-Brand-Storyboard
| Schritt | Modus | Dauer | Auflosung | Credits |
|---|---|---|---|---|
| Shot 1 (Referenz, 2 Referenzbilder) | Referenz | 8s | 720p | 180 |
| Shot 2 (Referenz, gleiche Referenzen) | Referenz | 8s | 720p | 180 |
| Shot 3 (Referenz, gleiche Referenzen) | Referenz | 6s | 720p | 135 |
| Shot-2-Beleuchtung anpassen | Modify | 8s | 720p | 180 |
| Gesamt | 30s | 720p | 675 |
Szenario 3: Einen bestehenden Clip restylen
| Schritt | Modus | Dauer | Auflosung | Credits |
|---|---|---|---|---|
| Restyle zu Anime | Bearbeitungssuite | 8s | 480p | 120 |
Einzelne Generierung ohne Iteration: 120 Credits.
Preisreferenztabelle
| Modus | 480p (Credits/Sekunde) | 720p (Credits/Sekunde) |
|---|---|---|
| Text-zu-Video | 10 | 15 |
| Bild-zu-Video | 10 | 15 |
| Referenz | 15 | 22.5 |
| Extend | 15 | 22.5 |
| Modify | 15 | 22.5 |
Die drei neueren Modi (Referenz, Extend, Modify) kosten pro Sekunde mehr, weil sie zusatzliche Eingabe-Assets verarbeiten.
Prompting-Strategien, die mit Grok Imagine funktionieren

Grok Imagine reagiert auf Prompts anders als textbasiertes Grok oder andere Videomodelle. Nach Tests uber mehrere Projekte hinweg zeigen sich folgende Muster, die konsistent bessere Ergebnisse liefern:
Schreiben Sie filmisch, nicht nur beschreibend
Grok Imagine reagiert gut auf Prompts, die wie Shot-Beschreibungen formuliert sind statt nur wie Szenenbeschreibungen.
Schwacher: “A city street at night with neon signs and people walking”
Starker: “Dolly forward through a rain-slicked Tokyo alley, neon signs reflecting in puddles, shallow depth of field, a figure with an umbrella enters frame right, cinematic 2.39:1 framing”
Das Modell hat integrierte Kameraprasets (Zoom In/Out, Dolly Out, Tilt Up, Pan Right, Timelapse), und Prompts mit filmischer Sprache aktivieren diese in der Regel praziser.
Nutzen Sie @Image-Tags im Referenzmodus gezielt
Wenn Sie den Referenzmodus mit mehreren Bildern verwenden, liefern vage Prompts wie “create a video using these images” inkonsistente Resultate. Ordnen Sie stattdessen jedes Referenzbild explizit einem Element zu:
“@Image1 (the red sports car) drifts around a mountain corner with @Image3 (the sunset sky) in the background while @Image2 (the driver character) grips the steering wheel in close-up”
Platzieren Sie die Hauptaktion fruh im Prompt
Grok Imagine generiert sequenziell ab dem ersten Frame. Wenn Ihr Prompt die zentrale Aktion erst am Ende nennt, kann die Dauer aufgebraucht sein, bevor das Modell dort ankommt. Nennen Sie die primare Bewegung oder das zentrale Ereignis deshalb fruh.
Schwacher: “A quiet forest scene with birds, then suddenly a deer leaps across a stream”
Starker: “A deer leaps across a forest stream in golden hour light, camera tracking its arc, birds scatter from nearby branches”
Geben Sie ein zur Dauer passendes Tempo an
Fur langere Clips (10-15 Sekunden) sollten Sie das Tempo im Prompt angeben. Ohne diese Steuerung kann das Modell alle Bewegung in die ersten Sekunden legen und den Rest statisch lassen.
“Slow zoom into an abandoned library (0-5s), dust particles catch light beams (5-10s), a book falls from a shelf (10-12s), pages flutter to the ground (12-15s)“
Wann Sie ein anderes Modell einsetzen sollten

Grok Imagine ist nicht immer die beste Wahl. In den folgenden Situationen liefert ein anderes Modell auf PixVerse bessere Ergebnisse:
Wenn Sie eine Auflosung uber 720p benotigen
Verwenden Sie stattdessen PixVerse V6. V6 generiert nativ in 1080p und unterstutzt 4K-Upscaling. Wenn Ihr Projekt Broadcast-Qualitat, Festival-Einreichungen oder Wiedergabe auf grossen Bildschirmen erfordert, reicht 720p nicht aus.
Wenn Sie prazise filmische Objektivkontrolle benotigen
Verwenden Sie stattdessen PixVerse V6. V6 bietet mehr als 20 Objektivparameter, darunter Brennweite, Scharfentiefe und chromatische Aberration. Grok Imagine hat 6 Kameraprasets - praktisch, aber weniger granular.
Wenn Sie in einem Durchgang Clips langer als 15 Sekunden benotigen
Verwenden Sie stattdessen Sora 2. Sora unterstutzt bis zu 20 Sekunden pro Generierung. Bei Grok Imagine mussten Sie generieren + verlangern, was Kosten und potenzielle Kontinuitatsprobleme an der Naht erhoht.
Wenn die Audioqualitat kritisch ist
Verwenden Sie ein spezialisiertes Audio-Tool. Das native Audio von Grok Imagine ist fur Entwurfe und Social Content praktisch, aber Dialogklarheit und Musikgenerierung variieren. Fur hochwertige Produktionen erzeugen Sie das Video mit Grok Imagine und bearbeiten den Ton separat.
Wenn Ihr Quellvideo hochauflosend ist und Sie die Qualitat erhalten mochten
Vermeiden Sie den Modify-Modus. Die automatische Skalierung auf 854x480 verschlechtert hochauflosende Eingaben. Wenn Sie eine 1080p-Quelle haben, skalieren Sie sie entweder selbst zuerst herunter (damit Sie das Ergebnis steuern) oder nutzen einen anderen Bearbeitungsansatz.
Technische Spezifikationen auf einen Blick
Zur schnellen Orientierung finden Sie hier einen Vergleich der sechs Modi:
| Dimension | Text-zu-Video | Bild-zu-Video | Referenz | Extend | Modify | Bearbeitungssuite |
|---|---|---|---|---|---|---|
| Eingabe | Prompt | Prompt + Bild | Prompt + 1-7 Bilder | Prompt + Video (2-15s) | Prompt + Video | Video + Stil/Anweisung |
| Dauer | 1-15s | 1-15s | 1-10s | Erweiterung: 2-10s | Entspricht Quelle (max. 8s) | Entspricht Quelle |
| Seitenverhaltnisse | 7 Optionen | 7 Optionen | 7 Optionen | Entspricht Quelle | Entspricht Quelle | Entspricht Quelle |
| Auflosung | 480p / 720p | 480p / 720p | 480p / 720p | Entspricht Quelle (max. 720p) | Auto / 480p / 720p | 480p / 720p |
| Audio | Ja | Ja | Ja | Ja | Ja | Variiert |
Haufig gestellte Fragen
Was ist der Unterschied zwischen Grok Imagine und dem Grok-Chatbot?
Grok Imagine ist xAIs Modell fur Video- und Audiogenerierung. Der Grok-Chatbot (verfugbar uber x.com und SuperGrok-Abos fur 30 USD/Monat) ist fur Textkonversationen, Coding, Mathematik und Websuche gedacht. Beide tragen denselben Markennamen, sind aber separate Produkte mit unterschiedlichen Fahigkeiten. Fur die Nutzung von Grok Imagine auf PixVerse benotigen Sie kein SuperGrok-Abonnement.
Was ist der Referenzmodus, und worin unterscheidet er sich von Bild-zu-Video?
Bei Bild-zu-Video wird Ihr hochgeladenes Bild zum ersten Frame des Videos - das Modell animiert ab genau diesem Startpunkt. Im Referenzmodus beeinflussen Ihre Bilder, was erscheint (Figuren, Objekte, Umgebungen), ohne einen Frame festzulegen. Bild-zu-Video bedeutet “animiere dieses Bild”, der Referenzmodus bedeutet “generiere ein Video mit diesen visuellen Elementen”.
Kann ich ein Video erweitern oder bearbeiten, das nicht mit Grok Imagine erstellt wurde?
Ja. Die Buttons fur Extend und Modify erscheinen bei allen Videoergebnissen in PixVerse, unabhangig vom Ursprungsmodell. Sie konnen ein PixVerse-V6-Video mit Grok Imagine verlangern oder einen mit Sora generierten Clip bearbeiten. Die Quelle muss lediglich im MP4-Format vorliegen und innerhalb der Dauerlimits liegen.
Warum sind die neuen Modi pro Sekunde teurer?
Referenz-, Extend- und Modify-Modus verarbeiten neben dem Prompt zusatzliche Eingabe-Assets (Referenzbilder oder Quellvideos). Dieser Mehraufwand fuhrt zu den hoheren Basiskosten von 15 Credits/Sekunde statt 10 Credits/Sekunde bei standardmassigem Text-zu-Video und Bild-zu-Video.
Wie lang kann ein Video maximal sein?
Eine einzelne Text-zu-Video- oder Bild-zu-Video-Generierung unterstutzt bis zu 15 Sekunden. Mit dem Extend-Modus konnen Sie pro Erweiterung 2-10 zusatzliche Sekunden anhangen. Theoretisch lassen sich mehrere Erweiterungen verketten, um langere Videos zu erstellen, wobei die Kontinuitat uber viele Generationen hinweg nachlassen kann.
Soll ich fur mein Projekt Grok Imagine oder PixVerse V6 verwenden?
Das hangt von Ihrer Prioritat ab. Wahlen Sie Grok Imagine, wenn Sie Referenzmodus fur Figurenkonsistenz, Extend/Modify fur die Bearbeitung bestehender Clips oder native Audiogenerierung benotigen. Wahlen Sie PixVerse V6, wenn Sie 1080p+-Auflosung, erweiterte Objektivsteuerung oder die hochste Ausgabequalitat fur professionelle Auslieferung brauchen. Viele Kreative nutzen beide im selben Projekt - Grok Imagine fur schnelle Iteration und PixVerse V6 fur finale Renderings.
Erste Schritte
- Melden Sie sich mit einem Pro- oder Premium-Konto bei PixVerse an
- Wahlen Sie Grok Imagine im Modellselektor
- Wahlen Sie anhand des obigen Leitfadens einen Modus
- Konfigurieren Sie Auflosung, Dauer und Seitenverhaltnis
- Generieren, prufen und mit Extend oder Modify iterieren, ohne neu zu starten
Fur die technische API-Dokumentation besuchen Sie die offizielle xAI-Dokumentation.