Avis sur Grok Imagine : vidéo xAI sur PixVerse (guide 2026)
Grok Imagine apporte les modes texte-vers-vidéo, image-vers-vidéo, référence, extension et modification à PixVerse. Découvrez fonctionnalités, tarifs, cas d usage et démarrage.
Grok Imagine est le modèle génératif vidéo-audio de xAI qui transforme des prompts textuels et des images fixes en clips vidéo avec audio synchronisé. Disponible sur PixVerse pour les abonnés Pro et Premium, il propose désormais six modes de génération — texte-vers-vidéo, image-vers-vidéo, référence, extension, modification, ainsi qu une suite d édition intégrée — ce qui en fait l une des options de modèle les plus polyvalentes de la plateforme.
Il ne s agit pas d une simple présentation de fonctionnalités. Ce guide est plutôt structuré autour des décisions que vous devez réellement prendre lorsque vous utilisez Grok Imagine : quel mode convient à votre projet, combien cela coûte de bout en bout, quelles stratégies de prompting fonctionnent, et quand il vaut mieux choisir un autre modèle.
La version en 30 secondes
| Question | Réponse |
|---|---|
| Qu est-ce que c est ? | Le modèle de génération vidéo + audio de xAI, lancé le 28 janvier 2026 |
| Où puis-je l utiliser ? | Dans PixVerse — sans abonnement xAI séparé |
| Qui peut y accéder ? | Les abonnés Pro et Premium de PixVerse |
| Résolution max | 720p (utilisez PixVerse V6 pour 1080p/4K) |
| Durée max | Jusqu à 15 secondes par génération (selon le mode) |
| Fonctionnalités uniques | Mode référence (guidage multi-images), extension (continuer une vidéo existante), modification (éditer sans régénérer), audio natif |
| Coût de départ | 10 crédits/seconde en 480p |
Grok Imagine vs le chatbot Grok : ce n est pas la même chose

Si vous avez lu des avis sur Grok ailleurs, la plupart portent sur le chatbot Grok — l IA conversationnelle textuelle de xAI qui concurrence ChatGPT et Claude. Grok Imagine est un produit totalement distinct. Il partage le nom de marque Grok, mais il ne fait ni chat textuel, ni mathématiques, ni code, ni recherche web. Il génère uniquement de la vidéo et de l audio.
Cette distinction est importante, car les forces et faiblesses du chatbot Grok (bon niveau en mathématiques, grande capacité de requêtes, garde-fous de sécurité inégaux) n ont rien à voir avec la qualité de sortie vidéo de Grok Imagine. Ce sont des modèles différents conçus pour des usages différents.
Quel mode devez-vous utiliser ?

Grok Imagine propose six modes sur PixVerse. Plutôt que de lister chaque paramètre, voici un guide de décision basé sur ce que vous essayez d accomplir :
“J ai une idée textuelle et je veux la voir en vidéo.”
Utilisez : texte-vers-vidéo
Vous rédigez un prompt, et le modèle génère une vidéo à partir de zéro. C est le mode le plus simple, et votre point de départ pour la plupart des projets. La durée va de 1 à 15 secondes, et vous pouvez choisir parmi sept ratios d aspect (16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3) pour l adapter à votre plateforme cible.
Idéal pour : exploration de concepts, moodboards, brouillons pour les réseaux sociaux quand vous n avez pas de ressources visuelles existantes.
”J ai une image que je veux animer.”
Utilisez : image-vers-vidéo
Importez une image fixe et le modèle l anime tout en préservant la composition. L image source devient la première frame. Ce mode fonctionne bien pour les visuels produit, les portraits et les paysages lorsque vous souhaitez conserver le cadrage d origine.
Idéal pour : animer des illustrations, des photos de produits, des maquettes de design.
”Je dois garder un personnage ou un objet cohérent sur plusieurs plans.”
Utilisez : mode référence

C est ici que Grok Imagine se distingue de la plupart des modèles vidéo. Le mode référence vous permet d importer jusqu à 7 images qui influencent le contenu vidéo — personnages, objets, environnements — sans verrouiller la première frame. Le modèle utilise ces images comme ancres visuelles tout en générant librement à partir de votre prompt.
Vous pouvez cibler des images de référence précises dans votre prompt avec @Image1, @Image2, etc. Par exemple : “Une femme (@Image1) commande un café dans un café (@Image2) pendant qu il pleut dehors” indique au modèle exactement quelle image de référence correspond à quel élément.
| Paramètre | Valeur |
|---|---|
| Images de référence | 1 à 7 |
| Durée | 1 à 10 secondes (8 s par défaut) |
| Résolution | 480p ou 720p |
Idéal pour : storytelling multi-plans, storyboards, vidéos de marque où l identité du personnage doit rester cohérente.
Pourquoi c est important : la plupart des modèles vidéo utilisent soit l image-vers-vidéo (qui verrouille la première frame sur votre image), soit n offrent aucun système de référence. Le mode référence se situe entre les deux — vos images guident le contenu sans contraindre la composition. Aucun autre modèle sur PixVerse ne propose actuellement cela.
”Ma vidéo est presque correcte, mais trop courte.”
Utilisez : mode extension
Importez une vidéo existante (2 à 15 secondes, MP4) et un prompt décrivant la suite. Le modèle ajoute de nouvelles séquences de manière fluide. Le résultat est un clip continu : original + extension.
| Paramètre | Valeur |
|---|---|
| Longueur d extension | 2 à 10 secondes (6 s par défaut) |
| Vidéo source | MP4 (H.264/H.265/AV1), 2 à 15 secondes |
| Résolution de sortie | Identique à la source (max 720p) |
La facturation couvre uniquement la partie étendue. Une source de 10 secondes prolongée de 6 secondes facture 6 secondes, pas 16.
Idéal pour : allonger des clips afin d atteindre les minima des plateformes (15 s sur TikTok, 60 s sur YouTube Shorts en enchaînant), ajouter des fins à des coupes abruptes, construire des récits plus longs de façon incrémentale.
Conseil multi-modèles : le bouton extension apparaît sur toutes les vidéos PixVerse, quel que soit le modèle qui les a générées. Vous pouvez étendre un clip PixVerse V6, un clip Sora ou un clip Veo avec le mode extension de Grok Imagine.
”Ma vidéo nécessite une modification précise, mais je ne veux pas repartir de zéro.”
Utilisez : mode modification
Importez une vidéo existante et décrivez ce qui doit changer — remplacer un arrière-plan, modifier l éclairage, changer la couleur d un objet, ajouter des effets météo. Le modèle édite tout en conservant le timing et le ratio d aspect d origine.
| Paramètre | Valeur |
|---|---|
| Durée de la vidéo source | 8 secondes max |
| Gestion de l entrée | Mise à l échelle automatique en 854x480 |
| Résolution de sortie | Auto, 480p ou 720p |
Idéal pour : expérimentations d étalonnage colorimétrique, remplacements d arrière-plan, variantes saisonnières (été→hiver), raffinements itératifs quand 90 % de la vidéo est déjà correct.
Compromis à connaître : la mise à l échelle automatique en 854x480 entraîne une perte de détail sur les entrées haute résolution. Si votre source est un clip 1080p net, l édition paraîtra plus douce. Anticipez ce point ou utilisez la modification tôt dans votre pipeline avant l upscaling final.
”Je veux restyliser des séquences existantes avec un rendu visuel différent.”
Utilisez : suite d édition (restyliser, manipulation d objets, croquis vers animation)
Les outils d édition de Grok Imagine transforment des vidéos existantes plutôt que de générer à partir de zéro :
- Restyliser : appliquez des styles artistiques — Cyberpunk, Anime, Rétro, Origami, Aquarelle, Mosaïque
- Manipulation d objets : ajoutez, supprimez ou remplacez des objets
- Croquis vers animation : animez des dessins au trait
- Ajout de performance : appliquez une animation de personnage à des figures statiques
- Contrôle de scène : modifiez la météo, les saisons, les couleurs
Idéal pour : créer des variantes de style à partir d un seul clip source, transformer des croquis bruts en aperçus animés, A/B tester des traitements visuels pour des publicités.
Combien coûte réellement un projet typique
Le prix à la seconde est utile pour budgéter une API, mais peu pratique quand vous planifiez un projet créatif. Voici ce que coûtent des workflows réels en crédits PixVerse :
Scénario 1 : vidéo produit TikTok de 15 secondes
| Étape | Mode | Durée | Résolution | Crédits |
|---|---|---|---|---|
| Génération de brouillon | Texte-vers-vidéo | 10 s | 480p | 100 |
| Extension à 15 s | Extension | 5 s | 480p | 75 |
| Total | 15 s | 480p | 175 |
Avec un cycle de révision (régénérer une fois le brouillon), prévoyez environ 275 crédits.
Scénario 2 : storyboard de marque en 3 plans
| Étape | Mode | Durée | Résolution | Crédits |
|---|---|---|---|---|
| Plan 1 (référence, 2 images de réf.) | Référence | 8 s | 720p | 180 |
| Plan 2 (référence, mêmes réf.) | Référence | 8 s | 720p | 180 |
| Plan 3 (référence, mêmes réf.) | Référence | 6 s | 720p | 135 |
| Modifier l éclairage du plan 2 | Modification | 8 s | 720p | 180 |
| Total | 30 s | 720p | 675 |
Scénario 3 : restyliser un clip existant
| Étape | Mode | Durée | Résolution | Crédits |
|---|---|---|---|---|
| Restyliser en Anime | Suite d édition | 8 s | 480p | 120 |
Une seule génération, sans itération : 120 crédits.
Tableau de référence des tarifs
| Mode | 480p (crédits/s) | 720p (crédits/s) |
|---|---|---|
| Texte-vers-vidéo | 10 | 15 |
| Image-vers-vidéo | 10 | 15 |
| Référence | 15 | 22.5 |
| Extension | 15 | 22.5 |
| Modification | 15 | 22.5 |
Les trois modes plus récents (référence, extension, modification) coûtent plus cher par seconde, car ils traitent des ressources d entrée supplémentaires.
Stratégies de prompting efficaces avec Grok Imagine

Grok Imagine répond aux prompts différemment du Grok textuel ou d autres modèles vidéo. Après des tests sur plusieurs projets, voici les schémas qui produisent régulièrement de meilleurs résultats :
Soyez cinématographique, pas seulement descriptif
Grok Imagine réagit bien à des prompts rédigés comme des descriptions de plan, plutôt que comme de simples descriptions de scène.
Plus faible : “Une rue de ville la nuit avec des enseignes néon et des gens qui marchent”
Plus fort : “Travelling avant dans une ruelle de Tokyo mouillée par la pluie, néons se reflétant dans les flaques, faible profondeur de champ, une silhouette avec un parapluie entre dans le cadre à droite, cadrage cinématographique 2.39:1”
Le modèle intègre des préréglages de contrôle caméra (Zoom In/Out, Dolly Out, Tilt Up, Pan Right, Timelapse), et les prompts qui emploient un langage cinématographique ont tendance à les activer plus précisément.
Utilisez les tags @Image de façon délibérée en mode référence
Lorsque vous utilisez le mode référence avec plusieurs images, des prompts vagues comme “crée une vidéo à partir de ces images” produisent des résultats incohérents. À la place, associez explicitement chaque référence à un élément :
“@Image1 (la voiture de sport rouge) dérape dans un virage de montagne avec @Image3 (le ciel au coucher du soleil) en arrière-plan, tandis que @Image2 (le personnage conducteur) serre le volant en gros plan”
Placez l action principale dès le début
Grok Imagine génère de manière séquentielle à partir de la première frame. Si votre prompt place l action clé à la fin, le modèle peut manquer de durée avant de l atteindre. Placez le mouvement ou l événement principal tôt dans votre description.
Plus faible : “Une scène de forêt calme avec des oiseaux, puis soudain un cerf saute au-dessus d un ruisseau”
Plus fort : “Un cerf saute par-dessus un ruisseau forestier à l heure dorée, caméra suivant sa trajectoire, des oiseaux s envolent des branches proches”
Précisez le rythme selon la durée
Pour les clips plus longs (10 à 15 secondes), indiquez le rythme dans votre prompt. Sans indication, le modèle peut concentrer tout le mouvement dans les premières secondes et laisser le reste statique.
“Zoom lent vers une bibliothèque abandonnée (0–5 s), des particules de poussière captent les faisceaux de lumière (5–10 s), un livre tombe d une étagère (10–12 s), les pages virevoltent jusqu au sol (12–15 s)“
Quand choisir un autre modèle

Grok Imagine n est pas toujours le meilleur choix. Voici des situations précises où un autre modèle sur PixVerse vous servira mieux :
Quand vous avez besoin d une résolution supérieure à 720p
Utilisez plutôt PixVerse V6. V6 génère nativement en 1080p et prend en charge l upscaling 4K. Si votre projet exige une qualité broadcast, une soumission en festival de cinéma ou une diffusion sur grand écran, 720p ne sera pas suffisant.
Quand vous avez besoin d un contrôle d optique cinématographique précis
Utilisez plutôt PixVerse V6. V6 offre plus de 20 paramètres d objectif, dont la focale, la profondeur de champ et l aberration chromatique. Grok Imagine dispose de 6 préréglages caméra, pratiques mais moins granulaires.
Quand vous avez besoin de clips de plus de 15 secondes en une seule passe
Utilisez plutôt Sora 2. Sora prend en charge jusqu à 20 secondes par génération. Avec Grok Imagine, vous devrez générer puis étendre, ce qui ajoute du coût et des risques de rupture de continuité à la jonction.
Quand la qualité audio est critique
Utilisez un outil audio dédié. L audio natif de Grok Imagine est pratique pour les brouillons et les contenus sociaux, mais la clarté des dialogues et la génération musicale varient. Pour une production soignée, générez la vidéo avec Grok Imagine et traitez l audio séparément.
Quand votre vidéo source est en haute résolution et que vous voulez la préserver
Évitez le mode modification. La mise à l échelle automatique en 854x480 dégrade les entrées haute résolution. Si vous avez une source 1080p, soit vous la réduisez vous-même d abord (pour contrôler le rendu), soit vous utilisez une autre approche d édition.
Spécifications techniques en un coup d œil
Pour référence rapide, voici une comparaison des six modes :
| Dimension | Texte-vers-vidéo | Image-vers-vidéo | Référence | Extension | Modification | Suite d édition |
|---|---|---|---|---|---|---|
| Entrée | Prompt | Prompt + image | Prompt + 1 à 7 images | Prompt + vidéo (2 à 15 s) | Prompt + vidéo | Vidéo + style/instruction |
| Durée | 1 à 15 s | 1 à 15 s | 1 à 10 s | Extension : 2 à 10 s | Correspond à la source (max 8 s) | Correspond à la source |
| Ratios d aspect | 7 options | 7 options | 7 options | Correspond à la source | Correspond à la source | Correspond à la source |
| Résolution | 480p / 720p | 480p / 720p | 480p / 720p | Correspond à la source (max 720p) | Auto / 480p / 720p | 480p / 720p |
| Audio | Oui | Oui | Oui | Oui | Oui | Variable |
Questions fréquentes
Quelle est la différence entre Grok Imagine et le chatbot Grok ?
Grok Imagine est le modèle de génération vidéo et audio de xAI. Le chatbot Grok (disponible via x.com et les abonnements SuperGrok à 30 $/mois) gère les conversations textuelles, le code, les mathématiques et la recherche web. Ils partagent un nom de marque, mais ce sont des produits distincts avec des capacités différentes. Vous n avez pas besoin d un abonnement SuperGrok pour utiliser Grok Imagine sur PixVerse.
Qu est-ce que le mode référence et en quoi diffère-t-il de l image-vers-vidéo ?
En image-vers-vidéo, l image importée devient la première frame de la vidéo — le modèle anime à partir de ce point de départ précis. En mode référence, vos images influencent ce qui apparaît (personnages, objets, environnements) sans verrouiller aucune frame. Voyez l image-vers-vidéo comme “animez cette image” et le mode référence comme “générez une vidéo qui inclut ces éléments visuels”.
Puis-je étendre ou modifier une vidéo qui n a pas été créée avec Grok Imagine ?
Oui. Les boutons extension et modification apparaissent sur tous les résultats vidéo dans PixVerse, quel que soit le modèle qui les a créés. Vous pouvez étendre une vidéo PixVerse V6 avec Grok Imagine, ou modifier un clip généré par Sora. La source doit simplement être au format MP4 et respecter les limites de durée.
Pourquoi les nouveaux modes sont-ils plus chers par seconde ?
Les modes référence, extension et modification traitent des ressources d entrée supplémentaires (images de référence ou vidéos source) en plus du prompt. Ce traitement additionnel explique le coût de base plus élevé de 15 crédits/seconde contre 10 crédits/seconde pour les modes texte-vers-vidéo et image-vers-vidéo standard.
Quelle est la durée maximale de vidéo que je peux créer ?
Une génération unique en texte-vers-vidéo ou image-vers-vidéo prend en charge jusqu à 15 secondes. Avec le mode extension, vous pouvez ajouter 2 à 10 secondes supplémentaires par extension. En théorie, vous pouvez enchaîner plusieurs extensions pour créer des vidéos plus longues, même si la continuité peut se dégrader après plusieurs générations.
Dois-je utiliser Grok Imagine ou PixVerse V6 pour mon projet ?
Cela dépend de votre priorité. Choisissez Grok Imagine lorsque vous avez besoin du mode référence pour la cohérence des personnages, d extension/modification pour éditer des clips existants, ou de génération audio native. Choisissez PixVerse V6 lorsque vous avez besoin d une résolution 1080p+, d un contrôle d optique avancé, ou de la meilleure qualité de sortie pour une livraison professionnelle. De nombreux créateurs utilisent les deux dans le même projet — Grok Imagine pour itérer rapidement et PixVerse V6 pour les rendus finaux.
Pour commencer
- Connectez-vous à PixVerse avec un compte Pro ou Premium
- Sélectionnez Grok Imagine dans le sélecteur de modèle
- Choisissez un mode selon le guide de décision ci-dessus
- Configurez la résolution, la durée et le ratio d aspect
- Générez, examinez, puis utilisez extension ou modification pour itérer sans repartir de zéro
Pour la documentation technique API, consultez la documentation officielle xAI.