Review do Grok Imagine: vídeo da xAI no PixVerse (guia 2026)
O Grok Imagine traz modos de texto para vídeo, imagem para vídeo, Reference, Extend e Modify ao PixVerse. Veja recursos, preços, casos de uso e como começar.
Grok Imagine é o modelo generativo de vídeo e áudio da xAI que transforma prompts de texto e imagens estáticas em clipes de vídeo com áudio sincronizado. Disponível no PixVerse para assinantes Pro e Premium, ele agora oferece seis modos de geração — Texto para Vídeo, Imagem para Vídeo, Reference, Extend, Modify e uma suíte de edição integrada — tornando-se uma das opções de modelo mais versáteis da plataforma.
Isto não é um walkthrough de recursos. Em vez disso, este guia é organizado em torno das decisões que você realmente enfrenta ao usar o Grok Imagine: qual modo se encaixa no seu projeto, quanto custa de ponta a ponta, quais estratégias de prompt funcionam e quando vale a pena escolher outro modelo.
A Versão em 30 Segundos
| Pergunta | Resposta |
|---|---|
| O que é? | Modelo de geração de vídeo + áudio da xAI, lançado em 28 de janeiro de 2026 |
| Onde posso usar? | Dentro do PixVerse — sem necessidade de assinatura separada da xAI |
| Quem pode acessar? | Assinantes Pro e Premium do PixVerse |
| Resolução máxima | 720p (use PixVerse V6 para 1080p/4K) |
| Duração máxima | Até 15 segundos por geração (varia por modo) |
| Recursos exclusivos | Modo Reference (guia com múltiplas imagens), Extend (continua vídeo existente), Modify (edita sem regenerar), áudio nativo |
| Custo inicial | 10 créditos/segundo em 480p |
Grok Imagine vs. chatbot Grok: Não é a Mesma Coisa

Se você leu reviews do Grok em outros lugares, a maioria cobre o chatbot Grok — a IA conversacional baseada em texto da xAI que compete com ChatGPT e Claude. O Grok Imagine é um produto totalmente separado. Ele compartilha a marca Grok, mas não faz chat de texto, matemática, código ou busca na web. Ele gera apenas vídeo e áudio.
Essa distinção importa porque os pontos fortes e fracos do chatbot Grok (boa habilidade em matemática, grande limite de consultas, guardrails de segurança inconsistentes) não têm relação com a qualidade de saída de vídeo do Grok Imagine. São modelos diferentes, construídos para propósitos diferentes.
Qual Modo Você Deve Usar?

O Grok Imagine tem seis modos no PixVerse. Em vez de listar cada parâmetro, aqui está um guia de decisão com base no que você está tentando realizar:
“Tenho uma ideia em texto e quero vê-la em vídeo.”
Use: Texto para Vídeo
Você escreve um prompt, e o modelo gera um vídeo do zero. Este é o modo mais simples e seu ponto de partida para a maioria dos projetos. A duração vai de 1 a 15 segundos, e você pode escolher entre sete proporções (16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3) para combinar com sua plataforma de destino.
Melhor para: exploração de conceitos, mood boards, rascunhos para redes sociais quando você não tem ativos visuais existentes.
”Tenho uma imagem que quero dar vida.”
Use: Imagem para Vídeo
Envie uma imagem estática e o modelo a anima preservando a composição. A imagem de origem se torna o frame de abertura. Funciona bem para fotos de produto, retratos e cenas de paisagem em que você quer manter o enquadramento original intacto.
Melhor para: animar ilustrações, fotografia de produto, mockups de design.
”Preciso que um personagem ou objeto apareça de forma consistente em múltiplos takes.”
Use: Modo Reference

É aqui que o Grok Imagine se diferencia da maioria dos modelos de vídeo. O modo Reference permite enviar até 7 imagens que influenciam o conteúdo do vídeo — personagens, objetos, ambientes — sem travar o primeiro frame. O modelo usa essas imagens como âncoras visuais enquanto gera livremente a partir do seu prompt.
Você pode direcionar imagens de referência específicas no prompt com @Image1, @Image2 etc. Por exemplo: “Uma mulher (@Image1) pede café em uma cafeteria (@Image2) enquanto chove lá fora” diz ao modelo exatamente qual imagem de referência corresponde a qual elemento.
| Parâmetro | Valor |
|---|---|
| Imagens de referência | 1–7 |
| Duração | 1–10 segundos (padrão 8s) |
| Resolução | 480p ou 720p |
Melhor para: narrativa com múltiplos takes, storyboards, vídeos de marca em que a identidade do personagem precisa se manter consistente.
Por que isso importa: A maioria dos modelos de vídeo usa Imagem para Vídeo (que trava o primeiro frame na sua imagem) ou não tem sistema de referência. O modo Reference fica no meio-termo — suas imagens guiam o conteúdo sem restringir a composição. Nenhum outro modelo no PixVerse oferece isso atualmente.
”Meu vídeo está quase certo, mas curto demais.”
Use: Modo Extend
Use um vídeo existente (2–15 segundos, MP4) e um prompt descrevendo o que acontece em seguida. O modelo adiciona novas imagens em movimento sem cortes aparentes. A saída é um único clipe contínuo: original + extensão.
| Parâmetro | Valor |
|---|---|
| Duração da extensão | 2–10 segundos (padrão 6s) |
| Vídeo de origem | MP4 (H.264/H.265/AV1), 2–15 segundos |
| Resolução de saída | Igual à origem (máx. 720p) |
A cobrança cobre apenas a parte estendida. Uma fonte de 10 segundos estendida em 6 segundos cobra por 6 segundos, não por 16.
Melhor para: alongar clipes para atingir mínimos de plataforma (15s do TikTok, 60s do YouTube Shorts ao encadear), adicionar finais a cortes abruptos, construir narrativas maiores de forma incremental.
Dica entre modelos: O botão Extend aparece em todos os vídeos no PixVerse, independentemente de qual modelo os gerou. Você pode estender um clipe do PixVerse V6, um clipe do Sora ou um clipe do Veo usando o modo Extend do Grok Imagine.
”Meu vídeo precisa de uma mudança específica, mas não quero começar de novo.”
Use: Modo Modify
Envie um vídeo existente e descreva o que deve mudar — trocar fundo, alterar iluminação, mudar a cor de um objeto, adicionar efeitos de clima. O modelo edita preservando o tempo original e a proporção.
| Parâmetro | Valor |
|---|---|
| Duração do vídeo de origem | Máx. 8 segundos |
| Tratamento de entrada | Escala automática para 854x480 |
| Resolução de saída | Auto, 480p ou 720p |
Melhor para: experimentos de color grading, troca de fundo, variações sazonais (verão→inverno), refinamento iterativo quando 90% do vídeo está correto.
Trade-off importante: A escala automática para 854x480 significa perda de detalhe em entradas de alta resolução. Se sua origem for um clipe 1080p nítido, a edição ficará mais suave. Planeje isso ou use o Modify no início do pipeline, antes do upscale final.
”Quero reestilizar filmagens existentes para um tratamento visual diferente.”
Use: Suíte de Edição (Restyle, Manipulação de Objetos, Sketches to Life)
As ferramentas de edição do Grok Imagine transformam vídeos existentes em vez de gerar do zero:
- Restyle: Aplique estilos artísticos — Cyberpunk, Anime, Retro, Origami, Aquarela, Mosaico
- Manipulação de Objetos: Adicione, remova ou troque objetos
- Sketches to Life: Anime desenhos de linha
- Add Performance: Aplique animação de personagem a figuras estáticas
- Controle de Cena: Mude clima, estações, cores
Melhor para: criar variações de estilo a partir de um único clipe de origem, transformar esboços brutos em prévias animadas, fazer testes A/B de tratamentos visuais para anúncios.
Quanto Custa um Projeto Típico na Prática
Preço por segundo é útil para orçamento de API, mas pouco útil quando você está planejando um projeto criativo. Veja quanto custam fluxos reais em créditos no PixVerse:
Cenário 1: Vídeo de Produto de 15 Segundos para TikTok
| Etapa | Modo | Duração | Resolução | Créditos |
|---|---|---|---|---|
| Geração de rascunho | Texto para Vídeo | 10s | 480p | 100 |
| Estender para 15s | Extend | 5s | 480p | 75 |
| Total | 15s | 480p | 175 |
Com um ciclo de revisão (regenerar o rascunho uma vez), reserve cerca de 275 créditos.
Cenário 2: Storyboard de Marca com 3 Takes
| Etapa | Modo | Duração | Resolução | Créditos |
|---|---|---|---|---|
| Take 1 (Reference, 2 imagens de referência) | Reference | 8s | 720p | 180 |
| Take 2 (Reference, mesmas referências) | Reference | 8s | 720p | 180 |
| Take 3 (Reference, mesmas referências) | Reference | 6s | 720p | 135 |
| Modificar iluminação do Take 2 | Modify | 8s | 720p | 180 |
| Total | 30s | 720p | 675 |
Cenário 3: Reestilizar um Clipe Existente
| Etapa | Modo | Duração | Resolução | Créditos |
|---|---|---|---|---|
| Restyle para Anime | Suíte de edição | 8s | 480p | 120 |
Geração única, sem iteração: 120 créditos.
Tabela de Referência de Preços
| Modo | 480p (créditos/segundo) | 720p (créditos/segundo) |
|---|---|---|
| Texto para Vídeo | 10 | 15 |
| Imagem para Vídeo | 10 | 15 |
| Reference | 15 | 22.5 |
| Extend | 15 | 22.5 |
| Modify | 15 | 22.5 |
Os três modos mais novos (Reference, Extend, Modify) custam mais por segundo porque processam ativos de entrada adicionais.
Estratégias de Prompt que Funcionam com Grok Imagine

O Grok Imagine responde a prompts de forma diferente do Grok baseado em texto ou de outros modelos de vídeo. Após testar em múltiplos projetos, estes são padrões que produzem resultados melhores de forma consistente:
Seja Cinematográfico, Não Apenas Descritivo
O Grok Imagine responde bem a prompts escritos como descrições de tomada, em vez de descrições de cena.
Mais fraco: “Uma rua da cidade à noite com letreiros neon e pessoas caminhando”
Mais forte: “Dolly para frente por um beco de Tóquio molhado pela chuva, letreiros neon refletindo em poças, profundidade de campo rasa, uma figura com guarda-chuva entra pelo lado direito do quadro, enquadramento cinematográfico 2.39:1”
O modelo tem presets de controle de câmera integrados (Zoom In/Out, Dolly Out, Tilt Up, Pan Right, Timelapse), e prompts com linguagem cinematográfica tendem a acioná-los com mais precisão.
Use Tags @Image Deliberadamente no Modo Reference
Ao usar o modo Reference com múltiplas imagens, prompts vagos como “crie um vídeo usando estas imagens” geram resultados inconsistentes. Em vez disso, mapeie explicitamente cada referência a um elemento:
“@Image1 (o carro esportivo vermelho) derrapa em uma curva de montanha com @Image3 (o céu ao pôr do sol) ao fundo, enquanto @Image2 (o personagem motorista) segura o volante em close-up”
Coloque a Ação no Início
O Grok Imagine gera sequencialmente a partir do primeiro frame. Se o seu prompt esconder a ação principal no final, o modelo pode ficar sem duração antes de chegar nela. Coloque o movimento ou evento principal no começo da descrição.
Mais fraco: “Uma cena tranquila de floresta com pássaros, então de repente um cervo salta sobre um riacho”
Mais forte: “Um cervo salta sobre um riacho na floresta com luz de golden hour, câmera acompanhando seu arco, pássaros voam dos galhos próximos”
Especifique o Ritmo Considerando a Duração
Para clipes mais longos (10–15 segundos), indique o ritmo no prompt. Sem orientação, o modelo pode concentrar todo o movimento nos primeiros segundos e deixar o restante estático.
“Zoom lento em uma biblioteca abandonada (0–5s), partículas de poeira captam feixes de luz (5–10s), um livro cai de uma estante (10–12s), páginas esvoaçam até o chão (12–15s)“
Quando Usar um Modelo Diferente

O Grok Imagine nem sempre é a melhor escolha. Aqui estão situações específicas em que outro modelo no PixVerse pode atender melhor:
Quando você precisa de resolução acima de 720p
Use PixVerse V6. O V6 gera nativamente em 1080p e suporta upscale para 4K. Se seu projeto exige qualidade para transmissão, inscrição em festival de cinema ou exibição em tela grande, 720p não será suficiente.
Quando você precisa de controle preciso de lente cinematográfica
Use PixVerse V6. O V6 oferece mais de 20 parâmetros de lente, incluindo distância focal, profundidade de campo e aberração cromática. O Grok Imagine tem 6 presets de câmera, que são convenientes, mas menos granulares.
Quando você precisa de clipes com mais de 15 segundos em uma única passagem
Use Sora 2. O Sora suporta até 20 segundos por geração. No Grok Imagine, você precisaria gerar + estender, adicionando custo e possíveis problemas de continuidade na junção.
Quando a qualidade de áudio é crítica
Use uma ferramenta dedicada de áudio. O áudio nativo do Grok Imagine é conveniente para rascunhos e conteúdo social, mas a clareza de diálogos e a geração musical variam. Para produções mais polidas, gere o vídeo com Grok Imagine e trate o áudio separadamente.
Quando seu vídeo de origem é de alta resolução e você quer preservá-la
Evite o modo Modify. A escala automática para 854x480 degrada entradas em alta resolução. Se você tem uma fonte 1080p, faça downscale por conta própria primeiro (para controlar o resultado) ou use outra abordagem de edição.
Especificações Técnicas em Resumo
Para referência rápida, aqui está uma comparação entre os seis modos:
| Dimensão | Texto para Vídeo | Imagem para Vídeo | Reference | Extend | Modify | Suíte de Edição |
|---|---|---|---|---|---|---|
| Entrada | Prompt | Prompt + imagem | Prompt + 1–7 imagens | Prompt + vídeo (2–15s) | Prompt + vídeo | Vídeo + estilo/instrução |
| Duração | 1–15s | 1–15s | 1–10s | Extensão: 2–10s | Igual à origem (máx. 8s) | Igual à origem |
| Proporções | 7 opções | 7 opções | 7 opções | Igual à origem | Igual à origem | Igual à origem |
| Resolução | 480p / 720p | 480p / 720p | 480p / 720p | Igual à origem (máx. 720p) | Auto / 480p / 720p | 480p / 720p |
| Áudio | Sim | Sim | Sim | Sim | Sim | Varia |
Perguntas Frequentes
Qual é a diferença entre Grok Imagine e o chatbot Grok?
O Grok Imagine é o modelo de geração de vídeo e áudio da xAI. O chatbot Grok (disponível via x.com e assinaturas SuperGrok por US$30/mês) lida com conversas de texto, código, matemática e busca na web. Eles compartilham a marca, mas são produtos separados com capacidades diferentes. Você não precisa de assinatura SuperGrok para usar o Grok Imagine no PixVerse.
O que é o modo Reference e como ele difere de Imagem para Vídeo?
Em Imagem para Vídeo, sua imagem enviada se torna o primeiro frame do vídeo — o modelo anima a partir desse ponto exato. No modo Reference, suas imagens influenciam o que aparece (personagens, objetos, ambientes) sem travar nenhum frame. Pense em Imagem para Vídeo como “anime esta imagem” e em Reference como “gere um vídeo com estes elementos visuais”.
Posso estender ou modificar um vídeo que não foi feito com Grok Imagine?
Sim. Os botões Extend e Modify aparecem em todos os resultados de vídeo no PixVerse, independentemente do modelo que os criou. Você pode estender um vídeo do PixVerse V6 usando Grok Imagine ou modificar um clipe gerado no Sora. A fonte só precisa estar em formato MP4 e dentro dos limites de duração.
Por que os novos modos são mais caros por segundo?
Os modos Reference, Extend e Modify processam ativos de entrada adicionais (imagens de referência ou vídeos de origem) junto com o prompt. Esse processamento extra explica o custo base mais alto de 15 créditos/segundo versus 10 créditos/segundo nos modos padrão Texto para Vídeo e Imagem para Vídeo.
Qual é a duração máxima de vídeo que posso criar?
Uma única geração de Texto para Vídeo ou Imagem para Vídeo suporta até 15 segundos. Usando o modo Extend, você pode adicionar de 2 a 10 segundos extras por extensão. Em teoria, você pode encadear várias extensões para criar vídeos mais longos, embora a continuidade possa degradar após múltiplas gerações.
Devo usar Grok Imagine ou PixVerse V6 no meu projeto?
Depende da sua prioridade. Escolha Grok Imagine quando você precisar do modo Reference para consistência de personagens, Extend/Modify para editar clipes existentes ou geração de áudio nativo. Escolha PixVerse V6 quando precisar de resolução 1080p+, controle avançado de lente ou a maior qualidade de saída para entrega profissional. Muitos criadores usam ambos no mesmo projeto — Grok Imagine para iteração rápida e PixVerse V6 para renders finais.
Primeiros Passos
- Faça login no PixVerse com uma conta Pro ou Premium
- Selecione Grok Imagine no seletor de modelos
- Escolha um modo com base no guia de decisão acima
- Configure resolução, duração e proporção
- Gere, revise e use Extend ou Modify para iterar sem começar do zero
Para documentação técnica da API, visite a documentação oficial da xAI.