Review do Grok Imagine: vídeo da xAI no PixVerse (guia 2026)

O Grok Imagine traz modos de texto para vídeo, imagem para vídeo, Reference, Extend e Modify ao PixVerse. Veja recursos, preços, casos de uso e como começar.

Product Update
Review do Grok Imagine: vídeo da xAI no PixVerse (guia 2026)

Grok Imagine é o modelo generativo de vídeo e áudio da xAI que transforma prompts de texto e imagens estáticas em clipes de vídeo com áudio sincronizado. Disponível no PixVerse para assinantes Pro e Premium, ele agora oferece seis modos de geração — Texto para Vídeo, Imagem para Vídeo, Reference, Extend, Modify e uma suíte de edição integrada — tornando-se uma das opções de modelo mais versáteis da plataforma.

Isto não é um walkthrough de recursos. Em vez disso, este guia é organizado em torno das decisões que você realmente enfrenta ao usar o Grok Imagine: qual modo se encaixa no seu projeto, quanto custa de ponta a ponta, quais estratégias de prompt funcionam e quando vale a pena escolher outro modelo.

A Versão em 30 Segundos

PerguntaResposta
O que é?Modelo de geração de vídeo + áudio da xAI, lançado em 28 de janeiro de 2026
Onde posso usar?Dentro do PixVerse — sem necessidade de assinatura separada da xAI
Quem pode acessar?Assinantes Pro e Premium do PixVerse
Resolução máxima720p (use PixVerse V6 para 1080p/4K)
Duração máximaAté 15 segundos por geração (varia por modo)
Recursos exclusivosModo Reference (guia com múltiplas imagens), Extend (continua vídeo existente), Modify (edita sem regenerar), áudio nativo
Custo inicial10 créditos/segundo em 480p

Grok Imagine vs. chatbot Grok: Não é a Mesma Coisa

Grok chatbot vs Grok Imagine

Se você leu reviews do Grok em outros lugares, a maioria cobre o chatbot Grok — a IA conversacional baseada em texto da xAI que compete com ChatGPT e Claude. O Grok Imagine é um produto totalmente separado. Ele compartilha a marca Grok, mas não faz chat de texto, matemática, código ou busca na web. Ele gera apenas vídeo e áudio.

Essa distinção importa porque os pontos fortes e fracos do chatbot Grok (boa habilidade em matemática, grande limite de consultas, guardrails de segurança inconsistentes) não têm relação com a qualidade de saída de vídeo do Grok Imagine. São modelos diferentes, construídos para propósitos diferentes.

Qual Modo Você Deve Usar?

Grok Imagine mode selection flowchart

O Grok Imagine tem seis modos no PixVerse. Em vez de listar cada parâmetro, aqui está um guia de decisão com base no que você está tentando realizar:

“Tenho uma ideia em texto e quero vê-la em vídeo.”

Use: Texto para Vídeo

Você escreve um prompt, e o modelo gera um vídeo do zero. Este é o modo mais simples e seu ponto de partida para a maioria dos projetos. A duração vai de 1 a 15 segundos, e você pode escolher entre sete proporções (16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3) para combinar com sua plataforma de destino.

Melhor para: exploração de conceitos, mood boards, rascunhos para redes sociais quando você não tem ativos visuais existentes.

”Tenho uma imagem que quero dar vida.”

Use: Imagem para Vídeo

Envie uma imagem estática e o modelo a anima preservando a composição. A imagem de origem se torna o frame de abertura. Funciona bem para fotos de produto, retratos e cenas de paisagem em que você quer manter o enquadramento original intacto.

Melhor para: animar ilustrações, fotografia de produto, mockups de design.

”Preciso que um personagem ou objeto apareça de forma consistente em múltiplos takes.”

Use: Modo Reference

Reference mode workflow with multi-image guidance

É aqui que o Grok Imagine se diferencia da maioria dos modelos de vídeo. O modo Reference permite enviar até 7 imagens que influenciam o conteúdo do vídeo — personagens, objetos, ambientes — sem travar o primeiro frame. O modelo usa essas imagens como âncoras visuais enquanto gera livremente a partir do seu prompt.

Você pode direcionar imagens de referência específicas no prompt com @Image1, @Image2 etc. Por exemplo: “Uma mulher (@Image1) pede café em uma cafeteria (@Image2) enquanto chove lá fora” diz ao modelo exatamente qual imagem de referência corresponde a qual elemento.

ParâmetroValor
Imagens de referência1–7
Duração1–10 segundos (padrão 8s)
Resolução480p ou 720p

Melhor para: narrativa com múltiplos takes, storyboards, vídeos de marca em que a identidade do personagem precisa se manter consistente.

Por que isso importa: A maioria dos modelos de vídeo usa Imagem para Vídeo (que trava o primeiro frame na sua imagem) ou não tem sistema de referência. O modo Reference fica no meio-termo — suas imagens guiam o conteúdo sem restringir a composição. Nenhum outro modelo no PixVerse oferece isso atualmente.

”Meu vídeo está quase certo, mas curto demais.”

Use: Modo Extend

Use um vídeo existente (2–15 segundos, MP4) e um prompt descrevendo o que acontece em seguida. O modelo adiciona novas imagens em movimento sem cortes aparentes. A saída é um único clipe contínuo: original + extensão.

ParâmetroValor
Duração da extensão2–10 segundos (padrão 6s)
Vídeo de origemMP4 (H.264/H.265/AV1), 2–15 segundos
Resolução de saídaIgual à origem (máx. 720p)

A cobrança cobre apenas a parte estendida. Uma fonte de 10 segundos estendida em 6 segundos cobra por 6 segundos, não por 16.

Melhor para: alongar clipes para atingir mínimos de plataforma (15s do TikTok, 60s do YouTube Shorts ao encadear), adicionar finais a cortes abruptos, construir narrativas maiores de forma incremental.

Dica entre modelos: O botão Extend aparece em todos os vídeos no PixVerse, independentemente de qual modelo os gerou. Você pode estender um clipe do PixVerse V6, um clipe do Sora ou um clipe do Veo usando o modo Extend do Grok Imagine.

”Meu vídeo precisa de uma mudança específica, mas não quero começar de novo.”

Use: Modo Modify

Envie um vídeo existente e descreva o que deve mudar — trocar fundo, alterar iluminação, mudar a cor de um objeto, adicionar efeitos de clima. O modelo edita preservando o tempo original e a proporção.

ParâmetroValor
Duração do vídeo de origemMáx. 8 segundos
Tratamento de entradaEscala automática para 854x480
Resolução de saídaAuto, 480p ou 720p

Melhor para: experimentos de color grading, troca de fundo, variações sazonais (verão→inverno), refinamento iterativo quando 90% do vídeo está correto.

Trade-off importante: A escala automática para 854x480 significa perda de detalhe em entradas de alta resolução. Se sua origem for um clipe 1080p nítido, a edição ficará mais suave. Planeje isso ou use o Modify no início do pipeline, antes do upscale final.

”Quero reestilizar filmagens existentes para um tratamento visual diferente.”

Use: Suíte de Edição (Restyle, Manipulação de Objetos, Sketches to Life)

As ferramentas de edição do Grok Imagine transformam vídeos existentes em vez de gerar do zero:

  • Restyle: Aplique estilos artísticos — Cyberpunk, Anime, Retro, Origami, Aquarela, Mosaico
  • Manipulação de Objetos: Adicione, remova ou troque objetos
  • Sketches to Life: Anime desenhos de linha
  • Add Performance: Aplique animação de personagem a figuras estáticas
  • Controle de Cena: Mude clima, estações, cores

Melhor para: criar variações de estilo a partir de um único clipe de origem, transformar esboços brutos em prévias animadas, fazer testes A/B de tratamentos visuais para anúncios.

Quanto Custa um Projeto Típico na Prática

Preço por segundo é útil para orçamento de API, mas pouco útil quando você está planejando um projeto criativo. Veja quanto custam fluxos reais em créditos no PixVerse:

Cenário 1: Vídeo de Produto de 15 Segundos para TikTok

EtapaModoDuraçãoResoluçãoCréditos
Geração de rascunhoTexto para Vídeo10s480p100
Estender para 15sExtend5s480p75
Total15s480p175

Com um ciclo de revisão (regenerar o rascunho uma vez), reserve cerca de 275 créditos.

Cenário 2: Storyboard de Marca com 3 Takes

EtapaModoDuraçãoResoluçãoCréditos
Take 1 (Reference, 2 imagens de referência)Reference8s720p180
Take 2 (Reference, mesmas referências)Reference8s720p180
Take 3 (Reference, mesmas referências)Reference6s720p135
Modificar iluminação do Take 2Modify8s720p180
Total30s720p675

Cenário 3: Reestilizar um Clipe Existente

EtapaModoDuraçãoResoluçãoCréditos
Restyle para AnimeSuíte de edição8s480p120

Geração única, sem iteração: 120 créditos.

Tabela de Referência de Preços

Modo480p (créditos/segundo)720p (créditos/segundo)
Texto para Vídeo1015
Imagem para Vídeo1015
Reference1522.5
Extend1522.5
Modify1522.5

Os três modos mais novos (Reference, Extend, Modify) custam mais por segundo porque processam ativos de entrada adicionais.

Estratégias de Prompt que Funcionam com Grok Imagine

Weak prompt versus strong prompt example

O Grok Imagine responde a prompts de forma diferente do Grok baseado em texto ou de outros modelos de vídeo. Após testar em múltiplos projetos, estes são padrões que produzem resultados melhores de forma consistente:

Seja Cinematográfico, Não Apenas Descritivo

O Grok Imagine responde bem a prompts escritos como descrições de tomada, em vez de descrições de cena.

Mais fraco: “Uma rua da cidade à noite com letreiros neon e pessoas caminhando”

Mais forte: “Dolly para frente por um beco de Tóquio molhado pela chuva, letreiros neon refletindo em poças, profundidade de campo rasa, uma figura com guarda-chuva entra pelo lado direito do quadro, enquadramento cinematográfico 2.39:1”

O modelo tem presets de controle de câmera integrados (Zoom In/Out, Dolly Out, Tilt Up, Pan Right, Timelapse), e prompts com linguagem cinematográfica tendem a acioná-los com mais precisão.

Use Tags @Image Deliberadamente no Modo Reference

Ao usar o modo Reference com múltiplas imagens, prompts vagos como “crie um vídeo usando estas imagens” geram resultados inconsistentes. Em vez disso, mapeie explicitamente cada referência a um elemento:

“@Image1 (o carro esportivo vermelho) derrapa em uma curva de montanha com @Image3 (o céu ao pôr do sol) ao fundo, enquanto @Image2 (o personagem motorista) segura o volante em close-up”

Coloque a Ação no Início

O Grok Imagine gera sequencialmente a partir do primeiro frame. Se o seu prompt esconder a ação principal no final, o modelo pode ficar sem duração antes de chegar nela. Coloque o movimento ou evento principal no começo da descrição.

Mais fraco: “Uma cena tranquila de floresta com pássaros, então de repente um cervo salta sobre um riacho”

Mais forte: “Um cervo salta sobre um riacho na floresta com luz de golden hour, câmera acompanhando seu arco, pássaros voam dos galhos próximos”

Especifique o Ritmo Considerando a Duração

Para clipes mais longos (10–15 segundos), indique o ritmo no prompt. Sem orientação, o modelo pode concentrar todo o movimento nos primeiros segundos e deixar o restante estático.

“Zoom lento em uma biblioteca abandonada (0–5s), partículas de poeira captam feixes de luz (5–10s), um livro cai de uma estante (10–12s), páginas esvoaçam até o chão (12–15s)“

Quando Usar um Modelo Diferente

When to choose a different model than Grok Imagine

O Grok Imagine nem sempre é a melhor escolha. Aqui estão situações específicas em que outro modelo no PixVerse pode atender melhor:

Quando você precisa de resolução acima de 720p

Use PixVerse V6. O V6 gera nativamente em 1080p e suporta upscale para 4K. Se seu projeto exige qualidade para transmissão, inscrição em festival de cinema ou exibição em tela grande, 720p não será suficiente.

Quando você precisa de controle preciso de lente cinematográfica

Use PixVerse V6. O V6 oferece mais de 20 parâmetros de lente, incluindo distância focal, profundidade de campo e aberração cromática. O Grok Imagine tem 6 presets de câmera, que são convenientes, mas menos granulares.

Quando você precisa de clipes com mais de 15 segundos em uma única passagem

Use Sora 2. O Sora suporta até 20 segundos por geração. No Grok Imagine, você precisaria gerar + estender, adicionando custo e possíveis problemas de continuidade na junção.

Quando a qualidade de áudio é crítica

Use uma ferramenta dedicada de áudio. O áudio nativo do Grok Imagine é conveniente para rascunhos e conteúdo social, mas a clareza de diálogos e a geração musical variam. Para produções mais polidas, gere o vídeo com Grok Imagine e trate o áudio separadamente.

Quando seu vídeo de origem é de alta resolução e você quer preservá-la

Evite o modo Modify. A escala automática para 854x480 degrada entradas em alta resolução. Se você tem uma fonte 1080p, faça downscale por conta própria primeiro (para controlar o resultado) ou use outra abordagem de edição.

Especificações Técnicas em Resumo

Para referência rápida, aqui está uma comparação entre os seis modos:

DimensãoTexto para VídeoImagem para VídeoReferenceExtendModifySuíte de Edição
EntradaPromptPrompt + imagemPrompt + 1–7 imagensPrompt + vídeo (2–15s)Prompt + vídeoVídeo + estilo/instrução
Duração1–15s1–15s1–10sExtensão: 2–10sIgual à origem (máx. 8s)Igual à origem
Proporções7 opções7 opções7 opçõesIgual à origemIgual à origemIgual à origem
Resolução480p / 720p480p / 720p480p / 720pIgual à origem (máx. 720p)Auto / 480p / 720p480p / 720p
ÁudioSimSimSimSimSimVaria

Perguntas Frequentes

Qual é a diferença entre Grok Imagine e o chatbot Grok?

O Grok Imagine é o modelo de geração de vídeo e áudio da xAI. O chatbot Grok (disponível via x.com e assinaturas SuperGrok por US$30/mês) lida com conversas de texto, código, matemática e busca na web. Eles compartilham a marca, mas são produtos separados com capacidades diferentes. Você não precisa de assinatura SuperGrok para usar o Grok Imagine no PixVerse.

O que é o modo Reference e como ele difere de Imagem para Vídeo?

Em Imagem para Vídeo, sua imagem enviada se torna o primeiro frame do vídeo — o modelo anima a partir desse ponto exato. No modo Reference, suas imagens influenciam o que aparece (personagens, objetos, ambientes) sem travar nenhum frame. Pense em Imagem para Vídeo como “anime esta imagem” e em Reference como “gere um vídeo com estes elementos visuais”.

Posso estender ou modificar um vídeo que não foi feito com Grok Imagine?

Sim. Os botões Extend e Modify aparecem em todos os resultados de vídeo no PixVerse, independentemente do modelo que os criou. Você pode estender um vídeo do PixVerse V6 usando Grok Imagine ou modificar um clipe gerado no Sora. A fonte só precisa estar em formato MP4 e dentro dos limites de duração.

Por que os novos modos são mais caros por segundo?

Os modos Reference, Extend e Modify processam ativos de entrada adicionais (imagens de referência ou vídeos de origem) junto com o prompt. Esse processamento extra explica o custo base mais alto de 15 créditos/segundo versus 10 créditos/segundo nos modos padrão Texto para Vídeo e Imagem para Vídeo.

Qual é a duração máxima de vídeo que posso criar?

Uma única geração de Texto para Vídeo ou Imagem para Vídeo suporta até 15 segundos. Usando o modo Extend, você pode adicionar de 2 a 10 segundos extras por extensão. Em teoria, você pode encadear várias extensões para criar vídeos mais longos, embora a continuidade possa degradar após múltiplas gerações.

Devo usar Grok Imagine ou PixVerse V6 no meu projeto?

Depende da sua prioridade. Escolha Grok Imagine quando você precisar do modo Reference para consistência de personagens, Extend/Modify para editar clipes existentes ou geração de áudio nativo. Escolha PixVerse V6 quando precisar de resolução 1080p+, controle avançado de lente ou a maior qualidade de saída para entrega profissional. Muitos criadores usam ambos no mesmo projeto — Grok Imagine para iteração rápida e PixVerse V6 para renders finais.

Primeiros Passos

  1. Faça login no PixVerse com uma conta Pro ou Premium
  2. Selecione Grok Imagine no seletor de modelos
  3. Escolha um modo com base no guia de decisão acima
  4. Configure resolução, duração e proporção
  5. Gere, revise e use Extend ou Modify para iterar sem começar do zero

Para documentação técnica da API, visite a documentação oficial da xAI.