Grok Imagineレビュー:PixVerseで使うxAI動画生成(2026年ガイド)
Grok Imagineは、テキストから動画・画像から動画・Reference・Extend・ModifyをPixVerseで利用できます。機能、料金、活用例、始め方を解説します。
Grok Imagine は、xAIの動画・音声生成モデルで、テキストプロンプトや静止画像を音声同期付きの動画クリップに変換できます。PixVerse のProおよびPremium加入者向けに提供されており、現在はText-to-Video、Image-to-Video、Reference、Extend、Modify、そして組み込み編集スイートの6つの生成モードに対応しています。これにより、プラットフォーム上でも特に汎用性の高いモデル選択肢の1つになっています。
このガイドは単なる機能紹介ではありません。Grok Imagineを使う際に実際に直面する判断、つまり「どのモードが自分のプロジェクトに合うか」「最終的なコストはいくらか」「どのプロンプト戦略が有効か」「別モデルを選ぶべき場面はいつか」に焦点を当てて整理しています。
30秒で分かる要点
| Question | Answer |
|---|---|
| What is it? | xAIの動画+音声生成モデル(2026年1月28日に公開) |
| Where can I use it? | PixVerse 内で利用可能(xAIの別契約は不要) |
| Who can access it? | PixVerseのPro / Premium加入者 |
| Max resolution | 720p(1080p/4KはPixVerse V6を利用) |
| Max duration | 1回の生成で最大15秒(モードにより変動) |
| Unique features | Referenceモード(複数画像ガイド)、Extend(既存動画の延長)、Modify(再生成せず編集)、ネイティブ音声 |
| Starting cost | 480pで10クレジット/秒 |
Grok ImagineとGrokチャットボットは別物です

他サイトのGrokレビューの多くは、Grokチャットボット(ChatGPTやClaudeと競合するxAIのテキスト対話AI)を扱っています。一方、Grok Imagineは完全に別製品です。Grokというブランド名は共通ですが、テキストチャット、数学、コーディング、Web検索には対応しておらず、動画と音声の生成専用です。
この違いは重要です。Grokチャットボットの強み・弱み(数学が強い、大量クエリに対応、安全ガードレールが不安定な場合がある等)は、Grok Imagineの動画品質とは直接関係ありません。用途が異なる、別系統のモデルだからです。
どのモードを使うべきですか?

PixVerse上のGrok Imagineには6つのモードがあります。全パラメータを羅列するのではなく、目的ベースで選べる判断ガイドとしてまとめます。
「テキストのアイデアを動画で見たいです」
Use: Text-to-Video
プロンプトを書くと、モデルがゼロから動画を生成します。最もシンプルなモードで、多くの案件ではここが出発点になります。長さは1〜15秒で、7種類のアスペクト比(16:9、4:3、1:1、9:16、3:4、3:2、2:3)から配信先に合わせて選択できます。
Best for: 企画検証、ムードボード作成、既存ビジュアル素材がないSNS向け下書き。
「手元の画像を動かしたいです」
Use: Image-to-Video
静止画像をアップロードすると、構図を保ちながらアニメーション化します。元画像はオープニングフレームとして使われます。プロダクト写真、ポートレート、風景など、元のフレーミングを維持したい場面に適しています。
Best for: イラストのアニメ化、商品写真、デザインモックアップの動画化。
「複数ショットでも同じキャラクターや物体を安定して出したいです」
Use: Reference Mode

ここが、Grok Imagineが多くの動画モデルと差別化されるポイントです。Referenceモードでは最大7枚の画像をアップロードでき、フレームを固定せずに 動画内容(人物・物体・環境)へ影響を与えられます。モデルはこれらの画像を視覚アンカーとして参照しつつ、プロンプトに沿って自由に生成します。
プロンプト内で @Image1、@Image2 のように参照画像を明示できます。たとえば、“A woman (@Image1) orders coffee in a café (@Image2) while it rains outside” と書くと、どの画像をどの要素に対応させるかをモデルに正確に指示できます。
| Parameter | Value |
|---|---|
| Reference images | 1–7 |
| Duration | 1–10 seconds (default 8s) |
| Resolution | 480p or 720p |
Best for: 複数カットのストーリーテリング、絵コンテ制作、キャラクター同一性を維持したいブランド動画。
Why this matters: 多くの動画モデルはImage-to-Video(最初のフレーム固定)か、参照システムなしのどちらかです。Referenceモードはその中間に位置し、画像で内容を誘導しつつ構図拘束を避けられます。現在PixVerseで同等機能を持つ他モデルはありません。
「動画はほぼ良いのですが、尺が短すぎます」
Use: Extend Mode
既存動画(2〜15秒、MP4)と「次に何が起きるか」のプロンプトを入力すると、自然につながる新規映像を後ろに追加します。出力は「元動画+延長パート」が連結された1本の連続クリップです。
| Parameter | Value |
|---|---|
| Extension length | 2–10 seconds (default 6s) |
| Source video | MP4 (H.264/H.265/AV1), 2–15 seconds |
| Output resolution | Matches source (max 720p) |
課金対象は延長部分のみです。たとえば10秒の元動画を6秒延長した場合、16秒分ではなく6秒分の課金になります。
Best for: 最低尺要件への対応(TikTokの15秒、連結運用時のYouTube Shorts 60秒)、唐突なカットへのエンディング追加、段階的に長編化する構成。
Cross-model tip: PixVerseでは、どのモデルで作成した動画にもExtendボタンが表示されます。PixVerse V6、Sora、Veoのクリップも、Grok ImagineのExtendで延長できます。
「動画の一部だけ変えたいですが、最初から作り直したくありません」
Use: Modify Mode
既存動画をアップロードし、変更内容(背景差し替え、照明変更、物体の色変更、天候エフェクト追加など)を記述します。元の尺とアスペクト比を保ちながら編集できます。
| Parameter | Value |
|---|---|
| Source video duration | Max 8 seconds |
| Input handling | Auto-scaled to 854x480 |
| Output resolution | Auto, 480p, or 720p |
Best for: カラーグレーディング検証、背景差し替え、季節バリエーション(夏→冬)、動画の90%が正しい段階での反復改善。
Trade-off to know: 854x480への自動スケーリングにより、高解像度入力ではディテールが失われます。1080pの高精細素材を入れると柔らかい見た目になります。最終アップスケール前の早い工程でModifyを使うか、この特性を前提に設計するのがおすすめです。
「既存映像を別テイストにスタイル変換したいです」
Use: Editing Suite (Restyle, Object Manipulation, Sketches to Life)
Grok Imagineの編集ツールは、ゼロ生成ではなく既存動画の変換に特化しています。
- Restyle: サイバーパンク、アニメ、レトロ、折り紙、水彩、モザイクなどのスタイルを適用
- Object Manipulation: オブジェクトの追加・削除・差し替え
- Sketches to Life: 線画をアニメーション化
- Add Performance: 静止キャラクターに演技アニメーションを付与
- Scene Control: 天候・季節・色味を変更
Best for: 1本の素材から複数スタイルを作成、ラフスケッチの動くプレビュー化、広告クリエイティブのA/Bテスト。
実際のプロジェクト費用はどれくらいですか?
APIの秒単価は予算見積もりには便利ですが、制作計画には十分ではありません。ここでは、PixVerseクレジットで実際に想定されるワークフロー別コストを示します。
シナリオ1:15秒のTikTok商品動画
| Step | Mode | Duration | Resolution | Credits |
|---|---|---|---|---|
| Draft generation | Text-to-Video | 10s | 480p | 100 |
| Extend to 15s | Extend | 5s | 480p | 75 |
| Total | 15s | 480p | 175 |
1回の改稿サイクル(下書きを1回再生成)を含める場合、予算はおよそ 275 credits を見込むと安心です。
シナリオ2:3ショットのブランド向け絵コンテ
| Step | Mode | Duration | Resolution | Credits |
|---|---|---|---|---|
| Shot 1 (Reference, 2 ref images) | Reference | 8s | 720p | 180 |
| Shot 2 (Reference, same refs) | Reference | 8s | 720p | 180 |
| Shot 3 (Reference, same refs) | Reference | 6s | 720p | 135 |
| Modify Shot 2 lighting | Modify | 8s | 720p | 180 |
| Total | 30s | 720p | 675 |
シナリオ3:既存クリップをリスタイル
| Step | Mode | Duration | Resolution | Credits |
|---|---|---|---|---|
| Restyle to Anime | Editing suite | 8s | 480p | 120 |
単発生成で反復なしの場合は 120 credits です。
料金リファレンス表
| Mode | 480p (credits/sec) | 720p (credits/sec) |
|---|---|---|
| Text-to-Video | 10 | 15 |
| Image-to-Video | 10 | 15 |
| Reference | 15 | 22.5 |
| Extend | 15 | 22.5 |
| Modify | 15 | 22.5 |
新しい3モード(Reference、Extend、Modify)が高単価なのは、追加の入力アセット処理が必要なためです。
Grok Imagineで効果が出やすいプロンプト戦略

Grok Imagineは、テキスト型Grokや他の動画モデルとは異なるプロンプト反応を示します。複数案件での検証から、安定して成果が出るパターンを紹介します。
説明文ではなく、映画的なショット指示で書きます
Grok Imagineは、シーン説明よりもショット記述に近いプロンプトで結果が向上しやすいです。
Weaker: “A city street at night with neon signs and people walking”
Stronger: “Dolly forward through a rain-slicked Tokyo alley, neon signs reflecting in puddles, shallow depth of field, a figure with an umbrella enters frame right, cinematic 2.39:1 framing”
モデルにはカメラ制御プリセット(Zoom In/Out、Dolly Out、Tilt Up、Pan Right、Timelapse)が組み込まれており、映画用語を含むプロンプトほど狙い通りに動作しやすくなります。
Referenceモードでは @Image タグを意図的に使います
Referenceモードで複数画像を使う際、“create a video using these images” のような曖昧な指示は結果が不安定になりがちです。代わりに、各画像の役割を明示してください。
“@Image1 (the red sports car) drifts around a mountain corner with @Image3 (the sunset sky) in the background while @Image2 (the driver character) grips the steering wheel in close-up”
主要アクションを前半に置きます
Grok Imagineは先頭フレームから順次生成します。重要な動きをプロンプト後半に置くと、尺が尽きて到達しない場合があります。主要イベントはできるだけ早い位置に記述するのが有効です。
Weaker: “A quiet forest scene with birds, then suddenly a deer leaps across a stream”
Stronger: “A deer leaps across a forest stream in golden hour light, camera tracking its arc, birds scatter from nearby branches”
尺に合わせたテンポを指定します
長尺(10〜15秒)の場合、プロンプト内で進行テンポを示すと安定します。指定がないと、序盤に動きが集中し、後半が静止気味になることがあります。
“Slow zoom into an abandoned library (0–5s), dust particles catch light beams (5–10s), a book falls from a shelf (10–12s), pages flutter to the ground (12–15s)“
別モデルを使ったほうがよい場面

Grok Imagineが常に最適とは限りません。以下のケースでは、PixVerse上の別モデルを選ぶ方が目的に合う場合があります。
720pを超える解像度が必要な場合
PixVerse V6を使います。 V6は1080pネイティブ生成に対応し、4Kアップスケールも可能です。放送品質、映画祭提出、大画面上映が必要な案件では、720pでは不十分です。
レンズ表現を細かく制御したい場合
PixVerse V6を使います。 V6は焦点距離、被写界深度、色収差など20以上のレンズパラメータを提供します。Grok Imagineのカメラプリセットは6種類で、手軽ですが粒度は粗めです。
1回で15秒超の動画を作りたい場合
Sora 2を使います。 Soraは1回の生成で最大20秒に対応します。Grok Imagineで同等の長さを作る場合は生成+延長が必要になり、コスト増や接続部の連続性低下リスクが生じます。
音声品質が最重要な場合
専用の音声ツールを併用します。 Grok Imagineのネイティブ音声は下書きやSNS用途には便利ですが、セリフ明瞭度や音楽生成品質にはばらつきがあります。完成品質を重視する場合は、映像をGrok Imagineで作り、音声は別工程に分けるのがおすすめです。
高解像度の元動画を維持したい場合
Modifyモードは避けます。 854x480への自動スケーリングにより、高解像度入力は劣化します。1080p素材がある場合は、先に自分でダウンスケールして結果を管理するか、別の編集アプローチを選ぶのが安全です。
技術仕様を一覧で確認
6つのモードを素早く比較できるよう、主要仕様を以下にまとめます。
| Dimension | Text-to-Video | Image-to-Video | Reference | Extend | Modify | Editing Suite |
|---|---|---|---|---|---|---|
| Input | Prompt | Prompt + image | Prompt + 1–7 images | Prompt + video (2–15s) | Prompt + video | Video + style/instruction |
| Duration | 1–15s | 1–15s | 1–10s | Extension: 2–10s | Matches source (max 8s) | Matches source |
| Aspect Ratios | 7 options | 7 options | 7 options | Matches source | Matches source | Matches source |
| Resolution | 480p / 720p | 480p / 720p | 480p / 720p | Matches source (max 720p) | Auto / 480p / 720p | 480p / 720p |
| Audio | Yes | Yes | Yes | Yes | Yes | Varies |
よくある質問
Grok ImagineとGrokチャットボットの違いは何ですか?
Grok ImagineはxAIの動画・音声生成モデルです。Grokチャットボット(x.comおよび月額30ドルのSuperGrokで利用可)は、テキスト会話、コーディング、数学、Web検索に対応します。ブランド名は同じですが、機能が異なる別製品です。PixVerseでGrok Imagineを使うためにSuperGrok契約は必要ありません。
Referenceモードとは何ですか?Image-to-Videoと何が違いますか?
Image-to-Videoでは、アップロード画像が動画の1フレーム目として固定され、そこからアニメーション化されます。Referenceモードでは、画像は登場要素(人物・物体・環境)に影響しますが、特定フレームは固定されません。Image-to-Videoが「この画像を動かす」なら、Referenceは「この視覚要素を含む動画を生成する」という違いです。
Grok Imagineで作っていない動画でも、ExtendやModifyは使えますか?
はい。ExtendとModifyボタンは、PixVerse内のすべての動画結果に表示され、元モデルに依存しません。PixVerse V6動画をGrok Imagineで延長したり、Sora生成クリップをModifyしたりできます。必要条件はMP4形式で、尺が制限内であることです。
新モードの秒単価が高いのはなぜですか?
Reference、Extend、Modifyは、プロンプトに加えて参照画像や元動画などの追加入力アセットを同時に処理します。この追加処理により、標準のText-to-Video / Image-to-Video(10クレジット/秒)より高い15クレジット/秒が基準価格になります。
作成できる動画の最大尺はどれくらいですか?
Text-to-VideoまたはImage-to-Videoの単体生成は最大15秒です。Extendモードを使うと、1回の延長で2〜10秒を追加できます。理論上は複数回の連結でより長い動画を作れますが、延長回数が増えるほど連続性が低下する場合があります。
自分の案件ではGrok ImagineとPixVerse V6のどちらを選ぶべきですか?
優先事項で決まります。キャラクター一貫性のためにReferenceを使いたい、既存クリップをExtend/Modifyしたい、ネイティブ音声生成を活用したい場合はGrok Imagineが向いています。1080p以上、詳細なレンズ制御、最終納品向けの最高画質が必要ならPixVerse V6が適しています。実務では、試行高速化にGrok Imagine、最終レンダリングにPixVerse V6という併用も多く使われています。
始め方
- ProまたはPremiumアカウントで PixVerse にログインします
- モデルセレクターで Grok Imagine を選択します
- 上記の判断ガイドをもとにモードを選びます
- 解像度、尺、アスペクト比を設定します
- 生成して結果を確認し、必要に応じてExtendまたはModifyで作り直しコストを抑えながら改善します
技術的なAPI仕様は、xAI公式ドキュメントをご確認ください。