PixVerse CLI:AI 视频、图像与音频生成

安装 PixVerse CLI v1.2.1,在终端生成视频、图像、语音和音乐,管理资产,并自动化 AI 智能体媒体工作流。

Product Update
PixVerse CLI:AI 视频、图像与音频生成

简介

每个创意工作流都有一个瓶颈:你不得不离开代码编辑器、打开浏览器,并在网页界面里手动点击来生成媒体内容。对于开发者、AI 智能体,以及所有在构建自动化内容流水线的人来说,这种上下文切换会持续带来高成本摩擦。

PixVerse CLI 正是为了解决这个瓶颈。它是 PixVerse 官方命令行工具,让你可以直接在终端中调用 PixVerse 生成与工作区工作流。文生视频、图生视频、文生图、图生图、转场、口型同步语音、参考视频、动作控制、模板、超分放大和资产管理——都能脚本化、管道化,而且全程无需打开浏览器。

PixVerse CLI 的核心优势在于它以 AI 智能体为中心设计:每条命令都输出结构化 JSON,退出码可预测且确定,每一步管道都可组合复用。这意味着你可以把图像和视频生成任务交给 Claude Code、Cursor、Codex 或其他智能体,并让它们稳定、准确地重复执行。

本指南基于 PixVerse CLI v1.2.1,带你完成完整路径:从安装开始,到第一次生成,再到多步骤自动化流水线与智能体原生工作流。

前置条件

开始前你需要准备:

  • Node.js 20 或更高版本 — 使用 node --version 检查
  • PixVerse 账号 — 在 pixverse.ai 注册
  • 有效的 PixVerse 订阅 — CLI 与官网共用同一积分系统;仅订阅用户可生成内容

PixVerse CLI 不需要你手动复制 API 密钥。认证通过浏览器 OAuth 流程完成,令牌会保存到本地。

第一步:安装 CLI

使用 npm 全局安装:

npm install -g pixverse

验证安装:

pixverse --version

如果你不想全局安装,也可以通过 npx 直接运行命令:

npx pixverse create video --prompt "A cat walking on Mars"

第二步:认证登录

运行登录命令:

pixverse auth login

CLI 会打开浏览器进行 OAuth 设备授权。你也可以复制 URL,在任意设备的浏览器中完成授权,这对于 SSH 或无界面环境尤其方便。令牌会自动保存到 ~/.pixverse/,有效期为 30 天。

验证登录状态并检查可用积分:

pixverse auth status pixverse account info pixverse account slots

account info 命令会显示你的订阅档位、工作区积分和使用上下文。pixverse account usage 可帮助你查看积分消耗,pixverse account slots 会显示当前图像和视频任务的并发生成 slots。执行批量任务前,建议先确认余额和可用 slots。

第三步:生成第一张图像

文生图是验证环境配置的最快方式。运行:

pixverse create image --prompt "A photorealistic forest path at golden hour" --json

In the current CLI,create image 默认使用 GPT Image 2。--json 参数会返回结构化输出:

{ "image_id": 789012, "status": "completed", "image_url": "https://...", "prompt": "A photorealistic forest path at golden hour", "model": "gpt-image-2.0", "width": 1440, "height": 1440 }

如果你需要更高分辨率,请指定支持高分输出的模型:

pixverse create image \ --prompt "A photorealistic forest path at golden hour" \ --model seedream-5.0-lite \ --quality 2160p \ --aspect-ratio 16:9 \ --json

PixVerse 支持多种图像模型,每个模型在分辨率和宽高比支持上各有特点:

模型--model画质说明
GPT Image 2gpt-image-2.01080p, 1440p, 2160p默认图像模型,支持横向和纵向宽高比
Nano Banana 2gemini-3.1-flash512p, 1080p, 1440p, 2160p支持 auto 和标准宽高比,配置灵活
Qwen Imageqwen-image720p, 1080p适合快速生成和常见创意任务
Nano Banana Progemini-3.01080p, 1440p, 2160p面向更大尺寸的高质量图像生成
Nano Bananagemini-2.5-flash1080p轻量图像生成,响应更快
Seedream 5.0 Liteseedream-5.0-lite1440p, 1800p, 2160p高细节创意图像
Seedream 4.5seedream-4.51440p, 2160p高分辨率图像生成
Seedream 4.0seedream-4.01080p, 1440p, 2160pSeedream 系列的另一种图像工作流选项
Kling Image O3kling-image-o31080p, 1440p, 2160p风格化视觉输出与灵活构图
Kling Image V3kling-image-v31080p, 1440p质量与速度平衡

你也可以用图生图转换现有图像:

pixverse create image \ --prompt "Turn this product photo into a clean watercolor illustration" \ --image ./product-photo.png \ --model gpt-image-2.0 \ --json

下载生成图像:

pixverse asset download 789012

第四步:生成第一个视频

文生视频的流程与文生图类似。先生成一段 5 秒短片:

pixverse create video --prompt "A sunset over ocean waves" --json

如果你需要完整自定义参数:

pixverse create video \ --prompt "A cinematic drone shot over a misty mountain valley at dawn" \ --model v6 \ --quality 1080p \ --aspect-ratio 16:9 \ --duration 8 \ --audio \ --json

--audio 参数可启用与视频内容匹配的 AI 环境音。任务完成后,--json 会返回 video_url,可直接传给下载命令或流水线下一步。

PixVerse 提供多个视频模型,画质、时长和模式支持各有不同:

模型--model最大画质时长说明
PixVerse V6v61080p1–15 sec默认视频模型,支持广泛宽高比
PixVerse C1pixverse-c11080p1–15 sec在视频、参考和转场工作流中都有稳定支持
Seedance 2.0 Standardseedance-2.0-standard1080p4–15 sec支持视频、参考和转场模式
Seedance 2.0 Fastseedance-2.0-fast720p4–15 sec更快的 Seedance 选项,支持视频、参考和转场模式
Happy Horse 1.0happyhorse-1.01080p3–15 sec适用于 create video 的音频感知视频选项
Kling O3 Prokling-o3-pro720p3–15 sec支持视频、参考和转场工作流
Kling O3 Standardkling-o3-standard720p3–15 sec标准 Kling O3 选项
Kling 3.0 Prokling-3.0-pro720p3–15 sec支持视频和转场工作流
Kling 3.0 Standardkling-3.0-standard720p3–15 sec标准 Kling 3.0 选项
Grok Imagine 1.5grok-imagine-1.5720p1–15 secImage-to-video only; requires --image and follows the input image aspect ratio
Grok Imagine 1.5grok-imagine-1.5720p1–15 secImage-to-video only; requires --image and follows the input image aspect ratio
Grok Imagine 1.5grok-imagine-1.5720p1–15 secImage-to-video only; requires --image and follows the input image aspect ratio
Grok Imagine 1.5grok-imagine-1.5720p1–15 secImage-to-video only; requires --image and follows the input image aspect ratio
Grok Imaginegrok-imagine720p1–15 sec支持视频、extend 和 reference 工作流
Veo 3.1 Liteveo-3.1-lite1080p4、6 或 8 sec支持视频和双帧转场工作流
Veo 3.1 Standardveo-3.1-standard2160p4、6 或 8 sec更高分辨率的 Veo 选项
Veo 3.1 Fastveo-3.1-fast2160p4、6 或 8 sec更快的 Veo 选项
Sora 2 Prosora-2-pro1080p4、8 或 12 sec固定时长的 Sora 选项
Sora 2sora-2720p4、8 或 12 sec标准 Sora 选项
PixVerse v5.6v5.61080p1–10 sec仍用于 motion-control 和部分生成工作流

让静态图像动起来

想把照片或生成图像转成视频时,请使用 --image 参数:

pixverse create video \ --prompt "Gentle wind moves through the scene" \ --image ./product-photo.jpg \ --model v6 \ --quality 1080p \ --json

你可以传入本地文件路径或 URL。本地文件会自动上传,无需额外手动上传步骤。超过 1920x19205MB 的本地图像输入会在上传前自动调整尺寸或压缩;远程图像 URL 则由后端按原样校验。

使用参考、转场、动作控制和模板

当前 CLI 支持的不只是简单的文生视频和图生视频。当你需要更精确地控制角色、关键帧、编辑或特效时,可以使用这些创作模式:

# 在关键帧之间创建转场 pixverse create transition --images ./frame1.png ./frame2.png # 使用 TTS 或音频文件添加口型同步语音 pixverse create voice --text "Welcome to the launch" --voice-id <preset_voice_id> --output ./voiceover.mp3 pixverse create music --prompt "A cinematic synth-pop intro with bright percussion" --auto-lyrics # 延长生成视频 pixverse create extend --video <video_id> # 修改现有视频 pixverse create modify --video <video_id> --prompt "Change the background to a beach" # 放大视频分辨率 pixverse create upscale --video <video_id> --quality 1080p # 使用参考图像生成视频 pixverse create reference --images ./char1.png ./char2.png --prompt "Two friends walking in a park" # Seedance 2.0 reference 可以混合图像和视频 pixverse create reference \ --model seedance-2.0-standard \ --images ./character.png \ --videos ./motion.mp4 \ --prompt "@image1 follows the motion in @video1" # 使用角色图像和动作参考视频做动作控制 pixverse create motion-control --image ./character.png --video ./dance.mp4 # 使用模板或效果创建内容 pixverse create template --template-id 12345 --image ./photo.png

并非所有模型都支持所有创作模式。例如,create reference 现在支持 v6pixverse-c1、Seedance 2.0、Kling O3、grok-imaginev5.6create modify 对应 v5.5create motion-control 使用 v5.6;口型同步语音使用 v5

第五步:生成语音和音乐

PixVerse CLI v1.2.0 已用专门的音频创建命令替代旧的 lip-sync speech 命令。使用 create voice 进行文本转语音,使用 create music 进行 prompt-to-music 生成。语音和音乐会保存为 audio assets,可通过 task 跟踪,用 asset list --type audio 查看,并用 asset download --type audio 下载。

生成语音音频:

pixverse create voice \ --text "Welcome to the launch. Here is what changed this week." \ --model speech-2.8-hd \ --voice-id <preset_voice_id> \ --output ./voiceover.mp3 \ --json

浏览语音模型和预设声音:

pixverse voice models --json pixverse voice presets --model speech-2.8-hd --json

生成音乐:

pixverse create music \ --prompt "A bright cinematic synth-pop track for a 30-second product reveal" \ --auto-lyrics \ --duration-seconds 30 \ --json

当前语音模型系列包括 MiniMax Speech 2.8 和 ElevenLabs。当前音乐模型系列包括 MiniMax Music、ElevenLabs Music 和 Google Lyria 3 Pro。生产脚本前请用 pixverse voice modelspixverse music models 查看实时目录。

第五步:生成语音和音乐

PixVerse CLI v1.2.0 已用专门的音频创建命令替代旧的 lip-sync speech 命令。使用 create voice 进行文本转语音,使用 create music 进行 prompt-to-music 生成。语音和音乐会保存为 audio assets,可通过 task 跟踪,用 asset list --type audio 查看,并用 asset download --type audio 下载。

生成语音音频:

pixverse create voice \ --text "Welcome to the launch. Here is what changed this week." \ --model speech-2.8-hd \ --voice-id <preset_voice_id> \ --output ./voiceover.mp3 \ --json

浏览语音模型和预设声音:

pixverse voice models --json pixverse voice presets --model speech-2.8-hd --json

生成音乐:

pixverse create music \ --prompt "A bright cinematic synth-pop track for a 30-second product reveal" \ --auto-lyrics \ --duration-seconds 30 \ --json

当前语音模型系列包括 MiniMax Speech 2.8 和 ElevenLabs。当前音乐模型系列包括 MiniMax Music、ElevenLabs Music 和 Google Lyria 3 Pro。生产脚本前请用 pixverse voice modelspixverse music models 查看实时目录。

第五步:运行交互式向导

如果你是第一次使用,对全部参数还不熟悉,可以不带参数运行创建命令,进入引导式向导:

pixverse create video pixverse create image

向导会一步步带你设置提示词、模型、画质、宽高比、时长等选项,便于你在脚本化之前先了解参数空间。

超越生成:管理资产与工作区

最新 PixVerse CLI 还提供了管理类命令,方便你构建端到端终端工作流:

  • pixverse task status <id>pixverse task wait <id> 用于任务轮询
  • pixverse task status --ids 123,456,789 --type video --json 用于批量检查任务状态
  • pixverse asset listasset uploadasset infoasset downloadasset delete 用于资产全生命周期管理
  • pixverse saved listsaved itemssaved newsaved renamesaved addsaved removesaved delete 用于收藏文件夹管理
  • pixverse template categoriestemplate listtemplate searchtemplate info 用于发现效果和模板
  • pixverse workspace listworkspace statusworkspace switchworkspace manage 用于多工作区操作
  • pixverse account infoaccount usageaccount slots 用于检查积分、用量和并发
  • pixverse config setconfig listconfig pathconfig defaults 用于可复用本地默认值

这让你不仅能自动化生成,也能在同一脚本中自动化组织、模板发现、下载、工作区路由与交付。如果你需要让单条命令运行在另一个工作区,可使用全局 --workspace-id <id> 参数;0 表示个人工作区。

适合脚本的参数

大多数自动化都依赖可预测的输出和运行行为。以下参数尤其适合脚本和 AI 智能体工作流:

参数用途
--json返回结构化 JSON 输出
-p--json 的短别名
--count <n>从一次请求生成 1–4 个变体
--seed <number>让生成更容易复现
--off-peak在可用时使用非高峰价格
--audio / --no-audio在支持的创作命令中启用或禁用音频生成
--multi-shot / --no-multi-shot为视频启用或禁用 multi-shot 模式
--no-wait提交任务后立即返回
--timeout <sec>设置轮询超时,默认 300 秒
--workspace-id <id>为单条命令覆盖当前工作区
--trace-id <uuid>Attach a caller-supplied UUIDv4 to API requests for debugging and observability
--idempotency-key <key>Safely retry creation requests without accidentally creating duplicate charged jobs
--trace-id <uuid>Attach a caller-supplied UUIDv4 to API requests for debugging and observability
--idempotency-key <key>Safely retry creation requests without accidentally creating duplicate charged jobs
--trace-id <uuid>Attach a caller-supplied UUIDv4 to API requests for debugging and observability
--idempotency-key <key>Safely retry creation requests without accidentally creating duplicate charged jobs
--trace-id <uuid>Attach a caller-supplied UUIDv4 to API requests for debugging and observability
--idempotency-key <key>Safely retry creation requests without accidentally creating duplicate charged jobs

教你的 AI 智能体生成媒体

这正是 PixVerse CLI 的关键价值。由于每条命令都返回结构化 JSON 且退出码可预测,任何能够执行 shell 命令的 AI 智能体都能被训练为按需生成图像与视频。

安装 PixVerse Skills

PixVerse Skills 是一套结构化技能库,用于教会智能体正确使用 CLI:参数约束、模型限制、多步骤流水线和稳健错误处理。

对于 Claude Code 以及支持 skills 格式的其他智能体,可直接添加 PixVerse skills:

npx skills add https://github.com/pixverseai/skills --skill pixverse-ai-image-and-video-generator

对于 Cursor、Claude Code、Codex 及其他智能体框架,这套技能可以显著提升稳定性,因为它为智能体提供了显式约束,而不是让它从零推断。

当智能体加载 PixVerse skills 后,你可以直接给自然语言指令,例如:

  • “Generate a 10-second product demo video from this screenshot”
  • “Create four variations of this blog cover image in 16:9 format”
  • “Animate this diagram into a 5-second explainer clip with ambient sound”
  • “Generate three 8-second 16:9 promo clips with different camera motions”

智能体会把这些指令转换成正确的 CLI 命令,解析 JSON 输出,并自动处理轮询与下载,全程无需人工介入。

Claude Code

在 Claude Code 中,PixVerse CLI 会成为智能体可自主调用的原生工具。加载 PixVerse skills 后,你可以把媒体生成直接并入任意任务:

Generate a cover image for this blog post about machine learning, use the seedream-5.0-lite model at 2160p in 16:9 format, download it to ./assets/cover.webp

Claude Code 会调用正确命令,从 JSON 响应中解析图像 URL,并下载到你指定路径,同时继续在同一会话中完成代码工作。

典型的 Claude Code 工作流:

# Claude Code 会根据你的指令自动运行 IMG=$(pixverse create image \ --prompt "Abstract visualization of neural network layers, dark background, blue and purple tones" \ --model seedream-5.0-lite \ --quality 2160p \ --aspect-ratio 16:9 \ --json | jq -r '.image_url') # 然后将其动画化 pixverse create video \ --prompt "Slow pan across glowing neural connections" \ --image "$IMG" \ --model v6 \ --quality 1080p \ --duration 6 \ --json

Cursor

Cursor 用户可以将 PixVerse Skills 作为项目上下文文件加载。把相关技能文件放入 .cursor/ 目录,或加入工作区规则。加载后,Cursor 能完整理解 PixVerse CLI 全部命令,并在编码任务中直接执行媒体生成。

常见的 Cursor 用法是:让智能体基于你正在开发的设计生成 mockup 图像,然后在 IDE 会话里直接引用,全程无需离开编辑器。

Codex 与其他智能体

PixVerse CLI 与所有可以执行 shell 命令并解析 JSON 的智能体兼容。其结构化输出格式——一致字段名、可预测错误码、与 stderr 分离的错误信息——确保即便是简单脚本型智能体也能稳定集成生成能力。

退出码约定让错误处理非常直接:

Code含义智能体动作
0成功解析 JSON 输出
1通用错误检查 stderr 并使用已校验输入重试
2超时使用更长 --timeout 重试
3认证过期重新运行 pixverse auth login
4积分不足检查余额并通知用户
5生成失败尝试其他参数
6参数校验错误检查 flag 值

自动化流水线

理解单条命令后,PixVerse CLI 就可以解锁完全无需人工交互的多步骤强大流程。

文生图到图生视频

这是最实用的流水线之一:先通过文本提示生成高分辨率图像,再将其动画化为视频。

# 第一步:生成基础图像 IMG_RESULT=$(pixverse create image \ --prompt "A cyberpunk cityscape at night, neon lights reflecting on wet pavement" \ --model gemini-3.1-flash \ --quality 2160p \ --aspect-ratio 16:9 \ --json) IMAGE_URL=$(echo "$IMG_RESULT" | jq -r '.image_url') # 第二步:将图像动画化为视频 VID_RESULT=$(pixverse create video \ --prompt "Camera slowly pans across the neon-lit streets" \ --image "$IMAGE_URL" \ --model v6 \ --quality 1080p \ --duration 8 \ --json) VIDEO_ID=$(echo "$VID_RESULT" | jq -r '.video_id') # 第三步:下载最终视频 pixverse asset download "$VIDEO_ID" --json

完整视频制作流水线

For polished output, chain creation with post-processing steps. create sound was removed in v1.1.8 and create speech was removed in v1.2.0, so use --audio or --no-audio on supported video creation commands, create voice for text-to-speech audio, and create music for standalone music assets:

# 第一步:创建基础视频 RESULT=$(pixverse create video \ --prompt "A product being assembled in slow motion" \ --model v6 \ --quality 720p \ --duration 5 \ --audio \ --json) VID=$(echo "$RESULT" | jq -r '.video_id') # 第二步:延长时长 EXTENDED=$(pixverse create extend \ --video "$VID" \ --json | jq -r '.video_id') pixverse task wait "$EXTENDED" --json # 第三步:放大到 1080p FINAL=$(pixverse create upscale \ --video "$EXTENDED" \ --quality 1080p \ --json | jq -r '.video_id') pixverse task wait "$FINAL" --json # 第四步:下载 pixverse asset download "$FINAL" --json

批量生成

如果内容流水线需要多个版本,可以并行提交任务:

# 先检查积分和并发生成 slots pixverse account info --json pixverse account slots --json # 并行提交四个生成任务 pixverse create video --prompt "Sunrise over mountains" --no-wait --json > /tmp/v1.json & pixverse create video --prompt "Sunset over ocean" --no-wait --json > /tmp/v2.json & pixverse create video --prompt "Stars over a desert" --no-wait --json > /tmp/v3.json & pixverse create video --prompt "Aurora over a frozen lake" --no-wait --json > /tmp/v4.json & wait # 用一次批量状态调用检查所有返回的任务 ID IDS=$(jq -r '.video_id' /tmp/v1.json /tmp/v2.json /tmp/v3.json /tmp/v4.json | paste -sd, -) pixverse task status --ids "$IDS" --type video --json # 逐个等待完成并下载 for f in /tmp/v1.json /tmp/v2.json /tmp/v3.json /tmp/v4.json; do ID=$(jq -r '.video_id' "$f") pixverse task wait "$ID" --json pixverse asset download "$ID" --json done

--no-wait 会在提交后立即返回任务 ID,便于你先提交多个任务再统一轮询。在较新的版本中,--no-wait --json 还会返回解析后的创作参数,方便日志记录和复现。需要从同一提示词生成多个变体时可使用 --count <n>;需要一次查看多个运行任务时可使用批量 task status --idspixverse task wait 会自动执行自适应轮询,你无需手动写 sleep 循环。

配置默认值

如果你长期使用固定模型、画质或宽高比,可以设为默认值,减少重复输入:

pixverse config defaults set video model v6 pixverse config defaults set video quality 1080p pixverse config defaults set image model seedream-5.0-lite pixverse config set output-dir ~/Downloads/pixverse pixverse config defaults show pixverse config list pixverse config path

命令行 flags 会始终覆盖默认配置,因此你在减少重复的同时仍保有完整灵活性。对于特定工作区自动化,可在单条命令中添加 --workspace-id <id> 覆盖当前活动工作区。

你可以构建什么

当 PixVerse CLI 接入智能体工作流后,可自动化任务的范围会显著扩展:

  • 文档 — 在文档构建流程中自动生成产品演示视频与截图
  • 营销 — 运行夜间批任务,从同一提示词库批量生成社媒内容变体
  • 应用开发 — 让编码智能体在你开发 UI 时并行生成占位视觉、mockup 动画或加载页视频
  • 内容流水线 — 将 CLI 与其他工具(ffmpeg、ImageMagick、云存储)串联,构建全自动媒体生产流程
  • 原型验证 — 数秒内生成运动概念,先验证想法再投入完整制作

CLI 被设计为可自然融入任何基于 shell 的流程。无论你的自动化运行在 bash、Python、Node 还是 CI/CD 管道中,PixVerse CLI 都能低成本接入。

快速开始清单

  • 安装 Node.js 20 或更高版本
  • 运行 npm install -g pixverse
  • 运行 pixverse auth login 并在浏览器完成授权
  • 运行 pixverse account info 确认积分
  • 并发批量任务前运行 pixverse account slots
  • 生成第一张图:pixverse create image --prompt "..." --json
  • 生成第一个视频:pixverse create video --prompt "..." --json
  • 使用 pixverse template list 探索模板
  • 为你的智能体安装 PixVerse Skills(Claude Code、Cursor 或 Codex)
  • 使用 pixverse config defaults set 设置常用默认参数
  • 构建你的第一个自动化流水线

保持 CLI 最新

使用 npm 更新本地 CLI:

pixverse update

如需查看版本级更新和新支持模型,请查看官方 CLI 更新日志:

As of v1.2.1, recent changes include Grok Imagine 1.5 image-to-video support, dedicated create voice and create music commands, audio asset management, capabilities.json for agents, pixverse update, stdin support for text inputs, --trace-id, and expanded Seedance 2.0 reference-image limits.

下一步

npm 上的 PixVerse CLI(npm install -g pixverse)让你通过单一界面立即调用生成、任务轮询、资产管理、模板、收藏夹、账号检查与工作区控制。PixVerse Skills 仓库 则提供智能体可用的结构化指导,让 Claude Code、Cursor、Codex 等工具更稳定地执行这些流程。

稳定可靠的 CLI 加上面向智能体的技能库,意味着图像与视频生成可以和代码工作保持在同一流程中:同一个智能体、同一个终端、无需切换工具。

从一条命令开始,然后持续扩展。