PixVerse CLI:AI 视频、图像与音频生成
安装 PixVerse CLI v1.2.1,在终端生成视频、图像、语音和音乐,管理资产,并自动化 AI 智能体媒体工作流。
简介
每个创意工作流都有一个瓶颈:你不得不离开代码编辑器、打开浏览器,并在网页界面里手动点击来生成媒体内容。对于开发者、AI 智能体,以及所有在构建自动化内容流水线的人来说,这种上下文切换会持续带来高成本摩擦。
PixVerse CLI 正是为了解决这个瓶颈。它是 PixVerse 官方命令行工具,让你可以直接在终端中调用 PixVerse 生成与工作区工作流。文生视频、图生视频、文生图、图生图、转场、口型同步语音、参考视频、动作控制、模板、超分放大和资产管理——都能脚本化、管道化,而且全程无需打开浏览器。
PixVerse CLI 的核心优势在于它以 AI 智能体为中心设计:每条命令都输出结构化 JSON,退出码可预测且确定,每一步管道都可组合复用。这意味着你可以把图像和视频生成任务交给 Claude Code、Cursor、Codex 或其他智能体,并让它们稳定、准确地重复执行。
本指南基于 PixVerse CLI v1.2.1,带你完成完整路径:从安装开始,到第一次生成,再到多步骤自动化流水线与智能体原生工作流。
前置条件
开始前你需要准备:
- Node.js 20 或更高版本 — 使用
node --version检查 - PixVerse 账号 — 在 pixverse.ai 注册
- 有效的 PixVerse 订阅 — CLI 与官网共用同一积分系统;仅订阅用户可生成内容
PixVerse CLI 不需要你手动复制 API 密钥。认证通过浏览器 OAuth 流程完成,令牌会保存到本地。
第一步:安装 CLI
使用 npm 全局安装:
验证安装:
如果你不想全局安装,也可以通过 npx 直接运行命令:
第二步:认证登录
运行登录命令:
CLI 会打开浏览器进行 OAuth 设备授权。你也可以复制 URL,在任意设备的浏览器中完成授权,这对于 SSH 或无界面环境尤其方便。令牌会自动保存到 ~/.pixverse/,有效期为 30 天。
验证登录状态并检查可用积分:
account info 命令会显示你的订阅档位、工作区积分和使用上下文。pixverse account usage 可帮助你查看积分消耗,pixverse account slots 会显示当前图像和视频任务的并发生成 slots。执行批量任务前,建议先确认余额和可用 slots。
第三步:生成第一张图像
文生图是验证环境配置的最快方式。运行:
In the current CLI,create image 默认使用 GPT Image 2。--json 参数会返回结构化输出:
如果你需要更高分辨率,请指定支持高分输出的模型:
PixVerse 支持多种图像模型,每个模型在分辨率和宽高比支持上各有特点:
| 模型 | --model 值 | 画质 | 说明 |
|---|---|---|---|
| GPT Image 2 | gpt-image-2.0 | 1080p, 1440p, 2160p | 默认图像模型,支持横向和纵向宽高比 |
| Nano Banana 2 | gemini-3.1-flash | 512p, 1080p, 1440p, 2160p | 支持 auto 和标准宽高比,配置灵活 |
| Qwen Image | qwen-image | 720p, 1080p | 适合快速生成和常见创意任务 |
| Nano Banana Pro | gemini-3.0 | 1080p, 1440p, 2160p | 面向更大尺寸的高质量图像生成 |
| Nano Banana | gemini-2.5-flash | 1080p | 轻量图像生成,响应更快 |
| Seedream 5.0 Lite | seedream-5.0-lite | 1440p, 1800p, 2160p | 高细节创意图像 |
| Seedream 4.5 | seedream-4.5 | 1440p, 2160p | 高分辨率图像生成 |
| Seedream 4.0 | seedream-4.0 | 1080p, 1440p, 2160p | Seedream 系列的另一种图像工作流选项 |
| Kling Image O3 | kling-image-o3 | 1080p, 1440p, 2160p | 风格化视觉输出与灵活构图 |
| Kling Image V3 | kling-image-v3 | 1080p, 1440p | 质量与速度平衡 |
你也可以用图生图转换现有图像:
下载生成图像:
第四步:生成第一个视频
文生视频的流程与文生图类似。先生成一段 5 秒短片:
如果你需要完整自定义参数:
--audio 参数可启用与视频内容匹配的 AI 环境音。任务完成后,--json 会返回 video_url,可直接传给下载命令或流水线下一步。
PixVerse 提供多个视频模型,画质、时长和模式支持各有不同:
| 模型 | --model 值 | 最大画质 | 时长 | 说明 |
|---|---|---|---|---|
| PixVerse V6 | v6 | 1080p | 1–15 sec | 默认视频模型,支持广泛宽高比 |
| PixVerse C1 | pixverse-c1 | 1080p | 1–15 sec | 在视频、参考和转场工作流中都有稳定支持 |
| Seedance 2.0 Standard | seedance-2.0-standard | 1080p | 4–15 sec | 支持视频、参考和转场模式 |
| Seedance 2.0 Fast | seedance-2.0-fast | 720p | 4–15 sec | 更快的 Seedance 选项,支持视频、参考和转场模式 |
| Happy Horse 1.0 | happyhorse-1.0 | 1080p | 3–15 sec | 适用于 create video 的音频感知视频选项 |
| Kling O3 Pro | kling-o3-pro | 720p | 3–15 sec | 支持视频、参考和转场工作流 |
| Kling O3 Standard | kling-o3-standard | 720p | 3–15 sec | 标准 Kling O3 选项 |
| Kling 3.0 Pro | kling-3.0-pro | 720p | 3–15 sec | 支持视频和转场工作流 |
| Kling 3.0 Standard | kling-3.0-standard | 720p | 3–15 sec | 标准 Kling 3.0 选项 |
| Grok Imagine 1.5 | grok-imagine-1.5 | 720p | 1–15 sec | Image-to-video only; requires --image and follows the input image aspect ratio |
| Grok Imagine 1.5 | grok-imagine-1.5 | 720p | 1–15 sec | Image-to-video only; requires --image and follows the input image aspect ratio |
| Grok Imagine 1.5 | grok-imagine-1.5 | 720p | 1–15 sec | Image-to-video only; requires --image and follows the input image aspect ratio |
| Grok Imagine 1.5 | grok-imagine-1.5 | 720p | 1–15 sec | Image-to-video only; requires --image and follows the input image aspect ratio |
| Grok Imagine | grok-imagine | 720p | 1–15 sec | 支持视频、extend 和 reference 工作流 |
| Veo 3.1 Lite | veo-3.1-lite | 1080p | 4、6 或 8 sec | 支持视频和双帧转场工作流 |
| Veo 3.1 Standard | veo-3.1-standard | 2160p | 4、6 或 8 sec | 更高分辨率的 Veo 选项 |
| Veo 3.1 Fast | veo-3.1-fast | 2160p | 4、6 或 8 sec | 更快的 Veo 选项 |
| Sora 2 Pro | sora-2-pro | 1080p | 4、8 或 12 sec | 固定时长的 Sora 选项 |
| Sora 2 | sora-2 | 720p | 4、8 或 12 sec | 标准 Sora 选项 |
| PixVerse v5.6 | v5.6 | 1080p | 1–10 sec | 仍用于 motion-control 和部分生成工作流 |
让静态图像动起来
想把照片或生成图像转成视频时,请使用 --image 参数:
你可以传入本地文件路径或 URL。本地文件会自动上传,无需额外手动上传步骤。超过 1920x1920 或 5MB 的本地图像输入会在上传前自动调整尺寸或压缩;远程图像 URL 则由后端按原样校验。
使用参考、转场、动作控制和模板
当前 CLI 支持的不只是简单的文生视频和图生视频。当你需要更精确地控制角色、关键帧、编辑或特效时,可以使用这些创作模式:
并非所有模型都支持所有创作模式。例如,create reference 现在支持 v6、pixverse-c1、Seedance 2.0、Kling O3、grok-imagine 和 v5.6;create modify 对应 v5.5;create motion-control 使用 v5.6;口型同步语音使用 v5。
第五步:生成语音和音乐
PixVerse CLI v1.2.0 已用专门的音频创建命令替代旧的 lip-sync speech 命令。使用 create voice 进行文本转语音,使用 create music 进行 prompt-to-music 生成。语音和音乐会保存为 audio assets,可通过 task 跟踪,用 asset list --type audio 查看,并用 asset download --type audio 下载。
生成语音音频:
浏览语音模型和预设声音:
生成音乐:
当前语音模型系列包括 MiniMax Speech 2.8 和 ElevenLabs。当前音乐模型系列包括 MiniMax Music、ElevenLabs Music 和 Google Lyria 3 Pro。生产脚本前请用 pixverse voice models 和 pixverse music models 查看实时目录。
第五步:生成语音和音乐
PixVerse CLI v1.2.0 已用专门的音频创建命令替代旧的 lip-sync speech 命令。使用 create voice 进行文本转语音,使用 create music 进行 prompt-to-music 生成。语音和音乐会保存为 audio assets,可通过 task 跟踪,用 asset list --type audio 查看,并用 asset download --type audio 下载。
生成语音音频:
浏览语音模型和预设声音:
生成音乐:
当前语音模型系列包括 MiniMax Speech 2.8 和 ElevenLabs。当前音乐模型系列包括 MiniMax Music、ElevenLabs Music 和 Google Lyria 3 Pro。生产脚本前请用 pixverse voice models 和 pixverse music models 查看实时目录。
第五步:运行交互式向导
如果你是第一次使用,对全部参数还不熟悉,可以不带参数运行创建命令,进入引导式向导:
向导会一步步带你设置提示词、模型、画质、宽高比、时长等选项,便于你在脚本化之前先了解参数空间。
超越生成:管理资产与工作区
最新 PixVerse CLI 还提供了管理类命令,方便你构建端到端终端工作流:
pixverse task status <id>与pixverse task wait <id>用于任务轮询pixverse task status --ids 123,456,789 --type video --json用于批量检查任务状态pixverse asset list、asset upload、asset info、asset download和asset delete用于资产全生命周期管理pixverse saved list、saved items、saved new、saved rename、saved add、saved remove和saved delete用于收藏文件夹管理pixverse template categories、template list、template search和template info用于发现效果和模板pixverse workspace list、workspace status、workspace switch和workspace manage用于多工作区操作pixverse account info、account usage和account slots用于检查积分、用量和并发pixverse config set、config list、config path和config defaults用于可复用本地默认值
这让你不仅能自动化生成,也能在同一脚本中自动化组织、模板发现、下载、工作区路由与交付。如果你需要让单条命令运行在另一个工作区,可使用全局 --workspace-id <id> 参数;0 表示个人工作区。
适合脚本的参数
大多数自动化都依赖可预测的输出和运行行为。以下参数尤其适合脚本和 AI 智能体工作流:
| 参数 | 用途 |
|---|---|
--json | 返回结构化 JSON 输出 |
-p | --json 的短别名 |
--count <n> | 从一次请求生成 1–4 个变体 |
--seed <number> | 让生成更容易复现 |
--off-peak | 在可用时使用非高峰价格 |
--audio / --no-audio | 在支持的创作命令中启用或禁用音频生成 |
--multi-shot / --no-multi-shot | 为视频启用或禁用 multi-shot 模式 |
--no-wait | 提交任务后立即返回 |
--timeout <sec> | 设置轮询超时,默认 300 秒 |
--workspace-id <id> | 为单条命令覆盖当前工作区 |
--trace-id <uuid> | Attach a caller-supplied UUIDv4 to API requests for debugging and observability |
--idempotency-key <key> | Safely retry creation requests without accidentally creating duplicate charged jobs |
--trace-id <uuid> | Attach a caller-supplied UUIDv4 to API requests for debugging and observability |
--idempotency-key <key> | Safely retry creation requests without accidentally creating duplicate charged jobs |
--trace-id <uuid> | Attach a caller-supplied UUIDv4 to API requests for debugging and observability |
--idempotency-key <key> | Safely retry creation requests without accidentally creating duplicate charged jobs |
--trace-id <uuid> | Attach a caller-supplied UUIDv4 to API requests for debugging and observability |
--idempotency-key <key> | Safely retry creation requests without accidentally creating duplicate charged jobs |
教你的 AI 智能体生成媒体
这正是 PixVerse CLI 的关键价值。由于每条命令都返回结构化 JSON 且退出码可预测,任何能够执行 shell 命令的 AI 智能体都能被训练为按需生成图像与视频。
安装 PixVerse Skills
PixVerse Skills 是一套结构化技能库,用于教会智能体正确使用 CLI:参数约束、模型限制、多步骤流水线和稳健错误处理。
对于 Claude Code 以及支持 skills 格式的其他智能体,可直接添加 PixVerse skills:
对于 Cursor、Claude Code、Codex 及其他智能体框架,这套技能可以显著提升稳定性,因为它为智能体提供了显式约束,而不是让它从零推断。
当智能体加载 PixVerse skills 后,你可以直接给自然语言指令,例如:
- “Generate a 10-second product demo video from this screenshot”
- “Create four variations of this blog cover image in 16:9 format”
- “Animate this diagram into a 5-second explainer clip with ambient sound”
- “Generate three 8-second 16:9 promo clips with different camera motions”
智能体会把这些指令转换成正确的 CLI 命令,解析 JSON 输出,并自动处理轮询与下载,全程无需人工介入。
Claude Code
在 Claude Code 中,PixVerse CLI 会成为智能体可自主调用的原生工具。加载 PixVerse skills 后,你可以把媒体生成直接并入任意任务:
Claude Code 会调用正确命令,从 JSON 响应中解析图像 URL,并下载到你指定路径,同时继续在同一会话中完成代码工作。
典型的 Claude Code 工作流:
Cursor
Cursor 用户可以将 PixVerse Skills 作为项目上下文文件加载。把相关技能文件放入 .cursor/ 目录,或加入工作区规则。加载后,Cursor 能完整理解 PixVerse CLI 全部命令,并在编码任务中直接执行媒体生成。
常见的 Cursor 用法是:让智能体基于你正在开发的设计生成 mockup 图像,然后在 IDE 会话里直接引用,全程无需离开编辑器。
Codex 与其他智能体
PixVerse CLI 与所有可以执行 shell 命令并解析 JSON 的智能体兼容。其结构化输出格式——一致字段名、可预测错误码、与 stderr 分离的错误信息——确保即便是简单脚本型智能体也能稳定集成生成能力。
退出码约定让错误处理非常直接:
| Code | 含义 | 智能体动作 |
|---|---|---|
| 0 | 成功 | 解析 JSON 输出 |
| 1 | 通用错误 | 检查 stderr 并使用已校验输入重试 |
| 2 | 超时 | 使用更长 --timeout 重试 |
| 3 | 认证过期 | 重新运行 pixverse auth login |
| 4 | 积分不足 | 检查余额并通知用户 |
| 5 | 生成失败 | 尝试其他参数 |
| 6 | 参数校验错误 | 检查 flag 值 |
自动化流水线
理解单条命令后,PixVerse CLI 就可以解锁完全无需人工交互的多步骤强大流程。
文生图到图生视频
这是最实用的流水线之一:先通过文本提示生成高分辨率图像,再将其动画化为视频。
完整视频制作流水线
For polished output, chain creation with post-processing steps. create sound was removed in v1.1.8 and create speech was removed in v1.2.0, so use --audio or --no-audio on supported video creation commands, create voice for text-to-speech audio, and create music for standalone music assets:
批量生成
如果内容流水线需要多个版本,可以并行提交任务:
--no-wait 会在提交后立即返回任务 ID,便于你先提交多个任务再统一轮询。在较新的版本中,--no-wait --json 还会返回解析后的创作参数,方便日志记录和复现。需要从同一提示词生成多个变体时可使用 --count <n>;需要一次查看多个运行任务时可使用批量 task status --ids。pixverse task wait 会自动执行自适应轮询,你无需手动写 sleep 循环。
配置默认值
如果你长期使用固定模型、画质或宽高比,可以设为默认值,减少重复输入:
命令行 flags 会始终覆盖默认配置,因此你在减少重复的同时仍保有完整灵活性。对于特定工作区自动化,可在单条命令中添加 --workspace-id <id> 覆盖当前活动工作区。
你可以构建什么
当 PixVerse CLI 接入智能体工作流后,可自动化任务的范围会显著扩展:
- 文档 — 在文档构建流程中自动生成产品演示视频与截图
- 营销 — 运行夜间批任务,从同一提示词库批量生成社媒内容变体
- 应用开发 — 让编码智能体在你开发 UI 时并行生成占位视觉、mockup 动画或加载页视频
- 内容流水线 — 将 CLI 与其他工具(ffmpeg、ImageMagick、云存储)串联,构建全自动媒体生产流程
- 原型验证 — 数秒内生成运动概念,先验证想法再投入完整制作
CLI 被设计为可自然融入任何基于 shell 的流程。无论你的自动化运行在 bash、Python、Node 还是 CI/CD 管道中,PixVerse CLI 都能低成本接入。
快速开始清单
- 安装 Node.js 20 或更高版本
- 运行
npm install -g pixverse - 运行
pixverse auth login并在浏览器完成授权 - 运行
pixverse account info确认积分 - 并发批量任务前运行
pixverse account slots - 生成第一张图:
pixverse create image --prompt "..." --json - 生成第一个视频:
pixverse create video --prompt "..." --json - 使用
pixverse template list探索模板 - 为你的智能体安装 PixVerse Skills(Claude Code、Cursor 或 Codex)
- 使用
pixverse config defaults set设置常用默认参数 - 构建你的第一个自动化流水线
保持 CLI 最新
使用 npm 更新本地 CLI:
如需查看版本级更新和新支持模型,请查看官方 CLI 更新日志:
As of v1.2.1, recent changes include Grok Imagine 1.5 image-to-video support, dedicated create voice and create music commands, audio asset management, capabilities.json for agents, pixverse update, stdin support for text inputs, --trace-id, and expanded Seedance 2.0 reference-image limits.
下一步
npm 上的 PixVerse CLI(npm install -g pixverse)让你通过单一界面立即调用生成、任务轮询、资产管理、模板、收藏夹、账号检查与工作区控制。PixVerse Skills 仓库 则提供智能体可用的结构化指导,让 Claude Code、Cursor、Codex 等工具更稳定地执行这些流程。
稳定可靠的 CLI 加上面向智能体的技能库,意味着图像与视频生成可以和代码工作保持在同一流程中:同一个智能体、同一个终端、无需切换工具。
从一条命令开始,然后持续扩展。