AI 视频提示词指南：7 个实测修正让视频更好

学习 7 个 AI 视频提示词修正方法，结合好坏案例、PixVerse 提示词测试和适配多数模型的文生视频、图生视频规则。

PixVerse Research • 2026年6月30日

大多数 AI 视频提示词失败，并不是因为想象力不够，而是因为创作者把图像生成里有效的习惯直接搬到了视频生成里。视频模型要同时处理运动、时间、镜头、主体一致性，有时还要处理声音，因此提示词的写法需要更像明确的镜头指令。

这篇 AI 视频提示词指南聚焦 7 个实用修正方法。它们适用于 PixVerse 上可对比的模型，包括 Seedance 2.0、HappyHorse 1.0、PixVerse V6、PixVerse C1、Kling O3 和 Kling 3.0，也适用于多数主流 AI 视频生成器。因为常见失败点是共通的：提示词过载、风格词模糊、镜头运动冲突、假 negative prompt、速度词导致抖动、参考图漂移，以及泛泛的质量形容词。

目标不是让每个提示词都更短或更技术化，而是让每条指令都有必要存在。好的视频提示词会先说清楚最重要的画面，给出一条干净的运动路径，保护主体一致性，并用具体可见的语言替代空泛的审美词。

在 PixVerse 测试 AI 视频提示词

我们如何测试这些 AI 视频提示词

本文的 7 个提示词案例都在 PixVerse 中使用同一套基准生成设置测试，并统一开启声音。这里的目的不是强调某一个模型专属技巧，而是在保持测试环境一致的前提下，观察提示词结构本身带来的差异。源视频时长约为 5 秒；其中 6 个为 1280x720 横版输出，参考图案例为 720x1280 竖版输出。每个文件都包含音轨。

我们的评估标准偏实用，而不是排行榜式打分。每个视频都会按 6 个生产维度审看：

提示词遵循度： 是否执行了核心指令？
运动控制： 主要动作是否清晰，且没有明显抖动或崩坏？
主体一致性： 产品、人物或物体是否保持形状？
镜头稳定性： 指定的镜头路径是否干净？
声音可用性： 提示词是否给了模型可用的声音线索？
生产可用性： 这个片段能否用于博客、广告草稿、提案或提示词教程，而不会让读者困惑？

这些规则属于跨模型启发式方法，因为大多数当前 AI 视频生成器都有相似压力点：时间漂移、运动含义模糊、镜头路径不稳，以及主体指令互相竞争。

如果你想进一步了解本次测试提到的模型，可以参考 PixVerse 的 Seedance 2.0 评测、HappyHorse 1.0 vs Seedance 2.0 对比和 Kling O3 与 Kling 3.0 评测。如果你希望把提示词测试接入可重复的生产流程，AI 视频 API 指南介绍了文生视频与图生视频工作流的自动化方式。

Tip 1：提示词越长，效果不一定越好

更长的提示词容易给人安全感，因为它看起来提供了更多细节。但在实践中，过长的 AI 视频提示词常常会稀释主指令。第一句话通常承载最强控制力，后面的细节可能变成彼此竞争的弱建议。

常见误区：把 200 字提示词当成更强控制

错误提示词：

视频提示词：一个奢华香水瓶在优雅影棚中，美丽灯光，电影感反射，高级商业质感，昂贵材料，柔和粒子，平滑运动，精致氛围，高质量，细腻纹理，戏剧化镜头运动，情绪叙事，奢侈品牌能量，真实玻璃，金色液体，闪亮高光，慢动作，优雅阴影，完美构图，不要变形，不要闪烁，不要坏解剖，不要杂乱背景，不要多余物体，专业视频，爆款广告风格。

这个提示词看起来很详细，但大多数细节要么泛泛而谈，要么互相重复。模型需要在产品运动、灯光、风格、反射、粒子、质量标签和否定表达之间做选择，核心指令反而被埋没了。

为什么会失败

视频模型会把文本作为一串指令来处理。核心动作越早出现、越清晰，模型越容易在时间维度上保持它。对长视频尤其如此，因为时间一致性本身已经很难。OpenAI 关于 Sora 的研究也提到，视频模型在精确物理和因果关系上仍然面临挑战，因此在主想法之后不断追加弱指令，并不会自动带来更强控制。

修正方法

使用 50 到 80 字左右的结构：

第 1 句：主体 + 动作 + 场景。
第 2 句：镜头 + 风格。
第 3 句：约束条件。

更好的提示词：

视频提示词：一个透明玻璃香水瓶立在黑色大理石上，温暖轮廓光穿过金色液体。瓶身做一个非常小的展示转动，只露出轻微侧边，然后回到居中的 hero 位置。镜头从标签高度缓慢微距推进到瓶盖，奢华影棚产品灯光，瓶后有柔和金色尘埃。结尾保持稳定居中产品画面，无文字覆盖，无多余物体。声音：细微玻璃移动声，柔和影棚环境音。

真实提示词测试

测试设置：PixVerse 视频生成，7 个案例统一使用同一套基准设置。生成设置：5 秒，720p 分辨率，16:9 画幅，开启声音，用于细微玻璃移动声和影棚环境音。测试目标：一个紧凑提示词能否在不埋没主动作的情况下保持产品身份、克制运动、灯光和镜头控制。

在这个产品广告测试中，清晰提示词有效的原因是它让主动作非常容易理解：产品瓶做一个克制的展示运动，同时镜头在可控的商业布光中推进。瓶身保持居中，金色液体透过玻璃清晰可见，温暖背光营造出高级产品氛围，而不需要依赖一长串形容词。

关键结论是：短不等于模糊。一个有明确主体、一个克制动作、一个镜头运动和少量约束的紧凑提示词，往往比堆满偏好的长提示词更好。

Tip 2：“Cinematic” 几乎没有实际控制力

“Cinematic” 是 AI 视频提示词里最常见的词之一，但它太宽泛，难以稳定控制。它可以指恐怖片阴影、浪漫金色光、纪录片真实感、科幻雾气，或很多彼此无关的电影风格。

常见误区：把 “cinematic” 当作质量开关

错误提示词：

视频提示词：一个退休侦探在雨夜小巷中行走。Cinematic，professional，dramatic，movie quality。

这给了模型一个情绪方向，但没有给出具体画面。输出可能很暗、很亮、黑色电影风、手持感、商业感、粗粝感，或任何中间状态。

为什么会失败

训练数据会把 “cinematic” 这样的宽泛词和许多视觉分布联系在一起。除非你说清楚具体视觉语言，模型并不知道你想要哪一种 cinematic：灯光、镜头感、构图、镜头路径、色彩，或者某种可识别的导演式风格。Runway Gen-3 Alpha 研究中强调描述性视频 caption，也说明具体视觉语言比模糊标签更有用。

修正方法

用更窄的视觉线索替代 “cinematic”：

导演式构图、灯光设置、镜头行为、画幅比例或色彩方案。

更好的提示词：

视频提示词：一个穿深色长风衣的退休侦探在雨夜湿漉漉的小巷中行走。镜头从远景缓慢推进到中近景，红蓝霓虹倒映在湿鹅卵石路面上，小巷呈单点透视，实用霓虹招牌产生 2.39:1 anamorphic 镜头眩光，香烟烟雾掠过他的脸。声音：雨滴落在路面上，远处车流，轻微霓虹电流声。

真实提示词测试

测试设置：PixVerse 视频生成，7 个案例统一使用同一套基准设置。生成设置：5 秒，720p 分辨率，16:9 画幅，开启声音，用于雨声和城市环境音。测试目标：具体电影语言是否比泛泛的 “cinematic” 更能稳定营造氛围。

这个雨夜小巷测试之所以有效，是因为提示词写出了可见的电影元素：雨湿的鹅卵石、霓虹反射、单点透视、缓慢推进和黑色电影式灯光。侦探仍然是视觉锚点，小巷纵深、湿地面和红蓝招牌共同建立情绪。片段之所以有电影感，是因为提示词描述了镜头应如何呈现，而不是依赖 “cinematic” 这个词。

Tip 3：堆叠镜头运动会制造抖动

AI 视频模型可以跟随镜头运动，但当运动只有一个主方向时更容易控制。堆叠多个镜头提示常会造成抖动、漂移或不必要的转场。

常见误区：组合多个镜头方向

错误提示词：

视频提示词：一辆微型磁悬浮列车穿过玻璃生态瓶城市。镜头推进、向左平移、围绕列车环绕、向上仰拍穿过苔藓高塔，并加入手持抖动。

这听起来像真实电影调度，但对生成模型来说空间向量太多。模型可能尝试按顺序执行，也可能把它们混合成不稳定运动。

为什么会失败

镜头运动是空间性的。推进、平移、环绕、仰拍和手持抖动分别描述不同运动向量。当它们叠在一起时，模型必须判断哪个占主导、何时切换，结果常在切换点出现明显晃动。

修正方法

使用一个主镜头运动，再加一个质感线索：

主运动：缓慢推进。
质感：轻微手持感。

更好的提示词：

视频提示词：一辆微型磁悬浮列车在实验室桌面上的玻璃生态瓶城市中滑行，经过苔藓高塔、微小窗户和玻璃壁上的凝结水珠。镜头：一个平行于列车的平滑横向跟拍，只保留轻微手持质感。列车保持居中，背景向后滑过。声音：柔和电流嗡鸣、细小轨道震动、玻璃上的水滴声、模糊房间环境音。

真实提示词测试

测试设置：PixVerse 视频生成，7 个案例统一使用同一套基准设置。生成设置：5 秒，720p 分辨率，16:9 画幅，开启声音。测试目标：单一横向跟拍能否让小主体保持清晰，同时让背景产生运动感。

这个案例有很多容易造成镜头混乱的元素：玻璃反射、微型建筑、凝结水、移动列车和微距尺度。更好的提示词只给模型一个镜头向量，再用移动背景创造视觉能量。审看时可以观察列车是否保持居中、玻璃反射是否稳定，以及声音设计是否支持微缩尺度而不是压过画面。

生成片段是这一组里最清晰的示范之一。列车在画面底部保持可读，苔藓生态瓶城市形成视差和深度。因为提示词使用一个横向跟拍，而不是堆叠推进、平移、环绕和仰拍，画面有运动感，同时镜头不会和自己打架。

Tip 4：普通提示框里没有真正的 negative prompt

很多创作者会把 Stable Diffusion 的习惯带到视频提示词里，写下 “negative: jitter, bent limbs, flicker, deformation” 这样的列表。但在大多数 AI 视频生成器里，如果界面没有专门的 negative prompt 字段，这些只会变成更多文本。

常见误区：在主提示词里写 “negative” 指令

错误提示词：

视频提示词：一个钟表匠在台灯下修理漂浮的透明机械立方体。Negative：jitter, bad hands, bent fingers, flicker, deformation, broken gears, unstable lighting。

这可能让输出更糟，因为模型仍然会读到 “jitter”、“bent fingers” 和 “deformation”。它不一定会阻止这些概念，反而可能引入噪声关联。

为什么会失败

除非界面提供专门的 negative prompt 字段，否则所有提示词文本通常都会被当成正向指令。模型不会自动把 “negative:” 理解成硬性排除。如果想要稳定，就直接描述希望稳定的状态。

修正方法

使用正向约束语句：

脸部保持稳定。
四肢自然运动。
灯光保持一致，没有闪烁。
身体比例全程保持一致。

更好的提示词：

视频提示词：一个钟表匠用黄铜镊子把一个透明齿轮放进台灯下微小漂浮的机械立方体。镜头从手部缓慢推进到立方体。手部自然运动，齿轮边缘保持锐利，立方体保持居中，温暖台灯光保持一致且不闪烁。声音：黄铜镊子轻响、微小齿轮滴答声、安静工作室环境音。

真实提示词测试

测试设置：PixVerse 视频生成，7 个案例统一使用同一套基准设置。生成设置：5 秒，720p 分辨率，16:9 画幅，开启声音，用于细小机械声和工作室环境音。测试目标：手部稳定性、物体边缘清晰度、灯光一致性，以及正向约束是否减少可见瑕疵。

这个案例让 negative prompt 的问题很明显，因为手部、微小齿轮、透明边缘和暖光都容易出瑕疵。更好的提示词没有列出不该发生的事，而是描述希望出现的状态：自然手部、清晰齿轮边缘、居中立方体和稳定台灯光。审看时，可以逐帧比较这些约束是否让立方体更容易被检查。

输出给观众一个清晰的观察点：镊子、透明立方体和齿轮细节在台灯下保持区分。手部离镜头足够近，能够给模型施加压力，但正向约束让目标行为更清楚。相比反复写 “deformation” 或 “bad hands” 的否定列表，这个片段更可用。

Tip 5：“Fast” 这个词会降低输出质量

当你想要速度感时，“fast” 看起来很方便，但它常会把视频模型推向不稳定运动。如果提示词里已经有复杂动作、镜头运动、粒子或多个主体，问题会更严重。

常见误区：要求所有元素都 fast

错误提示词：

视频提示词：一个长板滑手 fast 地冲下山路，fast camera，quick turns，fast motion blur，dynamic speed，intense action，rapid movement。

这制造了多个相互竞争的高速元素。模型必须同时移动主体、镜头、特效和场景节奏，可能导致抖动和画面崩坏。

为什么会失败

速度不只是风格，它是时间层面的要求。当多个元素同时加速时，模型必须在更高运动压力下保持解剖、物体形状、镜头路径、背景连贯性和特效时机。与其写 “fast”，不如描述让速度可见的物理迹象。

修正方法

用物理运动细节替代 “fast”：

脚步有力落地。
每一步充分伸展。
手臂以 90 度摆动。
运动模糊来自背景，而不是脸部。

更好的提示词：

视频提示词：一个下坡长板滑手压入雨湿山路弯道，膝盖收紧，后手悬在离沥青几英寸处。每个轮子向外甩出细薄水雾，路边反光标识拉成柔和背景轨迹。镜头低位贴近长板，保持一个稳定跟拍。头盔和夹克保持稳定。声音：轮子嗡鸣、湿路嘶声、风压、一次长板 carving。

真实提示词测试

测试设置：PixVerse 视频生成，7 个案例统一使用同一套基准设置。生成设置：5 秒，720p 分辨率，16:9 画幅，开启声音。测试目标：物理运动语言能否在不过载模型的情况下创造速度感。

这个案例避开了 “fast”，但速度依然可见。长板倾斜、膝盖压低、轮子甩水、背景反光拉成轨迹。审看时，可以看滑手身体是否保持稳定、镜头是否低位平稳，以及轮子和湿沥青的声音是否创造速度感而不造成视觉崩坏。

结果用物理证据传达速度，而不是依赖 “fast” 这个词。低机位、湿路反光、压低姿势和水雾都让下坡显得快速，同时身体和长板仍然可读。这正是这个技巧的重点：把速度写成因果关系，会更容易控制。

Tip 6：重复描述参考图会造成主体漂移

图生视频提示词不应该重复上传图片里已经可见的一切。如果图片已经展示了聚光灯下的结构化黑色手袋，而提示词又用略有差异的语言描述同一个包，模型会收到两个关于同一主体的输入：图片和文本。它们之间的细小差异可能导致漂移。

常见误区：再次描述参考图

图生视频错误提示词：

视频提示词：一个黑色皮革手袋，有弧形手柄、银色搭扣、结构化包身、缝线面板和深色影棚背景，位于戏剧化聚光灯下。

如果这些细节已经在图里，提示词可能邀请模型重新解释它们。输出可能改变物体轮廓、材质、装饰细节或背景。

为什么会失败

参考图本身已经是强视觉指令。重复描述可见主体，会创造第二条不一定完全匹配像素的指令通道。要保持身份，就把提示词用于图片无法表达的内容：运动和镜头行为。

修正方法

图生视频提示词只负责三件事：

运动指令、镜头指令，以及一条一致性规则。

更好的提示词：

视频提示词：保持参考物体完全不变。只从当前构图加入一次轻柔镜头推进，同时让一道窄高光缓慢掠过可见表面。保持参考图中的精确轮廓、材质、装饰细节、背景、光线方向和构图。声音：柔和陈列室氛围、轻微玻璃共振、细微织物摩擦。

真实提示词测试

测试设置：PixVerse 视频生成，7 个案例统一使用同一套基准设置。生成设置：5 秒，720p 分辨率，9:16 画幅，图生视频，开启声音，用于细微材质声和房间环境音。测试目标：参考图驱动的提示词能否在添加镜头运动和光线变化的同时保持产品身份。

这个案例只有在参考图已经定义物体时才成立。提示词刻意避免再次描述颜色、形状、材质或装饰细节，也避免要求模型发明隐藏结构或不可见内部。审看时，检查手袋是否保持相同轮廓、搭扣位置、手柄形状、皮革纹理和深色影棚背景，同时镜头和高光产生运动。如果模型改变了物体，提示词很可能仍在和参考图竞争。

生成片段刻意克制，这正适合这个技巧：产品仍是主角，聚光灯让视觉语言贴近参考图，运动只限于陈列式推进，而不是变形或转场。对参考图驱动的产品视频来说，无聊的稳定性常常比野心很大的运动更有价值。

Tip 7：泛泛的质量词没有实际作用

“amazing”、“beautiful”、“high quality”、“epic” 和 “professional” 是 AI 视频提示词里常见的词，但它们很少带来可靠控制。它们是高频标签，连接了太多种输出。

常见误区：用质量形容词填满提示词

错误提示词：

视频提示词：一个 amazing、beautiful、epic 的节日场景，带有 high quality visuals、stunning motion、professional lighting 和 perfect composition。

这个提示词告诉模型输出应该好，但没有说明这个场景里的 “好” 到底是什么。

为什么会失败

泛泛质量词会采样非常宽的分布。“Epic” 可能意味着大场景、战斗、发光天空、宏大尺度、厚重音乐、慢动作或奇幻盔甲。除非你用可见而具体的元素替代形容词，否则模型无法推断你的精确意图。

修正方法

把每个泛泛形容词换成具名的可见线索：

导演式构图。
灯光设置。
镜头规格。
色彩方案。
材质行为。

更好的提示词：

视频提示词：夜晚风筝节在一片覆盖薄薄水面的白色盐滩上展开。三只半透明深海生物形状的风筝漂浮在上方，蓝绿色生物荧光肋骨在布料下脉冲发亮。从脚踝高度倒影低机位缓慢推进到最近的风筝尾部，24mm 广角感，青色与品红色对比，地平线上有灯笼。声音：布料 flutter、紧绷风筝线震动、浅水脚步声、远处人群低语。

真实提示词测试

测试设置：PixVerse 视频生成，7 个案例统一使用同一套基准设置。生成设置：5 秒，720p 分辨率，16:9 画幅，开启声音，用于布料、脚步和人群氛围。测试目标：具体视觉线索是否能比泛泛质量词创造更强的风格一致性。

这个案例把每个泛泛质量词都替换成可见元素：盐滩倒影、半透明生物形风筝、生物荧光肋骨、低机位、广角感、青紫色彩对比和地平线灯笼。审看时，可以观察模型是否保留了这种不常见的视觉身份，而不是漂移成普通节日场景。

输出保留了最重要的想法：半透明深海生物风筝和蓝绿色发光肋骨。镜头高度比提示词中的脚踝高度更高，因此镜头遵循并不完美。但视觉身份明显强于只写 “beautiful epic festival” 的提示词，证明具体名词、灯光线索和色彩关系是有效的。

Bad Case 1：模糊质量提示词

错误提示词：

视频提示词：做一个关于未来城市的 cool cinematic AI video。让它 beautiful、realistic、dramatic、high quality，而且 viral。

错在哪里

这个提示词违反 Tip 2 和 Tip 7。它依赖 “cinematic”、“beautiful”、“dramatic” 和 “high quality”，却没有命名一个具体镜头。没有主体、动作、镜头路径、时间线或结尾画面。

修正提示词

视频提示词：一个 6 秒未来城市揭示镜头。镜头低位滑过雨湿街道，蓝色全息招牌倒映在路面上。一架配送无人机贴近镜头飞过，然后升向玻璃塔。平滑向前跟拍，冷蓝色调，塔楼入口暖光，柔和雨声，远处交通声，一次无人机掠过。

Bad Case 2：过载速度提示词

错误提示词：

视频提示词：一个长板滑手 fast 地冲下山路，躲避交通，跳过倒下的树，带火花漂移，切到无人机镜头，切到轮子特写，切到头盔反射，然后在 5 秒内以 logo 和烟花结束，fast camera，perfect sound。

错在哪里

这个提示词违反 Tip 1、Tip 3、Tip 4 和 Tip 5。它太长，堆叠动作，用过载措辞制造假排除，并在太多运动元素上使用 “fast”。模型可能生成能量感，但无法干净完成场景。

修正提示词

视频提示词：一个下坡长板滑手压入雨湿山路弯道，膝盖收紧，后手悬在离沥青几英寸处。每个轮子向外甩出细薄水雾，路边反光标识拉成柔和背景轨迹。镜头低位贴近长板，保持一个稳定跟拍。头盔和夹克保持稳定。声音：轮子嗡鸣、湿路嘶声、风压、一次长板 carving。

可直接复制的 AI 视频提示词模板

第一次尝试时，可以使用这个结构：

视频提示词： [主体] + [一个动作] + [地点]。 [一个镜头运动] + [具体风格、镜头、灯光或构图]。 [正向约束：哪些必须保持稳定、哪些应该不存在、是否需要声音]。

示例：

视频提示词：一个陶瓷咖啡杯放在深色木桌上，蒸汽缓慢卷起。缓慢微距推进，温暖钨丝侧光，浅景深，安静早晨咖啡馆背景。杯子形状保持稳定，无文字覆盖，声音包括柔和房间氛围和轻微勺子碰杯声。

最终结论

更好的 AI 视频提示词不是更长，而是更清楚。先写主体、动作和场景。用具体视觉线索替代 “cinematic” 和泛泛质量词。只用一个镜头运动。避免假的 negative prompt。用物理运动细节替代 “fast”。对于图生视频，不要重复描述参考图。

这些修正适用于大多数当前 AI 视频生成器，因为它们针对的是视频生成的共通弱点：时间漂移、模糊风格采样、镜头抖动、主体不一致和运动过载。PixVerse 在这里很有用，因为创作者可以在一个工作流中对比同一提示词在 Seedance 2.0、HappyHorse 1.0、PixVerse V6、PixVerse C1、Kling O3 和 Kling 3.0 上的表现，而不需要在不同工具之间重建流程。

FAQ

什么是好的 AI 视频提示词？

好的 AI 视频提示词会给模型一个清楚镜头：主体、动作、地点、一个镜头运动、可见风格线索和少量正向约束。“黑色大理石上的玻璃香水瓶，小幅展示转动，温暖轮廓光，稳定反射” 比 “cinematic luxury product video” 更强。

AI 视频提示词应该写多长？

对许多文生视频提示词来说，50 到 80 字是一个实用起点。先写主体、动作和地点，再加镜头运动、灯光、运动细节和声音。如果第一句话很模糊，更多文字通常会带来更少控制。

为什么 “cinematic” 在 AI 视频提示词里不够好？

“Cinematic” 对 AI 视频生成器来说太宽泛。请改写成可见电影语言，例如 “35mm handheld feel”、“rainy alley with neon reflections”、“slow dolly-in”、“hard backlight” 或 “warm practical lights in the background”。

AI 视频生成器支持 negative prompts 吗？

有些工具有专门的 negative prompt 字段，但普通视频提示框通常会把所有文本都当作指令。与其列失败，不如写正向约束：“hands remain natural”、“camera stays steady”、“background remains empty” 或 “product silhouette stays intact”。

图生视频提示词怎样避免改变主体？

图生视频提示词不要重复描述上传图片。把提示词用于运动、镜头、光线变化、声音和稳定规则：“保持参考物体不变。加入轻柔推进。保留轮廓、材质、背景和构图。“

应该用哪个 AI 视频生成器测试提示词？

本文让 7 个测试保持同一套 PixVerse 生成设置。相同的 AI 视频提示词技巧适用于大多数当前生成器，因为它们针对的是共通问题：风格采样模糊、时间漂移、镜头抖动、运动过载和参考图不一致。

哪些 AI 视频提示词案例适合测试？

有用的 AI 视频提示词案例一次测试一种能力：产品转动测试运动精度，雨夜小巷测试风格控制，单一跟拍测试镜头稳定，参考物体提示词测试主体一致性。评估结果时看提示词遵循、运动控制、时间连贯性、声音可用性和生产可用性。