Gemini Omni 视频模型评测:爆料、功能与对 AI 视频的意义
基于应用界面可见信息与早期公开报道,梳理尚未官宣的 Gemini Omni 视频模型:已报道功能、与 Veo 3.1 对比、创作者可用方案,以及 Google I/O 2026 值得关注的信息。
谷歌尚未宣布名为 Gemini Omni 的模型。在 Google I/O 2026 临近之际,未经官方证实的公开信息——包括 Gemini 应用内已可见的界面文案,以及早期测试者的反馈——显示谷歌可能正在以「Omni」为名筹备新的视频生成模型,或对消费端产品进行较大幅度的品牌调整。
本文汇总已公开报道,区分可核实信息与推测,并分析若上述功能按描述落地,对 AI 视频生成意味着什么。
| 项目 | 截至 2026 年 5 月 12 日的状态 |
|---|---|
| 是否已正式发布? | 否 |
| 早期报道与线索来源 | Gemini 应用界面中可见的文案与相关讨论;TestingCatalog、Reddit 用户及 X 等平台 |
| 已报道功能 | 视频 remix、对话式剪辑、模板、较强的提示词遵循 |
| 当前谷歌官方视频模型 | Veo 3.1 |
| 下一关注节点 | Google I/O 2026(5 月 19–20 日) |

Gemini Omni 是什么?
Gemini Omni 似乎是一款尚未官宣的谷歌视频生成模型,或 Gemini 内一种新的视频创作模式。谷歌尚未确认。
该名称首次出现在 TestingCatalog 报道 中:Gemini 视频生成页出现文案「Start with an idea or try a template. Powered by Omni.」该字符串紧邻内部代号「Toucan」——即当前由 Veo 3.1 驱动的 Gemini 视频管线。
如今 Gemini 视频生成基于 Veo 3.1,图像生成则绑定 Nano Banana 2 与 Nano Banana Pro。核心悬念在于:Omni 会取代 Veo、与之并存,还是代表另一种架构——在单一系统中同时处理图像与视频。
Gemini 应用里泄露了什么?
过去一周出现两波信号。
第一波:UI 文案
Gemini 视频生成页出现用户可见字符串:「Start with an idea or try a template. Powered by Omni.」TestingCatalog 指出,其出现在现有 Veo 视频工具旁,符合产品替换前常见的灰度/占位模式。
状态:已报道。 该文案出现在线上 Gemini UI,而非仅藏于源码。
第二波:移动应用泄露与早期用户反馈
有 Reddit 用户 在 Gemini 移动应用内发现更多引用,包括描述:「Meet our new video model. Remix your videos, edit directly in chat, try a template, and more.」
在其他用户鼓励测试后,同一用户反馈初步印象:提示词遵循较好、镜头角度过渡更顺、场景连贯性提升、语音生成质量明显改善。另有用户发现疑似模型 ID — bard_eac_video_generation_omni — 并提到约 10 秒生成上限。
一段教授在黑板上写数学公式的样例视频因文本连贯性受到关注,据称公式在生成画面中正确呈现。OfficeChai 指出,在 AI 生成视频中把数学做对,既需要画面连贯,也需要语义准确。
状态:已报道但未核实。 信息来自个人账号,谷歌未确认;模型可能处于 A/B 测试或有限放量。

Gemini Omni 评测:已报道功能意味着什么
本文并非上手跑分评测。谷歌外部尚无人确认可稳定使用的公开 Omni 模型。下文分析的是:若爆料属实,这些功能可能代表什么。
| 维度 | 已报道内容 | 解读要点 |
|---|---|---|
| 视频 remix | 泄露文案中的「Remix your videos」 | 若属实,谷歌正从纯文生视频走向「编辑 + remix」工作流,用户与生成内容的关系会明显改变 |
| 对话式剪辑 | 「Edit directly in chat」 | 潜在最大差异点:把 Gemini 变成对话式视频编辑器,将改变「写完提示词再等结果」的范式 |
| 模板 | 「Try a template」 | 面向大众创作者,降低提示工程门槛,也可能带来画面同质化 |
| 提示词遵循 | 早期用户称赞遵循度、镜头过渡、场景连贯 | 若属实可能相对 Veo 3.1 有实质提升,但单条用户反馈不能当作基准测试 |
| 画面内文字连贯 | 样例中数学公式据称正确 | 生成视频里做对文字与公式很难——若能复现是强信号 |
| 原生音频 | Omni 未明确确认;Veo 3.1 已支持原生音频 | 鉴于 Veo 3.1 已有能力,Omni 很可能包含类似或更强音频能力,但在官宣前不能写死为「已确认」 |
| 片段时长 | 模型元数据中出现约 10 秒上限 | 以当前标准偏短,可能反映早期限制或消费级配额 |
| API | 未确认 | 在谷歌官宣前,开发者不宜按 Omni API 已可用来规划 |
| 生产就绪度 | 未知 | 尚无官方模型卡、定价、配额与公开基准 |

Gemini Omni 与 Veo 3.1:新模型还是换名?
这是 AI 视频社区正在争论的问题。OfficeChai 与 WaveSpeed 均梳理了三种可能。
情景一:Omni 是面向消费者的 Veo 换名
扰动最小的一种解读:谷歌在消费端弃用 Veo 品牌,以「Omni」作为统一身份,类似图像侧整合为 Nano Banana。底层仍可能是 Veo 3.x 或 Veo 4。
可能性: 中等。品牌整合是出现新名字的合理动机。
情景二:Omni 是新的 Gemini 原生视频模型
在 Gemini 架构上针对视频微调、与 Veo 家族在架构上分离。意味着谷歌并行维护两条视频线:API 与企业侧用 Veo,Gemini 消费体验用 Omni。
可能性: 中等。谷歌在图像模型上已有类似先例。
情景三:Omni 是真正的「全能」模型
最大胆的解读:单一 Gemini 模型在统一系统内原生生成文本、图像、视频及潜在音频。这将使 Gemini 成为首批具备原生视频输出的主流全能模型之一。
可能性: 偏低,但「Omni」一词强烈暗示该方向。如 WaveSpeed 所言,只有情景三才最能解释为何不直接给 Veo 升版本号。
结论: 在谷歌官宣前,三种情景都仍成立。差别在于:换名几乎不改变竞争格局,而真正的全能模型会改变产品品类本身。
为何 Gemini Omni 对 AI 视频生成重要
无论最终走向哪一情景,已报道的功能组合都指向行业方向。对创作者与产业而言,以下值得重视。
从「生成片段」到「可编辑工作流」
多数 AI 视频工具仍是生成后下载。若 Omni 在 Gemini 内提供视频 remix 与对话式剪辑,则意味着向迭代式、对话式创作靠拢——更接近传统剪辑软件的工作方式,但以自然语言为界面。
对话式剪辑改变提示词范式
当前流程常要求用户写完整提示、等待生成,不满意再重来。对话式编辑(例如「镜头再慢一点推近」「改成黄金时刻光线」)会显著压缩反馈周期。
模板降低门槛,也带来同质化风险
模板让非技术用户也能做 AI 视频,扩大市场;但广泛共用模板易导致画面相似。仅依赖模板的创作者容易淹没在同质内容中。
视频 remix 带来新问题
在现有视频上 remix 或二次创作,会涉及素材来源、知识产权与品牌安全等文生视频较少触及的问题。若 Omni 支持上传并 remix 用户视频,这些问题将从理论变为运营层面。
用量限制说明高质量视频仍昂贵
已报道的约 10 秒上限与用量监控页暗示:与当前各视频模型一样,Omni 仍受算力约束。高保真视频规模化服务成本依然很高。
竞争焦点正在转移
AI 视频的竞争前沿正从「单看画质」扩展到可控性、多镜头一致性、音画同步、剪辑工作流与平台整合。已报道的 Omni 功能组合与这一趋势一致。

Gemini Omni 与 PixVerse:创作者现在能用什么
Gemini Omni 尚未公开确认。若今天就需要可发布的视频,应以已上线工具为准,从时长、分辨率、音频、剪辑工作流与制作可控性等维度对比。
下表将已报道的 Omni 信息与已确认的 Veo 3.1、以及 PixVerse 当前模型并列。
| 能力 | Gemini Omni(已报道) | Veo 3.1(已确认) | PixVerse V6 / R1(已上线) |
|---|---|---|---|
| 公开可用性 | 未确认 | Gemini 与 API 可用 | 可在 app.pixverse.ai 使用 |
| 视频时长 | 据称约 10 秒上限 | Gemini 应用内最长约 8 秒 | V6 支持 1–15 秒,最高 1080p |
| 音频 | Omni 未单独确认 | 已确认原生音频 | V6 支持音频生成开关 |
| 剪辑与 remix | 已报道:remix、对话剪辑、模板 | 当前 Gemini 流程内能力有限 | 支持修改、延长、转场、多片段、模板及 API 工作流 |
| 分辨率 | 未知 | 最高 1080p | 最高 1080p,多档画质 |
| 实时与交互 | 未确认 | 否 | R1 侧重连续交互生成与共享世界 |
| API | 未确认 | 可用 | 可用,含完整文档 |
| 文本连贯性 | 早期样例较强 | 常规水平 | V6 为常规水平 |
这不是「谁更好」的对比——一侧仍是爆料,另一侧已可商用。目的是帮助创作者分清现在能用与值得观望。
创作者该不该等 Gemini Omni?
取决于你的工作流阶段。
若你在关注 Google I/O: 建议观望。大会时间为 5 月 19–20 日,谷歌已确认议程含 Gemini 与 AI 更新。若 Omni 属实,这是最可能的发布窗口。
若本周就要可发视频: 请使用已上线工具。等待未确认模型不是生产策略。PixVerse V6、Veo 3.1 及其他可用模型可承接当前项目。
若需要更长片段、多镜头叙事或 API 工作流: 建议在 Veo、Sora、Runway 等与 PixVerse 之间,用同一提示词跨平台对比,按对你业务真正重要的维度评估。
若面向交互或实时场景: PixVerse R1 已可用于连续、交互式视频生成与实时响应、共享世界类体验。
Google I/O 2026 关注清单
Google I/O 于 5 月 19 日开幕后,以下问题将决定 Omni 是改变格局还是昙花一现。
- 是否正式发布 Omni 产品?
- 会取代 Veo,还是与之并存?
- 是否支持基于上传内容的视频 remix?
- 是否支持在对话中编辑已生成视频?
- 是否原生生成同步音频?
- 用量限制、定价档位与地区可用性如何?
- 是否向开发者开放 API?
- 相对 Veo 3.1、Seedance 2.0 等模型的基准表现如何?

常见问题
Gemini Omni 是真的吗?
「Omni」已出现在线上 Gemini 应用 UI,而非仅隐藏代码,说明可能已超过纯内部测试。但历史上也曾出现 UI 文案未对应正式发布的情况,故应视为强信号而非官宣。
Gemini Omni 已经正式发布了吗?
没有。截至 2026 年 5 月 12 日,谷歌未正式发布名为 Gemini Omni 的模型。公开信息主要依据应用内可见的界面内容与用户侧反馈,尚未经谷歌官方背书或核验。
Gemini Omni 与 Veo 3.1 不同吗?
这是核心问题。Omni 可能是消费端换名、新的 Gemini 原生视频模型,或处理多模态的全能模型。谷歌尚未说明其与 Veo 的关系。
Gemini Omni 能 remix 视频吗?
泄露文案写有「Remix your videos」,暗示可能支持在现有视频上编辑或二次创作。谷歌尚未确认。
Gemini Omni 会生成音频吗?
对 Omni 尚未单独确认。鉴于 Veo 3.1 已支持原生音频生成,合理预期 Omni 会具备类似或更强能力。
Gemini Omni 何时发布?
最可能窗口是 5 月 19–20 日的 Google I/O 2026;议程已含 Gemini 与 AI 更新。
会有 Gemini Omni API 吗?
尚未确认。在谷歌官宣访问方式、定价与文档前,开发者不宜按 API 已可用来做规划。
在 Omni 发布前我能用什么?
目前已有多种 AI 视频工具。PixVerse V6 支持文生视频、图生视频、转场与多片段工作流,最高 1080p,时长 1–15 秒。在 PixVerse 平台上也可一站式体验多篇主流 AI 视频生成器横向对比,积分定价通常较有优势,且每日提供免费积分便于零成本试用后再决定是否加码。Veo 3.1 可通过 Gemini 与 API 使用。亦可按需求评估 Sora 2、Runway、Seedance 2.0、Kling 等。