Gemini Omni 视频模型评测:爆料、功能与对 AI 视频的意义

基于应用界面可见信息与早期公开报道,梳理尚未官宣的 Gemini Omni 视频模型:已报道功能、与 Veo 3.1 对比、创作者可用方案,以及 Google I/O 2026 值得关注的信息。

Industry News
Gemini Omni 视频模型评测封面:深绿标题区与带播放图标的虹彩气泡视觉

谷歌尚未宣布名为 Gemini Omni 的模型。在 Google I/O 2026 临近之际,未经官方证实的公开信息——包括 Gemini 应用内已可见的界面文案,以及早期测试者的反馈——显示谷歌可能正在以「Omni」为名筹备新的视频生成模型,或对消费端产品进行较大幅度的品牌调整。

本文汇总已公开报道,区分可核实信息与推测,并分析若上述功能按描述落地,对 AI 视频生成意味着什么。

项目截至 2026 年 5 月 12 日的状态
是否已正式发布?
早期报道与线索来源Gemini 应用界面中可见的文案与相关讨论;TestingCatalog、Reddit 用户及 X 等平台
已报道功能视频 remix、对话式剪辑、模板、较强的提示词遵循
当前谷歌官方视频模型Veo 3.1
下一关注节点Google I/O 2026(5 月 19–20 日)

横向分区信息图布局,深色网格底:左侧手机示意与模糊对话界面上的青色「Powered by Omni」标签,中间虚线箭头,右侧三块竖向磨砂玻璃状态卡(已报道 / 未核实 / 未官宣)—— Gemini Omni 爆料事实分级示意。

Gemini Omni 是什么?

Gemini Omni 似乎是一款尚未官宣的谷歌视频生成模型,或 Gemini 内一种新的视频创作模式。谷歌尚未确认。

该名称首次出现在 TestingCatalog 报道 中:Gemini 视频生成页出现文案「Start with an idea or try a template. Powered by Omni.」该字符串紧邻内部代号「Toucan」——即当前由 Veo 3.1 驱动的 Gemini 视频管线。

如今 Gemini 视频生成基于 Veo 3.1,图像生成则绑定 Nano Banana 2 与 Nano Banana Pro。核心悬念在于:Omni 会取代 Veo、与之并存,还是代表另一种架构——在单一系统中同时处理图像与视频。

Gemini 应用里泄露了什么?

过去一周出现两波信号。

第一波:UI 文案

Gemini 视频生成页出现用户可见字符串:「Start with an idea or try a template. Powered by Omni.」TestingCatalog 指出,其出现在现有 Veo 视频工具旁,符合产品替换前常见的灰度/占位模式。

状态:已报道。 该文案出现在线上 Gemini UI,而非仅藏于源码。

第二波:移动应用泄露与早期用户反馈

有 Reddit 用户 在 Gemini 移动应用内发现更多引用,包括描述:「Meet our new video model. Remix your videos, edit directly in chat, try a template, and more.」

在其他用户鼓励测试后,同一用户反馈初步印象:提示词遵循较好、镜头角度过渡更顺、场景连贯性提升、语音生成质量明显改善。另有用户发现疑似模型 ID — bard_eac_video_generation_omni — 并提到约 10 秒生成上限。

一段教授在黑板上写数学公式的样例视频因文本连贯性受到关注,据称公式在生成画面中正确呈现。OfficeChai 指出,在 AI 生成视频中把数学做对,既需要画面连贯,也需要语义准确。

状态:已报道但未核实。 信息来自个人账号,谷歌未确认;模型可能处于 A/B 测试或有限放量。

双栏时间线布局:左侧青色「Wave 1」卡片(代码图标与「Powered by Omni」UI 文案),右侧橙色「Wave 2」卡片(手机线框与 Remix / Chat Edit / Templates 胶囊),中间带点水平连接线,底部渐变「置信度」条(中等至较低)—— Gemini Omni 两波爆料信息图。

Gemini Omni 评测:已报道功能意味着什么

本文并非上手跑分评测。谷歌外部尚无人确认可稳定使用的公开 Omni 模型。下文分析的是:若爆料属实,这些功能可能代表什么。

维度已报道内容解读要点
视频 remix泄露文案中的「Remix your videos」若属实,谷歌正从纯文生视频走向「编辑 + remix」工作流,用户与生成内容的关系会明显改变
对话式剪辑「Edit directly in chat」潜在最大差异点:把 Gemini 变成对话式视频编辑器,将改变「写完提示词再等结果」的范式
模板「Try a template」面向大众创作者,降低提示工程门槛,也可能带来画面同质化
提示词遵循早期用户称赞遵循度、镜头过渡、场景连贯若属实可能相对 Veo 3.1 有实质提升,但单条用户反馈不能当作基准测试
画面内文字连贯样例中数学公式据称正确生成视频里做对文字与公式很难——若能复现是强信号
原生音频Omni 未明确确认;Veo 3.1 已支持原生音频鉴于 Veo 3.1 已有能力,Omni 很可能包含类似或更强音频能力,但在官宣前不能写死为「已确认」
片段时长模型元数据中出现约 10 秒上限以当前标准偏短,可能反映早期限制或消费级配额
API未确认在谷歌官宣前,开发者不宜按 Omni API 已可用来规划
生产就绪度未知尚无官方模型卡、定价、配额与公开基准

深色 UI 上的竖向六行记分卡布局:左列图标、中列功能名(Video Remix、Chat Editing、Templates、Native Audio、10s Clip Limit、API Access)、右列状态点(实心青绿、半填黄、空心环),底部图例条说明已报道 / 较可能 / 未知 —— Gemini Omni 已报道功能评测看板。

Gemini Omni 与 Veo 3.1:新模型还是换名?

这是 AI 视频社区正在争论的问题。OfficeChaiWaveSpeed 均梳理了三种可能。

情景一:Omni 是面向消费者的 Veo 换名

扰动最小的一种解读:谷歌在消费端弃用 Veo 品牌,以「Omni」作为统一身份,类似图像侧整合为 Nano Banana。底层仍可能是 Veo 3.x 或 Veo 4。

可能性: 中等。品牌整合是出现新名字的合理动机。

情景二:Omni 是新的 Gemini 原生视频模型

在 Gemini 架构上针对视频微调、与 Veo 家族在架构上分离。意味着谷歌并行维护两条视频线:API 与企业侧用 Veo,Gemini 消费体验用 Omni。

可能性: 中等。谷歌在图像模型上已有类似先例。

情景三:Omni 是真正的「全能」模型

最大胆的解读:单一 Gemini 模型在统一系统内原生生成文本、图像、视频及潜在音频。这将使 Gemini 成为首批具备原生视频输出的主流全能模型之一。

可能性: 偏低,但「Omni」一词强烈暗示该方向。如 WaveSpeed 所言,只有情景三才最能解释为何不直接给 Veo 升版本号。

结论: 在谷歌官宣前,三种情景都仍成立。差别在于:换名几乎不改变竞争格局,而真正的全能模型会改变产品品类本身。

为何 Gemini Omni 对 AI 视频生成重要

无论最终走向哪一情景,已报道的功能组合都指向行业方向。对创作者与产业而言,以下值得重视。

从「生成片段」到「可编辑工作流」

多数 AI 视频工具仍是生成后下载。若 Omni 在 Gemini 内提供视频 remix 与对话式剪辑,则意味着向迭代式、对话式创作靠拢——更接近传统剪辑软件的工作方式,但以自然语言为界面。

对话式剪辑改变提示词范式

当前流程常要求用户写完整提示、等待生成,不满意再重来。对话式编辑(例如「镜头再慢一点推近」「改成黄金时刻光线」)会显著压缩反馈周期。

模板降低门槛,也带来同质化风险

模板让非技术用户也能做 AI 视频,扩大市场;但广泛共用模板易导致画面相似。仅依赖模板的创作者容易淹没在同质内容中。

视频 remix 带来新问题

在现有视频上 remix 或二次创作,会涉及素材来源、知识产权与品牌安全等文生视频较少触及的问题。若 Omni 支持上传并 remix 用户视频,这些问题将从理论变为运营层面。

用量限制说明高质量视频仍昂贵

已报道的约 10 秒上限与用量监控页暗示:与当前各视频模型一样,Omni 仍受算力约束。高保真视频规模化服务成本依然很高。

竞争焦点正在转移

AI 视频的竞争前沿正从「单看画质」扩展到可控性、多镜头一致性、音画同步、剪辑工作流与平台整合。已报道的 Omni 功能组合与这一趋势一致。

三阶段横向时间线布局(左→右):阶段 1 蓝色(2024)提示词到单片段;阶段 2 青色剪辑与 remix 中枢(剪刀、对话、循环图标);阶段 3 金色全能中枢(2026+)沿发光基线向外辐射视频、图像与音频节点 —— AI 视频工作流向类 Gemini 全能工作流演进示意。

Gemini Omni 与 PixVerse:创作者现在能用什么

Gemini Omni 尚未公开确认。若今天就需要可发布的视频,应以已上线工具为准,从时长、分辨率、音频、剪辑工作流与制作可控性等维度对比。

下表将已报道的 Omni 信息与已确认的 Veo 3.1、以及 PixVerse 当前模型并列。

能力Gemini Omni(已报道)Veo 3.1(已确认)PixVerse V6 / R1(已上线)
公开可用性未确认Gemini 与 API 可用可在 app.pixverse.ai 使用
视频时长据称约 10 秒上限Gemini 应用内最长约 8 秒V6 支持 1–15 秒,最高 1080p
音频Omni 未单独确认已确认原生音频V6 支持音频生成开关
剪辑与 remix已报道:remix、对话剪辑、模板当前 Gemini 流程内能力有限支持修改、延长、转场、多片段、模板及 API 工作流
分辨率未知最高 1080p最高 1080p,多档画质
实时与交互未确认R1 侧重连续交互生成与共享世界
API未确认可用可用,含完整文档
文本连贯性早期样例较强常规水平V6 为常规水平

这不是「谁更好」的对比——一侧仍是爆料,另一侧已可商用。目的是帮助创作者分清现在能用值得观望

创作者该不该等 Gemini Omni?

取决于你的工作流阶段。

若你在关注 Google I/O: 建议观望。大会时间为 5 月 19–20 日,谷歌已确认议程含 Gemini 与 AI 更新。若 Omni 属实,这是最可能的发布窗口。

若本周就要可发视频: 请使用已上线工具。等待未确认模型不是生产策略。PixVerse V6、Veo 3.1 及其他可用模型可承接当前项目。

若需要更长片段、多镜头叙事或 API 工作流: 建议在 Veo、Sora、Runway 等与 PixVerse 之间,用同一提示词跨平台对比,按对你业务真正重要的维度评估。

若面向交互或实时场景: PixVerse R1 已可用于连续、交互式视频生成与实时响应、共享世界类体验。

Google I/O 2026 关注清单

Google I/O 于 5 月 19 日开幕后,以下问题将决定 Omni 是改变格局还是昙花一现。

  • 是否正式发布 Omni 产品?
  • 会取代 Veo,还是与之并存?
  • 是否支持基于上传内容的视频 remix?
  • 是否支持在对话中编辑已生成视频?
  • 是否原生生成同步音频?
  • 用量限制、定价档位与地区可用性如何?
  • 是否向开发者开放 API?
  • 相对 Veo 3.1、Seedance 2.0 等模型的基准表现如何?

顶对齐标题行 + 清单主体布局,置于青色微光磨砂卡片内:标题「I/O 2026 Watchlist」与 5 月 19–20 日期角标,左侧空方框勾选、右侧六条短问句,右下角日历高亮 19 日 —— Google I/O 与 Gemini Omni 关注清单信息图。

常见问题

Gemini Omni 是真的吗?

「Omni」已出现在线上 Gemini 应用 UI,而非仅隐藏代码,说明可能已超过纯内部测试。但历史上也曾出现 UI 文案未对应正式发布的情况,故应视为强信号而非官宣。

Gemini Omni 已经正式发布了吗?

没有。截至 2026 年 5 月 12 日,谷歌未正式发布名为 Gemini Omni 的模型。公开信息主要依据应用内可见的界面内容与用户侧反馈,尚未经谷歌官方背书或核验。

Gemini Omni 与 Veo 3.1 不同吗?

这是核心问题。Omni 可能是消费端换名、新的 Gemini 原生视频模型,或处理多模态的全能模型。谷歌尚未说明其与 Veo 的关系。

Gemini Omni 能 remix 视频吗?

泄露文案写有「Remix your videos」,暗示可能支持在现有视频上编辑或二次创作。谷歌尚未确认。

Gemini Omni 会生成音频吗?

对 Omni 尚未单独确认。鉴于 Veo 3.1 已支持原生音频生成,合理预期 Omni 会具备类似或更强能力。

Gemini Omni 何时发布?

最可能窗口是 5 月 19–20 日的 Google I/O 2026;议程已含 Gemini 与 AI 更新。

会有 Gemini Omni API 吗?

尚未确认。在谷歌官宣访问方式、定价与文档前,开发者不宜按 API 已可用来做规划。

在 Omni 发布前我能用什么?

目前已有多种 AI 视频工具。PixVerse V6 支持文生视频、图生视频、转场与多片段工作流,最高 1080p,时长 1–15 秒。在 PixVerse 平台上也可一站式体验多篇主流 AI 视频生成器横向对比,积分定价通常较有优势,且每日提供免费积分便于零成本试用后再决定是否加码。Veo 3.1 可通过 Gemini 与 API 使用。亦可按需求评估 Sora 2、Runway、Seedance 2.0、Kling 等。