PixVerse 发布 R1：重新定义 AI 视频生成的实时世界模型

PixVerse 发布 R1，全球首个实时世界模型，能够生成连续交互式 1080P AI 视频，对用户输入即时响应。

News • 2026年1月12日

PixVerse 发布 R1：重新定义 AI 视频生成的实时世界模型

本文翻译自英文原版，仅供参考，以英文原版为准。

全球首个实时 AI 视频模型，可生成连续交互式 1080P 视频，对用户输入即时流畅响应——将 AI 视频生成从静态输出转变为鲜活、持久的世界

新加坡，2026 年 1 月 12 日 — 拥有超过 1 亿全球注册用户的 AI 视频生成平台 PixVerse，今日正式发布 PixVerse R1——全球首个用于交互式 AI 视频的实时世界模型。与传统 AI 视频模型从提示词生成固定时长片段、需要用户等待渲染输出不同，PixVerse R1 能够生成持续的 1080P 视频，对用户输入即时流畅响应，开创了动态交互视觉媒体的全新类别。

PixVerse R1 是什么？

PixVerse R1 是一个基于原生多模态基础构建的实时 AI 世界模型。它在单一端到端系统中同步生成视频、音频和交互世界状态，将文本、图像、音频和视频作为统一的 token 流进行处理。普通 AI 视频模型渲染一段片段后即停止，而 R1 则作为持久、有状态的模拟运行，根据用户意图持续演化，成为首个能够实现无限、连续、实时生成的 AI 视频模型。

该模型通过三项核心架构创新实现实时性能：统一所有输入模态的全能原生多模态基础模型；支持无限长度、时间连贯序列的一致性感知自回归框架；以及将采样步骤从数十步减少至最少一到四步的即时响应引擎。

实时 AI 视频生成的应用场景

PixVerse R1 专为实时响应和连续性至关重要的应用场景而设计。在 AI 原生游戏中，环境和非玩家角色可以动态适应玩家行为，不受预设脚本限制。在互动娱乐和直播场景中，观众可以通过语音或手势实时塑造故事情节。企业团队可以使用 R1 进行培训模拟、实时产品可视化，以及随客户输入实时展开的生成式商业体验。

超越具体应用，R1 作为连续视听世界模拟器发挥作用——弥合人类意图与实时视觉响应之间的鸿沟，并在持久数字环境中开创人机共创的新形式。企业 API 访问权限对符合条件的合作伙伴开放。

技术亮点

实时 1080P 输出： 超低延迟 AI 视频生成，对用户输入几乎即时响应。
无限流式生成： 具有记忆增强注意力机制的自回归建模，实现无边界、时间一致的视频生成，无固定片段时长限制。
原生多模态架构： 在单一端到端世界模型中统一处理文本、图像、视频和音频。
物理一致的世界： 记忆增强注意力机制在长时序中保持结构完整性和物理连贯性。

可用性

PixVerse R1 现已在 realtime.pixverse.ai 上线。实时 AI 视频生成的企业 API 访问权限对符合条件的合作伙伴开放。技术文档和演示资源可在同一地址获取。

关于 PixVerse

PixVerse 是一个全球 AI 视频生成平台，受到遍布 175 个以上国家的超过 1 亿创作者和企业的信赖。PixVerse 的研发能力处于 AI 视频生成的前沿。其旗舰 V5 模型提供流畅的运动效果、风格多样性和精准的提示词遵从性，使用户无需任何前期经验，即可通过提示词、照片或片段创作出电影级质量的视频。PixVerse 在亚洲和美国均设有团队，于 2023 年创立，致力于使视频成为人类表达的通用语言。更多信息，请访问 pixverse.ai。

媒体联系

PixVerse 传播部 media@pixverse.ai