Reseña del modelo de video Gemini Omni: filtraciones, funciones y qué implica para el video con IA
Análisis del modelo de video Gemini Omni aún no anunciado por Google, a partir de textos visibles en la app Gemini y reportes tempranos: funciones citadas, comparación con Veo 3.1, opciones para creadores y Google I/O 2026.
Google no ha anunciado un modelo llamado Gemini Omni. Antes de Google I/O 2026, información pública aún no validada por Google —incluidos textos de interfaz visibles en la app Gemini e informes de usuarios que probaron versiones tempranas— sugiere que la compañía podría preparar un nuevo modelo de generación de video o un cambio de marca relevante para el público bajo el nombre «Omni».
Este artículo recopila lo reportado, separa hechos confirmados de la especulación y analiza qué implicarían esas funciones reportadas para la generación de video con IA si se lanzan tal como se describen.
| Elemento | Estado al 12 de mayo de 2026 |
|---|---|
| ¿Anunciado oficialmente? | No |
| Base de los primeros reportes | Textos visibles en la UI de la app Gemini y cobertura asociada; TestingCatalog, Reddit y X, entre otros |
| Funciones reportadas | Remix de video, edición en chat, plantillas, fuerte adherencia al prompt |
| Modelo de video de Google confirmado hoy | Veo 3.1 |
| Próximo hito | Google I/O 2026, 19–20 de mayo |

¿Qué es Gemini Omni?
Gemini Omni parece ser un modelo de generación de video de Google no anunciado o un nuevo modo de creación de video en Gemini. Google no lo ha confirmado.
El nombre apareció por primera vez en un reporte de TestingCatalog que mostraba una cadena en la pestaña de video de Gemini: «Start with an idea or try a template. Powered by Omni.» Apareció junto a «Toucan», el nombre interno de la tubería de video actual de Gemini impulsada por Veo 3.1.
Hoy el flujo de video de Gemini usa Veo 3.1 y la generación de imágenes está ligada a Nano Banana 2 y Nano Banana Pro. La pregunta abierta es si Omni sustituye a Veo, lo complementa o representa algo distinto: un modelo unificado que maneja imágenes y video en un solo sistema.
¿Qué se filtró en la app Gemini?
Han surgido dos olas de señales en la última semana.
Ola 1: descubrimiento de cadena en la UI
Apareció una cadena visible en la pestaña de video de Gemini: «Start with an idea or try a template. Powered by Omni.» Como señaló TestingCatalog, su colocación junto a la herramienta de video existente con Veo sigue el patrón habitual antes de un cambio de producto.
Estado: Reportado. La cadena era visible en la UI en vivo de Gemini, no solo en el código fuente.
Ola 2: filtración en la app móvil e informes tempranos
Un usuario de Reddit detectó referencias adicionales en la app móvil de Gemini, incluida la descripción: «Meet our new video model. Remix your videos, edit directly in chat, try a template, and more.»
Tras animarle otros usuarios a probar, el mismo usuario informó de adherencia al prompt, transiciones de cámara más fluidas, mejor coherencia de escena y voz notablemente mejor. Otro usuario habría encontrado el ID de modelo — bard_eac_video_generation_omni — y un límite de generación de unos 10 segundos.
Un video de muestra con un profesor escribiendo ecuaciones en una pizarra llamó la atención por la coherencia del texto. OfficeChai observó que acertar las matemáticas en video generado por IA exige coherencia visual y precisión semántica.
Estado: Reportado pero no verificado. Provienen de cuentas individuales; Google no ha confirmado. Podría tratarse de una prueba A/B o un despliegue limitado.

Reseña de Gemini Omni: qué sugieren las funciones reportadas
Esto no es una reseña de benchmark práctica. Nadie fuera de Google ha confirmado acceso estable a un modelo Omni público. Lo siguiente analiza qué significarían las funciones reportadas si se lanzan tal como se describen.
| Dimensión | Lo reportado | Lectura de la reseña |
|---|---|---|
| Remix de video | «Remix your videos» en la UI filtrada | Si es real, Google avanza de texto a video hacia flujos de edición y remix |
| Edición en chat | «Edit directly in chat» | Posible mayor diferenciador: Gemini como editor de video conversacional |
| Plantillas | «Try a template» | Para creadores mainstream; baja la barrera del prompt pero puede homogeneizar |
| Adherencia al prompt | Elogios tempranos | Podría implicar mejora frente a Veo 3.1 si se confirma; un solo informe no es benchmark |
| Coherencia de texto en video | Ecuaciones correctas en el clip de muestra | Señal fuerte si es reproducible |
| Audio nativo | No confirmado explícitamente para Omni; Veo 3.1 ya tiene audio nativo | Es razonable esperar capacidad similar o mayor, pero no afirmarlo como hecho |
| Duración del clip | Límite de ~10 s en metadatos | Corto para los estándares actuales; posible restricción temprana o tope de consumo |
| API | No confirmada | Los desarrolladores no deben planificar en torno a la API de Omni hasta el anuncio oficial |
| Preparación para producción | Desconocida | Sin model card oficial, precios, límites ni benchmarks públicos |

Gemini Omni vs. Veo 3.1: ¿nuevo modelo o rebranding?
La comunidad de video con IA debate esto. OfficeChai y WaveSpeed esbozan tres lecturas.
Escenario 1: Omni es un rebranding de Veo para consumidores
Lectura menos disruptiva: Google retira la marca Veo en productos de consumo y unifica bajo «Omni», como con Nano Banana en imágenes. Por debajo podría seguir siendo Veo 3.x o 4.
Probabilidad: Moderada.
Escenario 2: Omni es un nuevo modelo de video nativo de Gemini
Afinado en la arquitectura Gemini, separado de la familia Veo. Implicaría dos líneas: Veo para API y empresa, Omni para la experiencia de consumo en Gemini.
Probabilidad: Moderada.
Escenario 3: un verdadero modelo omni
Un solo modelo Gemini que genera texto, imágenes, video y posiblemente audio de forma unificada. Como señala WaveSpeed, solo este escenario justifica un nombre público nuevo en lugar de subir solo el número de versión de Veo.
Probabilidad: Más baja, pero el nombre lo sugiere fuerte.
Conclusión: Hasta que Google aclare, los tres escenarios siguen sobre la mesa. Un rebranding casi no cambia el mapa competitivo; un omni real cambia la categoría de producto.
Por qué importa Gemini Omni para la generación de video con IA
Independientemente del escenario, el conjunto de funciones reportadas señala hacia dónde va la industria: de generar y descargar clips a flujos iterativos y conversacionales; edición en chat que acorta el ciclo de feedback; plantillas que democratizan pero homogeneizan; remix que plantea IP y seguridad de marca; límites de uso que reflejan coste computacional; y competencia que se desplaza hacia control, coherencia multi-toma, sincronía audiovisual e integración de plataforma.

Gemini Omni vs. PixVerse: qué pueden usar los creadores hoy
Gemini Omni no está confirmado públicamente. Si necesita video publicable hoy, compare herramientas reales por duración, resolución, audio, flujo de edición y control de producción.
| Capacidad | Gemini Omni (reportado) | Veo 3.1 (confirmado) | PixVerse V6 / R1 (disponible) |
|---|---|---|---|
| Disponibilidad pública | Sin confirmar | En Gemini y por API | En app.pixverse.ai |
| Duración del video | Reportado ~10 s | Hasta ~8 s en la app | V6: 1–15 s hasta 1080p |
| Audio | No confirmado específicamente para Omni | Audio nativo confirmado | V6 incluye interruptor de audio |
| Edición y remix | Reportado: remix, chat, plantillas | Limitado en el flujo actual de Gemini | Modificar, extender, transición, multi-clip, plantillas, API |
| Resolución | Desconocida | Hasta 1080p | Hasta 1080p, varias calidades |
| Tiempo real e interactivo | Sin confirmar | No | R1: generación interactiva continua y mundos compartidos |
| API | Sin confirmar | Disponible | Disponible con documentación |
| Coherencia de texto | Fuerte en muestra temprana, según informes | Estándar | Estándar en V6 |
No es una comparación de «cuál es mejor»: uno está en filtraciones y el otro en producción. El objetivo es qué usar ahora frente a qué vigilar.
¿Deben los creadores esperar a Gemini Omni?
Si investiga Google I/O: espere y observe. 19–20 de mayo; Gemini e IA en la agenda.
Si necesita video esta semana: use herramientas en vivo hoy. Esperar un modelo no confirmado no es una estrategia de producción. PixVerse V6, Veo 3.1 y otros modelos ya publicados pueden cubrir entregas actuales.
Si necesita clips más largos, narrativa multi-toma o API: pruebe PixVerse junto con Veo, Sora, Runway, etc., con el mismo prompt.
Si construye casos interactivos o en tiempo real: PixVerse R1 es la opción lista para generación continua e interactiva.
Lista de seguimiento Google I/O 2026
Cuando Google I/O abra el 19 de mayo, estas preguntas marcarán si Omni cambia el panorama.
- ¿Anuncio oficial de Omni como producto?
- ¿Sustituye a Veo o convive?
- ¿Remix desde contenido subido?
- ¿Edición conversacional en chat del video generado?
- ¿Audio nativo sincronizado?
- Límites, precios, regiones.
- ¿API para desarrolladores?
- ¿Benchmark frente a Veo 3.1, Seedance 2.0, etc.?

Preguntas frecuentes
¿Es real Gemini Omni?
Referencias a «Omni» en la UI en vivo de Gemini, no solo en código oculto. Las cadenas de UI sin lanzamiento ya ocurrieron: trátelo como señal fuerte, no como confirmación.
¿Está lanzado oficialmente?
No. Al 12 de mayo de 2026 Google no ha anunciado ni lanzado oficialmente Gemini Omni. La información pública se basa en lo visible en la app y en relatos de usuarios que Google no ha corroborado de forma independiente.
¿Es distinto de Veo 3.1?
Podría ser rebranding, nuevo modelo nativo de Gemini u omni unificado. Google no ha aclarado la relación.
¿Puede remixar videos?
La descripción filtrada dice «Remix your videos» — no confirmado por Google.
¿Genera audio?
No confirmado explícitamente para Omni. Veo 3.1 ya genera audio nativo; es razonable esperar capacidad similar o mayor.
¿Cuándo se lanzará?
Ventana más probable: Google I/O 2026, 19–20 de mayo.
¿Hay API de Gemini Omni?
No confirmada. No planifique hasta el anuncio oficial de acceso, precios y documentación.
¿Qué usar antes del lanzamiento?
Varias herramientas están disponibles. PixVerse V6 admite texto e imagen a video, transiciones, multi-clip, hasta 1080p, 1–15 segundos. En PixVerse también puede probar muchos generadores de video con IA de referencia en un solo espacio de trabajo —suelen ofrecer buena relación calidad-credito— y hay créditos gratuitos diarios para explorar antes de escalar. Veo 3.1 vía Gemini y API. También Sora 2, Runway, Seedance 2.0, Kling según necesidad.