Google lanzó Gemini Omni: la IA que genera videos con una precisión increíble

La compañía presentó un nuevo modelo multimodal capaz de crear y editar videos a partir de texto, imágenes, audio y grabaciones reales, con foco en conversaciones naturales y escenas de gran realismo

Google presentó Gemini Omni, un nuevo modelo multimodal capaz de entender y generar contenido de video, imagen, texto y audio de forma integrada.

La presentación de esta tecnología se realizó durante el evento Google I/O 2026 y marca un hito en la estrategia de la compañía frente al avance de empresas en el sector de la IA generativa.

Omni es un nuevo concepto que engloba tres claves: la generación de video hiperrealista a partir de imágenes, textos o audios, la posibilidad de editar con precisión tus propios videos y la creación de contenido con tu voz, personalidad y aspecto.

Lo mejor es que no se trata de algo futuro, ya que Gemini Omni está disponible a través de la aplicación de Gemini para todos los usuarios del plan Google AI Plus, Pro y Ultra. Y, si bien inicialmente es solo para quienes pagan por alguno de los planes de la gran G, la compañía confirmó que estará disponible de manera gratuita a través de YouTube Shorts.

Gemini Omni, un modelo de generación de video que asusta por su realismo

Google creó Gemini Omni con una clara diferenciación de Veo. Este nuevo modelo es mucho más realista, entiende mejor el lenguaje natural y es capaz de nutrirse de todo el conocimiento y el razonamiento de Gemini. Ya no hace solo lo que pides, sino que utiliza otros modelos de la IA de Google para que cada parte del video sea los más realista posible.

Uno de los grandes retos y novedades de Gemini Omni es el texto. Google asegura que este nuevo modelo puede crear textos de todo tipo, carteles o personas escribiendo con una precisión y un realismo pocas veces visto.

La gran apuesta: editar videos hablando con la IA

Uno de los principales diferenciales de Gemini Omni es su enfoque conversacional.

En lugar de trabajar mediante comandos aislados o prompts completamente nuevos cada vez, el modelo permite mantener una conversación continua mientras modifica un video existente.

Eso significa que una persona puede pedir cambios sucesivos —alterar una escena, sumar personajes, modificar el ambiente o transformar objetos— sin perder coherencia visual ni continuidad narrativa.

Según Google, Omni mantiene consistencia en personajes, escenarios y movimiento físico incluso después de múltiples modificaciones.

La compañía mostró ejemplos donde una simple grabación cotidiana podía transformarse completamente: espejos líquidos, esculturas hechas de burbujas o ambientes retrofuturistas generados a partir de videos reales.

El movimiento refleja una tendencia cada vez más visible en la industria: la transición desde herramientas de generación estática hacia plataformas de edición dinámica impulsadas por IA.