Google presentó Gemini Omni, un modelo de inteligencia artificial que transforma la edición de video en una conversación. Los usuarios pueden modificar contenido audiovisual simplemente escribiendo instrucciones en lenguaje cotidiano, sin necesidad de dominar programas especializados ni terminología técnica compleja.

El sistema representa un salto cualitativo respecto a modelos anteriores. Mientras que herramientas como Veo requerían descripciones minuciosas de cada elemento visual, Omni interpreta instrucciones generales y completa los detalles utilizando su comprensión del mundo físico, la cultura y la ciencia. Un usuario puede solicitar "explica visualmente la diferencia entre computación clásica y cuántica" y el modelo construye las escenas necesarias sin mayor especificación.

La plataforma acepta múltiples formatos de entrada simultáneos: texto, imagen, audio y video. Puede sincronizar estas fuentes en un resultado coherente, como cuando se le pide que pájaros en movimiento formen una silueta específica al ritmo de una pista de audio. El modelo mantiene memoria de contexto durante la edición, permitiendo que cada instrucción se construya sobre la anterior sin perder coherencia visual.

Entre sus capacidades documentadas figuran cambios de elementos específicos (transformar una mariposa en un enjambre de luciérnagas), control cinematográfico de cámara con terminología profesional, aplicación de estilos visuales completos sobre material existente, y generación de video a partir de storyboards estáticos.

Para obtener resultados precisos, Google DeepMind recomienda especificar cinco elementos: encuadre y movimiento de cámara, estilo visual deseado, iluminación, locación y acción. Aunque el modelo funciona con instrucciones simples, mayor detalle en el prompt otorga mayor control sobre el resultado final.

Gemini Omni Flash, la primera versión del modelo, está disponible en México a través de YouTube Shorts y la aplicación YouTube Create sin costo alguno. Los usuarios de las aplicaciones Gemini y Google Flow requieren suscripción a los planes Google AI Pro o Ultra. Las APIs para desarrolladores y clientes empresariales estarán disponibles en las próximas semanas.

La compañía advierte que las capacidades varían según el plan de suscripción y la región geográfica. Todos los videos generados con Omni incluyen marcas de agua que identifican su origen artificial, cumpliendo con estándares de transparencia en contenido generado por IA.