Roobia

Posted on May 20 • Originally published at apidog.com

¿Qué es Gemini Omni? El Modelo de Video Razonamiento Primero de Google

Google acaba de presentar Gemini Omni, un modelo que combina razonamiento de Gemini con generación multimodal. La primera variante, Gemini Omni Flash, acepta texto, imagen, audio o video como entrada y devuelve video. Ya está disponible en la aplicación Gemini, Google Flow, YouTube Shorts y YouTube Create; el acceso por API para desarrolladores llegará en las próximas semanas.

Prueba Apidog hoy

Si trabajas con Apidog, probablemente ya has probado endpoints de texto, imagen y video como Nano Banana 2 o Veo 3.1. Gemini Omni es el siguiente endpoint a preparar: no es solo otro generador de video, sino un modelo que razona sobre la instrucción antes de generar la salida. En esta guía verás qué hace, cómo se compara con Gemini 3 Pro y Veo, y cómo dejar tu workspace de Apidog listo para integrarlo cuando Google publique la API.

TL;DR

Gemini Omni es una nueva familia de modelos de Google que combina razonamiento con generación multimodal nativa. Gemini Omni Flash acepta texto, imagen, audio y video como entrada, y por ahora produce video como salida. Las salidas de imagen y audio están planificadas.

Hoy puedes usarlo en:

La aplicación Gemini.
Google Flow.
YouTube Shorts.
YouTube Create.

El acceso está incluido para suscriptores de Google AI Plus, Pro y Ultra, y es gratuito en YouTube Shorts y YouTube Create. Las APIs para desarrolladores y empresas llegarán en las próximas semanas.

Qué es Gemini Omni

Gemini Omni es un modelo generativo con una capa de razonamiento aplicada a la generación. En vez de tomar una instrucción y producir fotogramas directamente, primero interpreta qué debería ocurrir y luego genera el video.

El equipo de Google DeepMind, dirigido por Koray Kavukcuoglu, lo describe como un modelo que usa el conocimiento del mundo de Gemini y una comprensión intuitiva de conceptos físicos como gravedad, energía cinética y dinámica de fluidos.

Un ejemplo práctico:

Genera un video de una pelota bajando una escalera y perdiendo impulso en cada rebote.

Un generador de video tradicional intenta producir movimiento visualmente plausible. Omni intenta razonar sobre el comportamiento esperado: pérdida de energía, ángulo de rebote, gravedad y contacto con los escalones.

Esa es la diferencia clave: generación guiada por razonamiento, no solo interpolación de fotogramas.

Gemini Omni Flash sigue la nomenclatura de Google:

Gemini 3 Pro: tareas pesadas y razonamiento.
Gemini 3 Flash: menor latencia y menor costo.
Gemini Omni Flash: razonamiento + generación multimodal en el nivel Flash.

Google no ha anunciado variantes Omni más grandes.

Capacidades principales de Gemini Omni

Gemini Omni introduce tres capacidades útiles para desarrolladores y equipos de producto.

1. Entrada multimodal nativa

Puedes combinar texto, imagen, audio y video en una misma solicitud.

Ejemplo:

Usa esta foto de producto y este audio de voz en off para generar un video de 6 segundos donde el producto aparece sobre fondo blanco y la cámara rota lentamente.

No necesitas montar un pipeline separado de sincronización labial o composición inicial.

2. Fusión de referencias

Omni puede usar varias referencias a la vez:

Imagen de producto.
Paleta de marca.
Guion.
Voz de referencia.
Clip de estilo visual.

El objetivo es mantener consistencia entre la entrada, el clip generado y las ediciones posteriores.

3. Edición multi-turno

Puedes generar un clip y luego modificarlo conversacionalmente:

Haz el fondo más nevado.

Cambia el gato por un zorro, pero conserva la cámara y la iluminación.

La promesa es que Omni mantenga intactas las partes que no mencionas. Esto es importante porque muchos modelos de video actuales regeneran demasiado contenido en cada nueva instrucción.

Gemini Omni vs Veo 3.1 vs Gemini 3 Pro

Si ya usas modelos de Google, piensa en esta división:

Modelo	Uso principal	Entrada	Salida	Razonamiento
Gemini 3 Pro	Texto, código y razonamiento multimodal	Texto, imagen, audio, video, código	Texto, código	Fuerte, con Deep Think disponible
Veo 3.1	Generación de video pura	Texto, imagen	Video	Limitado; guiado por instrucciones
Gemini Omni Flash	Razonamiento + generación creativa	Texto, imagen, audio, video	Video; imagen/audio próximamente	Nativo, aplicado a la generación

Veo 3.1 sigue siendo una buena opción cuando quieres una toma única de alta fidelidad. Puedes ver más detalles en la guía de la API de Veo 3 y en la cobertura de Veo 3.1.

Omni añade un ciclo conversacional y de razonamiento. Por ejemplo:

Crea un recorrido de producto de 30 segundos donde la cámara sigue el unboxing de un teléfono y reacciona a la voz en off del usuario.

Con Veo, normalmente vuelves a generar. Con Omni, continúas la conversación y pides cambios incrementales.

Para texto puro, Gemini 3 Pro sigue siendo la opción correcta. Para video directo y bien definido, Veo 3.1 puede ser más simple. Omni encaja cuando la instrucción necesita interpretación y la salida debe adaptarse al contexto.

Dónde puedes usar Gemini Omni hoy

Gemini Omni Flash ya está disponible en cuatro superficies:

Aplicación Gemini: generación conversacional de videoclips.
Google Flow: creación de secuencias y películas con varias tomas.
YouTube Shorts: acceso gratuito para creadores.
YouTube Create: generación gratuita orientada a móvil.

Para planes de pago, Omni está incluido en Google AI Plus, Pro y Ultra. En YouTube, Google lo está distribuyendo gratis para creadores antes de lanzar la API.

Cada video generado por Omni incluye marca de agua SynthID. La procedencia puede verificarse desde la app Gemini, Gemini en Chrome o la Búsqueda de Google. Esto es relevante si construyes pipelines de:

Moderación.
Verificación de noticias.
Cumplimiento.
Seguridad de marca.
Confianza y seguridad.

También existe una función llamada Avatares, que permite crear una versión digital de una persona con su voz y generar videos con nuevas líneas. Google no ha detallado todavía cómo funcionará el consentimiento y la verificación en la API, pero en la versión de consumidor requiere configuración explícita de voz antes de usar una imagen personal.

Qué significa “razonamiento + generación”

Supón esta instrucción:

Muéstrame un vaso de agua cayendo desde el borde de una mesa y aterrizando en un suelo de madera.

Un modelo generativo puro puede producir una animación visualmente convincente. Un modelo con razonamiento intenta resolver primero preguntas implícitas:

¿Cuándo cruza el centro de masa el borde?
¿El agua sale antes o después del impacto?
¿El vaso rebota, se rompe o rueda?
¿Cómo se comporta el líquido?
¿Qué tipo de contacto ocurre con el suelo?

Omni no está ejecutando una simulación física real. Está entrenado para predecir resultados con una intuición física más fuerte y usar esa predicción para guiar la generación.

Lo notarás sobre todo en:

Trayectoria: objetos que caen con gravedad en vez de flotar.
Materiales: tela, agua, humo y líquidos con comportamiento más creíble.
Contacto: choques, rebotes y deformaciones más consistentes.

Aun así, no debes tratarlo como un motor de física. Puede fallar en tomas largas, perder permanencia de objetos o producir transiciones inconsistentes. Para VFX profesional, seguirá siendo necesario un flujo de edición y composición.

Niveles de acceso actuales

Superficie	Costo	Acceso
YouTube Shorts	Gratis	Cualquier creador
YouTube Create	Gratis	Creadores móviles
Aplicación Gemini	De pago	AI Plus / Pro / Ultra
Google Flow	De pago	AI Plus / Pro / Ultra
API para desarrolladores	Por determinar	Próximas semanas
API empresarial	Por determinar	Próximas semanas

Google no ha dado una fecha exacta para la API. Lo esperable es que aparezca primero en Google AI Studio y Vertex AI, siguiendo el patrón de Gemini 3.

Mientras tanto, puedes preparar tu workspace:

Descarga Apidog.
Importa el esquema de API de Gemini que ya uses para Gemini 3 Pro o Veo.
Crea un entorno para AI Studio.
Crea otro entorno para Vertex AI.
Simula respuestas de generación de video antes de que exista el endpoint real.

Esto te permite validar cliente, UI y manejo de errores sin consumir cuota.

API de Gemini Omni: lo confirmado

Google ha confirmado lo siguiente:

Primer modelo disponible: Gemini Omni Flash.
Variantes mayores: no anunciadas.
Canales probables: Google AI Studio para prototipos y Vertex AI para producción.
Entradas: texto, imagen, audio y video.
Salida inicial: video.
Salidas futuras: imagen y audio.
Precios: no anunciados.
Rate limits: no anunciados.
Disponibilidad regional: no anunciada.

Si hoy tienes un pipeline con Veo 3.1 u otro modelo de video, diseña una interfaz interna que permita intercambiar modelos sin cambiar toda la aplicación.

Ejemplo de abstracción:

interface VideoGenerationProvider {
  generate(input: VideoGenerationInput): Promise<VideoGenerationResult>;
}

type VideoGenerationInput = {
  prompt: string;
  references?: Array<{
    type: "image" | "audio" | "video";
    mimeType: string;
    data: string;
  }>;
  durationSeconds?: number;
};

type VideoGenerationResult = {
  status: "queued" | "processing" | "completed" | "failed";
  videoUrl?: string;
  error?: string;
};

Luego puedes implementar proveedores distintos:

class VeoProvider implements VideoGenerationProvider {
  async generate(input: VideoGenerationInput): Promise<VideoGenerationResult> {
    // llamada a Veo
    return { status: "queued" };
  }
}

class OmniProvider implements VideoGenerationProvider {
  async generate(input: VideoGenerationInput): Promise<VideoGenerationResult> {
    // llamada futura a Gemini Omni
    return { status: "queued" };
  }
}

Ese patrón te permite probar con mocks en Apidog y cambiar la URL cuando el endpoint esté disponible. También lo cubrimos en la guía de APIs de texto a video.

Cómo preparar Apidog para Gemini Omni

Cuando la API esté disponible, tu workspace de Apidog debería tener tres piezas listas.

1. Autenticación por entorno

Configura ambos escenarios:

Google AI Studio con x-goog-api-key.
Vertex AI con OAuth y cuenta de servicio.

En Apidog, crea variables de entorno como:

GEMINI_API_KEY=...
GOOGLE_PROJECT_ID=...
GOOGLE_LOCATION=...
OMNI_MODEL=gemini-omni-flash

Evita hardcodear claves o nombres de modelo en cada request.

2. Esquema de solicitud

Cuando Google publique la especificación OpenAPI, impórtala directamente. Si no aparece al inicio, crea un esquema provisional basado en la API multimodal de Gemini 3.

Un request probable podría verse así:

curl -X POST https://generativelanguage.googleapis.com/v1beta/models/gemini-omni-flash:generateContent \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        {
          "text": "Generate a 6s product shot of the attached phone rotating on a white background"
        },
        {
          "inline_data": {
            "mime_type": "image/jpeg",
            "data": "<base64-image>"
          }
        }
      ]
    }],
    "generationConfig": {
      "responseMimeType": "video/mp4",
      "durationSeconds": 6
    }
  }'

Esta forma es una proyección basada en la API multimodal existente de Gemini 3. Google podría cambiar nombres de campos cuando publique Omni.

3. Respuestas simuladas

La generación de video puede ser lenta y costosa. Antes de usar el endpoint real, crea mocks en Apidog para:

Respuesta exitosa con URL firmada.
Respuesta en cola.
Error de política de contenido.
Error de cuota.
Timeout.
Respuesta con metadata SynthID.

Ejemplo de mock:

{
  "id": "omni-video-req-123",
  "status": "completed",
  "model": "gemini-omni-flash",
  "output": {
    "mimeType": "video/mp4",
    "url": "https://example.com/generated/product-shot.mp4",
    "durationSeconds": 6
  },
  "provenance": {
    "watermark": "SynthID",
    "verifiable": true
  }
}

Añade aserciones para validar:

Código HTTP.
Presencia de output.url.
mimeType.
Duración.
Metadata de marca de agua.
Estados de error.

Ejemplo de cliente preparado para ejecución asíncrona

No bloquees el hilo principal esperando un video. Modela la generación como un job.

async function createOmniVideoJob(input: VideoGenerationInput) {
  const response = await fetch("/api/video-jobs", {
    method: "POST",
    headers: {
      "Content-Type": "application/json",
    },
    body: JSON.stringify(input),
  });

  if (!response.ok) {
    throw new Error("No se pudo crear el job de video");
  }

  return response.json() as Promise<{ jobId: string }>;
}

async function pollVideoJob(jobId: string) {
  const response = await fetch(`/api/video-jobs/${jobId}`);

  if (!response.ok) {
    throw new Error("No se pudo consultar el job");
  }

  return response.json() as Promise<{
    status: "queued" | "processing" | "completed" | "failed";
    videoUrl?: string;
    error?: string;
  }>;
}

En frontend:

const { jobId } = await createOmniVideoJob({
  prompt: "Genera un video de 6 segundos de un teléfono rotando sobre fondo blanco",
  durationSeconds: 6,
});

const interval = setInterval(async () => {
  const job = await pollVideoJob(jobId);

  if (job.status === "completed") {
    clearInterval(interval);
    console.log("Video listo:", job.videoUrl);
  }

  if (job.status === "failed") {
    clearInterval(interval);
    console.error(job.error);
  }
}, 3000);

Este patrón funciona tanto para Veo como para Omni y cualquier proveedor futuro.

Comparación con Sora 2, Veo 3.1 y Nano Banana 2

Modelo	Proveedor	Razonamiento	Entrada multimodal	Edición	Marca de agua
Gemini Omni Flash	Google	Nativo	Texto, imagen, audio, video	Multi-turno	SynthID
Veo 3.1	Google	Limitado	Texto, imagen	Re-instrucción	SynthID
Sora 2	OpenAI	Algo	Texto, imagen	Re-instrucción	C2PA
Nano Banana 2	Google	Algo	Texto, imagen	Limitado	SynthID

Veo 3.1 sigue siendo fuerte para tomas cinematográficas individuales. Sora 2 se posiciona con simulación de mundo avanzada; puedes ver el análisis en nuestro análisis de Sora 2.

Omni destaca cuando necesitas:

Interpretación de instrucciones complejas.
Edición conversacional.
Referencias multimodales.
Continuidad entre turnos.
Video generado desde contexto amplio.

Si necesitas producción estable hoy, Veo 3.1 más simulaciones en Apidog es una ruta más predecible. Si estás diseñando una experiencia donde el usuario edita en lenguaje natural, vale la pena preparar Omni desde ahora. También puedes revisar la comparación completa en el enfrentamiento de modelos de video.

Casos de uso prácticos

Marketing de producto

Genera variantes localizadas de videos de producto a partir de:

Una imagen de referencia.
Un guion.
Una voz en off.
Colores de marca.

Luego itera con instrucciones como:

Haz la escena más premium, conserva el producto centrado y cambia el fondo a gris claro.

Educación

Usa Omni para explicar conceptos físicos con demostraciones visuales.

Ejemplo:

Genera una demostración de conservación de momento con dos bolas de distinto tamaño chocando sobre una superficie lisa.

Aquí el razonamiento importa más que la estética.

Customer success

Crea videos cortos de onboarding personalizados por cliente usando avatares y guiones dinámicos.

Moderación y confianza

Integra detección de SynthID para marcar contenido generado por Omni en pipelines internos.

Prototipado de juegos y apps

Genera cinemáticas conceptuales antes de pasar a producción 3D o edición manual.

Buenas prácticas antes de que salga la API

No hardcodees el modelo

Usa variables:

VIDEO_MODEL=gemini-omni-flash
VIDEO_PROVIDER=google

Los nombres de modelo pueden cambiar entre preview y disponibilidad general.

Simula antes de llamar al endpoint real

Crea mocks en Apidog para validar:

UI.
Manejo de estados.
Errores.
Timeouts.
Respuestas parciales.
Formato de salida.

Cachea resultados

La misma combinación de prompt + referencias debería reutilizar salida cuando sea posible.

Una clave de caché simple:

import crypto from "crypto";

function cacheKey(input: VideoGenerationInput) {
  return crypto
    .createHash("sha256")
    .update(JSON.stringify(input))
    .digest("hex");
}

Trata la generación como asíncrona

No esperes respuestas inmediatas. Usa jobs, colas y polling o webhooks.

Maneja errores de política

Los filtros de seguridad pueden bloquear solicitudes relacionadas con:

Personas reales.
Personajes con derechos.
Categorías sensibles.
Uso no autorizado de voz o imagen.

Devuelve mensajes accionables, no errores genéricos.

Planifica SynthID

Si republicas videos generados, define si mostrarás información de procedencia a usuarios finales o solo a sistemas internos.

No reemplaces tu flujo de edición

Omni genera video, pero no sustituye un editor no lineal. Para cortes, color, mezcla de audio y revisión final, seguirás usando herramientas como DaVinci, Premiere o Google Flow.

Preguntas frecuentes

¿Qué es Gemini Omni?

Gemini Omni es una familia de modelos de Google que combina razonamiento de Gemini con generación multimodal nativa. Gemini Omni Flash acepta texto, imagen, audio y video como entrada, y produce video como salida.

¿Gemini Omni es lo mismo que Veo 3?

No. Veo es un modelo dedicado a generación de video con razonamiento limitado. Omni es un modelo que razona y genera video, acepta más tipos de entrada y permite edición multi-turno. Puedes revisar la guía de la API de Veo 3 para comparar enfoques.

¿Cuándo se lanza la API de Gemini Omni?

Google solo ha dicho “en las próximas semanas” desde el anuncio de mayo de 2026. Las APIs para desarrolladores y empresas llegarán juntas, pero no hay fecha exacta.

¿Cuánto cuesta Gemini Omni?

Para consumidores, es gratis en YouTube Shorts y YouTube Create. También está incluido en Google AI Plus, Pro y Ultra. El precio de la API no ha sido anunciado.

¿Puede Gemini Omni generar audio?

Todavía no como salida independiente. En el lanzamiento, la salida confirmada es video. Google ha indicado que las salidas de audio e imagen llegarán más adelante.

¿Tiene marca de agua?

Sí. Todos los videos generados por Omni incluyen marca de agua SynthID, verificable desde la app Gemini, Gemini en Chrome y la Búsqueda de Google.

¿Apidog será compatible con Gemini Omni?

Sí. Igual que con endpoints de Gemini 3, Veo 3 y Nano Banana, podrás usar Apidog para importar la especificación OpenAPI cuando Google la publique. Mientras tanto, puedes bosquejar el esquema, simular respuestas y preparar tu cliente.

¿Cómo maneja Gemini Omni la física?

No ejecuta una simulación física real. Está entrenado para predecir resultados con intuición física y generar fotogramas consistentes con esa predicción. Esto mejora casos como gravedad, fluidos, colisiones y contacto entre objetos, aunque no elimina todos los errores.

Conclusión

Gemini Omni no es solo un Veo más rápido. Es un modelo que razona antes de generar, acepta entradas multimodales y permite edición conversacional. La API todavía no está disponible públicamente, pero puedes preparar la integración desde ahora.

Checklist para esta semana:

Vigila Google AI Studio y Vertex AI para el endpoint de Omni Flash.
Configura autenticación y entornos en Apidog.
Crea un esquema provisional basado en Gemini 3 multimodal.
Simula respuestas de video, errores y estados asíncronos.
Encapsula Veo, Omni y futuros modelos detrás de una interfaz común.
Planifica caché, colas y verificación SynthID.

Cuando la API esté disponible, los equipos con mocks, contratos y clientes preparados podrán integrarla en horas. Los demás empezarán por leer la documentación.