Roobia

Posted on Apr 10 • Originally published at apidog.com

Cómo usar video de referencia en SeeDance 2.0: Copiar movimiento y cámara

En resumen

El video de referencia en Seedance 2.0 permite anclar movimientos (cámara, coreografía, tiempos) a un clip existente, simplificando la generación de escenas precisas. Utiliza clips de referencia de 3 a 8 segundos: una sola toma, sin cortes, compresión H.264 limpia. Mantén los prompts de texto cortos (máximo tres adjetivos para estilo). El texto describe lo que la referencia no puede mostrar; la referencia controla el movimiento. Si los resultados se desvían o ignoran la referencia, consulta la guía de solución de problemas.

Prueba Apidog hoy

Introducción

La generación de video solo con texto es útil para conceptos generales: escenas atmosféricas, exploración visual, estilos variados. Cuando el movimiento es específico (tiempo exacto de un gesto, acercamiento de cámara, ciclo de caminata), las descripciones de texto no son precisas.

El video de referencia soluciona este problema: aportas un clip que muestra el movimiento deseado y Seedance 2.0 lo reinterpreta en la nueva escena que describes.

Esta guía explica cuándo usar video de referencia, cómo preparar clips efectivos y cómo resolver los errores más comunes.

Cuándo usar video de referencia

El video de referencia es ideal para:

Micro-gestos: Movimientos precisos como "golpecito con el pulgar" o "asentimiento en el tercer tiempo". El clip proporciona el tiempo exacto.
Coreografía: Patrones de movimiento consistentes, como caminar con una cadencia específica o rutinas físicas repetidas.
Movimientos de cámara: Acercamientos lentos, órbitas controladas o cambios específicos de encuadre difíciles de describir con texto.
Sincronización de ritmo: Sincronizar acciones con señales de audio; el modelo extrae el tiempo mejor del clip que del texto.

Usa solo texto para:

Conceptos generales o escenas atmosféricas donde la variedad es un valor.
Probar diferentes estilos visuales para el mismo contenido.
Cuando no hay un clip de referencia adecuado y el movimiento es simple.

Preparación de clips de referencia

Un clip de referencia efectivo cumple con:

Duración: 3-8 segundos. Más corto: poca información. Más largo: resultados inconsistentes.
Continuidad: Sin ediciones ni cortes. Una sola toma continua.
Compresión: H.264 limpio, sin artefactos visibles. Clips con compresión deficiente producen peores resultados.
Claridad del sujeto: Fondos sencillos e iluminación constante para que el modelo lea el movimiento claramente. Evita fondos complejos.

Lista de verificación antes de subir:

[ ] Menos de 8 segundos
[ ] Toma continua, sin cortes
[ ] Compresión limpia, sin bloqueos visibles
[ ] Sujeto visible sobre fondo claro
[ ] Iluminación constante

Creación de prompts con un clip de referencia

Combina el clip de referencia y el prompt de texto: el texto debe complementar lo que la referencia no cubre.

El texto debe enfocarse en lo que la referencia no muestra:

Descriptores de estilo (iluminación, paleta de colores, tono visual)
Identidad del sujeto (quién o qué aparece en la escena)
Contexto de la cámara (si difiere del clip)
Restricciones específicas

Estructura recomendada del prompt:

Estilo: [2-3 descriptores de iluminación y paleta]
Sujeto: [descripción del sujeto con características visibles]
Cámara: [si es diferente de la referencia]
Intención de referencia: "Respetar el movimiento de la referencia: reinterpretar textura y color."
No debe: [restricción específica]

Ejemplo:

Clip de referencia: persona caminando con ritmo medido.

Prompt de texto:

Estilo: luz cálida de la tarde, tonos dorados
Sujeto: un hombre de traje gris, de unos 40 años, postura segura
Respetar el movimiento de la referencia: reinterpretar textura y color.
No debe: cambiar el ritmo de la caminata

Límite de tres adjetivos:

Más de tres descriptores de estilo generan instrucciones contradictorias. Elige solo los más importantes.

Uso de API a través de WaveSpeedAI

Seedance 2.0 está disponible vía la API de WaveSpeedAI. Endpoint para video de referencia:

POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json

{
  "prompt": "Luz cálida de la tarde, tonos dorados. Un hombre de traje gris camina hacia adelante. Respetar el movimiento de la referencia.",
  "image_url": "https://example.com/subject-reference.jpg",
  "reference_video_url": "https://example.com/motion-reference.mp4",
  "duration": 5,
  "aspect_ratio": "16:9"
}

Pruebas con Apidog

Prepara una colección de pruebas antes de integrar.

Configuración de entorno:

Define un entorno en Apidog con WAVESPEED_API_KEY como variable secreta.

Flujo de dos solicitudes:

Solicitud 1: Inicia la generación.

POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json

{
  "prompt": "{{motion_prompt}}",
  "image_url": "{{subject_image}}",
  "reference_video_url": "{{reference_clip}}",
  "duration": {{duration}},
  "aspect_ratio": "16:9"
}

Extrae el ID de trabajo en la pestaña Pruebas:

pm.environment.set("job_id", pm.response.json().id);

Solicitud 2: Consulta el estado.

GET https://api.wavespeed.ai/api/v2/predictions/{{job_id}}
Authorization: Bearer {{WAVESPEED_API_KEY}}

Afirmación esperada:

Response body, field status equals "completed"

Guía de solución de problemas

Temblor de movimiento

Recorta el clip para eliminar microajustes no deseados.
Reduce el ruido visual en el video original.
Estabiliza durante la grabación en vez de en postproducción.
Acorta la referencia a 3-5 segundos.
Simplifica el prompt de texto.

Referencia ignorada (el modelo ignora el clip)

Exagera el movimiento y centra al sujeto.
Solo un tipo de movimiento por clip (no mezcles movimientos de cámara y personajes).
Menciona explícitamente el movimiento en el texto: "copiar movimiento de cámara de la referencia".
Usa el segmento más limpio de 2-3 segundos del clip.
Usa marcas de referencia (cinta en superficies) para mayor claridad de paralaje en movimientos de cámara.

Deriva de estilo (la salida no coincide con la estética)

Reduce los descriptores de estilo a dos o tres.
Añade un fotograma de referencia estático junto con el video.
Simplifica patrones y detalles del clip.
Mantén la configuración constante en todos los renders.
Asegura primero el movimiento antes de iterar en la apariencia.

Derechos y consentimiento

Clips de referencia con personas identificables requieren consentimiento:

Consentimiento por escrito de cada persona en el clip.
Firma de tutores legales para menores.
Verifica permisos de locación para uso comercial.
Excluye logotipos o marcas de terceros en el clip.
Mantén registros: fechas, consentimientos, versiones de clips.

Aplica tanto al clip de referencia como a cualquier sujeto identificable generado.

Preguntas frecuentes

¿El video de referencia reemplaza la imagen de referencia?

No. La imagen de referencia fija la apariencia del sujeto; el video fija el movimiento. Usa ambos para controlar apariencia y movimiento por separado.

¿Cuánto debe durar el clip de referencia?

De 3 a 8 segundos. Más corto: poca información. Más largo: menor confianza y resultados inconsistentes.

¿Puedo usar un clip de referencia de otro género?

Sí. Puedes usar el movimiento de un clip (por ejemplo, una persona caminando) para animar un robot u otro personaje. El movimiento se transfiere, el contenido visual se reemplaza por el prompt y la imagen de referencia.

¿Qué resolución debe tener el clip?

720p o superior. Resoluciones bajas dan menos información y menor calidad de transferencia de movimiento.

¿Puedo generar múltiples clips desde la misma referencia?

Sí. Un mismo clip de referencia puede usarse para generar múltiples variantes con diferentes prompts, manteniendo el mismo movimiento.

DEV Community