Lucas

Posted on Apr 10 • Originally published at apidog.com

Seedance 2.0: Como usar vídeo de referência para copiar movimentos e câmera

Em Resumo

O vídeo de referência no Seedance 2.0 permite ancorar movimentos—de câmera, coreografia de personagem, tempo—a um clipe existente em vez de depender somente de prompts em texto. Use clipes de referência de 3 a 8 segundos, em tomada única, sem cortes bruscos e com compressão H.264 limpa. Mantenha prompts de texto curtos (três adjetivos ou menos para o estilo). O texto deve descrever apenas o que a referência não cobre; o clipe cuida do movimento. Caso a saída ignore a referência, siga as etapas de troubleshooting deste guia.

Experimente o Apidog hoje

Introdução

A geração de vídeo baseada apenas em texto é útil para conceitos amplos: cenas atmosféricas, direções visuais exploratórias, abordagens variadas. Porém, quando você já definiu o movimento—como o tempo exato de um gesto, um zoom de câmera ou um ciclo de caminhada—o texto se torna vago.

O vídeo de referência resolve isso: forneça um clipe que demonstre o movimento que deseja e o Seedance 2.0 reinterpreta este movimento na nova cena que você especificar.

Este guia mostra quando usar vídeo de referência, como preparar clipes eficazes e como solucionar problemas comuns.

Quando usar vídeo de referência

O vídeo de referência é ideal para:

Micro-gestos: Sincronização precisa, como “um toque de polegar” ou “um aceno no terceiro tempo”. Texto não capta timings exatos, mas um clipe sim.
Coreografia: Padrões de movimento consistentes, como caminhadas com ritmo definido ou rotinas físicas repetidas.
Movimentos de câmera: Zooms lentos (push-ins), órbitas, ou mudanças específicas de enquadramento, difíceis de descrever por texto.
Sincronização de ritmo: Sincronizar ações com áudio. O modelo entende o tempo do clipe melhor que do texto.

Prefira apenas texto para:

Conceitos abertos ou peças atmosféricas com variedade
Explorar diferentes visuais para o mesmo conteúdo
Quando não há clipe de referência disponível e o movimento é simples

Preparando clipes de referência

Critérios para um bom clipe de referência:

Duração: 3-8 segundos. Menos de 3s é insuficiente; mais de 8s dificulta a precisão do modelo.
Continuidade: Sem cortes ou edições. Precisa ser uma tomada contínua.
Compressão: H.264 de alta qualidade, sem artefatos. Clipes recodificados com artefatos produzem resultados piores.
Clareza do sujeito: Fundo simples e iluminação estável ajudam o modelo a detectar silhueta e movimento. Evite fundos poluídos.

Checklist para o upload:

[ ] Menos de 8 segundos
[ ] Tomada única, sem cortes
[ ] Compressão limpa, sem artefatos
[ ] Sujeito visível contra o fundo
[ ] Iluminação estável em todo o clipe

Criando prompts com um clipe de referência

Ao usar clipe de referência + texto, o prompt deve complementar (não repetir) o clipe:

No texto, foque no que a referência não mostra:

Descritores de estilo (iluminação, paleta de cores, tom visual)
Quem ou o que aparece na cena (identidade do sujeito)
Contexto da câmera (caso não esteja claro no clipe)
Restrições específicas

Modelo de prompt recomendado:

Estilo: [2-3 descritores de iluminação e paleta]
Assunto: [identidade do sujeito com características visíveis]
Câmera: [caso precise ajustar em relação à referência]
Intenção: "Respeitar o movimento da referência: reinterpretar textura e cor."
Não deve: [restrição importante, se necessário]

Exemplo prático:

Clipo de referência: pessoa caminhando com ritmo específico.

Prompt de texto:

Estilo: luz quente de fim de tarde, tons dourados
Assunto: um homem de terno cinza, na casa dos 40, postura confiante
Respeitar o movimento da referência: reinterpretar textura e cor.
Não deve: mudar o ritmo da caminhada

Limite de três adjetivos:

Mais de três descritores para estilo tendem a gerar instruções conflitantes. Escolha apenas os mais importantes.

Uso da API via WaveSpeedAI

O Seedance 2.0 pode ser acessado pela API da WaveSpeedAI. Endpoint para vídeo de referência:

POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json

{
  "prompt": "Warm afternoon light, golden tones. A man in a gray suit walks forward. Respect motion from reference.",
  "image_url": "https://example.com/subject-reference.jpg",
  "reference_video_url": "https://example.com/motion-reference.mp4",
  "duration": 5,
  "aspect_ratio": "16:9"
}

Testando com Apidog

Monte uma coleção de testes antes de integrar.

Configuração:

Crie um ambiente no Apidog com a variável secreta WAVESPEED_API_KEY.

Fluxo de duas requisições:

Requisição 1: Inicia a geração.
Requisição 2: Consulta a conclusão.

Exemplo da Requisição 1:

POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json

{
  "prompt": "{{motion_prompt}}",
  "image_url": "{{subject_image}}",
  "reference_video_url": "{{reference_clip}}",
  "duration": {{duration}},
  "aspect_ratio": "16:9"
}

Na aba de Testes, extraia o ID do job:

pm.environment.set("job_id", pm.response.json().id);

Exemplo da Requisição 2:

GET https://api.wavespeed.ai/api/v2/predictions/{{job_id}}
Authorization: Bearer {{WAVESPEED_API_KEY}}

Validação:

O corpo da resposta deve ter o campo status igual a "completed".

Guia de Solução de Problemas

Instabilidade de movimento (Jitter)

Corte o clipe para remover microajustes nas bordas.
Reduza o ruído visual na filmagem original.
Estabilize durante a captura, evite estabilização só na pós.
Encurte a referência para 3-5 segundos.
Simplifique o prompt (remova descritores conflitantes).

Referência ignorada (modelo ignora o clipe)

Exagere o movimento e centralize o sujeito.
Use só um tipo de movimento por clipe.
Mencione explicitamente o movimento no texto: “copiar movimento de câmera da referência”.
Extraia o trecho mais limpo de 2-3 segundos do clipe.
Use marcas visuais (ex: fita no chão) para indicar paralaxe em movimentos de câmera.

Desvio de estilo (saída não corresponde à estética)

Reduza descritores de estilo para dois ou três.
Inclua um frame de referência estático junto ao vídeo.
Simplifique padrões e detalhes complexos no clipe.
Mantenha configurações consistentes entre renderizações.
Primeiro foque no movimento, só depois ajuste a aparência.

Direitos e consentimento

Para vídeos de referência com pessoas identificáveis, siga estes requisitos:

Tenha consentimento por escrito de todas as pessoas cujos movimentos ou imagens aparecem.
Para menores de idade, obtenha assinatura do responsável.
Certifique-se de que o local permite uso comercial.
Remova logotipos/marcas de terceiros.
Documente datas, consentimentos e versões dos clipes.

Isso vale tanto para o clipe de referência quanto para sujeitos identificáveis na saída gerada.

Perguntas Frequentes

O vídeo de referência substitui a imagem de referência?

Não. A imagem ancora a aparência do sujeito; o vídeo ancora o movimento. Use ambos para controlar aparência e movimento separadamente.

Qual deve ser a duração do clipe de referência?

3-8 segundos. Menos que isso traz pouca informação; mais, reduz a precisão do modelo.

Posso usar clipe de referência de outro gênero?

Sim. Um clipe de uma pessoa caminhando pode gerar um robô caminhando igual. O movimento é transferido, o visual é definido pelo prompt e imagem de referência.

Qual deve ser a resolução do clipe?

720p ou superior. Resoluções baixas diminuem a qualidade da transferência de movimento.

Posso gerar múltiplos clipes a partir da mesma referência?

Sim. O mesmo clipe pode gerar várias variações de cena com movimento consistente — basta variar o prompt.

DEV Community