Emre Demir

Posted on Apr 10 • Originally published at apidog.com

Seedance 2.0: Bewegungen und Kamerafahrten aus Referenzvideos kopieren

Kurzfassung

Referenzvideo in Seedance 2.0 ermöglicht es, Bewegungen – wie Kamerafahrten, Choreografien oder präzises Timing – direkt an einen bestehenden Clip zu koppeln. Nutzen Sie 3-8 Sekunden lange Referenzclips: eine durchgehende Aufnahme, keine Schnitte, saubere H.264-Kompression. Text-Prompts sollten kurz bleiben (maximal drei Adjektive für den Stil). Der Text beschreibt, was die Referenz nicht abdeckt; die Referenz steuert die Bewegung. Weicht das Ergebnis ab, folgen Sie der Fehlerbehebung in diesem Leitfaden.

Probiere Apidog noch heute aus

Einleitung

Textbasierte Videogenerierung eignet sich gut für lose Konzepte, stimmungsvolle Szenen und variantenreiche Visuals. Sobald Bewegungsdetails wie ein exaktes Timing, eine bestimmte Kamerafahrt oder ein Gehzyklus feststehen, reichen Textbeschreibungen nicht mehr aus.

Das Referenzvideo schließt diese Lücke: Ein Clip zeigt die gewünschte Bewegung, Seedance 2.0 überträgt sie auf die neu beschriebene Szene.

In diesem Leitfaden erfährst du, wann Referenzvideos sinnvoll sind, wie man effektive Referenzclips erstellt und wie man typische Probleme löst.

Wann Referenzvideo verwendet werden sollte

Referenzvideo ist ideal für:

Mikro-Gesten: Exaktes Timing, z. B. „Daumentippen“ oder „Nicken auf dem dritten Takt“. Das geht per Text nicht präzise – ein Clip schon.
Choreografie: Gleichmäßige Bewegungsabläufe, wie ein bestimmter Gehzyklus oder wiederholte Routinen.
Kamerabewegungen: Subtile Kamerafahrten, kontrollierte Orbits oder spezifische Rahmenwechsel – schwer per Text zu beschreiben.
Beat-Matching: Synchronisierung von Aktionen mit Audio. Das Modell erkennt Timing im Clip besser als in Textprompts.

Text ist besser geeignet für:

Lose, stimmungsvolle Konzepte, bei denen Variation erwünscht ist
Visuelle Explorationen desselben Inhalts
Einfache Bewegungen, die sich leicht beschreiben lassen und keine passenden Referenzclips vorliegen

Referenzclips vorbereiten

Ein funktionaler Referenzclip hat folgende Eigenschaften:

Länge: 3-8 Sekunden. Kürzere Clips liefern zu wenig Daten, längere sorgen für Unsicherheit und inkonsistente Ergebnisse.
Kontinuität: Keine Schnitte, keine Bearbeitungen – eine durchgehende Aufnahme.
Kompression: Sauberes H.264, keine sichtbaren Blockartefakte.
Motivklarheit: Einfache Hintergründe, gleichmäßige Ausleuchtung, Motiv ist klar erkennbar.

Checkliste für den Upload:

[ ] Unter 8 Sekunden
[ ] Eine durchgehende Aufnahme, keine Schnitte
[ ] Saubere Kompression, keine Blockartefakte
[ ] Motiv klar vor Hintergrund erkennbar
[ ] Gleichmäßige Beleuchtung im Clip

Prompting mit einem Referenzclip

Kombiniere den Referenzclip mit einem Textprompt, der die Bewegung ergänzt anstatt sie zu wiederholen.

Text sollte abdecken, was die Referenz nicht zeigt:

Stil (Beleuchtung, Farbpalette, visueller Ton)
Motividentität (wer/was in der neuen Szene auftritt)
Kamerakontext (falls nicht schon im Clip ersichtlich)
Eine oder zwei Einschränkungen

Empfohlene Prompt-Struktur:

Stil: [2-3 Begriffe für Licht und Farbgebung]
Motiv: [Beschreibung des Motivs]
Kamera: [nur falls abweichend]
Referenzintention: „Bewegung aus Referenz respektieren: Textur und Farbe neu interpretieren.“
Muss nicht: [spezifische Einschränkung, falls nötig]

Beispiel:

Referenzclip: Person geht im bestimmten Tempo.

Textprompt:

Stil: warmes Nachmittagslicht, goldene Töne
Motiv: ein Mann in grauem Anzug, Anfang 40, selbstbewusst
Bewegung aus Referenz respektieren: Textur und Farbe neu interpretieren.
Muss nicht: Gehgeschwindigkeit ändern

Drei-Adjektiv-Limit:

Verwende maximal drei Stilbeschreibungen, um widersprüchliche Anweisungen zu vermeiden. Mehr reduziert die Modellgenauigkeit.

API-Nutzung über WaveSpeedAI

Seedance 2.0 ist via WaveSpeedAI-API verfügbar. Für Referenzvideos nutze folgenden Endpoint:

POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json

{
  "prompt": "Warmes Nachmittagslicht, goldene Töne. Ein Mann in grauem Anzug geht vorwärts. Bewegung aus Referenz respektieren.",
  "image_url": "https://example.com/subject-reference.jpg",
  "reference_video_url": "https://example.com/motion-reference.mp4",
  "duration": 5,
  "aspect_ratio": "16:9"
}

Testen mit Apidog

Erstelle eine Testkollektion, bevor du die Integration baust.

Umgebung einrichten:

Apidog-Umgebung anlegen
WAVESPEED_API_KEY als geheime Variable speichern

Zwei-Anfragen-Workflow:

Anfrage 1: Startet die Generierung

POST https://api.wavespeed.ai/api/v2/seedance/v2/image-to-video
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json

{
  "prompt": "{{motion_prompt}}",
  "image_url": "{{subject_image}}",
  "reference_video_url": "{{reference_clip}}",
  "duration": {{duration}},
  "aspect_ratio": "16:9"
}

Im Tab „Tests“ die Job-ID für das Polling extrahieren:

pm.environment.set("job_id", pm.response.json().id);

Anfrage 2: Status abfragen

GET https://api.wavespeed.ai/api/v2/predictions/{{job_id}}
Authorization: Bearer {{WAVESPEED_API_KEY}}

Prüfen:

Antwortkörper, Feld status muss completed sein.

Fehlerbehebungsanleitung

Bewegungszittern

Clip an den Rändern schneiden, um Mikroanpassungen zu entfernen
Visuelles Rauschen im Quellmaterial reduzieren
Während der Aufnahme stabilisieren, nicht nachträglich
Referenzlänge auf 3-5 Sekunden verkürzen
Textprompt vereinfachen (widersprüchliche Begriffe entfernen)

Referenz ignoriert (Modell übernimmt Clip nicht)

Bewegung im Clip überzeichnen und das Motiv mittig platzieren
Pro Clip nur eine Bewegungsart verwenden (keine gemischten Kamera- und Charakterbewegungen)
Bewegung explizit im Text nennen: „Kamerabewegung aus Referenz kopieren“
Den klarsten 2-3 Sekunden langen Ausschnitt aus dem Clip verwenden
Für Kamerabewegungen Markierungen im Bild (z.B. Klebeband) setzen

Stilabweichung

Stilbeschreibungen auf 2-3 beschränken
Einen statischen Referenzrahmen zusätzlich zum Videoclip angeben
Muster und Details im Clip vereinfachen
Einstellungen über alle Renderings konsistent halten
Erst die Bewegung korrigieren, danach das Aussehen iterieren

Rechte und Zustimmung

Für Referenzvideos mit identifizierbaren Personen ist eine Einverständniserklärung erforderlich. Praktische Anforderungen:

Schriftliche Zustimmung aller erkennbaren Personen im Clip
Bei Minderjährigen: Unterschrift der Erziehungsberechtigten
Drehorte auf kommerzielle Nutzung prüfen
Logos und Marken Dritter im Clip vermeiden
Dokumentation führen: Daten, Einwilligungen, Clip-Versionen

Dies gilt für den Referenzclip und für jede identifizierbare Person in der generierten Ausgabe.

Häufig gestellte Fragen

Ersetzt das Referenzvideo die Bildreferenz?

Nein. Die Bildreferenz steuert das Aussehen des Motivs, das Referenzvideo die Bewegung. Nutze beides, um Aussehen und Bewegung separat zu kontrollieren.

Wie lang sollte der Referenzclip sein?

3-8 Sekunden. Kürzer liefert zu wenig Bewegungsdaten, länger sorgt für Unsicherheit und Inkonsistenzen.

Kann ich einen Referenzclip aus einem anderen Genre nehmen?

Ja. Ein Clip einer gehenden Person kann z. B. für einen Roboter mit gleichem Bewegungsmuster genutzt werden. Die Bewegung wird übernommen, das Aussehen durch Textprompt und Bildreferenz bestimmt.

Welche Auflösung sollte der Clip haben?

Mindestens 720p. Niedrige Auflösung verschlechtert die Bewegungsübertragung.

Kann ich mehrere Clips aus derselben Referenz generieren?

Ja. Mit demselben Referenzclip kannst du mehrere Varianten mit unterschiedlichen Prompts erzeugen – praktisch, um verschiedene Szenen mit konsistenter Bewegung zu erstellen.

DEV Community