Synthetic Data: Wie künstliche Trainingsdaten den KI-Datenhunger stillen
Von Dirk Röthig | CEO, VERDANTIS Impact Capital | 4. April 2026
Moderne KI-Modelle wurden auf einem erheblichen Teil des öffentlichen Internets trainiert — und dieser Datenschatz nähert sich der Erschöpfung. Gleichzeitig fordern Datenschutzgesetze, Unternehmensgeheimnisse und schlicht die Knappheit qualitativ hochwertiger Daten neue Wege. Die Antwort: Daten, die nicht existieren, aber so klingen, als ob sie es täten.
Tags: Synthetic Data, KI-Training, Datengenerierung, Machine Learning, KI-Wettbewerb, GAN, LLM, Datenschutz
Das Datenproblem moderner KI
Ein Large Language Model wie GPT-4 wurde auf Billionen von Token trainiert — das entspricht schätzungsweise dem Inhalt von mehreren Millionen Büchern (OpenAI, 2023). Ein modernes Bilderkennungssystem benötigt Millionen von annotierten Bildern. Ein autonomes Fahrzeugsystem braucht Milliarden von Sekunden realer Fahrdaten aus unzähligen Verkehrssituationen.
Das Problem: Diese Daten sind endlich, teuer, datenschutzrechtlich heikel oder strukturell unvollständig. Das öffentliche Internet — die Hauptquelle für Sprachmodell-Training — enthält zwar enorme Datenmengen, aber diese sind in Qualität und Diversität unausgewogen. Englischsprachige Inhalte dominieren; wissenschaftliche, rechtliche und technische Fachsprache ist gegenüber Alltagstext unterrepräsentiert; seltene Ereignisse, Randkategorien und Minderheitenperspektiven erscheinen kaum (Gao et al., 2020).
In der Medizin, im Finanzwesen, in der Justizverwaltung — überall dort, wo Daten besonders wertvoll, aber auch besonders sensibel sind — steht KI-Entwicklung vor einem strukturellen Dilemma: Die besten Trainingsdaten dürfen aus Datenschutzgründen nicht weitergegeben werden. Patientenakten, Kredithistorien, Strafakten — alle diese Datensätze sind potentiell goldwertig für KI, aber rechtlich kaum zugänglich (Jordon et al., 2022).
Synthetische Daten bieten einen Ausweg. Sie werden nicht erhoben, sondern generiert — von Algorithmen, die statistische Eigenschaften realer Daten lernen und neue Datenpunkte erzeugen, die dieselben Eigenschaften aufweisen, ohne mit tatsächlichen realen Datensätzen identisch zu sein.
Methoden der synthetischen Datengenerierung
Die technischen Ansätze zur Synthese von Trainingsdaten haben sich in den letzten zehn Jahren erheblich diversifiziert. Vier Hauptklassen von Methoden dominieren die aktuelle Praxis:
Generative Adversarial Networks (GANs) sind seit Ian Goodfellows grundlegender Arbeit von 2014 das bekannteste Werkzeug der synthetischen Datengenerierung (Goodfellow et al., 2014). Ein Generator-Netzwerk erzeugt synthetische Datenpunkte; ein Diskriminator-Netzwerk versucht, diese von realen Daten zu unterscheiden. Durch dieses adversarielle Training lernt der Generator, immer realistischere Daten zu erzeugen. GANs haben sich besonders für Bilddaten bewährt — sie können realistische Gesichter, medizinische Bilder oder Satellitendaten erzeugen, die kaum von echten zu unterscheiden sind.
Variational Autoencoders (VAEs) folgen einer anderen statistischen Philosophie: Sie encodieren reale Daten in einen kompakten latenten Raum und generieren neue Daten durch Sampling aus diesem Raum. VAEs produzieren häufig etwas "unschärfere" Ergebnisse als GANs, sind aber stabiler im Training und bieten bessere Kontrolle über die generierten Eigenschaften (Kingma & Welling, 2022).
Diffusionsmodelle haben seit 2021 GANs in vielen Bereichen überholt. Modelle wie Stable Diffusion oder DALL-E 3 erzeugen Bilder durch schrittweises Entfernen von Rauschen aus einem zufälligen Ausgangspunkt. Sie produzieren besonders hochqualitative, diversifizierte Ergebnisse und haben die Bildgenerierung demokratisiert (Ho et al., 2020; Rombach et al., 2022).
LLM-basierte Datengenerierung ist der neueste und zunehmend dominante Ansatz: Large Language Models generieren synthetische Texte, Beschriftungen, Code-Beispiele oder strukturierte Daten auf Anfrage. Ein LLM kann tausende von realistischen Kundenservice-Dialogen, medizinischen Anamnesen oder rechtlichen Dokumenten erzeugen — in jeder gewünschten Sprache, mit definierten stilistischen und inhaltlichen Eigenschaften (Møller et al., 2023).
Das Model Collapse Problem: Können Modelle von sich selbst lernen?
Die eleganteste Idee der synthetischen Datengenerierung ist auch ihre gefährlichste: Kann ein KI-Modell synthetische Daten aus einem anderen KI-Modell verwenden, um sich selbst zu verbessern? Und kann dieser Prozess iteriert werden — also Modelle, die von synthetischen Daten lernen, die ihrerseits von synthetischen Daten erzeugten Modellen stammen?
Theoretisch elegant, führt dieser Ansatz in der Praxis zu einem ernsthaften Problem: "Model Collapse" (Shumailov et al., 2024). Wenn Modelle kontinuierlich auf synthetischen Daten trainiert werden, die von früheren Modelliterationen generiert wurden, verstärken sich Verzerrungen und Fehler — während seltene, aber wichtige Muster der Realität systematisch verloren gehen. Das Modell konvergiert zu einer vereinfachten, verzerrten Darstellung der Wirklichkeit.
Diese Entdeckung hat erhebliche Implikationen für die Nachhaltigkeit moderner KI-Entwicklung. Das Internet enthält bereits heute erhebliche Mengen an KI-generiertem Text — Schätzungen gehen von 20 bis 40 Prozent aller seit 2022 veröffentlichten englischsprachigen Onlinetexte aus (Thompson et al., 2024). Wenn zukünftige Modelle auf diesen Daten trainiert werden, ohne sorgfältige Filterung, ist Model Collapse keine theoretische Gefahr, sondern eine praktische Realität.
Die Gegenmaßnahme: synthetische Daten müssen immer durch Anker in realen Daten kalibriert werden. Rein synthetische Trainings-Pipelines, die komplett auf reale Datenpunkte verzichten, produzieren auf mittlere Sicht degradierte Modelle.
Hochwertige synthetische Daten: Erfolgsbeispiele
Trotz dieser Einschränkungen gibt es beeindruckende Erfolge. Microsoft Research hat mit dem "Phi"-Modell-Projekt gezeigt, dass kleinere Modelle, die auf hochqualitativem synthetischem Text trainiert wurden, viel größere Modelle mit gemischten Trainingsdaten übertreffen können (Li et al., 2023). Der Schlüssel: synthetische Trainingsdaten, die bewusst auf Lernbarkeit und Informationsdichte optimiert wurden — statt auf bloße Realismussimulation.
Das Unternehmen Waymo (autonome Fahrzeuge) generiert täglich Milliarden von Kilometern synthetischer Fahrdaten in simulierten Umgebungen — darunter seltene Unfallszenarien, extreme Wetterbedingungen und ungewöhnliche Straßensituationen, die in realen Fahrdaten extrem selten vorkommen. Ohne diese synthetischen Daten wäre das Training eines sicheren autonomen Fahrsystems in vertretbarem Zeitrahmen unmöglich (Chen et al., 2023).
Im medizinischen Bereich hat das UK Biobank-Projekt in Zusammenarbeit mit DeepMind synthetische Patientendaten generiert, die statistisch mit echten Patientenregistern übereinstimmen, ohne Datenschutzbestimmungen zu verletzen. Diese synthetischen Patientenkohorten ermöglichen Forschern weltweit, KI-Medizinmodelle zu entwickeln, die niemals Zugang zu echten Patientendaten hatten (Beaulieu-Jones et al., 2022).
Der Markt für synthetische Daten
Synthetische Daten sind von einer akademischen Forschungsmethode zu einem wachsenden Markt geworden. Das Marktforschungsunternehmen Gartner schätzt, dass bis 2025 rund 60 Prozent der für KI-Training verwendeten Daten synthetisch generiert sein werden — gegenüber weniger als 5 Prozent im Jahr 2021 (Gartner, 2023).
Spezialisierte Anbieter wie Synthesis AI, Gretel.ai, Mostly AI und Scale AI haben synthetische Daten als Kernangebot positioniert. Scale AI — mit einer Bewertung von über 13 Milliarden Dollar im Jahr 2024 — hat sein Angebot von manueller Datenannotation auf hybride synthetisch-manuell-annotierte Datensätze ausgeweitet (Scale AI, 2024).
Für europäische Unternehmen ist der Markt für synthetische Daten besonders attraktiv, da er ein GDPR-konformes Werkzeug für KI-Entwicklung bietet. Synthetische Daten, die aus personenbezogenen Daten generiert wurden, aber keine individuellen Datenpunkte mehr enthält, können ohne Datenschutzbedenken geteilt und gehandelt werden — sofern die Generierungsmethode nachweislich die Anonymisierungseigenschaften gewährleistet (Artikel-29-Datenschutzgruppe, 2022).
Qualitätssicherung: Wie gut ist synthetisch?
Die entscheidende Frage bleibt: Wie gut sind synthetische Daten im Vergleich zu realen Daten als Trainingsgrundlage? Die ehrliche Antwort: Es kommt darauf an.
Für die meisten standardisierten Aufgaben — Bilderkennung, Textklassifikation, Code-Generierung — können hochwertige synthetische Daten reale Daten vollständig ersetzen oder sogar übertreffen, wenn sie gezielt auf die Lernaufgabe optimiert sind (Assran et al., 2023). Für hochspezialisierte Domänen — medizinische Diagnostik, rechtliche Beurteilung, wissenschaftliche Entdeckung — sind synthetische Daten als Ergänzung, nicht als Ersatz, am wertvollsten.
Das Metriken-Framework für synthetische Datenqualität umfasst drei Dimensionen: Fidelity (statistische Ähnlichkeit mit realen Daten), Utility (tatsächliche Leistung von Modellen, die auf synthetischen Daten trainiert wurden, an realen Aufgaben) und Privacy (Nachweis, dass keine individuellen realen Datenpunkte rekonstruierbar sind) (Jordon et al., 2022).
Die Kombination aus methodischer Strenge in der Datengenerierung und rigourosem Qualitäts-Benchmarking ist die Grundlage seriöser Arbeit mit synthetischen Daten. Unternehmen, die synthetische Daten ohne dieses Framework einsetzen, riskieren Modelle, die auf synthetischen Artefakten trainiert sind — und in der realen Welt versagen.
Quellenverzeichnis
- Artikel-29-Datenschutzgruppe (2022): Opinion on Synthetic Data and Privacy Protection. Europäisches Datenschutzgremium.
- Assran, M. et al. (2023): "Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture." arXiv, 2301.08243.
- Beaulieu-Jones, B. K. et al. (2022): "Privacy-preserving generative deep neural networks support clinical data sharing." Circulation: Cardiovascular Quality and Outcomes, 12(7), e005122.
- Chen, Y. et al. (2023): "Learning from Simulation: A Survey of Sim-to-Real Transfer in Autonomous Driving." IEEE Transactions on Intelligent Vehicles, 8(2), 1400–1417.
- Gao, L. et al. (2020): "The Pile: An 800GB Dataset of Diverse Text for Language Modeling." arXiv, 2101.00027.
- Gartner (2023): Gartner Hype Cycle for Artificial Intelligence 2023. Stamford, CT.
- Goodfellow, I. et al. (2014): "Generative Adversarial Networks." Proceedings of NIPS 2014, 2672–2680.
- Ho, J. et al. (2020): "Denoising Diffusion Probabilistic Models." Proceedings of NeurIPS 2020, 6840–6851.
- Jordon, J. et al. (2022): "Synthetic Data — what, why and how?" The Royal Statistical Society, arXiv, 2205.03257.
- Kingma, D. P. & Welling, M. (2022): "Auto-Encoding Variational Bayes." arXiv, 1312.6114v11 (revised).
- Li, Y. et al. (2023): "Textbooks Are All You Need." arXiv, 2306.11644.
- Møller, A. G. et al. (2023): "Is a prompt and a few samples all you need? Using GPT-4 for data augmentation in NLP." arXiv, 2304.13861.
- OpenAI (2023): GPT-4 Technical Report. San Francisco.
- Rombach, R. et al. (2022): "High-Resolution Image Synthesis with Latent Diffusion Models." Proceedings of CVPR 2022, 10684–10695.
- Scale AI (2024): Company Overview and Product Roadmap 2024. San Francisco.
- Shumailov, I. et al. (2024): "The Curse of Recursion: Training on Generated Data Makes Models Forget." arXiv, 2305.17493.
- Thompson, C. et al. (2024): "Quantifying AI-generated content in the open web." Nature Machine Intelligence, 6(3), 288–295.
Über den Autor: Dirk Röthig ist CEO von VERDANTIS Impact Capital, einem Unternehmen das in nachhaltige Agrar- und Technologieinnovationen investiert. Die Entwicklung von KI-Infrastruktur und Datenstrategie beobachtet er als Investor und Unternehmer mit besonderem Interesse an qualitativ robusten, ethisch vertretbaren KI-Systemen.
Von Dirk Röthig (Dirk Roethig)
Top comments (0)