Explainable AI im Gesundheitswesen: Wenn KI-Diagnosen nachvollziehbar werden müssen
Von Dirk Röthig | CEO, VERDANTIS Impact Capital | 2. April 2026
Ein KI-System erkennt Lungenkrebs auf CT-Bildern mit 94 Prozent Genauigkeit – besser als mancher Radiologe. Aber warum hat es diesen Befund als verdächtig eingestuft? Was hat der Algorithmus gesehen, was der Arzt übersehen hat? Und wenn er falsch liegt: Wer trägt die Verantwortung? Explainable AI gibt Antworten auf diese Fragen – und verändert damit die Beziehung zwischen Mensch und Maschine in der Medizin grundlegend.
Tags: KI, Gesundheitswesen, Explainable AI, XAI, Medizin, Diagnostik, Patientensicherheit, Regulierung, Deep Learning
Das Black-Box-Problem in der Medizin
Künstliche Intelligenz im Gesundheitswesen hat in den vergangenen Jahren spektakuläre Ergebnisse erzielt. Google DeepMinds AlphaFold hat die Proteinstrukturvorhersage revolutioniert. KI-Systeme erkennen diabetische Retinopathie aus Augenfotos mit einer Genauigkeit, die Spezialisten ebenbürtig ist. KI-basierte Mammographie-Auswertung findet mehr Brustkrebsfrühstadien als radiologische Routinediagnostik (McKinney et al., 2020).
Doch diese beeindruckenden Ergebnisse werden durch ein fundamentales Problem begleitet: Viele der leistungsfähigsten KI-Systeme – insbesondere tiefe neuronale Netze – sind sogenannte "Black Boxes". Sie produzieren Outputs, aber die internen Verarbeitungsschritte, die zu diesen Outputs führen, sind für menschliche Betrachter nicht intuitiv nachvollziehbar. Das ist in einem Industriekontext tolerierbar. In der Medizin, wo Entscheidungen über Leben und Tod getroffen werden, ist es ein gravierendes Problem.
Ein Arzt, der eine KI-Diagnose akzeptiert, ohne sie verstehen zu können, handelt möglicherweise gegen das Prinzip der informierten ärztlichen Entscheidungsfindung. Ein Patient, der auf Basis einer unverständlichen algorithmischen Einschätzung behandelt wird, kann seine Rechte nicht vollständig wahrnehmen. Und wenn ein System eine falsche Diagnose stellt: Wie soll ein Fehler erkannt, korrigiert und aus ihm gelernt werden, wenn niemand versteht, was der Algorithmus warum entschieden hat?
Was Explainable AI bedeutet
Explainable AI (XAI) bezeichnet Methoden und Techniken, die die Entscheidungsprozesse von KI-Systemen für Menschen nachvollziehbar machen. Der Begriff umfasst ein breites Spektrum an Ansätzen – von inhärent interpretierbaren Modellen (die von vornherein so konstruiert sind, dass ihre Logik lesbar ist) über post-hoc-Erklärungsmethoden (die die Entscheidungen eines bereits trainierten Black-Box-Modells nachträglich erläutern) bis zu interaktiven Systemen, die auf Rückfragen antworten können (Arrieta et al., 2020).
Die bekannteste XAI-Technik ist LIME (Local Interpretable Model-agnostic Explanations), entwickelt von Ribeiro et al. (2016). LIME erklärt einzelne Vorhersagen, indem es das Verhalten des Modells in der unmittelbaren Umgebung eines Datenpunkts durch ein einfacheres, interpretierbares Modell approximiert. Eine andere weit verbreitete Methode ist SHAP (SHapley Additive exPlanations), das auf kooperativer Spieltheorie basiert und den Beitrag jedes Eingabemerkmals zur Vorhersage quantifiziert (Lundberg & Lee, 2017).
Im medizinischen Bildgebungsbereich sind Gradienten-basierte Visualisierungsmethoden wie Grad-CAM (Gradient-weighted Class Activation Mapping) besonders relevant. Sie erzeugen Heatmaps, die zeigen, welche Bildbereiche der Algorithmus bei einer Diagnose als besonders relevant gewichtet hat – und machen damit die "Aufmerksamkeit" des neuronalen Netzes sichtbar (Selvaraju et al., 2017).
Klinischer Einsatz: Wer braucht welche Erklärung?
Ein zentraler Erkenntnisgewinn der XAI-Forschung ist, dass verschiedene Nutzergruppen verschiedene Arten von Erklärungen benötigen.
Der Radiologe, der ein KI-System zur Bildauswertung verwendet, benötigt eine visuelle Erklärung: Welcher Teil des Bildes hat die Diagnose ausgelöst? Entspricht dieser Bereich anatomischem Fachwissen oder zeigt das System auf nicht-medizinisch relevante Bildartefakte? In einer Studie von Topol et al. (2021) berichteten Radiologen, dass Heatmap-Erklärungen ihre Bereitschaft, KI-Befunden zu vertrauen, signifikant erhöhten – selbst wenn die KI-Genauigkeit ohne Erklärung höher war.
Der klinische Entscheider – Arzt oder Ärztin, der eine Therapieempfehlung überprüft – benötigt eine strukturierte Erklärung in klinischer Sprache: "Die Prognose wurde als schlecht eingestuft, primär wegen erhöhter Troponin-Werte, langer Ischämiezeit und dem Vorhandensein von Komorbiditäten wie Diabetes." Solche Erklärungen lassen sich in elektronischen Patientenakten integrieren und dokumentieren gleichzeitig die Entscheidungsgrundlage.
Patienten haben ein eigenes Recht auf Verständnis. Das Europäische Datenschutzrecht (DSGVO) gibt Personen, die von vollautomatisierten Entscheidungen betroffen sind, das Recht auf aussagekräftige Erklärungen. Im Kontext medizinischer KI bedeutet das: Wenn ein Algorithmus ein erhöhtes Krebsrisiko signalisiert oder eine Versicherung auf Basis von KI-Berechnungen einen Antrag ablehnt, hat der Betroffene ein Recht zu verstehen, auf welcher Grundlage diese Entscheidung getroffen wurde (Europäische Kommission, 2024).
Regulatorische Anforderungen: EU AI Act und MDR
Europas regulatorischer Rahmen für medizinische KI ist strenger als in anderen Weltregionen. Die EU-Medizinprodukteverordnung (MDR, EU 2017/745), die für KI-basierte Medizinprodukte gilt, stellt umfangreiche Anforderungen an Transparenz, klinische Validierung und Risikomanagement (EU, 2017).
Der EU AI Act stuft KI-Systeme im Gesundheitswesen grundsätzlich als hochriskant ein und verlangt dementsprechend Transparenz über die KI-Funktionsweise, menschliche Aufsicht, Dokumentation und Post-Market-Surveillance (Europäische Kommission, 2024). De facto bedeutet das: Medizinische KI-Systeme ohne Erklärbarkeit können in der EU nicht regulatorisch zugelassen werden.
In den USA hat die FDA seit 2021 ein umfangreiches Handlungsrahmenwerk für KI/ML-basierte Software als Medizinprodukt (AI/ML-Based SaMD) entwickelt, das ebenfalls Anforderungen an Transparenz und Erklärbarkeit enthält, aber flexibler ist als der europäische Ansatz (FDA, 2021). Dieser regulatorische Unterschied hat Auswirkungen auf die Geschwindigkeit der Markteinführung: In den USA kommen KI-Medizinprodukte schneller auf den Markt, in Europa sind sie strenger validiert.
Praxisbeispiele: XAI in der klinischen Routine
Das Unternehmen Zebra Medical Vision (heute Teil von Nanox) bietet KI-Bildanalyse mit integrierter Erklärbarkeit an. Radiologen sehen nicht nur den KI-Befund, sondern auch die Heatmap, die die kritischen Bildregionen hervorhebt, und eine strukturierte textliche Begründung. Klinische Studien zeigen, dass die Kombination aus KI-Diagnose und XAI-Erklärung die diagnostische Genauigkeit von Radiologen stärker verbessert als KI-Diagnose ohne Erklärung – ein Effekt, der als "Human-AI-Collaboration Boost" beschrieben wird (Cai et al., 2021).
Im Bereich der klinischen Entscheidungsunterstützung hat das Epic-System, das in vielen europäischen und amerikanischen Krankenhäusern eingesetzt wird, XAI-Komponenten in seine Sepsis-Frühwarnung integriert. Wenn das System ein erhöhtes Sepsisrisiko meldet, zeigt es gleichzeitig die wichtigsten klinischen Parameter an, die diese Einschätzung begründen. Ärzte berichteten in Evaluationsstudien, dass diese Erklärungen ihre Reaktionsgeschwindigkeit auf Warnungen erhöhten und gleichzeitig die Anzahl ungerechtfertigter Alarmierungen (False Positives) reduzierten, weil sie die Plausibilität der Warnung besser einschätzen konnten.
Grenzen von XAI und offene Forschungsfragen
XAI ist kein Allheilmittel. Mehrere Limitationen müssen ehrlich benannt werden.
Erstens gibt es keine allgemein akzeptierte Definition von "guter Erklärbarkeit". Was für einen Informatiker eine transparente Erklärung ist, bleibt für einen Klinikarzt möglicherweise unverständlich. Die Entwicklung nutzergerechter Erklärungen erfordert enge interdisziplinäre Zusammenarbeit zwischen KI-Forschern, Klinikern und Sozialwissenschaftlern.
Zweitens können XAI-Methoden selbst irreführen. Heatmaps zeigen, worauf ein Modell "schaut" – aber ein Modell kann aus einem nicht-medizinischen Grund (etwa einem Scan-Artefakt, der systematisch mit einem bestimmten Befund korreliert) auf den falschen Bereich schauen und dennoch zufällig die richtige Diagnose stellen. Eine Erklärung, die klinisch plausibel aussieht, garantiert nicht klinische Korrektheit.
Drittens ist die Erklärbarkeit oft mit Genauigkeitsverlusten verbunden: Die interpretierbarsten Modelle – lineare Regression, Entscheidungsbäume – sind oft weniger präzise als tiefe neuronale Netze. Der Tradeoff zwischen Genauigkeit und Erklärbarkeit ist eine der zentralen offenen Fragen der KI-Medizin (Rudin, 2019).
Ausblick: Vertrauenswürdige KI als Standard
Explainable AI ist kein Nischenthema für KI-Philosophen, sondern eine praktische Notwendigkeit für den breiten klinischen Einsatz von KI-Systemen. Vertrauen in KI-Diagnosen setzt Verständnis voraus – und Verständnis setzt Erklärbarkeit voraus.
Die kommenden Jahre werden zeigen, ob es gelingt, XAI-Methoden zu entwickeln, die nicht nur technisch korrekt, sondern klinisch sinnvoll und für alle Beteiligten – Ärzte, Patienten, Regulatoren – verständlich sind. Wenn das gelingt, wird KI nicht das ärztliche Urteil ersetzen, sondern es auf ein neues Niveau heben.
Quellenverzeichnis
- Arrieta, A. B. et al. (2020): "Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI". Information Fusion, 58, 82–115.
- Cai, C. J. et al. (2021): "Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making". CHI Conference on Human Factors in Computing Systems, ACM.
- EU (2017): Verordnung (EU) 2017/745 über Medizinprodukte (MDR). Brüssel: Amtsblatt der EU.
- Europäische Kommission (2024): Verordnung (EU) 2024/1689 über Künstliche Intelligenz (AI Act). Brüssel: Amtsblatt der EU.
- FDA (2021): Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) Action Plan. Silver Spring: U.S. Food and Drug Administration.
- Lundberg, S. M. & Lee, S.-I. (2017): "A Unified Approach to Interpreting Model Predictions". Advances in Neural Information Processing Systems, 30.
- McKinney, S. M. et al. (2020): "International Evaluation of an AI System for Breast Cancer Screening". Nature, 577(7788), 89–94.
- Ribeiro, M. T. et al. (2016): "Why Should I Trust You? Explaining the Predictions of Any Classifier". Proceedings of the 22nd ACM SIGKDD, 1135–1144.
- Rudin, C. (2019): "Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead". Nature Machine Intelligence, 1, 206–215.
- Selvaraju, R. R. et al. (2017): "Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization". ICCV 2017, 618–626.
- Topol, E. J. et al. (2021): "Trust in AI: Communicating Confidence and Uncertainty in Clinical AI Tools". The Lancet Digital Health, 3(6), e334–e335.
Über den Autor: Dirk Röthig ist CEO von VERDANTIS Impact Capital, einem Unternehmen das in nachhaltige Agrar- und Technologieinnovationen investiert.
Von Dirk Röthig (Dirk Roethig)
Top comments (0)