Künstliche Intelligenz in der Medizin

Dienstag 5. Februar 2019

Immer mehr Medizinprodukte nutzen künstliche Intelligenz, um Patienten präziser zu diagnostizieren und wirksamer zu behandeln. Obwohl viele Produkte bereits zugelassen wurden (z.B. durch die FDA), sind viele regulatorische Fragen noch ungeklärt.

Dieser Artikel beschreibt, worauf Hersteller achten sollen, deren Produkte auf Verfahren der künstlichen Intelligenz basieren.

1. Künstliche Intelligenz: Was ist das?

Regelmäßig werden die Begriffe künstliche Intelligenz (KI), Machine Learning und Deep Learning unpräzise oder gar synonym verwendet.

a) Definitionen

Bereits der Begriff „künstliche Intelligenz“, auf Englisch „Artificial Intelligence“ (AI) führt zu Diskussionen, beispielsweise ob Maschinen überhaupt über Intelligenz verfügen.

Wir verwenden im Folgenden diese Definition:

Definition: Artificial Intelligence
„A machine’s ability to make decisions and perform tasks that simulate human intelligence and behavior.
Alternatively
  1. A branch of computer science dealing with the simulation of intelligent behavior in computers.
  2. The capability of a machine to imitate intelligent human behavior”
Quelle: Merriam-Webster

Es geht somit um die Fähigkeit von Maschinen, in einer Weise Aufgaben zu übernehmen oder Entscheidungen zu treffen, die menschliche Intelligenz und menschliches Verhalten simuliert.

Viele Verfahren der künstlichen Intelligenz nutzen das Machine Learning, das wie folgt definiert ist:

Definition: Begriff
„A facet of AI that focuses on algorithms, allowing machines to learn and change without being programmed when exposed to new data.“

Und wiederum ein Teil des Machine Learnings ist das Deep Learning, das auf neuronalen Netzwerke basiert(s. Abb. 1).

Definition: Begriff
„The ability for machines to autonomously mimic human thought patterns through artificial neural networks composed of cascading layers of information.“
Quelle u.a. HCIT Experts

Damit ergibt sich die folgende Taxomonie:

Künstliche Intelligenz - Taxonomie der Verfahren
Abb. 1: Künstliche Intelligenz basiert auf vielen Verfahren, von denen das Machine Learning nur einen Teil umfasst. Die neuronalen Netze, und damit das Deep Learning, zählen zum Machine Learning.

b) Verfahren

Die Annahme, dass die künstliche Intelligenz in der Medizin v.a. neuronale Netzwerke nutzt, ist nicht zutreffend. Eine Studie von Jiang et al. zeigt, dass Support Vector Machines am häufigsten zum Einsatz kommen (s. Abb. 2). Einige Medizinprodukte setzen mehrere Verfahren gleichzeitig ein.

Verfahren der künstlichen Intelligenz in der Medizin
Abb. 2: Die meisten Verfahren der künstlichen Intelligenz, die bei Medizinprodukten zum Einsatz kommen, zählen zur Kategorie „Machine Learning“. Die neuronalen Netzwerke verwenden die Hersteller am zweithäufigsten. (Quelle) (zum Vergrößern klicken)

2. Anwendungen der künstlichen Intelligenz in der Medizin

a) Übersicht

Hersteller nutzen künstliche Intelligenz, insbesondere Machine Learning für Aufgabenstellungen wie die folgenden:

Aufgabenstellung Daten, mit denen KI diese Aufgabe unterstützen kann
Detektion einer Retinopathie Bilder des Augenhintergrunds
Zählen und Erkennen bestimmter Zelltypen Bilder von histologischen Schnitten
Diagnose von Infarkten, Alzheimer, Krebs usw. Radiologische Bilder z.B. CT, MRT
Erkennung von Depression Sprache, Bewegungsmuster
Auswahl und Dosierung von Medikamenten Diagnosen, Gen-Daten usw.
Diagnose von Herzerkrankungen, degenerative Erkrankungen des Gehirns, … EKG- oder EEG-Signale
Erkennen von Epidemien Internet-Suchen
Prognose von Krankheiten Laborwerte, Umweltfaktoren etc.
Prognose des Todeszeitpunkts von Intensivpatienten Vitalparameter, Laborwerte und weitere Daten in der Patientenakte

Tabelle 1: Gegenüberstellung der Aufgaben, die mit künstlicher Intelligenz übernommen werden können, und den dazu verwendeten Daten

Zu den weiteren Anwendungsgebieten zählen:

  • Erkennung, Analyse und Verbesserung von Signalen z.B. schwachen und verrauschten Signalen
  • Extraktion strukturierter Daten aus unstrukturiertem Text
  • Segmentierung von Geweben z.B. für die Bestrahlungsplanung
Segmentation von Organen (hier Niere) mit Hilfe der künstlichen Intelligenz
Abb. 3: Segmentation von Organen (hier Niere) mit Hilfe der künstlichen Intelligenz (Quelle) (zum Vergrößern klicken)

b) Aufgabenstellung: Klassifizierung und Regression

Die Verfahren verfolgen das Ziel einer Klassifizierung oder Regression.

Beispiele für Klassifizierung

  • Entscheidung, ob Kriterien für eine Diagnose zutreffen
  • Entscheiden, ob eine Zelle eine Krebszelle ist
  • Auswahl eines Medikaments

Beispiele für Regression

  • Bestimmung der Dosis eines Medikaments
  • Vorhersage des Todeszeitpunkts

3. KI aus der regulatorischen Brille

a) Regulatorische Anforderungen

Derzeit gibt es keine Gesetze und harmonisierte Normen, die speziell den Einsatz der künstlichen Intelligenz in Medizinprodukten regulieren. Diese Produkte müssen jedoch die bereits bestehenden regulatorischen Anforderungen erfüllen wie z.B.:

  • Die Hersteller müssen den Nutzen und die Leistungsfähigkeit der Medizinprodukte nachweisen. Bei Produkten, die der Diagnose dienen, bedarf es z.B. des Nachweises der Sensitivität und Spezifität.
  • Sie müssen die Produkte gegen die Zweckbestimmung und Stakeholder-Anforderungen validieren und gegen die Spezifikationen verifizieren (u.a. MDR Anhang I 17.2).
  • Dabei müssen sie sicherstellen, dass die Software so entwickelt wurde, dass die Wiederholbarkeit, Zuverlässigkeit und Leistungsfähigkeit gewährleistet sind (u.a. MDR Anhang I 17.1).
  • Hersteller müssen die Methoden beschreiben, mit denen sie diese Nachweise führen.
  • Basiert die klinische Bewertung auf einem Vergleichsprodukt, so muss dieses ausreichend technische äquivalent sein, was die Bewertung der Software-Algorithmen explizit einschließt (MDR Anhang XIV, Teil A, Absatz 3).
  • Die Hersteller müssen vor der Entwicklung die Kompetenz der daran beteiligten Personen bestimmen und gewährleisten (ISO 13485:2016 7.3.2 f).

b) Regulatorische Fragestellungen

Hersteller tun sich regelmäßig schwer mit dem Nachweis, dass die an das Produkt gestellten Anforderungen z.B. bezüglich Genauigkeit, Korrektheit und Robustheit erfüllt sind.

Dr. Rich Carruana, einer der führenden Köpfe bei Microsoft im Bereich der künstlichen Intelligenz, riet vom Einsatz eines von ihm selbst entwickelten neuronalen Netzwerks ab, das Patienten mit Lungenentzündung die passende Therapie vorschlagen sollte:

„I said no. I said we don’t understand what it does inside. I said I was afraid.”

Dr. Rich Carruana, Microsoft

Dass es Maschinen gibt, die ein Anwender nicht versteht, ist nicht neu. Man kann eine PCR anwenden, ohne sie zu verstehen. Aber es gibt die Menschen, die ein Verständnis der Funktionsweise und des Innenlebens dieses Produkts haben. Genau das ist bei der künstlichen Intelligenz nicht mehr immer gegeben.

Zu den Fragen, die Auditoren Herstellern stellen sollten, zählen beispielsweise:

Leitfrage Hintergrund
Wie kommen Sie zur Annahme, dass Ihre Trainingsdaten keinen Bias haben? Andernfalls wären die Ergebnisse falsch bzw. nur unter bestimmten Voraussetzungen richtig.
Wie haben Sie ein Overfitting Ihres Modells vermieden? Sonst würde der Algorithmus nur die Daten richtig vorhersagen, mit denen er trainiert wurde.
Was veranlasst Sie zur Annahme, dass die Ergebnisse nicht nur zufällig richtig sind? Beispielsweise könnte es sein, dass ein Algorithmus korrekt entscheidet, dass auf einem Bild ein Haus zu erkennen sei. Der Algorithmus hat aber kein Haus, sondern den Himmel erkannt. Ein weiteres Beispiel zeigt die Abb. 3.
Welche Voraussetzungen müssen Daten erfüllen, damit sie Ihr System richtig klassifiziert bzw. die Ergebnisse richtig vorhersagt? Welche Randbedingungen sind einzuhalten? Da das Model mit einer bestimmten Menge an Daten trainiert wurde, kann es nur für Daten, die aus der gleichen Grundgesamtheit stammen, korrekte Vorhersagen treffen.
Wären Sie mit einem anderen Modell oder mit anderen Hyperparametern nicht zu einem besseren Ergebnis gekommen? Hersteller müssen Risiken weitestgehend minimieren. Dazu zählen auch Risiken durch falsche Vorhersagen suboptimaler Modelle.
Weshalb gehen Sie davon aus, dass Sie ausreichend viele Trainingsdaten verwendet haben? Das Sammeln, Aufbereiten und „Labeln“ von Trainingsdaten ist aufwendig. Mit umso mehr Daten ein Modell trainiert wird, desto leistungsfähiger kann es sein.
Welchen Goldstandard haben Sie beim Labeling der Trainingsdaten verwendet? Weshalb betrachten Sie den gewählten Standard als Gold-Standard? Besonders wenn die Maschine beginnt, den Menschen überlegen zu sein, wird es schwierig, festzulegen, ob ein Arzt, eine Gruppe von „normalen“ Ärzten oder die weltweit besten Experten einer Fachrichtung die Referenz sind.
Wie können Sie die Reproduzierbarkeit gewährleisten, wenn Ihr System weiter lernt? Besonders bei Continuous Learning Systems CLS muss gewährleistet bleiben, dass durch das weitere Training die Leistungsfähigkeit zumindest nicht abnimmt.
Haben Sie Systeme validiert, die Sie zum Sammeln, Vorbereiten, Analysieren der Daten und zum Trainieren und Validieren Ihrer Modelle verwenden? Ein wesentlicher Teil der Arbeit besteht darin, die Trainingsdaten zu sammeln, aufzubereiten und damit das Modell zu trainieren. Die dazu notwendige Software ist nicht Teil des Medizinprodukts. Sie unterliegt aber den Anforderungen an die Computerized Systems Validation.

Tabelle 2: Aspekte, die bei der Überprüfung von Medizinprodukte adressiert werden sollten mit zugehöriger Erklärung

Die o.g. Fragen sind typischerweise auch im Rahmen des Risikomanagements nach ISO 14971 und der klinischen Bewertung gemäß MEDDEV 2.7.1 Revision 4 zu erörtern.

Input-Daten, die nur zufällig wie ein bestimmtes Muster aussehen. Hier am Beispiel eines Chihuahuas und eines Muffins (zum Vergrößern klicken)
Abb. 4: Input-Daten, die nur zufällig wie ein bestimmtes Muster aussehen. Hier am Beispiel eines Chihuahuas und eines Muffins (Quelle) (zum Vergrößern klicken)

c) Lösungsansätze

Mit der Aussage, dass die Verfahren des Maschine Learnings Blackboxes darstellen würden, sollten sich Auditoren nicht mehr pauschal zufriedengeben. Die aktuelle Forschungsliteratur zeigt Ansätze, wie die Hersteller sowohl für die Anwender als auch für Behörden und benannte Stellen die Funktionsweise und das „Innenleben“ der Produkte erklären bzw. transparent machen können.

Beispielsweise ist es mit der Layer Wise Relevance Propagation möglich zu erkennen, welche Input-Daten („Feature“) für den Algorithmus entscheidend waren z.B. für die Klassifikation.

In Abbildung fünf zeigt im linken Bild, dass der Algorithmus eine Ziffer „6“ vor allem wegen der dunkelblau markierten Pixel ausschließen kann. Das ergibt Sinn, weil bei einer „6“ dieser Bereich typischerweise keine Pixel erhält. Hingegen zeigt das rechte Bild die Pixel in rot, die den Algorithmus in der Annahme bestärken, dass die Ziffer eine „1“ ist.

Der Algorithmus bewertet die Pixel im aufsteigenden Schenkel der Ziffer eher als schädlich für die Klassifizierung als „1“. Das liegt daran, dass er mit Bildern trainiert wurde, bei denen die „1“ nur als ein senkrechter Strich geschrieben wird, wie dies in den USA der Fall wird. Dies verdeutlicht, wie relevant es für das Ergebnis ist, dass die Trainingsdaten repräsentativ für die später zu klassifizierenden Daten sind.

 Die Layer Wise Relevance Propagation am Beispiel eines Bildes der Zahl 1 (zum Vergrößern klicken)
Abb. 5: Die Layer Wise Relevance Propagation ermittelt, welcher Input welchen Anteil am Ergebnis hat. Die Daten sind hier als Heatmap visualisiert (Quelle). (zum Vergrößern klicken)
Weiterführende Informationen

Besonders lesenswert ist das online und kostenfrei verfügbare Buch „Interpretable Machine Learning“ von Christoph Molnar, einem der Keynote Speakers des Institutstags 2019.

4. Unterstützung

Das Johner Institut unterstützt Hersteller von Medizinprodukten, die künstliche Intelligenz nutzen, beispielsweise dabei

  • die Produkte gesetzeskonform zu entwickeln und in den Verkehr zu bringen,
  • entsprechende Verifizierungs- und Validierungsaktivitäten zu planen und durchzuführen,
  • die Produkte auf Nutzen, Leistungsfähigkeit und Sicherheit zu bewerten,
  • die Eignung der Verfahren (insbesondere der Modelle) und der Trainingsdaten zu bewerten,
  • die regulatorischen Anforderungen auch an die Post-Market-Phase zu erfüllen und
  • passgenaue Verfahrensanweisungen zu erstellen.

Sie finden hier eine vollständigere Übersicht.

5. Fazit, Ausblick

a) Vom Hype über die Desillusion zur gelebten Praxis

Die künstliche Intelligenz erlebt gerade einen Hype. Viele „Artikel“ preisen sie wahlweise als Lösung aller Probleme in der Medizin oder als Einstieg in eine Dystrophie, in der die Maschinen die Macht übernehmen. Wir stehen vor einer Phase der Ernüchterung. „Dr. Watson versagt“ titelte der Spiegel bereits in der Ausgabe 32/2018 zum Einsatz der KI in de Medizin.

Es ist zu erwarten, dass die Medien über die tragischen Konsequenzen von Fehlentscheidungen der KI übergroß und skandalisierend berichten werden. Doch im Lauf der Zeit wird der Einsatz der KI genauso normal und unverzichtbar sein wie der Einsatz von elektrischem Strom. Wir können und wollen es uns nicht länger leisten, dass medizinisches Personal Aufgaben erledigen muss, die Computer besser und schneller erledigen können.

b) Regulatorische Unsicherheit

Die regulatorischen Rahmenbedingungen und Best Practices hinken dem Einsatz der KI hinterher. Die Folgen sind Risiken für Patienten (unsicherere Medizinprodukte) und für Hersteller (scheinbare Willkür bei Audits und Zulassungsverfahren).

Das Johner Institut wird im Lauf des Jahres 2019 gemeinsam mit benannten Stellen einen Leitfaden für die sichere Entwicklung und Verwendung der künstlichen Intelligenz publizieren – vergleichbar dem Leitfaden zur IT-Sicherheit.


Kategorien: Health IT & Medizintechnik, Regulatory Affairs, Risikomanagement & ISO 14971, Software & IEC 62304
Tags: ,

2 Kommentare über “Künstliche Intelligenz in der Medizin”

  1. Martin Haimerl schrieb:

    Lieber Herr Johner,

    vielen Dank für den Beitrag, der ein für die Zukunft sicherlich wichtiges Thema aufgreift. Ich hätte meinerseits zwei Aspekte, auf die ich an dieser Stelle gerne hinweisen würde.

    Erstens ist es eine zentrale Anforderung bei der Validierung von Machine Learning(ML)-Systemen, dass neben den Trainingsdaten auch davon unabhängige Validierungsdaten bereitsgestellt werden (ggf. in Form einer sogenannten Kreuzvalidierung im Sinne einer kombinierten Nutzung der Daten). Nur mit unabhängigen Trainings- und Validierungsdaten lässt sich ein ML-System überhaupt validieren. Die Validierungsdaten müssen dabei repräsentativ für das Anwendungsszenario sein (wie Sie das in Ihrem Beitrag bereits angedeutet haben), um Bias-Effekte auszuschließen. Ein konsequenter Nachweis, dass diese Repräsentativität und Unabhängigkeit vorliegt, ist sicherlich oftmals nicht einfach.

    Zweitens bin ich mir nicht sicher, ob bereits ein systematischer Ansatz für die Continuous Learning Systems existiert. Hier kann ja eigentlich nicht ein fester Stand des Systems zugelassen werden, da es sich um einen dynamischen, sich stetig veränderten Prozess geht. Das Medizinprodukt müsste hier der Lernprozess selbst sein, d.h. es müsste nachgewiesen werden, dass auch bei sich ändernden Bedinungen immer ein valider Stand des Systems errecht werden kann. Gibt es dafür schon wirklich schlüssige Ansätze?

    Mit besten Grüßen,
    Martin Haimerl

  2. Prof. Dr. Christian Johner schrieb:

    Sehr geehrter Herr Haimerl,

    danke für Ihren Kommentar, über den ich mich freue!

    Ich stimme Ihnen in beiden Punkten zu:

    • Kreuzvalidierung, Bias: Das ist ein ganz zentraler Aspekt, den wir in weiteren Beiträgen noch mehr beleuchten werden. Ich hatte es nur kurz in der einen Tabelle angesprochen: („Wie kommen Sie zur Annahme, dass Ihre Trainingsdaten keinen Bias haben?)
    • Continuous Learning Systems: Die US Arbeitsgruppe steht vor genau dieser Frage. Ich habe daher angeregt, dass man erst einmal die nicht kontinuierliche beherrschenden Systeme verstehen und dazu Best Practices erarbeiten soll. Das hat man gehört und die CLS zurückgestellt. Die Antwort auf Ihre Frage ist somit „nein“

    Nochmals besten Dank!
    Herzliche Grüße, Christian Johner

Kommentar schreiben