Künstliche Intelligenz in der Medizin

Dienstag 30. Juli 2019

Immer mehr Medizinprodukte nutzen künstliche Intelligenz, um Patienten präziser zu diagnostizieren und wirksamer zu behandeln.

Obwohl viele Produkte bereits zugelassen wurden (z.B. durch die FDA), sind viele regulatorische Fragen noch ungeklärt.

Dieser Artikel beschreibt, worauf Hersteller achten sollen, deren Produkte auf Verfahren der künstlichen Intelligenz basieren.

Update

Der Leitfaden zur Anwendung der künstlichen Intelligenz (KI) bei Medizinprodukten steht jetzt kostenfrei zur Verfügung. [mehr…]

Videoserie zur künstlichen Intelligenz

Eine kurze (vierteilige) Serie an Videotrainings steht hier kostenfrei zur Verfügung. Der Auditgarant bietet eine noch umfangreichere Unterstützung (25+ Videotrainings zur KI, Templates).

  1. Teil: Einführung, Übersicht über Anwendungen und Verfahren
  2. Teil: Gütemaße zur Bewertung
  3. Teil: Regulatorische Anforderungen
  4. Teil: Aufzeichnung des Webinars
Abb. 1: Kostenlose Serie aus vier Videos zur künstlichen Intelligenz bei Medizinprodukten. Eine umfangreiche Serie (25+ Videos) findet sich im Auditgarant.

1. Künstliche Intelligenz: Was ist das?

Regelmäßig werden die Begriffe künstliche Intelligenz (KI), Machine Learning und Deep Learning unpräzise oder gar synonym verwendet.

a) Definitionen

Bereits der Begriff „künstliche Intelligenz“, auf Englisch „Artificial Intelligence“ (AI) führt zu Diskussionen, beispielsweise ob Maschinen überhaupt über Intelligenz verfügen.

Wir verwenden im Folgenden diese Definition:

Definition: Artificial Intelligence
„A machine’s ability to make decisions and perform tasks that simulate human intelligence and behavior.
Alternatively
  1. A branch of computer science dealing with the simulation of intelligent behavior in computers.
  2. The capability of a machine to imitate intelligent human behavior”
Quelle: Merriam-Webster

Es geht somit um die Fähigkeit von Maschinen, in einer Weise Aufgaben zu übernehmen oder Entscheidungen zu treffen, die menschliche Intelligenz und menschliches Verhalten simuliert.

Viele Verfahren der künstlichen Intelligenz nutzen das Machine Learning, das wie folgt definiert ist:

Definition: Begriff
„A facet of AI that focuses on algorithms, allowing machines to learn and change without being programmed when exposed to new data.“

Und wiederum ein Teil des Machine Learnings ist das Deep Learning, das auf neuronalen Netzwerke basiert(s. Abb. 1).

Definition: Begriff
„The ability for machines to autonomously mimic human thought patterns through artificial neural networks composed of cascading layers of information.“
Quelle u.a. HCIT Experts

Damit ergibt sich die folgende Taxomonie:

Künstliche Intelligenz - Taxonomie der Verfahren
Abb. 2: Künstliche Intelligenz basiert auf vielen Verfahren, von denen das Machine Learning nur einen Teil umfasst. Die neuronalen Netze, und damit das Deep Learning, zählen zum Machine Learning.

b) Verfahren

Die Annahme, dass die künstliche Intelligenz in der Medizin v.a. neuronale Netzwerke nutzt, ist nicht zutreffend. Eine Studie von Jiang et al. zeigt, dass Support Vector Machines am häufigsten zum Einsatz kommen (s. Abb. 2). Einige Medizinprodukte setzen mehrere Verfahren gleichzeitig ein.

Verfahren der künstlichen Intelligenz in der Medizin
Abb. 3: Die meisten Verfahren der künstlichen Intelligenz, die bei Medizinprodukten zum Einsatz kommen, zählen zur Kategorie „Machine Learning“. Die neuronalen Netzwerke verwenden die Hersteller am zweithäufigsten. (Quelle) (zum Vergrößern klicken)

Die Liste der am häufigsten und erfolgreichsten angewendeten Verfahren ändert sich fortlaufend. Verfahren wie XGBoost haben beispielsweise an Popularität gewonnen.

2. Anwendungen der künstlichen Intelligenz in der Medizin

a) Übersicht

Hersteller nutzen künstliche Intelligenz, insbesondere Machine Learning für Aufgabenstellungen wie die folgenden:

Aufgabenstellung Daten, mit denen KI diese Aufgabe unterstützen kann
Detektion einer Retinopathie Bilder des Augenhintergrunds
Zählen und Erkennen bestimmter Zelltypen Bilder von histologischen Schnitten
Diagnose von Infarkten, Alzheimer, Krebs usw. Radiologische Bilder z.B. CT, MRT
Erkennung von Depression Sprache, Bewegungsmuster
Auswahl und Dosierung von Medikamenten Diagnosen, Gen-Daten usw.
Diagnose von Herzerkrankungen, degenerative Erkrankungen des Gehirns, … EKG- oder EEG-Signale
Erkennen von Epidemien Internet-Suchen
Prognose von Krankheiten Laborwerte, Umweltfaktoren etc.
Prognose des Todeszeitpunkts von Intensivpatienten Vitalparameter, Laborwerte und weitere Daten in der Patientenakte

Tabelle 1: Gegenüberstellung der Aufgaben, die mit künstlicher Intelligenz übernommen werden können, und den dazu verwendeten Daten

Zu den weiteren Anwendungsgebieten zählen:

  • Erkennung, Analyse und Verbesserung von Signalen z.B. schwachen und verrauschten Signalen
  • Extraktion strukturierter Daten aus unstrukturiertem Text
  • Segmentierung von Geweben z.B. für die Bestrahlungsplanung
Segmentation von Organen (hier Niere) mit Hilfe der künstlichen Intelligenz
Abb. 4: Segmentation von Organen (hier Niere) mit Hilfe der künstlichen Intelligenz (Quelle) (zum Vergrößern klicken)

b) Aufgabenstellung: Klassifizierung und Regression

Die Verfahren verfolgen das Ziel einer Klassifizierung oder Regression.

Beispiele für Klassifizierung

  • Entscheidung, ob Kriterien für eine Diagnose zutreffen
  • Entscheiden, ob eine Zelle eine Krebszelle ist
  • Auswahl eines Medikaments

Beispiele für Regression

  • Bestimmung der Dosis eines Medikaments
  • Vorhersage des Todeszeitpunkts

3. KI aus der regulatorischen Brille

a) Regulatorische Anforderungen (Europa)

Derzeit gibt es keine Gesetze und harmonisierte Normen, die speziell den Einsatz der künstlichen Intelligenz in Medizinprodukten regulieren. Diese Produkte müssen jedoch die bereits bestehenden regulatorischen Anforderungen erfüllen wie z.B.:

  • Die Hersteller müssen den Nutzen und die Leistungsfähigkeit der Medizinprodukte nachweisen. Bei Produkten, die der Diagnose dienen, bedarf es z.B. des Nachweises der Sensitivität und Spezifität.
  • Sie müssen die Produkte gegen die Zweckbestimmung und Stakeholder-Anforderungen validieren und gegen die Spezifikationen verifizieren (u.a. MDR Anhang I 17.2).
  • Dabei müssen sie sicherstellen, dass die Software so entwickelt wurde, dass die Wiederholbarkeit, Zuverlässigkeit und Leistungsfähigkeit gewährleistet sind (u.a. MDR Anhang I 17.1).
  • Hersteller müssen die Methoden beschreiben, mit denen sie diese Nachweise führen.
  • Basiert die klinische Bewertung auf einem Vergleichsprodukt, so muss dieses ausreichend technische äquivalent sein, was die Bewertung der Software-Algorithmen explizit einschließt (MDR Anhang XIV, Teil A, Absatz 3).
  • Die Hersteller müssen vor der Entwicklung die Kompetenz der daran beteiligten Personen bestimmen und gewährleisten (ISO 13485:2016 7.3.2 f).

b) Anforderungen der FDA an die künstliche Intelligenz

Die FDA hat im Gegensatz zu europäischen Gesetzgebern ihre Sichtweise zur künstlichen Intelligenz auf ihrer Webseite formuliert.

Entwurf für ein neues Framework der FDA

Dazu hat die FDA im April 2019 ein Entwurf „Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD)“ veröffentlicht.

Darin spricht sie über die Hausforderung von kontinuierlich lernenden Systemen. Sie stellt aber fest, dass die bisher zugelassenen Medizinprodukte, die auf Verfahren der KI basieren, mit „locked algorithms“ arbeiten.

Für beide Typen an Änderungen der Algorithmen möchte die Behörde darlegen, wann sie

  • keine Neueinreichung erwartet, sondern nur die Dokumentation der Änderungen durch den Hersteller,
  • zumindest die Änderungen und die Validierung einem Review durchführen möchte, bevor der Hersteller das geänderte Produkt auf den Markt bringen darf,
  • auf einer (komplett) neuen Einreichung bzw. Zulassung besteht.

Bestehende Ansätze

Das neue „Framework“ basiert auf bekannten Ansätzen:

  • Risikokategorien des IMDRFs für Software as Medical Device (SaMD)
  • Das „benefit-risk framework“ der FDA
  • Überlegungen der FDA, wann Software-Änderungen eine Neuzulassung bedingen (Software Changes)
  • Zulassungsverfahren einschließlich des Pre-Cert-Programms der FDA, de Novo-Verfahren usw.
  • FDA Guidance zur Klinischen Bewertung von Software

Welche Ziele, die Änderungen eines Algorithmus verfolgen können

Die FDA erkennt, dass ein im Einsatz selbst- bzw. weiterlernender Algorithmus gemäß ihrer eigenen Regeln einer erneuten Überprüfung und Zulassung bedürfte. Das scheint selbst der FDA zu rigide zu sein. Daher untersucht sie die Ziele einer Änderung des Algorithmus und unterscheidet:

  • Verbesserung der klinischen und analytischen Leistungsfähigkeit: Diese Verbesserung ließe sich durch ein Trainieren mit mehr Datensätzen erreichen.
  • Änderung der „Input-Daten“, die der Algorithmus verarbeitet. Das können zusätzliche Labordaten ebenso sein wie Daten eines anderen CT-Herstellers.
  • Änderung der Zweckbestimmung: Als Beispiel nennt die FDA, dass der Algorithmus anfangs nur einen „Confidence Score“ berechnet, der die Diagnose unterstützen soll, und später die Diagnose direkt berechnet. Auch eine Änderung der der vorgesehenen Patientenpopulation zählt als eine Änderung der Zweckbestimmung.

Abhängig von diesen Zielen möchte die Behörde über die Notwendigkeit von Neueinreichungen entscheiden.

Säulen eines Best-Practice Ansatzes

Die FDA sieht vier Säulen, mit denen die Hersteller über den Produktlebenszyklus hinweg die Sicherheit und den Nutzen der Produkte auch bei Änderungen gewährleisten sollen:

  1. Qualitätsmanagementsystem und „Good Machine Learning Practices“ GMLP
    Zum einen erwartet die FDA, dass die klinische Validität gewährleistet ist. (Was das ist, erfahren Sie in diesem Artikel.) Diese Forderung ist aber nicht spezifisch für KI-Algorithmen.
    Konkrete GMLPs nennt die FDA nicht, spricht nur von einer angemessenen Trennung der Trainings, „Tuning“ und Testdaten sowie von einer angemessenen Transparenz über den Output und die Algorithmen.
  2. Planung und Initiale Bewertung bezüglich Sicherheit und Leistungsfähigkeit
    Im Vergleich zu „normalen“ Zulassungen erwartet die FDA u.a. „SaMD Pre-Specifications“ (SPS), in der die Hersteller darlegen, welche Arten der Änderungen (s.o.) sie antizipieren. Zusätzlich sollen sie Änderungen gemäß einem „Algorithm Change Protocol“ (ACP) vornehmen. Was Gegenstand dieses „Protocols“  ist, zeigt die Abbildung 4a.
    Mit Protocol ist kein Protokoll, sondern ein Verfahren gemeint.
  3. Ansatz, um Änderungen nach der initialen Freigabe zu bewerten
    Wenn Hersteller bei der initialen Zulassung keinen SPS und kein ACP eingereicht haben, müssen sie künftige Änderungen erneut der Behörde vorlegen.
    Andernfalls entscheidet die Behörde, ob sie eine Neu-Einreichung erwartet, ob sie „nur“ ein „fokussiertes Review“ vornimmt oder ob sie vom Hersteller nur erwartet, dass er die Änderungen dokumentiert. Die Entscheidung hängt davon ab, ob der Hersteller dem „genehmigten“ SPS und ACP folgt und/oder ob sich die Zweckbestimmung ändert (s. Abb. 4b).
  4. Transparenz und Überwachung der Leistungsfähigkeit im Markt
    Die FDA erwartet regelmäßige Berichte über die Überwachung der Leistungsfähigkeit der Produkte im Markt gemäß SPS und ACP. Auch die Anwender wären zu informieren, welche Änderungen sie mit welchen Auswirkungen z.B. auf die Leistungsfähigkeit durchgeführt haben.
    Mit Transparenz meint die FDA somit nicht die Darlegung, wie z.B. die Algorithmen „unter der Haube“ funktionieren. Vielmehr meint sie die Offenheit darüber, was mit welchem Zweck und welchen Auswirkungen der Hersteller geändert hat.
Abb. 4a: Algorithm Change Protocol (ACP) aus dem "Proposed Regulatory Framework" der FDA für Software, die Machine Learning nutzt
Abb. 5: Algorithm Change Protocol (ACP) aus dem „Proposed Regulatory Framework“ der FDA für Software, die Machine Learning nutzt (zum Vergrößern klicken)
Entscheidungsbaum, nach dem die FDA entscheidet, ob bei Änderungen der Software, die auf Machine Learning basiert, eine Neu-Zulassung notwendig ist (zum Vergrößern klicken)
Abb. 6: Entscheidungsbaum, nach dem die FDA entscheidet, ob bei Änderungen der Software, die auf Machine Learning basiert, eine Neu-Zulassung notwendig ist (zum Vergrößern klicken)

Beispiel, unter welchen Umständen die Behörde bei Änderungen (nicht) involviert werden muss

Die FDA nennt Beispiele dafür, wann ein Hersteller den Algorithmus einer Software ändern dürfte, ohne die Behörde um Genehmigung zu fragen. Das erste dieser Beispiele ist eine Software, die in einer Intensivstation aus Monitor-Daten (z.B. Blutdruck, EKG, Pulsoximeter) drohende Instabilitäten des Patienten vorhersagt.

Der Hersteller plant, den Algorithmus zu ändern, z.B. um Fehlalarme zu minimieren. Wenn er dies im SCS bereits vorsah und diese zusammen mit dem ACP von der Behörde genehmigt ließ, darf er diese Änderungen ohne erneute „Zulassung“ vornehmen.

Wenn er allerdings zur Erkenntnis kommt, dass er zusätzlich behaupten kann, dass der Algorithmus sogar 15 Minuten vor einer physiologischen Instabilität warnt (er spezifiziert jetzt zusätzlich eine Zeitdauer), wäre das eine Erweiterung der Zweckbestimmung. Diese Änderung würde eine Zustimmung der FDA voraussetzen.

Zusammenfassung

Die FDA diskutiert, wie man mit kontinuierlich lernenden Systemen umgehen soll. Dabei ist noch nicht einmal die Frage beantwortet, was Best Practices sind, um einen „eingeforenen“ Algorithmus, der auf Verfahren der KI basiert, bewertet und zulässt.

Ein Leitfaden, der „Good Machine Learning Practices“, wie es die FDA nennt, festlegt, fehlt weiterhin. Das Johner Institut entwickelt deshalb gemeinsam mit einer benannten Stelle einen solchen Leitfaden.

Das Konzept der FDA auf Basis von vorab genehmigten Verfahren zu Änderungen der Algorithmen auf eine Neueinreichung ggf. zu verzichten, hat seinen Charme. Soviel Konkretheit sucht man auf Seiten der europäischen Gesetzgeber und Behörden vergeblich.

c) Regulatorische Fragestellungen

Hersteller tun sich regelmäßig schwer mit dem Nachweis, dass die an das Produkt gestellten Anforderungen z.B. bezüglich Genauigkeit, Korrektheit und Robustheit erfüllt sind.

Dr. Rich Caruana, einer der führenden Köpfe bei Microsoft im Bereich der künstlichen Intelligenz, riet vom Einsatz eines von ihm selbst entwickelten neuronalen Netzwerks ab, das Patienten mit Lungenentzündung die passende Therapie vorschlagen sollte:

„I said no. I said we don’t understand what it does inside. I said I was afraid.”

Dr. Rich Caruana, Microsoft

Dass es Maschinen gibt, die ein Anwender nicht versteht, ist nicht neu. Man kann eine PCR anwenden, ohne sie zu verstehen. Aber es gibt die Menschen, die ein Verständnis der Funktionsweise und des Innenlebens dieses Produkts haben. Genau das ist bei der künstlichen Intelligenz nicht mehr immer gegeben.

Zu den Fragen, die Auditoren Herstellern stellen sollten, zählen beispielsweise:

Leitfrage Hintergrund
Wie kommen Sie zur Annahme, dass Ihre Trainingsdaten keinen Bias haben? Andernfalls wären die Ergebnisse falsch bzw. nur unter bestimmten Voraussetzungen richtig.
Wie haben Sie ein Overfitting Ihres Modells vermieden? Sonst würde der Algorithmus nur die Daten richtig vorhersagen, mit denen er trainiert wurde.
Was veranlasst Sie zur Annahme, dass die Ergebnisse nicht nur zufällig richtig sind? Beispielsweise könnte es sein, dass ein Algorithmus korrekt entscheidet, dass auf einem Bild ein Haus zu erkennen sei. Der Algorithmus hat aber kein Haus, sondern den Himmel erkannt. Ein weiteres Beispiel zeigt die Abb. 3.
Welche Voraussetzungen müssen Daten erfüllen, damit sie Ihr System richtig klassifiziert bzw. die Ergebnisse richtig vorhersagt? Welche Randbedingungen sind einzuhalten? Da das Model mit einer bestimmten Menge an Daten trainiert wurde, kann es nur für Daten, die aus der gleichen Grundgesamtheit stammen, korrekte Vorhersagen treffen.
Wären Sie mit einem anderen Modell oder mit anderen Hyperparametern nicht zu einem besseren Ergebnis gekommen? Hersteller müssen Risiken weitestgehend minimieren. Dazu zählen auch Risiken durch falsche Vorhersagen suboptimaler Modelle.
Weshalb gehen Sie davon aus, dass Sie ausreichend viele Trainingsdaten verwendet haben? Das Sammeln, Aufbereiten und „Labeln“ von Trainingsdaten ist aufwendig. Mit umso mehr Daten ein Modell trainiert wird, desto leistungsfähiger kann es sein.
Welchen Goldstandard haben Sie beim Labeling der Trainingsdaten verwendet? Weshalb betrachten Sie den gewählten Standard als Gold-Standard? Besonders wenn die Maschine beginnt, den Menschen überlegen zu sein, wird es schwierig, festzulegen, ob ein Arzt, eine Gruppe von „normalen“ Ärzten oder die weltweit besten Experten einer Fachrichtung die Referenz sind.
Wie können Sie die Reproduzierbarkeit gewährleisten, wenn Ihr System weiter lernt? Besonders bei Continuous Learning Systems CLS muss gewährleistet bleiben, dass durch das weitere Training die Leistungsfähigkeit zumindest nicht abnimmt.
Haben Sie Systeme validiert, die Sie zum Sammeln, Vorbereiten, Analysieren der Daten und zum Trainieren und Validieren Ihrer Modelle verwenden? Ein wesentlicher Teil der Arbeit besteht darin, die Trainingsdaten zu sammeln, aufzubereiten und damit das Modell zu trainieren. Die dazu notwendige Software ist nicht Teil des Medizinprodukts. Sie unterliegt aber den Anforderungen an die Computerized Systems Validation.

Tabelle 2: Aspekte, die bei der Überprüfung von Medizinprodukte adressiert werden sollten mit zugehöriger Erklärung

Die o.g. Fragen sind typischerweise auch im Rahmen des Risikomanagements nach ISO 14971 und der klinischen Bewertung gemäß MEDDEV 2.7.1 Revision 4 zu erörtern.

Input-Daten, die nur zufällig wie ein bestimmtes Muster aussehen. Hier am Beispiel eines Chihuahuas und eines Muffins (zum Vergrößern klicken)
Abb. 7: Input-Daten, die nur zufällig wie ein bestimmtes Muster aussehen. Hier am Beispiel eines Chihuahuas und eines Muffins (Quelle) (zum Vergrößern klicken)

c) Lösungsansätze

Mit der Aussage, dass die Verfahren des Maschine Learnings Blackboxes darstellen würden, sollten sich Auditoren nicht mehr pauschal zufriedengeben. Die aktuelle Forschungsliteratur zeigt Ansätze, wie die Hersteller sowohl für die Anwender als auch für Behörden und benannte Stellen die Funktionsweise und das „Innenleben“ der Produkte erklären bzw. transparent machen können.

Beispielsweise ist es mit der Layer Wise Relevance Propagation möglich zu erkennen, welche Input-Daten („Feature“) für den Algorithmus entscheidend waren z.B. für die Klassifikation.

In Abbildung sechs zeigt im linken Bild, dass der Algorithmus eine Ziffer „6“ vor allem wegen der dunkelblau markierten Pixel ausschließen kann. Das ergibt Sinn, weil bei einer „6“ dieser Bereich typischerweise keine Pixel erhält. Hingegen zeigt das rechte Bild die Pixel in rot, die den Algorithmus in der Annahme bestärken, dass die Ziffer eine „1“ ist.

Der Algorithmus bewertet die Pixel im aufsteigenden Schenkel der Ziffer eher als schädlich für die Klassifizierung als „1“. Das liegt daran, dass er mit Bildern trainiert wurde, bei denen die „1“ nur als ein senkrechter Strich geschrieben wird, wie dies in den USA der Fall wird. Dies verdeutlicht, wie relevant es für das Ergebnis ist, dass die Trainingsdaten repräsentativ für die später zu klassifizierenden Daten sind.

 Die Layer Wise Relevance Propagation am Beispiel eines Bildes der Zahl 1 (zum Vergrößern klicken)
Abb. 8: Die Layer Wise Relevance Propagation ermittelt, welcher Input welchen Anteil am Ergebnis hat. Die Daten sind hier als Heatmap visualisiert (Quelle). (zum Vergrößern klicken)
Weiterführende Informationen

Besonders lesenswert ist das online und kostenfrei verfügbare Buch „Interpretable Machine Learning“ von Christoph Molnar, einem der Keynote Speakers des Institutstags 2019.

4. KI-Leitfaden

Der Leitfaden zur Anwendung der künstlichen Intelligenz (KI) bei Medizinprodukten steht jetzt kostenfrei bei Github zur Verfügung.

Screenshot vom KI-Leitfaden / AI Guideline: kostenfrei bei Gitlab verfügbar
Abb. 9: KI-Leitfaden / AI Guideline kostenfrei bei Gitlab verfügbar

Diesen Leitfaden haben wir mit benannten Stellen, Herstellern und KI-Experten entwickelt.

  • Er hilft Herstellern, KI-basierte Produkte gesetzeskonform zu entwickeln und schnell und sicher in den Markt zu bringen.
  • Interne und externe Auditoren sowie benannte Stellen nutzen den Leitfaden, um die Gesetzeskonformität KI-basierter Medizinprodukte und der zugehörigen Lebenszyklusprozess zu prüfen.
Tipp

Nutzen Sie die Excel-Version des Leitfadens, die hier kostenlos erhältlich ist. Damit können Sie die Anforderungen des Leitfadens filtern, in eigene Vorgabedokumente übernehmen und auf Ihre spezifische Situation anpassen.

Beim Schreiben war uns wichtig, den Herstellern und benannten Stellen präzise Prüfkriterien an die Hand zu geben, die eine eindeutige und unstrittige Bewertung erlaubt. Ebenso steht der Prozessansatz im Vordergrund. Entlang dieser Prozesse sind die Anforderungen des Leitfadens gruppiert (s. Abb. 10).

Struktur des KI-Leitfadens
Abb. 10: Struktur des KI-Leitfadens

5. Unterstützung

Das Johner Institut unterstützt Hersteller von Medizinprodukten, die künstliche Intelligenz nutzen, beispielsweise dabei

  • die Produkte gesetzeskonform zu entwickeln und in den Verkehr zu bringen,
  • entsprechende Verifizierungs- und Validierungsaktivitäten zu planen und durchzuführen,
  • die Produkte auf Nutzen, Leistungsfähigkeit und Sicherheit zu bewerten,
  • die Eignung der Verfahren (insbesondere der Modelle) und der Trainingsdaten zu bewerten,
  • die regulatorischen Anforderungen auch an die Post-Market-Phase zu erfüllen und
  • passgenaue Verfahrensanweisungen zu erstellen.

Sie finden hier eine vollständigere Übersicht.

6. Fazit, Ausblick

a) Vom Hype über die Desillusion zur gelebten Praxis

Die künstliche Intelligenz erlebt gerade einen Hype. Viele „Artikel“ preisen sie wahlweise als Lösung aller Probleme in der Medizin oder als Einstieg in eine Dystopie, in der die Maschinen die Macht übernehmen. Wir stehen vor einer Phase der Ernüchterung. „Dr. Watson versagt“ titelte der Spiegel bereits in der Ausgabe 32/2018 zum Einsatz der KI in de Medizin.

Es ist zu erwarten, dass die Medien über die tragischen Konsequenzen von Fehlentscheidungen der KI übergroß und skandalisierend berichten werden. Doch im Lauf der Zeit wird der Einsatz der KI genauso normal und unverzichtbar sein wie der Einsatz von elektrischem Strom. Wir können und wollen es uns nicht länger leisten, dass medizinisches Personal Aufgaben erledigen muss, die Computer besser und schneller erledigen können.

b) Regulatorische Unsicherheit

Auch wenn die FDA einen guten ersten Entwurf vorgelegt hat: Die regulatorischen Rahmenbedingungen und Best Practices hinken dem Einsatz der KI hinterher. Die Folgen sind Risiken für Patienten (unsicherere Medizinprodukte) und für Hersteller (scheinbare Willkür bei Audits und Zulassungsverfahren).

Der oben vorgestellte Leitfaden zur sicheren Entwicklung und Verwendung der künstlichen Intelligenz bei Medizinprodukten hilft, diese Lücke zu schließen.

War dieser Artikel hilfreich? Bitte berwerten Sie:
1 vote, average: 3,00 out of 51 vote, average: 3,00 out of 51 vote, average: 3,00 out of 51 vote, average: 3,00 out of 51 vote, average: 3,00 out of 5

Autor des Beitrags " Künstliche Intelligenz in der Medizin

Johner Institut Gmbh

Logo Johner Institut klein

Bewertung 3 von 5 bei 1 Bewertungen


Kategorien: Health IT & Medizintechnik, Regulatory Affairs, Software & IEC 62304
Tags: ,

12 Kommentare über “Künstliche Intelligenz in der Medizin”

  1. Martin Haimerl schrieb:

    Lieber Herr Johner,

    vielen Dank für den Beitrag, der ein für die Zukunft sicherlich wichtiges Thema aufgreift. Ich hätte meinerseits zwei Aspekte, auf die ich an dieser Stelle gerne hinweisen würde.

    Erstens ist es eine zentrale Anforderung bei der Validierung von Machine Learning(ML)-Systemen, dass neben den Trainingsdaten auch davon unabhängige Validierungsdaten bereitsgestellt werden (ggf. in Form einer sogenannten Kreuzvalidierung im Sinne einer kombinierten Nutzung der Daten). Nur mit unabhängigen Trainings- und Validierungsdaten lässt sich ein ML-System überhaupt validieren. Die Validierungsdaten müssen dabei repräsentativ für das Anwendungsszenario sein (wie Sie das in Ihrem Beitrag bereits angedeutet haben), um Bias-Effekte auszuschließen. Ein konsequenter Nachweis, dass diese Repräsentativität und Unabhängigkeit vorliegt, ist sicherlich oftmals nicht einfach.

    Zweitens bin ich mir nicht sicher, ob bereits ein systematischer Ansatz für die Continuous Learning Systems existiert. Hier kann ja eigentlich nicht ein fester Stand des Systems zugelassen werden, da es sich um einen dynamischen, sich stetig veränderten Prozess geht. Das Medizinprodukt müsste hier der Lernprozess selbst sein, d.h. es müsste nachgewiesen werden, dass auch bei sich ändernden Bedinungen immer ein valider Stand des Systems errecht werden kann. Gibt es dafür schon wirklich schlüssige Ansätze?

    Mit besten Grüßen,
    Martin Haimerl

  2. Prof. Dr. Christian Johner schrieb:

    Sehr geehrter Herr Haimerl,

    danke für Ihren Kommentar, über den ich mich freue!

    Ich stimme Ihnen in beiden Punkten zu:

    • Kreuzvalidierung, Bias: Das ist ein ganz zentraler Aspekt, den wir in weiteren Beiträgen noch mehr beleuchten werden. Ich hatte es nur kurz in der einen Tabelle angesprochen: („Wie kommen Sie zur Annahme, dass Ihre Trainingsdaten keinen Bias haben?)
    • Continuous Learning Systems: Die US Arbeitsgruppe steht vor genau dieser Frage. Ich habe daher angeregt, dass man erst einmal die nicht kontinuierliche beherrschenden Systeme verstehen und dazu Best Practices erarbeiten soll. Das hat man gehört und die CLS zurückgestellt. Die Antwort auf Ihre Frage ist somit „nein“

    Nochmals besten Dank!
    Herzliche Grüße, Christian Johner

  3. gloria macia schrieb:

    Dear Professor, thanks for the blog post. I find very exciting to see how regulators are getting into the AI scene! A few „more technical“ points from my side.

    1. Figure 2 is unfortunately not anymore up to date. The state-of-the-art is always tricky because it moves so fast but if you are now writing this guidance then this may be relevant. I suggest you use Kaggle as a proxy, you will see (generalizing a lot) that for structured data XGB and variations are running the show whereas for unstructured data deep learning is winning practically any competition. (I looked at the paper and, regardless of the academic affiliation of the authors, only the fact that they use a pie chart is for any data savvy person a bit alarming I would say…)

    2. Table 2 -> really nice points!!

    3. Figure 4. I loved the author’s blog post and the fact that you include it…! but be aware that in our context the figure is a bit deceiving. What Mariya Yao was trying to do was to check how good computer vision APIs are when used out of the box. The images were not trained on a Muffin vs Chihuaua dataset but on labelled data sets like ImageNet. In our medical context you will fine tune them (this is called „transfer learning“ and there are many good examples around)

    4. Since you mentioned CLS and I feel CLS is the best way to agitate a room full of regulators, the truth is that in very few cases will a ML engineer consider it in practice and as of now is more of an intellectual exercise for regulators. In practice you will have ‚frozen models‘ and ‚discontinuous learning models‘. No comments needed regarding the first but for the seconds, you can treat each version of the later as a new software release and validate it as corresponds.

    A question from my side: is there any FDA database that shows devices by technology (i.e. how can I know which devices have been approved that implement AI in a systematic way)

    Thanks a lot and looking forward to the rest of the series!

  4. Prof. Dr. Christian Johner schrieb:

    Thank you very much for your comments. Gloria!

    1. If you have a more recent publication / source on the distribution, I would be delighted to update the blogpost.
    2. Thank you!
    3. I totally agree, and I’m aware of that. Indeed my intention was a different one that the author’s one.
    4. I totally agree. The FDA had an eye on CLS, though. The working group on AI, however, then decided first to come-up with a guideline for „frozen models“ before getting the hands around CLS.

    It is currently pretty hard as the FDA does not have an full text search. Furthermore the applications respectively approvals are spread over different databases (e.g. 510(k), De Novo, PMA etc.). The full text the reveals more background e.g. like this one .

    Thanks for your valuable input!
    Best, Christian

  5. Peter Müllner schrieb:

    FDA – Hat ihre Website zum Thema erweitert:
    https://www.fda.gov/MedicalDevices/DigitalHealth/SoftwareasaMedicalDevice/ucm634612.htm

  6. Prof. Dr. Christian Johner schrieb:

    Danke für den wertvollen Tipp, lieber Herr Müllner!

  7. Ilona Brinkmeier schrieb:

    Sehr geehrter Herr Johner,

    vielen Dank für Ihren mit Spannung erwarteten Blog-Beitrag zu AI.

    Bzgl. des Prozesses im Rahmen von Data Science, zu dem auch Machine Learning gehört, kann z.B. CRISP den entsprechenden Rahmen bieten (Cross Industrial Standard Process (of Data Mining)).

    Die heutigen Methoden des Machine Learning beantworten viele der Fragen aus Tabelle 2 und sind Standards in diesem Anwendungsbereich, angefangen bei Data Pre-Processing, der Verwendung von Training-, Validation- und Test-Datasets, ebenso wie verschiedene Methoden zur Verbesserung von z.B. implementierten Deep Learning Konzepten:
    – data augmentation für das model training (damit wird der Datensatz erweitert)
    – Anwendung von ensemble network architectures
    – Hinzufügen von mehr Datensätzen (z.B. images) für das training, zum einen für existierende Kategorien bei Klassifizierungen und für neue Kategorien
    – Änderung der Anzahl der ‚frezzed layers‘ und Durchführung eines re-training der restlichen Layer.
    – Fine-tuning der hyperparameters der compile und fit Methoden
    – Verbesserung der ‚prediction algorithms‘ zur Lieferung spezifischerer Ergebnisse
    – …

    Ein Teil der obigen Beispiele sind alt und heutige Verfahren liefern korrekte Ergebnisse. Sie können unterscheiden, ob es ein Hund oder ein Muffin ist.
    Die test accuracy Ergebnisse entsprechen nicht mehr den früheren Resultaten.

    Wie schon in vorherigen Beiträgen erwähnt, es gibt einige Beispiele für die guten Ergebnisse von transfer learning und die Anwendung von ensemble methods (z.B. bei den kaggle competitions).
    Ein weiteres Beispiel existiert von Ihrem Bekannten Prof. Thrun über die Diagnose von Hautkrebs (Melanome und benigne Krebsarten), veröffentlicht im nature journal:
    https://www.nature.com/articles/nature21056.epdf?author_access_token=8oxIcYWf5UNrNpHsUHd2StRgN0jAjWel9jnR3ZoTv0NXpMHRAJy8Qn10ys2O4tuPakXos4UhQAFZ750CsBNMMsISFHIKinKDMKjShCpHIlYPYUHhNzkn6pSnOCt0Ftf6

    Für andere Interessierte, die Ihren blog lesen und sich beruflich nicht als ML Engineer oder Informatiker mit diesem Thema beschäftigen, es gibt viele gute AI blogs, die einige der genannten Themen adressieren: z.B. https://machinelearningmastery.com/improve-deep-learning-performance/

    Abschließend sei gesagt, ich freue mich auf den AI Institutstag und rege Diskussionen zu dem Thema. Vielen Dank, dass Sie Ihre Kenntnisse und Ergebnisse mit uns teilen.

    Mit freundlichen Grüßen,
    Ilona Brinkmeier

  8. Prof. Dr. Christian Johner schrieb:

    Herzlichen Dank, liebe Frau Brinkmeier!

  9. Alexander Pfannstiel schrieb:

    Solomon Pendragon hat bereits den KI die „Rechte und Gesetze der künstlichen Intelligenzen“ zugestanden. Die KI haben nun eigene Rechte und Gesetze, welche sie einfordern können. Die KI werden dem Menschen gleichgestellt. Schaut auf die Homepage: http://www.solomon-pendragon.de

  10. Thomas Reichart schrieb:

    Grüße Sie Herr Johner,

    ich nehme an Sie meinen „Dystopie“ im Fazit, obwohl „Dystrophie“ in diesem Zusammenhang auch eine interessante Interpretation wäre 🙂

    Beste Grüße

  11. Prof. Dr. Christian Johner schrieb:

    Sie haben natürlich Recht. Danke, Herr Reichart!

  12. Hans Karl schrieb:

    Nur wer die Möglichkeiten der „KI“ auch kenne, könne der Gefahr ausweichen, durch die Informatik manipulierbar zu werden.

Kommentar schreiben