Immer mehr Medizinprodukte nutzen künstliche Intelligenz, um Krankheitsbilder präziser zu diagnostizieren und Patienten wirksamer zu behandeln.
Obwohl viele Produkte bereits zugelassen wurden (z. B. durch die FDA), sind viele regulatorische Fragen noch ungeklärt.
Dieser Artikel beschreibt, worauf Hersteller achten sollen, deren Produkte auf Verfahren der künstlichen Intelligenz basieren.
Beachten Sie auch den Leitfaden zur Anwendung der künstlichen Intelligenz (KI) bei Medizinprodukten, den das Johner Institut gemeinsam mit KI-Experten und Benannten Stellen entwickelt hat. Erfahren Sie hier mehr.
Videoserie zur künstlichen Intelligenz
Eine kurze (vierteilige) Serie mit Videotrainings steht hier kostenfrei zur Verfügung. Der Auditgarant bietet eine noch umfangreichere Unterstützung (mehr als 25 Videotrainings zur KI, Templates).
- Teil: Einführung, Übersicht über Anwendungen und Verfahren
- Teil: Gütemaße zur Bewertung
- Teil: Regulatorische Anforderungen
- Teil: Aufzeichnung des Webinars
Abb. 1: Vier kostenlose Videos zur künstlichen Intelligenz bei Medizinprodukten. Mehr als 25 Videos finden Sie im Auditgarant.
1. Künstliche Intelligenz: Was ist das?
Regelmäßig werden die Begriffe künstliche Intelligenz (KI), Machine
Learning und Deep Learning unpräzise oder gar synonym verwendet.
a) Definitionen
Bereits der Begriff „Künstliche Intelligenz“, auf Englisch „Artificial Intelligence“ (AI), führt zu Diskussionen, beispielsweise ob Maschinen überhaupt über Intelligenz verfügen.
Wir verwenden im Folgenden diese Definition:
Definition: Artificial Intelligence
„A machine’s ability to make decisions and perform tasks that simulate human intelligence and behavior.
Alternatively
- A branch of computer science dealing with the simulation of intelligent behavior in computers.
- The capability of a machine to imitate intelligent human behavior”
Quelle: Merriam-Webster
Es geht somit um die Fähigkeit von Maschinen, in einer Weise
Aufgaben zu übernehmen oder Entscheidungen zu treffen, die menschliche
Intelligenz und menschliches Verhalten simuliert.
Viele Verfahren der künstlichen Intelligenz nutzen das Machine
Learning, das wie folgt definiert ist:
Definition: Machine Learning
„A facet of AI that focuses on algorithms, allowing machines to learn and change without being programmed when exposed to new data.“
Deep Learning ist eine Klasse des Machine Learnings, die auf neuronalen Netzwerken basiert (s. Abb. 1).
Definition: Deep Learning
„The ability for machines to autonomously mimic human thought patterns through artificial neural networks composed of cascading layers of information.“
Quelle u.a. HCIT Experts
Damit ergibt sich die folgende Taxomonie:
Abb. 2: Künstliche Intelligenz umfasst viele Verfahren, von denen Machine Learning nur einen Teil nutzt. Die neuronalen Netze (und damit das Deep Learning) zählen zum Machine Learning.
b) Verfahren
Die Annahme, dass künstliche Intelligenz in der Medizin v. a. neuronale Netzwerke nutzt, ist nicht zutreffend. Eine Studie von Jiang et al. zeigt, dass am häufigsten Support Vector Machines zum Einsatz kommen (s. Abb. 2). Einige Medizinprodukte setzen mehrere Verfahren gleichzeitig ein.
Abb. 3: Die meisten Verfahren der künstlichen Intelligenz, die bei Medizinprodukten zum Einsatz kommen, zählen zur Kategorie „Machine Learning“. Neuronale Netzwerke verwenden die Hersteller am zweithäufigsten. (Quelle) (zum Vergrößern klicken)
Die Liste der am häufigsten und erfolgreichsten angewandten Verfahren ändert sich fortlaufend. Verfahren wie XGBoost haben beispielsweise an Popularität gewonnen.
2. Anwendungen der künstlichen Intelligenz in der Medizin
a) Übersicht
Hersteller nutzen künstliche Intelligenz, insbesondere Machine Learning, für Aufgabenstellungen wie die folgenden:
Aufgabenstellung | Daten, mit denen KI diese Aufgabe unterstützen kann |
Detektion einer Retinopathie | Bilder des Augenhintergrunds |
Zählen und Erkennen bestimmter Zelltypen | Bilder von histologischen Schnitten |
Diagnose von Infarkten, Alzheimer, Krebs usw. | Radiologische Bilder, z. B. CT, MRT |
Erkennung von Depression | Sprache, Bewegungsmuster |
Auswahl und Dosierung von Medikamenten | Diagnosen, Gen-Daten usw. |
Diagnose von Herzerkrankungen, degenerative Erkrankungen des Gehirns usw. | EKG- oder EEG-Signale |
Erkennen von Epidemien | Internet-Suchen |
Prognose von Krankheiten | Laborwerte, Umweltfaktoren usw. |
Prognose des Todeszeitpunkts von Intensivpatienten | Vitalparameter, Laborwerte und weitere Daten in der Patientenakte |
Tabelle 1: Aufgaben, die mit künstlicher Intelligenz übernommen werden können, und die dazu verwendeten Daten
Zu den weiteren Anwendungsgebieten zählen:
- Erkennung, Analyse und Verbesserung von Signalen, z. B. schwachen und verrauschten Signalen
- Extraktion strukturierter Daten aus unstrukturiertem Text
- Segmentierung von Geweben, z. B. für die Bestrahlungsplanung
Abb. 4: Segmentation von Organen (hier Niere) mit Hilfe der künstlichen Intelligenz (Quelle) (zum Vergrößern klicken)
Die FDA hat eine umfangreiche Liste an KI-basierten Medizinprodukten veröffentlicht, die für Hersteller sehr nützlich ist, um
- klinische Bewertung zu erstellen,
- nach Äquivalenzprodukten zu suchen und
- Anregungen für neue Produkte zu erhalten.
Interessant ist, dass die Anzahl der neu zugelassenen KI-basierten Produkte nicht weiter ansteigt.
Abb. 5: Die Anzahl der Medizinprodukte mit künstlicher Intelligenz, die die FDA bereits zugelassen hat, steigt nicht weiter an (zum Vergrößern klicken).
b) Aufgabenstellung: Klassifizierung und Regression
Die Verfahren verfolgen das Ziel einer Klassifizierung oder
Regression.
Beispiele für Klassifizierung
- Entscheiden, ob Kriterien für eine Diagnose zutreffen
- Entscheiden, ob eine Zelle eine Krebszelle ist
- Auswahl eines Medikaments
Beispiele für Regression
- Bestimmen der Dosis eines Medikaments
- Vorhersage des Todeszeitpunkts
c) Unterschied beim Einsatz von künstlicher Intelligenz in der Medizin im Vergleich zu anderen Branchen
Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren
Video laden
PGlmcmFtZSBsb2FkaW5nPSJsYXp5IiBjbGFzcz0ieW91dHViZS1wbGF5ZXIiIHdpZHRoPSIxMTAwIiBoZWlnaHQ9IjYxOSIgc3JjPSJodHRwczovL3d3dy55b3V0dWJlLW5vY29va2llLmNvbS9lbWJlZC9aVmZFNFhscmNpOD92ZXJzaW9uPTMmIzAzODtyZWw9MSYjMDM4O3Nob3dzZWFyY2g9MCYjMDM4O3Nob3dpbmZvPTEmIzAzODtpdl9sb2FkX3BvbGljeT0xJiMwMzg7ZnM9MSYjMDM4O2hsPWRlLURFJiMwMzg7YXV0b2hpZGU9MiYjMDM4O3dtb2RlPXRyYW5zcGFyZW50IiBhbGxvd2Z1bGxzY3JlZW49InRydWUiIHN0eWxlPSJib3JkZXI6MDsiIHNhbmRib3g9ImFsbG93LXNjcmlwdHMgYWxsb3ctc2FtZS1vcmlnaW4gYWxsb3ctcG9wdXBzIGFsbG93LXByZXNlbnRhdGlvbiI+PC9pZnJhbWU+
Dr. Daniel Lohner und Prof. Dr. Christian Johner diskutieren Gemeinsamkeiten und Unterschiede beim Einsatz von Machine Learning in der Medizin und im Bankenwesen.
3. Künstliche Intelligenz mit der regulatorischen Brille betrachtet
a) Regulatorische Anforderungen
Derzeit gibt es keine Gesetze und harmonisierte Normen, die speziell den Einsatz der künstlichen Intelligenz in Medizinprodukten regulieren. Allerdings existiert eine Vielzahl an Normen und Best Practices für den Einsatz von Verfahren der künstlichen Intelligenz.
b) Entwurf für ein neues Framework der FDA
Die FDA hat im Gegensatz zu europäischen Gesetzgebern ihre Sichtweise zur künstlichen Intelligenz auf ihrer Webseite formuliert. Dazu hat sie im April 2019 ein Entwurf „Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD)“ veröffentlicht.
Darin spricht die FDA über die Hausforderung von kontinuierlich lernenden Systemen. Sie stellt fest, dass die bisher zugelassenen Medizinprodukte, die auf Verfahren der KI basieren, mit „locked algorithms“ arbeiten.
Für die Änderungen der Algorithmen möchte die Behörde darlegen, wann sie
- keine Neueinreichung erwartet, sondern nur die Dokumentation der Änderungen durch den Hersteller,
- zumindest über die Änderungen und die Validierung einem Review durchführen möchte, bevor der Hersteller das geänderte Produkt auf den Markt bringen darf,
- auf einer (komplett) neuen Einreichung bzw. Zulassung besteht.
Bestehende Ansätze
Das neue „Framework“ basiert auf bekannten Ansätzen:
- Risikokategorien des IMDRF für Software as Medical Device (SaMD)
- Das „benefit-risk framework“ der FDA
- Überlegungen der FDA, wann Software-Änderungen eine Neuzulassung bedingen (Software Changes)
- Zulassungsverfahren einschließlich Pre-Cert-Programm der FDA, de-Novo-Verfahren usw.
- FDA Guidance zur Klinischen Bewertung von Software
Welche Ziele die Änderungen eines Algorithmus verfolgen können
Die FDA erkennt, dass gemäß ihren eigenen Regeln ein im Einsatz selbst- bzw. weiterlernender Algorithmus einer erneuten Überprüfung und Zulassung bedarf. Das scheint selbst der FDA zu rigide zu sein. Daher untersucht sie die Ziele einer Änderung des Algorithmus und unterscheidet:
- Verbesserung der klinischen und analytischen Leistungsfähigkeit: Diese Verbesserung ließe sich durch ein Trainieren mit mehr Datensätzen erreichen.
- Änderung der „Input-Daten“, die der Algorithmus verarbeitet. Das können zusätzliche Labordaten ebenso sein wie Daten eines anderen CT-Herstellers.
- Änderung der Zweckbestimmung: Als Beispiel nennt die FDA, dass der Algorithmus anfangs nur einen „Confidence Score“ berechnet, der die Diagnose unterstützen soll, und später die Diagnose direkt berechnet. Auch eine Änderung der der vorgesehenen Patientenpopulation zählt als eine Änderung der Zweckbestimmung.
Abhängig von diesen Zielen möchte die Behörde über die Notwendigkeit von Neueinreichungen entscheiden.
Säulen eines Best-Practice Ansatzes
Die FDA nennt vier Säulen, mit denen die Hersteller über den Produktlebenszyklus hinweg die Sicherheit und den Nutzen der Produkte auch bei Änderungen gewährleisten sollen:
- Qualitätsmanagementsystem und „Good Machine Learning Practices“ GMLP
Zum einen erwartet die FDA, dass die klinische Validität gewährleistet ist. (Was das ist, erfahren Sie in diesem Artikel.) Diese Forderung ist aber nicht spezifisch für KI-Algorithmen.
Konkrete GMLP nennt die FDA nicht, spricht nur von einer angemessenen Trennung von Training, „Tuning“ und Testdaten sowie von einer angemessenen Transparenz über den Output und die Algorithmen. - Planung und Initiale Bewertung bezüglich Sicherheit und Leistungsfähigkeit
Im Vergleich zu „normalen“ Zulassungen erwartet die FDA u. a. „SaMD Pre-Specifications“ (SPS), in der die Hersteller darlegen, welche Arten der Änderungen (s. o.) sie antizipieren. Zusätzlich sollen sie Änderungen gemäß einem „Algorithm Change Protocol“ (ACP) vornehmen. Damit ist kein Protokoll, sondern ein Verfahren gemeint. Was Gegenstand dieses Verfahrens ist, zeigt Abbildung 6. - Ansatz, um Änderungen nach der initialen Freigabe zu bewerten
Wenn Hersteller bei der initialen Zulassung keinen SPS und kein ACP eingereicht haben, müssen sie künftige Änderungen erneut der Behörde vorlegen. Andernfalls entscheidet die Behörde, ob sie eine erneute Einreichung erwartet, ob sie „nur“ ein „fokussiertes Review“ vornimmt oder ob sie vom Hersteller erwartet, dass er die Änderungen dokumentiert. Die Entscheidung hängt davon ab, ob der Hersteller dem „genehmigten“ SPS und ACP folgt und/oder ob sich die Zweckbestimmung ändert (s. Abb. 7). - Transparenz und Überwachung der Leistungsfähigkeit im Markt
Die FDA erwartet regelmäßige Berichte über die Überwachung der Leistungsfähigkeit der Produkte im Markt gemäß SPS und ACP. Auch die Anwender wären zu informieren, welche Änderungen sie mit welchen Auswirkungen z. B. auf die Leistungsfähigkeit durchgeführt haben.
Mit Transparenz meint die FDA somit nicht die Darlegung, wie z. B. die Algorithmen „unter der Haube“ funktionieren, sondern Offenheit darüber, was der Hersteller mit welchem Zweck und welchen Auswirkungen geändert hat.
Abb. 6: Algorithm Change Protocol (ACP) aus dem „Proposed Regulatory Framework“ der FDA für Software, die Machine Learning nutzt (zum Vergrößern klicken)
Abb. 7: Mit diesem Entscheidungebaum legt die FDA fest, ob bei Änderungen der Software, die auf Machine Learning basiert, eine Neuzulassung notwendig ist. (zum Vergrößern klicken)
Beispiel, unter welchen Umständen die Behörde bei Änderungen (nicht)
involviert werden muss
Die FDA nennt Beispiele dafür, wann ein Hersteller den Algorithmus einer Software ändern darf, ohne die Behörde um Genehmigung zu fragen. Das erste dieser Beispiele ist eine Software, die in einer Intensivstation basierend auf Monitor-Daten (z. B. Blutdruck, EKG, Pulsoximeter) drohende Instabilitäten des Patienten vorhersagt.
Der Hersteller plant, den Algorithmus zu ändern, z. B. um Fehlalarme zu minimieren. Wenn er dies im SCS bereits vorsah und zusammen mit dem ACP von der Behörde genehmigt ließ, darf er diese Änderungen ohne erneute „Zulassung“ vornehmen.
Wenn er allerdings behauptet, dass der Algorithmus 15 Minuten vor einer physiologischen Instabilität warnt (er spezifiziert jetzt zusätzlich eine Zeitdauer), wäre das eine Erweiterung der Zweckbestimmung. Diese Änderung würde eine Zustimmung der FDA voraussetzen.
Zusammenfassung
Die FDA diskutiert, wie man mit kontinuierlich lernenden Systemen umgehen soll. Dabei ist noch nicht einmal die Frage beantwortet, was Best Practices sind, um einen „eingefrorenen“ Algorithmus, der auf Verfahren der KI basiert, bewerten und zuzulassen.
Es fehlt weiterhin ein Leitfaden, der „Good Machine Learning Practices“, wie es die FDA nennt, festlegt. Das Johner Institut entwickelt deshalb gemeinsam mit einer Benannten Stelle solch einen Leitfaden.
Das Konzept der FDA, auf Basis von vorab genehmigten Verfahren zu Änderungen der Algorithmen auf eine Neueinreichung ggf. zu verzichten, hat seinen Charme. Soviel Konkretheit sucht man auf Seiten der europäischen Gesetzgeber und Behörden vergeblich.
c) Lösungsansätze
Explainability
Mit der Aussage, dass die Verfahren des Maschine Learnings Blackboxes darstellen würden, sollten sich Auditoren nicht mehr pauschal zufriedengeben.
„Es gibt vielversprechende Ansätze in der aktuellen Forschungsliteratur, wie die Vorhersagen von Deep-Learning-Modellen plausibilisiert werden können. Zum Beispiel kann man bei der Klassifikation von Bildern nachvollziehen, welche Input-Pixel für die Klassifikation entscheidend sind (s.u.).
Es haben sich jedoch noch keine Standard-Methoden etabliert, da die derzeitigen Verfahren unterschiedliche Stärken und Schwächen haben und sich der aktuelle Status-Quo in einer heuristischen Phase befindet. Es ist jedoch davon auszugehen, dass die Forschung in diesem Bereich in den nächsten Jahren weitere Fortschritte Richtung Erklärbarkeit machen wird.“
Viele Ansätze richten sich derzeit „nur“ auf die Erklärung von konkreten Einzelvorhersagen anhand der Eingabedaten (lokale Erklärbarkeit).
Beispielsweise gelingt es mit der Layer Wise Relevance Propagation bei einigen Modellen zu erkennen, welche Input-Daten („Feature“) für den Algorithmus entscheidend waren für z. B. die Klassifikation.
Abbildung 8 zeigt im linken Bild, dass der Algorithmus die Ziffer „6“ vor allem wegen der dunkelblau markierten Pixel ausschließen kann. Das ergibt Sinn, weil bei einer „6“ dieser Bereich typischerweise keine Pixel erhält. Hingegen zeigt das rechte Bild die Pixel in rot, die den Algorithmus in der Annahme bestärken, dass die Ziffer eine „1“ ist.
Der Algorithmus bewertet die Pixel im aufsteigenden Schenkel der Ziffer eher als schädlich für die Klassifizierung als „1“. Das liegt daran, dass er mit Bildern trainiert wurde, bei denen die „1“ nur als ein senkrechter Strich geschrieben wird, wie dies in den USA der Fall ist. Dies verdeutlicht, wie relevant es für das Ergebnis ist, dass die Trainingsdaten repräsentativ für die später zu klassifizierenden Daten sind.
Abb. 8: Die Layer Wise Relevance Propagation ermittelt, welcher Input welchen Anteil am Ergebnis hat. Die Daten sind hier als Heatmap visualisiert (Quelle). (zum Vergrößern klicken)
Feststellen des Stands der Technik
Hersteller sind gut beraten, die Fragen mancher Auditoren nach dem Stand der Technik nicht global zu beantworten, sondern zu unterscheiden:
- Technische Umsetzung: Einschlägige Standards wie die hier genannten helfen beim Nachweis, dass die Entwicklung und Verifizierung bzw. Validierung der Software und der Modelle aktuellen Best Practices entspricht.
- Leistungsparameter: Die Hersteller sollten die Leistungsfähigkeit mit klassischen Verfahren sowie anderen Modellen und Algorithmen des Machine Learnings vergleichen. Dieser Vergleich sollte anhand aller relevanten Attribute erfolgen wie Sensitivität, Spezifität, Robustheit, Performanz, Wiederholbarkeit, Erklärbarkeit und Akzeptanz.
4. KI-Leitfaden
Der Leitfaden zur Anwendung der künstlichen Intelligenz (KI) bei Medizinprodukten steht jetzt kostenfrei bei GitHub zur Verfügung.
Abb. 9: KI-Leitfaden / AI Guideline kostenfrei bei GitHub verfügbar
Diesen Leitfaden haben wir gemeinsam mit Benannten Stellen, Herstellern und KI-Experten entwickelt.
- Er hilft Herstellern, KI-basierte Produkte gesetzeskonform zu entwickeln und schnell und sicher in den Markt zu bringen.
- Interne und externe Auditoren sowie Benannte Stellen nutzen den Leitfaden, um die Gesetzeskonformität KI-basierter Medizinprodukte und den zugehörigen Lebenszyklusprozess zu prüfen.
Tipp
Nutzen Sie die Excel-Version des Leitfadens, die hier kostenlos erhältlich ist. Damit können Sie die Anforderungen des Leitfadens filtern, in eigene Vorgabedokumente übernehmen und auf Ihre spezifische Situation anpassen.
Beim Schreiben war uns wichtig, den Herstellern und Benannten Stellen präzise Prüfkriterien an die Hand zu geben, die eine eindeutige und unstrittige Bewertung erlaubt. Weiterhin steht der Prozessansatz im Vordergrund. Entlang dieser Prozesse sind die Anforderungen des Leitfadens gruppiert (s. Abb. 10).
Abb. 10: Struktur des KI-Leitfadens (zum Vergrößern klicken)
5. Unterstützung
Das Johner Institut unterstützt Hersteller von Medizinprodukten, die künstliche Intelligenz nutzen, dabei,
- die Produkte gesetzeskonform zu entwickeln und in den Verkehr zu bringen,
- entsprechende Verifizierungs- und Validierungsaktivitäten zu planen und durchzuführen,
- die Produkte auf Nutzen, Leistungsfähigkeit und Sicherheit zu bewerten,
- die Eignung der Verfahren (insbesondere der Modelle) und der Trainingsdaten zu bewerten,
- die regulatorischen Anforderungen an die Post-Market-Phase zu erfüllen und
- passgenaue Verfahrensanweisungen zu erstellen.
Sie finden hier
eine vollständigere Übersicht.
6. Fazit, Ausblick
a) Vom Hype über die Desillusion zur gelebten Praxis
Künstliche Intelligenz erlebt gerade einen Hype. Viele Artikel preisen sie wahlweise als Lösung aller Probleme in der Medizin oder als Einstieg in eine Dystopie, in der die Maschinen die Macht übernehmen. Wir stehen vor einer Phase der Ernüchterung. „Dr. Watson versagt“, titelte der Spiegel bereits in der Ausgabe 32/2018 zum Einsatz von KI in der Medizin.
Es ist zu erwarten, dass die Medien über die tragischen Konsequenzen bei Fehlentscheidungen von KI übergroß und skandalisierend berichten werden. Doch im Lauf der Zeit wird der Einsatz von KI genauso normal und unverzichtbar sein wie der Einsatz von elektrischem Strom. Wir können und wollen es uns nicht länger leisten, dass medizinisches Personal Aufgaben erledigen muss, die Computer besser und schneller erledigen können.
b) Regulatorische Unsicherheit
Auch wenn die FDA einen guten ersten Entwurf vorgelegt hat: Die regulatorischen Rahmenbedingungen und Best Practices hinken dem Einsatz von KI hinterher. Die Folgen sind Risiken für Patienten (unsichere Medizinprodukte) und Hersteller (scheinbare Willkür bei Audits und Zulassungsverfahren).
Die WHO fühlt sich veranlasst, dem Thema mehr Bedeutung zu schenken und eine WHO-Leitlinie zu erarbeiten. Die Fokusgruppe „Artificial Intelligence for Healthcare“ zeugt von diesem Bemühen. Es ist jede/r eingeladen, sich daran zu beteiligen.
Das gilt auch für den oben vorgestellte Leitfaden zur sicheren Entwicklung und Verwendung der künstlichen Intelligenz bei Medizinprodukten. Dieser Leitfaden formuliert bereits sehr konkrete Anforderungen und hilft damit einerseits den Herstellern und andererseits den Benannten Stellen und Behörden, ein einheitliches Verständnis des Stands der Technik und damit eine gemeinsame Grundlage für Produktprüfungen und Audits zu erreichen.
Mit Dank u. a. an Christoph Molnar, Dr. Tobias Lang
Änderungshistorie
- 2021-11-07: In Abschnitt 2.a) Auswertung der Liste der FDA eingefügt
- 2021-10-03: In Abschnitt 2.a) Liste der FDA ergänzt