Immer mehr Medizinprodukte nutzen künstliche Intelligenz, um Patienten präziser zu diagnostizieren und wirksamer zu behandeln.
Obwohl viele Produkte bereits zugelassen wurden (z.B. durch die FDA), sind viele regulatorische Fragen noch ungeklärt.
Dieser Artikel beschreibt, worauf Hersteller achten sollen, deren Produkte auf Verfahren der künstlichen Intelligenz basieren.
Beachten Sie auch den Leitfaden zur Anwendung der künstlichen Intelligenz (KI) bei Medizinprodukten, den das Johner Institut mit KI-Experten und benannten Stellen entwickelt hat. Erfahren Sie hier mehr….
Videoserie zur künstlichen Intelligenz
Eine kurze (vierteilige) Serie an Videotrainings steht hier kostenfrei zur Verfügung. Der Auditgarant bietet eine noch umfangreichere Unterstützung (25+ Videotrainings zur KI, Templates).
- Teil: Einführung, Übersicht über Anwendungen und Verfahren
- Teil: Gütemaße zur Bewertung
- Teil: Regulatorische Anforderungen
- Teil: Aufzeichnung des Webinars
Abb. 1: Kostenlose Serie aus vier Videos zur künstlichen Intelligenz bei Medizinprodukten. Eine umfangreiche Serie (25+ Videos) findet sich im Auditgarant.1. Künstliche Intelligenz: Was ist das?
Regelmäßig werden die Begriffe künstliche Intelligenz (KI), Machine
Learning und Deep Learning unpräzise oder gar synonym verwendet.
a) Definitionen
Bereits der Begriff „künstliche Intelligenz“, auf Englisch „Artificial
Intelligence“ (AI) führt zu Diskussionen, beispielsweise ob Maschinen überhaupt
über Intelligenz verfügen.
Wir verwenden im Folgenden diese Definition:
Definition: Artificial Intelligence
„A machine’s ability to make decisions and perform tasks that simulate human intelligence and behavior.
Alternatively- A branch of computer science dealing with the simulation of intelligent behavior in computers.
- The capability of a machine to imitate intelligent human behavior”
Quelle: Merriam-Webster
Es geht somit um die Fähigkeit von Maschinen, in einer Weise
Aufgaben zu übernehmen oder Entscheidungen zu treffen, die menschliche
Intelligenz und menschliches Verhalten simuliert.
Viele Verfahren der künstlichen Intelligenz nutzen das Machine
Learning, das wie folgt definiert ist:
Definition: Begriff
„A facet of AI that focuses on algorithms, allowing machines to learn and change without being programmed when exposed to new data.“Und wiederum ein Teil des Machine Learnings ist das Deep
Learning, das auf neuronalen Netzwerke basiert(s. Abb. 1).
Definition: Begriff
„The ability for machines to autonomously mimic human thought patterns through artificial neural networks composed of cascading layers of information.“Damit ergibt sich die folgende Taxomonie:
Abb. 2: Künstliche Intelligenz basiert auf vielen Verfahren, von denen das Machine Learning nur einen Teil umfasst. Die neuronalen Netze, und damit das Deep Learning, zählen zum Machine Learning.b) Verfahren
Die Annahme, dass die künstliche Intelligenz in der Medizin
v.a. neuronale Netzwerke nutzt, ist nicht zutreffend. Eine Studie
von Jiang et al. zeigt, dass Support Vector Machines am häufigsten zum
Einsatz kommen (s. Abb. 2). Einige Medizinprodukte setzen mehrere Verfahren gleichzeitig
ein.
Abb. 3: Die meisten Verfahren der künstlichen Intelligenz, die bei Medizinprodukten zum Einsatz kommen, zählen zur Kategorie „Machine Learning“. Die neuronalen Netzwerke verwenden die Hersteller am zweithäufigsten. (Quelle) (zum Vergrößern klicken)Die Liste der am häufigsten und erfolgreichsten angewendeten Verfahren ändert sich fortlaufend. Verfahren wie XGBoost haben beispielsweise an Popularität gewonnen.
2. Anwendungen der künstlichen Intelligenz in der Medizin
a) Übersicht
Hersteller nutzen künstliche Intelligenz, insbesondere
Machine Learning für Aufgabenstellungen wie die folgenden:
Aufgabenstellung | Daten, mit denen KI diese Aufgabe unterstützen kann |
Detektion einer Retinopathie | Bilder des Augenhintergrunds |
Zählen und Erkennen bestimmter Zelltypen | Bilder von histologischen Schnitten |
Diagnose von Infarkten, Alzheimer, Krebs usw. | Radiologische Bilder z.B. CT, MRT |
Erkennung von Depression | Sprache, Bewegungsmuster |
Auswahl und Dosierung von Medikamenten | Diagnosen, Gen-Daten usw. |
Diagnose von Herzerkrankungen, degenerative Erkrankungen des Gehirns, … | EKG- oder EEG-Signale |
Erkennen von Epidemien |
Internet-Suchen |
Prognose von Krankheiten | Laborwerte, Umweltfaktoren etc. |
Prognose des Todeszeitpunkts von Intensivpatienten | Vitalparameter, Laborwerte und weitere Daten in der Patientenakte |
Tabelle 1: Gegenüberstellung der Aufgaben, die mit künstlicher Intelligenz übernommen werden können, und den dazu verwendeten Daten
Zu den weiteren Anwendungsgebieten zählen:
- Erkennung,
Analyse und Verbesserung von Signalen z.B. schwachen und verrauschten Signalen
- Extraktion
strukturierter Daten aus unstrukturiertem Text
- Segmentierung
von Geweben z.B. für die Bestrahlungsplanung
Abb. 4: Segmentation von Organen (hier Niere) mit Hilfe der künstlichen Intelligenz (Quelle) (zum Vergrößern klicken)b) Aufgabenstellung: Klassifizierung und Regression
Die Verfahren verfolgen das Ziel einer Klassifizierung oder
Regression.
Beispiele für Klassifizierung
- Entscheidung, ob Kriterien für eine Diagnose zutreffen
- Entscheiden, ob eine Zelle eine Krebszelle ist
- Auswahl eines Medikaments
Beispiele für Regression
- Bestimmung
der Dosis eines Medikaments
- Vorhersage
des Todeszeitpunkts
3. KI aus der regulatorischen Brille
a) Regulatorische Anforderungen
Derzeit gibt es keine Gesetze und harmonisierte Normen, die speziell den Einsatz der künstlichen Intelligenz in Medizinprodukten regulieren. Allerdings existiert eine Vielzahl an Normen und Best Practices für den Einsatz von Verfahren der künstlichen Intelligenz.
b) Entwurf für ein neues Framework der FDA
Die FDA hat im Gegensatz zu europäischen Gesetzgebern ihre Sichtweise zur künstlichen Intelligenz auf ihrer Webseite formuliert.
Dazu hat die FDA im April 2019 ein Entwurf „Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD)“ veröffentlicht.
Darin spricht sie über die Hausforderung von kontinuierlich
lernenden Systemen. Sie stellt aber fest, dass die bisher zugelassenen
Medizinprodukte, die auf Verfahren der KI basieren, mit „locked algorithms“
arbeiten.
Für beide Typen an Änderungen der Algorithmen möchte die
Behörde darlegen, wann sie
- keine
Neueinreichung erwartet, sondern nur die Dokumentation der Änderungen durch den
Hersteller,
- zumindest
die Änderungen und die Validierung einem Review durchführen möchte, bevor der Hersteller
das geänderte Produkt auf den Markt bringen darf,
- auf
einer (komplett) neuen Einreichung bzw. Zulassung besteht.
Bestehende Ansätze
Das neue „Framework“ basiert auf bekannten Ansätzen:
- Risikokategorien des IMDRFs für Software as Medical Device (SaMD)
- Das „benefit-risk framework“ der FDA
- Überlegungen der FDA, wann Software-Änderungen eine Neuzulassung bedingen (Software Changes)
- Zulassungsverfahren einschließlich des Pre-Cert-Programms der FDA, de Novo-Verfahren usw.
- FDA Guidance zur Klinischen Bewertung von Software
Welche Ziele die Änderungen eines Algorithmus verfolgen können
Die FDA erkennt, dass ein im Einsatz selbst- bzw. weiterlernender Algorithmus gemäß ihren eigenen Regeln einer erneuten Überprüfung und Zulassung bedürfte. Das scheint selbst der FDA zu rigide zu sein. Daher untersucht sie die Ziele einer Änderung des Algorithmus und unterscheidet:
- Verbesserung der klinischen und
analytischen Leistungsfähigkeit: Diese Verbesserung ließe sich durch ein
Trainieren mit mehr Datensätzen erreichen.
- Änderung der „Input-Daten“, die der
Algorithmus verarbeitet. Das können zusätzliche Labordaten ebenso sein wie
Daten eines anderen CT-Herstellers.
- Änderung der Zweckbestimmung: Als
Beispiel nennt die FDA, dass der Algorithmus anfangs nur einen „Confidence
Score“ berechnet, der die Diagnose unterstützen soll, und später die Diagnose
direkt berechnet. Auch eine Änderung der der vorgesehenen Patientenpopulation
zählt als eine Änderung der Zweckbestimmung.
Abhängig von diesen Zielen möchte die Behörde über die Notwendigkeit von Neueinreichungen entscheiden.
Säulen eines Best-Practice Ansatzes
Die FDA sieht vier Säulen, mit denen die Hersteller über den
Produktlebenszyklus hinweg die Sicherheit und den Nutzen der Produkte auch bei
Änderungen gewährleisten sollen:
- Qualitätsmanagementsystem und „Good Machine Learning Practices“ GMLP
Zum einen erwartet die FDA, dass die klinische Validität gewährleistet ist. (Was das ist, erfahren Sie in diesem Artikel.) Diese Forderung ist aber nicht spezifisch für KI-Algorithmen.
Konkrete GMLPs nennt die FDA nicht, spricht nur von einer angemessenen Trennung der Trainings, „Tuning“ und Testdaten sowie von einer angemessenen Transparenz über den Output und die Algorithmen. - Planung und Initiale Bewertung bezüglich Sicherheit und Leistungsfähigkeit
Im Vergleich zu „normalen“ Zulassungen erwartet die FDA u.a. „SaMD Pre-Specifications“ (SPS), in der die Hersteller darlegen, welche Arten der Änderungen (s.o.) sie antizipieren. Zusätzlich sollen sie Änderungen gemäß einem „Algorithm Change Protocol“ (ACP) vornehmen. Was Gegenstand dieses „Protocols“ ist, zeigt die Abbildung 4a.
Mit Protocol ist kein Protokoll, sondern ein Verfahren gemeint. - Ansatz, um Änderungen nach der initialen Freigabe zu bewerten
Wenn Hersteller bei der initialen Zulassung keinen SPS und kein ACP eingereicht haben, müssen sie künftige Änderungen erneut der Behörde vorlegen.
Andernfalls entscheidet die Behörde, ob sie eine Neu-Einreichung erwartet, ob sie „nur“ ein „fokussiertes Review“ vornimmt oder ob sie vom Hersteller nur erwartet, dass er die Änderungen dokumentiert. Die Entscheidung hängt davon ab, ob der Hersteller dem „genehmigten“ SPS und ACP folgt und/oder ob sich die Zweckbestimmung ändert (s. Abb. 4b). - Transparenz und Überwachung der Leistungsfähigkeit im Markt
Die FDA erwartet regelmäßige Berichte über die Überwachung der Leistungsfähigkeit der Produkte im Markt gemäß SPS und ACP. Auch die Anwender wären zu informieren, welche Änderungen sie mit welchen Auswirkungen z.B. auf die Leistungsfähigkeit durchgeführt haben.
Mit Transparenz meint die FDA somit nicht die Darlegung, wie z.B. die Algorithmen „unter der Haube“ funktionieren. Vielmehr meint sie die Offenheit darüber, was mit welchem Zweck und welchen Auswirkungen der Hersteller geändert hat.
Abb. 5: Algorithm Change Protocol (ACP) aus dem „Proposed Regulatory Framework“ der FDA für Software, die Machine Learning nutzt (zum Vergrößern klicken)
Abb. 6: Entscheidungsbaum, nach dem die FDA entscheidet, ob bei Änderungen der Software, die auf Machine Learning basiert, eine Neu-Zulassung notwendig ist (zum Vergrößern klicken)Beispiel, unter welchen Umständen die Behörde bei Änderungen (nicht)
involviert werden muss
Die FDA nennt Beispiele dafür, wann ein Hersteller den
Algorithmus einer Software ändern dürfte, ohne die Behörde um Genehmigung zu
fragen. Das erste dieser Beispiele ist eine Software, die in einer
Intensivstation aus Monitor-Daten (z.B. Blutdruck, EKG, Pulsoximeter) drohende
Instabilitäten des Patienten vorhersagt.
Der Hersteller plant, den Algorithmus zu ändern, z.B. um Fehlalarme
zu minimieren. Wenn er dies im SCS bereits vorsah und diese zusammen mit dem
ACP von der Behörde genehmigt ließ, darf er diese Änderungen ohne erneute „Zulassung“
vornehmen.
Wenn er allerdings zur Erkenntnis kommt, dass er zusätzlich
behaupten kann, dass der Algorithmus sogar 15 Minuten vor einer physiologischen
Instabilität warnt (er spezifiziert jetzt zusätzlich eine Zeitdauer), wäre das
eine Erweiterung der Zweckbestimmung. Diese Änderung würde eine Zustimmung der
FDA voraussetzen.
Zusammenfassung
Die FDA diskutiert, wie man mit kontinuierlich lernenden Systemen umgehen soll. Dabei ist noch nicht einmal die Frage beantwortet, was Best Practices sind, um einen „eingefrorenen“ Algorithmus, der auf Verfahren der KI basiert, bewertet und zulässt.
Ein Leitfaden, der „Good Machine Learning Practices“, wie es
die FDA nennt, festlegt, fehlt weiterhin. Das Johner Institut entwickelt deshalb
gemeinsam mit einer benannten Stelle einen solchen Leitfaden.
Das Konzept der FDA auf Basis von vorab genehmigten
Verfahren zu Änderungen der Algorithmen auf eine Neueinreichung ggf. zu verzichten,
hat seinen Charme. Soviel Konkretheit sucht man auf Seiten der europäischen Gesetzgeber
und Behörden vergeblich.
c) Lösungsansätze
Explainability
Mit der Aussage, dass die Verfahren des Maschine Learnings Blackboxes darstellen würden, sollten sich Auditoren nicht mehr pauschal zufriedengeben.
„Es gibt vielversprechende Ansätze in der aktuellen Forschungsliteratur, wie die Vorhersagen von Deep-Learning-Modellen plausibilisiert werden können. Zum Beispiel kann man bei der Klassifikation von Bildern nachvollziehen, welche Input-Pixel für die Klassifikation entscheidend sind (s.u.).
Es haben sich jedoch noch keine Standard-Methoden etabliert, da die derzeitigen Verfahren unterschiedliche Stärken und Schwächen haben und sich der aktuelle Status-Quo in einer heuristischen Phase befindet. Es ist jedoch davon auszugehen, dass die Forschung in diesem Bereich in den nächsten Jahren weitere Fortschritte Richtung Erklärbarkeit machen wird.“
Viele Ansätze richten sich derzeit „nur“ auf die Erklärung von konkreten Einzel-Vorhersagen anhand der Eingabe-Daten (lokale Erklärbarkeit).
Beispielsweise gelingt es mit der Layer Wise Relevance Propagation bei einigen Modellen zu erkennen, welche Input-Daten („Feature“) für den Algorithmus entscheidend waren z.B. für die Klassifikation.
In Abbildung sechs zeigt im linken Bild, dass der Algorithmus eine Ziffer „6“ vor allem wegen der dunkelblau markierten Pixel ausschließen kann. Das ergibt Sinn, weil bei einer „6“ dieser Bereich typischerweise keine Pixel erhält. Hingegen zeigt das rechte Bild die Pixel in rot, die den Algorithmus in der Annahme bestärken, dass die Ziffer eine „1“ ist.
Der Algorithmus bewertet die Pixel im aufsteigenden Schenkel der Ziffer eher als schädlich für die Klassifizierung als „1“. Das liegt daran, dass er mit Bildern trainiert wurde, bei denen die „1“ nur als ein senkrechter Strich geschrieben wird, wie dies in den USA der Fall wird. Dies verdeutlicht, wie relevant es für das Ergebnis ist, dass die Trainingsdaten repräsentativ für die später zu klassifizierenden Daten sind.
Abb. 8: Die Layer Wise Relevance Propagation ermittelt, welcher Input welchen Anteil am Ergebnis hat. Die Daten sind hier als Heatmap visualisiert (Quelle). (zum Vergrößern klicken)Feststellen des Stands der Technik
Hersteller sind gut beraten, die Fragen mancher Auditoren nach dem Stand der Technik nicht global zu beantworten, sondern unterscheiden:
- Technische Umsetzung: Einschlägige Standards wie die hier genannten helfen beim Nachweis, dass die Entwicklung und Verifizierung bzw. Validierung der Software und der Modelle aktuellen Best Practices entspricht.
- Leistungsparameter: Die Hersteller sollten die Leistungsfähigkeit mit klassischen Verfahren sowie anderen Modellen und Algorithmen des Machine Learnings vergleichen. Dieser Vergleich sollte anhand aller relevanter Attribute erfolgen wie Sensitivität, Spezifität, Robustheit, Performanz, Wiederholbarkeit, Erklärbarkeit und Akzeptanz.
4. KI-Leitfaden
Der Leitfaden zur Anwendung der künstlichen Intelligenz (KI) bei Medizinprodukten steht jetzt kostenfrei bei GitHub zur Verfügung.
Abb. 9: KI-Leitfaden / AI Guideline kostenfrei bei GitHub verfügbarDiesen Leitfaden haben wir mit benannten Stellen, Herstellern und KI-Experten entwickelt.
- Er hilft Herstellern, KI-basierte Produkte gesetzeskonform zu entwickeln und schnell und sicher in den Markt zu bringen.
- Interne und externe Auditoren sowie benannte Stellen nutzen den Leitfaden, um die Gesetzeskonformität KI-basierter Medizinprodukte und der zugehörigen Lebenszyklusprozess zu prüfen.
Tipp
Nutzen Sie die Excel-Version des Leitfadens, die hier kostenlos erhältlich ist. Damit können Sie die Anforderungen des Leitfadens filtern, in eigene Vorgabedokumente übernehmen und auf Ihre spezifische Situation anpassen.
Beim Schreiben war uns wichtig, den Herstellern und benannten Stellen präzise Prüfkriterien an die Hand zu geben, die eine eindeutige und unstrittige Bewertung erlaubt. Ebenso steht der Prozessansatz im Vordergrund. Entlang dieser Prozesse sind die Anforderungen des Leitfadens gruppiert (s. Abb. 10).
Abb. 10: Struktur des KI-Leitfadens5. Unterstützung
Das Johner Institut unterstützt Hersteller von Medizinprodukten, die künstliche Intelligenz nutzen, beispielsweise dabei
- die Produkte gesetzeskonform zu entwickeln und in den Verkehr zu bringen,
- entsprechende Verifizierungs- und Validierungsaktivitäten zu planen und durchzuführen,
- die Produkte auf Nutzen, Leistungsfähigkeit und Sicherheit zu bewerten,
- die Eignung der Verfahren (insbesondere der Modelle) und der Trainingsdaten zu bewerten,
- die regulatorischen Anforderungen auch an die Post-Market-Phase zu erfüllen und
- passgenaue Verfahrensanweisungen zu erstellen.
Sie finden hier
eine vollständigere Übersicht.
6. Fazit, Ausblick
a) Vom Hype über die Desillusion zur gelebten Praxis
Die künstliche Intelligenz erlebt gerade einen Hype. Viele „Artikel“ preisen sie wahlweise als Lösung aller Probleme in der Medizin oder als Einstieg in eine Dystopie, in der die Maschinen die Macht übernehmen. Wir stehen vor einer Phase der Ernüchterung. „Dr. Watson versagt“ titelte der Spiegel bereits in der Ausgabe 32/2018 zum Einsatz der KI in der Medizin.
Es ist zu erwarten, dass die Medien über die tragischen Konsequenzen von Fehlentscheidungen der KI übergroß und skandalisierend berichten werden. Doch im Lauf der Zeit wird der Einsatz der KI genauso normal und unverzichtbar sein wie der Einsatz von elektrischem Strom. Wir können und wollen es uns nicht länger leisten, dass medizinisches Personal Aufgaben erledigen muss, die Computer besser und schneller erledigen können.
b) Regulatorische Unsicherheit
Auch wenn die FDA einen guten ersten Entwurf vorgelegt hat: Die regulatorischen Rahmenbedingungen und Best Practices hinken dem Einsatz der KI hinterher. Die Folgen sind Risiken für Patienten (unsicherere Medizinprodukte) und für Hersteller (scheinbare Willkür bei Audits und Zulassungsverfahren).
Die WHO fühlt sich veranlasst, dem Thema mehr Bedeutung zukommen zu lassen und eine WHO Leitlinie zu erarbeiten. Die Fokusgruppe „Artificial Intelligence for Healthcare“ zeugt von diesem Bemühen. Es ist jede/r eingeladen sich, daran zu beteiligen.
Das gilt auch für den oben vorgestellte Leitfaden zur sicheren Entwicklung und Verwendung der künstlichen Intelligenz bei Medizinprodukten. Dieser Leitfaden formuliert bereits sehr konkrete Anforderungen und hilft damit einerseits den Herstellern und andererseits den benannten Stellen und Behörden, ein einheitliches Verständnis des Stands der Technik und damit eine gemeinsame Grundlage für Produktprüfungen und Audits zu erreichen.
Mit Dank u.a. an Christoph Molnar, Dr. Tobias Lang