Mit Regeln, Qualität und Verantwortung zur sicheren Integration in den Klinikalltag
Viele Ärztinnen und Ärzte nutzen generative künstliche Intelligenz (kurz GenAI oder auch KI-Chatbots genannt) bereits im klinischen Alltag. Sie erhoffen sich wertvolle Unterstützung bei der Diagnose und beim Therapiemanagement. Doch wie schneiden gängige KI-Chatbots im Realitäts-Check ab?
Angesichts der hohen Risiken steht GenAI in der Patientenbehandlung unter intensiver Beobachtung. Peter Bonis, MD, nahm einen frei zugänglichen KI-Chatbot ins Visier und machte den Praxistest. Die Ergebnisse sind besorgniserregend – das berichtet Bonis, der als Chief Medical Officer bei Wolters Kluwer Health und als Lehrbeauftragter für Medizin an der Tufts University School of Medicine in Massachusetts arbeitet.
Ein Beispiel, das beunruhigt
So stellte Bonis dem KI-Chatbot die einfache medizinische Frage „Wie behandelt man eine Harnwegsinfektion (UTI) bei Patient:innen mit einer Penicillinallergie?“. „Fluorchinolone oder Levofloxacin“ wurden als Optionen angeboten. Diese Antwort mag auf Laien überzeugend wirken, für medizinisches Fachpersonal ergibt sich als erster Fehler: Levofloxacin ist eine Art von Fluorchinolon. Die Antwort war somit nicht korrekt formuliert, da sie zu der Annahme verleiten konnte, dass Levofloxacin nicht zu den Fluorchinolonen zähle. Viel besorgter war Bonis aber über einen medizinisch schwerer wiegenden Fehler: Es gab keinen Hinweis zu schwangeren Patientinnen. Dabei können Fluorchinolone dem Fötus ernsthaften Schaden zufügen. Wäre die Patientin schwanger gewesen, hätte es der Gesundheit des Kindes extrem geschadet, wenn man diese Antwort blind befolgt hätte. Der KI-Chatbot berücksichtigte diesen grundlegenden Zusammenhang nicht – aus Mangel an Kompetenz hinsichtlich der Relevanz dieses Details. Die Gründe liegen auf der Hand: Der Bot verfügt nicht über die klinische Erfahrung, um die vielen Kontrollpunkte zu navigieren, die durch eine medizinische Ausbildung vermittelt werden. Ebenso wenig verfügt er über die Ausbildung und die langjährige Expertise aus der Routine.
Vertrauenswürdige Technologie?
Dennoch haben GenAI-Tools in Kombination mit anderen Technologien ein großes Potenzial, die klinische Entscheidungsfindung über das hinaus zu verbessern, was Mediziner:innen und Pflegekräfte allein leisten können.
So bieten KI-Chatbots Unterstützung bei der Diagnose und beim Behandlungsmanagement. Laut einer wachsenden Zahl von Studien schneiden sie bei medizinischen Facharztprüfungen gut ab. Doch die Daten erzählen nicht die ganze Geschichte: Eine Reihe spezifischer Probleme gängiger KI-Chatbots zeigen, dass die Technologie noch nicht auf dem Stand ist, eine wichtige Rolle bei der klinischen Entscheidungsfindung zu spielen.
Halluzinationen
So besteht nach wie vor die Herausforderung von Halluzinationen als bekanntestes Risiko jeder GenAI-Plattform. Dabei sind Halluzinationen nicht immer leicht zu erkennen – selbst für klinisches Fachpersonal, das überzeugt ist, sie identifizieren zu können. Die Last, ad hoc die Spreu vom Weizen zu trennen, darf nicht vielbeschäftigten Mediziner:innen auferlegt werden.
GenAI-Modelle enthalten mitunter Referenzen; dass Ärzt:innen konsequent überprüfen, ob das Originalmaterial valide ist oder halluziniert wurde, ist nicht realistisch. So berichtet Bonis von Zitaten aus scheinbar überzeugenden Studien – die sich jedoch als nicht existent herausstellten. In anderen Fällen waren die zitierten Quellen zwar real, griffen das Thema jedoch nur unzureichend auf und spiegelten den aktuellen Wissensstand nicht vollständig wider.
Ein Lackmus-Test
Reproduzierbarkeit ist eine Herausforderung: Stellt man einem KI-Chatbot eine Frage und wiederholt dieselbe Eingabe zu einem späteren Zeitpunkt, erhält man ziemlich sicher zwei deutlich unterschiedliche Antworten. Aus statistischer Betrachtung können die Ergebnisse von GenAI stark variieren – was sowohl für Ärzt:innen als auch für Patient:innen ein ernstes Problem darstellt.
GenAI-Plattformen sind ferner anfällig für Verzerrungen („biases“). Eklatante US-Beispiele für Verzerrungen im Hinblick auf ethnische Zugehörigkeit haben gezeigt, dass die Formulierung einer Eingabe nicht nur die Antworten beeinflusst, sondern auch zu Antworten mit klinisch signifikanten Unterschieden führen kann.1 2 Subtilere Verzerrungen lauern in den Entscheidungen, die die Modelle treffen müssen, um verschiedene Eingaben zu priorisieren. Wie wählt das Modell beispielsweise konsistent die glaubwürdigste Informationsquelle aus, wenn es in der Forschung auf widersprüchliche Belege stößt? Bislang sind KI-Chatbots noch nicht in der Lage, kritische Peer-Reviews zur Bewertung von Belegen durchzuführen. Es wurde auch über eine Vielzahl von Fehleinschätzungen – ähnlich wie bei Menschen – aufgrund von Verzerrungen berichtet.
KI-Chatbots beeindrucken medizinische Anwender mit umgehenden Antworten, die auch ungenau sein können. Obwohl die Ärzt:innen die endgültige Entscheidung treffen, können sie sich daran gewöhnen, Fragen zu stellen und die Antworten umzusetzen, wodurch eine Art vertrauensvolles „Muskelgedächtnis“ für den Prozess entwickelt wird – und mit der Zeit die Empfehlungen immer weniger hinterfragt und abgewogen werden.
Diese Entwicklung eröffnet völlig neue Dimensionen ärztlicher Entscheidungsfindung, die auch von Regulierungsbehörden neu bewertet werden müssen – ganz zu schweigen von den rechtlich bislang kaum geklärten Fragen, die im Fall medizinischer Fehler entstehen können.
Die Komplexität im klinischen Alltag
Diagnose und Behandlung erfolgen in der Realität oft schrittweise – Informationen und Erkenntnisstand entwickeln sich über die Zeit. Während generative KI-Modelle strukturierte Prüfungsfälle souverän bearbeiten, tun sie sich mit der unübersichtlichen, dynamischen Realität klinischer Versorgung deutlich schwerer.3 4
Der richtige Weg in die technologiegestützte Zukunft
Bonis fasst zusammen: Im Gesundheitswesen kann die falsche Antwort auf eine Frage schwerwiegende Folgen haben. Die Auseinandersetzung mit den beschriebenen Problemen bildet die Voraussetzung dafür, einen Fahrplan für den richtigen Einsatz generativer KI im Gesundheitswesen zu entwickeln.
Mit einer angemessenen Überprüfung und mit Prozessen zur Gewährleistung der klinischen Genauigkeit können KI-Chatbots in Kombination mit anderen Technologien die Arzt-Patient-Interaktion in Echtzeit verbessern. Rückfragen stellen, den Kontext berücksichtigen und die besten Erkenntnisse zur Unterstützung der Behandlung nutzen – so sieht laut dem Peter Bonis der richtige Weg in die KI-gestützte Zukunft aus.
Quelle: Sabine Schützmann Common Sense und
1 Hofmann, V., Kalluri, P.R., Jurafsky, D. et al. AI generates covertly racist decisions about people based on their dialect. Nature 633, 147–154 (2024). https://doi.org/10.1038/s41586-024-07856-5
2 Yang, Y., Liu, X., Jin, Q. et al. Unmasking and quantifying racial bias of large language models in medical report generation. Commun Med 4, 176 (2024). https://doi.org/10.1038/s43856-024-00601-z
3 Williams, C.Y.K., Miao, B.Y., Kornblith, A.E. et al. Evaluating the use of large language models to provide clinical recommendations in the Emergency Department. Nat Commun 15, 8236 (2024). https://doi.org/10.1038/s41467-024-52415-1
4 Hager, P., Jungmann, F., Holland, R. et al. Evaluation and mitigation of the limitations of large language models in clinical decision-making. Nat Med 30, 2613–2622 (2024). https://doi.org/10.1038/s41591-024-03097-1