Lebensgefahr: KI-Chatbots fürs Krankenhaus
Um die Fähigkeiten der komplexen Algorithmen zu testen, nutzten die Forschenden anonymisierte Daten von Patientinnen und Patienten aus einer Klinik in den USA. Aus einem größeren Datensatz wählten sie 2.400 Fälle aus. Alle Betroffenen waren mit Bauchschmerzen in die Notaufnahme gekommen. Die Fallbeschreibung endete jeweils mit einer von vier Diagnosen und einem Behandlungsplan. Zu den Fällen waren alle Daten verfügbar, die für die Diagnose erfasst wurden – von der Krankengeschichte über die Blutwerte bis hin zu den Bildgebungsdaten.
„Wir haben die Daten so aufbereitet, dass die Algorithmen die realen Abläufe und Entscheidungsprozesse im Krankenhaus nachspielen konnten“, erläutert Friederike Jungmann, Assistenzärztin in der Radiologie des Klinikums rechts der Isar der TUM und gemeinsam mit dem Informatiker Paul Hager Erstautorin der Studie.
„Das Programm hat immer nur die Informationen, die auch die realen Ärztinnen und Ärzte hatten. Ob es beispielsweise ein Blutbild in Auftrag gibt, muss es selbst entscheiden und dann mit dieser Information die nächste Entscheidung treffen, bis es schließlich eine Diagnose und einen Behandlungsplan erstellt.“
Das Team stellte fest, dass keines der Large Language Models durchgängig alle notwendigen Untersuchungen einforderte. Tatsächlich wurden die Diagnosen der Programme sogar weniger zutreffend, je mehr Informationen sie zu dem Fall hatten. Behandlungsrichtlinien befolgten sie oftmals nicht. Als Konsequenz ordnete die KI beispielsweise Untersuchungen an, die für echte Patientinnen und Patienten schwere gesundheitliche Folgen nach sich gezogen hätten.
Direkter Vergleich mit Ärztinnen und Ärzten
In einem zweiten Teil der Studie wurden KI-Diagnosen zu einer Teilmenge aus dem Datensatz mit Diagnosen von vier Ärztinnen und Ärzten verglichen. Während diese bei 89 Prozent der Diagnosen richtig lagen, kam das beste Large Language Model auf gerade einmal 73 Prozent. Jedes Modell erkannte manche Erkrankungen besser als andere. In einem Extremfall diagnostizierte ein Modell Gallenblasenentzündungen nur in 13 Prozent der Fälle korrekt.
Ein weiteres Problem, das die Programme für den Einsatz im Alltag disqualifiziert, ist ein Mangel an Robustheit: Welche Diagnose ein Large Language Modell stellte, hing unter anderem davon ab, in welcher Reihenfolge es die Informationen erhielt. Auch linguistische Feinheiten beeinflussten das Ergebnis – beispielsweise ob das Programm um eine „Main Diagnosis“, eine „Primary Diagnosis“ oder eine „Final Diagnosis“ gebeten wurde. Im Klinikalltag sind die Begriffe in der Regel austauschbar.
ChatGPT nicht getestet
Das Team hat explizit nicht die kommerziellen Large Language Models von OpenAI (ChatGPT) und Google getestet. Dafür gibt es im Wesentlichen zwei Gründe. Zum einen untersagt der Anbieter der Krankenhausdaten aus Datenschutzgründen, die Daten mit diesen Modellen zur verarbeiten. Zum anderen raten Expertinnen und Experten nachdrücklich, für Anwendungen im Gesundheitssektor ausschließlich Open-Source-Software zu verwenden.
„Nur mit Open-Source-Software haben Krankenhäuser die Informationen und das nötige Maß an Kontrolle, um die Sicherheit der Patientinnen und Patienten zu gewährleisten. Wenn es darum geht, Large Language Models zu bewerten, müssen wir wissen, mit welche Daten sie trainiert wurden. Sonst könnte es sein, dass wir für die Bewertung genau die Fragen und Antworten verwenden, mit denen sie trainiert wurden. Da Unternehmen die Trainingsdaten streng unter Verschluss halten, würde eine faire Bewertung erschwert”, sagt Paul Hager.
“Es ist auch gefährlich, wichtige medizinische Infrastrukturen von externen Dienstleistern abhängig zu machen, die ihre Modelle nach Belieben aktualisieren und ändern können. Im Extremfall könnte ein Dienst, den Hunderte von Kliniken nutzen, eingestellt werden, weil er nicht mehr rentabel ist.”
Original Paper:
Weiterführende Informationen:
Lesen Sie auch:
- DGKL: BIRD: Ein Tropfen Blut, viele Diagnosen
- DGKL: Gendermedizin: KI-gestütztes Verfahren verbessert die Herzdiagnostik
- DGKL: NACHGEFRAGT: “Die Förderung von KI in der Labordiagnostik ist essenziell, um unser Gesundheitssystem zu verbessern”
Die Beiträge im News-Bereich werden erstellt vom
X-Press Journalistenbüro GbR
Schwimmbadstr. 29
37520 Osterode am Harz
Web: www.xpress-journalisten.com
E-Mail: redaktion(at)med-lab-portal.de
Gender-Hinweis. Die in diesem Text verwendeten Personenbezeichnungen beziehen sich immer gleichermaßen auf weibliche, männliche und diverse Personen. Auf eine Doppel/Dreifachnennung und gegenderte Bezeichnungen wird zugunsten einer besseren Lesbarkeit verzichtet.