NACHGEFRAGT: „Erstaunlicherweise repliziert ChatGPT gängige Stereotypen“
ChatGPT kann vieles – mitunter auch die Wiederholung von menschlichen Stereotypen. Zu diesem Ergebnis gelangten die an der Uniklinik Köln forschenden Thomas Streichert und Annika Meyer. Meyer ist Preisträgerin des DGKL Nachwuchsförderpreises Digitales Labor 2024, Streichert ist Präsidiumsmitglied der DGKL und Direktor des Instituts für Klinische Chemie an der Uniklinik Köln.
MedLabPortal: Herr Prof. Streichert, Frau Meyer, Ihre aktuelle Publikation im Fachblatt „Journal of Medical Systems“ erschien als Kommentar und nähert sich humorvoll einem ernsten Thema: Sie wollten herausfinden, ob ChatGPT Vorurteile im Medizinbereich übernimmt – und wenn ja, welche. Wie kommt man auf so eine Idee?
Streichert: Im Rahmen der Untersuchungen zu der Leistungsfähigkeit von KI bei medizinischen Fragestellungen haben wir ChatGPT Medizin-Examina lösen lassen, haben die großen Sprachmodelle wie ChatGPT, Le Chat oder Gemini zu labormedizinischen Fragestellungen getestet und ChatGPT als Unterstützung bei der R-Programmierung genutzt. Da ChatGPTs zweiter Geburtstag war, hatte Frau Meyer die Idee, die Perspektive zu tauschen und nicht uns die Sprachmodelle untersuchen zu lassen, sondern ChatGPT über uns als Ärztinnen und Ärzte – und bestimmte Fachdisziplinen – schreiben zu lassen. Die letztlich mit einem Augenzwinkern durchgeführte Studie zeigte überraschende Ergebnisse, die uns schmunzeln liessen, da sie eine Reihe von Klischees zu unterschiedlichen Fachdisziplinen bediente.
MedLabPortal: Die KI bedient sich demnach bestimmter Stereotypen?
Meyer: Ja, erstaunlicherweise repliziert ChatGPT gängige Stereotypen. Manche davon sind amüsant, etwa wenn die Anästhesiologie als “WLAN des OP-Saals” beschrieben wird. Andere wiederum zeichnen ein (wortwörtlich) eher beunruhigendes Bild in der eigentlich so vielfältigen Landschaft der medizinischen Berufe. So generierte ChatGPT primär männliche und weiße Figuren auf die Bitte, Karikaturen zu unterschiedlichen medizinischen Fachdisziplinen zu erstellen. Dies verdeutlicht, dass nach wie vor Vorurteile in den zugrunde liegenden Datenstrukturen solcher KI-Systeme schlummern. Umso wichtiger ist es daher, den Output KI-basierter Chatbots stets kritisch zu hinterfragen.
MedLabPortal: Uns ist aufgefallen, dass Sie ChatGPT nicht nach der Erstellung eines Bildes zur Labormedizin gebeten haben. Warum eigentlich nicht?
Meyer: Eine sehr gute Beobachtung! Tatsächlich gehörte die Labormedizin zu den ersten vier Fachdisziplinen, die wir mithilfe von ChatGPT illustrieren ließen. Weil uns diese ersten Bilder so begeistert haben, beschlossen wir anschließend, eine systematischere Herangehensweise mithilfe speziell entwickelter Prompts zu verfolgen. Um dabei klare Inklusions- und Exklusionskriterien für die Auswahl der Fachbereiche zu schaffen, orientierten wir uns an dem “Specialty Path” der “Association of American Medical Colleges”.

MedLabPortal: Ihre Untersuchung offenbart aber den ganz und gar nicht amüsanten Aspekt eines jenen LLM: Die Modelle übernehmen offensichtlich lediglich das, was sie finden – oder was ihnen Menschen als Info eingeben. Ärzte sind demnach rein männlich und weiß – warum kann ChatGPT nicht erkennen, dass dem nicht so ist?
Streichert: Ja, für uns zunächst erstaunlich, repliziert ChatGPT die gängigen Klischees. Bei näherer Betrachtung ist klar, dass gerade die großen Sprachmodelle aus US-amerikanischer Entwicklung – aber das gilt wohl auch für europäische Sprachmodelle – aufgrund der Trainingsdaten, diesen Bias aufweisen. Konkret bekommen wir hier den Spiegel vorgehalten, die Trainingsdaten reflektieren die Sicht auf die unterschiedlichen medizinischen Fächer in der Literatur und dem World Wide Web.
MedLabPortal: Viele Menschen nutzen mittlerweile KI-Modelle an Stelle der üblichen Google Suche. Verstärken diese Modelle Vorurteile innerhalb der Gesellschaft?
Streichert: Der Trend zur Nutzung von KI auch für medizinische Fragen ist sehr deutlich und erklärbar: Zum einen sind die Antworten der Sprachmodelle hoch-empathisch, sehr ausführlich und weisen oft Interpretationen oder sogar Handlungsempfehlungen auf. Wir haben dies für den Bereich der Labormedizin intensiv untersucht und den Nutzen aber auch die Gefahren gesehen. Aufgrund der überragenden sprachlichen Fähigkeiten ist man geneigt, die präsentierte Antwort der eines realen Arztes gleichzusetzen. Dies ist problematisch, da die Modelle nicht fehlerfrei arbeiten und z.B. Verläufe nur eingeschränkt beurteilen konnten. Ob die Modelle Vorurteile verstärken, kann ich aus unseren Untersuchungen nicht ableiten, da die Modelle zu einem erheblichen Teil mit Daten der westlichen Welt trainiert worden sind, nehme ich aber an, dass sie zumindest keine Vorurteile abbauen werden.
MedLabPortal: Mitunter geht es auch um Falschinformationen, die über KI-Modelle verbreitet werden. Ein Beispiel: Die EU hat am 27. März vergangenen Jahres die Zulassung für den Covid-19 Impfstoff von AstraZeneca entzogen, Grund hierfür waren Sicherheitsbedenken. Wir haben Claude Sonnet 3.5 über diesen Impfstoff ausgefragt – erhalten haben wir eine Antwort über die Vorteile und seltenen Risiken, aber kein Wort zum Zulassungsentzug. Wie kann man sich als normaler Patient seriös mit Hilfe einer KI informieren?
Streichert: Zum jetzigen Zeitpunkt bedürfen die Antworten der Sprachmodelle zu medizinischen Fachfragen einer sehr kritischen Begutachtung. Selbst medizinischen Experten fallen die Fehler in den Antworten erst bei mehrmaligem Lesen auf. Insofern kann ich trotz der beeindruckenden Antwortqualität die Nutzung für medizinische Fragen nicht uneingeschränkt empfehlen und rate zum Besuch eines menschlichen Arztes.
MedLabPortal: Wäre es gerade im Bereich der Medizin nicht sinnvoll, wenn Ärztinnen und Ärzte die Sprachmodelle trainieren würden – und nicht Low Cost Laienangestellte der großen KI-Konzerne, die irgendwo auf der Welt zum Billiglohn Daten eingeben?
Streichert: Relevante Informationen zu medizinischen Fragestellungen sind in Fachbüchern, wissenschaftlichen Fachjournalen, online-Datenbanken und sicherlich auch in vielen Vorlesungsskripten vorhanden. Da diese aber typischerweise hinter sogenannten „pay-walls“ sind, also zum Training der Sprachmodelle nicht zur Verfügung stehen, ist das „Wissen“ der Modelle zurzeit noch beschränkt. Klar ist: Je besser die Trainingsdaten, desto besser die Antwortqualität.
MedLabPortal: Was würden Sie ChatGPT als Trainingsdaten empfehlen, wenn es um die Labormedizin geht?
Streichert: Auch für die Labormedizin gilt, dass die besten Informationen aus den wissenschaftlichen Journalen und Fachbüchern bezogen werden können. Letztlich gilt für das Training der Sprachmodelle das gleiche wie für die Ausbildung von Ärztinnen und Ärzten: Die Qualität der Informationen und der zugrundeliegenden Quellen ist entscheidend.
MedLabPortal: Herr Prof. Streichert, vielen Dank für Ihre Zeit.
Die Fragen stellten die MedLabPortal-Redakteure Marita Vollborn und Vlad Georgescu
Original Paper:
Journal of Medical Systems (2025) 49:20
https://doi.org/10.1007/s10916-025-02159-2
Die Beiträge im News-Bereich werden erstellt vom X-Press Journalistenbüro
Gender-Hinweis. Die in diesem Text verwendeten Personenbezeichnungen beziehen sich immer gleichermaßen auf weibliche, männliche und diverse Personen. Auf eine Doppel/Dreifachnennung und gegenderte Bezeichnungen wird zugunsten einer besseren Lesbarkeit verzichtet.