ChatGPT neigt bei gesundheitlichen Beschwerden zu übervorsichtigen Empfehlungen
ChatGPT-Modelle neigen bei der Einordnung gesundheitlicher Beschwerden zu übervorsichtigen Empfehlungen. Zu diesem Ergebnis kommt eine Studie der Technischen Universität Berlin. Für eine digitale Ersteinschätzung und eigenständige Patientensteuerung sind die Modelle derzeit nur eingeschränkt geeignet.
Die Forschenden testeten 22 verschiedene ChatGPT-Modellversionen anhand von 45 realen Patientenfällen. Jeder Fall wurde pro Modell zehnmal eingegeben, sodass insgesamt 9.900 Einzelbewertungen entstanden. Die Modelle sollten entscheiden, ob ein Fall als Notfall, als Fall für ärztliche Abklärung oder als Fall für Selbstversorgung einzustufen ist.

Die Genauigkeit stieg mit den frühen Modellgenerationen zunächst deutlich an, stagnierte jedoch seit der dritten Generation bei maximal 74 Prozent. Besonders viele Fehler traten bei harmlosen Beschwerden auf, bei denen Selbstversorgung ausgereicht hätte. 70 Prozent aller Fehler entfielen auf diese Gruppe. Die meisten Modelle rieten durchgängig zur ärztlichen Abklärung, auch bei Fällen, die medizinisch nicht behandlungsbedürftig waren.
Zudem zeigten die Modelle bei identischen Eingaben teils deutliche Inkonsistenzen in ihren Empfehlungen.
Die Studie ist in der Zeitschrift Communications Medicine erschienen.
Original Paper:
Redaktion: X-Press Journalistenbüro GbR
Gender-Hinweis. Die in diesem Text verwendeten Personenbezeichnungen beziehen sich immer gleichermaßen auf weibliche, männliche und diverse Personen. Auf eine Doppel/Dreifachnennung und gegenderte Bezeichnungen wird zugunsten einer besseren Lesbarkeit verzichtet.




