Täuschend echt: KI-generierte Histologiebilder
Selbst Experten können künstlich erzeugte Gewebeschnittbilder nicht zuverlässig als solche identifizieren, hat ein Experiment am Universitätsklinikum Jena gezeigt. Insgesamt wurden mehr als 800 Teilnehmer befragt.
Künstliche Intelligenz (KI) hilft bei der Beurteilung von Röntgen- und MRT-Bildern, beim Schreiben von Arztbriefen und bei der Auswertung von Messdaten in der Forschung und ist damit sowohl in der klinischen Praxis als auch in der biomedizinischen Forschung zu einem hilfreichen Instrument geworden. Allerdings birgt sie auch Gefahren, so dass Hochschulen und Forschungsorganisationen bereits Leitlinien zur Nutzung von KI in der Wissenschaft formuliert haben.
Wie berechtigt das ist, untermauert das Experiment einer Arbeitsgruppe am Universitätsklinikum Jena: Das Forschungsteam nutzte den öffentlich verfügbaren Deep-Learning-Algorithmus Stable Diffusion, um aus Trainingsdaten neue histologische Bilder zu erstellen. „Wir verwendeten als Trainingsbilder einmal drei und einmal 15 echte Schnittbilder von angefärbtem Gewebe aus Mäusenieren“, so Studienleiter Prof. Ralf Mrowka. „Bereits auf der Basis von drei Originalbildern entstanden schon recht überzeugende Bilder.“
In einer Online-Umfrage testete das Forschungsteam, ob diese KI-generierten Histologiebilder von echten zu unterscheiden waren. Die über 800 Teilnehmenden der Umfrage wurden dafür in Experten oder Laien eingeteilt, je nachdem, ob sie Erfahrungen mit dem Beurteilen von histologischen Bildern hatten, wie etwa Medizinstudierende, oder nicht. Ihnen wurden nacheinander 16 einzelne Bilder – je acht echte und KI-generierte – gezeigt, jedes Bild sollte klassifiziert werden, bevor das nächste erschien.
Die Expertengruppe ordnete gut zwei Drittel richtig ein. Der Laiengruppe gelang dies nur in gut der Hälfte der Fälle. Beide Gruppen konnten die auf weniger Trainingsdaten beruhenden KI-Bilder häufiger enttarnen. Zehn Teilnehmer der Expertengruppe erkannten alle Bilder korrekt. Über alle Bilder- und Teilnehmergruppen hinweg fielen die Entscheidungen zumeist innerhalb der ersten halben Minute. „Wir konnten auch feststellen, dass richtige Zuordnungen signifikant schneller getroffen wurden als falsche,“ stellt Erstautor Dr. Jan Hartung heraus, „eine Beobachtung, die mit gängigen Modellen der wahrnehmungsbasierten Entscheidungsfindung im Einklang steht.“
Das Experiment habe gezeigt, dass die Erfahrung zwar helfe, gefälschte Bilder zu erkennen, resümiert Prof. Mrowka. Allerdings werde auch ein “nicht geringer Anteil” nicht zuverlässig erkannt. „Dabei sind die technischen Hürden für jemanden mit der Absicht, Abbildungen zu fälschen, relativ gering“, betont Dr. Hartung. „Man braucht nicht hunderte von Beispielen zum Trainieren eines Algorithmus, ein Dutzend kann bereits ausreichend sein.“ Dem Autorenteam zufolge sei sich kaum ein Forscher dieses Problems bewusst und fordert deshalb die Entwicklung neuer Methoden zur Erkennung gefälschter Daten in wissenschaftlichen Arbeiten.
Originalpublikation
Hartung, J., Reuter, S., Kulow, V.A. et al. Experts fail to reliably detect AI-generated histological data. Sci Rep 14, 28677 (2024). https://doi.org/10.1038/s41598-024-73913-8
Lesen Sie auch
Medizininformatik-Initiative (MII) verkündet Fortschritte – MedLabPortal
Bias: Entwicklung unvoreingenommener KI-Modelle nach wie vor schwierig – MedLabPortal
Redaktion: X-Press Journalistenbüro GbR
Gender-Hinweis. Die in diesem Text verwendeten Personenbezeichnungen beziehen sich immer gleichermaßen auf weibliche, männliche und diverse Personen. Auf eine Doppel/Dreifachnennung und gegenderte Bezeichnungen wird zugunsten einer besseren Lesbarkeit verzichtet.