Anhaltende Probleme bei KI-gestützten Genomstudien
Forschende der University of Wisconsin-Madison warnen davor, dass der Einsatz von KI in der Medizin zu falschen Schlussfolgerungen über den Zusammenhang zwischen Genen und körperlichen Merkmalen führen können.
Die fehlerhaften Vorhersagen stehen im Zusammenhang mit der Verwendung von künstlicher Intelligenz zur Unterstützung genomweiter Assoziationsstudien durch Forscher. Bei solchen Studien werden Hunderttausende von genetischen Variationen bei vielen Menschen untersucht, um nach Verbindungen zwischen Genen und körperlichen Merkmalen zu suchen. Von besonderem Interesse sind mögliche Verbindungen zwischen genetischen Variationen und bestimmten Krankheiten.
Die Genetik spielt bei der Entstehung vieler Krankheiten eine Rolle. Während Veränderungen in einigen einzelnen Genen direkt mit einem erhöhten Risiko für Krankheiten wie Mukoviszidose verbunden sind, ist die Beziehung zwischen Genetik und körperlichen Merkmalen oft komplizierter.
Genomweite Assoziationsstudien haben dazu beigetragen, einige dieser komplexen Zusammenhänge zu entwirren, wobei häufig große Datenbanken mit genetischen Profilen und Gesundheitsmerkmalen von Einzelpersonen verwendet werden, wie das All of Us Projekt der National Institutes of Health und die UK Biobank. In diesen Datenbanken fehlen jedoch häufig Daten über Gesundheitszustände, die die Forscher untersuchen wollen.
“Einige Merkmale sind entweder sehr teuer oder arbeitsintensiv zu messen, so dass man einfach nicht genügend Proben hat, um aussagekräftige statistische Schlussfolgerungen über ihren Zusammenhang mit der Genetik zu ziehen”, sagt Qiongshi Lu, ein außerordentlicher Professor im Department of Biostatistics and Medical Informatics der UW-Madison und Experte für genomweite Assoziationsstudien.
Die Risiken der Überbrückung von Datenlücken mit KI
Forscher versuchen daher zunehmend, dieses Problem zu umgehen, indem sie Datenlücken mit immer ausgefeilteren KI-Tools überbrücken.
“In den letzten Jahren ist es sehr populär geworden, die Fortschritte des maschinellen Lernens zu nutzen. So gibt es jetzt diese fortschrittlichen KI-Modelle für maschinelles Lernen, mit denen Forscher komplexe Merkmale und Krankheitsrisiken selbst mit begrenzten Daten vorhersagen können”, sagt Lu.
Nun haben Lu und seine Kollegen gezeigt, wie gefährlich es ist, sich auf diese Modelle zu verlassen, ohne sich vor möglichen Verzerrungen zu schützen. Das Team beschreibt das Problem in einer kürzlich in der Zeitschrift Nature Genetics veröffentlichten Arbeit. Darin zeigen Lu und seine Kollegen, dass ein gängiger Algorithmus für maschinelles Lernen, der in genomweiten Assoziationsstudien eingesetzt wird, fälschlicherweise mehrere genetische Variationen mit dem Risiko einer Person für die Entwicklung von Typ-2-Diabetes in Verbindung bringen kann.
“Das Problem ist, dass man, wenn man dem durch maschinelles Lernen vorhergesagten Diabetesrisiko als dem tatsächlichen Risiko vertraut, denken würde, dass all diese genetischen Variationen mit dem tatsächlichen Diabetes korreliert sind, obwohl sie es nicht sind”, sagt Lu.
Diese “Falsch-Positiven” sind nicht auf diese spezifischen Variationen und das Diabetes-Risiko beschränkt, fügt Lu hinzu, sondern stellen eine weit verbreitete Verzerrung in KI-gestützten Studien dar.
In einer weiteren, kürzlich in Nature Genetics veröffentlichten Arbeit schlagen die Forscher Alarm vor Studien, die sich bei dem Versuch, Verbindungen zwischen Genetik und bestimmten Krankheiten herzustellen, zu sehr auf Ersatzinformationen stützen.
So verfügen große Gesundheitsdatenbanken wie die UK Biobank über eine Fülle genetischer Informationen über große Populationen, aber sie enthalten nur wenige Daten über das Auftreten von Krankheiten, die erst später im Leben auftreten. Darunter befinden sich aber die meisten neurodegenerativen Krankheiten.
Speziell für die Alzheimer-Krankheit haben einige Forscher versucht, diese Lücke mit sogenannten Proxy-Daten zu schließen. Diese werden durch Erhebungen zur Gesundheitsgeschichte in der Familie gesammelt, bei denen Personen die Alzheimer-Diagnose eines Elternteils angeben können.
Das UW-Madison-Team fand heraus, dass solche Proxy-Informationsstudien eine “höchst irreführende genetische Korrelation” zwischen dem Alzheimer-Risiko und höheren kognitiven Fähigkeiten herstellen können.
“Heutzutage arbeiten Genomforscher routinemäßig mit Biobank-Datensätzen, die Hunderttausende von Individuen umfassen. Da jedoch die statistische Leistung zunimmt, werden auch die Verzerrungen und die Wahrscheinlichkeit von Fehlern in diesen massiven Datensätzen verstärkt”, sagt Lu. “Die jüngsten Studien unserer Gruppe liefern ernüchternde Beispiele und zeigen, wie wichtig statistische Strenge in Forschungsstudien im Biobankmaßstab ist.”
Original Paper:
Valid inference for machine learning-assisted genome-wide association studies | Nature Genetics
Lesen Sie auch:
GBN: Akademische Biobanken sollen gestärkt werden – MedLabPortal
Michael Neumaier erhält Scherer-Medaille der DGKL – MedLabPortal
SMARTbiomed für medizinische Datenforschung geht an den Start – MedLabPortal
Die Beiträge im News-Bereich werden erstellt vom X-Press Journalistenbüro
Gender-Hinweis. Die in diesem Text verwendeten Personenbezeichnungen beziehen sich immer gleichermaßen auf weibliche, männliche und diverse Personen. Auf eine Doppel/Dreifachnennung und gegenderte Bezeichnungen wird zugunsten einer besseren Lesbarkeit verzichtet.