ETH-Tool MetaGraph revolutioniert Suche in DNA-Daten

Forschende der ETH Zürich haben ein neues Tool namens MetaGraph entwickelt, das die Suche in großen Mengen sequenzierter DNA-Daten effizient, präzise und kostengünstig ermöglicht. Es strukturiert die Daten durch Indizes und macht sie dadurch leicht durchsuchbar. Als Open-Source-Software bietet es vielfältige Anwendungen in der biomedizinischen Forschung.
Die Sequenzierung von DNA hat die Biomedizin revolutioniert, etwa bei der Erkennung seltener Erbkrankheiten oder Tumormutationen. Neue Methoden wie Next-Generation-Sequencing haben zu Durchbrüchen geführt, darunter die schnelle Analyse des SARS-CoV-2-Genoms. Öffentliche Datenbanken wie das Sequence Read Archive oder das European Nucleotide Archive speichern rund 100 Petabyte an Sequenzdaten, vergleichbar mit dem gesamten Text im Internet.
Bisher erforderten Suchen in diesen Daten viel Rechenleistung, da komplette Datensätze heruntergeladen werden mussten. MetaGraph löst dies durch eine Volltextsuche ähnlich einer Internet-Suchmaschine. Nutzer geben eine Sequenz ein und erhalten innerhalb von Sekunden oder Minuten Treffer, wo diese vorkommt. Das Tool ist günstig: Die Darstellung aller öffentlichen Sequenzen passt auf wenige Festplatten, und Abfragen kosten maximal 0,74 Dollar pro Megabase.

In einer Studie im Fachmagazin Nature vom 8. Oktober beschreiben die Forscher die Funktionsweise: MetaGraph indiziert und komprimiert die Daten um das 300-Fache mithilfe mathematischer Graphen, die eine matrixartige Struktur erzeugen. Es verknüpft Roh- und Metadaten ohne Informationsverlust und ist skalierbar für wachsende Datenmengen.
Das Tool kann die Genforschung beschleunigen, etwa bei wenig erforschten Erregern, Pandemien oder Antibiotika-Resistenzen, indem es Resistenzgene oder Bakteriophagen identifiziert. Seit 2020 weiterentwickelt, ist MetaGraph bereits nutzbar und indexiert knapp die Hälfte aller verfügbaren Sequenzen aus DNA, RNA und Proteinen von Viren bis Menschen. Der Rest soll bis Jahresende folgen. Es eignet sich auch für Pharmafirmen mit internen Daten und könnte künftig sogar privat genutzt werden, etwa zur Bestimmung von Pflanzen.
Original Paper:
Karasikov, M., Mustafa, H., Danciu, D., Kulkov, O., Zimmermann, M., Barber, C., Rätsch, G., & Kahles, A.: Efficient and accurate search in petabase-scale sequence repositories. Nature 2025, doi:10.1038/s41586-025-09603-w
Redaktion: X-Press Journalistenbüro GbR
Gender-Hinweis. Die in diesem Text verwendeten Personenbezeichnungen beziehen sich immer gleichermaßen auf weibliche, männliche und diverse Personen. Auf eine Doppel/Dreifachnennung und gegenderte Bezeichnungen wird zugunsten einer besseren Lesbarkeit verzichtet.