KI in der Chemie: Maschine schlägt Mensch – doch mit Schwächen

von | Mai 21, 2025 | Digitalisierung, Forschung

Forschende der Friedrich-Schiller-Universität Jena haben in einer neuen Studie die Leistungsfähigkeit künstlicher Intelligenz mit der menschlicher Chemikerinnen und Chemiker verglichen. Unter der Leitung von Dr. Kevin M. Jablonka, Leiter der Carl-Zeiss-Stiftungs-Nachwuchsgruppe „Polymere in Energieanwendungen“ am Helmholtz-Institut für Polymere in Energieanwendungen (HIPOLE) Jena, entwickelte das Team ein Prüfverfahren namens „ChemBench“, um KI-Modelle wie GPT-4 systematisch zu testen. Die im Fachjournal „Nature Chemistry“ veröffentlichten Ergebnisse zeigen, dass KI in bestimmten Bereichen überzeugt, aber klare Grenzen aufweist.

Das Prüfverfahren „ChemBench“ umfasst über 2.700 Aufgaben aus verschiedenen chemischen Disziplinen, von organischer bis analytischer Chemie, und reicht von Grundlagenwissen bis zu komplexen Problemstellungen. Diese Fragen, angelehnt an universitäre Lehrpläne, wurden von 19 erfahrenen Fachleuten und KI-Modellen bearbeitet. Während die menschlichen Teilnehmenden Hilfsmittel wie Suchmaschinen oder chemische Software nutzen durften, waren die KI-Modelle auf ihr trainiertes Wissen angewiesen. Zwei zusätzlich getestete KI-Agenten mit Zugriff auf externe Tools konnten die Leistung der besten Modelle nicht übertreffen. Neben der Korrektheit der Antworten untersuchten die Forschenden, wie genau die KI ihre eigene Sicherheit einschätzte.

Dr. Kevin Jablonka untersucht an der Universität Jena die Leistungsfähigkeit von KI-Modellen bei chemischen Problemstellungen im Direktvergleich mit menschlichen Chemikerinnen und Chemikern. | Quelle: Foto: Jens Meyer/Uni Jena
Dr. Kevin Jablonka untersucht an der Universität Jena die Leistungsfähigkeit von KI-Modellen bei chemischen Problemstellungen im Direktvergleich mit menschlichen Chemikerinnen und Chemikern. | Quelle: Foto: Jens Meyer/Uni Jena 

Die Ergebnisse offenbaren Stärken und Schwächen der KI. In anspruchsvollen, lehrbuchartigen Fragen übertrafen einige Modelle die menschlichen Fachleute, insbesondere in Schnelligkeit und Effizienz. Jedoch zeigte sich ein entscheidender Unterschied: Während Chemikerinnen und Chemiker Unsicherheiten offenlegten und ihre Antworten hinterfragten, lieferten KI-Modelle oft mit hoher Selbstsicherheit auch falsche Antworten. Besonders bei der Interpretation chemischer Strukturen, etwa der Vorhersage von NMR-Spektren, machten die Modelle teils gravierende Fehler, ohne diese zu erkennen. Solche Fehltritte könnten in der Forschung problematisch sein, da sie zu falschen Schlussfolgerungen führen könnten.

Die Studie betont, dass KI eine wertvolle Unterstützung für die chemische Forschung sein kann, aber menschliche Expertise nicht ersetzt. Die Fähigkeit der KI, große Datenmengen schnell zu verarbeiten, ergänzt die reflektierte Arbeitsweise der Fachleute. Die Ergebnisse legen den Grundstein für eine engere Zusammenarbeit zwischen Mensch und Maschine in der Chemie. Gefördert wurde die Untersuchung von der Carl-Zeiss-Stiftung, die seit 1889 MINT-Disziplinen unterstützt und ihre Projekte aus Dividendenausschüttungen der Stiftungsunternehmen Carl Zeiss AG und SCHOTT AG finanziert.

Original Paper:

A framework for evaluating the chemical knowledge and reasoning abilities of large language models against the expertise of chemists | Nature Chemistry

Lesen Sie auch:

NACHGEFRAGT: “Erstaunlicherweise repliziert ChatGPT gängige Stereotypen” – MedLabPortal


Die Beiträge im News-Bereich werden erstellt vom X-Press Journalistenbüro

Gender-Hinweis. Die in diesem Text verwendeten Personenbezeichnungen beziehen sich immer gleichermaßen auf weibliche, männliche und diverse Personen. Auf eine Doppel/Dreifachnennung und gegenderte Bezeichnungen wird zugunsten einer besseren Lesbarkeit verzichtet.