Lp-Convolution: Computer können wie Menschen sehen

von | Apr. 22, 2025 | Digitalisierung, Forschung

Ein Team von Forschern des Institute for Basic Science (IBS), der Yonsei-Universität und der MPG hat eine neue Technik der künstlichen Intelligenz (KI) entwickelt, die das maschinelle Sehen näher an die Bildverarbeitung des menschlichen Gehirns heranführt. Diese als Lp-Convolution getaufte Methode verbessert die Genauigkeit und Effizienz von Bilderkennungssystemen und reduziert gleichzeitig den Rechenaufwand bestehender KI-Modelle.

Überbrückung der Lücke zwischen CNNs und dem menschlichen Gehirn

Das menschliche Gehirn ist bemerkenswert effizient bei der Erkennung wichtiger Details in komplexen Szenen, eine Fähigkeit, die herkömmliche KI-Systeme nur schwer nachahmen können. Faltungsneuronale Netze (Convolutional Neural Networks, CNN) – das am häufigsten verwendete KI-Modell für die Bilderkennung – verarbeiten Bilder mit kleinen, quadratischen Filtern. Dieser starre Ansatz ist zwar effektiv, schränkt aber ihre Fähigkeit ein, breitere Muster in fragmentierten Daten zu erfassen.

In jüngerer Zeit haben sogenannte Vision Transformers (ViTs) eine bessere Leistung gezeigt, indem sie ganze Bilder auf einmal analysierten – allerdings erfordern sie eine enorme Rechenleistung und große Datensätze, was sie für viele reale Anwendungen unpraktisch macht.

Inspiriert von der Art und Weise, wie der visuelle Kortex des Gehirns Informationen selektiv durch kreisförmige, spärliche Verbindungen verarbeitet, suchte das Forschungsteam nach einem Mittelweg: Könnte ein gehirnähnlicher Ansatz CNNs sowohl effizient als auch leistungsstark machen?

Einführung von Lp-Convolution: Eine klügere Art zu sehen

Um diese Frage zu beantworten, entwickelte das Team die Lp-Convolution, eine neuartige Methode, die eine multivariate p-generalisierte Normalverteilung (MPND) verwendet, um CNN-Filter dynamisch umzugestalten. Im Gegensatz zu herkömmlichen CNNs, die feste quadratische Filter verwenden, ermöglicht es die Lp-Convolution den KI-Modellen, ihre Filterformen anzupassen – sie dehnen sich je nach Aufgabe horizontal oder vertikal aus, ähnlich wie sich das menschliche Gehirn selektiv auf relevante Details konzentriert.

Vom Gehirn inspiriertes Design der Lp-ConvolutionDas Gehirn verarbeitet visuelle Informationen mit Hilfe einer Gauß-förmigen Konnektivitätsstruktur, die sich allmählich vom Zentrum nach außen ausbreitet und flexibel ein breites Spektrum von Informationen integriert. Im Gegensatz dazu haben herkömmliche CNNs das Problem, dass die Erweiterung der Filtergröße die Informationen verwässert oder die Genauigkeit verringert (d, e). Um diese strukturellen Einschränkungen zu überwinden, entwickelte das Forscherteam die Lp-Convolution, die von der Konnektivität des Gehirns inspiriert ist (a-c). Dieses Design verteilt die Gewichte räumlich, um wichtige Informationen auch über große rezeptive Felder zu erhalten, und behebt so effektiv die Mängel herkömmlicher CNNs.
Vom Gehirn inspiriertes Design der Lp-ConvolutionDas Gehirn verarbeitet visuelle Informationen mit Hilfe einer Gauß-förmigen Konnektivitätsstruktur, die sich allmählich vom Zentrum nach außen ausbreitet und flexibel ein breites Spektrum von Informationen integriert. Im Gegensatz dazu haben herkömmliche CNNs das Problem, dass die Erweiterung der Filtergröße die Informationen verwässert oder die Genauigkeit verringert (d, e). Um diese strukturellen Einschränkungen zu überwinden, entwickelte das Forscherteam die Lp-Convolution, die von der Konnektivität des Gehirns inspiriert ist (a-c). Dieses Design verteilt die Gewichte räumlich, um wichtige Informationen auch über große rezeptive Felder zu erhalten, und behebt so effektiv die Mängel herkömmlicher CNNs.

Dieser Durchbruch löst ein seit langem bestehendes Problem in der KI-Forschung. Eine einfache Vergrößerung der Filter in CNNs (z. B. die Verwendung von 7×7 oder größeren Kerneln) führt in der Regel nicht zu einer Leistungssteigerung, obwohl mehr Parameter hinzugefügt werden. Lp-Convolution überwindet diese Einschränkung durch die Einführung flexibler, biologisch inspirierter Konnektivitätsmuster.

Leistung in der realen Welt: Stärkere, intelligentere und robustere KI

In Tests mit Standard-Bildklassifizierungsdatensätzen (CIFAR-100, TinyImageNet) verbesserte Lp-Convolution die Genauigkeit sowohl bei klassischen Modellen wie AlexNet als auch bei modernen Architekturen wie RepLKNet erheblich. Die Methode erwies sich auch als äußerst robust gegenüber beschädigten Daten, einer großen Herausforderung in realen KI-Anwendungen.

Darüber hinaus fanden die Forscher heraus, dass die internen Verarbeitungsmuster der KI, wenn die in ihrer Methode verwendeten Lp-Masken einer Gauß-Verteilung ähnelten, eng mit der biologischen neuronalen Aktivität übereinstimmten, was durch Vergleiche mit Mausgehirndaten bestätigt wurde.

“Wir Menschen erkennen schnell, was in einer überfüllten Szene wichtig ist”, sagte Dr. C. Justin LEE, Direktor des Zentrums für Kognition und Sozialität am Institut für Grundlagenforschung. “Unsere Lp-Convolution ahmt diese Fähigkeit nach und ermöglicht es der KI, sich flexibel auf die wichtigsten Teile eines Bildes zu konzentrieren – genau wie das Gehirn.”

Auswirkungen und zukünftige Anwendungen

Im Gegensatz zu früheren Bemühungen, die sich entweder auf kleine, starre Filter stützten oder ressourcenintensive Transformatoren erforderten, bietet Lp-Convolution eine praktische, effiziente Alternative. Diese Innovation könnte Bereiche wie folgende revolutionieren:

– Autonomes Fahren, wo KI Hindernisse schnell und in Echtzeit erkennen muss

– Medizinische Bildgebung, Verbesserung KI-basierter Diagnosen durch Hervorhebung subtiler Details

– Robotik: intelligenteres und anpassungsfähigeres maschinelles Sehen unter wechselnden Bedingungen

“Diese Arbeit ist ein wichtiger Beitrag sowohl zur KI als auch zur Neurowissenschaft”, sagte Direktor C. Justin Lee. “Indem wir die KI enger an das Gehirn anpassen, haben wir neues Potenzial für CNNs erschlossen und sie intelligenter, anpassungsfähiger und biologisch realistischer gemacht.”

Die Studie wird auf der International Conference on Learning Representations (ICLR) 2025 vorgestellt, und das Forscherteam hat seinen Code und seine Modelle öffentlich zugänglich gemacht.

Original Paper:

Brain-inspired $L_p$-Convolution benefits large kernels and aligns better with visual cortex | OpenReview


Redaktion: X-Press Journalistenbüro GbR

Gender-Hinweis. Die in diesem Text verwendeten Personenbezeichnungen beziehen sich immer gleichermaßen auf weibliche, männliche und diverse Personen. Auf eine Doppel/Dreifachnennung und gegenderte Bezeichnungen wird zugunsten einer besseren Lesbarkeit verzichtet.