KI und Computer Vision: Fraunhofer HHI erforscht neue modellbasierte Deep-Learning-Ansätze im Rahmen eines vierjährigen Forschungsprojekts

1. Juli 2020

Dr. Anna Hilsmann, Leiterin der Forschungsgruppe Computer Vision und Grafik (CVG) in der Abteilung „Vision and Imaging Technologies“ (VIT) am Fraunhofer Heinrich-Hertz-Institut, erhielt kürzlich 1,6 Millionen Euro Fördergeld für ihr vierjähriges Projekt „Model-based deep learning for computer vision problems (MoDL)“. Das vom Bundesministerium für Bildung und Forschung (BMBF) geförderte Projekt adressiert die Erforschung neuer modellbasierter Deep-Learning-Ansätze im Bereich Computer Vision, die A-priori-Wissen in Form von Modellen in tiefe neuronale Netze integrieren und dadurch physikalische Einschränkungen und kausale Zusammenhänge berücksichtigen können.

Die Beteiligung von Frauen an der deutschen Forschung zur Künstlichen Intelligenz (KI) entspricht aktuell nicht dem Anteil herausragend qualifizierter Frauen – in der Forschung ebenso wie in akademischen Führungspositionen. Das BMBF strebt eine stärkere Berücksichtigung des großen Potenzials und den stärkeren Einfluss von Frauen in der KI-Forschung an. Hierzu adressiert das Ministerium im Rahmen einer Ausschreibung zur Erforschung innovativer KI-Themen explizit Nachwuchsgruppen, die von Frauen geleitet werden.

Dr. Hilsmann verfügt über langjährige Erfahrung und Expertise in den Bereichen Bild- und Videoanalyse sowie -synthese. In ihrer Forschung kombiniert sie Methoden aus den Bereichen Machine Learning, Computer Vision, Computer Graphics und Visual Computing, um neue Lösungen für ein breites Anwendungsspektrum in Multimedia, Industrie, Augmented Reality sowie Sicherheit und Medizintechnik zu entwickeln. In ihrer Antwort auf die Ausschreibung hat Dr. Hilsmann ein Projekt vorgeschlagen, das die jeweiligen Vorteile von Deep-Learning-Ansätzen und modellbasierten Ansätzen nutzt. Beide Ansätze sollen synergetisch in hybriden Ansätzen kombiniert werden, um vorhandenes A-priori-Wissen in neuronale Netze zu integrieren. Auf diese Art und Weise kann der volle Nutzen aus datengetriebenen Methoden gezogen werden, ohne bereits erlerntes Wissen zu ignorieren.

Durch die rasanten Fortschritte in der Entwicklung von KI-Methoden haben datengetriebene Deep-Learning-Methoden klassische modellbasierte Ansätze, die zur Lösung eines Problems inhärentes A-priori-Wissen voraussetzen, in vielen Bereichen abgelöst. Insbesondere durch die Fähigkeit tiefer neuronaler Netze, selbständig abstrakte Konzepte aus großen Datenmengen zu extrahieren und diese zur Lösung eines Problems zu verwenden, erreichen Deep-Learning-Methoden für viele Fragestellungen eine hohe Genauigkeit. Ein großer Nachteil dieser Methoden ist allerdings die reine Abhängigkeit von der Qualität der zur Verfügung stehenden Trainingsdaten. Diese Abhängigkeit schränkt die Skalierbarkeit und Generalisierbarkeit von KI-Systemen stark ein.

Weiter sind die Entscheidungen bzw. die gelernten Modelle tiefer neuronaler Netze häufig schwer nachzuvollziehen bzw. zu erklären. Für sehr komplexe, schlecht gestellte Fragestellungen mit einer hohen Anzahl an Freiheitsgraden und Variablen und einer gleichzeitig geringen Anzahl an repräsentativen Trainingsdaten sind diese Methoden daher (noch) nicht einsetzbar. Dies gilt insbesondere, wenn interpretierbare Modelle gelernt werden sollen.

Eine Alternative zu rein daten-basierten Methoden sind modellbasierte Verfahren, die explizite Modellvorstellungen (physikalisch, heuristisch, statistisch) als A-priori-Komponenten nutzen, um den Lösungsraum einzuschränken. Allerdings sind diese Modelle in der Praxis häufig nur Approximationen, weil die Prozesse zu komplex zu beschreiben sind oder noch nicht vollständig verstanden werden. Eine Adaption bzw. Verbesserung des Modells an sich anhand von Daten ist hier nicht vorgesehen. Zudem sind viele Probleme nicht eindeutig bestimmt.

Für viele Fragestellungen sind also weder rein daten-basierte noch rein modellbasierte Methoden ausreichend. MoDL soll Lösungen entwickeln, die beide Informationsformen kombinieren. Die Integration von Vorwissen in KI-Systeme wird ein Training mit kleineren Datenmengen bei komplexen Fragestellungen erlauben, für die eine große Datenbasis häufig nicht gegeben ist. Zudem wird die Berücksichtigung von Vorwissen zu einer erhöhten Interpretierbarkeit und Generalisierbarkeit der gelernten Modelle führen.

Konkret werden neuartige Methoden für komplexe Computer-Vision-Aufgaben zur Generierung (örtlich-zeitlich konsistenter) hochqualitativer Modelle aus visuellen Daten entwickelt: 3D-Rekonstruktion komplexer Objekte, Erfassung und Modellierung nicht-starrer Bewegungen, sowie Schätzung und Modellierung von Oberflächeneigenschaften wie Reflexion, Textur und Schattierung. Die Erkenntnisse zur Integration von A-priori-Wissen in tiefe neuronale Netze werden auch über das Anwendungsgebiet hinaus wertvolle Beiträge zur Interpretierbarkeit und Generalisierbarkeit liefern. Darüber hinaus werden die Ergebnisse zur wissenschaftlichen und technologischen Grundlage neuer KI-Methoden beitragen, die großes Potenzial für wirtschaftliche Auswirkungen hat.