16. Dezember 2020
Wolfgang Paier, wissenschaftlicher Mitarbeiter der Abteilung „Vision and Imaging Technologies“ am Fraunhofer Heinrich-Hertz-Institut (HHI) ist der diesjährige Gewinner des Best Paper Award der European Conference on Visual Media Production (CVMP). Der Wissenschaftler erhält die Auszeichnung für sein Paper „Neural Face Models for Example-Based Visual Speech Synthesis.“ Darin beschäftigt er sich mit einem beispiel-basierten Ansatz kombiniert mit einem tiefen neuronalen Netz zur Animation realistischer Gesichter. Das Paper wurde gemeinsam mit Dr. Anna Hilsmann und Prof. Peter Eisert, beide in der gleichen Abteilung am Fraunhofer HHI tätig, verfasst.
Die CVMP-Konferenz fand vom 7. bis 8. Dezember 2020 virtuell statt. Sie bringt europaweit Produktions- und Postproduktionsspezialistinnen und Spezialisten aus den Bereichen Film, Broadcast und Games mit Bild- und Grafikforschenden zusammen. Der mit 1000 Euro dotierte Preis wird jedes Jahr vom Konferenz-Komitee für das beste eingereichte Paper vergeben. Schon zum zweiten Mal ging die Auszeichnung an das Fraunhofer HHI.
Wolfgang Paier absolvierte sein Hochschulstudium an der Freien Universität Berlin und schloss 2013 mit einem Master of Science in Computer Science ab. Seine Abschlussarbeit mit dem Titel „Acquisition of 3D-Head-Models using SLR-Cameras and RGBZ-Sensors“ schrieb er am Fraunhofer HHI. Dabei wurde er von Prof. Peter Eisert, Leiter der Abteilung „Vision and Imaging Technologies“, sowie dem ehemaligen Fraunhofer HHI-Forscher David Blumenthal-Barby betreut. Bereits seit 2011 forscht Wolfgang Paier am Institut in der Forschungsgruppe „Computer Vision and Graphics“, zuerst als Werkstudent und seit 2013 als wissenschaftlicher Mitarbeiter. Sein Forschungs-schwerpunkt liegt dabei auf der Erfassung und Animation von menschlichen Gesichtern, die zur Animation von realistischen Avataren einsetzt werden. Dafür nutzt er eine Kombination aus neueren Technologien wie tiefe neuronale Netze mit klassischen modellbasierten Verfahren.
Die Animation realistisch aussehender Gesichter mit Hilfe von Computergrafik-Modellen ist immer noch eine Herausforderung. Das ausgezeichnete Paper behandelt dieses Problem, indem es beispiel-basierte Animationsverfahren zur Synthese von Sprache untersucht. Dabei liegt der Fokus auf den Mundbewegungen von dargestellten Personen. Für die Animation wurde eine Schauspielerin im institutseigenen volumetrischen Studio beim Sprechen einzelner Worte, Sätze und eines kurzen Textes aufgenommen. Die Aufnahmen wurden in einzelne Viseme, konkrete Mundbilder, die beim Sprechen entstehen, unterteilt. Diese Daten wurden dann durch ein tiefes neuronales Netz ergänzt, mit dem ein animierbares Gesichtsmodell erzeugt wurde. Dadurch erfasst das Modell, im Gegensatz zu klassischen Gesichtsmodellen, sowohl Geometrie als auch Textur und kann deshalb komplexe Bereiche wie Mund(höhle) und Augen realistisch darstellen.
„Wir freuen uns sehr durch diese Auszeichnung mehr Sichtbarkeit für unseren Forschungsansatz zu bekommen. Datengetriebene Verfahren auf Basis von neuronalen Netzen werden die Zukunft realistischer Gesichtsanimation sein,“ sagt Dr. Anna Hilsmann, Gruppenleiterin „Computer Vision and Graphics“ am Fraunhofer HHI.
Das Paper entstand im Rahmen des EU-Projekts <link en departments vit projects content4all.html>Content4All. Ziel des Forschungsprojektes ist es, Inhalte für die Gebärdensprachgemeinschaft leichter zugänglich zu machen, indem ein automatischer Workflow für Gebärdenübersetzungen in einen fotorealistischen, menschlichen 3D-Avatar implementiert wird.
Lesen Sie mehr zu dem Forschungshema hier.