8. Februar 2022
Decai Chen, wissenschaftlicher Mitarbeiter der Gruppe „Immersive Medien und Kommunikation“ der Abteilung „Vision and Imaging Technologies“ am Fraunhofer Heinrich-Hertz-Institut (HHI) wurde auf der 2021 International Conference on 3D Immersion (IC3D) mit dem Best Paper Award ausgezeichnet. Zusammen mit seinen Co-Autor*innen konnte er sich gegen drei weitere nominierte Paper durchsetzen. Die preisgekrönte Veröffentlichung „Accurate Human Body Reconstruction for Volumetric Video“ konzentriert sich auf die Nutzung Deep-Learning-basierter Multi-View-Stereonetzwerke, um eine High-Fidelity-Rekonstruktion des menschlichen Körpers in der volumetrischen Videoproduktion zu erzielen.
Angesichts der rasanten Entwicklung und der großen Nachfrage nach Augmented Reality (AR) und Virtual Reality (VR) Anwendungen, gewinnt volumetrisches Video als Schnittstelle zwischen der realen und der virtuellen Welt immer mehr an Bedeutung. Auch als Free-Viewpoint-Video bekannt, bietet volumetrisches Video den Rezipient*innen ein immersives Erlebnis in realistischen Szenen aus beliebigen Blickwinkeln. Dadurch findet es Anwendung in einer Vielzahl von Bereichen, neben der klassischen medialen Kommunikations- und Medienbranche auch in der Therapie und Rehabilitation. Um das volle Potenzial dieser Technologie auszuschöpfen ist es jedoch unerlässlich, dass eine qualitativ hochwertige Rekonstruktion und Darstellung menschlicher Akteure gewährleistet ist.
Während einige volumetrische Videosysteme bereits vielversprechende Ansätze für eine hochwertige 3D Rekonstruktion aufweisen, sind die dabei genutzten komplexen Setups mit aktiven Tiefenkameras sehr aufwendig und daher wenig vorteilhaft. Das Team um Decai Chen schlägt in ihrem Paper „Accurate Human Body Reconstruction for Volumetric Video“ eine andere Herangehensweise vor: Mithilfe einer angepassten volumetrischen Rekonstruktionspipeline soll allein mit RGB-Kameras eine akkurate allgemeine 3D-Rekonstruktion von Elementen und insbesondere menschlichen Körpern auf einer feinen Geometrieebene erreicht werden. Dafür optimierten und adaptierten die Forschenden ein hochmodernes Multiview-Stereonetzwerk (MVS), um die Vorteile einer Deep-Learning-basierten Feature-Darstellung zu nutzen.
Um die Informationen der neuronalen Netze mit den Daten über Studiobilder und gegebenen menschlichen Körpern abzustimmen, erstellte das Team zudem einen realen 3D-Datensatz menschlicher Körper, die in einer Studioumgebung aufgenommen wurden. Darüber hinaus stellen sie einen neuartigen Nachbearbeitungsansatz zur Filterung und Verschmelzung von Tiefenkarten vor, um qualitativ hochwertige Punktwolken für die Netzrekonstruktion zu generieren. Im Gegensatz zu den standardmäßigen Filtertechniken für Tiefenkarten in MVS, die nur Punkte entfernen, die entweder geometrisch inkonsistent sind oder ein geringes photometrisches Konfidenzniveau aufweisen, filtert dieser Ansatz zusätzlich Punkte heraus, die in die Hintergrundmaske einer beliebigen Kamera fallen und außerhalb des visuellen Kegels einer bestimmten Anzahl von Kameras liegen. So kann eine akkurate Tiefenkartenschätzung unter dem bestehenden Aufbau von Multiview-Kameras in einem Aufnahmestudio erreicht werden.
Dabei konnte das Forschungsteam bei umfangreichen Experimenten eine deutlich verbesserte Qualität ihrer Methode im Vergleich zu bestehenden Ansätzen aufzeigen. Die Forschungsergebnisse wurden im Rahmen des von der Investitionsbank Berlin (IBB) geförderten Projektes KIVI und dem Horizon 2020 Projekt INVICTUS erzielt.
Der Best Paper Award wurde im Rahmen des virtuellen Konferenzprogramms der IC3D an die Autor*innen verliehen. Die International Conference on 3D Immersion (IC3D) ist eine jährliche Konferenz, die im Rahmen der Stereopsia EUROPE, dem World Immersion Forum, integriert ist und technisch von der Signal Processing Society des IEEE mitgesponsert wird.