Wirtschaft Bilder in drei Dimensionen dank Künstlicher Intelligenz

Am 30. März fuhr zum ersten Mal in San Francisco ein elektrischer Jaguar I-Pace ohne einen menschlichen Fahrer hinter dem Steuer
Am 30. März fuhr zum ersten Mal in San Francisco ein elektrischer Jaguar I-Pace ohne einen menschlichen Fahrer hinter dem Steuer durch die Stadt und holte einen Ingenieur bei Waymo ab. Deren autonome Fahrzeuge sind auf sehr genaue 3D-Modelle der Umgebung angewiesen. Künstliche Intelligenz hilft auch hier weiter.

Nvidia, bekannt für seine Grafikkarten, nutzt jetzt Künstliche Intelligenz, um in wenigen Millisekunden aus eine Serie normaler Fotos ein dreidimensionales Modell der Szene zu erstellen.

Dafür gibt es zwar schon Techniken, die aber kompliziert sind. Bekannt ist die Photogrammetrie. Dabei wird eine Serie von Fotos von einem Objekt gemacht, mit der alle Perspektiven rundum abgedeckt werden. Zum Einsatz kommen normale Kameras oder solche mit einem aktiven Lasersensor, der die Szene abtastet. Am Ende wird aus allen Fotos ein Modell der Szene berechnet, bei der die Positionen aller Punkte der 2D-Fotos verglichen werden und ein gemeinsamer 3D-Schnittpunkt errechnet wird. So entsteht erst eine „Punktwolke“ und daraus ein virtuelles Drahtgittermodell der Szene, das aber noch mit sogenannten Renderprogrammen mit den passenden Oberflächen, Lichteffekten und Schatten versehen wird, so dass die Szene für uns echt aussieht. Das sind Techniken, wie sie auch beim Design von Computerspielen oder der digitalen Nachbearbeitung von Kinofilmen schon lange zum Einsatz kommen.

Nvidia geht ganz anders heran. Die genutzte Technik nennt sich „Nerfies“ oder „Neural Radiance Fields“. Das „Neural“ ist von den neuronalen Netzen der Künstlichen Intelligenz abgeleitet. Das sind dem menschlichen Gehirn abgeschaute Netzwerke aus „digitalen Knoten“, mit denen schon seit Jahren die Bilderkennung in Kameras oder die Spracherkennung bei Übersetzungsapps funktioniert. Solche Netze starten mit einer Grundausstattung an Wahrnehmungsmustern, können aber sehr schnell hinzulernen, wenn man ihnen mehr Material zum Vergleichen gibt.

Genau das macht die neue Nerfie-Version von Nvidia. Das Netzwerk bekommt Bilder, „erkennt“ die Lage der Objekte, erstellt ein dreidimensionales Modell und korrigiert das Modell mit weiteren Bildern. So entsteht eine Szene, bei der Gegenstände sogar durch transparente Objekte wie ein Wasserglas hindurch dargestellt werden können. Auch Spiegelungen in einer gewölbten Autoscheibe sehen „echt“ aus und verändern sich mit jeder Änderung der Betrachterperspektive.

Noch 2021 mussten Nerfies mindestens einen Tag in einer Szene trainiert werden. Und das Rendern eines Bildes konnte selbst mit schneller Hardware bis zu einer Minute dauern. Auf einer Konferenz für Entwickler im Bereich Künstlicher Intelligenz im März 2022 stellte Nvidia nun ein hoch beschleunigtes Verfahren vor. Für das Training, also das „Kennenlernen“ eines Raums, braucht das neue NeRF-Verfahren nur wenige Sekunden. Und die Berechnung des Raumes aus mehreren Bildern dauert nur noch Millisekunden. Damit werden 3D-Bilder zu einer Echtzeittechnologie ohne Wartezeiten. Auf YouTube (Suche: „Nvidia“ + „NeRF“) demonstriert Nvidia die Leistungen des neuen Verfahrens.

Die Konkurrenz schläft aber nicht: Auch Google arbeitet seit einigen Jahren mit KI-Nerfies. Google Maps und Google Street View nähern sich von zwei Seiten einer detailgetreuen dreidimensionalen Darstellung von Städten. Schon seit langem generiert Google aus 2D-Bildern für seinen Maps-Dienst ansehnliche 3D-Gebäudeansichten. Street View mit seinem unendlichen Stream aus gefilmten Standbildern wiederum liefert das perfekte Material, um eine NeRF-KI mit Informationen zu versorgen, so dass diese perfekte virtuelle Gebäude erstellen kann, die wiederum in Google Earth eingebunden sein können. Eine in 3D modellierte Straße kann ein virtueller Besucher ohne Probleme verlassen und sich „fliegend“ durch die Stadt bewegen. Wie das aussehen kann, demonstrierte Google vor wenigen Wochen mit der Simulation von einigen Straßenblocks in San Francisco, die auf 2,8 Millionen Bildern von Street View basieren. Der verzerrte Weitwinkel-Blick von Street View ist verschwunden, stattdessen gibt es realistische Szenen, bei denen Autos und Fußgänger gelöscht sind und sogar Tageszeit und Wetter verändert werden können. (Ein Video gibt es auf YouTube bei der Suche mit „Google“ + „Block-NeRF“.)

Die Einsatzmöglichkeiten sind faszinierend. Autonome Fahrzeuge brauchen möglichst genaue 3D-Ansichten ihrer Umgebung. Die Aufgabe wird derzeit meist mit Lidar, einer Art 3D-Radar mit Laserscanning bewältigt. Hier könnte NeRF die perfekte Ergänzung werden. Landschaften oder ganze Straßenzüge können modelliert und durch frisch eingespeiste Videos aktuell gehalten werden. Verkehrsplaner und Architekten bekommen damit ein perfektes Werkzeug. Natürlich freuen sich auch die Gaming- und die Filmbranche über leicht zu erstellende 3D-Szenarios.

Die 3D-Effekte aktueller Smartphones fallen dagegen eher bescheiden aus. Die Facebook-App kennt schon länger im „Bearbeiten“-Menü die Option „3D-Foto erstellen“. Dabei wird ein einzelnes Foto in ein nur ansatzweise dreidimensionales Bild verwandelt. Die App analysiert den Bildinhalt und ergänzt die 2D-Informationen. Neigt man das Smartphone beim Betrachten, scheint sich die Ansicht des fotografierten Objekts leicht zu verschieben. Ähnlich funktionieren separate Apps wie LucidPix. Auch hier wird ein einzelnes Bild mittels Künstlicher Intelligenz neu gerendert und offenbart beim Neigen etwas mehr an Tiefe. Vor einem neutralen Hintergrund klappt das ansehnlicher, weil die KI störende Elemente nicht herausrechnen muss. Aber für echtes 3D müssen es schon mehrere Aufnahmen sein.

Apple hat seinen Pro-iPhones und dem iPad Pro seit 2020 einen LiDAR- gegönnt, der für das Scannen von ganzen Räumen gut, für kleinere Objekte weniger gut geeignet ist. Ausgereift ist Trnio für iOS und Android. Die App macht eine ganze Serie von Fotos, während man um das Objekt herumgeht. Bis NeRF auf einem Smartphone funktioniert, wird es aber wohl auch nicht mehr lange dauern.

Mehr zum Thema
x