ISSN: 2167-7670
Panagiotis Meletis
Das ganzheitliche Verständnis von Szenen ist ein wesentlicher Bestandteil der selbstfahrenden Fahrzeuge der Zukunft. Es ist entscheidend, dass diese Fahrzeuge ihre Umgebung verstehen und interpretieren können, um sicher fahren zu können. Dies erfordert eine präzise Erkennung von umgebenden Objekten (Fahrzeuge, Menschen, Verkehrsobjekte, Natur), die Unterscheidung zwischen befahrbaren und nicht befahrbaren Oberflächen (Straße, Gehweg, Gebäude) und die Segmentierung statischer und dynamischer Objekte in semantische Klassen auf hoher Ebene. In der Vergangenheit hat die Computervision diese Probleme aufgrund ihrer Komplexität und ihres hohen Rechenbedarfs separat angegangen. Heutzutage werden Deep-Learning-basierte Systeme anhand manuell annotierter Datensätze trainiert, um diese Probleme zu lösen. Dabei stehen sie jedoch vor mehreren Herausforderungen: 1) Die Anzahl der annotierten semantischen Klassen ist durch die verfügbaren Datensätze auf einige Dutzend begrenzt, was die Vielfalt erkennbarer Objekte verringert, 2) die Dichte der Annotationen ist umgekehrt proportional zur Größe der Datensätze, wodurch riesige Datensätze für eine präzise Segmentierung inkompatibel sind, und 3) Erkennung und Segmentierung werden separat gelöst, was zu höheren Speicher- und Rechenanforderungen führt. Unsere Forschung befasst sich mit den oben genannten Herausforderungen, indem wir neue Methoden vorschlagen, um 1) ein einzelnes Netzwerk anhand mehrerer Datensätze mit unterschiedlichen semantischen Klassen und unterschiedlichen Arten von Annotationen zu trainieren und 2) die Probleme der Erkennung und semantischen Segmentierung gleichzeitig mit einem einzigen Netzwerk zu lösen. Wir haben diese Netzwerke in unserem autonom fahrenden Auto mit Echtzeitleistung eingesetzt. Wir demonstrieren hochmoderne Ergebnisse, zusammen mit einer Verfünffachung der Anzahl erkennbarer Klassen, und wir integrieren Erkennung und Segmentierung effizient in ein gemeinsames panoptisches Segmentierungssystem und unternehmen damit wichtige Schritte hin zu einem ganzheitlichen Szenenverständnis.