Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Tagung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
Sitzungsübersicht
Session
S16: Sensoren und Plattformen
Zeit:
Freitag, 09.03.2018:
11:15 - 12:45

Chair der Sitzung: Norbert Haala
Chair der Sitzung: Stephan Nebiker
Ort: Hörsaal 0602
200 PLÄTZE
Fokus boden- und wassergestütze Plattformen und Anwendungen (inkl. Verkehr und Mobile Mapping)

Zeige Hilfe zu 'Vergrößern oder verkleinern Sie den Text der Zusammenfassung' an
Präsentationen
11:15 - 11:35

Verkehrszeichendetektion und -erkennung in Bildern mittels faltenden neuronalen Netzen

A. Hanel, U. Stilla

Technische Universität München, Deutschland

Moderne Fahrerassistenzsysteme dienen unter Anderem der Verbesserung der Verkehrssicherheit. So kann ein System zur Erkennung von Verkehrszeichen den Fahrer zum Beispiel auf eine Geschwindigkeitsbeschränkung durch optische Warnung hinweisen. Wie der Fahrer müssen solche Systeme Informationen aus der Umgebung um das Fahrzeug wahrnehmen und extrahieren. Deswegen sind moderne Fahrzeuge zur Umgebungswahrnehmung mit Sensoren ausgestattet. Da der kommende Fahrweg und die dafür geltenden Verkehrszeichen im Bereich vor dem Fahrzeug liegen, sind nach vorne gerichtete Sensoren von besonderer Bedeutung. Aufgrund der geringen Kosten wird dafür häufig eine im Bereich des Innenspiegels montierte optische Kamera verwendet. Zum Hinweisen des Fahrers auf Verkehrszeichen müssen deren Position im Bild der Fahrzeugkamera detektiert sowie deren Bedeutung erkannt werden. Für diese Aufgabe soll im Folgenden die Eignung von neuartigen Ansätzen des maschinellen Lernens mit faltenden neuronalen Netzen (engl. convolutional neural networks) untersucht werden.

In diesem Beitrag wird ein Verfahren zur Detektion und Erkennung von Verkehrszeichen in Bildern beschrieben. Zur Detektion werden nach der Sliding-Window-Methode schrittweise Bildausschnitte aus einer Bildpyramide ausgewählt und klassifiziert. Als Klassifikator wird ein Deep-Learning-Verfahren basierend auf einem faltenden neuronalen Netz verwendet. Dabei werden aus einem Bildausschnitt als Eingangsdatum durch eine Kaskade von Faltungen mit verschiedenen Filterkerneln Merkmale extrahiert und anschließend danach ausgewertet, ob im Bildausschnitt ein Verkehrszeichen vorliegt oder nicht. Daraus resultierende Mehrfachdetektionen desselben Verkehrszeichens in mehreren Bildausschnitten leicht veränderter Position und Größe werden anschließend mit Hilfe des Mean-Shift-Clusterings auf eine Detektion je Verkehrszeichen reduziert. Dabei werden die Mehrfachdetektionen in Cluster eingeteilt und der Schwerpunkt jedes Clusters bestimmt. Es liegt die Annahme zugrunde, dass die Mehrfachdetektionen jedes Verkehrszeichens in einem separaten Cluster abgebildet werden. In einem lokalen Suchraum um jeden Schwerpunkt wird die exakte Position des Verkehrszeichens durch Formanpassung gesucht. Dazu werden im Konturbild des Suchraums mittels RANSAC-Algorithmus typische Abbildungsformen von Verkehrszeichen, wie zum Beispiel Ellipsen, robust angepasst. Unter der Annahme, dass um Schwerpunkte von falsch positiven Detektionen eine Anpassung solcher Formen nur mit großen Fehlern möglich ist, können diese Schwerpunkte verworfen werden. Für Schwerpunkte mit geringen Fehlern wird um die gefundene Position zentriert ein Bildausschnitt aus dem Farbbild erzeugt. Für die verbleibenden Bildausschnitte wird die Bedeutung des abgebildeten Verkehrszeichens mittels weiterer Klassifikation bestimmt. Als Klassifikator wird erneut ein faltendes neuronales Netz wie oben beschrieben verwendet, der aus einer Liste möglicher Verkehrszeichenbedeutungen die Wahrscheinlichste auswählt.

Zum Training und Validierung des Erkennungs-Klassifikators werden über 50.000 gelabelte Bildausschnitte von Verkehrszeichen verwendet (German Traffic Sign Benchmark-Datensatz der Ruhr-Universität Bochum). Zum Training und zur Validierung des Detektions-Klassifikators werden zusätzlich Bilder sowie Bildausschnitte mit beliebigem Bildinhalt, wie zum Beispiel Gebäuden, Vegetation, verwendet. Beide Klassifikatoren werden mit 80 % der Daten überwacht angelernt und mit 20 % der Daten anschließend ausgewertet.

Es hat sich gezeigt, dass mit der beschriebenen Methode und dem genannten Datensatz Verkehrszeichen in Bildern mit einer Klassifikationsgenauigkeit von 75 % detektiert werden können. Die bei einer hohen Toleranz gegenüber falsch positiven Detektionen häufig auftretenden Mehrfachdetektionen desselben Verkehrszeichens können durch den Mean-Shift-Algorithmus reduziert und die exakte Lage des Verkehrszeichens durch Formanpassung bestimmt werden. Bei der anschließenden Erkennung der Bedeutung der Verkehrszeichen kann eine Klassifikationsgenauigkeit von 98 % erreicht werden.


11:35 - 11:55

Fußgängerbezogene Informationsgewinnung zur Situationsanalyse mit einem mobilen Multisensorsystem

B. Borgmann1,2, M. Hebel1, M. Arens1, U. Stilla2

1Fraunhofer IOSB, Deutschland; 2Technische Universität München, Deutschland

Fußgänger sind eine bedeutende Gruppe von Verkehrsteilnehmern im städtischen Umfeld. Sie zeichnen sich außerdem dadurch aus, dass sie aufgrund ihrer Größe schwerer wahrzunehmen, in ihrem Verhalten oft weniger gut vorhersagbar und zudem verwundbarer sind als die meisten anderen Akteure im Straßenverkehr. Fahrerassistenzsysteme, autonome Fahrzeuge aber auch andere technische Systeme im Verkehrssraum sind daher gefordert, diese nicht nur zu detektieren und zu verfolgen sondern möglichst auch ihr weiteres Verhalten vorherzusagen. Mögliche Anhaltspunkte dafür liefert z.B. die Blickrichtung: So wird ein Fußgänger, der demnächst die Straße überqueren möchte, sich meist zunächst umschauen.

Der vorliegende Beitrag beschäftigt sich damit, mit einem mobilen System eine möglichst umfassende Erfassung und Informationsgewinnung über Fußgänger im Umfeld des Systems durchzuführen. Das System soll dafür über unterschiedliche Sensoren verfügen, welche LiDAR-Sensoren, Kameras und sowie IR-Kameras umfassen. Die gesammelten Informationen sollen die Basis für eine spätere Situationsanalsyse bilden.

Der Schwerpunkt des Beitrags liegt im Bereich der Auswertung der Daten mehrerer parallel eingesetzter LiDAR-Sensoren. Für diese erfolgt zunächst jeweils eine mehrstufige Vorverarbeitung. Anschließend werden Fußgänger mithilfe eines auf Implicit Shape Models (ISM) basierenden Verfahrens detektiert. Hierbei werden zunächst Punktmerkmale für die einzelnen Punkte in den Punktwolken der Sensoren bestimmt. Anschließend werden in einem „Wörterbuch“ zu den Merkmalen passende Wörter gesucht, welche dann für mögliche Objektpositionen stimmen. Mithilfe einer Suche von Schwerpunkten in den abgegebenen Stimmen erfolgt dann die eigentliche Detektion von Fußgängern. In unserem Verfahren erfolgt eine Datenfusion für die verschiedenen LiDAR-Sensoren zwischen der Stimmenabgabe und der Suche nach den Schwerpunkten: Während also die Bestimmung von Punktmerkmalen noch für jeden der eingesetzten LiDAR-Sensoren einzeln erfolgt, findet die Suche nach Schwerpunkten im Stimmenraum für alle LiDAR-Sensoren gemeinsam statt. Dies erlaubt es unter anderem, gut mit dem unvermeidlichen kleinen zeitlichen Versatz zwischen den einzelnen LiDAR-Sensoren umzugehen.

Detektierte Fußgänger werden in den LiDAR-Daten mithilfe eines Tracking-Verfahrens verfolgt, wodurch Informationen über das Bewegungsverhalten der Fußgänger gesammelt werden. In einem zweiten Schritt werden eine Kamera und eine IR-Kamera, welche auf einem Schwenk-Neigekopf montiert sind, auf detektierte Fußgänger gerichtet. Hierdurch sollen einerseits die Detektionen bestätigt werden und andererseits erlaubt dies die Gewinnung von Informationen, welche sich nur schwer aus LiDAR-Daten ermitteln lassen. Zu diesen gehört z.B. die Blickrichtung eines Fußgängers. Die Verwendung der IR-Kamera erlaubt dabei zusammen mit den LiDAR-Sensoren den Einsatz des Gesamtsystems auch bei schlechten Lichtverhältnissen. Für die Detektion von Personen in den Bilddaten wird auf ein bekanntes Verfahren zurückgegriffen.

Im Beitrag werden Ergebnisse präsentiert, in denen die Daten eines konkreten Multsensorfahrzeugs ausgewertet werden. Um insbesondere auch die beschriebenen Aspekte des Ausrichtens zusätzlicher Sensoren untersuchen zu erkönnen, erfolgt die Auswertung in einem dem Live-Betrieb entsprechendem Szenario. Der Schwerpunkt der Untersuchungen liegt hierbei darauf, die Detektionen in den LiDAR-Sensoren zunächst mithilfe der Kameras zu bestätigen. Hierbei wird unter anderem untersucht, in welchem Umfang Fehldetektionen durch eine solche Sensorfusion reduziert werden können.


11:55 - 12:15

High Definition Mapping Using LiDAR Traced Trajectories

S. Busch1, J. Quehl2, C. Brenner1

1Institut für Kartographie und Geoinformatik, Leibniz Universität Hannover, Deutschland; 2Institut für Mess- und Regelungstechnik, Karlsruher Institut für Technologie, Deutschland

In this paper, we automatically reconstruct a high definition (HD), lane accurate map by trajectory analysis. The fundamental idea behind our approach is that in the future, many, if not all, of the vehicles will carry sensors which can be used to keep HD maps up to date. In order to explore this idea, we used a static 3D laser scanner, placed at an intersection. In the continuously generated scans, we tracked objects and obtained their trajectories. From these, a map was derived based on trajectory clustering and Markov chain Monte Carlo optimization. We evaluate the results by comparing them with a ground truth map measured manually from a mobile mapping LiDAR point cloud.

In more detail, we placed a Velodyne HDL-64 S2 3D laser scanner at a complex junction to track vehicles with a scan frame frequency of 10Hz. We focused on trajectory analysis because trajectories provide more detailed and dynamic information of the actual traffic behavior than static infrastructure. Moreover, tracking of dynamic objects suffers less from occlusion at rush hours in contrast to lane markings for example. We used a neuronal network to detect vehicles in the depth images of the laser scanner and track them using a Kalman filter. The resulting trajectories were clustered in order to find the lanes. In a first step, the lanes were estimated with a cubic polynomial by least squares adjustment. Afterwards, the lanes were adjusted via the intersection points of polynomials and finally optimized by a Markov chain Monte Carlo method. After a lane accurate map is created, the information about stop lanes are derived by a clustering of the trajectory points using ST-DBSCAN. We accomplished the georeferencing by aligning poles, automatically detected in the laser scans, to a reference pole map obtained using a total station. The georeferenced HD map was evaluated by a manually generated lane model, based on Riegl VMX-250 mobile mapping system measurements.


12:15 - 12:35

Erfassung von Geometriedaten kleiner Flüsse mit einem unbemannten Wasserfahrzeug als Multisensor-Plattform

H. Sardemann, A. Eltner, H.-G. Maas

TU Dresden, Deutschland

In den letzten Jahren treten an Flüssen mit kleinen und mittleren Einzugsgebieten vermehrt Sturzfluten auf. In dem interdisziplinären Forschungsprojekt EXTRUSO werden hydrologische Modelle entwickelt, mit denen diese starkregeninduzierten Hochwasserereignisse besser modelliert und vorhergesagt werden können. Dafür werden hochaufgelöste Geländemodelle der Uferbereiche und des Flussprofils benötigt. Des Weiteren kann durch eine Analyse der landschaftlichen Veränderungen der Uferbereiche im Anschluss an ein Hochwasserereignis das Verständnis über das aufgetretene Hochwasserereignis verbessert und daraus Vorsorgemaßnahmen abgeleitet werden.

Für die Aufnahme von Geländemodellen im Flussbereich wird dabei neben der Befliegung mit einem UAV das Gewässer mit einem unbemannten Wasserfahrzeug (unmanned water vehicle – UWV) befahren. Das UWV dient als Multisensorplattform und digitalisiert sein Umfeld über Wasser mit einer 360°-Kamera und einem mobilen Laserscanner. Die vom Laserscanner aufgenommene Punktwolke der Ufer wird mit den Panoramabildern der 360°-Kamera koloriert. Unter Wasser wird das Gerinne punktuell mit einem Echolot und profilweise mit einem Unterwasser-Lasertriangulationsmesssystem aufgenommen. Das UWV ist außerdem mit einer Positionierungseinheit aus GNSS-gestützter IMU ausgestattet.

Im Beitrag wird das Konzept des Multisensor-UAV vorgestellt, und es werden Resultate aus ersten Pilotstudien gezeigt.



 
Impressum · Kontaktadresse:
Veranstaltung: PFGK18-Tagung
Conference Software - ConfTool Pro 2.6.117
© 2001 - 2018 by Dr. H. Weinreich, Hamburg, Germany