Learning Driver Behavior Models for Predicting Urban Traffic Situations

Language
en
Document Type
Doctoral Thesis
Granting Institution
Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU), Technische Fakultät
Issue Date
2024
Authors
Sackmann, Moritz
Editor
Abstract

An automated vehicle needs to be able to predict the future evolution of a perceived traffic situation to safely and comfortably interact with surrounding vehicles. This work focuses on generating predictions by executing a traffic simulation. The advantage of this simulation-based prediction is that the predictions of all vehicles are constructed simultaneously and can interact with each other. Moreover, conditional predictions become possible, e.g., "How would the traffic situation evolve, if the automated vehicle merges in front of or behind another vehicle?" The behavior model is crucial for the accuracy of the prediction. Therefore, this thesis investigates three approaches to learning a behavior model: Multi-Step Behavior Cloning, Reinforcement Learning, and Inverse Reinforcement Learning. For Multi-Step Behavior Cloning, the behavior model is trained such that it selects an action sequence, and hence a trajectory, as similar as possible to human drivers, starting from the same initial situation. The training requires a differentiable simulation environment, which is introduced in this work. In contrast, the training goal of Reinforcement Learning (RL) is to maximize a hand-defined reward function. With this, explicit goals can be formulated, such as avoiding collisions, remaining on the road, and maintaining safety distances. A modification of the method is proposed to represent different driving styles with one single behavior model, e.g., sporty or careful driving. To model human driving with RL, the reward function must be adapted until the resulting trajectories are similar enough to human trajectories. This tedious procedure can be automatized with Inverse Reinforcement Learning (IRL). To this end, Adversarial Inverse Reinforcement Learning (AIRL) is employed. With the reconstructed reward function, the behavior model is trained in additional fictional critical situations to obtain a more robust model. Finally, all trained models are compared under equal conditions in an untrained roundabout. The IRL algorithms achieve the best results with collision rates below 1% and root mean squared prediction errors (RMSE) below 22m. RL and IRL reduce the collision rate compared to Behavior Cloning, because they directly penalize collisions beyond the goal of pure imitation.

Abstract

Ein automatisiertes Fahrzeug muss die Entwicklung einer wahrgenommenen Verkehrssituation vorhersagen können, damit es sicher und komfortabel mit anderen Fahrzeugen interagieren kann. Diese Arbeit untersucht verschiedene Methoden, um Vorhersagen mit einer Simulation der Situation zu erzeugen. Der simulationsbasierte Ansatz ist vorteilhaft, weil die Vorhersagen aller Fahrzeuge gleichzeitig aufgebaut werden und aufeinander reagieren können. Außerdem werden bedingte Vorhersagen möglich, z.B. "Wie entwickelt sich die Situation, wenn sich das automatisierte Fahrzeug vor oder hinter einem anderen Fahrzeug einfädelt?" Das Verhaltensmodell der simulierten Fahrzeuge hat entscheidenden Einfluss auf die Genauigkeit der Vorhersage. Daher befasst sich diese Dissertation mit drei Ansätzen, um ein Verhaltensmodell zu lernen: Multi-Step Behavior Cloning, Reinforcement Learning und Inverse Reinforcement Learning. Bei Multi-Step Behavior Cloning wird das Verhaltensmodell so trainiert, dass es ausgehend von derselben Ausgangssituation eine möglichst ähnliche Aktionsfolge und damit Trajektorie wie ein menschlicher Fahrer wählt. Für das Training wird eine differenzierbare Simulationsumgebung benötigt, die in dieser Arbeit vorgestellt wird. Im Gegensatz dazu ist das Trainingsziel bei Reinforcement Learning (RL) die Maximierung einer händisch definierten Belohnungsfunktion. So können explizite Ziele vorgegeben werden, z.B., dass Fahrzeuge Kollisionen vermeiden, auf der Fahrbahn bleiben und Sicherheitsabstände einhalten. Die Methode wird erweitert, um mit einem Verhaltensmodell unterschiedliche Fahrverhalten zu repräsentieren, z.B. sportlichere oder vorsichtigere Fahrer. Um menschliches Fahrverhalten mit RL nachzubilden, muss die Belohnungsfunktion so lange angepasst werden, bis die resultierenden Trajektorien ähnlich wie echte Trajektorien aussehen. Dieser aufwändige Prozess wird von Methoden des Inverse Reinforcement Learning (IRL) automatisiert. Hierfür wird unter anderem Adversarial Inverse Reinforcement Learning (AIRL) verwendet. Mit der rekonstruierten Belohnungsfunktion wird das Verhaltensmodell außerdem in fiktiven kritischen Situationen trainiert, um eine höhere Robustheit des Modells zu erreichen. Abschließend werden alle trainierten Modelle unter gleichen Bedingungen in einem untrainierten Kreisverkehr verglichen. Hierbei schneiden die IRL-Algorithmen bei 10s-Vorhersagen mit Kollisionsraten unter 1% und Vorhersagefehlern (RMSE) unter 22m am besten ab. RL und IRL verringern die Kollisionsrate im Vergleich zu Behavior Cloning, weil neben dem Ziel der Imitation des Verhaltens auch Kollisionen direkt bestraft werden.

DOI
URN
Faculties & Collections
Zugehörige ORCIDs