Selbstlernende Dispositionsagenten
Reinforcement Learning (RL) repräsentiert einen Paradigmenwechsel in der Verkehrsdisposition: Statt Entscheidungsregeln manuell zu programmieren, lernt ein RL-Agent durch Versuch und Irrtum in einer simulierten Umgebung, welche Aktionen in welchen Situationen zu den besten Ergebnissen führen. Der Agent beobachtet den aktuellen Systemzustand (Fahrzeugpositionen, Verspätungen, Fahrgastnachfrage), wählt eine Aktion (Umleitung, Fahrzeugersatz, Taktanpassung) und erhält eine Belohnung, die die Qualität seiner Entscheidung widerspiegelt.
Durch Millionen von Trainings-Episoden in unserer Simulationsumgebung lernt der Agent eine Policy – eine Abbildung von Zuständen auf Aktionen – die den langfristigen Gesamtnutzen maximiert. Diese Policy berücksichtigt nicht nur die unmittelbaren Auswirkungen einer Entscheidung, sondern auch deren langfristige Konsequenzen: Eine Umleitung, die kurzfristig eine Verspätung reduziert, kann langfristig zu Kapazitätsengpässen an anderer Stelle führen.
Der entscheidende Vorteil von RL gegenüber klassischen Optimierungsverfahren liegt in der Reaktionsgeschwindigkeit: Während ein MILP-Solver Minuten für die Re-Optimierung benötigt, trifft ein trainierter RL-Agent seine Entscheidung in Millisekunden. Dies ermöglicht eine Echtzeit-Disposition, die auf jede Veränderung im Betrieb sofort reagiert.
state = [
vehicle_positions,
delays, passenger_load,
time_of_day, disruptions
]
action = policy(state)
// Reroute, Replace, Hold, Skip
reward = -(α · delay
+ β · passenger_impact
+ γ · cost)
// Latenz: < 10ms
RL-Anwendungen im Verkehr
Von der Störungsdisposition bis zur Ampelsteuerung – Reinforcement Learning ermöglicht adaptive Echtzeit-Entscheidungen.
Störungsmanagement
Automatische Reaktion auf Fahrzeugausfälle, Streckensperrungen und Verspätungskaskaden. Der RL-Agent lernt, welche Kombination von Maßnahmen die Auswirkungen auf den Gesamtbetrieb minimiert.
Dynamische Taktung
Anpassung der Taktfrequenz an die aktuelle Nachfrage in Echtzeit. Der Agent lernt, wann Verstärkerfahrten eingesetzt und wann Takte ausgedünnt werden sollten, um Kosten und Servicequalität zu balancieren.
Anschlusskoordination
Entscheidung, ob ein Anschlussfahrzeug auf ein verspätetes Zubringerfahrzeug warten soll. Multi-Agent-RL koordiniert die Entscheidungen mehrerer Fahrzeuge für optimale Anschlussgarantien.
E-Bus-Lademanagement
Optimale Steuerung der Ladezyklen einer E-Bus-Flotte unter Berücksichtigung von Strompreisen, Netzbelastung und Fahrzeugverfügbarkeit. Der RL-Agent lernt energieeffiziente Strategien für die Busverkehrsplanung.
Fahrgastlenkung
Dynamische Empfehlungen für Fahrgastrouten bei Störungen. Der Agent berücksichtigt Kapazitäten, Umsteigezeiten und Fahrgastpräferenzen für optimale Umleitungsempfehlungen.
Predictive Dispatching
Vorausschauende Disposition, die potenzielle Störungen antizipiert und präventive Maßnahmen einleitet. Integration von ML-Prognosen für proaktive statt reaktive Disposition.
Deep RL und Multi-Agent-Systeme
Für die komplexen Entscheidungsräume der Verkehrsdisposition setzen wir Deep Reinforcement Learning ein: Neuronale Netze approximieren die Policy und die Wertfunktion des Agenten, was die Verarbeitung hochdimensionaler Zustandsräume ermöglicht. Algorithmen wie PPO (Proximal Policy Optimization) und SAC (Soft Actor-Critic) bilden die Grundlage unserer RL-Implementierungen.
Für Szenarien mit mehreren interagierenden Entscheidungsträgern – etwa die koordinierte Disposition mehrerer Linien oder die Abstimmung zwischen Bus- und Schienenverkehr – nutzen wir Multi-Agent Reinforcement Learning (MARL). Jeder Agent steuert einen Teilbereich des Verkehrsnetzes und lernt, mit den anderen Agenten zu kooperieren.
Die Trainingsumgebung basiert auf unserem hochdetaillierten Verkehrssimulator, der das reale Netz mit allen Fahrplänen, Fahrzeugtypen, Haltestelleninfrastruktur und Störungsmustern nachbildet. Durch Domain Randomization und Curriculum Learning stellen wir sicher, dass die trainierten Agenten robust gegenüber unvorhergesehenen Situationen sind.
"Der RL-basierte Dispositionsassistent hat die Qualität unserer Störungsreaktion deutlich verbessert. Die Vorschläge des Systems sind in den meisten Fällen besser als die manuellen Entscheidungen unserer Disponenten – und sie kommen in Sekundenbruchteilen."