Was ist Reinforcement Learning?

Reinforcement Learning (RL) ist ein Teilgebiet des maschinellen Lernens, bei dem ein Agent durch Interaktion mit einer Umgebung lernt, optimale Entscheidungen zu treffen. Der Agent erhält Belohnungen oder Bestrafungen für seine Aktionen und lernt so eine Policy, die den langfristigen Gesamtnutzen maximiert.

Wie wird RL in der Verkehrsdisposition eingesetzt?

RL-Agenten lernen optimale Dispositionsstrategien in simulierten Verkehrsumgebungen. Bei Störungen im Echtzeitbetrieb treffen sie in Millisekunden Entscheidungen über Umleitungen, Fahrzeugersatz und Fahrplananpassungen.

Was ist der Unterschied zu regelbasierten Systemen?

Regelbasierte Systeme folgen vordefinierten Wenn-Dann-Regeln. RL-Agenten lernen hingegen selbstständig optimale Strategien aus Erfahrung und können auch mit unvorhergesehenen Situationen umgehen, für die keine expliziten Regeln existieren.

Wie werden RL-Agenten trainiert?

Wir trainieren RL-Agenten in hochdetaillierten Simulationsumgebungen, die das reale Verkehrsnetz und seine Dynamik nachbilden. Durch Millionen von Simulationsepisoden lernen die Agenten robuste Strategien für verschiedenste Störungsszenarien.

Ist RL produktionsreif für den ÖPNV?

Ja, in Kombination mit Sicherheitsmechanismen und menschlicher Überwachung setzen wir RL-Agenten bereits in der operativen Disposition ein. Die Agenten liefern Dispositionsvorschläge, die von Disponenten bestätigt oder angepasst werden können.

Reinforcement Learning für Echtzeit-Disposition

// Grundlagen

Selbstlernende Dispositionsagenten

Reinforcement Learning (RL) repräsentiert einen Paradigmenwechsel in der Verkehrsdisposition: Statt Entscheidungsregeln manuell zu programmieren, lernt ein RL-Agent durch Versuch und Irrtum in einer simulierten Umgebung, welche Aktionen in welchen Situationen zu den besten Ergebnissen führen. Der Agent beobachtet den aktuellen Systemzustand (Fahrzeugpositionen, Verspätungen, Fahrgastnachfrage), wählt eine Aktion (Umleitung, Fahrzeugersatz, Taktanpassung) und erhält eine Belohnung, die die Qualität seiner Entscheidung widerspiegelt.

Durch Millionen von Trainings-Episoden in unserer Simulationsumgebung lernt der Agent eine Policy – eine Abbildung von Zuständen auf Aktionen – die den langfristigen Gesamtnutzen maximiert. Diese Policy berücksichtigt nicht nur die unmittelbaren Auswirkungen einer Entscheidung, sondern auch deren langfristige Konsequenzen: Eine Umleitung, die kurzfristig eine Verspätung reduziert, kann langfristig zu Kapazitätsengpässen an anderer Stelle führen.

Der entscheidende Vorteil von RL gegenüber klassischen Optimierungsverfahren liegt in der Reaktionsgeschwindigkeit: Während ein MILP-Solver Minuten für die Re-Optimierung benötigt, trifft ein trainierter RL-Agent seine Entscheidung in Millisekunden. Dies ermöglicht eine Echtzeit-Disposition, die auf jede Veränderung im Betrieb sofort reagiert.

// RL-Agent: Dispositionsentscheidung

state = [

                vehicle_positions,

                delays, passenger_load,

                time_of_day, disruptions

              ]

action = policy(state)

// Reroute, Replace, Hold, Skip

reward = -(α · delay

                + β · passenger_impact

                + γ · cost)

// Latenz: < 10ms

Störungsmanagement

Automatische Reaktion auf Fahrzeugausfälle, Streckensperrungen und Verspätungskaskaden. Der RL-Agent lernt, welche Kombination von Maßnahmen die Auswirkungen auf den Gesamtbetrieb minimiert.

Dynamische Taktung

Anpassung der Taktfrequenz an die aktuelle Nachfrage in Echtzeit. Der Agent lernt, wann Verstärkerfahrten eingesetzt und wann Takte ausgedünnt werden sollten, um Kosten und Servicequalität zu balancieren.

Anschlusskoordination

Entscheidung, ob ein Anschlussfahrzeug auf ein verspätetes Zubringerfahrzeug warten soll. Multi-Agent-RL koordiniert die Entscheidungen mehrerer Fahrzeuge für optimale Anschlussgarantien.

E-Bus-Lademanagement

Optimale Steuerung der Ladezyklen einer E-Bus-Flotte unter Berücksichtigung von Strompreisen, Netzbelastung und Fahrzeugverfügbarkeit. Der RL-Agent lernt energieeffiziente Strategien für die Busverkehrsplanung.

Fahrgastlenkung

Dynamische Empfehlungen für Fahrgastrouten bei Störungen. Der Agent berücksichtigt Kapazitäten, Umsteigezeiten und Fahrgastpräferenzen für optimale Umleitungsempfehlungen.

Predictive Dispatching

Vorausschauende Disposition, die potenzielle Störungen antizipiert und präventive Maßnahmen einleitet. Integration von ML-Prognosen für proaktive statt reaktive Disposition.

// Technologie

Deep RL und Multi-Agent-Systeme

Für die komplexen Entscheidungsräume der Verkehrsdisposition setzen wir Deep Reinforcement Learning ein: Neuronale Netze approximieren die Policy und die Wertfunktion des Agenten, was die Verarbeitung hochdimensionaler Zustandsräume ermöglicht. Algorithmen wie PPO (Proximal Policy Optimization) und SAC (Soft Actor-Critic) bilden die Grundlage unserer RL-Implementierungen.

Für Szenarien mit mehreren interagierenden Entscheidungsträgern – etwa die koordinierte Disposition mehrerer Linien oder die Abstimmung zwischen Bus- und Schienenverkehr – nutzen wir Multi-Agent Reinforcement Learning (MARL). Jeder Agent steuert einen Teilbereich des Verkehrsnetzes und lernt, mit den anderen Agenten zu kooperieren.

Die Trainingsumgebung basiert auf unserem hochdetaillierten Verkehrssimulator, der das reale Netz mit allen Fahrplänen, Fahrzeugtypen, Haltestelleninfrastruktur und Störungsmustern nachbildet. Durch Domain Randomization und Curriculum Learning stellen wir sicher, dass die trainierten Agenten robust gegenüber unvorhergesehenen Situationen sind.

"Der RL-basierte Dispositionsassistent hat die Qualität unserer Störungsreaktion deutlich verbessert. Die Vorschläge des Systems sind in den meisten Fällen besser als die manuellen Entscheidungen unserer Disponenten – und sie kommen in Sekundenbruchteilen."

IT-Leitung

Verkehrsunternehmen, Deutschland

Case Study: MILP-basierte Flottenoptimierung