Reinforcement Learning
Hierarchische Strukturen als Schlüssel für sichere und effiziente KI-Systeme

Deep Learning hat das Interesse am Einsatz Künstlicher Intelligenz in immer mehr Systemen geweckt. Auch das Reinforcement Learning im Bereich des Maschinellen Lernens hat einen Aufschwung erlebt. Trotz dieser beeindruckenden Erfolge in jüngster Zeit steht das Reinforcement Learning jedoch immer noch vor der Herausforderung, Akzeptanz zu finden und erfolgreich eingesetzt zu werden. Dies gilt insbesondere für sicherheitskritische Aufgaben wie Robotik, autonomes Fahren und industrielle Steuerungen. Ein Ansatz, der zur Lösung dieses Problems beitragen kann, ist hierarchisches Verstärkungslernen.

mask Straßenkreuzung von oben

In sicherheitsrelevanten Anwendungen hat sich Künstliche Intelligenz (KI) als Alternative zu herkömmlichen technischen Lösungen noch nicht durchgesetzt. Dafür gibt es verschiedene Gründe. So fehlen neuronalen Netzen noch formale Garantien, weshalb sie in den meisten Fällen unzuverlässig sind.

Ein bekanntes Problem, mit dem neuronale Netze zu kämpfen haben, sind adversarial attacks. Dabei handelt es sich um kleine Störungen der Sensoreingänge, die durch gewöhnliches Rauschen oder auch durch böswillige Angriffe verursacht werden können. Unter bestimmten Umständen reichen sie aus, um die Entscheidungen des neuronalen Netzes zu verändern [1]. Es ist daher auch für das Deep Learning eine dringende Aufgabe, seine Robustheit zu erhöhen und geeignete Testmethoden zu entwickeln.

Eine bessere Erklärbarkeit neuronaler Netze stellt auch einen notwendigen Schritt dar, um eine sicherere KI zu erzielen, da neuronale Netze in der Regel als Black Boxes behandelt werden. Daher ist die Formalisierung der Anforderungen, die das beabsichtigte Verhalten solcher Systeme spezifizieren, keine triviale Aufgabe. Der Grund des Einsatzes von KI liegt darin, dass die Beschreibung des gewünschten Verhaltens mit Hilfe expliziter Logik schwer zu bewerkstelligen ist [2]. Dennoch ist die Möglichkeit, die vom Modell getroffenen Entscheidungen zu begründen, ein notwendiger Schritt bei der Validierung und Verifizierung solcher Systeme.

Dateneffizienz bei modellbasierten Reinforcement Learning

Die meisten modernen Deep-Learning-Modelle sind datenineffizient. Es ist jedoch nicht immer möglich, die riesigen Datenmengen zu sammeln, die für das Training solcher Modelle erforderlich sind. Ein Beispiel hierfür ist autonomes Fahren. Der Ansatz der führenden Akteure besteht darin, ihre Modelle mit Tausenden von Stunden aufgezeichneter Fahrdaten zu trainieren. Auch AlphaGO und OpenAI Five, gefeierte KI-Modelle, die Go bzw. Dota 2 spielen können, benötigen sehr große Datenmengen, um ihre beeindruckenden Ergebnisse zu erzielen.

Die Ursache dafür ist ein bekanntes Problem des Reinforcement Learning: der Fluch der Dimensionalität. Es beschreibt, wie die Anzahl der Zustände mit der Aufgabenkomplexität exponentiell ansteigt und leicht zu einem rechnerisch unlösbaren Problem wird. Die Verbesserung der Dateneffizienz ist daher von entscheidender Bedeutung für den Einsatz von Reinforcement Learning Modellen in komplexen Szenarien.

Die Dateneffizienz bezieht sich auf die Datenmenge, die das Modell (genauer gesagt der Agent) lernen muss, um ein bestimmtes Leistungsniveau zu erreichen [3]. Je weniger Interaktionen mit der Umgebung erforderlich sind, um eine gute Kontrollstrategie zu erlernen, desto effizienter ist die Lernmethode. Eine Steigerung der Dateneffizienz kann durch eine bessere Strukturierung des Modells erreicht werden. Hierbei ist das Ziel die gesammelten Daten effizienter zu verarbeiten und bessere Strategien zur Interaktion mit der Umwelt zu verwenden. Ein vielversprechender Ansatz ist das dateneffiziente hierarchische Reinforcement Learning (HRL).

Was ist hierarchisches Reinforcement Learning?

Hierarchisches Reinforcement Learning befasst sich mit Problemen wie Ineffizienz von Daten, Skalierbarkeit und Generalisierung. Durch die Zerlegung des Problems in Module mit unterschiedlichen Abstraktionsebenen wird die Effizienz gesteigert. Es steht im Gegensatz zum Ende-zu-Ende-Lernen, bei dem die Optimierung an einem einzigen Modell durchgeführt wird. Dieses ist dabei ausschließlich für die Verarbeitung der von den Sensoren kommenden Eingaben und die Ausgabe der an die Aktoren zu übermittelnden Entscheidung zuständig.

Verschiedene neurowissenschaftliche und verhaltenspsychologische Studien legen nahe, dass unser Gehirn hierarchisch strukturiert ist. So nutzen bereits Kleinkinder zeitliche Abstraktion, um Teilziele bei der Lösung von Aufgaben zu generieren [4]. Die Steuerung unseres Verhaltens in Übereinstimmung mit Zielen, Plänen und breiterem Kontextwissen zeichnet den Menschen aus und ermöglicht es uns, hochkomplexe Probleme zu lösen [5].

Inspiriert von diesen biologischen Erkenntnissen besteht die Kernidee des hierarchischen Reinforcement Learning darin, zu lernen, wie man eine Aufgabe löst, indem man spezifische Fertigkeiten (auch abstrakte Handlungen genannt) erlernt, die kombiniert werden, um übergeordnete Ziele zu erreichen. Ein wesentlicher Effekt auf die Effizienz der Stichprobe ergibt sich aus der Tatsache, dass die erlernten Fähigkeiten zur Lösung von Variationen der Aufgabe oder sogar völlig neuen Aufgaben verwendet werden können.

In Branchen wie der Automobil- und Luftfahrtindustrie sind sicherheitskritische Systeme traditionell modular aufgebaut. Dieser Ansatz erleichtert die Wartbarkeit, die Implementierung von Redundanzmodulen und die Rückverfolgbarkeit eines erkannten Fehlers sowohl in Hardware- als auch in Softwaresystemen. Dies kann als Motivation für die Entwicklung von KI-Modellen dienen, die komplexe Aufgaben lösen, indem sie das Problem in Teilprobleme zerlegen, die viel leichter zu verstehen und zu verifizieren sind. Dateneffizientes hierarchisches Reinforcement Learning ist daher ein praktikabler Ansatz, um sicherere KI-basierte Systeme zu entwickeln.

Obwohl die KI-Forschung bereits einen langen Weg zurückgelegt und beeindruckende Ergebnisse erzielt hat, bleibt noch viel zu tun, um lernbasierte Modelle in realen, komplexen, sicherheitskritischen Anwendungen einzusetzen. Modellbasiertes hierarchisches Reinforcement Learning ist ein vielversprechender Ansatz, um dieses ehrgeizige Ziel zu erreichen.

[1] Lütjens, Björn, Michael Everett, and Jonathan P. How. "Certified adversarial robustness for deep reinforcement learning." Conference on Robot Learning. PMLR, 2020.

[2] Alves, Erin E., et al. Considerations in assuring safety of increasingly autonomous systems. No. NASA/CR-2018-220080. 2018.

[3] Botvinick, Matthew, et al. "Reinforcement learning, fast and slow." Trends in cognitive sciences 23.5 (2019): 408-422.

[4] Ribas-Fernandes, Jose JF, et al. "A neural signature of hierarchical reinforcement learning." Neuron 71.2 (2011): 370-379.

[5] Badre, David, et al. "Hierarchical cognitive control deficits following damage to the human frontal lobe." Nature neuroscience 12.4 (2009): 515-522.


Dieses Vorhaben wurde im Rahmen des Projekts Unterstützung des thematischen Aufbaus des Instituts für Kognitive Systeme durch das Bayerische Staatsministerium für Wirtschaft, Landesentwicklung und Energie gefördert.

Nächster Artikel

Ada Lovelace Center
Reinforcement Learning macht autonomes Fahren sicherer

Judith Anger
Judith Anger
Autonomes Fahren / Fraunhofer IKS
Autonomes Fahren