Nächster Artikel
Reinforcement Learning
Hierarchische Strukturen können der Schlüssel sein für sichere und effiziente KI-Systeme
Deep Learning hat das Interesse am Einsatz von Künstlicher Intelligenz (KI) in immer mehr Systemen gesteigert. Auch das Reinforcement Learning (RL) hat einen Aufschwung erlebt, unter anderem durch Deep-RL-Modelle, die entwickelt wurden, um Atari-Spiele zu spielen und sogar Großmeister im Go-Spiel zu schlagen. Trotz dieser beeindruckenden Erfolge in jüngster Zeit kämpft RL jedoch noch immer, akzeptiert und erfolgreich eingesetzt zu werden, vor allem für sicherheitskritische Aufgaben wie Robotik, autonomes Fahren und industrielle Steuerung.


© iStock/Nate Hovee
Wenn es um sicherheitskritische Anwendungen geht, wird Künstliche Intelligenz (KI) als Alternative zu herkömmlichen Engineering-Lösungen bislang kaum angenommen. Einer der Hauptgründe dafür ist, dass neuronale Netze immer noch keine formalen Garantien bieten und daher in den meisten Fällen nicht zuverlässig sind.
Ein weithin bekanntes Problem, mit dem neuronale Netze zu kämpfen haben, sind adversarial attacks. Damit sind kleine Störungen von Sensoreingaben gemeint, die durch gewöhnliches Rauschen oder sogar böswillige Angriffe verursacht werden können und die unter Umständen ausreichen, um die vom neuronalen Netz getroffenen Entscheidungen zu ändern [1]. Die Robustheit zu erhöhen und dafür geeignete Testverfahren zu entwickeln, ist daher ein dringendes Anliegen, wenn es um Deep Learning geht.
Eine bessere Erklärbarkeit neuronaler Netze stellt auch einen notwendigen Schritt dar, um eine sicherere KI zu erzielen, da neuronale Netze in der Regel als Black Boxes behandelt werden. Der Grund für den Einsatz von KI liegt darin, dass die Beschreibung des gewünschten Verhaltens mit Hilfe von erklärbarer Logik nicht einfach zu bewerkstelligen ist [2]. Die Fähigkeit, die vom Modell getroffenen Entscheidungen zu begründen, ist ein notwendiger Schritt bei der Validierung und Verifizierung solcher Systeme.
Dateneffizienz
Die meisten Deep-Learning-Modelle auf dem neuesten Stand sind
datenineffizient, und das Sammeln der riesigen Datenmengen, die zum Trainieren solcher Modelle erforderlich sind, ist nicht immer machbar.
Beispiel autonomes Fahren. Der Ansatz führender Akteure (z. B. Tesla und Waymo) besteht darin, ihre Modelle mit Tausenden von Stunden aufgezeichneter Fahrdaten zu trainieren. AlphaGO und OpenAI Five, berühmte KI-Modelle, die in der Lage sind, das Spiel Go bzw. Dota 2 zu spielen, benötigen ebenfalls eine wahnsinnige Menge an gesammelten Daten, um ihre beeindruckenden Ergebnisse zu erzielen.
Die Wurzel dieses Problems liegt in einem bekannten Sachverhalt für RL: dem Fluch der Dimensionalität. Dieser beschreibt, wie die Anzahl der Zustände exponentiell mit der Aufgabenkomplexität wächst, was leicht zu einem rechnerisch unlösbaren Problem wird. Die Verbesserung der Dateneffizienz ist daher für den Einsatz von RL in komplexen Szenarien von größter Bedeutung.
Die Dateneffizienz bezieht sich auf die Menge der Daten, die das Modell (genauer gesagt der Agent) erfahren muss, bevor er ein bestimmtes Leistungsniveau erreicht [3]. Je weniger Interaktionen mit der Umwelt der Agent benötigt, um eine gute Kontrollstrategie zu erlernen, desto effizienter ist die Lernmethode. Eine Steigerung der Dateneffizienz kann durch eine bessere Strukturierung des Modells erreicht werden, um die gesammelten Daten effizienter zu verarbeiten und bessere Strategien zur Interaktion mit der Umwelt zu verwenden.
Hierarchisches Reinforcement Learning
Hierarchisches RL (HRL) löst Probleme wie die Ineffizienz von Daten, Skalierbarkeit und Generalisierung, indem es das Problem in Module mit verschiedenen Abstraktionsniveaus aufteilt. Es steht im Gegensatz zum Ende-zu-Ende-Lernen. Dieses besteht darin, ein einziges Modell zu optimieren, das für die Verarbeitung der von den Sensoren stammenden Eingaben verantwortlich ist, ebenso für die Ausgabe der Entscheidungen, die an die Aktoren gesendet werden.
Mehrere neurowissenschaftliche und verhaltenspsychologische Studien legen nahe, dass unser Gehirn hierarchisch strukturiert ist. So nutzen beispielsweise bereits Kleinkinder die zeitliche Abstraktion, um bei der Lösung ihrer Aufgaben Teilziele festzulegen [4]. Die Steuerung unseres Verhaltens auf der Grundlage von Zielen, Plänen und breiterem Kontextwissen zeichnet den Menschen aus und ermöglicht ihm die Lösung hochkomplexer Probleme [5].
Von solchen biologischen Beweisstücken inspiriert ist die Kernidee von HRL. Sie besteht darin, zu lernen, wie man eine Aufgabe löst, indem man spezifische Fähigkeiten (auch abstrakte Handlungen genannt) erlernt, die kombiniert werden, um übergeordnete Ziele zu erreichen. Eine große Auswirkung auf die Effizienz der Daten ergibt sich aus der Tatsache, dass die erlernten Fähigkeiten genutzt werden können, um Variationen der Aufgabe oder sogar völlig neue Aufgaben zu lösen.
In Branchen wie der Automobilindustrie und der Avionik werden sicherheitskritische Systeme traditionell modular aufgebaut. Dieser modulare Ansatz erleichtert die Wartungsfreundlichkeit, die Implementierung von Redundanzmodulen und die Rückverfolgung der Ursache eines erkannten Fehlers, sowohl bei Hardware- als auch bei Softwaresystemen. Dies kann als Motivation für die Entwicklung von KI-Modellen dienen, die komplexe Aufgaben lösen, indem sie das Problem in Teilprobleme zerlegen, die leichter verstanden und überprüft werden können. HRL ist daher ein praktikabler Ansatz, um sicherere KI-basierte Systeme zu realisieren.
Auch wenn die KI-Forschung einen langen Weg zurückgelegt und beeindruckende Ergebnisse erzielt hat, bleibt noch viel zu tun, um lernbasierte Modelle in realen, komplexen, sicherheitskritischen Anwendungen einzusetzen. Hierarchisches Reinforcement Learning ist ein vielversprechender Ansatz, der helfen kann, dieses ehrgeizige Ziel zu erreichen.
[1] Lütjens, Björn, Michael Everett, and Jonathan P. How. "Certified adversarial robustness for deep reinforcement learning." Conference on Robot Learning. PMLR, 2020.
[2] Alves, Erin E., et al. Considerations in assuring safety of increasingly autonomous systems. No. NASA/CR-2018-220080. 2018.
[3] Botvinick, Matthew, et al. "Reinforcement learning, fast and slow." Trends in cognitive sciences 23.5 (2019): 408-422.
[4] Ribas-Fernandes, Jose JF, et al. "A neural signature of hierarchical reinforcement learning." Neuron 71.2 (2011): 370-379.
[5] Badre, David, et al. "Hierarchical cognitive control deficits following damage to the human frontal lobe." Nature neuroscience 12.4 (2009): 515-522.
Dieses Vorhaben wurde im Rahmen des Projekts Unterstützung des thematischen Aufbaus des Instituts für Kognitive Systeme durch das Bayerische Staatsministerium für Wirtschaft, Landesentwicklung und Energie gefördert.