Maschinelles Lernen
Out-of-Distribution Detection für Reinforcement Learning

Wie können intelligente Systeme lernen, Aufgaben zu erledigen – und das allein durch Interaktion mit ihrer Umgebung? Damit beschäftigt sich Reinforcement Learning, ein Teilgebiet des Machine Learning. Dabei entstehen Probleme vor allem dann, wenn Situationen auftreten, die das System noch nicht kennt.

Polarlichter über Bäumen
mask Polarlichter über Bäumen

Beim Reinforcement Learning spricht man von einem iterativen Prozess, bei dem das intelligente System (Agent) durch geschicktes Ausprobieren von Aktionen lernen soll, Aufgaben zu meistern. Als Ergebnis jeder Aktion erhält der Agent eine neue Beobachtung seiner Umgebung, quasi die Sensordaten zum nächsten Zeitpunkt, beispielsweise das nachfolgende Bild in einem Video-Stream. Darüber hinaus bekommt der Agent anhand eines Feedbacksignals mitgeteilt, wie gut es bei der Lösung einer bestimmten Aufgabe abschneidet. Soll der Agent beispielsweise lernen, Schach zu spielen, muss er gültige Spielzüge vorschlagen und erhält erst dann eine Belohnung, wenn er das Spiel gewonnen hat.

Entscheidend dabei ist, dass dem System nicht gesagt wird, welche Handlungen es ausführen soll, sondern dass es stattdessen Strategien finden muss, die das Feedbacksignal (die Belohnung) maximieren. Darin unterscheidet sich Reinforcement Learning vom »Supervised Learning«, bei dem das System nach jedem Schritt die optimale Entscheidung als Feedbacksignal erhält und daraus lernen kann. Um komplexe Aufgaben zu lösen, muss das System daher selbstständig ein Gleichgewicht zwischen dem Ausprobieren neuer Handlungen (Exploration) und der Anwendung von Strategien, die bei früheren Versuchen gut funktioniert haben (Exploitation), finden.

Für die reale Welt noch nicht schlau genug?

Deep Reinforcement Learning (DRL), die Kombination aus Deep Learning und Reinforcement Learning, wurde bereits erfolgreich auf viele komplexe Probleme angewandt. Zum Beispiel um schwierige Brettspiele wie Go, Schach oder Shogi zu erlernen, Computerspiele wie Super Mario oder Space Invaders zu spielen oder Roboterhände zu steuern, die einen Rubik-Würfel lösen können.

Obwohl RL als vielversprechende Lösung für viele schwierige Aufgaben erscheint, die derzeit nicht mit anderen Ansätzen gelöst werden können, kommt es in realen Szenarien aktuell noch sehr selten zum Einsatz. Einer der Hauptgründe dafür ist der Mangel an Sicherheitsgarantien, die RL-Systeme bieten. Dies gilt insbesondere in Situationen, die sich wesentlich von ihrer Lernumgebung unterscheiden. Viele moderne RL-Agenten werden in einer so genannten »closed world« trainiert. Das bedeutet, dass man davon ausgeht, dass sie in der gleichen Umgebung eingesetzt werden, in der sie auch trainiert werden.

Diese Annahme mag zwar für Computer- oder Brettspiele Sinn ergeben, ist aber für Anwendungen in der echten Welt nicht zu rechtfertigen, bei denen Begegnungen mit neuartigen Situationen unvermeidlich sind. Systeme müssen daher eigentlich für Szenarien in »offener Welt« konzipiert werden, in denen die Inputs möglicherweise nicht vollständig mit den Daten übereinstimmen, die während des Trainings beobachtet wurden. Das Problem ist jedoch, dass solche Inputs dazu führen können, dass Entscheidungssysteme völlig irrationale Ergebnisse produzieren, da sie nicht darauf trainiert wurden. Interessanterweise bemerken die meisten Systeme unbekannte Situationen gar nicht, sondern liefern weiterhin zuversichtlich Entscheidungen, als ob sie ganz genau wüssten, was sie tun. Dies hat sich als besonders problematisch für Systeme erwiesen, bei denen Deep Neural Networks (DNNs) zum Einsatz kommen.

Warnung bei unbekannten Verkehrssituationen

Um den Weg in die praktische Anwendung zu finden, braucht es daher verlässliche Systeme, die nicht nur in bekannten Situationen genaue Vorhersagen liefern, sondern auch zuverlässig einschätzen können, wenn sie in neuen Situationen nicht mehr weiterwissen. Bei einer sicherheitskritischen Anwendung wie dem autonomen Fahren beispielsweise sollte das entscheidungsbefugte System in der Lage sein, unbekannte Hindernisse auf der Straße zu erkennen, um Sicherheitswarnungen auszulösen, anstatt völlig unbedacht weiterzufahren.

Situationen zu erkennen, die Entscheidungssysteme nicht bewältigen können, ist allerdings keine leichte Aufgabe, da die Extrapolation der Fähigkeiten eines lernbasierten Systems äußerst schwierig ist. Eine Möglichkeit, sich diesem Problem zu nähern, ist, es leicht umzuformulieren: Man legt die Annahme zugrunde, dass alles, was unbekannt ist, auch gefährlich ist. Das heißt: Durch diese Annahme wird alles, was nicht schon während des Trainings beobachtet wurde, als potenziell gefährlich eingestuft, da sich nicht hundertprozentig sagen lässt, wie das System darauf reagiert. Dadurch wird aus der Frage »Welche Situationen kann das System sicher bewältigen?« die Frage »Welche Situationen kennt das System bereits?« Mit anderen Worten: Anstatt die Fähigkeiten des Agenten bewusst zu beurteilen, geht man davon aus, dass er ausschließlich in den Trainingsszenarien gut funktioniert, und versucht stattdessen, neue oder unbekannte Szenarien als solche zu erkennen.

Novelty Detection (ND) ist ein bekanntes Problem im Bereich des Machine Learning. Dabei geht es darum, Unterschiede zwischen Eingaben, für die ein System trainiert wurde, und den Eingaben, für die ein System eingesetzt wird, zu erkennen. Die bisherige Forschung in diesem Bereich konzentriert sich allerdings zum Großteil auf Supervised Learning wie beispielsweise Bildklassifizierung oder Objekterkennung, bei denen die Eingaben streng in ID (In Distribution, innerhalb der Trainingsverteilung,) und OOD (Out Of Distribution, außerhalb der Trainingsverteilung) unterteilt werden können (siehe Abbildung links).

In RL gibt es jedoch keine Klassen oder Labels. Stattdessen muss man einem anderen Ansatz folgen, und ganze Szenarien als ID und OOD definieren. Betrachtet man beispielsweise das Szenario in Abbildung rechts, bei dem ein Roboter während des Trainings gelernt hat, Quader übereinander zu stapeln. Beim Testen wird nun einer der Würfel entweder durch einen größeren Würfel (grün) oder durch eine Kugel (blau) ersetzt. Mit welchem der beiden Fälle weiß der Roboter wohl besser umzugehen? Beide Fälle unterscheiden sich rein visuell von dem, was der Roboter während des Trainings gesehen hat. Daher würde ein strenger Novelty-Detection-Ansatz beide Fälle als OOD klassifizieren. Allerdings stellt nur die Kugel eine tatsächlich neue Situation dar, bei der wir nicht genau sagen können, wie der Roboter damit umgeht.

Aufgaben für maschinelles Lernen
Bild

Supervised Learning für Bildklassifizierung. Der Trainingsdatensatz besteht aus einer fixen Menge an Klassen. Das Ziel der Out-of-Distribution-Erkennung ist es, Bilder zu identifizieren, die nicht zu diesen Klassen gehören (links).
Reinforcement Learning (rechts): Die Erkennung von unbekannten Situationen ist komplex, da eine klare Unterscheidung zwischen Trainings- und Testumgebung oft nicht einfach ist. Bildverarbeitungsbasierte OOD-Detektoren können zu restriktiv (Mitte) oder zu freizügig (unten) sein.

Erste Schritte in die reale Welt

Die Erkennung neuartiger Situationen ist daher nur ein erster Schritt auf dem Weg zu RL-Systemen, die ohne weiteres in realen Szenarien eingesetzt werden können. Die Annahme »alles Neue ist gefährlich« ist sehr begrenzend, da der Agent immer noch in der Lage sein könnte, mit neuen Situationen umzugehen, indem er sein Wissen verallgemeinert (wie z. B. bei dem grünen Würfel). Es müssen daher noch bessere Ansätze gefunden werden, um die Fähigkeiten eines lernbasierten Systems in neuen Situationen einzuschätzen. Idealerweise sollten intelligente Systeme gegenüber irrelevanten Faktoren robust sein, neue Situationen verallgemeinern können und Situationen, die sie nicht bewältigen können, zuverlässig erkennen.

Gemeinsam mit Partnern aus Industrie und Wissenschaft arbeitet das Fraunhofer-Institut für Kognitive Systeme IKS daran, autonome intelligente Systeme zu befähigen, Gefahrensituationen zuverlässig zu erkennen. Ansätze des maschinellen Lernens wie Reinforcement Learning stehen dabei im Mittelpunkt.


Dieses Vorhaben wurde im Rahmen des Projekts Unterstützung des thematischen Aufbaus des Instituts für Kognitive Systeme durch das Bayerische Staatsministerium für Wirtschaft, Landesentwicklung und Energie gefördert.

Nächster Artikel

Reinforcement Learning
Hierarchische Strukturen als Schlüssel für sichere und effiziente KI-Systeme

Felippe Schmoeller
Felippe Schmoeller da Roza
Künstliche Intelligenz & Machine Learning / Fraunhofer IKS
Künstliche Intelligenz