Maschinelles Lernen
Quantencomputing hilft Reinforcement Learning auf die Sprünge

Reinforcement Learning ist aufgrund der Trainingsmethode die am besten geeignete KI-Lösung (Künstliche Intelligenz) für eine Vielzahl von Anwendungen in den Bereichen autonome Systeme, Gesundheitswesen und Kommunikation. Die Natur dieser Aufgaben macht jedoch die Datenerfassung potenziell ressourcenintensiv, in einigen Anwendungsszenarien sogar unmöglich. Hier könnte Reinforcement Learning davon profitieren, Methoden des Quantencomputing einzubeziehen: Hybrides quantenklassisches Reinforcement Learning hat nämlich empirisch gezeigt, dass es weniger Trainingsschritte benötigt, um einen stabilen Lernprozess zu erreichen. Das Fraunhofer IKS forscht an Lösungen, die sich auch für den Einsatz in der Industrie eignen.

Eisfläche Farbverlauf
mask Eisfläche Farbverlauf

Reinforcement Learning (RL), auf Deutsch »Verstärkungslernen«, ist eine Methode des Maschinellen Lernens, bei dem ein autonomes System lernen muss, seine Aktionen im Hinblick auf die Umgebung, in der es sich befindet, zu optimieren. Eine mögliche Aufgabe wäre z. B. ein Roboter, der sich vom Anfang zum Ende eines Labyrinths bewegen soll. Unterteilt man seine Bewegung in Zeitschritte, so befindet sich der Roboter bei jedem Schritt in einem Umgebungszustand und führt eine von mehreren möglichen Aktionen aus, die wiederum die Umgebung in den nächsten Zustand versetzt.

Um festzustellen, wie hilfreich diese Aktion für das System war, gibt ihm die Umwelt eine positive oder negative Belohnung. Nachdem es die Belohnung erhalten hat, kann das System diese Erfahrung verarbeiten und speichern und, falls erforderlich, sein Verhalten ändern, um die Belohnung zu maximieren. Dieser Lernzyklus wird so lange fortgesetzt, bis das System lernt oder bis es die verfügbare Anzahl von Trainingsiterationen überschritten hat.

RL-Algorithmen müssen sich die zu erwartende Belohnung für jeden Umgebungszustand und/oder für jedes Zustands-Aktions-Paar einprägen. Diese Informationen können in einer kartenähnlichen Datenstruktur gespeichert und aktualisiert werden, die jedoch für industriell relevante Anwendungsfälle zu groß werden würde.

Aus diesem Grund verwenden aktuelle leistungsfähige RL-Algorithmen stattdessen neuronale Netze, um die erwarteten Belohnungen annäherungsweise zu schätzen und ihre Gewichte analog zum überwachten Lernprozess zu aktualisieren. Es wurde gezeigt, dass dieser Ansatz dem Gesundheitspersonal bei der Entscheidungsfindung in der Behandlung verschiedener Krankheiten und bei der Entwicklung von Medikamenten helfen und autonome Systeme steuern kann. Daher ist der potenzielle Nutzen für die Industrie ein großer Anreiz für die Forschung im Bereich des RL.

Wie und warum sollte Quantencomputing
im RL eingesetzt werden?

Quantum Reinforcement Learning (QRL) ist die Bezeichnung für alle Methoden, die an der Schnittstelle zwischen Reinforcement Learning und Quantencomputing angesiedelt sind. Im Spektrum zwischen diesen beiden Welten sitzen mehrere Methoden. Einige verwenden klassische Techniken, die sich die Prinzipien der Quantenphysik zunutze machen, nämlich die quanteninspirierten Algorithmen. Am anderen Ende gibt es Lösungen, die ausschließlich auf fehlertolerante Quantencomputer zugeschnitten sind.

Die derzeit entwickelte und zugängliche Quantenhardware erfüllt die Kriterien der Fehlertoleranz jedoch nicht vollständig: In einem Gerät steht nur eine relativ geringe Anzahl von Quantenbits für Berechnungen zur Verfügung, und diese sind immer noch von verschiedenen Arten von Fehlern betroffen – daher der Name Noisy Intermediate Scale Quantum (NISQ)-Geräte. Für diese Geräte kann man sich den Mittelweg des QRL-Spektrums ansehen, nämlich das hybride quantenklassische (HQC) Reinforcement Learning. Bei HQC-Algorithmen werden nur Teile durch Quanten-Submodule ersetzt, wodurch die Vorteile der Quanten- und der klassischen Datenverarbeitung gleichzeitig genutzt werden können.

Quantum Reinforcement Learning unterstützt
Roboter beim Navigieren

Das Fraunhofer-Institut für Kognitive Systeme IKS beschäftigt sich im Rahmen des von der Bayerischen Staatsregierung aus Mitteln der Hightech-Agenda Bayern geförderten Projekts Munich Quantum Valley mit QRL-Verfahren. Zu diesem Zweck wurde in einer Publikation, die dieses Jahr auf der 15th International Conference on Agents and Artificial Intelligence [1] vorgestellt wurde, ein HQC RL-Algorithmus entwickelt. In diesem Beitrag muss ein Roboter auf einem glatten, zugefrorenen See navigieren, Löcher vermeiden und die Zielposition erreichen. Die Herausforderung in dieser Umgebung besteht darin, dass der Roboter ständig ausrutschen und so nicht die beabsichtigten Aktionen ausführen könnte, sodass er auch dies vorhersehen muss.

Es wurde ein klassischer RL-Algorithmus verwendet, bei dem die neuronalen Netze für die Berechnung der erwarteten Belohnung durch Quantenschaltungen verschiedener Architekturen ersetzt wurden. Alle Ansätze waren weniger tief, haben die gleiche Einbettung der Eingangsdaten und sind für NISQ-Geräte geeignet. Sie wurden zwar in der Simulation getestet, eignen sich aber auch für den Betrieb auf der heute verfügbaren Quantenhardware.

Viele der 19 verwendeten HQC-Architekturen erreichten vergleichbare Ergebnisse wie ihre klassischen Gegenstücke und benötigten weniger Trainingsschritte. Bei der Wahl der Quantenarchitektur gibt es mehrere nicht-triviale Entscheidungen, wie z. B. die Kodierung der Daten, die Architektur der trainierbaren Quantenschaltung, die Art der Messung und die klassische Nachbearbeitung der Trainingsergebnisse. Bislang können Quantenmetriken wie entanglement (Fähigkeit zur Quantenverschränkung) die Leistungsunterschiede nicht erklären, wie im Paper [1] zu sehen ist.

Dies zeigt die zwei Seiten des Quantum Reinforcement Learning : Erstens gibt es immer noch Fragen dazu, wie eine solche Lösung für eine bestimmte Aufgabe aufgebaut sein sollte, die in der Literatur nicht erschöpfend beantwortet und daher weiter untersucht werden. Zweitens ist HQC ein vielversprechender Weg für das Reinforcement Learning , bei dem man schneller ein stabiles trainiertes System erreichen kann. Aus diesem Grund könnten weitere Forschungsrichtungen Aufgaben im Gesundheitswesen und in der Roboternavigation umfassen, bei denen die Anzahl der Interaktionen mit der Umgebung t entscheidend ist.

[1] Drăgan, Theodora-Augustina, et al. “Quantum Reinforcement Learning for Solving a Stochastic Frozen Lake Environment and the Impact of Quantum Architecture Choices.” Proceedings of the 15th International Conference on Agents and Artificial Intelligence, 2023. Crossref, https://doi.org/10.5220/0011673400003393.


Nächster Artikel

Reinforcement Learning
Hierarchische Strukturen als Schlüssel für sichere und effiziente KI-Systeme

Felippe Schmoeller
Felippe Schmoeller da Roza
Künstliche Intelligenz & Machine Learning / Fraunhofer IKS
Künstliche Intelligenz