Multi-Agent Reinforcement Learning
Wie intelligente Systeme autonom zusammenarbeiten

In Katastrophengebieten und umkämpften Regionen hängt die Zukunft missionskritischer Operationen von autonomen Systemen ab, die nicht nur handeln, sondern auch zusammenarbeiten. Mithilfe des Multi-Agent Reinforcement Learning (MARL) befähigen Forscherinnen und Forscher am Fraunhofer IKS autonome Systeme dazu, komplexe Koordinationsaufgaben ohne direkte menschliche Anweisungen zu bewältigen. Dieser Wandel von individueller Automatisierung hin zu intelligenter Teamarbeit ermöglicht es komplexen Systemen, sich in schwierigen Umgebungen mit bislang unerreichter Zuverlässigkeit zurechtzufinden.

Nikolai Ginthör

22. Mai 2026

Unbemannte Luftfahrzeuge (UAVs), die den Aufbau eines Kommunikationsnetzes im Erdbebengebiet koordinieren, autonome Bodenfahrzeuge, die in Formation durch unwegsames Gelände navigieren, maritime Systeme, die zusammenarbeiten, um Unterwasserbedrohungen zu erkennen und abzuwehren: In all diesen genannten Szenarien sollten autonome Systeme künftig in der Lage sein, sich selbst zu koordinieren, um den Erfolg der Mission zuverlässig zu gewährleisten.

Ein vielversprechender Ansatz ist das Multi-Agent-Reinforcement-Learning (MARL), das die Selbstorganisation autonomer Teams ermöglichen kann.

Das Spektrum der möglichen Aufgaben für solche Teams ist enorm:

Schwarmkoordination nach einer Katastrophe: Drohnen koordinieren sich gegenseitig bei Such- und Rettungsmissionen, um ein möglichst großes Gebiet abzudecken.
Logistikeinsätze in umkämpften Gebieten: Autonome unbemannte Bodenfahrzeuge koordinieren eigenständig die Versorgung von Stützpunkten in umkämpften und schwer zugänglichen Gebieten.
KI-Agenten, die militärische Einsätze planen und durchführen: Verschiedene KI-Agenten, die auf spezielle Bereiche wie verfügbare raumbezogene Aufklärung, die Einschätzung verbündeter Streitkräfte oder die Bewertung der aktuellen Lage spezialisiert sind, bündeln ihre Teilbeobachtungen, um zur bestmöglichen Planung und Durchführung militärischer Einsätze beizutragen.

In allen beschriebenen Szenarien muss sichergestellt werden, dass die einzelnen Systeme in der Lage sind, sich zuverlässig und effizient untereinander abzustimmen.

Reinforcement Learning als Wegbereiter

Bei vielen realen Problemen ist es zwar einfach zu erkennen, dass eine Aufgabe abgeschlossen ist, doch ist es schwierig, explizit zu definieren, wie dies zu erreichen ist. In solchen Fällen kann es sinnvoll sein, einen Agenten des Maschinellen Lernens (ML) mit seiner Umgebung interagieren und durch Trial-and-Error-Methoden lernen zu lassen. Reinforcement Learning („verstärkendes Lernen“, RL) ist ein Ansatz des Maschinellen Lernens, das genau dies ermöglicht. In seiner Standardform mit einem einzelnen Agenten wird ein Agent in eine Umgebung (zunächst oft eine simulierte Umgebung) versetzt, in der er dazu in der Lage ist, bestimmte Aktionen auszuführen, die zu Veränderungen seines Zustands führen (z. B. bewegt sich ein Roboter in einem Labyrinth vorwärts, wodurch sich seine Koordinaten ändern und er neue Sensorwerte erhält). Zudem bekommt er eine Belohnung (z. B. ob er der Zielposition näher gekommen ist). Während der Agent weiterhin mit seiner Umgebung interagiert und die daraus resultierenden Belohnungen beobachtet, verbessert er nach und nach seine Strategie zur Auswahl einer optimalen Aktion (in Abhängigkeit vom Umgebungszustand). Dieser Ansatz ist äußerst erfolgreich und findet breite Anwendung in kontrollierten Umgebungen wie der Fertigung und der Robotik.

MARL erweitert das RL mit einem einzelnen Agenten auf Szenarien, in denen sich mehrere Agenten dieselbe Umgebung teilen. Diese Agenten haben nicht nur die Aufgabe, ihre individuellen Belohnungen zu maximieren, sondern auch ein gemeinsames oder kollektives Ziel zu optimieren. Je nach der Beziehung zwischen den Zielen der Agenten lassen sich verschiedene Arten von MARL unterscheiden: kooperativ (alle Agenten verfolgen dasselbe Ziel), kompetitiv (Agenten haben gegensätzliche Ziele) und gemischt (Agenten innerhalb desselben Teams verfolgen ein gemeinsames Ziel, das Ziel ihres Teams steht jedoch im Konflikt mit dem eines anderen Teams).

Paper:
Quantum Multi-Agent Reinforcement Learning
for Aerial Ad-Hoc Networks

Ausführlichere Informationen zu diesem Thema finden Sie in der Veröffentlichung „Quantum Multi-Agent Reinforcement Learning for Aerial Ad-Hoc Networks“

Zum Paper

MARL ist besonders relevant für komplexe verteilte Systeme wie die oben genannten, bringt jedoch auch zusätzliche Herausforderungen mit sich, wie nichtstationäre Dynamiken (sich aufgrund der Interaktionen anderer Agenten rasch verändernder Umgebungszustand), Probleme der Zuordnung von Verdiensten (wie lassen sich die Belohnungen einer Gruppe einem einzelnen Agenten zuweisen) und Skalierbarkeitsprobleme (da der Aktions-Zustandsraum exponentiell mit der Anzahl der Agenten wächst). All diese Themen werden in der Forschungsgemeinschaft aktiv und zügig untersucht.

Gemeinsam mit Airbus entwickelte das Fraunhofer IKS ein MARL-System für die kooperative Pfadplanung für die Kommunikation in Ad-hoc-Netzwerken der Luftfahrt, eine Technologie, die zur Lösung komplexer Kommunikationsprobleme in der Luft- und Raumfahrt beitragen soll. Ziel ist es, die Anzahl der autonomen Luftfahrzeuge (AVs) zu maximieren, die mit der Bodenstation (GS) verbunden sind, entweder direkt oder indirekt über Multi-Hop-Verbindungen über andere AVs. Im Rahmen dieses Projekts bewerteten die Forscherinnen und Forscher auch die Wirksamkeit neuer Technologien wie Quantencomputing, um Ergebnisse zu erzielen.

Das Fraunhofer IKS steht Ihnen bei Fragen zum Multi-Agent-Reinforcement-Learning gerne zur Verfügung. Bitte wenden Sie sich an unsere Expertinnen und Experte, um Ihre individuellen Anforderungen zu besprechen: Herr Nikolai Ginthör, E-Mail: nikolai.ginthoer@iks.fraunhofer.de, Telefon +49 89 547088-326

Ausblick: Die Zukunft gehört selbstorganisierten, autonomen Teams

Autonome Systeme wie Drohnenschwärme oder KI-gestützte C2-Systeme (Command and Control) werden in den kommenden Jahren in vielen Bereichen der inneren und äußeren Sicherheit unverzichtbar sein. Das Ziel, intelligente Systeme zuverlässig und transparent zu betreiben, kann jedoch nur erreicht werden, wenn in den folgenden Bereichen weiterhin stetige Fortschritte erzielt werden:

Weiterentwickelte Konzepte zur Sicherheitsgewährleistung, die mit der wachsenden Komplexität einzelner Systeme und Systemverbünde (SoS) Schritt halten können.
Sichere Zusammenarbeit zwischen Mensch und KI, bei der der Mensch nach Möglichkeit die Kontrolle über kritische Entscheidungen behält („Human-in-the-Loop“), ohne dabei die durch autonome Teams erzielten Geschwindigkeits- und Effizienzvorteile zu beeinträchtigen.
Resiliente und robuste Systeme, die optimal vor Angriffen wie gegnerischen Attacken sowie vor widrigen Umgebungsbedingungen geschützt sind.

Auf all diesen Forschungsgebieten arbeitet das Fraunhofer IKS gemeinsam mit seinen Partnern daran, intelligente Systeme in den Bereichen innere und äußere Sicherheit sicher in den operativen Einsatz zu bringen.

Magazin des Fraunhofer-Instituts für Kognitive Systeme IKS

Multi-Agent Reinforcement Learning
Wie intelligente Systeme autonom zusammenarbeiten

Reinforcement Learning als Wegbereiter

Paper:
Quantum Multi-Agent Reinforcement Learning
for Aerial Ad-Hoc Networks

Ausblick: Die Zukunft gehört selbstorganisierten, autonomen Teams

Rüstung
Ein Turbo für die Verteidigung: die Revolution durch Software-Defined Defence

Reinforcement Learning als Wegbereiter

Paper:Quantum Multi-Agent Reinforcement Learning for Aerial Ad-Hoc Networks

Ausblick: Die Zukunft gehört selbstorganisierten, autonomen Teams

Rüstung Ein Turbo für die Verteidigung: die Revolution durch Software-Defined Defence

Paper:
Quantum Multi-Agent Reinforcement Learning
for Aerial Ad-Hoc Networks

Rüstung
Ein Turbo für die Verteidigung: die Revolution durch Software-Defined Defence