Nächster Artikel
Maschinelles Lernen
Robuscope: Schnellcheck für KI
Ein einfaches Online-Tool macht es möglich, die Robustheit eines KI-Modells zu testen – und das innerhalb weniger Sekunden. Robuscope heißt das Werkzeug, entwickelt wurde es vom Fraunhofer IKS.
© iStock/tunart
Maschinelles Lernen und Künstliche Intelligenz (KI) sind bereits in vielen Anwendungsbereichen im Einsatz. Dabei werden mit Hilfe von vielen Datenpunkten Modelle trainiert, die beispielsweise defekte Bauteile aufgrund von Kamerabildern erkennen oder die weitere Entwicklung von Krankheitsverläufen vorhersagen. Bewertet werden solche Modelle in der Regel anhand ihrer Genauigkeit auf ausgewählten Testdaten, das heißt wie oft die Vorhersagen des Modells mit der tatsächlichen Lösung übereinstimmen.
In kritischen Anwendungsbereichen ist die Genauigkeit allein jedoch ein trügerisches Merkmal, da sie für die verbleibenden Fehlerfälle keinerlei Aussagen zulässt, wie sich diese verteilen und ob das Modell anfällig für systematische Fehler ist. So könnten beispielsweise trotz einer sehr hohen Genauigkeit alle Fehler nur bei einer konkreten Klasse auftreten, bei der Verwechslungen besonders kritisch sind.
Tool macht Verbesserungsvorschläge
Tiefergehende Analysen eines Modells sind jedoch aufwändig, erfordern nicht selten manuelle Arbeit und die Interpretation der Ergebnisse setzt Expertise und Erfahrung in vielen Bereichen des Maschinellen Lernens voraus. Aus diesem Grund hat das Fraunhofer-Institut für Kognitive Systeme IKS Robuscope entwickelt: ein einfaches Online-Werkzeug, mit dem die Robustheit eines KI-basierten Klassifikationsmodells getestet werden kann. Mit einem Mausklick hat der Nutzer Zugriff auf die Erfahrung unserer Forscherinnen und Forscher beim Test von KI-Modellen. Eine breite Palette von etablierten Metriken zeigt dabei spezifische Fehlercharakteristika auf und hilft so, ein besseres Verständnis für mögliche Schwachstellen des Modells zu entwickeln. Zusätzlich enthält der Analysebericht konkrete Vorschläge zur Verbesserung, die Anwendungsexperten bei der Entwicklung verlässlicherer Modelle unterstützen.
Die Forschenden am Fraunhofer IKS sind davon überzeugt, dass jedes KI-Modell vor dem praktischen Einsatz umfangreich getestet werden sollte. Um dies allen KI-Anwendern zu ermöglichen, sind bei Robuscope die erforderlichen Eingabedaten auf ein absolutes Minimum reduziert. Ein Zugriff auf das trainierte Modell oder möglicherweise sensitive Trainings- oder Testdaten ist nicht erforderlich. Stattdessen lädt der Nutzer eine Datei mit den Vorhersagen des zu testenden Modells – eine Wahrscheinlichkeitsverteilung über die einzelnen Klassen – sowie dem erwarteten Ergebnis (ground truth) in das Werkzeug (https://robuscope.iks.fraunhofer.de). Innerhalb von wenigen Sekunden wird basierend auf den Daten ein ausführlicher Analysebericht erstellt, welcher direkt im Browser Aufschluss über die Qualität der Vorhersagen des verwendeten Modells gibt. Selbstverständlich kann der Bericht auch zur späteren Analyse heruntergeladen werden.
Stabile Vorhersagen sind gefordert
Im Detail besteht die Analyse aus verschiedenen Teilaspekten. Zunächst wird untersucht, ob es Klassen gibt, die besonders häufig miteinander verwechselt werden und wie sicher sich das Modell dabei ist. Daraus lassen sich vor allem systematische Fehler ableiten. Die abschließende Interpretation ist aber hochgradig abhängig vom Anwendungsfall. Werden vor allem Klassen verwechselt, die funktionell zu einem ähnlichen Verhalten führen, zum Beispiel unterschiedliche Fehlerbilder bei der Qualitätskontrolle, die aber beide zur Aussortierung des Werkstückes führen, so ist das weniger kritisch, als wenn häufig ein bestimmter Defekttyp mit einem fehlerfreien Werkstück verwechselt werden würde. Häufungen bei den Fehlerfällen sind oft ein Indikator für fehlende Trainingsdaten - insbesondere zur Unterscheidung der betroffenen Klassen.
Im Anschluss werden die Stabilität der Vorhersagen sowie die Kalibrierung der ausgegebenen Wahrscheinlichkeiten analysiert.. Stabile und somit robuste Modelle zeichnen sich dadurch aus, dass zwischen dem richtigen Ergebnis und den anderen Optionen ein ausreichend großer Abstand liegt, um auch bei kleineren Änderungen nicht sofort zu einem anderen Ergebnis zu führen. Die Kalibrierung hingegen beschreibt, wie gut die vorhergesagten Wahrscheinlichkeiten (interpretiert als Konfidenzen) mit der tatsächlichen Richtigkeit übereinstimmen. Bei Eingaben, für die sich das Modell sehr sicher ist, sollte es auch stets richtig sein. Nur so kann die Konfidenz als zusätzliches Maß für die Vertrauenswürdigkeit des Modells herangezogen werden, um beispielsweise bei niedriger Konfidenz den Nutzer zu informieren oder anstelle des Modells auf alternative Algorithmen zurückzugreifen.
Wir laden Sie ein, sich selbst ein Bild zu machen: Testen Sie unser Analysewerkzeug Robuscope und lernen Sie ihre KI-Modelle besser kennen!
Wenn Sie Fragen zu Robuscope haben, wenden Sie sich an Karsten Roscher: karsten.roscher@iks.fraunhofer.de
Der anschließende Analyseblock macht sich genau diese Idee zu Nutze. Dabei werden verschiedene Möglichkeiten evaluiert, die Wahrscheinlichkeitsverteilung der Modellvorhersagen heranzuziehen, um die Fehler beim Einsatz des Modells zu reduzieren. Dies geht jedoch in der Regel zu Lasten der Performanz. Die Identifikation eines günstigen Arbeitspunktes durch Wahl eines geeigneten Schwellenwertes – das heißt ab wann das Modell als »unsicher « einzustufen ist – kann durch die Gegenüberstellung von Restfehler und verbleibender Genauigkeit sowie weiterer unsicherheitsspezfischer Metriken erleichtert werden.
Neben validen Testdaten aus dem Einsatzbereich des Modells (» in distribution) kann der Nutzer zusätzlich Ausgaben des Modells bei Anwendungen auf unbekannten („»out-of-distribution «) oder stark verfremdeten (» corrupted «) Daten bereitstellen, falls diese vorhanden sind. Im Bericht werden diese Daten dann gesondert berücksichtigt, um das Verhalten des Modells bei eben solchen Eingaben zu bewerten und damit ein umfassendes Bild zu dessen Praxistauglichkeit zu erhalten.
Dieses Vorhaben wurde im Rahmen des Projekts Unterstützung des thematischen Aufbaus des Instituts für Kognitive Systeme durch das Bayerische Staatsministerium für Wirtschaft, Landesentwicklung und Energie gefördert.