Deep Reinforcement Learning
Deep Reinforcement Learning (DRL) ist eine Klasse von selbständigen Lernern (künstlichen Intelligenzen), bei der autonome neuronale Netze eigenständig Lösungsmöglichkeiten finden und während des Trainings ausprobieren.
Die so erlernten Strategien (Policys) sind sehr vielseitig und müssen nicht zwangsläufig durch Experten überwacht oder eingegrenzt werden. Sie können komplexe Handlungsweisen abbilden und nach dem Training universell für den jeweiligen Use-Case eingesetzt werden.
Dadurch sind DRL Algorithmen in der Anwendung weit handlungsschneller als herkömmliche Optimierungsverfahren.
Adaptability
Herkömmliche Deep Learning Modelle werden ganz spezifisch auf eine Aufgabe wie das Klassifizieren von Hunde- oder Katzenbildern trainiert, wobei sie teilweise übermenschliche Genauigkeit erreichen.
Doch sobald sich die Aufgabe leicht ändert, z.B. zusätzlich auch noch Bilder von Pferden erkannt werden sollen, scheitern diese Modelle meist daran, auf die neuen Anforderungen zu generalisieren.
Gleichzeitig fällt es uns Menschen oft leicht, uns an neue Gegebenheiten anzupassen.
Schon kleine Kinder können nach wenigen Beispielen neue Objekte zuverlässig von anderen unterscheiden. Sie können das Wissen aus anderen Aufgaben erfolgreich auf die neue Anforderung transferieren, bzw. haben bereits grundlegend gelernt, was die Aufgabe, z.B. Bildklassifizierung, allgemein ausmacht.
Diese beiden Erklärungsansätze motivieren die Forschungsgebiete des Transfer- und des Meta-Learnings.
Transfer-Learning
Seien T₁ und T₂ zwei ähnliche Machine-Learning Aufgaben, d.h. zwei Aufgaben, die sich nur in Verlustfunktionen, Domain oder Domain-Dynamik unterscheiden.
Transfer-Learning zielt darauf ab, Wissen von der ersten, dem Source Task, auf die zweite, den Target Task, zu übertragen.
Dies geschieht, indem man ein Modell im Source Task T₁ trainiert und dann das gewonnene Wissen auf einen Algorithmus überträgt, der den Target Task T₂ bearbeitet. Dabei wird in der Regel davon ausgegangen, dass für den Source Task mehr Trainingsdaten vorliegen, so dass er besser gelernt werden kann, während für den Target Task nicht zwangsläufig genügend Daten vorliegen, um ihn auf herkömmliche Weise lernen zu können.
Meta-Learning
Im Gegensatz dazu zielt ein Meta-Learning Modell darauf ab, iterativ aus einer zunehmenden Anzahl von Aufgaben Tᵢ zu lernen, die aus einer Verteilung von Aufgaben stammen, die auf die oben beschriebene Weise ähnlich sind, so dass es sowohl gut als auch schnell, d.h. in wenigen Versuchen auf ungesehene Aufgaben aus derselben Verteilung generalisiert.
Aus diesem Grund wird das Meta-Learning-Paradigma oft als „Learning to learn“ bezeichnet.
Anstatt nur eine bestimmte Lösung auf eine andere spezifische Lösung zu übertragen, lernt ein Meta-Learning Modell, was die gemeinsamen Eigenschaften aller Tasks aus einer Verteilung von Tasks sind, bevor es innerhalb weniger Versuche ein Fine-Tuning auf eine bestimmte Aufgabe vornimmt.
Adaptability im Energiesystem
Das Energiesystem ist permanent starken äußeren Einflüssen ausgesetzt: Seien es Krisen, die unvorhersehbare Preisschwankungen auf dem Energiemarkt hervorrufen, Extremwetterereignisse, die das Energienetz belasten oder gar politische Entscheidungen wie Nodal Pricing, die den Preisbildungsmechanismus auf den Energiemärkten grundlegend verändern könnten.
All diese Veränderungen stellen herkömmliche Deep Learning Modelle, die z.B. das Netz steuern oder über den Energiemarkt wetterbedingte Energieschwankungen ausgleichen, vor unlösbare Aufgaben.
Deshalb haben wir uns als Ziel gesetzt, Algorithmen zu erarbeiten, die sich binnen kürzester Zeit auf derartig einschneidende Veränderungen anpassen können. Mithilfe von Transfer- bzw. Meta-Reinforcement-Learning Modellen wollen wir das Energiesystem anpassungsfähiger und damit resilienter machen und unseren Beitrag zur Energiewende leisten.
Trustworthy AI
Ein wichtiges Forschungsgebiet der Künstlichen Intelligenz ist die Entwicklung vertrauenswürdiger KI-Systeme (Trustworthy AI), die transparent, sicher und zuverlässig arbeiten. Vertrauenswürdige KI ist besonders wichtig für Stromversorgungssysteme, wo Fehlfunktionen oder Missbrauch von KI zu erheblichen wirtschaftlichen Verlusten oder Stromausfällen führen können. Zwei wichtige Bereiche in diesem Forschungsgebiet sind Erklärbare Künstliche Intelligenz (Explainable AI) und Adversarial Machine Learning (AML).
Explainable Artificial Intelligence
Erklärbare KI ist ein Teilgebiet der Vertrauenswürdigen KI und konzentriert sich auf die Entwicklung von KI-Systemen, die klare und verständliche Erklärungen für ihre Entscheidungsprozesse liefern können. Diese Erklärungen sind besonders wichtig in Energiesystemen, wo verschiedene Interessengruppen (einschließlich Regulierungsbehörden, Betreiber und die Öffentlichkeit) die Handlungen von KI-Systemen verstehen und rechtfertigen müssen. Die meisten Forschungsarbeiten im Bereich der Erklärbaren KI konzentrieren sich auf Post-hoc-Erklärungsmethoden, die Erklärungen für Black-Box-Modelle liefern, nachdem ein Modell eine Entscheidung getroffen hat. Black-Box-Modelle des maschinellen Lernens (ML) sind Funktionen, die zu komplex sind, um von Menschen verstanden zu werden, wie z. B. Random Forests und Deep Neural Networks. Post-hoc-Erklärungen sind jedoch nicht immer vollständig und präzise. Das macht es schwierig, diesen Erklärungen und dem Black-Box-Modell, das sie zu erklären versuchen, zu vertrauen. Außerdem sind Black-Box-Modelle (und damit Post-hoc-Erklärungen) oft gar nicht erforderlich. Insbesondere bei strukturierten Daten mit aussagekräftigen Merkmalen funktionieren inhärent interpretierbare Modelle (wie lineare Regression oder Entscheidungsbäume) in der Regel genauso gut wie Black-Box-Modelle. Im Gegensatz zu Black-Box-Modellen sind inhärent interpretierbare KI-Modelle so konzipiert, dass sie von Anfang an transparent sind und verlässliche Erklärungen als Kernbestandteil ihrer Funktion liefern. Für die großen Mengen unstrukturierter Daten aus Energiesystemanwendungen (z.B. Audio, Bilder und Zeitreihen) bietet Deep Learning (DL) jedoch erhebliche Leistungsverbesserungen. Daher besteht ein Bedarf an inhärent interpretierbaren DL-Modellen, die in der Lage sind, unstrukturierte Daten mit hoher Leistung zu verarbeiten und gleichzeitig transparent in ihrer Entscheidungsfindung zu sein.
Adversarial Machine Learning
Ein weiterer wichtiger Aspekt vertrauenswürdiger KI ist die Robustheit gegenüber Angriffen. Sie bezieht sich auf die Fähigkeit eines KI-Systems, Versuchen von Angreifern zu widerstehen, die Funktionsweise des KI-Systems durch Angriffe zu manipulieren oder zu stören. Die Robustheit gegenüber Angriffen ist besonders wichtig für KI-Anwendungen in Stromversorgungssystemen, wo ein erfolgreicher Angriff erhebliche Schäden wie Stromausfälle verursachen kann. Die Forschung im Bereich Adversarial Machine Learning konzentriert sich auf die Entwicklung von Methoden zur Generierung von Angriffen und Techniken zu deren Abwehr. Der Großteil dieser Forschung findet jedoch in den Bereichen Computer Vision und Natural Language Processing statt. In Bereichen, die für KI-Anwendungen in Stromversorgungssystemen relevant sind, wie z.B. Regressions- und Reinforcement-Learning-Aufgaben, gibt es derzeit nur wenig Forschung zu AML.
Komplexe Observation and Action Spaces
Observation Space
Sowohl im Energiehandel als auch in der Netzsteuerung gibt es eine Vielzahl von Eingangsgrößen (z.B. aktuelle Wetterlage, Wetter- und EE-Prognosen, Orderbuchinformationen, Einspeisung, etc.), mit denen der Deep Reinforcement Learning Algorithmus umgehen muss. Für DRL-Anwendungen müssen diese Eingangsgrößen über sogenannte Observation Spaces in die DRL-Umgebung (Environment) einfließen. Mit Hilfe der Observation Spaces kann der DRL-Agent dann den aktuellen Zustand abschätzen und daraus sinnvolle Aktionen ableiten. Aufgrund der Vielzahl an Möglichkeiten ist ein zu großer Observation Space jedoch hinderlich für die Entwicklung von DRL-Agenten. Aus diesem Grund müssen die Eingangsgrößen unterschiedlich behandelt werden und zum Beispiel durch Parametrisierung oder durch vorgeschaltete neuronale Netze skaliert werden. Im Rahmen von RL4CES werden zudem Techniken wie das Imitation Learning genauer betrachtet, um die DRL-Agent vorzulernen, damit diese besser mit den Eingangsgrößen umgehen können.
Action Space
Darüber hinaus sind neben den Beobachtungsräumen auch die Action Spaces (Handlungsmöglichkeiten) von großer Bedeutung für die Leistungsfähigkeit von DRL-Agenten. Die Action Spaces beschreiben dabei, welche Handlungsmöglichkeiten der DRL-Agent besitzt. Sowohl im Bereich der Energienetze (Schalten von Netzen, Zu- und Abschalten von Leistung, etc.) als auch im Energiehandel (Portfoliooptimierung, Prognoseänderungen, etc.) existieren komplexe Aktionsräume, die mit steigender Anzahl von Aktionen exponentiell wachsen. Je nach Zustand der Environment müssen intelligente Lösungen einen Teil der Aktionen einschränken, ohne von vornherein Fälle auszuschließen.
Dementsprechend ist eine Forschungsfeld von RL4CES, wie mit den komplexen Action Spaces für den Einsatz von DRL in Energienetzen und im Energiehandel umgegangen werden kann. Hierzu werden verschiedene Algorithmen in Kombination mit regelbasierten Ansätzen untersucht und auf die Anwendungen getestet. Zudem werden Ansätze wie das Action Masking genauer betrachtet und untersucht.
Graph Neural Networks
GNNs sind Deep-Learning-Modelle, die auf Daten mit einer Graphstruktur spezialisiert sind. Im Gegensatz zu herkömmlichen neuronalen Netzen können sie komplexe Beziehungen und Zusammenhänge zwischen Entitäten modellieren und daraus lernen. Dabei werden die Daten als Graph dargestellt, d.h. bestehend aus Knoten, die durch Kanten verbunden sind. Im Stromnetz sind dies z.B. Netzkomponenten wie Generatoren oder Busse, die durch Leitungen verbunden sind. GNNs verarbeiten solche Graphen durch mehrere Schichten, in denen Informationen zwischen benachbarten Knoten ausgetauscht werden. Dabei wird für jeden Knoten eine abstrakte Repräsentation gelernt. Die Struktur des Graphen bleibt dabei erhalten, d.h. der Ausgabegraph kann auch Beziehungen zwischen Knoten darstellen. Im Allgemeinen werden GNNs häufig zur Klassifikation oder Regression auf Knoten-, Kanten- oder Graphenebene sowie zur Vorhersage von Verbindungen innerhalb des Graphen verwendet. Mittlerweile haben sich GNNs als effektive Modelle für eine Vielzahl von Aufgaben etabliert. Da Stromnetze eine natürliche Graphenstruktur besitzen und die Netzknoten sich gegenseitig stark beeinflussen, eignen sich GNNs hier besonders zur Informationsextraktion und darauf aufbauenden Vorhersagen. GNNs für Energienetze sind ein sich schnell entwickelndes und noch relativ junges Gebiet und wir arbeiten an der Entwicklung von GNNs, die sowohl die Netzberechnung als auch die Netzsteuerung verbessern. Dabei kooperieren wir mit der Forschungsgruppe GAIN (https://www.gain-group.de/).