Masterarbeit: Sim-to-Real-Gap im Reinforcement Learning

Jorge Mandlmaier, wissenschaftlicher Mitarbeiter am Institut für Produktion und Informatik Sonthofen, hat kürzlich seine Masterarbeit bei Prof. Frieder Heieck über den Sim-to-Real-Gap im Reinforcement Learning geschrieben und dabei das Furuta-Pendel als Versuchsaufbau genutzt. Ein Interview über Erfolge und Aha-Momente.

Jorge Mandlmaier auf der Hochschulmesse neben dem Furuta-Pendel. Foto: Ronja Tennigkeit / HS Kempten / IPI.

Lass uns am Anfang über dich sprechen: Wer bist du und wie bist du ans Institut gekommen?

Ich komme ursprünglich vom Bodensee. Nach meinem Abitur bin ich nach Hamburg gezogen, um Elektrotechnik zu studieren. Im Studium habe ich gemerkt, dass ich gerne etwas mit KI machen möchte. Daraufhin bin ich nach meiner Bachelorarbeit ins Allgäu nach Kempten gezogen, um dort den Master in KI und Computervision zu studieren.
Ans IPI gekommen bin ich, weil meine Frau ihre Masterarbeit ebenfalls hier gemacht hat und mir dann sagte: „Hey, da ist ein Stellenangebot für eine Masterarbeit im Bereich Reinforcement Learning!“ Dann habe ich mich darauf beworben. Meine Erfahrung mit der Masterarbeit war so gut, dass ich beschlossen habe, hier weiterzuarbeiten.

Damit kommen wir auch schon zu deinem Masterarbeitsthema. Du hast mit dem Furuta-Pendel gearbeitet. Wie bist du genau zu diesem Versuchsaufbau gekommen?

Hier gab es bereits Studentenprojekte, die Aufbauten für Reinforcement-Learning-Demonstratoren entwickelt hatten. Der kompakteste und vielversprechendste Aufbau war das Furuta-Pendel. Das Furuta-Pendel oder rotatorisch umgekehrte Pendel besteht aus einem Antriebsarm, der sich in der horizontalen Ebene dreht, und einem Pendel, das an dem in der vertikalen Ebene frei drehbaren Arm befestigt ist. Es wurde 1992 am Tokyo Institute of Technology erfunden und ist von Interesse in der Steuerungssystemtheorie.

Für alle, die mit dem Begriff „Sim-to-Real-Gap“ nicht viel anfangen können: Kannst du dein Thema kurz und verständlich erklären?

Die unterliegende Theorie ist der Sim-to-Real-Gap – also die Diskrepanz zwischen Simulation und Realität. Beim Reinforcement Learning trainiert man oft in Simulationen, weil es zu gefährlich, zeitaufwändig oder teuer ist, in der Realität zu trainieren. Das Problem ist, dass Simulationen die Realität nie hundertprozentig abbilden. Das führt dazu, dass ein Reinforcement-Learning-Agent in der Simulation gut funktioniert, in der Realität aber gar nicht, weil er das Systemverhalten anders gelernt hat. Meine Masterarbeit hat untersucht, wie viel Aufwand nötig ist, um den Sim-to-Real-Gap zu überbrücken, damit es in der Realität noch funktioniert.

Das klingt nach einer spannenden Fragestellung. Welche Methoden hast du eingesetzt, um diesen Gap zu schließen?

Ich habe die Größe des Gaps variiert, indem ich die Simulationskomplexität angepasst und Faktoren wie Dämpfung mal berücksichtigt und mal nicht berücksichtigt habe. Auf der anderen Seite habe ich sogenannte Bridging Techniques wie Domain Randomisation und Time Randomisation eingesetzt. Dann habe ich geschaut: Wie groß darf das Gap sein, damit es trotzdem noch funktioniert. Die Größe des Gaps entspricht dem Arbeitsaufwand, der in die Simulation fließt. Wenn man das Gap größer lassen kann, muss die Simulation nicht so präzise sein, sondern kann einige Aspekte vernachlässigen. Das könnte für die Industrie interessant sein.

Du hast gerade erwähnt, dass du manche Parameter mal einbezogen und mal weggelassen hast. Welche davon waren entscheidend und welche eher vernachlässigbar?

Ich habe es mir relativ einfach gemacht und Parameter gewählt, die man gut weglassen kann. Das ist zum einen die Dämpfung der Aktoren. Zum anderen: Da sich der Motor um sich selbst dreht und das Pendel sich ebenfalls um sich selbst dreht, entsteht eine dreidimensionale Abhängigkeit. Zur Vereinfachung habe ich teilweise die Dimensionen der Trägheitssensoren weggelassen, weil ihr Einfluss gering ist. Das war weniger Ausprobieren, sondern eher eine bewusste Vereinfachung.

Lass uns einen Schritt weitergehen und auf die Praxis schauen. Welche Probleme der Industrie löst dein Ansatz?

Gelöst habe ich damit noch nichts. Aber es soll eine Richtlinie geben, wie viel Arbeit nötig ist, um ein funktionierendes Modell in die Realität zu übertragen. Reinforcement Learning könnte sich für manche Prozesse als dynamische Regelung anbieten. Bisher schreckt man davor zurück, weil die Simulation sehr aufwendig und genau sein muss, damit man sich auf sie verlassen kann. Mein Ansatz: Die Simulation nicht extrem genau machen, sondern einen groben Aufbau erstellen, den Agent trainieren lassen, und ihn dann mit Bridging Techniques so weit bringen, dass er in der Realität starten kann und dort weiterlernt. Das reduziert den Arbeitsaufwand.

Und was waren die wichtigsten Erkenntnisse aus deiner Arbeit?

Ich hatte fünf verschiedene Simulationskomplexitäten. Überraschenderweise hat die komplexeste in der Realität am zweitschlechtesten funktioniert. Das heißt: Wenn man versucht, ein System sehr genau physikalisch zu modellieren, stimmen diese Modelle oft nicht perfekt mit der Realität überein. Über viele Terme hinweg summieren sich kleine Abweichungen, sodass das Verhalten anders wird. Wenn man das Modell vereinfacht und manche Terme weglässt, kann es sein, dass die Generalisierung auf die Realität besser ist.
Außerdem: Ich habe die Agenten in Simulationen trainiert und dann einmal auf der komplexesten Simulation getestet und einmal in der Realität. Die Ergebnisse waren sehr unterschiedlich. Viele Arbeiten berichten von Tests von einer einfachen zu einer komplexeren Simulation und nennen das Sim-to-Real-Gap. Streng genommen ist das aber nur ein Sim-to-Sim-Gap. Man sollte in der Realität testen, sonst trifft man keine Aussage über die echte Welt.

Du hast also Sim-to-Real getestet. Musstest du dafür besondere Schritte unternehmen, damit das auf der Hardware sicher und zuverlässig läuft?

Ein großes Problem war die Echtzeitfähigkeit des Pendels – also sicherzustellen, dass die Antwort des Modells schnell genug beim Motor ankommt. Das Verhalten muss konstant schnell sein, damit sich das Modell darauf verlassen kann. Die Kommunikation zwischen Motorsteuerung und Reinforcement-Learning-Modell so schnell und zuverlässig aufzubauen, war eine große Herausforderung für Tests in der Realität.

Was waren für dich die größten Herausforderungen während der Arbeit?

Ein großes Problem war die Hardware. In deren Aufbau sind mir ein paar Fehler aufgefallen. Da ich den Aufbau nicht selbst gemacht hatte, wusste ich nicht genau, was verbaut war und welche potenziellen Fehler vorhanden sein könnten. Es hat teilweise lange gedauert, die Ursachen zu finden, weil ich falsche Messungen in der Software erhalten habe. Das hat viel Zeit gekostet. Ein weiteres Problem war die Literaturrecherche. Reinforcement Learning ist ein schnell wachsendes Feld. Paper von vor ein oder zwei Jahren sind teilweise schon überholt, weil neue Ansätze entwickelt wurden. Es war schwierig, den aktuellsten Stand der Forschung zu erfassen, da sich das Feld so schnell verändert.

Gab es denn schon Interesse aus der Industrie an deinen Ergebnissen?

Das Thema ist seit einer Weile relevant, weil dieser Übergang von Simulation zur Realität entscheidend ist, um Reinforcement Learning in die Industrie zu bringen. Woran Firmen besonders interessiert waren, war das Pendel selbst. Es ist ein gutes Beispiel für Echtzeitregelung: Das Balancieren funktioniert nur, wenn in einer bestimmten Zeit zuverlässig Rückmeldung gegeben wird.
Besonders interessant ist, dass der Reinforcement-Learning-Agent durch die Randomisierung der Simulation nicht nur mit dem ursprünglichen Pendel umgehen kann, sondern auch mit ausgetauschten Pendeln, bei denen Schwerpunkt oder Gewicht verändert wurden. Das könnte auch in industriellen Prozessen nützlich sein, in denen sich Belastungen im Laufe der Zeit ändern und eine Anpassung erforderlich ist.

Lass uns zum Abschluss auf deine persönliche Erfahrung im wissenschaftlichen Arbeiten eingehen. Was hat dir bei der Arbeit am meisten Freude bereitet?

Die besten Momente waren, wenn ich einen Agenten trainiert und dann in der Realität getestet habe und er funktioniert hat. Das ist ein bisschen, wie wenn man einem Kind beim Lernen zuschaut und am Ende sieht, dass es etwas kann. Außerdem hat mir das Basteln an der Hardware Spaß gemacht, solange es im Rahmen blieb.

Gab es etwas, das dich besonders überrascht hat?

Es hat mich überrascht, wie viel Freiheit ich hier am IPI hatte. Ich habe das Thema und das Pendel bekommen und konnte dann selbst entscheiden, wie ich vorgehe. Der Rahmen war durch das Thema gesetzt, aber innerhalb dessen war ich frei in der Umsetzung. Das hat Spaß gemacht und zu einem guten Ergebnis geführt.

Wohin wird dich deine Forschung noch führen? Gibt es etwas, das du vertiefen möchtest?

Ich möchte mich weiterhin mit dem Sim-to-Real-Gap beschäftigen, besonders mit den Gründen, warum eine genauere Simulation nicht unbedingt das beste Ergebnis beim Training von Agenten liefert.

Was würdest du zukünftigen Masterstudierenden raten?

Nehmt euch vor dem Studium ein, zwei Wochen Zeit und überlegt euch ein gutes Datenmanagement-System. Mir ist es häufig passiert, dass ich wusste, ein Thema war in irgendeiner Vorlesung auf einer Folie, und dann begann die große Suche. Ein gutes System hätte mir viel Zeit gespart.

Das Interview führte: Ronja Tennigkeit, studentische Mitarbeiterin am Institut für Produktion und Informatik Sonthofen

Ansprechpartnerin bei Fragen:
Steffi Nickol, Operative Leitung IPI, steffi.nickol(at)hs-kempten.de, 0831/ 2523-9225

Das Furuta-Pendel. Foto: Ronja Tennigkeit / HS Kempten / IPI.

Trainiertes RL-Modell balanciert das Furuta-Pendel. Video: Jorge Mandlmaier / HS Kempten / IPI.

Artikel

28.08.2025

Masterarbeit: Sim-to-Real-Gap im Reinforcement Learning