Wie Roboter Menschen verstehen lernen
Wenn Rudolf Lioutikov über intelligente Roboter spricht, klingt das nicht nach Science-Fiction. Dem Professor für Maschinelles Lernen und Robotik am KIT geht es um Alltagsdinge: Smarte Maschinen sollen eine Tasse anreichen oder ein Glas ins Regal stellen. Trotzdem ist seine Vision revolutionär: Lioutikov will Roboter entwickeln, die Menschen wirklich verstehen. Sie sollen nicht nur Aufgaben ausführen, sondern mit Menschen auf natürliche Weise kommunizieren und kooperieren können – auch wenn diese keine technischen Vorkenntnisse haben.
Dafür setzt er auf eine neue Generation von KI-Modellen, die Sprache und Bilder erkennen und daraus auch sinnvolles Verhalten ableiten können. Sein Ziel: Roboter sollen mit Menschen so intuitiv kommunizieren können, wie wir es untereinander tun – ohne komplizierte Befehle, sondern über Blickkontakt, Tonfall oder Gesichtsausdruck. Besonders intensiv arbeitet sein Team daran, diese Modelle selbst zu verbessern und weiterzuentwickeln – ein Ansatz, mit dem es europaweit zu den Vorreitern gehört. „Roboter müssen nicht nur in der Lage sein, menschliche Intentionen zu begreifen, sondern sich andererseits auch selbst verständlich zu machen“, sagt Lioutikov. Mit seinem Intuitive Robots Lab konkurriert der 38-Jährige sogar mit den US-Tech-Giganten und erhält dafür weltweit Anerkennung.

Ausgabe 04/2025 des Forschungsmagazins lookKIT nimmt Grundlagenforschung und wegweisende Anwendungen der KI in den Blick.
Zum MagazinTechnik, die Menschen versteht – und umgekehrt
Der gesellschaftliche Bedarf ist groß: In Bereichen wie Pflege, Haushalt oder Industrie sind intelligente Maschinen notwendig, die sich flexibel an neue Situationen anpassen – ohne dass die Nutzenden große Datenmengen liefern oder komplexe Systeme verstehen müssen. Genau hier setzt Lioutikovs Forschung an: „Wir wollen Technologie für Menschen unmittelbar zugänglich und nutzbar machen.“
Aber wie wollen Forschende das Ziel von mehr Menschlichkeit in der Technik erreichen? Hinter den spektakulären Videos von Robotern, die über einen Acker rennen, steile Treppen erklimmen oder Saltos schlagen, steckt teils hoher Programmieraufwand. „Aktuelle Methoden des Maschinellen Lernens sind oft nicht genug auf die Nutzenden ausgerichtet“, sagt Lioutikov. „Wir entwickeln Lernmethoden, die es Robotern möglich machen, aus der Interaktion mit Menschen zu lernen – und dabei auch mit unvollständigen oder fehlerhaften Informationen umzugehen.“ Das würde Robotik im Alltag zugänglicher machen.
Die Suche nach dem „ChatGPT-Moment“
Große US-Konzerne wie Google oder Meta stecken Milliarden in sogenannte Large Behavior Models (LBMs). Diese KI-Modelle sollen Roboter mit generellen, vielseitig einsetzbaren Verhaltensfähigkeiten ausstatten – ähnlich vielseitig wie die Fähigkeiten großer Sprachmodelle wie ChatGPT. Diese beherrschen nicht nur eine spezifische Aufgabe, sondern können viele verschiedene Aufgaben flexibel ausführen ohne für jede einzelne neu programmiert oder trainiert werden zu müssen. Ein Roboter mit einem LBM könnte also etwa einen Tisch decken, ein Werkzeug holen, einem Menschen den Weg zeigen oder eine Tür öffnen – alles basierend auf einem allgemeinen Verständnis von Umgebung, Sprache und Handlung.
Das Problem: Die Robotik sucht ihren „ChatGPT-Moment“ noch – also einen Durchbruch, der Roboter so leistungsfähig und flexibel macht wie die großen KI-Sprachmodelle. LBMs gelten als Schlüsseltechnologie dafür, aber die Modelle operieren mit riesigen Datenmengen und sind sehr komplex. Sie lernen aus Millionen von Demonstrationen, Videos, Sensoraufzeichnungen und Spracheingaben, wie sich Menschen in bestimmten Situationen verhalten und übertragen dieses Wissen auf den Roboter.
Kleine Modelle, große Wirkung
Rudolf Lioutikov hingegen setzt auf Effizienz. Seine Vision: kleinere, effizientere und erklärbare LBMs, die auch mit wenig Daten auskommen und für den Einsatz „on-premise“ geeignet sind – also lokal, ohne Cloud-Abhängigkeit. Mit einem kleinen Team entwickelt er sogenannte Vision-Language-Action-Modelle, also KI-Systeme, die sehen, verstehen und handeln können. Und das mit beachtlichem Erfolg. Das Intuitive Robots Lab am KIT ist eines der wenigen Forschungslabore in Europa, das aktiv an solchen Modellen arbeitet – und dabei mit milliardenschweren US-Start-ups konkurriert.
„Unsere Modelle sind kleiner, schneller und benötigen verhältnismäßig wenig Daten“, sagt Lioutikov. Trotzdem erreichen sie vergleichbare – oder sogar bessere – Ergebnisse. Das Team setzt bewusst auf lokale Systeme, was für die Nutzenden mehr Unabhängigkeit und besseren Datenschutz bedeutet.
Mit FLOWER hat das Team das erste europäische Vision-Language-Action-Modell entwickelt, das auf handelsüblicher Hardware läuft und sich in wenigen Stunden trainieren lässt – ein Meilenstein für ressourcenschonende Robotik. BEAST wiederum kann Bewegungen besonders kompakt und flüssig darstellen, ähnlich wie ein Navigationssystem, das eine Route glättet. „Gerade in der Pflege oder im Haushalt, wo intuitive und zuverlässige Interaktion gefragt ist, haben FLOWER und BEAST enormes Potenzial“, sagt Lioutikov.
Dr. Felix Mescoli, 28.01.2026
Vision-Language-Action-Modelle
Vision-Language-Action-Modelle (VLAs) sind eine neue Klasse von KI-Systemen, die darauf abzielen, Roboter intelligenter und flexibler zu machen, insbesondere in ihrer Interaktion mit Menschen. Sie kombinieren drei zentrale Komponenten:
- Vision (Sehen):
Der Roboter nimmt seine Umgebung visuell wahr, etwa durch Kameras oder andere Sensoren. Er erkennt Objekte, Personen, Bewegungen und räumliche Zusammenhänge. - Language (Sprache):
Der Roboter versteht und verarbeitet natürliche Sprache. Das bedeutet, er kann Anweisungen, Fragen oder Beschreibungen interpretieren – ähnlich wie ChatGPT, aber mit Bezug zur physischen Welt. - Action (Handeln):
Basierend auf dem Gesehenen und Verstandenen führt der Roboter sinnvolle Aktionen aus: beispielsweise einen Gegenstand greifen, eine Tür öffnen oder einem Menschen folgen.

