
14/2026-03
Verkörperte Intelligenz im Aufwind: Wie kann KI Robotern zu autonomer Evolution verhelfen?
Beim Frühlingsfest-Gala 2025 war die beeindruckende Szene zu sehen, in der Roboter von Unitree Technology gemeinsam mit Menschen Handtücher drehten und Yangge-Tanz aufführten.
"Der 'KI-Vater' Jensen Huang von Nvidia hat wiederholt betont, dass die nächste Welle der KI die verkörperte Intelligenz ist. Dieses Jahr wurde 'verkörperte Intelligenz' erstmals in den Regierungsarbeitsbericht aufgenommen.
Verkörperte Intelligenz (Embodied Intelligence) ist ein Konzept, das künstliche Intelligenz, Kognitionswissenschaft und Robotik umfasst und die Integration von KI in physische Entitäten wie Roboter beschreibt, um ihnen die Fähigkeit zu verleihen, wahrzunehmen, zu lernen und dynamisch mit der Umgebung zu interagieren.
Einfach ausgedrückt bedeutet dies, Robotern zu ermöglichen, ähnlich wie Menschen in der realen Welt präzise wahrzunehmen und flexibel zu reagieren.
Wie kann dies erreicht werden? Vielleicht ist die Verleihung autonomer Evolutionsfähigkeiten an Roboter, ähnlich wie beim Menschen, ein vielversprechender Weg.
Heute präsentieren wir Ihnen eine Spotlight-Technikarbeit der ICLR2025. Die Erstautoren Lu Haofei und Wu Zhe sind Master- bzw. Doktorand am Labor für Mensch-Computer-Interaktion der Tsinghua-Universität, zu den Koautoren gehören Li Jianshu, Senior-Algorithmusexperte bei Ant Digital Technology, und andere.
Das Forschungsteam dieser Arbeit gibt durch Experimente eine positive Antwort: Durch die Kombination von Bestärkungslernen und tiefen neuronalen Netzwerktechniken können Roboter in extrem kurzer Zeit automatisch optimale Formen und Steuerungsstrategien für die Anpassung an die aktuelle Umgebung entwickeln und bieten völlig neue Ansätze für die beschleunigte Evolution verkörperter Intelligenz.
Das Forschungsteam stammt von der Tsinghua-Universität und Ant Digital Technology, sie nannten diesen Algorithmusrahmen BodyGen.
Die praktischen Testergebnisse zeigen, dass BodyGen eine Leistungssteigerung von 60% erreichen kann.
Der Code dieses Rahmens ist derzeit als Open Source im GitHub-Repository verfügbar >> Klicken Sie hier, um dorthin zu gelangen, alle sind herzlich eingeladen, es auszuprobieren~
01 Warum Roboter 'autonome Evolution' benötigen
Lebewesen in der Natur haben durch Millionen von Jahren Evolution perfekte Körperstrukturen und Fähigkeiten zur Interaktion mit der Umwelt erworben. Die Gestaltung von Robotern erfordert jedoch nicht nur enormes menschliches Expertenwissen, sondern auch zahlreiche Experimente, Designs und Iterationen für spezifische Umgebungen.
Inspiriert von der Biologie der Natur haben Wissenschaftler die Co-Design-Technologie vorgeschlagen: Roboter imitieren den biologischen Evolutionsprozess, indem sie ihre eigene Form (Körperstruktur, Gelenkparameter) weiterentwickeln und gleichzeitig die Steuerungsstrategien (Gehirn) optimieren, um sich an komplexe Umgebungen anzupassen.
Jedoch steht dieses Feld seit langem vor zwei großen Herausforderungen: Erstens ist der Suchraum für Formen enorm groß, und es ist schwierig, alle möglichen Roboterformen in begrenzter Zeit zu erschöpfen; zweitens sind Roboterform und Steuerungsstrategie tief gekoppelt, und die Bewertung jeder Kandidatenform erfordert erhebliche Rechenressourcen.
Das Forschungsteam der Tsinghua-Universität und Ant Digital Technology schlug den BodyGen-Rahmen vor, der durch Bestärkungslernen eine effiziente Form-Steuerungs-Co-Design von Ende zu Ende realisiert.
In dieser Arbeit wird der Formgestaltungsprozess in zwei aufeinanderfolgende Phasen unterteilt: die Formgestaltungsphase und die Umgebungsinteraktionsphase.
In der Formgestaltungsphase: Die Forschung führt Transformer (GPT-Stil) autoregressiv ein, um die Körperstruktur des Roboters zu konstruieren und Parameter zu optimieren;
In der Umgebungsinteraktionsphase: Ebenso wird Transformer (Bert-Stil) verwendet, um die Informationen jedes Gelenks des Roboters zentral zu verarbeiten und an die entsprechenden Gelenkmotoren zu senden, mit der Umgebung zu interagieren und Feedback zu erhalten.
Nach mehreren Iterationsrunden kann BodyGen schnell die optimale Roboterform für die aktuelle Umgebung und die entsprechenden Steuerungsstrategien generieren.
02 Interpretation der drei technischen Hauptpunkte von BodyGen
1, Das 'Körperwahrnehmungssystem' des Roboters: Topologische Positionsencoder TopoPE;
TopoPE funktioniert wie das 'Körperwahrnehmungssystem' des Roboters, indem es jedem Teil des Roboters 'intelligente Etiketten' zuweist. Unabhängig davon, wie sich die Form des Roboters ändert, helfen diese Etiketten der KI zu verstehen, 'das ist ein Bein', 'das ist ein Arm' usw. Auf diese Weise kann sich die KI schnell anpassen und die neue Körperstruktur steuern, selbst wenn sich die Form des Roboters ändert.
2, Das 'Hirnzentrum' des Roboters: Transformer-basiertes zentrales neuronales Verarbeitungsnetzwerk MoSAT;
MoSAT funktioniert wie das 'Hirnzentrum' des Roboters und arbeitet ähnlich wie das menschliche Gehirn.
Informationssammlung: Zuerst werden Informationen von verschiedenen Teilen des Roboters gesammelt, wie Position, Geschwindigkeit usw.
Zentrale Verarbeitung: Alle Informationen werden im 'Gehirn' (Transformer-Netzwerk) ausgetauscht und verarbeitet.
Befehlsübermittlung: Die verarbeiteten Informationen werden in konkrete Bewegungsbefehle umgewandelt, die dem Roboter sagen, wie er sich bewegen soll.
3, Belohnungsverteilungsmechanismus: Co-Design unter zeitlicher Kreditvergabe.
BodyGen lässt die KI gleichzeitig für zwei Aufgaben verantwortlich sein: den Körper des Roboters zu entwerfen und die Bewegungen des Roboters zu steuern.
Designaktionen: Die KI kann dem Roboter 'neue Gliedmaßen wachsen lassen', unnötige Teile 'abschneiden' oder die bestehende Struktur beibehalten.
Steuerungsaktionen: Die KI lernt, wie man jedes Gelenk des Roboters steuert, um Aufgaben zu erfüllen (wie Gehen, Springen).
Es kann lange dauern, bis man weiß, ob eine gute Roboterform effektiv ist, zum Beispiel, wenn man lange Beine entwirft, muss man warten, bis der Roboter gehen lernt, um zu wissen, ob dieses Design vernünftig ist.
Durch einen speziellen 'Belohnungsverteilungsmechanismus' ermöglicht BodyGen der KI, ihre Designentscheidungen angemessen zu bewerten und nicht potenziell gute Designs aufzugeben, nur weil kurzfristige Effekte nicht offensichtlich sind.
03 Testergebnisse: 60% Leistungssteigerung
In 10 verschiedenen Aufgabenarten (wie Krabbeln, Geländedurchquerung, Schwimmen usw.) erzielten die von BodyGen generierten Roboterformen im Vergleich zu den besten vorhandenen Methoden (wie Transform2Act, NGE usw.) einen Anstieg von 60,03% in der Umweltanpassungsbewertung.
BodyGen hat durchschnittlich 1,43M Parameter und ist im Vergleich zu anderen Basisalgorithmen leichtgewichtiger. Das kompakte Design von BodyGen ermöglicht es, die Rechenkosten und den Speicherbedarf bei gleichzeitiger Beibehaltung der Generierungsfähigkeit erheblich zu reduzieren und die Stabilität und Effizienz des Trainings zu verbessern.
Diese effiziente Modellarchitektur reduziert nicht nur den Ressourcenverbrauch während des Trainings, sondern verbessert auch die Reaktionsgeschwindigkeit in der Inferenzphase, was sie besser für ressourcenbeschränkte Umgebungen geeignet macht, sogar für effiziente Inferenz auf einem Laptop mit CPU.
In Zukunft plant das Team, die Anwendung von BodyGen in realen Szenarien durch physikalische Simulationsübertragungstechnologie voranzutreiben. Mit der Verbesserung der Rechenleistung hat dieser Rahmen das Potenzial, ein wichtiger Weg zur Verwirklichung allgemeiner verkörperter Intelligenz zu werden, der es Robotern ermöglicht, durch Wahrnehmungs-Handlungs-Schleifen kontinuierlich Form- und Verhaltensstrategien zu optimieren und schrittweise Selbstentwurf und autonome Evolution zu realisieren.
___IMG_0___, ___IMG_1___ usw. im Text sind Bildplatzhalter und müssen unverändert beibehalten werden.
"Der 'KI-Vater' Jensen Huang von Nvidia hat wiederholt betont, dass die nächste Welle der KI die verkörperte Intelligenz ist. Dieses Jahr wurde 'verkörperte Intelligenz' erstmals in den Regierungsarbeitsbericht aufgenommen.
Verkörperte Intelligenz (Embodied Intelligence) ist ein Konzept, das künstliche Intelligenz, Kognitionswissenschaft und Robotik umfasst und die Integration von KI in physische Entitäten wie Roboter beschreibt, um ihnen die Fähigkeit zu verleihen, wahrzunehmen, zu lernen und dynamisch mit der Umgebung zu interagieren.
Einfach ausgedrückt bedeutet dies, Robotern zu ermöglichen, ähnlich wie Menschen in der realen Welt präzise wahrzunehmen und flexibel zu reagieren.
Wie kann dies erreicht werden? Vielleicht ist die Verleihung autonomer Evolutionsfähigkeiten an Roboter, ähnlich wie beim Menschen, ein vielversprechender Weg.
Heute präsentieren wir Ihnen eine Spotlight-Technikarbeit der ICLR2025. Die Erstautoren Lu Haofei und Wu Zhe sind Master- bzw. Doktorand am Labor für Mensch-Computer-Interaktion der Tsinghua-Universität, zu den Koautoren gehören Li Jianshu, Senior-Algorithmusexperte bei Ant Digital Technology, und andere.
Das Forschungsteam dieser Arbeit gibt durch Experimente eine positive Antwort: Durch die Kombination von Bestärkungslernen und tiefen neuronalen Netzwerktechniken können Roboter in extrem kurzer Zeit automatisch optimale Formen und Steuerungsstrategien für die Anpassung an die aktuelle Umgebung entwickeln und bieten völlig neue Ansätze für die beschleunigte Evolution verkörperter Intelligenz.
Das Forschungsteam stammt von der Tsinghua-Universität und Ant Digital Technology, sie nannten diesen Algorithmusrahmen BodyGen.
Die praktischen Testergebnisse zeigen, dass BodyGen eine Leistungssteigerung von 60% erreichen kann.
Der Code dieses Rahmens ist derzeit als Open Source im GitHub-Repository verfügbar >> Klicken Sie hier, um dorthin zu gelangen, alle sind herzlich eingeladen, es auszuprobieren~
01 Warum Roboter 'autonome Evolution' benötigen
Lebewesen in der Natur haben durch Millionen von Jahren Evolution perfekte Körperstrukturen und Fähigkeiten zur Interaktion mit der Umwelt erworben. Die Gestaltung von Robotern erfordert jedoch nicht nur enormes menschliches Expertenwissen, sondern auch zahlreiche Experimente, Designs und Iterationen für spezifische Umgebungen.
Inspiriert von der Biologie der Natur haben Wissenschaftler die Co-Design-Technologie vorgeschlagen: Roboter imitieren den biologischen Evolutionsprozess, indem sie ihre eigene Form (Körperstruktur, Gelenkparameter) weiterentwickeln und gleichzeitig die Steuerungsstrategien (Gehirn) optimieren, um sich an komplexe Umgebungen anzupassen.
Jedoch steht dieses Feld seit langem vor zwei großen Herausforderungen: Erstens ist der Suchraum für Formen enorm groß, und es ist schwierig, alle möglichen Roboterformen in begrenzter Zeit zu erschöpfen; zweitens sind Roboterform und Steuerungsstrategie tief gekoppelt, und die Bewertung jeder Kandidatenform erfordert erhebliche Rechenressourcen.
Das Forschungsteam der Tsinghua-Universität und Ant Digital Technology schlug den BodyGen-Rahmen vor, der durch Bestärkungslernen eine effiziente Form-Steuerungs-Co-Design von Ende zu Ende realisiert.
In dieser Arbeit wird der Formgestaltungsprozess in zwei aufeinanderfolgende Phasen unterteilt: die Formgestaltungsphase und die Umgebungsinteraktionsphase.
In der Formgestaltungsphase: Die Forschung führt Transformer (GPT-Stil) autoregressiv ein, um die Körperstruktur des Roboters zu konstruieren und Parameter zu optimieren;
In der Umgebungsinteraktionsphase: Ebenso wird Transformer (Bert-Stil) verwendet, um die Informationen jedes Gelenks des Roboters zentral zu verarbeiten und an die entsprechenden Gelenkmotoren zu senden, mit der Umgebung zu interagieren und Feedback zu erhalten.
Nach mehreren Iterationsrunden kann BodyGen schnell die optimale Roboterform für die aktuelle Umgebung und die entsprechenden Steuerungsstrategien generieren.
02 Interpretation der drei technischen Hauptpunkte von BodyGen
1, Das 'Körperwahrnehmungssystem' des Roboters: Topologische Positionsencoder TopoPE;
TopoPE funktioniert wie das 'Körperwahrnehmungssystem' des Roboters, indem es jedem Teil des Roboters 'intelligente Etiketten' zuweist. Unabhängig davon, wie sich die Form des Roboters ändert, helfen diese Etiketten der KI zu verstehen, 'das ist ein Bein', 'das ist ein Arm' usw. Auf diese Weise kann sich die KI schnell anpassen und die neue Körperstruktur steuern, selbst wenn sich die Form des Roboters ändert.
2, Das 'Hirnzentrum' des Roboters: Transformer-basiertes zentrales neuronales Verarbeitungsnetzwerk MoSAT;
MoSAT funktioniert wie das 'Hirnzentrum' des Roboters und arbeitet ähnlich wie das menschliche Gehirn.
Informationssammlung: Zuerst werden Informationen von verschiedenen Teilen des Roboters gesammelt, wie Position, Geschwindigkeit usw.
Zentrale Verarbeitung: Alle Informationen werden im 'Gehirn' (Transformer-Netzwerk) ausgetauscht und verarbeitet.
Befehlsübermittlung: Die verarbeiteten Informationen werden in konkrete Bewegungsbefehle umgewandelt, die dem Roboter sagen, wie er sich bewegen soll.
3, Belohnungsverteilungsmechanismus: Co-Design unter zeitlicher Kreditvergabe.
BodyGen lässt die KI gleichzeitig für zwei Aufgaben verantwortlich sein: den Körper des Roboters zu entwerfen und die Bewegungen des Roboters zu steuern.
Designaktionen: Die KI kann dem Roboter 'neue Gliedmaßen wachsen lassen', unnötige Teile 'abschneiden' oder die bestehende Struktur beibehalten.
Steuerungsaktionen: Die KI lernt, wie man jedes Gelenk des Roboters steuert, um Aufgaben zu erfüllen (wie Gehen, Springen).
Es kann lange dauern, bis man weiß, ob eine gute Roboterform effektiv ist, zum Beispiel, wenn man lange Beine entwirft, muss man warten, bis der Roboter gehen lernt, um zu wissen, ob dieses Design vernünftig ist.
Durch einen speziellen 'Belohnungsverteilungsmechanismus' ermöglicht BodyGen der KI, ihre Designentscheidungen angemessen zu bewerten und nicht potenziell gute Designs aufzugeben, nur weil kurzfristige Effekte nicht offensichtlich sind.
03 Testergebnisse: 60% Leistungssteigerung
In 10 verschiedenen Aufgabenarten (wie Krabbeln, Geländedurchquerung, Schwimmen usw.) erzielten die von BodyGen generierten Roboterformen im Vergleich zu den besten vorhandenen Methoden (wie Transform2Act, NGE usw.) einen Anstieg von 60,03% in der Umweltanpassungsbewertung.
BodyGen hat durchschnittlich 1,43M Parameter und ist im Vergleich zu anderen Basisalgorithmen leichtgewichtiger. Das kompakte Design von BodyGen ermöglicht es, die Rechenkosten und den Speicherbedarf bei gleichzeitiger Beibehaltung der Generierungsfähigkeit erheblich zu reduzieren und die Stabilität und Effizienz des Trainings zu verbessern.
Diese effiziente Modellarchitektur reduziert nicht nur den Ressourcenverbrauch während des Trainings, sondern verbessert auch die Reaktionsgeschwindigkeit in der Inferenzphase, was sie besser für ressourcenbeschränkte Umgebungen geeignet macht, sogar für effiziente Inferenz auf einem Laptop mit CPU.
In Zukunft plant das Team, die Anwendung von BodyGen in realen Szenarien durch physikalische Simulationsübertragungstechnologie voranzutreiben. Mit der Verbesserung der Rechenleistung hat dieser Rahmen das Potenzial, ein wichtiger Weg zur Verwirklichung allgemeiner verkörperter Intelligenz zu werden, der es Robotern ermöglicht, durch Wahrnehmungs-Handlungs-Schleifen kontinuierlich Form- und Verhaltensstrategien zu optimieren und schrittweise Selbstentwurf und autonome Evolution zu realisieren.
___IMG_0___, ___IMG_1___ usw. im Text sind Bildplatzhalter und müssen unverändert beibehalten werden.