
14/2026-03
Intelligenza incarnata in boom, come l'AI permette ai robot di realizzare un'evoluzione autonoma?
Nello spettacolo di gala del Festival di Primavera 2025, la scena in cui i robot di Unitree Technology giravano i fazzoletti e ballavano lo yangge insieme agli esseri umani è stata impressionante.
"Il "padre dell'AI" Jensen Huang di NVIDIA ha più volte sottolineato che la prossima ondata dell'AI è l'intelligenza incarnata. Quest'anno, "intelligenza incarnata" è stata menzionata per la prima volta nel rapporto di lavoro del governo.
L'intelligenza incarnata (Embodied Intelligence) è un concetto che coinvolge l'intelligenza artificiale, le scienze cognitive e la robotica, e si riferisce all'integrazione dell'intelligenza artificiale in entità fisiche come i robot, dotandole della capacità di percepire, apprendere e interagire dinamicamente con l'ambiente.
In parole semplici, si tratta di permettere ai robot, come gli esseri umani, di percepire con precisione e rispondere flessibilmente nel mondo reale.
Come si può raggiungere questo obiettivo? Forse dare ai robot capacità di evoluzione autonoma simili a quelle umane è una direzione fattibile.
Oggi, presentiamo a tutti un articolo tecnico Spotlight di ICLR2025. Il primo autore dell'articolo, Lu Haofei, e il secondo autore, Wu Zhe, sono rispettivamente studente magistrale e dottorando presso il Laboratorio di Interazione Uomo-Computer dell'Università di Tsinghua, e i collaboratori includono Li Jianshu, esperto senior di algoritmi di Ant Digital Technology, tra gli altri.
Attraverso esperimenti, il team di ricerca di questo articolo ha dato una risposta affermativa: combinando le tecnologie di apprendimento per rinforzo e reti neurali profonde, i robot possono evolversi automaticamente in un tempo molto breve per sviluppare forme ottimali e strategie di controllo adatte all'ambiente attuale, fornendo un nuovo approccio per accelerare l'evoluzione dell'intelligenza incarnata.
Il team di ricerca proviene dall'Università di Tsinghua e da Ant Digital Technology, e hanno chiamato questo framework algoritmico BodyGen.
I risultati dei test mostrano che BodyGen può raggiungere un miglioramento delle prestazioni del 60%.
Attualmente, il codice di questo framework è stato reso open source sul repository GitHub >> clicca per visitare, tutti sono invitati a provarlo~
01 Perché i robot hanno bisogno di "evoluzione autonoma"
Gli esseri viventi in natura, attraverso milioni di anni di evoluzione, hanno acquisito perfette strutture corporee e capacità di interazione ambientale adatte all'ambiente. Tuttavia, la progettazione di robot richiede non solo una vasta conoscenza di esperti umani, ma anche numerosi esperimenti, progettazioni e iterazioni per ambienti specifici.
Ispirati dalla biologia naturale, gli scienziati hanno proposto la tecnologia di co-progettazione morfologia-controllo (Co-Design): far imitare ai robot il processo di evoluzione biologica, evolvendo la propria morfologia (struttura corporea, parametri articolari) mentre ottimizzano le strategie di controllo (cervello) per adattarsi a ambienti complessi.
Tuttavia, questo campo ha a lungo affrontato due grandi sfide: primo, lo spazio di ricerca della morfologia è enorme, rendendo difficile esaurire tutte le possibili forme di robot in tempo limitato; secondo, la morfologia del robot e la strategia di controllo sono profondamente accoppiate, e la valutazione di ogni design morfologico candidato richiede notevoli risorse computazionali.
Il team di ricerca dell'Università di Tsinghua e di Ant Digital Technology ha proposto il framework BodyGen, utilizzando l'apprendimento per rinforzo per realizzare una co-progettazione morfologia-controllo efficiente end-to-end.
In questo lavoro, il processo di progettazione della morfologia è suddiviso in due fasi consecutive: fase di progettazione della morfologia e fase di interazione ambientale.
Nella fase di progettazione della morfologia: la ricerca introduce Transformer (stile GPT) per costruire autoregressivamente la struttura corporea del robot e ottimizzare i parametri;
Nella fase di interazione ambientale: viene utilizzato anche un Transformer (stile Bert) per elaborare centralmente le informazioni di ogni articolazione del robot e inviarle ai corrispondenti motori articolari, interagendo con l'ambiente e ottenendo feedback.
Dopo alcune iterazioni, BodyGen può generare rapidamente la forma ottimale del robot per l'ambiente attuale e la corrispondente strategia di controllo.
02 Interpretazione dei tre punti tecnici di BodyGen
1. Il sistema di "percezione corporea" del robot: codificatore di posizione della struttura corporea TopoPE;
TopoPE è come il sistema di "percezione corporea" del robot, applicando "etichette intelligenti" a ogni parte del robot. Qualunque sia la forma del robot, queste etichette aiutano l'AI a capire "questa è una gamba", "questo è un braccio", ecc. In questo modo, anche se la morfologia del robot cambia, l'AI può adattarsi rapidamente e controllare la nuova struttura corporea.
2. Il "centro cerebrale" del robot: rete di elaborazione neurale centrale basata su Transformer MoSAT;
MoSAT è come il "centro cerebrale" del robot, e il suo modo di funzionare è molto simile a quello del cervello umano.
Raccolta di informazioni: prima raccoglie informazioni da varie parti del robot, come posizione, velocità, ecc.
Elaborazione centrale: tutte le informazioni vengono scambiate ed elaborate nel "cervello" (rete Transformer).
Invio di istruzioni: le informazioni elaborate vengono convertite in istruzioni di azione specifiche, dicendo al robot come muoversi.
3. Meccanismo di assegnazione dei premi: co-progettazione sotto il meccanismo di assegnazione del credito temporale.
BodyGen fa sì che l'AI sia responsabile contemporaneamente di due cose: progettare il corpo del robot e controllare le azioni del robot.
Azioni di progettazione: l'AI può "far crescere" nuove articolazioni al robot, "tagliare" parti non necessarie, o mantenere la struttura esistente.
Azioni di controllo: l'AI impara come controllare ogni articolazione del robot per completare compiti (come camminare, saltare).
Potrebbe volerci molto tempo per sapere se la progettazione di una buona forma di robot è efficace, ad esempio, dopo aver progettato gambe lunghe, bisogna aspettare che il robot impari a camminare per sapere se questa progettazione è ragionevole.
Attraverso un speciale "meccanismo di assegnazione dei premi", BodyGen permette all'AI di valutare ragionevolmente le proprie decisioni di progettazione, senza abbandonare progetti potenzialmente ottimi solo perché gli effetti a breve termine non sono evidenti.
03 Risultati dei test: miglioramento del 60% delle prestazioni
In 10 ambienti con diversi tipi di compiti (come strisciare, attraversare terreni, nuotare, ecc.), le forme di robot generate da BodyGen hanno ottenuto un aumento del 60,03% nel punteggio di adattabilità ambientale rispetto ai metodi ottimali esistenti (come Transform2Act, NGE, ecc.).
Il numero medio di parametri di BodyGen è di 1,43M, rendendolo più leggero rispetto ad altri algoritmi di base. Il design compatto di BodyGen gli consente di ridurre significativamente i costi computazionali e le esigenze di archiviazione mantenendo le capacità di generazione, migliorando la stabilità e l'efficienza dell'addestramento.
Questa architettura di modello efficiente non solo riduce il consumo di risorse durante l'addestramento, ma migliora anche la velocità di risposta nella fase di inferenza, rendendola più adatta ad ambienti con risorse limitate, e può persino eseguire un'inferenza efficiente su un laptop utilizzando la CPU.
In futuro, il team prevede di promuovere l'applicazione di BodyGen in scenari reali attraverso tecnologie di trasferimento di simulazione fisica. Con l'aumento della capacità computazionale, questo framework si spera diventi un percorso importante per realizzare un'intelligenza incarnata generale, permettendo ai robot di ottimizzare continuamente morfologie e strategie comportamentali attraverso il ciclo percezione-azione, realizzando gradualmente l'autoprogettazione e l'evoluzione automatica.
"Il "padre dell'AI" Jensen Huang di NVIDIA ha più volte sottolineato che la prossima ondata dell'AI è l'intelligenza incarnata. Quest'anno, "intelligenza incarnata" è stata menzionata per la prima volta nel rapporto di lavoro del governo.
L'intelligenza incarnata (Embodied Intelligence) è un concetto che coinvolge l'intelligenza artificiale, le scienze cognitive e la robotica, e si riferisce all'integrazione dell'intelligenza artificiale in entità fisiche come i robot, dotandole della capacità di percepire, apprendere e interagire dinamicamente con l'ambiente.
In parole semplici, si tratta di permettere ai robot, come gli esseri umani, di percepire con precisione e rispondere flessibilmente nel mondo reale.
Come si può raggiungere questo obiettivo? Forse dare ai robot capacità di evoluzione autonoma simili a quelle umane è una direzione fattibile.
Oggi, presentiamo a tutti un articolo tecnico Spotlight di ICLR2025. Il primo autore dell'articolo, Lu Haofei, e il secondo autore, Wu Zhe, sono rispettivamente studente magistrale e dottorando presso il Laboratorio di Interazione Uomo-Computer dell'Università di Tsinghua, e i collaboratori includono Li Jianshu, esperto senior di algoritmi di Ant Digital Technology, tra gli altri.
Attraverso esperimenti, il team di ricerca di questo articolo ha dato una risposta affermativa: combinando le tecnologie di apprendimento per rinforzo e reti neurali profonde, i robot possono evolversi automaticamente in un tempo molto breve per sviluppare forme ottimali e strategie di controllo adatte all'ambiente attuale, fornendo un nuovo approccio per accelerare l'evoluzione dell'intelligenza incarnata.
Il team di ricerca proviene dall'Università di Tsinghua e da Ant Digital Technology, e hanno chiamato questo framework algoritmico BodyGen.
I risultati dei test mostrano che BodyGen può raggiungere un miglioramento delle prestazioni del 60%.
Attualmente, il codice di questo framework è stato reso open source sul repository GitHub >> clicca per visitare, tutti sono invitati a provarlo~
01 Perché i robot hanno bisogno di "evoluzione autonoma"
Gli esseri viventi in natura, attraverso milioni di anni di evoluzione, hanno acquisito perfette strutture corporee e capacità di interazione ambientale adatte all'ambiente. Tuttavia, la progettazione di robot richiede non solo una vasta conoscenza di esperti umani, ma anche numerosi esperimenti, progettazioni e iterazioni per ambienti specifici.
Ispirati dalla biologia naturale, gli scienziati hanno proposto la tecnologia di co-progettazione morfologia-controllo (Co-Design): far imitare ai robot il processo di evoluzione biologica, evolvendo la propria morfologia (struttura corporea, parametri articolari) mentre ottimizzano le strategie di controllo (cervello) per adattarsi a ambienti complessi.
Tuttavia, questo campo ha a lungo affrontato due grandi sfide: primo, lo spazio di ricerca della morfologia è enorme, rendendo difficile esaurire tutte le possibili forme di robot in tempo limitato; secondo, la morfologia del robot e la strategia di controllo sono profondamente accoppiate, e la valutazione di ogni design morfologico candidato richiede notevoli risorse computazionali.
Il team di ricerca dell'Università di Tsinghua e di Ant Digital Technology ha proposto il framework BodyGen, utilizzando l'apprendimento per rinforzo per realizzare una co-progettazione morfologia-controllo efficiente end-to-end.
In questo lavoro, il processo di progettazione della morfologia è suddiviso in due fasi consecutive: fase di progettazione della morfologia e fase di interazione ambientale.
Nella fase di progettazione della morfologia: la ricerca introduce Transformer (stile GPT) per costruire autoregressivamente la struttura corporea del robot e ottimizzare i parametri;
Nella fase di interazione ambientale: viene utilizzato anche un Transformer (stile Bert) per elaborare centralmente le informazioni di ogni articolazione del robot e inviarle ai corrispondenti motori articolari, interagendo con l'ambiente e ottenendo feedback.
Dopo alcune iterazioni, BodyGen può generare rapidamente la forma ottimale del robot per l'ambiente attuale e la corrispondente strategia di controllo.
02 Interpretazione dei tre punti tecnici di BodyGen
1. Il sistema di "percezione corporea" del robot: codificatore di posizione della struttura corporea TopoPE;
TopoPE è come il sistema di "percezione corporea" del robot, applicando "etichette intelligenti" a ogni parte del robot. Qualunque sia la forma del robot, queste etichette aiutano l'AI a capire "questa è una gamba", "questo è un braccio", ecc. In questo modo, anche se la morfologia del robot cambia, l'AI può adattarsi rapidamente e controllare la nuova struttura corporea.
2. Il "centro cerebrale" del robot: rete di elaborazione neurale centrale basata su Transformer MoSAT;
MoSAT è come il "centro cerebrale" del robot, e il suo modo di funzionare è molto simile a quello del cervello umano.
Raccolta di informazioni: prima raccoglie informazioni da varie parti del robot, come posizione, velocità, ecc.
Elaborazione centrale: tutte le informazioni vengono scambiate ed elaborate nel "cervello" (rete Transformer).
Invio di istruzioni: le informazioni elaborate vengono convertite in istruzioni di azione specifiche, dicendo al robot come muoversi.
3. Meccanismo di assegnazione dei premi: co-progettazione sotto il meccanismo di assegnazione del credito temporale.
BodyGen fa sì che l'AI sia responsabile contemporaneamente di due cose: progettare il corpo del robot e controllare le azioni del robot.
Azioni di progettazione: l'AI può "far crescere" nuove articolazioni al robot, "tagliare" parti non necessarie, o mantenere la struttura esistente.
Azioni di controllo: l'AI impara come controllare ogni articolazione del robot per completare compiti (come camminare, saltare).
Potrebbe volerci molto tempo per sapere se la progettazione di una buona forma di robot è efficace, ad esempio, dopo aver progettato gambe lunghe, bisogna aspettare che il robot impari a camminare per sapere se questa progettazione è ragionevole.
Attraverso un speciale "meccanismo di assegnazione dei premi", BodyGen permette all'AI di valutare ragionevolmente le proprie decisioni di progettazione, senza abbandonare progetti potenzialmente ottimi solo perché gli effetti a breve termine non sono evidenti.
03 Risultati dei test: miglioramento del 60% delle prestazioni
In 10 ambienti con diversi tipi di compiti (come strisciare, attraversare terreni, nuotare, ecc.), le forme di robot generate da BodyGen hanno ottenuto un aumento del 60,03% nel punteggio di adattabilità ambientale rispetto ai metodi ottimali esistenti (come Transform2Act, NGE, ecc.).
Il numero medio di parametri di BodyGen è di 1,43M, rendendolo più leggero rispetto ad altri algoritmi di base. Il design compatto di BodyGen gli consente di ridurre significativamente i costi computazionali e le esigenze di archiviazione mantenendo le capacità di generazione, migliorando la stabilità e l'efficienza dell'addestramento.
Questa architettura di modello efficiente non solo riduce il consumo di risorse durante l'addestramento, ma migliora anche la velocità di risposta nella fase di inferenza, rendendola più adatta ad ambienti con risorse limitate, e può persino eseguire un'inferenza efficiente su un laptop utilizzando la CPU.
In futuro, il team prevede di promuovere l'applicazione di BodyGen in scenari reali attraverso tecnologie di trasferimento di simulazione fisica. Con l'aumento della capacità computazionale, questo framework si spera diventi un percorso importante per realizzare un'intelligenza incarnata generale, permettendo ai robot di ottimizzare continuamente morfologie e strategie comportamentali attraverso il ciclo percezione-azione, realizzando gradualmente l'autoprogettazione e l'evoluzione automatica.