
14/2026-03
La inteligencia encarnada en auge, ¿cómo puede la IA permitir que los robots logren 'evolución autónoma'?
En el Festival de Primavera de 2025, la escena de los robots de Unitree Technology girando pañuelos y bailando yangge junto con humanos fue impresionante.
El "padre de la IA" Jensen Huang de Nvidia ha enfatizado en múltiples ocasiones que la próxima ola de la IA es la inteligencia encarnada. Este año, la "inteligencia encarnada" fue incluida por primera vez en el informe de trabajo del gobierno.
La inteligencia encarnada (Embodied Intelligence) es un concepto que involucra la inteligencia artificial, las ciencias cognitivas y la robótica, que se refiere a integrar la inteligencia artificial en entidades físicas como los robots, dotándolos de la capacidad de percibir, aprender e interactuar dinámicamente con el entorno.
En términos simples, se trata de permitir que los robots, como los humanos, puedan percibir con precisión y responder con flexibilidad en el mundo real.
¿Cómo lograr esto? Quizás permitir que los robots tengan capacidades de evolución autónoma similares a las humanas sea una dirección viable.
Hoy, les presentamos un artículo técnico Spotlight de ICLR 2025. El primer autor de este artículo, Lu Haofei, y el segundo autor, Wu Zhe, son estudiantes de maestría y doctorado del Laboratorio de Interacción Humano-Computadora de la Universidad de Tsinghua, respectivamente, y los colaboradores incluyen a Li Jianshu, experto senior en algoritmos de Ant Digital Technology, entre otros.
El equipo de investigación de este artículo dio una respuesta afirmativa a través de experimentos: combinando el aprendizaje por refuerzo con la tecnología de redes neuronales profundas, los robots pueden evolucionar automáticamente en un tiempo muy corto para generar la forma óptima y las estrategias de control adaptadas al entorno actual, proporcionando un nuevo enfoque para la evolución acelerada de la inteligencia encarnada.
El equipo de investigación proviene de la Universidad de Tsinghua y Ant Digital Technology, y han nombrado a este marco algorítmico BodyGen.
Los resultados de las pruebas muestran que BodyGen puede lograr una mejora del rendimiento del 60%.
Actualmente, el código de este marco ha sido de código abierto en el repositorio de GitHub >> haga clic aquí, ¡todos son bienvenidos a probarlo~
01 ¿Por qué los robots necesitan "evolución autónoma"?
Los organismos en la naturaleza, a través de millones de años de evolución, han adquirido estructuras corporales perfectas y capacidades de interacción ambiental adaptadas al entorno. Sin embargo, el diseño de robots no solo requiere un conocimiento humano experto extremadamente amplio, sino que también necesita numerosos experimentos, diseños e iteraciones para entornos específicos.
Inspirados por la biología natural, los científicos han propuesto la tecnología de diseño colaborativo morfología-control (Co-Design): permitir que los robots imiten el proceso de evolución biológica, evolucionando su propia morfología (estructura corporal, parámetros de articulaciones) mientras optimizan las estrategias de control (cerebro) para adaptarse a entornos complejos.
Sin embargo, este campo ha enfrentado durante mucho tiempo dos grandes desafíos: primero, el espacio de búsqueda de formas es enorme, y es difícil enumerar todas las posibles formas de robots en un tiempo limitado; segundo, la morfología del robot y las estrategias de control están profundamente acopladas, y la evaluación de cada diseño de morfología candidato requiere una gran cantidad de recursos computacionales.
El equipo de investigación de la Universidad de Tsinghua y Ant Digital Technology propone el marco BodyGen, que utiliza el aprendizaje por refuerzo para lograr un diseño colaborativo morfología-control eficiente de extremo a extremo.
En este trabajo, el proceso de diseño de formas se divide en dos etapas consecutivas: etapa de diseño de morfología y etapa de interacción ambiental.
En la etapa de diseño de morfología: la investigación introduce Transformer (estilo GPT) para construir autorregresivamente la estructura corporal del robot y optimizar los parámetros;
En la etapa de interacción ambiental: también se utiliza Transformer (estilo Bert) para procesar centralmente la información de cada articulación del robot y enviarla a los motores de articulación correspondientes, interactuando con el entorno y obteniendo retroalimentación.
Después de varias rondas de iteración, BodyGen puede generar rápidamente la forma óptima del robot y las estrategias de control correspondientes para el entorno actual.
02 Interpretación de los tres puntos técnicos de BodyGen
1. El sistema de "percepción corporal" del robot: codificador de posición de estructura corporal TopoPE;
TopoPE es como el sistema de "percepción corporal" del robot, colocando "etiquetas inteligentes" en cada parte del robot. No importa cómo cambie la forma del robot, estas etiquetas pueden ayudar a la IA a entender "esto es una pierna", "esto es un brazo", etc. De esta manera, incluso si la morfología del robot cambia, la IA puede adaptarse rápidamente y controlar la nueva estructura corporal.
2. El "centro cerebral" del robot: red de procesamiento del centro neural centralizado basada en Transformer MoSAT;
MoSAT es como el "centro cerebral" del robot, y su forma de funcionamiento es muy similar al cerebro humano.
Recopilación de información: primero recopila información de varias partes del robot, como posición, velocidad, etc.
Procesamiento central: toda la información se comunica y procesa en el "cerebro" (red Transformer).
Envío de instrucciones: la información procesada se convierte en instrucciones de acción específicas, indicando al robot cómo moverse.
3. Mecanismo de asignación de recompensas: diseño colaborativo bajo el mecanismo de asignación de crédito temporal.
BodyGen permite que la IA sea responsable de dos cosas al mismo tiempo: diseñar el cuerpo del robot y controlar las acciones del robot.
Acciones de diseño: la IA puede "hacer crecer" nuevas extremidades al robot, "cortar" partes innecesarias, o mantener la estructura existente.
Acciones de control: la IA aprende a controlar cada articulación del robot para completar tareas (como caminar, saltar).
Diseñar una buena forma de robot puede llevar mucho tiempo para saber si es efectiva, por ejemplo, diseñar piernas largas requiere esperar a que el robot aprenda a caminar para saber si el diseño es razonable.
A través de un especial "mecanismo de asignación de recompensas", BodyGen permite que la IA pueda evaluar razonablemente sus propias decisiones de diseño, sin abandonar diseños potencialmente excelentes debido a efectos a corto plazo que no son obvios.
03 Resultados de las pruebas: 60% de mejora en el rendimiento
En 10 entornos de diferentes tipos de tareas (como arrastrarse, cruzar terrenos, nadar, etc.), las formas de robot generadas por BodyGen obtuvieron un aumento del 60.03% en la puntuación de adaptabilidad ambiental en comparación con los métodos óptimos existentes (como Transform2Act, NGE, etc.).
La cantidad promedio de parámetros de BodyGen es de 1.43M, siendo más ligero en comparación con otros algoritmos de referencia. El diseño compacto de BodyGen le permite reducir significativamente los costos computacionales y los requisitos de almacenamiento mientras mantiene sus capacidades de generación, mejorando la estabilidad y eficiencia del entrenamiento.
Esta arquitectura de modelo eficiente no solo reduce el consumo de recursos durante el entrenamiento, sino que también mejora la velocidad de respuesta en la etapa de inferencia, haciéndolo más adecuado para entornos con recursos limitados, e incluso puede realizar inferencias eficientes en una computadora portátil con la ayuda de la CPU.
En el futuro, el equipo planea promover la aplicación de BodyGen en escenarios reales a través de la tecnología de transferencia de simulación física. Con el aumento de la capacidad computacional, este marco tiene el potencial de convertirse en un camino importante hacia la inteligencia encarnada general, permitiendo que los robots optimicen continuamente sus estrategias de morfología y comportamiento a través del bucle de percepción-acción, logrando gradualmente el autodiseño y la evolución automática.
El "padre de la IA" Jensen Huang de Nvidia ha enfatizado en múltiples ocasiones que la próxima ola de la IA es la inteligencia encarnada. Este año, la "inteligencia encarnada" fue incluida por primera vez en el informe de trabajo del gobierno.
La inteligencia encarnada (Embodied Intelligence) es un concepto que involucra la inteligencia artificial, las ciencias cognitivas y la robótica, que se refiere a integrar la inteligencia artificial en entidades físicas como los robots, dotándolos de la capacidad de percibir, aprender e interactuar dinámicamente con el entorno.
En términos simples, se trata de permitir que los robots, como los humanos, puedan percibir con precisión y responder con flexibilidad en el mundo real.
¿Cómo lograr esto? Quizás permitir que los robots tengan capacidades de evolución autónoma similares a las humanas sea una dirección viable.
Hoy, les presentamos un artículo técnico Spotlight de ICLR 2025. El primer autor de este artículo, Lu Haofei, y el segundo autor, Wu Zhe, son estudiantes de maestría y doctorado del Laboratorio de Interacción Humano-Computadora de la Universidad de Tsinghua, respectivamente, y los colaboradores incluyen a Li Jianshu, experto senior en algoritmos de Ant Digital Technology, entre otros.
El equipo de investigación de este artículo dio una respuesta afirmativa a través de experimentos: combinando el aprendizaje por refuerzo con la tecnología de redes neuronales profundas, los robots pueden evolucionar automáticamente en un tiempo muy corto para generar la forma óptima y las estrategias de control adaptadas al entorno actual, proporcionando un nuevo enfoque para la evolución acelerada de la inteligencia encarnada.
El equipo de investigación proviene de la Universidad de Tsinghua y Ant Digital Technology, y han nombrado a este marco algorítmico BodyGen.
Los resultados de las pruebas muestran que BodyGen puede lograr una mejora del rendimiento del 60%.
Actualmente, el código de este marco ha sido de código abierto en el repositorio de GitHub >> haga clic aquí, ¡todos son bienvenidos a probarlo~
01 ¿Por qué los robots necesitan "evolución autónoma"?
Los organismos en la naturaleza, a través de millones de años de evolución, han adquirido estructuras corporales perfectas y capacidades de interacción ambiental adaptadas al entorno. Sin embargo, el diseño de robots no solo requiere un conocimiento humano experto extremadamente amplio, sino que también necesita numerosos experimentos, diseños e iteraciones para entornos específicos.
Inspirados por la biología natural, los científicos han propuesto la tecnología de diseño colaborativo morfología-control (Co-Design): permitir que los robots imiten el proceso de evolución biológica, evolucionando su propia morfología (estructura corporal, parámetros de articulaciones) mientras optimizan las estrategias de control (cerebro) para adaptarse a entornos complejos.
Sin embargo, este campo ha enfrentado durante mucho tiempo dos grandes desafíos: primero, el espacio de búsqueda de formas es enorme, y es difícil enumerar todas las posibles formas de robots en un tiempo limitado; segundo, la morfología del robot y las estrategias de control están profundamente acopladas, y la evaluación de cada diseño de morfología candidato requiere una gran cantidad de recursos computacionales.
El equipo de investigación de la Universidad de Tsinghua y Ant Digital Technology propone el marco BodyGen, que utiliza el aprendizaje por refuerzo para lograr un diseño colaborativo morfología-control eficiente de extremo a extremo.
En este trabajo, el proceso de diseño de formas se divide en dos etapas consecutivas: etapa de diseño de morfología y etapa de interacción ambiental.
En la etapa de diseño de morfología: la investigación introduce Transformer (estilo GPT) para construir autorregresivamente la estructura corporal del robot y optimizar los parámetros;
En la etapa de interacción ambiental: también se utiliza Transformer (estilo Bert) para procesar centralmente la información de cada articulación del robot y enviarla a los motores de articulación correspondientes, interactuando con el entorno y obteniendo retroalimentación.
Después de varias rondas de iteración, BodyGen puede generar rápidamente la forma óptima del robot y las estrategias de control correspondientes para el entorno actual.
02 Interpretación de los tres puntos técnicos de BodyGen
1. El sistema de "percepción corporal" del robot: codificador de posición de estructura corporal TopoPE;
TopoPE es como el sistema de "percepción corporal" del robot, colocando "etiquetas inteligentes" en cada parte del robot. No importa cómo cambie la forma del robot, estas etiquetas pueden ayudar a la IA a entender "esto es una pierna", "esto es un brazo", etc. De esta manera, incluso si la morfología del robot cambia, la IA puede adaptarse rápidamente y controlar la nueva estructura corporal.
2. El "centro cerebral" del robot: red de procesamiento del centro neural centralizado basada en Transformer MoSAT;
MoSAT es como el "centro cerebral" del robot, y su forma de funcionamiento es muy similar al cerebro humano.
Recopilación de información: primero recopila información de varias partes del robot, como posición, velocidad, etc.
Procesamiento central: toda la información se comunica y procesa en el "cerebro" (red Transformer).
Envío de instrucciones: la información procesada se convierte en instrucciones de acción específicas, indicando al robot cómo moverse.
3. Mecanismo de asignación de recompensas: diseño colaborativo bajo el mecanismo de asignación de crédito temporal.
BodyGen permite que la IA sea responsable de dos cosas al mismo tiempo: diseñar el cuerpo del robot y controlar las acciones del robot.
Acciones de diseño: la IA puede "hacer crecer" nuevas extremidades al robot, "cortar" partes innecesarias, o mantener la estructura existente.
Acciones de control: la IA aprende a controlar cada articulación del robot para completar tareas (como caminar, saltar).
Diseñar una buena forma de robot puede llevar mucho tiempo para saber si es efectiva, por ejemplo, diseñar piernas largas requiere esperar a que el robot aprenda a caminar para saber si el diseño es razonable.
A través de un especial "mecanismo de asignación de recompensas", BodyGen permite que la IA pueda evaluar razonablemente sus propias decisiones de diseño, sin abandonar diseños potencialmente excelentes debido a efectos a corto plazo que no son obvios.
03 Resultados de las pruebas: 60% de mejora en el rendimiento
En 10 entornos de diferentes tipos de tareas (como arrastrarse, cruzar terrenos, nadar, etc.), las formas de robot generadas por BodyGen obtuvieron un aumento del 60.03% en la puntuación de adaptabilidad ambiental en comparación con los métodos óptimos existentes (como Transform2Act, NGE, etc.).
La cantidad promedio de parámetros de BodyGen es de 1.43M, siendo más ligero en comparación con otros algoritmos de referencia. El diseño compacto de BodyGen le permite reducir significativamente los costos computacionales y los requisitos de almacenamiento mientras mantiene sus capacidades de generación, mejorando la estabilidad y eficiencia del entrenamiento.
Esta arquitectura de modelo eficiente no solo reduce el consumo de recursos durante el entrenamiento, sino que también mejora la velocidad de respuesta en la etapa de inferencia, haciéndolo más adecuado para entornos con recursos limitados, e incluso puede realizar inferencias eficientes en una computadora portátil con la ayuda de la CPU.
En el futuro, el equipo planea promover la aplicación de BodyGen en escenarios reales a través de la tecnología de transferencia de simulación física. Con el aumento de la capacidad computacional, este marco tiene el potencial de convertirse en un camino importante hacia la inteligencia encarnada general, permitiendo que los robots optimicen continuamente sus estrategias de morfología y comportamiento a través del bucle de percepción-acción, logrando gradualmente el autodiseño y la evolución automática.