Innovación en entrenamiento de robots por MIT

El MIT impulsa el futuro de la robótica con una técnica avanzada de entrenamiento de robots.

Estados Unidos.-Investigadores del Instituto Tecnológico de Massachusetts (MIT) han dado un paso adelante en la robótica al desarrollar una técnica avanzada para el entrenamiento de robots multipropósito.

Esta metodología, denominada Composición de Políticas (PoCo), fusiona datos de diversas fuentes para forjar un sistema de inteligencia artificial más robusto y adaptable.

La formación de robots para ejecutar labores de mantenimiento doméstico con herramientas convencionales, como martillos y destornilladores, requiere una amplia gama de datos que ilustren el manejo adecuado de dichos implementos.

Los conjuntos de datos en robótica son notoriamente heterogéneos, abarcando desde imágenes hasta sensaciones táctiles, y suelen obtenerse por medio de simulaciones o demostraciones humanas.

La tarea de amalgamar eficazmente datos de distintas procedencias en un único modelo de aprendizaje es una empresa compleja. La mayoría de las estrategias existentes se centran en un solo tipo de dato para adiestrar a los robots, lo que restringe su habilidad para afrontar nuevas actividades en escenarios no familiares.

Frente a esta problemática, el equipo del MIT ha ideado PoCo, que posibilita la integración de datos de múltiples fuentes, modalidades y tareas mediante modelos de difusión.

El proceso inicia con la formación de modelos de difusión independientes que aprenden estrategias de tareas específicas de conjuntos de datos particulares. Estas estrategias se fusionan después en una directriz común que habilita a los robots para ejecutar variadas tareas en distintos entornos. PoCo ha probado su eficacia en simulaciones y experimentos reales, mejorando el rendimiento en un 20 por ciento frente a otras técnicas.

“Abordar la heterogeneidad en los conjuntos de datos robóticos es como un problema del huevo de gallina. Si queremos utilizar una gran cantidad de datos para entrenar políticas generales de robots, primero necesitamos robots desplegables para obtener todos estos datos”, comparte Lirui Wang, quien lidera la investigación. Este avance será expuesto en la Conferencia Robótica: Ciencia y Sistemas.

Te puede interesar: MIT conmemora su historia en una oblea de silicio con el proyecto One.MIT

Una política robótica es un esquema de aprendizaje que traduce entradas en acciones. La técnica del MIT permite aprender políticas individuales a partir de distintos conjuntos de datos y combinarlas con efectividad. Los modelos de difusión representan cada política y se especializan en generar trayectorias mejoradas de forma iterativa.

“Uno de los beneficios de este enfoque es que podemos combinar políticas para obtener lo mejor de ambos mundos. Por ejemplo, una política formada con datos del mundo real podría lograr una mayor destreza, mientras que una política formada con simulación podría lograr una mayor generalización”.
Lirui Wang

La habilidad de mezclar políticas de difusión potencia los resultados y facilita la adaptación a nuevas tareas.

Los experimentos con PoCo, tanto en simulaciones como con brazos robóticos reales, han mostrado un incremento del 20 por ciento en eficiencia de tareas.

Los investigadores aspiran a aplicar esta técnica a desafíos más complejos e integrar conjuntos de datos más extensos para elevar aún más la capacidad de los robots.