Algoritmos de aprendizaje automático con aplicación a enjambres de robots

Agorio, Leopoldo

Supervisor(es): Bazerque, Juan Andrés

Resumen:

Los sistemas robóticos de enjambre o de múltiples agentes constituyen un área de investigación en creciente desarrollo. Para proveer infraestructura inalámbrica a demanda es necesario desplegar un equipo secundario de robots que garanticen la conectividad del enjambre. En este trabajo explicamos un algoritmo de posicionamiento óptimo para este equipo de robots, consistente en una etapa de optimización convexa sobre un modelo de canal probabilístico y una siguiente etapa de maximización de la conectividad de un grafo Laplaciano. Para mostrar la ventaja de esta formulación matemática, llevamos a cabo tanto simulaciones como experimentos que fueron realizados con una flota de 10 Vehículos Aéreos no Tripulados (UAV por sus siglas en inglés) -ensamblados y configurados por nuestro grupo de investigación- basados en el modelo DJI Flame-Wheel y equipados con mini-computadoras Intel NUC a bordo y conectividad Wi-Fi. Para los experimentos realizados, los UAVs establecieron una red ad-hoc a través de nodos ROS multi-master en sistema operativo Ubuntu 18. Existe a su vez otra familia de algoritmos autónomos de creciente interés conocida como aprendizaje por recompensas o Reinforcement Learning (RL), en los que el control a aplicar surge a partir de optimizar una señal de recompensa. En esta tesis estudiamos un problema de monitoreo, formulado a partir de restricciones de ocupación de regiones a monitorear por uno o múltiples agentes, que se lleva a un problema de RL en el que las variables duales actúan como señal de recompensa. Para resolver el problema en el caso de un único agente monitoreando varias regiones, diseñamos una parametrización por medio de una red neuronal que procesa en paralelo las variables primales y las duales. Con esta novedad estructural, la red aprende a elegir políticas de navegación en función del grado de satisfacción de las restricciones, que se observa en tiempo real a través de las variables duales. Para el caso de múltiples agentes, simulamos una versión simplificada del problema con un espacio de estados discreto y dos agentes, e imponiendo que los agentes tengan políticas distribuidas logramos un desempeño comparable al de una política centralizada.


Swarm or multi-agent robotic systems are a growing area of research. To provide wireless infrastructure on demand, it is necessary to deploy a secondary team of robots that guarantee the connectivity of the swarm. In this paper we explain an optimal positioning algorithm for this team of robots, consisting of a convex optimization stage on a probabilistic channel model and a subsequent connectivity maximization stage of a Laplacian graph. To show the advantage of this mathematical formulation, we carried out both simulations and experiments that were carried out with a fleet of 10 Unmanned Aerial Vehicles (UAV) -assembled and con gured by our research group- based on the model DJI Flame-Wheel and equipped with onboard Intel NUC mini-computers and Wi-Fi connectivity. For the experiments carried out, the UAVs established an ad-hoc network through ROS multi-master nodes in the Ubuntu 18 operating system. There is also another family of autonomous algorithms of growing interest known as Reinforcement Learning (RL), in which the control to be applied arises from optimizing a reward signal. In this thesis we study a monitoring problem, formulated from the occupation restrictions of regions to be monitored by one or multiple agents, which leads to an RL problem in which the dual variables act as a reward signal. To solve the problem in the case of a single agent monitoring several regions, we designed a parameterization through a neural network that processes the primal and dual variables in parallel. With this structural novelty, the network learns to choose navigation policies based on the degree of satisfaction of the constraints, which is observed in real time through the dual variables. For the multi-agent case, we simulate a simpli ed version of the problem with a discrete state space and two agents, and by imposing that the agents have distributed policies, we achieve performance comparable to that of a centralized policy.


Detalles Bibliográficos
2022
Beca de Posgrado de la CAP, UdelaR
Aprendizaje Automático
Robótica Autónoma
Robótica Multi-Agente
Redes Neuronales
Optimización Convexa
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/33397
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:Los sistemas robóticos de enjambre o de múltiples agentes constituyen un área de investigación en creciente desarrollo. Para proveer infraestructura inalámbrica a demanda es necesario desplegar un equipo secundario de robots que garanticen la conectividad del enjambre. En este trabajo explicamos un algoritmo de posicionamiento óptimo para este equipo de robots, consistente en una etapa de optimización convexa sobre un modelo de canal probabilístico y una siguiente etapa de maximización de la conectividad de un grafo Laplaciano. Para mostrar la ventaja de esta formulación matemática, llevamos a cabo tanto simulaciones como experimentos que fueron realizados con una flota de 10 Vehículos Aéreos no Tripulados (UAV por sus siglas en inglés) -ensamblados y configurados por nuestro grupo de investigación- basados en el modelo DJI Flame-Wheel y equipados con mini-computadoras Intel NUC a bordo y conectividad Wi-Fi. Para los experimentos realizados, los UAVs establecieron una red ad-hoc a través de nodos ROS multi-master en sistema operativo Ubuntu 18. Existe a su vez otra familia de algoritmos autónomos de creciente interés conocida como aprendizaje por recompensas o Reinforcement Learning (RL), en los que el control a aplicar surge a partir de optimizar una señal de recompensa. En esta tesis estudiamos un problema de monitoreo, formulado a partir de restricciones de ocupación de regiones a monitorear por uno o múltiples agentes, que se lleva a un problema de RL en el que las variables duales actúan como señal de recompensa. Para resolver el problema en el caso de un único agente monitoreando varias regiones, diseñamos una parametrización por medio de una red neuronal que procesa en paralelo las variables primales y las duales. Con esta novedad estructural, la red aprende a elegir políticas de navegación en función del grado de satisfacción de las restricciones, que se observa en tiempo real a través de las variables duales. Para el caso de múltiples agentes, simulamos una versión simplificada del problema con un espacio de estados discreto y dos agentes, e imponiendo que los agentes tengan políticas distribuidas logramos un desempeño comparable al de una política centralizada.