DA-SLAM: Deep Active SLAM based on Deep Reinforcement Learning.

Alcalde Gillespie, Martín - Ferreira Echenique, Matías - González, Pablo

Supervisor(es): Andrade, Federico - Tejera, Gonzalo

Resumen:

El mapeo y la localización son unos de los desafíos fundamentales de los robots móviles, junto a la planificación de trayectorias forman la base de los problemas de navegación en robots móviles autónomos. En esta Tesis se aborda el problema de SLAM (Localización y Mapeo Simultáneos, por sus siglas en inglés), el cual es el problema de construir un mapa de un entorno previamente desconocido de forma incremental y al mismo tiempo localizar el robot dentro de ese mapa. Uno no puede desacoplar ambas tareas y resolverlas de forma independiente. En los últimos años, RL (Aprendizaje por Refuerzo, por sus siglas en inglés) se ha utilizado para abordar y resolver varias tareas de robótica diferentes, como estabilización, manipulación, locomoción y navegación. En el contexto de la navegación, los agentes basados en RL no suelen depender de ningún mapa o SLAM y, aunque tienen mucho éxito, no aprovechan la información importante almacenada en los mapas. En cuanto al problema de SLAM activo con RL, se plantea la necesidad de contar con funciones de recompensa que permitan: reducir la incertidumbre del mapa y motivar la exploración del mapa Este trabajo presenta mejoras sobre los algoritmos existentes en el estado del arte, para la planificación y exploración en entornos complejos desconocidos utilizando DRL (Aprendizaje por Refuerzo Profundo, por sus siglas en inglés). Este trabajo presenta un enfoque novedoso, el cual introduce dos funciones de recompensa que toman en consideración: (i) la información del mapa, el cual es construido en tiempo real por el robot utilizando un algoritmo de SLAM, y (ii) la incertidumbre de la pose del robot, lo que lleva al cerrado activo de ciclos para incentivar la exploración y mejorar la generación de los mapas, respectivamente. Los resultados obtenidos muestran que la función de recompensa basada en la completitud del mapa obtiene trayectorias más cortas, respecto a las presentadas por la literatura; mientras que la función de recompensa basada en incertidumbre de la pose obtiene mapas más fieles al entorno real. Además, ambos agentes probaron su capacidad tanto de realizar SLAM activo en entornos complejos como de generalización a mapas desconocidos.


Detalles Bibliográficos
2023
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/37216
Acceso abierto
Licencia Creative Commons Atribución (CC - By 4.0)