Aplicación de visión basada en eventos en problemas relacionados con la navegación vehicular autónoma.

Belzarena, Diego - Boccarato, Florencia - Lefebre, Ricardo

Supervisor(es): Preciozzi, Javier

Resumen:

Una cámara de eventos es un sensor de imagen que responde a los cambios locales en el brillo. Las cámaras de eventos no capturan imágenes con un obturador como lo hacen las cámaras convencionales. En su lugar, cada píxel dentro de una cámara de eventos funciona de forma independiente y asincrónica, informando de los cambios en el brillo a medida que ocurren y permaneciendo en silencio de lo contrario. Las cámaras de eventos modernas tienen una resolución temporal de microsegundos, un rango dinámico de 120dB y menos subexposición/sobreexposición y desenfoque de movimiento que las cámaras tradicionales. Esta capacidad de las cámaras de eventos para detectar cambios en la escena a muy alta velocidad, la hacen sumamente atractiva como sensor de movimiento para vehículos autónomos. En este escenario, se realizó un estudio exhaustivo de los fundamentos de las cámaras de eventos: sus características más relevantes (diseño de arquitecturas de píxeles, configuración, proceso de generación de eventos), las diferencias con las cámaras convencionales y las distintas maneras prácticas de trabajar con eventos. Luego, se seleccionaron dos tareas de navegación autónoma sobre las cuales realizar pruebas de concepto: Detección de Objetos y Odometría. Para dichas pruebas se utilizó una cámara de eventos EVK3 Gen4.1 de Prophesee. Para la aplicación de la tecnología en el problema de Detección de Objetos, se estudiaron los distintos enfoques del estado del arte. Del enfoque basado en Redes Neuronales en Grafos (GNNs), se optó por realizar un estudio en detalle del método AEGNN por su balance entre eficiencia y desempeño. Como análisis experimental, se entrenó este algoritmo y se corroboró la eficiencia computacional del procesamiento asíncrono que propone este método. Por otro lado, se realizó una comparación cualitativa sobre datos propios entre algoritmos de Detección de Objetos basados en eventos (RED y RVT) y algoritmos de Detección de Objetos basados en cámaras convencionales (YOLOv5). De aquí, se observó que la utilización de las cámaras de eventos provee grandes ventajas, como la robustez frente a cambios de iluminación, mientras que presenta algunas dificultades, como la pérdida de detecciones en escenas estáticas. También, se verificó que esta dificultad puede sobrellevarse mediante la incorporación de recurrencia en las redes (RNNs), como se plantea en algunos trabajos recientes. Por último, se evaluó el uso de las cámaras de eventos en el problema de Odometría Visual. Para ello, se utilizó una implementación de código abierto de un sistema de Odometría Visual Inercial basada en eventos, publicada por investigadores de la Universidad de Zúrich, denominada Ultimate SLAM. Esto implicó la necesidad de integrar un sensor de medidas inerciales (IMU) a la cámara de eventos, teniendo que sincronizarlos temporalmente y calibrarlos espacialmente. El algoritmo Ultimate SLAM se usó en la modalidad eventos más IMU, y se evaluó en dos conjuntos de datos. Por un lado, se tomaron datos de trayectorias simples controladas, comparando los resultados obtenidos con las trayectorias teóricas del movimiento realizado. Por otro lado, se tomaron datos integrando el sistema neurómorfico a un vehículo autónomo en funcionamiento. Dicho vehículo cuenta con un sistema de Odometría clásico, basado en la medición del giro de las ruedas y un sensor inercial, que fue usado como referencia. Para el conjunto de datos de trayectorias simples controladas, la estimación de la posición instantánea obtuvo valores de error que duplican a los reportados en el artículo original. En cuanto a la estimación de la orientación instantánea, los valores obtenidos están un grado de magnitud por encima de los valores reportados en el trabajo original. En los datos tomados con el vehículo en funcionamiento, no se logró que el algoritmo estime correctamente la posición instantánea. No obstante, la estimación de orientación obtuvo mejores resultados que el conjunto de trayectorias controladas, alcanzando en el mejor caso el rango de errores reportados en el artículo original.


Detalles Bibliográficos
2023
Aplicaciones de computadoras
Control por computador
Visión por ordenador
Sensores de imágenes
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/39726
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:Una cámara de eventos es un sensor de imagen que responde a los cambios locales en el brillo. Las cámaras de eventos no capturan imágenes con un obturador como lo hacen las cámaras convencionales. En su lugar, cada píxel dentro de una cámara de eventos funciona de forma independiente y asincrónica, informando de los cambios en el brillo a medida que ocurren y permaneciendo en silencio de lo contrario. Las cámaras de eventos modernas tienen una resolución temporal de microsegundos, un rango dinámico de 120dB y menos subexposición/sobreexposición y desenfoque de movimiento que las cámaras tradicionales. Esta capacidad de las cámaras de eventos para detectar cambios en la escena a muy alta velocidad, la hacen sumamente atractiva como sensor de movimiento para vehículos autónomos. En este escenario, se realizó un estudio exhaustivo de los fundamentos de las cámaras de eventos: sus características más relevantes (diseño de arquitecturas de píxeles, configuración, proceso de generación de eventos), las diferencias con las cámaras convencionales y las distintas maneras prácticas de trabajar con eventos. Luego, se seleccionaron dos tareas de navegación autónoma sobre las cuales realizar pruebas de concepto: Detección de Objetos y Odometría. Para dichas pruebas se utilizó una cámara de eventos EVK3 Gen4.1 de Prophesee. Para la aplicación de la tecnología en el problema de Detección de Objetos, se estudiaron los distintos enfoques del estado del arte. Del enfoque basado en Redes Neuronales en Grafos (GNNs), se optó por realizar un estudio en detalle del método AEGNN por su balance entre eficiencia y desempeño. Como análisis experimental, se entrenó este algoritmo y se corroboró la eficiencia computacional del procesamiento asíncrono que propone este método. Por otro lado, se realizó una comparación cualitativa sobre datos propios entre algoritmos de Detección de Objetos basados en eventos (RED y RVT) y algoritmos de Detección de Objetos basados en cámaras convencionales (YOLOv5). De aquí, se observó que la utilización de las cámaras de eventos provee grandes ventajas, como la robustez frente a cambios de iluminación, mientras que presenta algunas dificultades, como la pérdida de detecciones en escenas estáticas. También, se verificó que esta dificultad puede sobrellevarse mediante la incorporación de recurrencia en las redes (RNNs), como se plantea en algunos trabajos recientes. Por último, se evaluó el uso de las cámaras de eventos en el problema de Odometría Visual. Para ello, se utilizó una implementación de código abierto de un sistema de Odometría Visual Inercial basada en eventos, publicada por investigadores de la Universidad de Zúrich, denominada Ultimate SLAM. Esto implicó la necesidad de integrar un sensor de medidas inerciales (IMU) a la cámara de eventos, teniendo que sincronizarlos temporalmente y calibrarlos espacialmente. El algoritmo Ultimate SLAM se usó en la modalidad eventos más IMU, y se evaluó en dos conjuntos de datos. Por un lado, se tomaron datos de trayectorias simples controladas, comparando los resultados obtenidos con las trayectorias teóricas del movimiento realizado. Por otro lado, se tomaron datos integrando el sistema neurómorfico a un vehículo autónomo en funcionamiento. Dicho vehículo cuenta con un sistema de Odometría clásico, basado en la medición del giro de las ruedas y un sensor inercial, que fue usado como referencia. Para el conjunto de datos de trayectorias simples controladas, la estimación de la posición instantánea obtuvo valores de error que duplican a los reportados en el artículo original. En cuanto a la estimación de la orientación instantánea, los valores obtenidos están un grado de magnitud por encima de los valores reportados en el trabajo original. En los datos tomados con el vehículo en funcionamiento, no se logró que el algoritmo estime correctamente la posición instantánea. No obstante, la estimación de orientación obtuvo mejores resultados que el conjunto de trayectorias controladas, alcanzando en el mejor caso el rango de errores reportados en el artículo original.