Inteligencia artificial aplicada al reconocimiento de crímenes
Supervisor(es): Viera, Omar - Moscatelli, Sandro
Resumen:
Este proyecto busca dar respuesta a la siguiente pregunta: ¿es posible detectar un acto criminal en tiempo real en base al lenguaje corporal de un individuo? Para responder a tal interrogante, se propone el desarrollo de un sistema informático capaz de detectar violencia a través de imágenes de video, apoyándose en la amplia variedad de hardware disponible dedicado a la recolección de imágenes de video en la vía pública en las ciudades actuales. Para el reconocimiento de acciones violentas se recurre a los últimos avances a nivel de procesamiento de imágenes, así como también a el estudio de las Ciencias Sociales. De las Ciencias Sociales se busca obtener toda la información posible con respecto al estudio del comportamiento humano a través del lenguaje corporal, en un intento por obtener un marco teórico que pueda ser luego plasmado en código informático. En el segundo caso, se estudian las capacidades más avanzadas con las que cuenta la tecnología actual en cuanto al procesamiento e interpretación de imágenes en una secuencia de video, con el objetivo de obtener información sobre qué puede “ver” un programa informático en ellas. Dado que en el ámbito de las Ciencias Sociales, la interpretación de las acciones o emociones de una persona a partir de su lenguaje corporal es un tema bastante debatido y lejos de estar cerrado, la solución a este problema se apoya fuertemente en el sector tecnológico. Se elabora un sistema basado en Machine Learning, que es entrenado utilizando un dataset de videos de hechos violentos ocurridos en la vía pública. Se desarrolla en primera instancia un sistema basado en un modelo de reconocimiento de imágenes llamado Inception V3, que obtiene resultados prometedores. Posteriormente, se ve la oportunidad de buscar una solución completamente propia, desarrollando el sistema completamente desde cero, para compararlo con el modelo basado en Inception. Este sistema se basa en la utilización de Redes Neuronales y, en particular, de Redes Neuronales Recurrentes de tipo Long Short-term Memory, que permiten procesar secuencias de datos a través del tiempo. Se obtienen resultados positivos, con un f1-score de 0.87 para la solución basada en Long Short-term Memory, contra un valor de 0.80 de la solución basada en Inception. Estos resultados son considerados positivos para los recursos disponibles en el desarrollo de este proyecto.
2023 | |
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/36013 | |
Acceso abierto | |
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
Sumario: | Este proyecto busca dar respuesta a la siguiente pregunta: ¿es posible detectar un acto criminal en tiempo real en base al lenguaje corporal de un individuo? Para responder a tal interrogante, se propone el desarrollo de un sistema informático capaz de detectar violencia a través de imágenes de video, apoyándose en la amplia variedad de hardware disponible dedicado a la recolección de imágenes de video en la vía pública en las ciudades actuales. Para el reconocimiento de acciones violentas se recurre a los últimos avances a nivel de procesamiento de imágenes, así como también a el estudio de las Ciencias Sociales. De las Ciencias Sociales se busca obtener toda la información posible con respecto al estudio del comportamiento humano a través del lenguaje corporal, en un intento por obtener un marco teórico que pueda ser luego plasmado en código informático. En el segundo caso, se estudian las capacidades más avanzadas con las que cuenta la tecnología actual en cuanto al procesamiento e interpretación de imágenes en una secuencia de video, con el objetivo de obtener información sobre qué puede “ver” un programa informático en ellas. Dado que en el ámbito de las Ciencias Sociales, la interpretación de las acciones o emociones de una persona a partir de su lenguaje corporal es un tema bastante debatido y lejos de estar cerrado, la solución a este problema se apoya fuertemente en el sector tecnológico. Se elabora un sistema basado en Machine Learning, que es entrenado utilizando un dataset de videos de hechos violentos ocurridos en la vía pública. Se desarrolla en primera instancia un sistema basado en un modelo de reconocimiento de imágenes llamado Inception V3, que obtiene resultados prometedores. Posteriormente, se ve la oportunidad de buscar una solución completamente propia, desarrollando el sistema completamente desde cero, para compararlo con el modelo basado en Inception. Este sistema se basa en la utilización de Redes Neuronales y, en particular, de Redes Neuronales Recurrentes de tipo Long Short-term Memory, que permiten procesar secuencias de datos a través del tiempo. Se obtienen resultados positivos, con un f1-score de 0.87 para la solución basada en Long Short-term Memory, contra un valor de 0.80 de la solución basada en Inception. Estos resultados son considerados positivos para los recursos disponibles en el desarrollo de este proyecto. |
---|