Análisis de noticias sobre seguridad ciudadana en redes sociales
Supervisor(es): Rosá, Aiala - Moncecchi, Guillermo
Resumen:
Los medios de comunicación tienen una fuerte injerencia en la opinión de las personas. Hoy en día, estos utilizan cada vez más la red social Twitter como medio de difusión de noticias. Según Latinobarómetro, la seguridad ciudadana es el tema que más preocupa a la sociedad uruguaya desde el 2006. En función de esto, el presente trabajo busca generar una herramienta que permita a cualquier persona realizar un seguimiento de la temática de Seguridad, a través del análisis de tweets que publican diversos medios de prensa escrita. Se trabajó en conjunto con investigadores y estudiantes de Facultad de Ciencias Sociales para etiquetar más de dos mil de esos tweets, que luego se utilizaron para entrenar un modelo de aprendizaje automático que identificara los que tratan sobre seguridad. Para representar los tweets se realizaron varias pruebas en base al algoritmo autosupervisado Word2Vec, pruebas con la variante simple y la variante enriquecida con subpalabras, y también con dos implementaciones diferentes: Skipgram y Continuous Bag of Words (CBOW). Se implementaron herramientas para la detección de tópicos y entidades nombradas. Para la detección de tópicos, se utilizó una mezcla de varias técnicas, empleando un enfoque de aprendizaje no supervisado para agrupar las noticias haciendo uso de su representación vectorial. A esta representación vectorial se le aplica el algoritmo de k-means para detectar agrupaciones semánticas. Dentro de estas se utiliza el algoritmo Latent Dirichlet Allocation (LDA) para detectar tópicos formados por conjuntos de diez palabras. Para la detección de entidades nombradas, se realizaron pruebas con dos implementaciones: Stanza y Spacy. Ambas son bibliotecas utilizadas en el área para tareas de PLN. Luego se utilizó un conjunto previamente etiquetado para comparar los resultados de cada implementación. Se desplegó una aplicación que permite visualizar todos los datos y navegar con distintos filtros. Por otro lado, existe un script de Python encargado de descargar los nuevos tweets publicados, procesarlos y actualizar la base de datos con la nueva información. Además de la tarea de implementación, el presente trabajo requirió contacto estrecho con el beneficiario del producto, teniendo reuniones periódicas donde se pactaron funcionalidades según necesidades y tiempo disponible.
2022 | |
Aprendizaje automático Aprendizaje supervisado Aprendizaje no supervisado Procesamiento de lenguaje natural Red social Seguridad Clasificación |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/33832 | |
Acceso abierto | |
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |