Identificación de discurso de odio en redes sociales

Kunc, Lucas - Saravia, Manuel

Supervisor(es): Etcheverry, Mathías - Prada, Juan José

Resumen:

Este informe describe el desarrollo del trabajo realizado con el objetivo principal de identificar discurso de odio en redes sociales, a través de métodos de aprendizaje automático. Para ello, se construye un corpus conformado por publicaciones de la red social Twitter, anotado según contengan discurso de odio o no. La anotación se realiza mediante crowdsourcing, a través de una aplicación web desarrollada a estos efectos, reportándose un acuerdo entre los anotadores de 0.537 según la alfa de Krippendorff. Luego, se comparan distintos modelos a partir del desempeño que presentan realizando la tarea de clasificación sobre este corpus. El mejor clasificador obtenido consiste en un modelo SVM, el cual logra un f-score de 0.846 sobre el conjunto construido. El trabajo desarrollado muestra el enfoque utilizado para resolver la tarea de detección automática de discurso de odio, las principales dificultades encontradas y propuestas para intentar superarlas.


Detalles Bibliográficos
2020
Clasificación de texto
Discurso de odio
Twitter
Anotación de corpus
Aprendizaje automático
Procesamiento de lenguaje natural
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/25263
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:Este informe describe el desarrollo del trabajo realizado con el objetivo principal de identificar discurso de odio en redes sociales, a través de métodos de aprendizaje automático. Para ello, se construye un corpus conformado por publicaciones de la red social Twitter, anotado según contengan discurso de odio o no. La anotación se realiza mediante crowdsourcing, a través de una aplicación web desarrollada a estos efectos, reportándose un acuerdo entre los anotadores de 0.537 según la alfa de Krippendorff. Luego, se comparan distintos modelos a partir del desempeño que presentan realizando la tarea de clasificación sobre este corpus. El mejor clasificador obtenido consiste en un modelo SVM, el cual logra un f-score de 0.846 sobre el conjunto construido. El trabajo desarrollado muestra el enfoque utilizado para resolver la tarea de detección automática de discurso de odio, las principales dificultades encontradas y propuestas para intentar superarlas.