Identificación de discurso de odio en redes sociales
Supervisor(es): Etcheverry, Mathías - Prada, Juan José
Resumen:
Este informe describe el desarrollo del trabajo realizado con el objetivo principal de identificar discurso de odio en redes sociales, a través de métodos de aprendizaje automático. Para ello, se construye un corpus conformado por publicaciones de la red social Twitter, anotado según contengan discurso de odio o no. La anotación se realiza mediante crowdsourcing, a través de una aplicación web desarrollada a estos efectos, reportándose un acuerdo entre los anotadores de 0.537 según la alfa de Krippendorff. Luego, se comparan distintos modelos a partir del desempeño que presentan realizando la tarea de clasificación sobre este corpus. El mejor clasificador obtenido consiste en un modelo SVM, el cual logra un f-score de 0.846 sobre el conjunto construido. El trabajo desarrollado muestra el enfoque utilizado para resolver la tarea de detección automática de discurso de odio, las principales dificultades encontradas y propuestas para intentar superarlas.
2020 | |
Clasificación de texto Discurso de odio Anotación de corpus Aprendizaje automático Procesamiento de lenguaje natural |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/25263 | |
Acceso abierto | |
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
Sumario: | Este informe describe el desarrollo del trabajo realizado con el objetivo principal de identificar discurso de odio en redes sociales, a través de métodos de aprendizaje automático. Para ello, se construye un corpus conformado por publicaciones de la red social Twitter, anotado según contengan discurso de odio o no. La anotación se realiza mediante crowdsourcing, a través de una aplicación web desarrollada a estos efectos, reportándose un acuerdo entre los anotadores de 0.537 según la alfa de Krippendorff. Luego, se comparan distintos modelos a partir del desempeño que presentan realizando la tarea de clasificación sobre este corpus. El mejor clasificador obtenido consiste en un modelo SVM, el cual logra un f-score de 0.846 sobre el conjunto construido. El trabajo desarrollado muestra el enfoque utilizado para resolver la tarea de detección automática de discurso de odio, las principales dificultades encontradas y propuestas para intentar superarlas. |
---|