Estudio de sesgos en representaciones vectoriales de palabras.
Supervisor(es): Rosá, Aiala - Etcheverry, Lorena - Cabana, Álvaro
Resumen:
Este proyecto se centró en el análisis de sesgos regionales en representaciones vectoriales de palabras (word embeddings) en el contexto del Río de la Plata. El objetivo principal fue explorar si los modelos de word embeddings entrenados en español reflejan sesgos específicos de esta área geográfica y cultural. El proyecto se llevó a cabo en dos etapas, la creación y ajuste de modelos de word embeddings y la evaluación de estos utilizando diversas pruebas. Para abordar este objetivo, se utilizó la biblioteca gensim de procesamiento de lenguaje natural y se crearon modelos de word embeddings con Word2Vec y Fasttext. También se ajustaron modelos existentes de word embeddings al español rioplatense, con la intención de capturar de manera más precisa las particularidades léxicas y semánticas de esta región. El corpus de entrenamiento y ajuste fue formado por textos de noticias de Uruguay y Argentina. Además, se diseñaron y adaptaron al español pruebas de evaluación de word embeddings. Estas pruebas se utilizaron para evaluar el rendimiento de los modelos, para identificar su capacidad de reflejar el léxico y los matices del Río de la Plata tratando de identificar el uso de palabras típicas de la región, y por último, para determinar o no la presencia de sesgos en los modelos. Las pruebas de sesgo se realizaron bajo los subespacios de estudio del género binario (femenino-masculino), la raza (blanca-negra) y el concepto de colonización (colonizado-colonizador). En el análisis no se llegó a una conclusión definitiva sobre la existencia de sesgos específicos del Río de la Plata en los modelos de word embeddings. Sin embargo, uno de los logros significativos de este proyecto fue la creación de un conjunto de pruebas adaptadas al español para evaluar sesgos. Este recurso puede ser de utilidad para investigaciones futuras que busquen abordar cuestiones de sesgo en modelos de word embeddings en idioma español.
2023 | |
Word embeddings Sesgo Procesamiento del lenguaje natural PLN |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/41687 | |
Acceso abierto | |
Licencia Creative Commons Atribución (CC - By 4.0) |