Detección de antonimia en español con redes neuronales parasiamesas

Camacho, Juan - Cámera, Juan

Supervisor(es): Etcheverry, Mathias

Resumen:

La discriminación entre antónimos y sinónimos (ASD) es una tarea del área de PLN que consiste en determinar si un par de palabras es antónimos o sinónimos entre si. Esta tarea puede presentar una gran complejidad a la hora de realizarse de manera automática, ya que una palabra y su antónimo suelen aparecer en contextos similares, lo que por ejemplo, podrá derivar en errores en un sistema de implicancia textual. Este problema ha sido abordado en varios trabajos en los cuales se plantearon diferentes modelos para resolver el problema. Estos trabajos han sido enfocados principalmente para el idioma inglés, no existiendo, según nuestras investigaciones, un trabajo que aborde el problema para el español, así como tampoco la existencia de un dataset para ASD que sea en español. A partir de esto se plantea como objetivo abordar el problema en nuestro idioma mediante la creación de un dataset y la evaluación del modelo Parasiamesa presentado en Etcheverry and Wonsever (2019) utilizando el dataset creado. El dataset fue generado mediante la consulta WordNet en español (Fernández- Montraveta et al., 2008) y tres diccionarios web. De cada una de las fuentes se extrajeron palabras con sus sinónimos y antónimos generando tuplas por cada una de ellas. Posteriormente se realizó un análisis de calidad del mismo la cual consistió en realizar una anotación manual de 200 tuplas. Se evaluó la concordancia entre anotadores obteniendo un valor 0.899 de la medida Kappa de Cohen (1960) así como la accuracy entre los anotadores y el dataset obteniendo valores de 0.9. Utilizando las tuplas se dataset se analizó las relaciones de antonimia y sinonimia generando el grafo de las relaciones, en donde se vio que los grafos poseen una gran componente conexa conteniendo la mayoría de las palabras, lo que indica una gran conectividad con la existencia de camino entre la mayoría de las palabras. El particionamiento del dataset en entrenamiento, validación y test se realizó de tres maneras distintas, donde dos de ellas poseen separación léxica entre los conjuntos. En partición sin separación léxica se utilizó un particionamiento aleatorio estratificado, mientras que para las particiones con separación léxica se utilizó un algoritmo basado en el presentado en Shwartz et al. (2016) y un algoritmo diseñado a partir de las características observadas al analizar los grafos de las relaciones. Adicionalmente se realizó la simetrización de las tuplas de los conjuntos obteniendo dos variantes para cada uno. Para la evaluación de la red Parasiamesa se realizó nuestra propia implementación del modelo así como la implementación de dos modelos mas a ser comparados. Estos modelos son una red neuronal de tipo feed-fordward completamente conectado y una red Siamesa. Para cada combinación de particionamiento y modelo se realizo un Random Search para buscar los hiperparámetros que mejor desempeño den a los modelos. Finalmente se utilizaron los mejores modelos encontrados y se evaluaron utilizando los conjuntos de test. Utilizando la medida F1 pudo observarse que el modelo Parasiamesa en su versión preentrenada fue el modelo que obtuvo el mejor desempeño en la mayoría de los particionamientos obteniendo una medida F1 de hasta 0.9 para el particionamiento Random.


Detalles Bibliográficos
2022
Procesamiento del lenguaje natural
Redes neuronales parasiamesas
Detección de antonimia y sinonimia en español
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/34636
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:La discriminación entre antónimos y sinónimos (ASD) es una tarea del área de PLN que consiste en determinar si un par de palabras es antónimos o sinónimos entre si. Esta tarea puede presentar una gran complejidad a la hora de realizarse de manera automática, ya que una palabra y su antónimo suelen aparecer en contextos similares, lo que por ejemplo, podrá derivar en errores en un sistema de implicancia textual. Este problema ha sido abordado en varios trabajos en los cuales se plantearon diferentes modelos para resolver el problema. Estos trabajos han sido enfocados principalmente para el idioma inglés, no existiendo, según nuestras investigaciones, un trabajo que aborde el problema para el español, así como tampoco la existencia de un dataset para ASD que sea en español. A partir de esto se plantea como objetivo abordar el problema en nuestro idioma mediante la creación de un dataset y la evaluación del modelo Parasiamesa presentado en Etcheverry and Wonsever (2019) utilizando el dataset creado. El dataset fue generado mediante la consulta WordNet en español (Fernández- Montraveta et al., 2008) y tres diccionarios web. De cada una de las fuentes se extrajeron palabras con sus sinónimos y antónimos generando tuplas por cada una de ellas. Posteriormente se realizó un análisis de calidad del mismo la cual consistió en realizar una anotación manual de 200 tuplas. Se evaluó la concordancia entre anotadores obteniendo un valor 0.899 de la medida Kappa de Cohen (1960) así como la accuracy entre los anotadores y el dataset obteniendo valores de 0.9. Utilizando las tuplas se dataset se analizó las relaciones de antonimia y sinonimia generando el grafo de las relaciones, en donde se vio que los grafos poseen una gran componente conexa conteniendo la mayoría de las palabras, lo que indica una gran conectividad con la existencia de camino entre la mayoría de las palabras. El particionamiento del dataset en entrenamiento, validación y test se realizó de tres maneras distintas, donde dos de ellas poseen separación léxica entre los conjuntos. En partición sin separación léxica se utilizó un particionamiento aleatorio estratificado, mientras que para las particiones con separación léxica se utilizó un algoritmo basado en el presentado en Shwartz et al. (2016) y un algoritmo diseñado a partir de las características observadas al analizar los grafos de las relaciones. Adicionalmente se realizó la simetrización de las tuplas de los conjuntos obteniendo dos variantes para cada uno. Para la evaluación de la red Parasiamesa se realizó nuestra propia implementación del modelo así como la implementación de dos modelos mas a ser comparados. Estos modelos son una red neuronal de tipo feed-fordward completamente conectado y una red Siamesa. Para cada combinación de particionamiento y modelo se realizo un Random Search para buscar los hiperparámetros que mejor desempeño den a los modelos. Finalmente se utilizaron los mejores modelos encontrados y se evaluaron utilizando los conjuntos de test. Utilizando la medida F1 pudo observarse que el modelo Parasiamesa en su versión preentrenada fue el modelo que obtuvo el mejor desempeño en la mayoría de los particionamientos obteniendo una medida F1 de hasta 0.9 para el particionamiento Random.