Detección de hiperonimia en español con representaciones vectoriales de palabras

Lee, Gun Woo

Supervisor(es): Etcheverry, Mathías - Wonsever, Dina

Resumen:

En el presente trabajo se aborda la tarea de detección de hiperonimia en español de forma supervisada. La misma ha sido investigada en diferentes idiomas pero según nuestro conocimiento hay escasos recursos para el español. Por este motivo, en este proyecto se construye un conjunto de datos para la relación de hiperonimia en español. Para la construcción se utilizó WordNet e información extraída de corpus. Para mejorar la calidad de los datos obtenidos se aplicaron heurísticas de filtrado. Por otro lado se consideraron dos modelos de redes neuronales aplicados sobre representaciones vectoriales de las palabras: 1) modelo con concatenación de vectores y 2) modelo de order embedding de Vendrov et al. (2015). Ambos modelos son entrenados con el conjunto de hiperonimia construido. Para evitar el fenómeno de memorización léxica (Levy et al., 2015) y estudiar el comportamiento de los modelos en palabras que no han sido vistas durante el entrenamiento, se consideran dos formas de partir el conjunto de datos (en entrenamiento, validación y evaluación) según ocurran o no palabras en común entre las particiones. Como resultado se presenta un conjunto de datos para el entrenamiento supervisado de la relación de hiperonimia en español, con 106592 y 44960 instancias para los casos con y sin palabras en común, respectivamente. Los mejores resultados fueron obtenidos con el modelo de order embedding, dando un valor de 89,3% y 81,8% de medida F1 sobre las dos variantes del conjunto de datos anteriormente mencionadas.


Detalles Bibliográficos
2020
Hiperonimia
Representaciones vectoriales de las palabras
Redes neuronales artificiales
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/24657
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:En el presente trabajo se aborda la tarea de detección de hiperonimia en español de forma supervisada. La misma ha sido investigada en diferentes idiomas pero según nuestro conocimiento hay escasos recursos para el español. Por este motivo, en este proyecto se construye un conjunto de datos para la relación de hiperonimia en español. Para la construcción se utilizó WordNet e información extraída de corpus. Para mejorar la calidad de los datos obtenidos se aplicaron heurísticas de filtrado. Por otro lado se consideraron dos modelos de redes neuronales aplicados sobre representaciones vectoriales de las palabras: 1) modelo con concatenación de vectores y 2) modelo de order embedding de Vendrov et al. (2015). Ambos modelos son entrenados con el conjunto de hiperonimia construido. Para evitar el fenómeno de memorización léxica (Levy et al., 2015) y estudiar el comportamiento de los modelos en palabras que no han sido vistas durante el entrenamiento, se consideran dos formas de partir el conjunto de datos (en entrenamiento, validación y evaluación) según ocurran o no palabras en común entre las particiones. Como resultado se presenta un conjunto de datos para el entrenamiento supervisado de la relación de hiperonimia en español, con 106592 y 44960 instancias para los casos con y sin palabras en común, respectivamente. Los mejores resultados fueron obtenidos con el modelo de order embedding, dando un valor de 89,3% y 81,8% de medida F1 sobre las dos variantes del conjunto de datos anteriormente mencionadas.