Inducción del sentido de las palabras para el Idioma español.

Lastra, Rodrigo

Supervisor(es): Chiruzzo, Luis - Etcheverry, Mathias

Resumen:

En cualquier lenguaje natural, existe una gran cantidad de palabras con más de un significado posible. Las máquinas necesitan procesar información textual no estructurada y transformarla en estructuras que puedan analizarse para determinar los significados de las palabras. El problema de identificar, computacionalmente, el significado de una o más palabras en su contexto es conocido como Word Sense Disambiguation (WSD). Para la resolución de WSD es necesario contar con inventarios de significados utilizables computacionalmente de calidad para el lenguaje a desambiguar, que sean a la vez relevantes para el dominio de aplicación en el que se busca realizar la desambiguación. A su vez la construcción de sistemas de aprendizaje automático supervisado o basados en conocimiento requieren otros tipos de recursos lingüísticos (tesauros, ontologías, etc.). Tanto los inventarios de significados como este otro tipo de recursos son costosos de construir en tiempo y recursos, y son dependientes del dominio de aplicación y el lenguaje. Para evitarlo, se recurre a técnicas de aprendizaje no supervisado que descubren automáticamente los posibles significados de una palabra, a partir de corpus sin anotar. Este problema se conoce como Word Sense Induction (WSI). Lamentablemente, en español los esfuerzos en WSI han sido prácticamente inexistentes. Este trabajo, busca aplicar en español una técnica de WSI denominada “WSI with neural biLM and symmetric patterns” basada en un modelo de lenguaje neuronal direccional biLM ELMo que obtuvo un rendimiento superior a los previamente reportados para la tarea de referencia SemEval 2013 Task 13 para el idioma inglés. La evaluación del método de desambiguación en español se realizará sobre la tarea Senseval 2 Spanish Lexical Sample .Para la aplicación del método de desambiguación, fue necesario realizar el entrenamiento del modelo de lenguaje biLM ELMo para el español, del cual pueden obtenerse embeddings con o sin contexto, así como ser utilizado como un modelo de lenguaje completo. Se trata de un recurso que no se encontraba disponible previamente en forma completa y que se encuentra disponible públicamente.


Detalles Bibliográficos
2019
Procesamiento de lenguaje natural (NLP)
Word Sense Disambiguation (WSD)
Knowledge acquisition bottleneck
Word Sense Induction (WSI)
ELMo
Symmetric patterns
Modelo de lenguaje neuronal
Embeddings
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/23043
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:En cualquier lenguaje natural, existe una gran cantidad de palabras con más de un significado posible. Las máquinas necesitan procesar información textual no estructurada y transformarla en estructuras que puedan analizarse para determinar los significados de las palabras. El problema de identificar, computacionalmente, el significado de una o más palabras en su contexto es conocido como Word Sense Disambiguation (WSD). Para la resolución de WSD es necesario contar con inventarios de significados utilizables computacionalmente de calidad para el lenguaje a desambiguar, que sean a la vez relevantes para el dominio de aplicación en el que se busca realizar la desambiguación. A su vez la construcción de sistemas de aprendizaje automático supervisado o basados en conocimiento requieren otros tipos de recursos lingüísticos (tesauros, ontologías, etc.). Tanto los inventarios de significados como este otro tipo de recursos son costosos de construir en tiempo y recursos, y son dependientes del dominio de aplicación y el lenguaje. Para evitarlo, se recurre a técnicas de aprendizaje no supervisado que descubren automáticamente los posibles significados de una palabra, a partir de corpus sin anotar. Este problema se conoce como Word Sense Induction (WSI). Lamentablemente, en español los esfuerzos en WSI han sido prácticamente inexistentes. Este trabajo, busca aplicar en español una técnica de WSI denominada “WSI with neural biLM and symmetric patterns” basada en un modelo de lenguaje neuronal direccional biLM ELMo que obtuvo un rendimiento superior a los previamente reportados para la tarea de referencia SemEval 2013 Task 13 para el idioma inglés. La evaluación del método de desambiguación en español se realizará sobre la tarea Senseval 2 Spanish Lexical Sample .Para la aplicación del método de desambiguación, fue necesario realizar el entrenamiento del modelo de lenguaje biLM ELMo para el español, del cual pueden obtenerse embeddings con o sin contexto, así como ser utilizado como un modelo de lenguaje completo. Se trata de un recurso que no se encontraba disponible previamente en forma completa y que se encuentra disponible públicamente.