Inducción del sentido de las palabras para el Idioma español. :: SILO. Sistema nacional de repositorios digitales. Uruguay

Tesis de grado Aceptado

Inducción del sentido de las palabras para el Idioma español.

Lastra, Rodrigo

Supervisor(es): Chiruzzo, Luis - Etcheverry, Mathias

Resumen:

En cualquier lenguaje natural, existe una gran cantidad de palabras con más de un significado posible. Las máquinas necesitan procesar información textual no estructurada y transformarla en estructuras que puedan analizarse para determinar los significados de las palabras. El problema de identificar, computacionalmente, el significado de una o más palabras en su contexto es conocido como Word Sense Disambiguation (WSD). Para la resolución de WSD es necesario contar con inventarios de significados utilizables computacionalmente de calidad para el lenguaje a desambiguar, que sean a la vez relevantes para el dominio de aplicación en el que se busca realizar la desambiguación. A su vez la construcción de sistemas de aprendizaje automático supervisado o basados en conocimiento requieren otros tipos de recursos lingüísticos (tesauros, ontologías, etc.). Tanto los inventarios de significados como este otro tipo de recursos son costosos de construir en tiempo y recursos, y son dependientes del dominio de aplicación y el lenguaje. Para evitarlo, se recurre a técnicas de aprendizaje no supervisado que descubren automáticamente los posibles significados de una palabra, a partir de corpus sin anotar. Este problema se conoce como Word Sense Induction (WSI). Lamentablemente, en español los esfuerzos en WSI han sido prácticamente inexistentes. Este trabajo, busca aplicar en español una técnica de WSI denominada “WSI with neural biLM and symmetric patterns” basada en un modelo de lenguaje neuronal direccional biLM ELMo que obtuvo un rendimiento superior a los previamente reportados para la tarea de referencia SemEval 2013 Task 13 para el idioma inglés. La evaluación del método de desambiguación en español se realizará sobre la tarea Senseval 2 Spanish Lexical Sample .Para la aplicación del método de desambiguación, fue necesario realizar el entrenamiento del modelo de lenguaje biLM ELMo para el español, del cual pueden obtenerse embeddings con o sin contexto, así como ser utilizado como un modelo de lenguaje completo. Se trata de un recurso que no se encontraba disponible previamente en forma completa y que se encuentra disponible públicamente.

Detalles Bibliográficos
Fecha de publicación:	2019
Temas:	Procesamiento de lenguaje natural (NLP) Word Sense Disambiguation (WSD) Knowledge acquisition bottleneck Word Sense Induction (WSI) ELMo Symmetric patterns Modelo de lenguaje neuronal Embeddings
Idioma	Español
Institución:	Universidad de la República
Repositorio:	COLIBRI
Enlace(s):	https://hdl.handle.net/20.500.12008/23043
Nivel de acceso:	Acceso abierto
Licencia:	Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)

Resultados similares

Estudio de sesgos en representaciones vectoriales de palabras.
Autor(es):: Cánepa Romero, María Fernanda
Fecha de publicación:: (2023)

Application of language technologies to assist english teaching
Autor(es):: González, Bernabé
Fecha de publicación:: (2021)

Construcción de recursos para traducción automática guaraní-español
Autor(es):: Giossa, Nicolás
Fecha de publicación:: (2021)

Vector representation of Internet domain names using Word embedding techniques
Autor(es):: López Anzolabehere, Waldemar Joel
Fecha de publicación:: (2019)

Construcción de herramientas para soporte a la enseñanza de lenguas
Autor(es):: González, Bernabé
Fecha de publicación:: (2019)

Identificación automática de tópicos para el Observatorio de Medios del Uruguay
Autor(es):: Carballal, Francisco
Fecha de publicación:: (2022)

Aplicaciones lúdicas de soporte a la enseñanza de lenguas
Autor(es):: Tosi, Alejandro
Fecha de publicación:: (2019)

Evaluación y simplificación de textos para enseñanza de inglés
Autor(es):: Noel Musso, Andrés Alexandre
Fecha de publicación:: (2022)

EasyMed : asistente para la plataforma educativa EviMed.
Autor(es):: Introini, Diego
Fecha de publicación:: (2024)

Aproximaciones neurocomputacionales al análisis de la coherencia temática en el lenguaje
Autor(es):: Cabana Fajardo, Álvaro J.
Fecha de publicación:: (2014)

Representación de la estructura del lenguaje escrito mediante grafos y espacios semánticos
Autor(es):: Cabana Fajardo, Álvaro J.
Fecha de publicación:: (2009)

Recuperación de información para la búsqueda de respuestas en idioma español.
Autor(es):: Bouza Heguerte, Lucía
Fecha de publicación:: (2023)

Del “decímelo con tus palabras” al “no usar las palabras…”. Una experiencia de evaluación desde la Didáctica de la Informática
Autor(es):: Miños, Alejandro
Fecha de publicación:: (2016)

Identificación automática del asunto de opiniones en texto en idioma español :Informe final
Autor(es):: Zeballos, Yasim
Fecha de publicación:: (2013)

Palabras y personajes de origen africano en la narrativa de Eduardo Acevedo Díaz
Autor(es):: Rivero Ramborger, Alejandra
Fecha de publicación:: (2015)

Characterization of extracellular vesicles and synthetic nanoparticles with four orthogonal single-particle analysis platforms
Autor(es):: Tosar Rovira, Juan Pablo
Fecha de publicación:: (2021)

Bioimpedance plethysmography with capacitive electrodes and sole force sensors : Comparative trial
Autor(es):: Morales, Isabel
Fecha de publicación:: (2021)

Performance of real evapotranspiration products and water yield estimations in Uruguay
Autor(es):: Gallego Caballero, Federico Martín
Fecha de publicación:: (2023)

Can we Monitor Height of Native Grasslands in Uruguay with Earth Observation?.
Autor(es):: TISCORNIA, G.
Fecha de publicación:: (2019)

Dom2Vec - Detecting DGA domains through word embeddings and AI/ML-driven lexicographic analysis
Autor(es):: Torrealba Aravena, Lucas
Fecha de publicación:: (2023)

A chlorophyll-a algorithm for Landsat-8 based on mixture density networks
Autor(es):: Smith, Brandon
Fecha de publicación:: (2021)

The care of the friend in word and silence. The case of Alipio
Autor(es):: Magnavacca, Silvia
Fecha de publicación:: (2017)

Generación de datos sintéticos para traducción automática entre español y guaraní.
Autor(es):: Baladón, Alexis
Fecha de publicación:: (2024)

Opportunities for a more efficient use of the spectrum based in cognitive radio
Autor(es):: Delgado Caruso, Marcelo
Fecha de publicación:: (2016)

Del decímelo con tus palabras al no usar las palabras… Una experiencia de evaluación desde la didáctica de la informática
Autor(es):: Miños Fayad, Alejandro
Fecha de publicación:: (2016)

Natural grassland remnants in dynamic agricultural landscapes: identifying drivers of fragmentation
Autor(es):: Ríos Mendaro, Cecilia
Fecha de publicación:: (2022)

Las prácticas educativas y su vínculo con las imágenes y los medios. ¿Palabra vs. Imagen?: un combate absurdo
Autor(es):: Larre Borges, María José
Fecha de publicación:: (2011)

Generación de un diccionario y herramientas de análisis morfológico para el español
Autor(es):: Rosá Furman, Aiala
Fecha de publicación:: (2005)

Temas de Psicolingüística: aprendizaje, adquisición y desarrollo del lenguaje
Autor(es):: Barberán, Florencia
Fecha de publicación:: (2023)

Putting the Ecosystem Services idea at work: applications on impact assessment and territorial planning
Autor(es):: Staiano, Luciana
Fecha de publicación:: (2021)

Group-lasso on splines for spectrum cartography
Autor(es):: Bazerque, Juan Andrés
Fecha de publicación:: (2011)

Carbon stocks and potential sequestration of Uruguayan soils: a road map to a comprehensive characterization of temporal and spatial changes to assess carbon footprint
Autor(es):: Baldassini, Pablo
Fecha de publicación:: (2023)

From circuits to veredict: the impeachment of Dilma Rousseff in the field of mediatic circulation
Autor(es):: Fausto Neto, Antonio; Universidade do Vale do Rio dos Sinos
Fecha de publicación:: (2017)

The Sense of Belonging, a Strategy of Improvement in the Training Process in the Arts. Case Study in Dance at a Mexican University
Autor(es):: Corona, Alhelí
Fecha de publicación:: (2020)

A simple and high precision RLC bridge based on general-purpose instruments
Autor(es):: Slomovitz, Daniel
Fecha de publicación:: (2006)

Spherically symmetric loop quantum gravity: analysis of improved dynamics
Autor(es):: Gambini, Rodolfo H.
Fecha de publicación:: (2020)

Group sparse Lasso for cognitive network sensing robust to model uncertainties and outliers
Autor(es):: Dall’Anese, Emiliano
Fecha de publicación:: (2012)

An experimental comparison of multi-view stereo approaches on satellite images
Autor(es):: Gómez, Alvaro
Fecha de publicación:: (2022)

La formación en enseñanza, una mirada a partir de las teorías pedagógicas
Autor(es):: Risso Thomasset, Andres
Fecha de publicación:: (2017)

¿Podemos llegar a conocer lo que piensan los demás?
Autor(es):: Bayarres Delio, Marta E
Fecha de publicación:: (2011)