Detección de sujetos omitidos en el español

González, Lucía - Martínez, Verónica

Supervisor(es): Chiruzzo, Luis - Wonsever, Dina

Resumen:

El siguiente documento describe el trabajo realizado durante el desarrollo de un clasificador capaz de identificar el fenómeno de los sujetos omitidos en el idioma español. Para la realización del mismo se investigó el estado del arte de este problema de manera global y especıficamente enfocado al idioma español. Se tomó como base un trabajo similar realizado sobre un corpus creado para esta tarea. Una vez lograda la replicación del trabajo base, se procedió a extender el mismo con la creación de nuevos atributos, y el entrenamiento sobre un corpus más grande, más general, y no creado especíıficamente para esta tarea, el corpus AnCora. Finalmente, se evaluó el rendimiento del clasificador elaborado, tanto sobre un fragmento de evaluación del corpus AnCora, donde se obtienen muy buenos resultados, como sobre un corpus completamente distinto. Se generó además una herramienta interactiva que simplifica su utilización. El código de la misma expone de manera simple el pipeline utilizado para la extracción de cláusulas, así como los pasos realizados para la evaluación de sus atributos y finalmente la utilización del clasificador ya entrenado para su clasificación.


Detalles Bibliográficos
2018
Corpus AnCora
Sujetos omitidos
Idioma español
Español
Universidad de la República
COLIBRI
http://hdl.handle.net/20.500.12008/20318
Acceso abierto
Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC - By-NC-ND)