Detección de sujetos omitidos en el español
Supervisor(es): Chiruzzo, Luis - Wonsever, Dina
Resumen:
El siguiente documento describe el trabajo realizado durante el desarrollo de un clasificador capaz de identificar el fenómeno de los sujetos omitidos en el idioma español. Para la realización del mismo se investigó el estado del arte de este problema de manera global y especıficamente enfocado al idioma español. Se tomó como base un trabajo similar realizado sobre un corpus creado para esta tarea. Una vez lograda la replicación del trabajo base, se procedió a extender el mismo con la creación de nuevos atributos, y el entrenamiento sobre un corpus más grande, más general, y no creado especíıficamente para esta tarea, el corpus AnCora. Finalmente, se evaluó el rendimiento del clasificador elaborado, tanto sobre un fragmento de evaluación del corpus AnCora, donde se obtienen muy buenos resultados, como sobre un corpus completamente distinto. Se generó además una herramienta interactiva que simplifica su utilización. El código de la misma expone de manera simple el pipeline utilizado para la extracción de cláusulas, así como los pasos realizados para la evaluación de sus atributos y finalmente la utilización del clasificador ya entrenado para su clasificación.
2018 | |
Corpus AnCora Sujetos omitidos Idioma español |
|
Español | |
Universidad de la República | |
COLIBRI | |
http://hdl.handle.net/20.500.12008/20318 | |
Acceso abierto | |
Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC - By-NC-ND) |