Construcción de recursos lingüísticos para una gramática HPSG para el español
Supervisor(es): Wonsever, Dina
Resumen:
En este trabajo se presenta la construcción de recursos lingüísticos para trabajar con una gramática HPSG para el español. HPSG es un formalismo gramatical rico debido a que el resultado del análisis sintáctico con este formalismo es una representación de la oración que incluye información tanto sintáctica como semántica. Para el idioma inglés existen parsers estadísticos HPSG de alta performance y cobertura del idioma, pero para el español las herramientas existentes aún no llegan al mismo nivel. Se describe una gramática HPSG para el español, indicando sus estructuras de rasgos principales y sus reglas de combinación de expresiones. Se construyó un corpus de árboles HPSG para el español utilizando la gramática definida. Para esto, se partió del corpus AnCora y se transformaron las oraciones mediante un proceso automático, obteniendo como resultado un nuevo corpus etiquetado según el formalismo HPSG. Las heurísticas de transformación tienen un 95,3% de precisión en detección de núcleos y un 92,5% de precisión en clasificación de argumentos. A partir del corpus se definieron las entradas léxicas y se agruparon las entradas de las categorías léxicas de mayor complejidad combinatoria (verbos, nombres y adjetivos) según su comportamiento sintáctico-semántico. Estas agrupaciones de entradas léxicas se denominan frames léxicos. A partir de esto se construyó un supertagger para identificar los frames léxicos más probables dadas las palabras de una oración. El supertagger tiene un accuracy de 83,58% para verbos, 85,78% para nombres y 81,40% para adjetivos (considerando las tres etiquetas más probables).
2015 | |
HPSG Español Corpus Parsing Supertagging |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/33366 | |
Acceso abierto | |
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
Sumario: | En este trabajo se presenta la construcción de recursos lingüísticos para trabajar con una gramática HPSG para el español. HPSG es un formalismo gramatical rico debido a que el resultado del análisis sintáctico con este formalismo es una representación de la oración que incluye información tanto sintáctica como semántica. Para el idioma inglés existen parsers estadísticos HPSG de alta performance y cobertura del idioma, pero para el español las herramientas existentes aún no llegan al mismo nivel. Se describe una gramática HPSG para el español, indicando sus estructuras de rasgos principales y sus reglas de combinación de expresiones. Se construyó un corpus de árboles HPSG para el español utilizando la gramática definida. Para esto, se partió del corpus AnCora y se transformaron las oraciones mediante un proceso automático, obteniendo como resultado un nuevo corpus etiquetado según el formalismo HPSG. Las heurísticas de transformación tienen un 95,3% de precisión en detección de núcleos y un 92,5% de precisión en clasificación de argumentos. A partir del corpus se definieron las entradas léxicas y se agruparon las entradas de las categorías léxicas de mayor complejidad combinatoria (verbos, nombres y adjetivos) según su comportamiento sintáctico-semántico. Estas agrupaciones de entradas léxicas se denominan frames léxicos. A partir de esto se construyó un supertagger para identificar los frames léxicos más probables dadas las palabras de una oración. El supertagger tiene un accuracy de 83,58% para verbos, 85,78% para nombres y 81,40% para adjetivos (considerando las tres etiquetas más probables). |
---|