Determinación de la factividad de los eventos mencionados en el texto.
Supervisor(es): Wonsever, Dina - Rosá, Aiala
Resumen:
La factividad es una propiedad de las referencias a eventos en textos. Un evento puede presentarse como ocurrido u ocurriendo, como no ocurrido u ocurriendo o como de ocurrencia eventual. Para determinarla es necesario observar el contexto donde dicho evento puede estar afectado por elementos de polaridad negativa, por operadores modales, o por predicados que afecten su valor de verdad, o combinaciones de todos estos. Este proyecto aborda el desarrollo de una herramienta cuyo fin es determinar la factividad de un evento mencionado en textos en español utilizando métodos de aprendizaje automático. Para el análisis se cuenta con un corpus anotado por dos estudiantes de lingüística con una sintaxis de anotación llamada SIBILIA, la misma contiene información pertinente sobre el evento y la factividad del mismo. Dado que este corpus era muy pequeño se decidió expandirlo utilizando una primera versión del sistema que etiquetó nuevos textos de noticias y luego fue corregido manualmente por las tutoras. Se toma como base numerosos trabajos previos hechos para diferentes idiomas, entre ellos el inglés y el croata. El corpus mencionado anteriormente se utilizó para entrenar y testear un clasificador basado en los modelos Conditional Random Fields (CRF) y Support Vector Machine (SVM) ya que los mismos han obtenido muy buenos resultados en el área del procesamiento de lenguaje natural. También se realizó una prueba con árboles de decisión sin lograr resultados apropiados. Los resultados obtenidos para los toolkits CRF++ y Yamcha son de 85,1% y 87,4% de Medida F respectivamente, estos superan ampliamente el valor de la línea base (68,5%) aunque todavía queda lugar para mejorar dado que no alcanzan a la línea tope (90,4%). La línea base consiste en un sistema simple basado en reglas que determina la factividad de los eventos en el texto. La línea tope, por otro lado, muestra la concordancia que existe entre las dos estudiantes de lingüística que anotaron manualmente el corpus.
2013 | |
SISTEMAS DE PROCESAMIENTO DEL LENGUAJE NATURAL | |
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/47091 | |
Acceso abierto | |
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
Sumario: | La factividad es una propiedad de las referencias a eventos en textos. Un evento puede presentarse como ocurrido u ocurriendo, como no ocurrido u ocurriendo o como de ocurrencia eventual. Para determinarla es necesario observar el contexto donde dicho evento puede estar afectado por elementos de polaridad negativa, por operadores modales, o por predicados que afecten su valor de verdad, o combinaciones de todos estos. Este proyecto aborda el desarrollo de una herramienta cuyo fin es determinar la factividad de un evento mencionado en textos en español utilizando métodos de aprendizaje automático. Para el análisis se cuenta con un corpus anotado por dos estudiantes de lingüística con una sintaxis de anotación llamada SIBILIA, la misma contiene información pertinente sobre el evento y la factividad del mismo. Dado que este corpus era muy pequeño se decidió expandirlo utilizando una primera versión del sistema que etiquetó nuevos textos de noticias y luego fue corregido manualmente por las tutoras. Se toma como base numerosos trabajos previos hechos para diferentes idiomas, entre ellos el inglés y el croata. El corpus mencionado anteriormente se utilizó para entrenar y testear un clasificador basado en los modelos Conditional Random Fields (CRF) y Support Vector Machine (SVM) ya que los mismos han obtenido muy buenos resultados en el área del procesamiento de lenguaje natural. También se realizó una prueba con árboles de decisión sin lograr resultados apropiados. Los resultados obtenidos para los toolkits CRF++ y Yamcha son de 85,1% y 87,4% de Medida F respectivamente, estos superan ampliamente el valor de la línea base (68,5%) aunque todavía queda lugar para mejorar dado que no alcanzan a la línea tope (90,4%). La línea base consiste en un sistema simple basado en reglas que determina la factividad de los eventos en el texto. La línea tope, por otro lado, muestra la concordancia que existe entre las dos estudiantes de lingüística que anotaron manualmente el corpus. |
---|