Determinación de la factividad de los eventos mencionados en el texto. :: SILO. Sistema nacional de repositorios digitales. Uruguay

Tesis de grado Aceptado

Determinación de la factividad de los eventos mencionados en el texto.

Fernández, Esteban - Fernández, Virginia

Supervisor(es): Wonsever, Dina - Rosá, Aiala

Resumen:

La factividad es una propiedad de las referencias a eventos en textos. Un evento puede presentarse como ocurrido u ocurriendo, como no ocurrido u ocurriendo o como de ocurrencia eventual. Para determinarla es necesario observar el contexto donde dicho evento puede estar afectado por elementos de polaridad negativa, por operadores modales, o por predicados que afecten su valor de verdad, o combinaciones de todos estos. Este proyecto aborda el desarrollo de una herramienta cuyo fin es determinar la factividad de un evento mencionado en textos en español utilizando métodos de aprendizaje automático. Para el análisis se cuenta con un corpus anotado por dos estudiantes de lingüística con una sintaxis de anotación llamada SIBILIA, la misma contiene información pertinente sobre el evento y la factividad del mismo. Dado que este corpus era muy pequeño se decidió expandirlo utilizando una primera versión del sistema que etiquetó nuevos textos de noticias y luego fue corregido manualmente por las tutoras. Se toma como base numerosos trabajos previos hechos para diferentes idiomas, entre ellos el inglés y el croata. El corpus mencionado anteriormente se utilizó para entrenar y testear un clasificador basado en los modelos Conditional Random Fields (CRF) y Support Vector Machine (SVM) ya que los mismos han obtenido muy buenos resultados en el área del procesamiento de lenguaje natural. También se realizó una prueba con árboles de decisión sin lograr resultados apropiados. Los resultados obtenidos para los toolkits CRF++ y Yamcha son de 85,1% y 87,4% de Medida F respectivamente, estos superan ampliamente el valor de la línea base (68,5%) aunque todavía queda lugar para mejorar dado que no alcanzan a la línea tope (90,4%). La línea base consiste en un sistema simple basado en reglas que determina la factividad de los eventos en el texto. La línea tope, por otro lado, muestra la concordancia que existe entre las dos estudiantes de lingüística que anotaron manualmente el corpus.

Detalles Bibliográficos
Fecha de publicación:	2013
Temas:	SISTEMAS DE PROCESAMIENTO DEL LENGUAJE NATURAL
Idioma	Español
Institución:	Universidad de la República
Repositorio:	COLIBRI
Enlace(s):	https://hdl.handle.net/20.500.12008/47091
Nivel de acceso:	Acceso abierto
Licencia:	Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)

Resultados similares

Factividad de los eventos referidos en textos
Autor(es):: Wonsever, Dina
Fecha de publicación:: (2009)

SIBILA :Esquema de anotación de eventos
Autor(es):: Wonsever, Dina
Fecha de publicación:: (2008)

Extracción automática de pistas para la generación de crucigramas a partir de textos en inglés.
Autor(es):: Collazo Gil, Arturo
Fecha de publicación:: (2023)

Integración de proposiciones de infinitivo al sistema ClaTex
Autor(es):: Rosá Furman, Aiala
Fecha de publicación:: (2007)

Identificación de opiniones de diferentes fuentes en textos en español
Autor(es):: Rosá Furman, Aiala
Fecha de publicación:: (2011)

Estudio de sesgos en representaciones vectoriales de palabras.
Autor(es):: Cánepa Romero, María Fernanda
Fecha de publicación:: (2023)

Identificación automática del asunto de opiniones en texto en idioma español :Informe final
Autor(es):: Zeballos, Yasim
Fecha de publicación:: (2013)

Clusterización de interacciones
Autor(es):: Maschi Fernández, Luciana Sofía
Fecha de publicación:: (2023)

Procesamiento de Lenguaje Natural (PLN) para la reconstrucción de textos a partir de imágenes correspondientes a archivos históricos de la década del 70
Autor(es):: Stabile, Javier
Fecha de publicación:: (2020)

Generación de un diccionario y herramientas de análisis morfológico para el español
Autor(es):: Rosá Furman, Aiala
Fecha de publicación:: (2005)

Evaluación y simplificación de textos para enseñanza de inglés
Autor(es):: Noel Musso, Andrés Alexandre
Fecha de publicación:: (2022)

Definición de una arquitectura de referencia para anonimizar documentos
Autor(es):: Vico, Horacio
Fecha de publicación:: (2013)

Construcción de un indicador de incertidumbre económica en base a las noticias de prensa
Autor(es):: Crocco, Nicolás
Fecha de publicación:: (2019)

Esquema de anotación de expresiones y marcas temporales. Proyecto TEMANTEX
Autor(es):: Wonsever, Dina
Fecha de publicación:: (2011)

Redes neuronales con aplicaciones a procesamiento de lenguaje natural
Autor(es):: Robaina Passeggi, Santiago
Fecha de publicación:: (2022)

Citaciones en las sentencias de la base de jurisprudencia nacional
Autor(es):: Fulloni, Andrés
Fecha de publicación:: (2020)

Detección de antonimia en español con redes neuronales parasiamesas
Autor(es):: Camacho, Juan
Fecha de publicación:: (2022)

ENEAS :Respuesta automática a preguntas causales
Autor(es):: Calvo, Sebastián
Fecha de publicación:: (2008)

Evaluación de modelos de ngrama construidos de derecha a izquierda
Autor(es):: Moncecchi, Guillermo
Fecha de publicación:: (2008)

Cecil.io
Autor(es):: Brande Rozenblum, Alan
Fecha de publicación:: (2019)

Procesamiento de lenguaje aplicado a herramientas de búsqueda de información
Autor(es):: Jolodkow, Nikolai
Fecha de publicación:: (2021)

Document Assistant
Autor(es):: Eiris Campomar, Nicolás Antonio
Fecha de publicación:: (2022)

Paciente Presente
Autor(es):: D'Uva Pezzente, Martín
Fecha de publicación:: (2022)

WebQA : respuesta automática a preguntas
Autor(es):: Castelo, Daniel
Fecha de publicación:: (2007)

Aplicaciones lúdicas de soporte a la enseñanza de lenguas
Autor(es):: Tosi, Alejandro
Fecha de publicación:: (2019)

Análisis y aplicaciones sobre letras musicales del Río de la Plata
Autor(es):: Ferraro Paolino, Andrés
Fecha de publicación:: (2018)

StructLang
Autor(es):: Colmenárez, Andrea
Fecha de publicación:: (2015)

Identificador de tendencias en Redes Sociales
Autor(es):: Benelli, Juan
Fecha de publicación:: (2021)

Construcción de recursos para traducción automática guaraní-español
Autor(es):: Giossa, Nicolás
Fecha de publicación:: (2021)

Análisis de noticias sobre seguridad ciudadana en redes sociales
Autor(es):: Dominguez, Leandro
Fecha de publicación:: (2022)

Alfred
Autor(es):: Burone Schaffner, Nicolás Mathías
Fecha de publicación:: (2019)

Un algoritmo para la extracción de rasgos morfológicos a partir de descriptores
Autor(es):: Prada, Juan José
Fecha de publicación:: (1996)

Identificación automática de tópicos para el Observatorio de Medios del Uruguay
Autor(es):: Carballal, Francisco
Fecha de publicación:: (2022)

Identificación de discurso de odio en redes sociales
Autor(es):: Kunc, Lucas
Fecha de publicación:: (2020)

Inducción del sentido de las palabras para el Idioma español.
Autor(es):: Lastra, Rodrigo
Fecha de publicación:: (2019)

Generación de un diccionario de formas verbales a partir de información obtenida en la web
Autor(es):: Martínez Amarante, Mónica María
Fecha de publicación:: (2006)

Estudio comparativo de los elementos cinematográficos presentes en la construcción de la figura heroica en los filmes “El Acorazado Potemkin” y “Los Intocables de Eliot Ness”
Autor(es):: Pszczolkowski P, Alexander
Fecha de publicación:: (2016)

La lengua y el mundo
Autor(es):: Polakof, Ana Clara
Fecha de publicación:: (2021)

Los nombres de la historia: la construcción mítica de Artigas y la Revolución Oriental en libros de texto escolares de Historia y Ciencias Sociales de Uruguay (1980-2016). Un estudio desde el análisis del discurso de la Escuela Francesa
Autor(es):: Cardozo González, Santiago
Fecha de publicación:: (2019)

Identidad Latinoamericana desde la Perspectiva Estudiantil Análisis de contenido cualitativo de textos ensayísticos en 4° año medio
Autor(es):: Díaz Esteves, Víctor
Fecha de publicación:: (2013)