Item: Detección de sujetos omitidos en español aplicando técnicas de traducción automática. :: SILO. Sistema nacional de repositorios digitales. Uruguay

Tesis de grado Aceptado

Detección de sujetos omitidos en español aplicando técnicas de traducción automática.

Suárez Hernández, José Diego

Resumen:

Este estudio aborda el problema de la detección de claúsulas con sujetos omitidos y verbos impersonales en español adaptando una metodología de traducción automática. Se utilizó el framework de traducción automática neuronal OpenNMT, basado en redes neuronales recurrentes LSTM con mecanismos de atención, para construir un modelo de traducción secuencia-a-secuencia, el cual fue entrenado sobre un corpus paralelo derivado de la versión en español del corpus anotado AnCora consistente en oraciones en texto plano emparejadas con secuencias de identificadores de la clase gramatical (POS) de cada lexema y etiquetas especiales para marcar la presencia de tres fenómenos distintos: la ocurrencia de verbos con sujeto explícito, verbos con sujeto implícito u omitido y verbos en un uso impersonal. A partir de estos modelos se elaboró clasificadores orientados a detectar la ocurrencia de estos fenómenos para cada verbo finito en la entrada, a través de la traducción al formato de salida y la extracción de las etiquetas relevantes. Durante el desarrollo de este trabajo se investigó la efectividad de múltiples formatos de salida y configuraciones hiperparamétricas para los modelos de traducción automática y se evaluó el rendimiento de los clasificadores resultantes tanto respecto a su capacidad para identificar correctamente instancias con sujetos omitidos, explícitos y verbos impersonales como respecto al tiempo de cómputo requerido para el entrenamiento y aplicación de los modelos propuestos. Los resultados obtenidos demostraron la viabilidad de este enfoque, obteniéndose resultados cercanos a los del estado del arte para la detección de sujetos omitidos y, en particular, una medida F1 de 0,7685 para el reconocimiento de sujeto omitido en un escenario de clasificación ternaria (frente a sujeto explícito y verbos en uso impersonal) que supera a los valores obtenidos en los antecedentes publicados. Se constató asimismo que los requisitos de cómputo para el entrenamiento de los modelos fueron moderados, obteniéndose los rendimientos más altos para un modelos con redes de dos capas ocultas que solamente requirieron dos horas de entrenamiento en una GPU de entry-level por lo que se identificó además el potencial de la adaptación de mecanismos de traducción automática como una alternativa computacionalmente eficiente para el reconocimiento de características en problemas de análisis lingüístico.

Detalles Bibliográficos
Fecha de publicación:	2023
Temas:	Sujeto omitido PLN Traducción automática OpenNMT
Idioma	Español
Institución:	Universidad de la República
Repositorio:	COLIBRI
Enlace(s):	https://hdl.handle.net/20.500.12008/39544
Nivel de acceso:	Acceso abierto
Licencia:	Licencia Creative Commons Atribución (CC - By 4.0)

Internet

https://hdl.handle.net/20.500.12008/39544

Detección de sujetos omitidos en español aplicando técnicas de traducción automática.

Internet

Resultados similares