Detección de sujetos omitidos en español aplicando técnicas de traducción automática.
Supervisor(es): Chiruzzo, Luis
Resumen:
Este estudio aborda el problema de la detección de claúsulas con sujetos omitidos y verbos impersonales en español adaptando una metodología de traducción automática. Se utilizó el framework de traducción automática neuronal OpenNMT, basado en redes neuronales recurrentes LSTM con mecanismos de atención, para construir un modelo de traducción secuencia-a-secuencia, el cual fue entrenado sobre un corpus paralelo derivado de la versión en español del corpus anotado AnCora consistente en oraciones en texto plano emparejadas con secuencias de identificadores de la clase gramatical (POS) de cada lexema y etiquetas especiales para marcar la presencia de tres fenómenos distintos: la ocurrencia de verbos con sujeto explícito, verbos con sujeto implícito u omitido y verbos en un uso impersonal. A partir de estos modelos se elaboró clasificadores orientados a detectar la ocurrencia de estos fenómenos para cada verbo finito en la entrada, a través de la traducción al formato de salida y la extracción de las etiquetas relevantes. Durante el desarrollo de este trabajo se investigó la efectividad de múltiples formatos de salida y configuraciones hiperparamétricas para los modelos de traducción automática y se evaluó el rendimiento de los clasificadores resultantes tanto respecto a su capacidad para identificar correctamente instancias con sujetos omitidos, explícitos y verbos impersonales como respecto al tiempo de cómputo requerido para el entrenamiento y aplicación de los modelos propuestos. Los resultados obtenidos demostraron la viabilidad de este enfoque, obteniéndose resultados cercanos a los del estado del arte para la detección de sujetos omitidos y, en particular, una medida F1 de 0,7685 para el reconocimiento de sujeto omitido en un escenario de clasificación ternaria (frente a sujeto explícito y verbos en uso impersonal) que supera a los valores obtenidos en los antecedentes publicados. Se constató asimismo que los requisitos de cómputo para el entrenamiento de los modelos fueron moderados, obteniéndose los rendimientos más altos para un modelos con redes de dos capas ocultas que solamente requirieron dos horas de entrenamiento en una GPU de entry-level por lo que se identificó además el potencial de la adaptación de mecanismos de traducción automática como una alternativa computacionalmente eficiente para el reconocimiento de características en problemas de análisis lingüístico.
2023 | |
Sujeto omitido PLN Traducción automática OpenNMT |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/39544 | |
Acceso abierto | |
Licencia Creative Commons Atribución (CC - By 4.0) |
Sumario: | Este estudio aborda el problema de la detección de claúsulas con sujetos omitidos y verbos impersonales en español adaptando una metodología de traducción automática. Se utilizó el framework de traducción automática neuronal OpenNMT, basado en redes neuronales recurrentes LSTM con mecanismos de atención, para construir un modelo de traducción secuencia-a-secuencia, el cual fue entrenado sobre un corpus paralelo derivado de la versión en español del corpus anotado AnCora consistente en oraciones en texto plano emparejadas con secuencias de identificadores de la clase gramatical (POS) de cada lexema y etiquetas especiales para marcar la presencia de tres fenómenos distintos: la ocurrencia de verbos con sujeto explícito, verbos con sujeto implícito u omitido y verbos en un uso impersonal. A partir de estos modelos se elaboró clasificadores orientados a detectar la ocurrencia de estos fenómenos para cada verbo finito en la entrada, a través de la traducción al formato de salida y la extracción de las etiquetas relevantes. Durante el desarrollo de este trabajo se investigó la efectividad de múltiples formatos de salida y configuraciones hiperparamétricas para los modelos de traducción automática y se evaluó el rendimiento de los clasificadores resultantes tanto respecto a su capacidad para identificar correctamente instancias con sujetos omitidos, explícitos y verbos impersonales como respecto al tiempo de cómputo requerido para el entrenamiento y aplicación de los modelos propuestos. Los resultados obtenidos demostraron la viabilidad de este enfoque, obteniéndose resultados cercanos a los del estado del arte para la detección de sujetos omitidos y, en particular, una medida F1 de 0,7685 para el reconocimiento de sujeto omitido en un escenario de clasificación ternaria (frente a sujeto explícito y verbos en uso impersonal) que supera a los valores obtenidos en los antecedentes publicados. Se constató asimismo que los requisitos de cómputo para el entrenamiento de los modelos fueron moderados, obteniéndose los rendimientos más altos para un modelos con redes de dos capas ocultas que solamente requirieron dos horas de entrenamiento en una GPU de entry-level por lo que se identificó además el potencial de la adaptación de mecanismos de traducción automática como una alternativa computacionalmente eficiente para el reconocimiento de características en problemas de análisis lingüístico. |
---|