Generación de preguntas y respuestas para comprensión lectora en inglés utilizando modelos neuronales
Supervisor(es): Rosá, Aiala - Chiruzzo, Luis
Resumen:
Dentro del marco del proyecto “Inglés sin Límites” del Programa de Políticas Lingüísticas de ANEP, se propone el desarrollo de una herramienta orientada al apoyo de la enseñanza de inglés en distintos centros estudiantiles del país. Esta herramienta debe ser capaz de realizar la generación de preguntas y respuestas automática a partir de un texto, con el objetivo de la confección de evaluaciones. Para esto, se propone un enfoque neuronal, en el que se entrenan modelos de generación de preguntas que, a partir de respuestas previamente seleccionadas de un texto, generen una serie de preguntas de un nivel de inglés A1/A2. Lo que proponemos en este trabajo es la separación de la tarea de generación de preguntas y respuestas en dos etapas independientes, una de selección de respuestas a partir de un texto, y otra de generación de preguntas a partir de un conjunto de respuestas. En la etapa de selección de respuestas se determina un conjunto de etiquetas de rol semántico de PropBank y luego se utiliza semantic role labeling para identificar palabras en el texto que coincidan con alguna de las etiquetas del conjunto y así poder extraerlas como respuestas candidatas. En la etapa de generación de preguntas se tienen modelos neuronales basados en T5 y GPT2, preentrenados sobre SQuAD y NewsQA, que producen una colección de preguntas en base a los candidatos a respuestas obtenidos de la etapa anterior. Se propone también la adición de dos etapas adicionales, además de las dos originales: una de pre y otra de postprocesamiento. En la etapa de preprocesamiento se aplica coreference resolution sobre el texto de entrada, y en la de postprocesamiento se resuelven algunas malformaciones que pueden presentar las preguntas generadas. Estas etapas fueron agregadas al observar las salidas obtenidas antes de implementarlas, y podemos concluir que son importantes para obtener mejores resultados y un mejor desempeño en general de la herramienta final. En cuanto a los resultados obtenidos, se obtuvo que los modelos entrenados basados en T5 superan ampliamente a aquellos entrenados sobre GPT-2. La herramienta final, utilizando uno de los modelos entrenados sobre T5, presenta buenos resultados sobre el corpus específico para evaluación, que contiene textos de un nivel de inglés A1/A2. Por otro lado, en comparación con otros trabajos previos de generación de preguntas utilizando redes neuronales, obtenemos resultados competitivos en un corpus de uso general como es SQuAD. Debido a esto podemos concluir que la herramienta desarrollada presenta un buen desempeño en la tarea de generación de preguntas y además es capaz de generar preguntas del nivel de inglés buscado.
2022 | |
LENGUA INGLESA ENSEÑANZA |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/32335 | |
Acceso abierto | |
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
Sumario: | Dentro del marco del proyecto “Inglés sin Límites” del Programa de Políticas Lingüísticas de ANEP, se propone el desarrollo de una herramienta orientada al apoyo de la enseñanza de inglés en distintos centros estudiantiles del país. Esta herramienta debe ser capaz de realizar la generación de preguntas y respuestas automática a partir de un texto, con el objetivo de la confección de evaluaciones. Para esto, se propone un enfoque neuronal, en el que se entrenan modelos de generación de preguntas que, a partir de respuestas previamente seleccionadas de un texto, generen una serie de preguntas de un nivel de inglés A1/A2. Lo que proponemos en este trabajo es la separación de la tarea de generación de preguntas y respuestas en dos etapas independientes, una de selección de respuestas a partir de un texto, y otra de generación de preguntas a partir de un conjunto de respuestas. En la etapa de selección de respuestas se determina un conjunto de etiquetas de rol semántico de PropBank y luego se utiliza semantic role labeling para identificar palabras en el texto que coincidan con alguna de las etiquetas del conjunto y así poder extraerlas como respuestas candidatas. En la etapa de generación de preguntas se tienen modelos neuronales basados en T5 y GPT2, preentrenados sobre SQuAD y NewsQA, que producen una colección de preguntas en base a los candidatos a respuestas obtenidos de la etapa anterior. Se propone también la adición de dos etapas adicionales, además de las dos originales: una de pre y otra de postprocesamiento. En la etapa de preprocesamiento se aplica coreference resolution sobre el texto de entrada, y en la de postprocesamiento se resuelven algunas malformaciones que pueden presentar las preguntas generadas. Estas etapas fueron agregadas al observar las salidas obtenidas antes de implementarlas, y podemos concluir que son importantes para obtener mejores resultados y un mejor desempeño en general de la herramienta final. En cuanto a los resultados obtenidos, se obtuvo que los modelos entrenados basados en T5 superan ampliamente a aquellos entrenados sobre GPT-2. La herramienta final, utilizando uno de los modelos entrenados sobre T5, presenta buenos resultados sobre el corpus específico para evaluación, que contiene textos de un nivel de inglés A1/A2. Por otro lado, en comparación con otros trabajos previos de generación de preguntas utilizando redes neuronales, obtenemos resultados competitivos en un corpus de uso general como es SQuAD. Debido a esto podemos concluir que la herramienta desarrollada presenta un buen desempeño en la tarea de generación de preguntas y además es capaz de generar preguntas del nivel de inglés buscado. |
---|