Extracción automática de pistas para la generación de crucigramas a partir de textos en inglés.

Collazo Gil, Arturo - Sellanes Salomón, Diego - Berruti Bengoechea, Santiago

Supervisor(es): Rosá, Aiala - Chiruzzo, Luis

Resumen:

En este proyecto se plantea el diseño y la implementación de un sistema de generación de crucigramas de forma automática a partir de textos para niños en inglés. Se trabaja sobre la existente aplicación del proyecto CINACINA de la Universidad de la República, el cual consiste en una herramienta utilizada para la enseñanza de inglés en diversos centros educativos del Uruguay. La aplicación incluye varias aplicaciones lúdicas para la enseñanza de inglés, una de las cuales permite generar crucigramas. Previamente, los crucigramas se generaban en forma dinámica a partir de conjuntos de pistas de una base estática. Con la mejora presentada, los crucigramas son generados de forma dinámica y variada, tomando como base un texto de entrada. Es decir, el sistema propuesto es capaz de extraer de forma automática, a partir de un texto ingresado en inglés, pares de pistas y definiciones relacionadas al texto y con esto generar un crucigrama completo. En particular, se desarrolla el módulo de extracción de pares «definiendum: definición» de posibles pistas para la generación del crucigrama entero. La implementación del módulo se basa en un corpus de textos no etiquetados, extraídos a partir del sitio web “ReadWorks”, consistente en 400 textos en inglés para niños, desde los cuales se obtienen los pares relevantes para crucigramas. La implementación propuesta utiliza diversas herramientas de procesamiento del lenguaje natural, donde distintos métodos se aplican de manera secuencial con el fin de obtener los pares. Cada método está basado en reglas y/o patrones comunes encontrados en los textos de entrada. Adicionalmente, se implementa un clasificador con un enfoque neuronal, capaz de clasificar las pistas generadas por el módulo anterior como buenas o malas. Este modelo es entrenado a partir de un corpus etiquetado manualmente por integrantes del proyecto e interesados en el mismo. Finalmente, se trabaja en la creación de una API para así soportar la integración con la aplicación ya existente sobre los crucigramas. Respecto a los resultados obtenidos, por cada texto del corpus se generan en promedio 6 pistas, donde el módulo tiene una accuracy del 72% de las pistas generadas. Estos resultados superan el método definido como línea base. Además, el clasificador implementado obtiene un 84% de accuracy y un 78% de F1, superando ampliamente el clasificador definido como linea base. Todos los objetivos son satisfechos por el proyecto, agregando el nuevo módulo al sistema.


Detalles Bibliográficos
2023
Generación de crucigramas
Extracción de pistas
Procesamiento del lenguaje natural
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/39107
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:En este proyecto se plantea el diseño y la implementación de un sistema de generación de crucigramas de forma automática a partir de textos para niños en inglés. Se trabaja sobre la existente aplicación del proyecto CINACINA de la Universidad de la República, el cual consiste en una herramienta utilizada para la enseñanza de inglés en diversos centros educativos del Uruguay. La aplicación incluye varias aplicaciones lúdicas para la enseñanza de inglés, una de las cuales permite generar crucigramas. Previamente, los crucigramas se generaban en forma dinámica a partir de conjuntos de pistas de una base estática. Con la mejora presentada, los crucigramas son generados de forma dinámica y variada, tomando como base un texto de entrada. Es decir, el sistema propuesto es capaz de extraer de forma automática, a partir de un texto ingresado en inglés, pares de pistas y definiciones relacionadas al texto y con esto generar un crucigrama completo. En particular, se desarrolla el módulo de extracción de pares «definiendum: definición» de posibles pistas para la generación del crucigrama entero. La implementación del módulo se basa en un corpus de textos no etiquetados, extraídos a partir del sitio web “ReadWorks”, consistente en 400 textos en inglés para niños, desde los cuales se obtienen los pares relevantes para crucigramas. La implementación propuesta utiliza diversas herramientas de procesamiento del lenguaje natural, donde distintos métodos se aplican de manera secuencial con el fin de obtener los pares. Cada método está basado en reglas y/o patrones comunes encontrados en los textos de entrada. Adicionalmente, se implementa un clasificador con un enfoque neuronal, capaz de clasificar las pistas generadas por el módulo anterior como buenas o malas. Este modelo es entrenado a partir de un corpus etiquetado manualmente por integrantes del proyecto e interesados en el mismo. Finalmente, se trabaja en la creación de una API para así soportar la integración con la aplicación ya existente sobre los crucigramas. Respecto a los resultados obtenidos, por cada texto del corpus se generan en promedio 6 pistas, donde el módulo tiene una accuracy del 72% de las pistas generadas. Estos resultados superan el método definido como línea base. Además, el clasificador implementado obtiene un 84% de accuracy y un 78% de F1, superando ampliamente el clasificador definido como linea base. Todos los objetivos son satisfechos por el proyecto, agregando el nuevo módulo al sistema.