Procesamiento de lenguaje aplicado a herramientas de búsqueda de información

Jolodkow, Nikolai - Romani, Tiziana

Supervisor(es): Rosá, Aiala - Prada, Juan José

Resumen:

El año 2020 fue un año distinto, un año con muchos cambios provocados por una pandemia a nivel mundial. Esta pandemia provocaría que a mediados de marzo de 2020 comience un confinamiento a nivel nacional que posteriormente dejaría a muchos residentes del Uruguay sin empleo. Debido a esta grave situación, el Instituto Nacional de Empleo y Formación Profesional (INEFOP), encargado en gran parte de capacitar personas en seguro de desempleo, se vio fuertemente afectado en cuanto a su servicio de atención al público dada la gran demanda que se generó. Motivados por la problemática planteada, se decide impulsar el proyecto de grado descrito en este informe. Este proyecto propone la aplicación de técnicas de Procesamiento de Lenguaje Natural (PLN) para la construcción de herramientas que den soporte a sistemas de búsqueda de información. El objetivo principal es minimizar tiempos de respuesta y facilitar el acceso de la información. En este proyecto se construye un sistema capaz de contestar preguntas con un tiempo de respuesta acotado, cuya respuesta se encuentra en la página web de INEFOP. Mediante técnicas de detección de similitud textual y recuperación de información, el sistema desarrollado tiene la capacidad de emparejar la pregunta ingresada con preguntas almacenadas si son similares, o en caso contrario, retornar un enlace dentro de la página web de INEFOP donde podría encontrarse la respuesta. Entre los aspectos destacables del proyecto se presenta la construcción en su completitud de un sistema con las características mencionadas. El prototipo desarrollado cuenta con una interfaz web simple para comunicarse con el sistema, esta permite retroalimentación con la finalidad de mejorar la eficiencia del sistema. El servidor disponibiliza distintos servicios y consume y consulta información de una base de datos. Entre las técnicas y métodos explorados a lo largo del proyecto se destacan las redes neuronales siamesas, web scraping, la utilización del motor de búsqueda Elasticsearch y gran variedad de herramientas y métricas de PLN.


Detalles Bibliográficos
2021
Procesamiento de lenguaje natural
Aprendizaje automático
Detección de preguntas similares
Recuperación de información
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/31351
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:El año 2020 fue un año distinto, un año con muchos cambios provocados por una pandemia a nivel mundial. Esta pandemia provocaría que a mediados de marzo de 2020 comience un confinamiento a nivel nacional que posteriormente dejaría a muchos residentes del Uruguay sin empleo. Debido a esta grave situación, el Instituto Nacional de Empleo y Formación Profesional (INEFOP), encargado en gran parte de capacitar personas en seguro de desempleo, se vio fuertemente afectado en cuanto a su servicio de atención al público dada la gran demanda que se generó. Motivados por la problemática planteada, se decide impulsar el proyecto de grado descrito en este informe. Este proyecto propone la aplicación de técnicas de Procesamiento de Lenguaje Natural (PLN) para la construcción de herramientas que den soporte a sistemas de búsqueda de información. El objetivo principal es minimizar tiempos de respuesta y facilitar el acceso de la información. En este proyecto se construye un sistema capaz de contestar preguntas con un tiempo de respuesta acotado, cuya respuesta se encuentra en la página web de INEFOP. Mediante técnicas de detección de similitud textual y recuperación de información, el sistema desarrollado tiene la capacidad de emparejar la pregunta ingresada con preguntas almacenadas si son similares, o en caso contrario, retornar un enlace dentro de la página web de INEFOP donde podría encontrarse la respuesta. Entre los aspectos destacables del proyecto se presenta la construcción en su completitud de un sistema con las características mencionadas. El prototipo desarrollado cuenta con una interfaz web simple para comunicarse con el sistema, esta permite retroalimentación con la finalidad de mejorar la eficiencia del sistema. El servidor disponibiliza distintos servicios y consume y consulta información de una base de datos. Entre las técnicas y métodos explorados a lo largo del proyecto se destacan las redes neuronales siamesas, web scraping, la utilización del motor de búsqueda Elasticsearch y gran variedad de herramientas y métricas de PLN.