Recuperación de información para la búsqueda de respuestas en idioma español.

Bouza Heguerte, Lucía

Supervisor(es): Moncecchi, Guillermo

Resumen:

En esta tesis se presenta un análisis de diferentes técnicas de recuperación de información que son utilizadas en el contexto de búsqueda de respuestas, en documentos de prensa y en documentos enciclopédicos en el idioma español. El trabajo identifica e intenta cuantificar algunos problemas en la evaluación estándar de esta tarea. Como parte central de los aportes de este trabajo, se propone un método manual para obtener una mejor estimación del rendimiento real del sistema, haciendo foco en problemas que involucren temporalidad, pero que puede ser utilizado también en otros contextos. El análisis realizado mediante el método manual permite medir cuánto subestima el rendimiento del sistema el método de evaluación utilizado habitualmente. Como parte del trabajo, se desarrolló el módulo de recuperación de información del sistema DPR (Karpukhin et al., 2020), para ser utilizado para el idioma español, que queda disponible como un nuevo recurso para la investigación del problema.


Detalles Bibliográficos
2023
PLN
Recuperación de información
Búsqueda de respuestas
Temporalidad en colecciones de documentos
Modelos de Lenguaje
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/39109
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:En esta tesis se presenta un análisis de diferentes técnicas de recuperación de información que son utilizadas en el contexto de búsqueda de respuestas, en documentos de prensa y en documentos enciclopédicos en el idioma español. El trabajo identifica e intenta cuantificar algunos problemas en la evaluación estándar de esta tarea. Como parte central de los aportes de este trabajo, se propone un método manual para obtener una mejor estimación del rendimiento real del sistema, haciendo foco en problemas que involucren temporalidad, pero que puede ser utilizado también en otros contextos. El análisis realizado mediante el método manual permite medir cuánto subestima el rendimiento del sistema el método de evaluación utilizado habitualmente. Como parte del trabajo, se desarrolló el módulo de recuperación de información del sistema DPR (Karpukhin et al., 2020), para ser utilizado para el idioma español, que queda disponible como un nuevo recurso para la investigación del problema.