Procesamiento de Lenguaje Natural (PLN) para la reconstrucción de textos a partir de imágenes correspondientes a archivos históricos de la década del 70

Stabile, Javier - Fernandez, Ernesto - Fioritto, Federico

Supervisor(es): Rosá, Aiala - Wonsever, Dina

Resumen:

Durante los años 70’s y mediados de los 80’s, en Uruguay tuvo lugar la dictadura cívico-militar a través de un golpe de estado. A raíz de esto, los poderes del estado pasan a manos de militares, se pierden derechos y libertades por parte de la población, y ocurren detenciones políticas y desaparición de personas. Durante este periodo la documentación publica era muy limitada y no se conocían con claridad los hechos que ocurrían. Recientemente se liberaron numerosos documentos conservados en formato microfilm que han perdido calidad con los años transcurridos. Lo que genera dificultades para ser legibles al ser escaneados. El procesamiento de estos documentos es de suma importancia para la dilucidación de eventos ocurridos durante el periodo mencionado. Este proyecto se realizó en el marco de un proyecto más amplio de recuperación de archivos de texto, en formato imagen de escasa legibilidad. Se propone la aplicación de técnicas de Procesamiento de Lenguaje Natural (PLN) para la reconstrucción de textos a partir de imágenes correspondientes a archivos históricos de las décadas mencionadas anteriormente. Se cuenta con una importante base de imágenes escaneadas, algunos procesamientos realizados sobre estas imágenes y la transcripción manual del texto contenido en diferentes segmentos de un subconjunto de imágenes (proyecto LUISA). Se busca alcanzar diferentes objetivos como son mejorar los resultados de la herramienta que se usa para convertir imagen a texto (OCR), reconstruir como texto documentos enteros a partir de segmentos transcritos en forma manual, que se están generando mediante un proceso de anotación colaborativa, y por último, corregir mediante técnicas de PLN las extracciones de los textos escaneados y procesados por un OCR.


Detalles Bibliográficos
2020
Corrección de textos de baja calidad
Procesamiento de lenguaje natural
Traducción automática estadística
Modelos de lenguaje
LUISA
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/26094
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:Durante los años 70’s y mediados de los 80’s, en Uruguay tuvo lugar la dictadura cívico-militar a través de un golpe de estado. A raíz de esto, los poderes del estado pasan a manos de militares, se pierden derechos y libertades por parte de la población, y ocurren detenciones políticas y desaparición de personas. Durante este periodo la documentación publica era muy limitada y no se conocían con claridad los hechos que ocurrían. Recientemente se liberaron numerosos documentos conservados en formato microfilm que han perdido calidad con los años transcurridos. Lo que genera dificultades para ser legibles al ser escaneados. El procesamiento de estos documentos es de suma importancia para la dilucidación de eventos ocurridos durante el periodo mencionado. Este proyecto se realizó en el marco de un proyecto más amplio de recuperación de archivos de texto, en formato imagen de escasa legibilidad. Se propone la aplicación de técnicas de Procesamiento de Lenguaje Natural (PLN) para la reconstrucción de textos a partir de imágenes correspondientes a archivos históricos de las décadas mencionadas anteriormente. Se cuenta con una importante base de imágenes escaneadas, algunos procesamientos realizados sobre estas imágenes y la transcripción manual del texto contenido en diferentes segmentos de un subconjunto de imágenes (proyecto LUISA). Se busca alcanzar diferentes objetivos como son mejorar los resultados de la herramienta que se usa para convertir imagen a texto (OCR), reconstruir como texto documentos enteros a partir de segmentos transcritos en forma manual, que se están generando mediante un proceso de anotación colaborativa, y por último, corregir mediante técnicas de PLN las extracciones de los textos escaneados y procesados por un OCR.