Modelos Seq2Seq para la transcripción de documentos del Archivo Berrutti

Chavat Pérez, Felipe

Supervisor(es): Garat, Diego - Moncecchi, Guillermo

Resumen:

Archivo Berrutti es el nombre que recibe un conjunto de documentos generados por las Fuerzas Armadas entre los años 1968 y 1985, años marcados por sucesos de terrorismo de Estado y la reciente dictadura Uruguaya (1973-1985). El Proyecto CRUZAR busca la sistematización de la versión digital del archivo, de forma de facilitar el estudio de la estructura y forma de accionar de los organismos represivos. Es en este marco que el proyecto LUISA (Leyendo Unidos para Interpretar loS Archivos) desarrolla herramientas para semi automatizar esta tarea, como la transcripción automática de las imágenes digitales a un formato procesable por sistemas de extracción de información. El presente trabajo enfoca su estudio en la evaluación de métodos de aprendizaje automático profundo orientado a la transcripción automática de imágenes del Archivo Berrutti, a partir de las transcripciones manuales obtenidas a través de la plataforma LUISA. En particular, se considera la arquitectura Seq2Seq, la cual fue desarrollada en principio para la traducción automática, pero que luego se aplicó a otros problemas, como el OCR, mostrando resultados que compiten con el estado del arte en el tema. El modelo implementado alcanza una tasa de error a nivel de caracteres —CER— del 28.10% frente al 23.74% obtenido por la última herramienta OCR usada por el equipo LUISA y el 52% obtenido por una herramienta anterior. Los resultados son promisorios y alientan a seguir avanzando en la implementación de nuevas características que mejoren el modelo.


Detalles Bibliográficos
2022
Aprendizaje profundo
Arquitectura Seq2Seq
Archivo Berrutti
LUISA
OCR
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/33944
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:Archivo Berrutti es el nombre que recibe un conjunto de documentos generados por las Fuerzas Armadas entre los años 1968 y 1985, años marcados por sucesos de terrorismo de Estado y la reciente dictadura Uruguaya (1973-1985). El Proyecto CRUZAR busca la sistematización de la versión digital del archivo, de forma de facilitar el estudio de la estructura y forma de accionar de los organismos represivos. Es en este marco que el proyecto LUISA (Leyendo Unidos para Interpretar loS Archivos) desarrolla herramientas para semi automatizar esta tarea, como la transcripción automática de las imágenes digitales a un formato procesable por sistemas de extracción de información. El presente trabajo enfoca su estudio en la evaluación de métodos de aprendizaje automático profundo orientado a la transcripción automática de imágenes del Archivo Berrutti, a partir de las transcripciones manuales obtenidas a través de la plataforma LUISA. En particular, se considera la arquitectura Seq2Seq, la cual fue desarrollada en principio para la traducción automática, pero que luego se aplicó a otros problemas, como el OCR, mostrando resultados que compiten con el estado del arte en el tema. El modelo implementado alcanza una tasa de error a nivel de caracteres —CER— del 28.10% frente al 23.74% obtenido por la última herramienta OCR usada por el equipo LUISA y el 52% obtenido por una herramienta anterior. Los resultados son promisorios y alientan a seguir avanzando en la implementación de nuevas características que mejoren el modelo.