Modelos Seq2Seq para la transcripción de documentos del Archivo Berrutti
Supervisor(es): Garat, Diego - Moncecchi, Guillermo
Resumen:
Archivo Berrutti es el nombre que recibe un conjunto de documentos generados por las Fuerzas Armadas entre los años 1968 y 1985, años marcados por sucesos de terrorismo de Estado y la reciente dictadura Uruguaya (1973-1985). El Proyecto CRUZAR busca la sistematización de la versión digital del archivo, de forma de facilitar el estudio de la estructura y forma de accionar de los organismos represivos. Es en este marco que el proyecto LUISA (Leyendo Unidos para Interpretar loS Archivos) desarrolla herramientas para semi automatizar esta tarea, como la transcripción automática de las imágenes digitales a un formato procesable por sistemas de extracción de información. El presente trabajo enfoca su estudio en la evaluación de métodos de aprendizaje automático profundo orientado a la transcripción automática de imágenes del Archivo Berrutti, a partir de las transcripciones manuales obtenidas a través de la plataforma LUISA. En particular, se considera la arquitectura Seq2Seq, la cual fue desarrollada en principio para la traducción automática, pero que luego se aplicó a otros problemas, como el OCR, mostrando resultados que compiten con el estado del arte en el tema. El modelo implementado alcanza una tasa de error a nivel de caracteres —CER— del 28.10% frente al 23.74% obtenido por la última herramienta OCR usada por el equipo LUISA y el 52% obtenido por una herramienta anterior. Los resultados son promisorios y alientan a seguir avanzando en la implementación de nuevas características que mejoren el modelo.
2022 | |
Aprendizaje profundo Arquitectura Seq2Seq Archivo Berrutti LUISA OCR |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/33944 | |
Acceso abierto | |
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
Sumario: | Archivo Berrutti es el nombre que recibe un conjunto de documentos generados por las Fuerzas Armadas entre los años 1968 y 1985, años marcados por sucesos de terrorismo de Estado y la reciente dictadura Uruguaya (1973-1985). El Proyecto CRUZAR busca la sistematización de la versión digital del archivo, de forma de facilitar el estudio de la estructura y forma de accionar de los organismos represivos. Es en este marco que el proyecto LUISA (Leyendo Unidos para Interpretar loS Archivos) desarrolla herramientas para semi automatizar esta tarea, como la transcripción automática de las imágenes digitales a un formato procesable por sistemas de extracción de información. El presente trabajo enfoca su estudio en la evaluación de métodos de aprendizaje automático profundo orientado a la transcripción automática de imágenes del Archivo Berrutti, a partir de las transcripciones manuales obtenidas a través de la plataforma LUISA. En particular, se considera la arquitectura Seq2Seq, la cual fue desarrollada en principio para la traducción automática, pero que luego se aplicó a otros problemas, como el OCR, mostrando resultados que compiten con el estado del arte en el tema. El modelo implementado alcanza una tasa de error a nivel de caracteres —CER— del 28.10% frente al 23.74% obtenido por la última herramienta OCR usada por el equipo LUISA y el 52% obtenido por una herramienta anterior. Los resultados son promisorios y alientan a seguir avanzando en la implementación de nuevas características que mejoren el modelo. |
---|