Modelos Seq2Seq para la transcripción de documentos del Archivo Berrutti :: SILO. Sistema nacional de repositorios digitales. Uruguay

Tesis de grado Aceptado

Modelos Seq2Seq para la transcripción de documentos del Archivo Berrutti

Chavat Pérez, Felipe

Supervisor(es): Garat, Diego - Moncecchi, Guillermo

Resumen:

Archivo Berrutti es el nombre que recibe un conjunto de documentos generados por las Fuerzas Armadas entre los años 1968 y 1985, años marcados por sucesos de terrorismo de Estado y la reciente dictadura Uruguaya (1973-1985). El Proyecto CRUZAR busca la sistematización de la versión digital del archivo, de forma de facilitar el estudio de la estructura y forma de accionar de los organismos represivos. Es en este marco que el proyecto LUISA (Leyendo Unidos para Interpretar loS Archivos) desarrolla herramientas para semi automatizar esta tarea, como la transcripción automática de las imágenes digitales a un formato procesable por sistemas de extracción de información. El presente trabajo enfoca su estudio en la evaluación de métodos de aprendizaje automático profundo orientado a la transcripción automática de imágenes del Archivo Berrutti, a partir de las transcripciones manuales obtenidas a través de la plataforma LUISA. En particular, se considera la arquitectura Seq2Seq, la cual fue desarrollada en principio para la traducción automática, pero que luego se aplicó a otros problemas, como el OCR, mostrando resultados que compiten con el estado del arte en el tema. El modelo implementado alcanza una tasa de error a nivel de caracteres —CER— del 28.10% frente al 23.74% obtenido por la última herramienta OCR usada por el equipo LUISA y el 52% obtenido por una herramienta anterior. Los resultados son promisorios y alientan a seguir avanzando en la implementación de nuevas características que mejoren el modelo.

Detalles Bibliográficos
Fecha de publicación:	2022
Temas:	Aprendizaje profundo Arquitectura Seq2Seq Archivo Berrutti LUISA OCR
Idioma	Español
Institución:	Universidad de la República
Repositorio:	COLIBRI
Enlace(s):	https://hdl.handle.net/20.500.12008/33944
Nivel de acceso:	Acceso abierto
Licencia:	Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)

Resultados similares

Generación de datos sintéticos para traducción automática entre español y guaraní.
Autor(es):: Baladón, Alexis
Fecha de publicación:: (2024)

Population genomics in Rhamdia quelen (Heptapteridae, Siluriformes) reveals deep divergence and adaptation in the Neotropical region
Autor(es):: Ríos, Néstor
Fecha de publicación:: (2020)

Transcriptomic analysis reveals metabolic switches and surface remodeling as key processes for stage transition in Trypanosoma cruzi
Autor(es):: Berná, Luisa
Fecha de publicación:: (2017)

Rapid genome functional annotation pipeline anchored to the house sparrow (Passer domesticus, Linnaeus 1758) genome reannotation
Autor(es):: Magallanes-Alba, Melisa Eliana
Fecha de publicación:: (2023)

RNAi in Piezodorus guildinii (Hemiptera: Pentatomidae): transcriptome assembly for the development of pest control strategies.
Autor(es):: SCHVARTZMAN, C.
Fecha de publicación:: (2022)

Nuclear compartmentalization contributes to stage-specific gene expression control in Trypanosoma cruzi
Autor(es):: Pastro, Lucía
Fecha de publicación:: (2017)

Plastome phylogenomics reveals an early Pliocene North- and Central America colonization by long-distance dispersal from South America of a highly diverse bromeliad lineage
Autor(es):: Vera-Paz, Sandra I.
Fecha de publicación:: (2023)

Construcción de herramientas para contribuir al análisis de los archivos de la O.C.O.A.
Autor(es):: Nogueira, Mateo
Fecha de publicación:: (2023)

Implicancias epistemológicas y reflexiones metodológicas en torno a la construcción de un archivo afectivo
Autor(es):: Saporosi, Lucas
Fecha de publicación:: (2017)

Open problems in extracellular RNA data analysis: insights from an ERCC online workshop
Autor(es):: Alexander, Roger P.
Fecha de publicación:: (2022)

Low impact of different SNP panels from two building-loci pipelines on RAD-Seq population genomic metrics: case study on five diverse aquatic species
Autor(es):: Casanova, Adrián
Fecha de publicación:: (2021)

Cambios en los procesos de relativización en un corpus de documentos manuscritos tomados de archivos (siglos XVIII y XIX) y textos de prensa (siglo XIX)
Autor(es):: González Zunini, Macarena
Fecha de publicación:: (2017)

RNA-Seq transcriptome data of undifferentiated and differentiated gonads of Siberian sturgeon
Autor(es):: Klopp, C.
Fecha de publicación:: (2020)

Posibilidades legales de modificación de un archivo con finalidades de dotarlo de características de accesibilidad
Autor(es):: Fager, José
Fecha de publicación:: (2015)

Aproximación interdisciplinaria al trabajo con documentos sonoros. Estudio de caso : las grabaciones de campo de Lauro Ayestarán
Autor(es):: Irigaray, Ignacio
Fecha de publicación:: (2019)

Procesamiento de Lenguaje Natural (PLN) para la reconstrucción de textos a partir de imágenes correspondientes a archivos históricos de la década del 70
Autor(es):: Stabile, Javier
Fecha de publicación:: (2020)

Framework para procesamiento de archivos DICOM
Autor(es):: Horne Gorga, Alejandro Daniel
Fecha de publicación:: (2021)

A computational framework for the analysis of the Uruguayan dictatorship archives.
Autor(es):: Etcheverry, Lorena
Fecha de publicación:: (2021)

Deep learning for the analysis of network traffic measurements
Autor(es):: Marín Freire, Gonzalo Miguel
Fecha de publicación:: (2019)

Estudio de la expresión génica en ovinos resistentes a parásitos gastrointestinales mediante RNA-Seq
Autor(es):: Peraza Dos Santos, Pablo
Fecha de publicación:: (2017)

Estrategias de enseñanza, promotoras de aprendizaje profundo en el tema Equilibrio Químico
Autor(es):: Darré Rocchietti, Liliana Beatriz
Fecha de publicación:: (2023)

RNA-Seq reveals that overexpression of TcUBP1 switches the gene expression pattern toward that of the infective form of Trypanosoma cruzi
Autor(es):: Sabalette, Karina B
Fecha de publicación:: (2023)

Apropiación de TIC por estudiantes de profesorado : aprendiendo para enseñar
Autor(es):: Píriz Giménez, Nazira
Fecha de publicación:: (2017)

Estudio mediante RNA-SEQ del transcriptoma de diferentes tejidos de ovinos resistentes y susceptibles a parásitos gastrointestinales.
Autor(es):: PERAZA, P.
Fecha de publicación:: (2016)

Cinema and Archival Fever in Three Latin American Experiences: Archivo Cordero, Tierra Sola & the Utopia of Anarchiva
Autor(es):: Estrada Alvarez, Adriana
Fecha de publicación:: (2022)

Archivos sensibles e historias de vida: reflexiones sobre la emergencia de las narrativas en primera persona de las mujeres mayores
Autor(es):: Gavrila, Canela Constanza
Fecha de publicación:: (2021)

Aprendizaje Profundo para el procesamiento de Imágenes - Optimización del conjunto de datos de entrenamiento
Autor(es):: Cabrera García, Juan Ignacio
Fecha de publicación:: (2021)

An approach to explainable deep learning for image-based medical diagnosis based on prototypes
Autor(es):: Cecilia Delgado, Leonardo Raúl
Fecha de publicación:: (2023)

DNAI : Machine learning for genome enabled prediction of complex traits in agriculture
Autor(es):: Elenter, Juan
Fecha de publicación:: (2021)

Conteo de multitudes a través de redes neuronales y aprendizaje profundo.
Autor(es):: Gambone, Renzo
Fecha de publicación:: (2023)

Predicción de tráfico en redes del Plan Ceibal
Autor(es):: Pastorini, Marcos
Fecha de publicación:: (2021)

Assessment of data augmentation techniques with synthetic images in uncommon datasets cases
Autor(es):: Repetto Ferrero, Andrés Mauricio
Fecha de publicación:: (2023)

Detección de pérdidas no técnicas de energía utilizando modelos de aprendizaje profundo para series temporales multivariadas.
Autor(es):: Maldonado, Fernanda
Fecha de publicación:: (2024)

Análisis e implementación de técnicas de “Batch Reinforcement Learning” pasivo para aplicación sobre casos reales
Autor(es):: Derderian Dostourian, Mariana
Fecha de publicación:: (2021)

Análisis predictivo en Bitcoin utilizando técnicas de aprendizaje profundo
Autor(es):: González, Federico
Fecha de publicación:: (2019)

Estudio de modelos de privacidad de datos
Autor(es):: Visca Zanoni, Ramiro Eugenio
Fecha de publicación:: (2021)

Comparison of LSTM and Transformer Neural Network on multiple approaches for weblogs attack detection
Autor(es):: Martínez Varsi, Nicolás
Fecha de publicación:: (2022)

Jugador de ZX Spectrum utilizando aprendizaje por refuerzos profundo
Autor(es):: Laguna, Rodrigo
Fecha de publicación:: (2018)

Análisis y desarrollo de modelos predictivos con redes neuronales para Web Application Firewall
Autor(es):: Biardo Mirenda, Deborah
Fecha de publicación:: (2020)

Definición de una arquitectura de referencia para anonimizar documentos
Autor(es):: Vico, Horacio
Fecha de publicación:: (2013)