Definición de una arquitectura de referencia para anonimizar documentos

Vico, Horacio

Supervisor(es): Calegari García, Daniel

Resumen:

La anonimización es un proceso que permite identificar y ocultar la información sensible contenida en los documentos, permitiendo su divulgación sin que ello implique vulnerar los derechos a la protección de datos de las personas y organizaciones que se puedan referenciar en los mismos. La anonimización automática o semi-automática de documentos no estructurados se constituye como un desafío importante desde el punto de vista de la ingeniería de software y en particular de la arquitectura de software ya que, entre otras cosas, el proceso que se lleva a cabo no se encuentra bien definido, y para su realización se deben combinar diversas disciplinas como el procesamiento de lenguaje natural y la minería de textos. El presente trabajo de tesis introduce una arquitectura de software de referencia para la anonimización de documentos desestructurados, basada en propuestas arquitecturales existentes en la bibliografía. Se describe dicha arquitectura en detalle así como se estudia la disponibilidad de herramientas vinculadas al procesamiento del lenguaje natural, que resultan de utilidad en un proceso de anonimización. Finalmente se lleva a la práctica la arquitectura propuesta mediante el diseño e implementación de un prototipo de sistema de anonimización de sentencias judiciales(jurisprudencia).


Detalles Bibliográficos
2013
Anonimización
Arquitectura de software
Protección de datos
Procesamiento del lenguaje natural
Español
Universidad de la República
COLIBRI
http://hdl.handle.net/20.500.12008/2972
Acceso abierto
Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC BY-NC-ND 4.0)