Implementación de un algoritmo de anonimización para la plataforma de datos masivos de Plan Ceibal
Supervisor(es): Etcheverry, Lorena - Giménez, Eduardo
Resumen:
En la actualidad, cada vez más información es compartida entre distintas organizaciones con distintos fines, como por ejemplo, para extraer estadísticas que permitan tomar ciertas decisiones, dar soporte a investigaciones científicas o para ser utilizados en modelos de Aprendizaje Automático. Cuando esta información refiere a datos personales, es donde se torna fundamental que la privacidad de estos se preserve. Dado que gestiona los datos de los niños, niñas y docentes uruguayos, el Plan Ceibal posee un especial interés en el escenario descripto. Es con el objetivo de brindar una herramienta que permita a la organización anonimizar los datos personales que posee, que el presente proyecto estudia algunos aspectos de la anonimización de datos en el contexto de Big Data, abordando el problema de escalabilidad que tienen hoy en día las técnicas de anonimización para entornos centralizados. Para ello, se exponen distintas técnicas, mencionando en cada una los enfoques que estas utilizan. Además, se brinda una descripción detallada del marco tecnológico del entorno distribuido utilizado y se proporciona la implementación de un algoritmo de anonimización basado en la técnica k-anonymity junto con una comparación de resultados en un ambiente distribuido y uno centralizado, utilizando PySpark como interfaz de comunicación con Spark. Se concluye exponiendo los desafíos que enfrenta el responsable del proceso de anonimización de datos, así como también las dificultades que enfrenta al momento de aplicar una de estas técnicas con el fin de mantener la mayor utilidad de los datos posible al mismo tiempo que se preserva su privacidad.
2020 | |
Privacidad Datos Personales Entornos distribuidos Spark Big Data |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/24212 | |
Acceso abierto | |
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
Sumario: | En la actualidad, cada vez más información es compartida entre distintas organizaciones con distintos fines, como por ejemplo, para extraer estadísticas que permitan tomar ciertas decisiones, dar soporte a investigaciones científicas o para ser utilizados en modelos de Aprendizaje Automático. Cuando esta información refiere a datos personales, es donde se torna fundamental que la privacidad de estos se preserve. Dado que gestiona los datos de los niños, niñas y docentes uruguayos, el Plan Ceibal posee un especial interés en el escenario descripto. Es con el objetivo de brindar una herramienta que permita a la organización anonimizar los datos personales que posee, que el presente proyecto estudia algunos aspectos de la anonimización de datos en el contexto de Big Data, abordando el problema de escalabilidad que tienen hoy en día las técnicas de anonimización para entornos centralizados. Para ello, se exponen distintas técnicas, mencionando en cada una los enfoques que estas utilizan. Además, se brinda una descripción detallada del marco tecnológico del entorno distribuido utilizado y se proporciona la implementación de un algoritmo de anonimización basado en la técnica k-anonymity junto con una comparación de resultados en un ambiente distribuido y uno centralizado, utilizando PySpark como interfaz de comunicación con Spark. Se concluye exponiendo los desafíos que enfrenta el responsable del proceso de anonimización de datos, así como también las dificultades que enfrenta al momento de aplicar una de estas técnicas con el fin de mantener la mayor utilidad de los datos posible al mismo tiempo que se preserva su privacidad. |
---|