Resumen:: Implementación de un algoritmo de anonimización para la plataforma de datos masivos de Plan Ceibal :: SILO. Sistema nacional de repositorios digitales. Uruguay

Tesis de grado Aceptado

Implementación de un algoritmo de anonimización para la plataforma de datos masivos de Plan Ceibal

Serra Oddo, Bruno - Rosolino Ruétalo, Diego - Rivas Masullo, María Soledad

Supervisor(es): Etcheverry, Lorena - Giménez, Eduardo

Resumen:

En la actualidad, cada vez más información es compartida entre distintas organizaciones con distintos fines, como por ejemplo, para extraer estadísticas que permitan tomar ciertas decisiones, dar soporte a investigaciones científicas o para ser utilizados en modelos de Aprendizaje Automático. Cuando esta información refiere a datos personales, es donde se torna fundamental que la privacidad de estos se preserve. Dado que gestiona los datos de los niños, niñas y docentes uruguayos, el Plan Ceibal posee un especial interés en el escenario descripto. Es con el objetivo de brindar una herramienta que permita a la organización anonimizar los datos personales que posee, que el presente proyecto estudia algunos aspectos de la anonimización de datos en el contexto de Big Data, abordando el problema de escalabilidad que tienen hoy en día las técnicas de anonimización para entornos centralizados. Para ello, se exponen distintas técnicas, mencionando en cada una los enfoques que estas utilizan. Además, se brinda una descripción detallada del marco tecnológico del entorno distribuido utilizado y se proporciona la implementación de un algoritmo de anonimización basado en la técnica k-anonymity junto con una comparación de resultados en un ambiente distribuido y uno centralizado, utilizando PySpark como interfaz de comunicación con Spark. Se concluye exponiendo los desafíos que enfrenta el responsable del proceso de anonimización de datos, así como también las dificultades que enfrenta al momento de aplicar una de estas técnicas con el fin de mantener la mayor utilidad de los datos posible al mismo tiempo que se preserva su privacidad.

Detalles Bibliográficos
Fecha de publicación:	2020
Temas:	Privacidad Datos Personales Entornos distribuidos Spark Big Data
Idioma	Español
Institución:	Universidad de la República
Repositorio:	COLIBRI
Enlace(s):	https://hdl.handle.net/20.500.12008/24212
Nivel de acceso:	Acceso abierto
Licencia:	Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)

Resumen:
Sumario:	En la actualidad, cada vez más información es compartida entre distintas organizaciones con distintos fines, como por ejemplo, para extraer estadísticas que permitan tomar ciertas decisiones, dar soporte a investigaciones científicas o para ser utilizados en modelos de Aprendizaje Automático. Cuando esta información refiere a datos personales, es donde se torna fundamental que la privacidad de estos se preserve. Dado que gestiona los datos de los niños, niñas y docentes uruguayos, el Plan Ceibal posee un especial interés en el escenario descripto. Es con el objetivo de brindar una herramienta que permita a la organización anonimizar los datos personales que posee, que el presente proyecto estudia algunos aspectos de la anonimización de datos en el contexto de Big Data, abordando el problema de escalabilidad que tienen hoy en día las técnicas de anonimización para entornos centralizados. Para ello, se exponen distintas técnicas, mencionando en cada una los enfoques que estas utilizan. Además, se brinda una descripción detallada del marco tecnológico del entorno distribuido utilizado y se proporciona la implementación de un algoritmo de anonimización basado en la técnica k-anonymity junto con una comparación de resultados en un ambiente distribuido y uno centralizado, utilizando PySpark como interfaz de comunicación con Spark. Se concluye exponiendo los desafíos que enfrenta el responsable del proceso de anonimización de datos, así como también las dificultades que enfrenta al momento de aplicar una de estas técnicas con el fin de mantener la mayor utilidad de los datos posible al mismo tiempo que se preserva su privacidad.

Implementación de un algoritmo de anonimización para la plataforma de datos masivos de Plan Ceibal

Resultados similares