Framework para el análisis de calidad de datos en Data Warehouse

Azziorri, Christian - Esmoris, Matías - Kwilman, Fernando

Supervisor(es): Marotta, Adriana - Sanz, Camila

Resumen:

Los sistemas de Data Warehouse han tomado gran relevancia a nivel de las organizaciones, debido a que son utilizados para el análisis y el proceso de toma de decisiones. Por lo tanto una mala calidad de datos en estos sistemas puede afectar negativamente estos procesos, conduciendo a malas decisiones. En este tipo de sistemas es inevitable sufrir algún problema de calidad durante las diferentes etapas de construcción y utilización de los mismos. Es por esto que es importante contar con una herramienta para evaluar aspectos de la calidad de datos en los sistemas de Data Warehouse. Este proyecto esta basado principalmente en la tesis doctoral "Context based Data Quality Rules for Multidimensional Data". En dicha tesis se plantea abordar el problema de evaluar la calidad de datos en Data Warehouse como un conjunto de subproblemas: 1) Formalización del Data Warehouse, 2) Formalización y definición de contexto, 3) Mecanismo de interacción entre contexto y Data Warehouse, 4) Definición y formalización de reglas de evaluación y mejora de calidad de datos, 5) Implementación de la solución, 6) Experimentación con un caso de uso real. En base a esto, en este proyecto se realiza la implementación de una herramienta que permite definir e instanciar un Data Warehouse con sus cubos (modelo multidimensional), siguiendo la formalización e implementación Datalog planteada en la tesis "Context based Data Quality Rules for Multidimensional Data", permitiendo también realizar operaciones de roll-up sobre dichos cubos. Por otra parte, se formalizan métricas de calidad que permiten la evaluación de la calidad de un Data Warehouse y se implementan dentro de la herramienta, permitiendo ejecutar las mismas para el Data Warehouse definido por el usuario.


Detalles Bibliográficos
2022
Data Warehouse
Calidad de datos
Datalog
Sumarizabilidad
Electron
Node.js.
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/33240
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:Los sistemas de Data Warehouse han tomado gran relevancia a nivel de las organizaciones, debido a que son utilizados para el análisis y el proceso de toma de decisiones. Por lo tanto una mala calidad de datos en estos sistemas puede afectar negativamente estos procesos, conduciendo a malas decisiones. En este tipo de sistemas es inevitable sufrir algún problema de calidad durante las diferentes etapas de construcción y utilización de los mismos. Es por esto que es importante contar con una herramienta para evaluar aspectos de la calidad de datos en los sistemas de Data Warehouse. Este proyecto esta basado principalmente en la tesis doctoral "Context based Data Quality Rules for Multidimensional Data". En dicha tesis se plantea abordar el problema de evaluar la calidad de datos en Data Warehouse como un conjunto de subproblemas: 1) Formalización del Data Warehouse, 2) Formalización y definición de contexto, 3) Mecanismo de interacción entre contexto y Data Warehouse, 4) Definición y formalización de reglas de evaluación y mejora de calidad de datos, 5) Implementación de la solución, 6) Experimentación con un caso de uso real. En base a esto, en este proyecto se realiza la implementación de una herramienta que permite definir e instanciar un Data Warehouse con sus cubos (modelo multidimensional), siguiendo la formalización e implementación Datalog planteada en la tesis "Context based Data Quality Rules for Multidimensional Data", permitiendo también realizar operaciones de roll-up sobre dichos cubos. Por otra parte, se formalizan métricas de calidad que permiten la evaluación de la calidad de un Data Warehouse y se implementan dentro de la herramienta, permitiendo ejecutar las mismas para el Data Warehouse definido por el usuario.