Evaluación de la calidad de datos en un sistema de Data Warehousing : un enfoque basado en contextos

Serra, Flavia

Supervisor(es): Marotta, Adriana

Resumen:

Los Sistemas de Data Warehousing son de gran relevancia para el apoyo en la toma de decisiones y el análisis de los datos. Esto ha quedado demostrado a lo largo del tiempo, a través de la generalización de su desarrollo y uso a nivel industrial en todo tipo de organizaciones y mediante la gran cantidad de trabajos científicos que se han centrado en el estudio de este tipo de sistemas. Muchos investigadores han presentado la necesidad de incorporar y mantener la calidad de los datos en los Sistemas de Data Warehousing. Sin embargo, en las investigaciones no se encuentra un consenso acerca de como hacerlo, ni acerca de si es posible definir un único conjunto de dimensiones de calidad en el entorno de un Data Warehouse, dado que dicho conjunto puede depender del propósito con el cual se utilizan los datos. Por otro lado, una vez que los datos están en el Data Warehouse surge otro desafío, como serán utilizados los mismos. Los requerimientos de calidad pueden variar entre los diferentes dominios y entre los diferentes usuarios, no solo por el propósito de la tarea que necesiten realizar, sino también porque la calidad percibida por un usuario puede diferir respecto a la calidad percibida por otro usuario. Dado que, los datos vienen de diversas fuentes con niveles de calidad distintos, los dominios de análisis pueden ser variados y los usuarios pueden percibir la calidad de distintas formas, dependiendo esto de múltiples factores (su perfil, la tarea que va a realizar, etc.). Para la evaluación de la Calidad de Datos en los Sistemas de Data Warehousing, se considera un enfoque basado en el Contexto de los datos. En este trabajo se ejecuta una metodología de búsqueda bibliográfica para obtener una visión general de la investigación existente acerca del uso de contextos en los Sistemas de Data Warehousing y/o en la evaluación de Calidad de Datos. A partir de los resultados obtenidos con la aplicación de dicha metodología, se obtiene una visión general del estado del arte, lo que permite realizar el primer planteo de una propuesta para evaluar la Calidad de Datos en los Sistemas de Data Warehousing, con un enfoque basado en Contextos. Este primer planteo, es el punto de partida de una investigación mas amplia y profunda que permita la gestión de la calidad en este tipo de Sistemas.


Data Warehousing Systems are of great relevance for supporting decision making and data analysis. This has been proven over time, through the generalization of its development and use at industrial level in all kind of organizations. Moreover, the large number of scientic studies that have focused on the study of such systems have also proven the importance of them. Many researchers have presented the need to incorporate and maintain data quality in Data Warehousing Systems. However, there is no consensus in the research community on how or whether it is possible to define a single set of quality dimensions for Data Warehouse systems, due to the fact that this set of dimensions may depend on the purpose for which the data are used. On the other hand, once the data are in the Data Warehouse another challenge arises, how they will be used. Quality requirements may vary among different domains and among different users, not only due to the task they need to perform, but also because the quality perceived by a user may differ from the quality perceived by another user. Since data come from different sources with different levels of quality, analysis domains can vary and users can perceive the quality in different ways, depending on many factors (their profile, the task to be performed, etc.), for the evaluation of Data Quality in Data Warehousing Systems it is considered a data-context based approach. In this thesis a systematic literature review is executed to obtain an overview of existing research on the use of contexts in Data Warehousing Systems and/or on the evaluation of Data Quality in this kind of systems. From the results obtained with the application of this methodology, an overview of the state-of-the-art is performed, which allows to do the first proposal to assess data quality in Data Warehousing Systems with an approach based on Contexts. This first proposal is the starting point of a broader and deeper investigation that will allow quality management in Data Warehousing Systems.


Detalles Bibliográficos
2015
Calidad de datos
Sistemas de Data Warehousing
Data Warehouse
Contextos
Data Quality
Data Warehousing System
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/33212
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:Los Sistemas de Data Warehousing son de gran relevancia para el apoyo en la toma de decisiones y el análisis de los datos. Esto ha quedado demostrado a lo largo del tiempo, a través de la generalización de su desarrollo y uso a nivel industrial en todo tipo de organizaciones y mediante la gran cantidad de trabajos científicos que se han centrado en el estudio de este tipo de sistemas. Muchos investigadores han presentado la necesidad de incorporar y mantener la calidad de los datos en los Sistemas de Data Warehousing. Sin embargo, en las investigaciones no se encuentra un consenso acerca de como hacerlo, ni acerca de si es posible definir un único conjunto de dimensiones de calidad en el entorno de un Data Warehouse, dado que dicho conjunto puede depender del propósito con el cual se utilizan los datos. Por otro lado, una vez que los datos están en el Data Warehouse surge otro desafío, como serán utilizados los mismos. Los requerimientos de calidad pueden variar entre los diferentes dominios y entre los diferentes usuarios, no solo por el propósito de la tarea que necesiten realizar, sino también porque la calidad percibida por un usuario puede diferir respecto a la calidad percibida por otro usuario. Dado que, los datos vienen de diversas fuentes con niveles de calidad distintos, los dominios de análisis pueden ser variados y los usuarios pueden percibir la calidad de distintas formas, dependiendo esto de múltiples factores (su perfil, la tarea que va a realizar, etc.). Para la evaluación de la Calidad de Datos en los Sistemas de Data Warehousing, se considera un enfoque basado en el Contexto de los datos. En este trabajo se ejecuta una metodología de búsqueda bibliográfica para obtener una visión general de la investigación existente acerca del uso de contextos en los Sistemas de Data Warehousing y/o en la evaluación de Calidad de Datos. A partir de los resultados obtenidos con la aplicación de dicha metodología, se obtiene una visión general del estado del arte, lo que permite realizar el primer planteo de una propuesta para evaluar la Calidad de Datos en los Sistemas de Data Warehousing, con un enfoque basado en Contextos. Este primer planteo, es el punto de partida de una investigación mas amplia y profunda que permita la gestión de la calidad en este tipo de Sistemas.