Minería de calidad de datos : aplicación de técnicas de minería de datos para la evaluación de la calidad de los datos
Supervisor(es): Marotta, Adriana - Tansini, Libertad
Resumen:
El aseguramiento de la calidad de los datos con los cuales se trabaja es crucial para tomar decisiones acertadas, efectivas y a tiempo. Lograr una buena calidad de datos no solo implica trabajar con datos que no contengan errores, sino que también incluye características tales como la completitud (tener la mayor cantidad posible de datos), la actualidad (que los datos sean lo más actuales posibles), la usabilidad (que los datos sean adecuados y comprensibles), y la disponibilidad (que se pueda acceder a ellos cuando se los necesita), entre muchas otras. La minería de datos, por otra parte, permite descubrir información oculta en los datos, utilizando un paradigma inverso al usual: mientras normalmente se comienza planteando una hipótesis para luego tratar de confirmarla, la minería de datos propone identificar en forma automatizada patrones que pueden resultar interesantes y que posiblemente no hayan sido imaginados por los analistas. Si bien ambas áreas son altamente relevantes en el mundo académico e industrial de la actualidad, donde la informática brinda un soporte tecnológico apropiado, la literatura existente y algunas experiencias muestran que existe muy poca o nula integración entre la calidad de datos y la minería de datos. En general, los trabajos pertenecientes a un área suelen ser ajenos a los existentes en la otra. En este trabajo se realiza un estudio en profundidad de las dos áreas introducidas para luego hacer un análisis de los mecanismos que permitirían vincularlas, y finalmente implementar técnicas que permitan abordar el análisis de la calidad de conjuntos de datos aprovechando las capacidades inherentes de la minería de datos. El trabajo presenta dos propuestas nuevas para la aplicación de técnicas de minería de datos para la evaluación de la calidad de datos, que fueron presentadas en dos eventos internacionales especializados. Una de ellas se orienta a la determinación de si un conjunto de datos es suficientemente actualizado, y la otra se orienta al análisis de datos faltantes. Además, se presenta también una tercera propuesta, aún en etapa de formulación, para evaluar qué tan usable es un conjunto de datos en base a sus características. Palabras clave: calidad de datos, minería de datos, minería de calidad de datos. El trabajo presenta dos propuestas nuevas para la aplicación de técnicas de minería de datos parala evaluación de la calidad de datos, que fueron presentadas en dos eventos internacionales especializados. Una de ellas se orienta a la determinación de si un conjunto de datos es suficientemente actualizado, y la otra se orienta al análisis de datos faltantes. Además, se presenta también una tercera propuesta, aún en etapa de formulación, para evaluar qué tan usable es un conjunto de datos en base a sus características.
2018 | |
Calidad de datos Minería de datos Minería de calidad de datos |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/25468 | |
Acceso abierto | |
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
Sumario: | El aseguramiento de la calidad de los datos con los cuales se trabaja es crucial para tomar decisiones acertadas, efectivas y a tiempo. Lograr una buena calidad de datos no solo implica trabajar con datos que no contengan errores, sino que también incluye características tales como la completitud (tener la mayor cantidad posible de datos), la actualidad (que los datos sean lo más actuales posibles), la usabilidad (que los datos sean adecuados y comprensibles), y la disponibilidad (que se pueda acceder a ellos cuando se los necesita), entre muchas otras. La minería de datos, por otra parte, permite descubrir información oculta en los datos, utilizando un paradigma inverso al usual: mientras normalmente se comienza planteando una hipótesis para luego tratar de confirmarla, la minería de datos propone identificar en forma automatizada patrones que pueden resultar interesantes y que posiblemente no hayan sido imaginados por los analistas. Si bien ambas áreas son altamente relevantes en el mundo académico e industrial de la actualidad, donde la informática brinda un soporte tecnológico apropiado, la literatura existente y algunas experiencias muestran que existe muy poca o nula integración entre la calidad de datos y la minería de datos. En general, los trabajos pertenecientes a un área suelen ser ajenos a los existentes en la otra. En este trabajo se realiza un estudio en profundidad de las dos áreas introducidas para luego hacer un análisis de los mecanismos que permitirían vincularlas, y finalmente implementar técnicas que permitan abordar el análisis de la calidad de conjuntos de datos aprovechando las capacidades inherentes de la minería de datos. El trabajo presenta dos propuestas nuevas para la aplicación de técnicas de minería de datos para la evaluación de la calidad de datos, que fueron presentadas en dos eventos internacionales especializados. Una de ellas se orienta a la determinación de si un conjunto de datos es suficientemente actualizado, y la otra se orienta al análisis de datos faltantes. Además, se presenta también una tercera propuesta, aún en etapa de formulación, para evaluar qué tan usable es un conjunto de datos en base a sus características. Palabras clave: calidad de datos, minería de datos, minería de calidad de datos. El trabajo presenta dos propuestas nuevas para la aplicación de técnicas de minería de datos parala evaluación de la calidad de datos, que fueron presentadas en dos eventos internacionales especializados. Una de ellas se orienta a la determinación de si un conjunto de datos es suficientemente actualizado, y la otra se orienta al análisis de datos faltantes. Además, se presenta también una tercera propuesta, aún en etapa de formulación, para evaluar qué tan usable es un conjunto de datos en base a sus características. |
---|