Calidad de datos en logs de eventos para minería de procesos de negocios
Supervisor(es): Delgado, Andrea - Marotta, Adriana
Resumen:
La Calidad de Datos (CD) es un elemento clave en un proyecto de Ciencia de Datos (DS) para garantizar que sus resultados proveen información consistente y confiable. Tanto la minería de procesos como la minería de datos, como parte de DS, operan sobre grandes conjuntos de datos pertenecientes a la organización, llevando a cabo el esfuerzo de análisis. En la minería de procesos, la entrada básica es el log de eventos, que incluye las instancias de ejecución de un proceso, con sus eventos (actividades) ordenados, fechas de ejecución, responsables, entre otros datos. Estos datos son utilizados para descubrir modelos de procesos, chequear conformidad entre modelos existentes y datos de su ejecución, y extensión de modelos con información de la operativa diaria. Por otro lado, en la minería de datos se trabaja con datos organizacionales relacionados al dominio de la organización, como pueden ser clientes, ventas, pacientes, entre otros. El objetivo de esta disciplina es descubrir patrones y relaciones e información no conocida sobre los datos analizados. Este manejo separado de los datos impide a las organizaciones tener una visión completa de su operación diaria y evaluación correspondiente, probablemente ocultando información útil para mejorar sus procesos. A pesar de que existen varios enfoques de CD y modelos para datos organizacionales, y algunas propuestas de CD para datos de procesos de negocios, ninguno de ellos toma una visión integrada sobre los procesos y los datos organizacionales. En un trabajo previo se trabajó sobre la integración de datos de procesos y organizacionales, para realizar análisis más completos sobre la ejecución de procesos y datos. A partir de tal trabajo surge este proyecto, donde se presenta un modelo de calidad de datos llamado Business Process and Organizational Data Quality Model (BPODQM), el cual define específicamente dimensiones, factores y métricas para la evaluación de calidad de datos de procesos y organizacionales, para así en forma previa a realizar cualquier análisis, poder detectar problemas claves en los conjuntos de datos asociados a los procesos. A partir de esto se realizó el diseño, la implementación y documentación de un plug-in para la herramienta de minería de procesos ProM, el cual permite aplicar el modelo de calidad definido a un log de eventos que contenga datos de un proceso y datos organizacionales integrados. Se llevó a cabo un caso de estudio sobre un log de eventos con datos basados en un proceso de negocio real, al cual se le aplicó el modelo de calidad propuesto y se analizaron los problemas de calidad del mismo.
2022 | |
Modelo de Calidad de Datos Minería de procesos y Minería dedatos Data Science Datos de procesos Datos organizacionales integrados |
|
Español | |
Universidad de la República | |
COLIBRI | |
https://hdl.handle.net/20.500.12008/32538 | |
Acceso abierto | |
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
Sumario: | La Calidad de Datos (CD) es un elemento clave en un proyecto de Ciencia de Datos (DS) para garantizar que sus resultados proveen información consistente y confiable. Tanto la minería de procesos como la minería de datos, como parte de DS, operan sobre grandes conjuntos de datos pertenecientes a la organización, llevando a cabo el esfuerzo de análisis. En la minería de procesos, la entrada básica es el log de eventos, que incluye las instancias de ejecución de un proceso, con sus eventos (actividades) ordenados, fechas de ejecución, responsables, entre otros datos. Estos datos son utilizados para descubrir modelos de procesos, chequear conformidad entre modelos existentes y datos de su ejecución, y extensión de modelos con información de la operativa diaria. Por otro lado, en la minería de datos se trabaja con datos organizacionales relacionados al dominio de la organización, como pueden ser clientes, ventas, pacientes, entre otros. El objetivo de esta disciplina es descubrir patrones y relaciones e información no conocida sobre los datos analizados. Este manejo separado de los datos impide a las organizaciones tener una visión completa de su operación diaria y evaluación correspondiente, probablemente ocultando información útil para mejorar sus procesos. A pesar de que existen varios enfoques de CD y modelos para datos organizacionales, y algunas propuestas de CD para datos de procesos de negocios, ninguno de ellos toma una visión integrada sobre los procesos y los datos organizacionales. En un trabajo previo se trabajó sobre la integración de datos de procesos y organizacionales, para realizar análisis más completos sobre la ejecución de procesos y datos. A partir de tal trabajo surge este proyecto, donde se presenta un modelo de calidad de datos llamado Business Process and Organizational Data Quality Model (BPODQM), el cual define específicamente dimensiones, factores y métricas para la evaluación de calidad de datos de procesos y organizacionales, para así en forma previa a realizar cualquier análisis, poder detectar problemas claves en los conjuntos de datos asociados a los procesos. A partir de esto se realizó el diseño, la implementación y documentación de un plug-in para la herramienta de minería de procesos ProM, el cual permite aplicar el modelo de calidad definido a un log de eventos que contenga datos de un proceso y datos organizacionales integrados. Se llevó a cabo un caso de estudio sobre un log de eventos con datos basados en un proceso de negocio real, al cual se le aplicó el modelo de calidad propuesto y se analizaron los problemas de calidad del mismo. |
---|