Aprendizaje estadístico en educación : Una propuesta de modelización para carreras de grado en Ingeniería.

Alessandrini López, Daniel Eduardo

Supervisor(es): Bermolen, Paola - Bourel, Mathías

Resumen:

El objetivo del presente trabajo es intentar predecir, con el menor error posible, qué ocurre con estudiantes al ingreso de las carreras de grado de Facultad de Ingeniería, respecto a su progreso o eventual desvinculación. Para ello se combinan dos fuentes de datos: por un lado características sociodemográficas disponibles de cada alumno al ingreso y por otro una evaluación de conocimientos y habilidades utilizada desde hace más de una década: la Herramienta Diagnóstica al Ingreso, diseñada, mantenida y analizada por distintas entidades dentro de la Facultad. Para lograr una mirada más general al problema, se utilizaron simultáneamente seis modelos muy usados en la práctica dentro del ambiente del Aprendizaje Automático, junto con tres tipos de Modelos de Consenso, que surgen de agregar de una cierta manera al resto de los modelos. Dentro de un mismo "loop" se generaron distintos conjuntos de entrenamiento y prueba, y se ajustaron los modelos a estos, mediante relaciones aditivas entre las variables explicativas y las dicotómicas de interés (rendimiento y desvinculación). Esta -abundante- información fue resumida en distintas medidas que surgen de una matriz de confusión o evaluación, como p.ej. la sensibilidad o el error general cometido al predecir el resultado de cada variable. Con ello se construye un ranking de fórmulas para determinar cuáles son más significativas, no solo para comparar los resultados por modelo sino también para estudiar como aciertan o erran los mismos. Para este último punto se utiliza el Análisis de Correspondencia Múltiple, proyectando variables e individuos en espacios comunes. Para facilitar el trabajo, se creó un paquete en el software R que combina funcionalidades existentes con otras propias para generar, resumir y analizar toda la información necesaria. Se destacaron como variables explicativas, independientemente de la variable a predecir, los resultados en Matemática de la HDI y la edad al ingreso, y en menor medida el lugar de origen y subsistema de educación preuniversitaria. Además, se identificaron grupos de acierto y error para los distintos individuos, ayudando así a una caracterización más afinada de los alumnos ingresantes. Se puede afirmar que, visto puramente desde lo académico, la herramienta diseñada (reuniendo datos de pruebas diagnósticas, datos sociodemográficos y resultados de modelos de predicción) puede ser vista como una "prueba de tamizado", en donde con altas chances se puede identificar a estudiantes en dificultades con sus estudios.


Detalles Bibliográficos
2019
Herramienta diagnóstica
Aprendizaje automático
Modelos de consenso
Correspondencia múltiple
R
Español
Universidad de la República
COLIBRI
https://hdl.handle.net/20.500.12008/24812
Acceso abierto
Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Resumen:
Sumario:El objetivo del presente trabajo es intentar predecir, con el menor error posible, qué ocurre con estudiantes al ingreso de las carreras de grado de Facultad de Ingeniería, respecto a su progreso o eventual desvinculación. Para ello se combinan dos fuentes de datos: por un lado características sociodemográficas disponibles de cada alumno al ingreso y por otro una evaluación de conocimientos y habilidades utilizada desde hace más de una década: la Herramienta Diagnóstica al Ingreso, diseñada, mantenida y analizada por distintas entidades dentro de la Facultad. Para lograr una mirada más general al problema, se utilizaron simultáneamente seis modelos muy usados en la práctica dentro del ambiente del Aprendizaje Automático, junto con tres tipos de Modelos de Consenso, que surgen de agregar de una cierta manera al resto de los modelos. Dentro de un mismo "loop" se generaron distintos conjuntos de entrenamiento y prueba, y se ajustaron los modelos a estos, mediante relaciones aditivas entre las variables explicativas y las dicotómicas de interés (rendimiento y desvinculación). Esta -abundante- información fue resumida en distintas medidas que surgen de una matriz de confusión o evaluación, como p.ej. la sensibilidad o el error general cometido al predecir el resultado de cada variable. Con ello se construye un ranking de fórmulas para determinar cuáles son más significativas, no solo para comparar los resultados por modelo sino también para estudiar como aciertan o erran los mismos. Para este último punto se utiliza el Análisis de Correspondencia Múltiple, proyectando variables e individuos en espacios comunes. Para facilitar el trabajo, se creó un paquete en el software R que combina funcionalidades existentes con otras propias para generar, resumir y analizar toda la información necesaria. Se destacaron como variables explicativas, independientemente de la variable a predecir, los resultados en Matemática de la HDI y la edad al ingreso, y en menor medida el lugar de origen y subsistema de educación preuniversitaria. Además, se identificaron grupos de acierto y error para los distintos individuos, ayudando así a una caracterización más afinada de los alumnos ingresantes. Se puede afirmar que, visto puramente desde lo académico, la herramienta diseñada (reuniendo datos de pruebas diagnósticas, datos sociodemográficos y resultados de modelos de predicción) puede ser vista como una "prueba de tamizado", en donde con altas chances se puede identificar a estudiantes en dificultades con sus estudios.