La deserción estudiantil: ¿Cómo abordarla desde la ciencia de datos?

José Espinoza
28 ago 2025
4 min de lectura

Actualizado: 1 sept 2025

La interrupción de estudios es un problema que afecta, no solo al sistema educativo básico, sino al superior a nivel mundial. De acuerdo al Minedu (2024), en un informe de la Sunedu del 2022 y con información del ENAHO del mismo año, 17.6% de los estudiantes abandonaron sus estudios debido a que sus padres no contaban con estudios superiores y 14% cuyos padres tenían estudios superiores completos.

Algo más grave que el problema anterior, es lo que se conoce como deserción estudiantil, existiendo varias definiciones para esta. Tinto (citado en Viale, 2014) afirma que la deserción es una situación en la que un estudiante no logra concretar sus proyectos educativos.

El primer año de estudios ha sido detectado como crítico en términos de deserción y un tercio de estos abandonan la universidad de acuerdo a Feldman (citado en Fernández & Silva, 2014) y, por otra parte, Reason (citado en Fernández & Silva, 2014) afirma que esto llega a ser el 62%. Braxton (citado en Fernández & Silva, 2014) concluyó que las características preuniversitarias influyen de forma directa en que un estudiante abandone la universidad.

Por ello, es importante que las instituciones educativas puedan detectar los factores que determinan que un estudiante opte por no continuar con sus estudios, siendo la ciencia de datos una manera apropiada para hacerlo a través de la predicción.

Metodología propuesta para la creación de un modelo de deserción estudiantil

Mediante una metodología basada en ciencia de datos, planteé una solución que tenía como objetivo principal pronosticar si un estudiante desertará o no en el 2024 en Tecsup implementando para ello distintos modelos de clasificación y elegir el mejor, además, de identificar cuáles son las variables relevantes que causan la deserción estudiantil.

El alcance de este estudio es descriptivo; el diseño es no experimental, transversal y descriptivo. La población está conformada por 38 835 registros de estudiantes en el periodo 2019-2022 con información de tipo personal, académica, financiera, entre las más importantes; no se llevó a cabo un muestreo para poder contar con la mayor cantidad de datos posibles y obtener mayor precisión en la predicción.

Se usaron técnicas estadísticas como mapa de calor, histograma, gráfico de distribución, gráfica de cajas, gráfico de barras, gráfico de barras dobles y tablas; se implementaron ocho distintos modelos de clasificación, mediante Python a través de la aplicación web Jupyter Notebook para su procesamiento.

Resultados más importantes

Como parte de los resultados más destacados se encontró una alta correlación existente (0.92) entre las variables cantidad de cursos cursados y cantidad de cursos aprobados, por lo cual se procedió a eliminar la primera debido que es la suma de la cantidad de cursos aprobados y cursos desaprobados.

Se llevó a cabo un proceso de discretización para las variables cantidad de cursos aprobados, cantidad de cursos desaprobados, edad y estado de pago de pensión a tiempo quedando al final con 4, 4, 9 y 2 categorías, respectivamente. Del total de 50 variables numéricas que se obtuvieron luego de un proceso de dummización se eligieron 36 de estas como las más relevantes en la deserción.

De los ocho modelos de clasificación propuestos (regresión logística, k-NN, árbol de decisión, random forest, XGBoost, LightGBM, CatBoost y red neuronal multicapa), finalmente se eligió el LightGBM con un valor de accuracy en el conjunto de entrenamiento de 0.9512 y un valor de accuracy en el conjunto de prueba de 0.8892.

Diagrama de barras doble de los accuracy de entrenamiento y prueba para los diferentes modelos de clasificación de estudiantes de Tecsup durante el periodo 2019-2022

Conclusión

Luego del análisis de resultados, se consideró al modelo LightGBM como uno bueno para pronosticar la deserción debido a su alta capacidad de generalización por su alto valor de accuracy en el conjunto de prueba y la no existencia de sobreajuste por su mínima diferencia entre los valores de accurary en el conjunto de entrenamiento y prueba (0.0619). Además, este modelo posee ventajas como: mayor velocidad de entrenamiento, menor uso de memoria y mayor accuracy en comparación con otros modelos de clasificación.

Como variables más influyentes para pronosticar la deserción tenemos: promedio general, semestres (menos el 2022-2), sede (menos Lima), ciclo, sexo, curso reprobado por inasistencia, estado de aprobado, edad (menos los que tienen de 30 a 59 años), estado de pago de matrícula a tiempo, estado de pago de pensión a tiempo, cursos aprobados (menos los que han aprobado de 7 a 9) y cursos desaprobados.

A pesar de que se utilizaron datos del periodo 2019-2022, los resultados fueron bastante prometedores, pudiendo abordar esto en un trabajo futuro para encontrar un modelo más preciso.

Referencias

[1] Fernández, X., & Silva, E. (2014). Deserción estudiantil universitaria en el primer semestre. El caso de una institución de educación superior ecuatoriana. Cuadernos del Contrato Social por la Educación, 34-48.

[2] Minedu. (2024). Resolución Viceministerial. Obtenido de Plataforma del Estado Peruano: https://cdn.www.gob.pe/uploads/document/file/6894408/5957002-rvm_n-_095-2024-minedu.pdf

[3] Viale, H. (2014). Una aproximación teórica a la deserción estudiantil universitaria. Revista Digital de Investigación en Docencia Universitaria, 59-75.

Blog de Innovación Docente

La deserción estudiantil: ¿Cómo abordarla desde la ciencia de datos?

Metodología propuesta para la creación de un modelo de deserción estudiantil

Resultados más importantes

Conclusión

Referencias

Entradas recientes