Machine Learning for the Prediction of Anemia in Children Under 5 Years of Age by Analyzing their Nutritional Status Using Data Mining

Authors

  • Alexander J. Marcos Valdez Universidad Nacional Mayor de San Marcos
  • Eduardo G. Navarro Ortiz Universidad Nacional Mayor de San Marcos
  • Rodrigo E. Quinteros Peralta Universidad Nacional Mayor de San Marcos
  • Juan J. Tirado Julca Universidad Nacional Mayor de San Marcos
  • David F. Valentin Ricaldi Universidad Nacional Mayor de San Marcos
  • Hugo D. Calderon Vilca Universidad Nacional Mayor de San Marcos

DOI:

https://doi.org/10.13053/cys-27-3-4315

Keywords:

Anemia, predictive model, malnutrition, children, data mining

Abstract

One of the main public health problems is child malnutrition, since it negatively affects the individual throughout his life, limits the development of society and makes it difficult to eradicate poverty. The first objective of this research is to apply data mining techniques for preprocessing, cleaning, reduction and transformation to a data lake that has allowed analyzing anemia in children under 5 years of age, the second objective is to apply Machine Learning algorithms to obtain the best model to predict anemia in children under 5 years of age. The data set was extracted from the open data platform of the government of Peru that corresponds to South Lima, North Lima, East Lima, Central Lima and rural Lima, which collected a total of 138,369 instances and 36 variables of which 30 are categorical and 6 numeric, being an unbalanced data set. In order to obtain the best predictor variables, the Anova F-test and Chi Square filters were used, and it was possible to reduce them to 10 variables, cases were also carried out without considering one of the filters and both filters.To find the best prediction model, the algorithms have been tested: decision tree, logistic regression, K nearest neighbors, random forest and naive bayes. As a result, we show that the best algorithm to predict anemia in children under 5 years of age is the Naive Bayes algorithm with the highest recall of 74%, precision of 43% and accuracy of 70%.

Author Biographies

Alexander J. Marcos Valdez, Universidad Nacional Mayor de San Marcos

* Profesor de la Universidad Nacional Mayor de San Marcos UNMSM, cursos que dicta: Redes Neuronales, Inteligencia Artificial y Tesis. * Profesor de la Universidad Peruana de Ciencias Aplicadas UPC, cursos que dicta: Inteligencia Artificial y Seminario de Investigación Científica. * Dedicado a la investigación científica en la disciplina Inteligencia Artificial en el área de Aprendizaje Máquina y Procesamiento de Lenguaje Natural. EXPERIENCIA: * Docente de la maestría en Informática de la Universidad Nacional del Altiplano Puno UNAP. * Director de Investigación de la Universidad Nacional Micaela Bastidas de Apurímac UNAMBA. * Coordinador de la Maestría en Informática Sede Abancay de la UNAP. * Director de Escuela Académica Profesional de Ingeniería Informática y Sistemas de la UNAMBA. * Jefe de la Oficina de Tecnologías de la Información de la UNAMBA. * Docente Pre grado de la UNAMBA. * Docente Pre grado de la Universidad Tecnológica de los Andes UTEA.

Eduardo G. Navarro Ortiz, Universidad Nacional Mayor de San Marcos

Ingeniería de Software de la Universidad Nacional Mayor de San Marcos con experiencia en el preprocesamiento de datos e implementación de modelos simples de machine learning en el lenguaje Python

Rodrigo E. Quinteros Peralta, Universidad Nacional Mayor de San Marcos

Ingeniería de Software de la Universidad Nacional Mayor de San Marcos con experiencia en el manejo del lenguaje de programación Python especialmente en el desarrollo de modelos Machine Learning, Inteligencia Artificial y Desarrollo Backend.

Juan J. Tirado Julca, Universidad Nacional Mayor de San Marcos

Ingeniería de Software de la Universidad Nacional Mayor de San Marcos con experiencia en el lenguaje Python en la realización de preprocesamiento de datos, implementación de modelos simples de clasificación e implementación en modelos simples de Regresión, con habilidad para coordinar y trabajar en equipo

David F. Valentin Ricaldi, Universidad Nacional Mayor de San Marcos

Ingeniería de Software de la Universidad Nacional Mayor de San Marcos con conocimiento en diseño de modelos sencillos de Machine Learning y desarrollo de software con un perfil orientado al desarrollo de trabajo colaborativo e interdisciplinario

Hugo D. Calderon Vilca, Universidad Nacional Mayor de San Marcos

Hugo D. Calderon-Vilca PhD in Computer Science, research professor of the "Artificial Intelligence" Group of the Universidad Nacional Mayor de San Marcos - Peru, advisor of undergraduate and graduate thesis projects related to Neural Networks, Machine Learning and Natural Language Processing. Professor of doctoral programs in other universities.

Published

2023-09-26

Issue

Section

Articles