Handling the Multi-Class Imbalance Problem using ECOC

Authors

  • Rosa Maria Valdovinos Rosas Universidad Autónoma del Estado de México
  • Rosalinda Abad Sánchez Universidad Autónoma del Estado de México
  • Roberto Alejo Tecnológico de Estudios Superiores de Jocotitlán.
  • Edgar Herrera Universidad Autónoma del Estado de México. Centro Universitario UAEM, Texoco.
  • Adrián Trueba Centro Universitario UAEM Texoco.

DOI:

https://doi.org/10.13053/cys-17-4-1430

Keywords:

Class imbalance, fusion, mixture of experts, error correcting output codes (ECOC).

Abstract

Imbalanced training sample means that one class is represented by a large number of examples while the other is represented by only a few. This problem may produce an important deterioration of the classifier performance, in particular with patterns belonging to the less represented classes. The majority of the studies in this area are oriented, mainly, to resolve problems with two classes. However, many real problems are represented by multiple classes, where it is more difficult to discriminate between them. The success of the Mixture of Experts (ME) strategy is based on the criterion of “divide and win”. The general process divides the global problem into smaller fragments which will be studied separately. In this way, the general model has few influences of the individual difficulties (of their members). In this paper we propose a strategy for handling the class imbalance problem for data sets with multiple classes. For that, we integrate a mixture of experts whose members will be trained as a part of the general problem and, in this way, will improve the behavior of the whole system. For dividing the problem we employ the called Error-correcting output codes (ECOC) methods, when the classes are codified in pairs, which are considered for training the mixture of experts. Experiments with real datasets demonstrate the viability of the proposed strategy.

Author Biographies

Rosa Maria Valdovinos Rosas, Universidad Autónoma del Estado de México

Profesor de tiempo completo. Doctora en Ciencias Computacionales. Los intereses de investigación se centran en el estudio de Reconocimiento de Patrones y Minería de datos con redes neuronales, algoritmos genéticos y métodos estadísticos no paramétricos.

Rosalinda Abad Sánchez, Universidad Autónoma del Estado de México

Maestra en Ciencias de la Computación, las líneas de investigación se orientan al tratamiento de complejidades de datos, como el desbalance en dos y múltiples clases.

Roberto Alejo, Tecnológico de Estudios Superiores de Jocotitlán.

Profesor de tiempo completo Doctor en Sistemas Informáticos Avanzados. Su área de investigación son las redes neuronales artificiales aplicadas al reconocimiento de  patrones.

Edgar Herrera, Universidad Autónoma del Estado de México. Centro Universitario UAEM, Texoco.

Profesor de asignatura en la Facultad de ingeniera. Doctor en Ciencias Nucleares. Los intereses de Investigación se centran en métodos estadísticos y probabilísticos.

Adrián Trueba, Centro Universitario UAEM Texoco.

Profesor de tiempo completo. Doctorado en Ciencias. Líneas de investigación. Bases de datos heterogéneas, reconocimiento de patrones, Sistemas de Información Geográfica

Published

2013-12-30