Desarrollo de clasificadores ensamblados robustos ante el problema de clases desbalanceadas en la clasificación multinstancia

Fecha

2015-06-26

Autores

Calderón Muro, César Carlos

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

Dentro del campo de estudio del aprendizaje automático, la clasificación multinstancia tiene como objetivo construir, a partir de un conjunto de ejemplos, un modelo matemático que permita clasificar objetos descritos por múltiples vectores de atributos. La clasificación sufre de varios problemas que afectan su desempeño siendo el problema de clases desbalanceadas el tratado en el presente trabajo. El problema de clases desbalanceadas ocurre cuando hay mucha diferencia en el tamaño de las clases y provoca que el modelo de aprendizaje inducido a partir de los datos no represente adecuadamente el concepto que se pretende aprender y consecuentemente incurra en muchos errores de clasificación. En la literatura existen varias formas de tratar este problema en el escenario simple-instancia, siendo la incorporación de técnicas de muestreo dentro de clasificadores ensamblados una de las más populares y eficaces. Los clasificadores ensamblados entrenan múltiples clasificadores base y combinan sus predicciones para clasificar una instancia de la cual no se conoce su clase. Estos presentan generalmente mejor capacidad predictiva que clasificadores individuales, siendo los algoritmos Bagging y Boosting dos de los más representativos. Debido a que el problema de clases desbalanceadas en la clasificación multinstancia es un área joven a la cual se le ha prestado poca atención y a que se conocen las ventajas utilizar clasificadores ensamblados, en la tesis se proponen varios algoritmos a partir de los algoritmos Bagging y Boosting que incorporan en su funcionamiento técnicas de muestreo para tratar el problema de clases desbalanceadas en el escenario multinstancia, Las pruebas experimentales validadas por métodos estadísticos mostraron que las soluciones propuestas mejoran significativamente la calidad de la clasificación y son competitivas con otras soluciones existentes en la literatura.
Inside of machine learning, the multi-instance clasification has as his main objective to build, from a set of examples, a mathematical model that allows to classify objects that are described by multiples attributes vectors. The classifi- cation suffers some troubles that affects his performance, being the imbalanced class problem the main objective of this papper. The imbalanced class problem occurs when exist a great difference in the class distributions and causes that the induced learning model from the set of examples do not present in a good way the concept that aims to learn and incur in many classification errors. Many ways to treat the imbalanced class problem has been found in the simple-instance context, being the introduction of sampling technics inside ensemble methods one of the most popular and effective. The ensemble methods train multiple base classifiers and combine his predic- tions to classify an unknow instance. This algorithms generally present a better predictive capacity than individual classifiers, being the Bagging and Boosting algorithms two of most representative. Because the imbalanced class problem inside the multi-instance classification is a young area that has received little attention and the advantages that presents the use of ensemble methods, the thesis propose a serie of algorithms from Bagging and Boosting that incorporates sampling methods in his body to treat the imbalanced class problem in the multi-instance context. The experimental tests validated by statistical methods shown that the solutions proposed improve significantly the quality of classification and they are competitive solutions with others of the state of art.

Descripción

Palabras clave

Muestreo, Clasificación, Multinstancia, Ensamble, Desbalanceadas, Bag- Ging, Boosting, Multi-Instance, Classification, Ensemble, Imbalanced

Citación