Métodos avanzados de preprocesamiento de datos para mitigar el problema de clases desbalanceadas en la clasificación multinstancia

Fecha

2015-06-28

Autores

Borges Jiménez, Jorge Luis

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

El problema de clasificación es uno de los tipos de problema más importante que busca resolver el aprendizaje automático. Específicamente la clasificación multinstancia ha provocado gran interés debido fundamentalmente a su capacidad para modelar problemas con datos ambiguos y con la relaciones uno a muchos, tanto así que múltiples estudios empíricos han mostrado la superioridad del enfoque multinstancia sobre el tradicional. Uno de los problemas que afecta a la clasificación multinstancia es el problema del desbalance de clases que ocurre cuando hay mucha diferencia en el tamaño de las clases, provocando un modelo de aprendizaje erróneo a partir de los datos. Este problema ha recibido poca atención hasta el momento, y solo aparecen escasas discusiones sobre él y aisladas soluciones en la literatura. En la clasificación tradicional, uno de los métodos más usados para solucionar este problema consiste en modificar la distribución de los datos de entrenamiento a través de técnicas de muestreo para equilibrar el balance de las clases. El submuestreo de la clase mayoritaria y sobremuestreo de la clase minoritaria son técnicas de muestreo que equilibran el tamaño de las clases extrayendo y agregando datos respectivamente en conjuntos desbalanceados. La combinación de estas técnicas han mejorado la calidad de la clasificación en la clasificación tradicional. En esta tesis se implementa un método de preprocesamiento de datos basados en técnicas de muestreo que combina sobremuestreo de la clase minoritaria y submuestreo de la clase mayoritaria en la clasificación multinstancia. Las pruebas experimentales validadas por pruebas estadísticas demostraron que existen mejoras en la calidad de la clasificación en determinadas variantes del método. En la tesis también se modifica un algoritmo de preprocesamiento de datos multinstancia llamado MISMOTE que sobremuestrea la clase minoritaria produciendo ejemplos sintéticos. Se diseñaron varias alternativas al algoritmo original que lograron mejoras en la clasificación en conjuntos de datos que cumplen con determinados requisitos.
The problem of classification is one of the most important problem types that seeks to solve the machine learning. Specifically, the multi-instance classification has caused great interest mainly nbecause of its ability to model problems with ambiguous data and with one to many relationships, so much so that many empirical studies have shown the superiority of multi-instance over the traditional approach. One problem affecting the multi-instance learning is the class imbalanced problem that occurs when exist much difference in the size of classes, causing erroneous learning model from the data. This problem has received little attention so far, and only few discussions about it and isolated solutions in the literature appear. In the traditional classification, one of the most used methods to solve this problem is to change the distribution of the training data through sampling techniques to equalize the balance of classes. The sub-sampling the majority class and oversampling of the minority class are sampling techniques that balance class sizes by removing and adding respectively unbalanced data sets. The combination of these techniques have improved the quality of the classification in the traditional classification. This thesis presents a preprocessing method based on sampling techniques combining the minority class oversampling and undersampling of the majority class in the multi-instance data classification. Experimental evidence validated by statistical tests showed that there are improvements in the quality of the classification in certain variants of the method. In the thesis was modified an algorithm of multi-instance data preprocessing called MISMOTE that oversampled producing synthetic minority class examples. Several alternatives to the original algorithm were designed that shown improvements in classification process in some datasets that meet certain criteria.

Descripción

Palabras clave

Clasificación, Multinstancia, Desbalance, Sobremuestreo, Submuestreo, MISMOTE

Citación