Métodos avanzados de preprocesamiento de datos para mitigar el problema de clases desbalanceadas en la clasificación multinstancia

Borges Jiménez, Jorge Luis

Métodos avanzados de preprocesamiento de datos para mitigar el problema de clases desbalanceadas en la clasificación multinstancia

dc.contributor.advisor	Sánchez Tarragó, Dánel
dc.contributor.author	Borges Jiménez, Jorge Luis
dc.coverage.spatial	1016432	en_US
dc.date.accessioned	2017-03-20T19:39:05Z
dc.date.available	2017-03-20T19:39:05Z
dc.date.issued	2015-06-28
dc.description.abstract	El problema de clasificación es uno de los tipos de problema más importante que busca resolver el aprendizaje automático. Específicamente la clasificación multinstancia ha provocado gran interés debido fundamentalmente a su capacidad para modelar problemas con datos ambiguos y con la relaciones uno a muchos, tanto así que múltiples estudios empíricos han mostrado la superioridad del enfoque multinstancia sobre el tradicional. Uno de los problemas que afecta a la clasificación multinstancia es el problema del desbalance de clases que ocurre cuando hay mucha diferencia en el tamaño de las clases, provocando un modelo de aprendizaje erróneo a partir de los datos. Este problema ha recibido poca atención hasta el momento, y solo aparecen escasas discusiones sobre él y aisladas soluciones en la literatura. En la clasificación tradicional, uno de los métodos más usados para solucionar este problema consiste en modificar la distribución de los datos de entrenamiento a través de técnicas de muestreo para equilibrar el balance de las clases. El submuestreo de la clase mayoritaria y sobremuestreo de la clase minoritaria son técnicas de muestreo que equilibran el tamaño de las clases extrayendo y agregando datos respectivamente en conjuntos desbalanceados. La combinación de estas técnicas han mejorado la calidad de la clasificación en la clasificación tradicional. En esta tesis se implementa un método de preprocesamiento de datos basados en técnicas de muestreo que combina sobremuestreo de la clase minoritaria y submuestreo de la clase mayoritaria en la clasificación multinstancia. Las pruebas experimentales validadas por pruebas estadísticas demostraron que existen mejoras en la calidad de la clasificación en determinadas variantes del método. En la tesis también se modifica un algoritmo de preprocesamiento de datos multinstancia llamado MISMOTE que sobremuestrea la clase minoritaria produciendo ejemplos sintéticos. Se diseñaron varias alternativas al algoritmo original que lograron mejoras en la clasificación en conjuntos de datos que cumplen con determinados requisitos.	en_US
dc.description.abstract	The problem of classification is one of the most important problem types that seeks to solve the machine learning. Specifically, the multi-instance classification has caused great interest mainly nbecause of its ability to model problems with ambiguous data and with one to many relationships, so much so that many empirical studies have shown the superiority of multi-instance over the traditional approach. One problem affecting the multi-instance learning is the class imbalanced problem that occurs when exist much difference in the size of classes, causing erroneous learning model from the data. This problem has received little attention so far, and only few discussions about it and isolated solutions in the literature appear. In the traditional classification, one of the most used methods to solve this problem is to change the distribution of the training data through sampling techniques to equalize the balance of classes. The sub-sampling the majority class and oversampling of the minority class are sampling techniques that balance class sizes by removing and adding respectively unbalanced data sets. The combination of these techniques have improved the quality of the classification in the traditional classification. This thesis presents a preprocessing method based on sampling techniques combining the minority class oversampling and undersampling of the majority class in the multi-instance data classification. Experimental evidence validated by statistical tests showed that there are improvements in the quality of the classification in certain variants of the method. In the thesis was modified an algorithm of multi-instance data preprocessing called MISMOTE that oversampled producing synthetic minority class examples. Several alternatives to the original algorithm were designed that shown improvements in classification process in some datasets that meet certain criteria.	en_US
dc.description.sponsorship	Facultad de Matemática, Física y Computación. Departamento de Ciencias de la Computación	en_US
dc.description.status	non-published	en_US
dc.identifier.uri	https://dspace.uclv.edu.cu/handle/123456789/7624
dc.language.iso	es	en_US
dc.publisher	Universidad Central “Marta Abreu” de Las Villas	en_US
dc.rights	Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 License	en_US
dc.subject	Clasificación	en_US
dc.subject	Multinstancia	en_US
dc.subject	Desbalance	en_US
dc.subject	Sobremuestreo	en_US
dc.subject	Submuestreo	en_US
dc.subject	MISMOTE	en_US
dc.subject.other	Aprendizaje Automático	en_US
dc.subject.other	Algoritmos de Clasificación	en_US
dc.subject.other	Técnicas de Medición	en_US
dc.title	Métodos avanzados de preprocesamiento de datos para mitigar el problema de clases desbalanceadas en la clasificación multinstancia	en_US
dc.type	Thesis	en_US
dc.type.thesis	bachelor	en_US

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Tesis Jorge Luis Borges Jimenez.pdf
Tamaño:: 1.26 MB
Formato:: Adobe Portable Document Format

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 3.33 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Tesis de Pregrado - Licenciatura en Ciencias de la Computación