Métodos avanzados de preprocesamiento de datos para mitigar el problema de clases desbalanceadas en la clasificación multinstancia

dc.contributor.advisorSánchez Tarragó, Dánel
dc.contributor.authorBorges Jiménez, Jorge Luis
dc.coverage.spatial1016432en_US
dc.date.accessioned2017-03-20T19:39:05Z
dc.date.available2017-03-20T19:39:05Z
dc.date.issued2015-06-28
dc.description.abstractEl problema de clasificación es uno de los tipos de problema más importante que busca resolver el aprendizaje automático. Específicamente la clasificación multinstancia ha provocado gran interés debido fundamentalmente a su capacidad para modelar problemas con datos ambiguos y con la relaciones uno a muchos, tanto así que múltiples estudios empíricos han mostrado la superioridad del enfoque multinstancia sobre el tradicional. Uno de los problemas que afecta a la clasificación multinstancia es el problema del desbalance de clases que ocurre cuando hay mucha diferencia en el tamaño de las clases, provocando un modelo de aprendizaje erróneo a partir de los datos. Este problema ha recibido poca atención hasta el momento, y solo aparecen escasas discusiones sobre él y aisladas soluciones en la literatura. En la clasificación tradicional, uno de los métodos más usados para solucionar este problema consiste en modificar la distribución de los datos de entrenamiento a través de técnicas de muestreo para equilibrar el balance de las clases. El submuestreo de la clase mayoritaria y sobremuestreo de la clase minoritaria son técnicas de muestreo que equilibran el tamaño de las clases extrayendo y agregando datos respectivamente en conjuntos desbalanceados. La combinación de estas técnicas han mejorado la calidad de la clasificación en la clasificación tradicional. En esta tesis se implementa un método de preprocesamiento de datos basados en técnicas de muestreo que combina sobremuestreo de la clase minoritaria y submuestreo de la clase mayoritaria en la clasificación multinstancia. Las pruebas experimentales validadas por pruebas estadísticas demostraron que existen mejoras en la calidad de la clasificación en determinadas variantes del método. En la tesis también se modifica un algoritmo de preprocesamiento de datos multinstancia llamado MISMOTE que sobremuestrea la clase minoritaria produciendo ejemplos sintéticos. Se diseñaron varias alternativas al algoritmo original que lograron mejoras en la clasificación en conjuntos de datos que cumplen con determinados requisitos.en_US
dc.description.abstractThe problem of classification is one of the most important problem types that seeks to solve the machine learning. Specifically, the multi-instance classification has caused great interest mainly nbecause of its ability to model problems with ambiguous data and with one to many relationships, so much so that many empirical studies have shown the superiority of multi-instance over the traditional approach. One problem affecting the multi-instance learning is the class imbalanced problem that occurs when exist much difference in the size of classes, causing erroneous learning model from the data. This problem has received little attention so far, and only few discussions about it and isolated solutions in the literature appear. In the traditional classification, one of the most used methods to solve this problem is to change the distribution of the training data through sampling techniques to equalize the balance of classes. The sub-sampling the majority class and oversampling of the minority class are sampling techniques that balance class sizes by removing and adding respectively unbalanced data sets. The combination of these techniques have improved the quality of the classification in the traditional classification. This thesis presents a preprocessing method based on sampling techniques combining the minority class oversampling and undersampling of the majority class in the multi-instance data classification. Experimental evidence validated by statistical tests showed that there are improvements in the quality of the classification in certain variants of the method. In the thesis was modified an algorithm of multi-instance data preprocessing called MISMOTE that oversampled producing synthetic minority class examples. Several alternatives to the original algorithm were designed that shown improvements in classification process in some datasets that meet certain criteria.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento de Ciencias de la Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/7624
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectClasificaciónen_US
dc.subjectMultinstanciaen_US
dc.subjectDesbalanceen_US
dc.subjectSobremuestreoen_US
dc.subjectSubmuestreoen_US
dc.subjectMISMOTEen_US
dc.subject.otherAprendizaje Automáticoen_US
dc.subject.otherAlgoritmos de Clasificaciónen_US
dc.subject.otherTécnicas de Mediciónen_US
dc.titleMétodos avanzados de preprocesamiento de datos para mitigar el problema de clases desbalanceadas en la clasificación multinstanciaen_US
dc.typeThesisen_US
dc.type.thesisbacheloren_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Tesis Jorge Luis Borges Jimenez.pdf
Tamaño:
1.26 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: