Implementación de algoritmos de compresión de etiquetas en la biblioteca MULAN
Archivos
Fecha
2018-06-20
Autores
Ortega Valdés, Beatriz
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Central “Marta Abreu” de Las Villas
Resumen
El presente trabajo comprende el estudio de algoritmos de compresión de etiquetas para la clasificación multietiqueta y su incorporación a la biblioteca MULAN. Las motivaciones de esta tesis están en la aparición de nuevos métodos de clasificación multietiqueta que no han sido incorporados a plataformas de código abierto y en la cantidad de aplicaciones existentes de dicho tipo de clasificación, dado por el desarrollo tecnológico exponencial de ramas tan diversas de la sociedad como diagnóstico médico y categorización de textos. Durante el desarrollo de la tesis se implementan tres algoritmos en MULAN el PLST, CPLST y RLC. Luego se evalúan estos métodos con 15 conjuntos de datos multietiquetas existentes en la literatura. Finalmente, a partir de diferentes métricas se realiza una comparación de estos algoritmos con el modelo de Relevancia Binaria, donde se observa la superioridad de estos métodos, siendo RLC el más robusto entre ellos.
The present work covers the study of label compression methods and its incorporation to MULAN library. The thesis incentives were the appearance of new multilabel classification methods which had not been included to any open source library; coupled with the increasing amount of applications at areas so different as medical diagnosis and text categorization. During its development, 3 algorithms were implemented at MULAN: PLST, CPLST y RLC. Then, these algorithms were evaluated across 15 datasets downloaded from MULAN. These methods validated to be effectives strategies to reduce time cost and improve classification performance simultaneously, compared with the classic Binary Relevance model. RLC is the most robust between them.
The present work covers the study of label compression methods and its incorporation to MULAN library. The thesis incentives were the appearance of new multilabel classification methods which had not been included to any open source library; coupled with the increasing amount of applications at areas so different as medical diagnosis and text categorization. During its development, 3 algorithms were implemented at MULAN: PLST, CPLST y RLC. Then, these algorithms were evaluated across 15 datasets downloaded from MULAN. These methods validated to be effectives strategies to reduce time cost and improve classification performance simultaneously, compared with the classic Binary Relevance model. RLC is the most robust between them.
Descripción
Palabras clave
Multietiqueta, Transformación de Problemas, Método de Compresión, Inteligencia Artificial