Mejoras al método ML-kNN utilizando la teoría de los conjuntos aproximados

Fecha

2018-06-22

Autores

Pérez Hernández, Gabriela

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

La clasificación multi-etiqueta es un campo de creciente actualidad dentro del aprendizaje automatizado, hace referencia al problema de relacionar un objeto con varias etiquetas a la vez. La misma ha sido tratada desde el enfoque de la transformación de problemas y la adaptación de algoritmos. Multi-Label k-Nearest Neighbour (ML-kNN) es un algoritmo que a pesar de su sencillez ha reportado buenos resultados en la solución de problemas multi-etiquetas, sin embargo, no ha sido adaptado para tratar problemas con presencia de inconsistencia. En este trabajo se propone una adaptación al algoritmo ML-kNN basada en la Teoría de los Conjuntos Aproximados Extendida para dar solución a esta problemática. La modificación fundamental está en la inclusión de un algoritmo para el cálculo de los pesos a partir de la metaheurística Particle Swarm Optimization (PSO) y la Medida de Calidad de la Similaridad. Esta nueva propuesta fue incorporada a la biblioteca Mulan. En el estudio experimental realizado se demuestra que la nueva propuesta supera en eficacia al algoritmo ML-kNN, en particular en conjuntos de datos con presencia de inconsistencia.
Multi-label classification refers to the problem of associating an object with multiple labels. This problem has been successfully addressed from the perspective of problem transformation and adaptation of algorithms. Multi-Label k-Nearest Neighbor (ML-kNN) is a lazy learner that has reported excellent results, still there is room for improvements. In this paper, we propose a modification to the MLkNN algorithm for the solution to problems of multi-label classification based on the Extended Rough Set Theory. More explicitly, the key modifications are focused in obtaining the relevance of the attributes when computing the distance between two instances, which are obtained using a heuristic search method and a target function based on the quality of the similarity. Experimental results using synthetic dataset have shown promising prediction rates. It is worth mentioning the ability of our proposal to deal with inconsistent scenarios, a main shortcoming present in most state-of-the-art multi-label classification algorithms.

Descripción

Palabras clave

Multietiqueta, Adaptación de Algoritmos, Inconsistencia, Inteligencia Artificial

Citación