GMLKNN: modelo basado en instancias para el aprendizaje multi-etiqueta utilizando la distancia VDM

Fecha

2015-07-05

Autores

Mariño Rivero, Adis Perla

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación. Departamento Ciencias de la Computación

Resumen

During the last years, multi-label learning has gained considerable interest among researchers due to the large number of modern applications these data types present. The lazy learning algorithms MLkNN, BRkNN and IBLR-ML use the traditional k –NN, but oriented to work with multi - label data, its generalization ability depends largely on the definition of the distance function used to compare the test instance and the trained ones. The traditional k -NN algorithm uses Heom as distance function, it only considers a superficial difference between the compared objects and it is too simple to handle nominal attributes as it does not use the additional information provided by their values, while the VDM function reduces the impact of irrelevant attributes in the classification accuracy without the need of pre - processing the data. In this work we present a model called GMLkNN which uses the VDM distance in the process of finding the neighbors, this model is compared with the lazy learning algorithms mentioned before and it i sable to obtain better results for 12 of the 15 datasets used for the experiments. GMLkNN is redefined taking into account the dependency between labels, a valuable information that was lost earlier and it is compared with IBLR-ML, which also has this feature and its performance is superior to the latter model. In a third phase noise is inserted into the data sets and it is appreciated how the GMLkNN model is quite robust and stable.
En los últimos años el aprendizaje multi-etiqueta ha cobrado gran interés en los investigadores debido a la gran cantidad de aplicaciones modernas que presentan estos tipos de datos. Los algoritmos perezosos MLkNN, BRkNN y IBLR-ML utilizan el tradicional kNN pero dirigido al trabajo con datos multi-etiqueta, su capacidad de generalización depende en gran medida de la definición de la función de distancia que se utiliza para comparar la instancia de prueba y las instancias entrenadas. El algoritmo kNN utiliza HEOM como función de distancia, esta solo considera una superficial diferencia entre los objetos comparados y es demasiado simplista para el manejo de atributos nominales ya que no hace uso de la información adicional proporcionada por los valores de atributos nominales que pueden ayudar en la generalización mientras que la función VDM reduce el impacto de atributos irrelevantes en la precisión de la clasificación sin necesidad del pre-procesamiento de los datos además de tener en cuenta la relación de cada rasgo con el rasgo objetivo. En este trabajo se presenta un modelo llamado GMLkNN el cual utiliza la distancia VDM en la búsqueda de los vecinos, este se compara con los algoritmos perezosos dichos anteriormente y obtiene mejores resultados en 12 de los 15 conjuntos de datos de la experimentación. Se redefine GMLkNN teniendo en cuenta la dependencia entre las etiquetas, una valiosa información que se perdía anteriormente y se compara con IBLR-ML el cual también tiene esta característica y su comportamiento es superior a este último modelo. En una tercera etapa se inserta ruido en los conjuntos de datos y se aprecia como el modelo GMLkNN es bastante robusto y estable.

Descripción

Palabras clave

Aplicaciones, Modelos, Algoritmos, Algoritmo kNN, Algoritmos Perezosos

Citación

Descargar Referencia Bibliográfica