GMLKNN: modelo basado en instancias para el aprendizaje multi-etiqueta utilizando la distancia VDM
Archivos
Fecha
2015-07-05
Autores
Mariño Rivero, Adis Perla
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación. Departamento Ciencias de la Computación
Resumen
During the last years, multi-label learning has gained considerable interest among researchers
due to the large number of modern applications these data types present. The lazy learning
algorithms MLkNN, BRkNN and IBLR-ML use the traditional k –NN, but oriented to work with
multi - label data, its generalization ability depends largely on the definition of the distance function
used to compare the test instance and the trained ones. The traditional k -NN algorithm uses Heom
as distance function, it only considers a superficial difference between the compared objects and it
is too simple to handle nominal attributes as it does not use the additional information provided by
their values, while the VDM function reduces the impact of irrelevant attributes in the classification
accuracy without the need of pre - processing the data. In this work we present a model called
GMLkNN which uses the VDM distance in the process of finding the neighbors, this model is
compared with the lazy learning algorithms mentioned before and it i sable to obtain better results
for 12 of the 15 datasets used for the experiments. GMLkNN is redefined taking into account the
dependency between labels, a valuable information that was lost earlier and it is compared with
IBLR-ML, which also has this feature and its performance is superior to the latter model. In a third
phase noise is inserted into the data sets and it is appreciated how the GMLkNN model is quite
robust and stable.
En los últimos años el aprendizaje multi-etiqueta ha cobrado gran interés en los investigadores debido a la gran cantidad de aplicaciones modernas que presentan estos tipos de datos. Los algoritmos perezosos MLkNN, BRkNN y IBLR-ML utilizan el tradicional kNN pero dirigido al trabajo con datos multi-etiqueta, su capacidad de generalización depende en gran medida de la definición de la función de distancia que se utiliza para comparar la instancia de prueba y las instancias entrenadas. El algoritmo kNN utiliza HEOM como función de distancia, esta solo considera una superficial diferencia entre los objetos comparados y es demasiado simplista para el manejo de atributos nominales ya que no hace uso de la información adicional proporcionada por los valores de atributos nominales que pueden ayudar en la generalización mientras que la función VDM reduce el impacto de atributos irrelevantes en la precisión de la clasificación sin necesidad del pre-procesamiento de los datos además de tener en cuenta la relación de cada rasgo con el rasgo objetivo. En este trabajo se presenta un modelo llamado GMLkNN el cual utiliza la distancia VDM en la búsqueda de los vecinos, este se compara con los algoritmos perezosos dichos anteriormente y obtiene mejores resultados en 12 de los 15 conjuntos de datos de la experimentación. Se redefine GMLkNN teniendo en cuenta la dependencia entre las etiquetas, una valiosa información que se perdía anteriormente y se compara con IBLR-ML el cual también tiene esta característica y su comportamiento es superior a este último modelo. En una tercera etapa se inserta ruido en los conjuntos de datos y se aprecia como el modelo GMLkNN es bastante robusto y estable.
En los últimos años el aprendizaje multi-etiqueta ha cobrado gran interés en los investigadores debido a la gran cantidad de aplicaciones modernas que presentan estos tipos de datos. Los algoritmos perezosos MLkNN, BRkNN y IBLR-ML utilizan el tradicional kNN pero dirigido al trabajo con datos multi-etiqueta, su capacidad de generalización depende en gran medida de la definición de la función de distancia que se utiliza para comparar la instancia de prueba y las instancias entrenadas. El algoritmo kNN utiliza HEOM como función de distancia, esta solo considera una superficial diferencia entre los objetos comparados y es demasiado simplista para el manejo de atributos nominales ya que no hace uso de la información adicional proporcionada por los valores de atributos nominales que pueden ayudar en la generalización mientras que la función VDM reduce el impacto de atributos irrelevantes en la precisión de la clasificación sin necesidad del pre-procesamiento de los datos además de tener en cuenta la relación de cada rasgo con el rasgo objetivo. En este trabajo se presenta un modelo llamado GMLkNN el cual utiliza la distancia VDM en la búsqueda de los vecinos, este se compara con los algoritmos perezosos dichos anteriormente y obtiene mejores resultados en 12 de los 15 conjuntos de datos de la experimentación. Se redefine GMLkNN teniendo en cuenta la dependencia entre las etiquetas, una valiosa información que se perdía anteriormente y se compara con IBLR-ML el cual también tiene esta característica y su comportamiento es superior a este último modelo. En una tercera etapa se inserta ruido en los conjuntos de datos y se aprecia como el modelo GMLkNN es bastante robusto y estable.
Descripción
Palabras clave
Aplicaciones, Modelos, Algoritmos, Algoritmo kNN, Algoritmos Perezosos