Agrupamiento en problemas de tipo multi-instancias

Fecha

2018-06-18

Autores

Viña Espinosa, Adrian Tomás de la

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

El aprendizaje multi-instancias es un nuevo tipo de aprendizaje automatizado que ha recibido gran interés recientemente por su capacidad para manejar cierto tipo de ambigüedad en los problemas de aprendizaje. Sin embargo, implementaciones de algoritmos de aprendizaje multi-instancias no supervisados que se han reportado en la literatura no se encuentran disponibles, y aquellas que aparecen se han implementado de manera aislada, lo que limita la comparación de nuevos métodos que se creen con los ya establecidos. De ahí que constituye un problema la no disponibilidad en una única plataforma de algoritmos de aprendizaje multi-instancias no supervisados que permita su estudio y desarrollo. Por ello, el objetivo de esta investigación consiste en incorporar al Weka los principales algoritmos, así como aquellas transformaciones tanto a los datos como a los métodos simple-instancia existentes, que permitan explorar variantes del agrupamiento multi-instancias, mediante la implementación de paquetes. Los principales resultados obtenidos son: (1) la incorporación a Weka de los algoritmos multi-instancias BAMIC y COSMIC, tres filtros que permiten transformar problemas multi-instancias en problemas simple-instancia y la adaptación de los métodos Canopy y HierarchicalClusterer para el manejo de datos multi-instancias, permitiendo realizar un estudio inicial de las variantes del agrupamiento multi-instancias, y concluyendo que BAMIC utilizando la distancia promedio de Hausdorff para comparar bolsas fue el algoritmo ganador.
Multi-instance learning is a new type of machine learning that has received great interest recently because of its ability to handle a certain type of ambiguity in learning problems. However, implementations of unsupervised multi-instance learning algorithms that have been reported in the literature are not available, and those that appear have been implemented in isolation, which limits the comparison of new methods that are created with the already established. Hence, the unavailability in a single platform of unsupervised multi-instance learning algorithms that allows for their study and development is a research problem. Therefore, the objective of this research is to incorporate into Weka the main algorithms, as well as those transformations both to the data and to the existing simple-instance methods, which allow exploring variants of the multi-instance clustering, through the implementation of packages. The main results obtained are: (1) the incorporation into Weka of the BAMIC and COSMIC multi-instance algorithms, three filters that allow the transformation of multi-instance problems into simple-instance problems and the adaptation of the Canopy and HierarchicalClusterer methods for the management of multi-instance data, allowing an initial study of the variants of the multi-instance clustering, and concluding that BAMIC using Hausdorff’s average distance to compare bags was the winning algorithm.

Descripción

Palabras clave

Agrupamiento, Multinstancia, Filtros, Weka, Inteligencia Artificial

Citación