Algoritmos que combinan conjuntos aproximados y optimización basada en colonias de hormigas para la selección de rasgos. Extensión a múltiples fuentes de datos

Fecha

2010-12-12

Autores

Gómez Díaz, Yudel Rodrigo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación. Departamento Ciencias de la Computación

Resumen

En muchos dominios de aplicación, las fuentes de datos se encuentran esparcidas con grandes volúmenes de información y no es factible centralizar los datos en un único repositorio con la finalidad de descubrimiento de conocimiento. En este contexto de datos y sistemas distribuidos la Minería de Datos Distribuida es la disciplina que dedica el estudio a esta problemática. Un elemento clave en estos procesos es la correcta selección de los atributos principales que describen los datos. Sin embargo, hay determinados argumentos que demuestran aspectos en este campo donde la ciencia aún no ha dado respuestas concluyentes. Como una cuestión importante en esta investigación se ha explicado y validado como combinar con eficiencia la Optimización mediante Colonias de Hormigas (Ant Colony Optimization, ACO) y la Teoría de Conjuntos Aproximados (Rough Set Theory, RST) para obtener algoritmos de selección rasgos que operen en contexto distribuido o no. Un análisis del comportamiento del algoritmo ha establecido criterios sobre los parámetros, y se ofrecen alternativas para agilizar su tiempo de ejecución. El fundamento del contexto distribuido está basado en la cooperación entre subsistemas que comparten algún tipo de información sobre los datos que operan. En esta tesis se ha extendido la metaheurística ACO convirtiéndola en ACO multicolonias mediante intercambios de feromona; donde cada colonia representa un algoritmo ACO resolviendo un problema con un comportamiento colaborativo entre hormigas de otras colonias mediante intercambios "frecuentes" de feromona. Los algoritmos obtenidos han sido aplicados con éxitos al problema de predicciones de infartoagudo del miocardio en pacientes cardiópatas.
In several application domains the data source are distributed storing a lot of information and it is not viable to centralize all data in one main repository to knowledge discovering. In this context involving distributed data and systems, Distributed Data Mining is the field dedicated to study these topics. A key question in these processes is the right selection of the main attributes describing the data. However, there are specific studies showing concerns in this field, where science has not given conclusive answers. As important issue, in this research, it has been explained and validated how to efficiently combine Ant Colony Optimization with Rough Set Theory to create feature selection algorithms working in distributed or not distributed context. An experimental study has been carried out to evaluate the algorithms, and establishing rules of thumb for setting its parameters. A statistic analysis of these algorithms has originated some criteria about algorithms' parameters, and two alternatives are offered to speed-up the runtime. The principle of distributed context is based on cooperation among subsystems sharing some kind of information about the working data. In this research, it has been established how to extend ACO becoming in a multi-colony ACO by means of interchanges of pheromone. Each colony represents an ACO algorithm solving a problem with collaborative behavior among ants from other colonies by means of “frequent” interchanges of pheromone. The algorithms proposed have been successfully applied to predict acute heart attack in cardiopaths.

Descripción

Palabras clave

Algoritmos, Combinación, Conjuntos Aproximados, Optimización, Colonias de Hormigas, Selección de Rasgos, Extensión, Fuentes de Datos, Caso de Estudio, Cardiopatías

Citación