Algoritmo de selección de rasgos en fuentes de datos distribuidas

Fecha

2012-06-26

Autores

Casanovas Pedre, Enrique Alfonso

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

El problema de selección de rasgos consiste en la elección de los atributos que mejor clasifican a los objetos de un dominio determinado; una de las fases más importantes del proceso conocido como Descubrimiento de Conocimiento en Bases de Datos (KDD). En muchos dominios de aplicación, los datos se encuentran en múltiples fuentes aisladas unas de otras, y por diversas razones, no es posible unirlos en una única fuente de datos. Para el estudio de este problema fue creada la Minería de Datos Distribuida (DDM), perteneciente también al KDD, y a la selección de rasgos en dicho contexto se le llama selección de rasgos en fuentes de datos distribuidas. Esta es un área de la ciencia que no ha sido ampliamente estudiada y a la que no se le han encontrado soluciones definitivas. Esta tesis se presenta un enfoque para resolver el problema de selección de rasgos utilizando la Teoría de Conjuntos Aproximados, la Teoría de la Información y la Optimización basada en Colonias de Hormigas y se extiende dicho enfoque para realizar la selección en múltiples fuentes de datos mediante un mecanismo de intercambio de metadatos. Se realiza además una validación de los modelos propuestos utilizando seis fuentes de datos del Repositorio UCI y se comparan los resultados obtenidos con los de otros modelos presentes en la bibliografía.
The feature selection problem consists in selecting the attributes that better classify the objects of a given domain; one of the most important stages of the process known as Knowledge Discovery in Databases (KDD). In many application domains, data is found in multiple isolated sources one from each other, and because of different reasons it is not possible to join them all together in a single data source. Towards the study of this problem the Distributed Data Mining (DDM) was created, which belongs to KDD, and feature selection on this context is called feature selection on distributed data sources. This is an area of science with no definite solutions and which has not been widely studied. In this thesis it is presented an approach to solve the feature selection problem using Rough Set Theory, Information Theory and Ant Colony Optimization and such approach is extended to achieve the selection in multiple data sources by means of a metadata interchange mechanism. It is also done a validation of the proposed models using six data sources from the UCI Repository and the obtained results are compared with those from other models in the bibliography.

Descripción

Palabras clave

Algoritmo, Selección de Rasgos, Datos Distribuidos, Conjuntos Aproximados, Teoría de la Información, Colonias de Hormigas, Intercambio de Metadatos, Repositorio UCI

Citación