Validación estadística del algoritmo ACO-RST-FSP y su variante en contexto distribuido

Fecha

2010-07-15

Autores

Pérez Pérez, Dainerys

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

El presente trabajo aborda la temática de selección de rasgos. Es el estudio de este trabajo la validación estadística de dos algoritmos, uno en contexto local, ampliamente difundido en esta área del conocimiento, y el otro en contexto distribuido, tema novedoso en la rama de la selección de rasgos. El fundamento del contexto distribuido está basado en la cooperación entre subsistemas que comparten algún tipo de información acerca de los subconjuntos de datos sobre los que operan, para llegar a un mejor resultado, al algoritmo se le especifica el parámetros de nivel de intercambios de información entre los subconjuntos de datos para cooperar entre ellos. Tanto en el caso del primer algoritmo como en el segundo, se efectúa un estudio estadístico para determinar los parámetros que brinden mejor resultado, además se establece una comparación entre estos dos algoritmos para arribar a conclusiones sobre su optimalidad dependiendo de los parámetros que se varíen, además de su aplicación o no a determinados problemas, dependiendo de las características de sus datos. En este proceso utilizamos las pruebas no paramétricas, por la naturaleza del problema, en especial el test de Friedman cuando se está trabajando con k muestras dependientes, con ayuda del test de Holm para las comparaciones entre muestras. Se realiza una comparación entre los dos algoritmos, con los mejores parámetros resultantes de la validación estadística, aplicados a problemas de la vida real; específicamente al problema de predicciones meteorológicas y al de predicciones de infartos cardiacos.
This work deals with feature selection problem. Two algorithms have been statistically proved. The first one solving the feature selection problem in traditional way, the second one is the same but running in a distributed environment, which is novelty in this field. The foundation of distributed environment is the collaboration in between across subsystems based on some kind of metadata interchange. The later algorithm is sensitive to the number of interchanges, and it that is studied as a parameter. The role of its associated parameters for both algorithms is also studied. A comparison between original and distributed variant of the algorithm in terms of quality of results is done. Nonparametric test were used for statistical analysis. Friedman test was used for k related samples and also Holms test was useful helping to take decisions. The algorithms are applied to two real world problems: Weather forecasting and Heart attack prediction. Using the best set of parameters the results are prominent.

Descripción

Palabras clave

Minería de Datos, Selección de Rasgos, Algoritmos, Validación Estadística, Contexto Distribuido, Optimalidad, Pruebas no Paramétricas, Pronóstico Climático, Cardiopatías, Inteligencia Artificial

Citación