Validación estadística del algoritmo ACO-RST-FSP y su variante en contexto distribuido
Fecha
2010-07-15
Autores
Pérez Pérez, Dainerys
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Central “Marta Abreu” de Las Villas
Resumen
El presente trabajo aborda la temática de selección de rasgos. Es el estudio de este trabajo la
validación estadística de dos algoritmos, uno en contexto local, ampliamente difundido en esta
área del conocimiento, y el otro en contexto distribuido, tema novedoso en la rama de la
selección de rasgos. El fundamento del contexto distribuido está basado en la cooperación entre
subsistemas que comparten algún tipo de información acerca de los subconjuntos de datos sobre
los que operan, para llegar a un mejor resultado, al algoritmo se le especifica el parámetros de
nivel de intercambios de información entre los subconjuntos de datos para cooperar entre ellos.
Tanto en el caso del primer algoritmo como en el segundo, se efectúa un estudio estadístico para
determinar los parámetros que brinden mejor resultado, además se establece una comparación
entre estos dos algoritmos para arribar a conclusiones sobre su optimalidad dependiendo de los
parámetros que se varíen, además de su aplicación o no a determinados problemas, dependiendo
de las características de sus datos. En este proceso utilizamos las pruebas no paramétricas, por la
naturaleza del problema, en especial el test de Friedman cuando se está trabajando con k
muestras dependientes, con ayuda del test de Holm para las comparaciones entre muestras.
Se realiza una comparación entre los dos algoritmos, con los mejores parámetros resultantes de
la validación estadística, aplicados a problemas de la vida real; específicamente al problema de
predicciones meteorológicas y al de predicciones de infartos cardiacos.
This work deals with feature selection problem. Two algorithms have been statistically proved. The first one solving the feature selection problem in traditional way, the second one is the same but running in a distributed environment, which is novelty in this field. The foundation of distributed environment is the collaboration in between across subsystems based on some kind of metadata interchange. The later algorithm is sensitive to the number of interchanges, and it that is studied as a parameter. The role of its associated parameters for both algorithms is also studied. A comparison between original and distributed variant of the algorithm in terms of quality of results is done. Nonparametric test were used for statistical analysis. Friedman test was used for k related samples and also Holms test was useful helping to take decisions. The algorithms are applied to two real world problems: Weather forecasting and Heart attack prediction. Using the best set of parameters the results are prominent.
This work deals with feature selection problem. Two algorithms have been statistically proved. The first one solving the feature selection problem in traditional way, the second one is the same but running in a distributed environment, which is novelty in this field. The foundation of distributed environment is the collaboration in between across subsystems based on some kind of metadata interchange. The later algorithm is sensitive to the number of interchanges, and it that is studied as a parameter. The role of its associated parameters for both algorithms is also studied. A comparison between original and distributed variant of the algorithm in terms of quality of results is done. Nonparametric test were used for statistical analysis. Friedman test was used for k related samples and also Holms test was useful helping to take decisions. The algorithms are applied to two real world problems: Weather forecasting and Heart attack prediction. Using the best set of parameters the results are prominent.
Descripción
Palabras clave
Minería de Datos, Selección de Rasgos, Algoritmos, Validación Estadística, Contexto Distribuido, Optimalidad, Pruebas no Paramétricas, Pronóstico Climático, Cardiopatías, Inteligencia Artificial