Extensiones al ambiente de aprendizaje automatizado Weka para datos de alta dimensión

Fecha

2010-06-30

Autores

Carbonell Muela, Enrique

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

Actualmente muchos procesos generan conjuntos de datos de alta dimensión, significando un reto para los métodos convencionales del aprendizaje automatizado; en el que las métricas, modelos y técnicas se desempeñan pobremente. Estudios recientes sugieren que las tareas de predicción en conjuntos de datos de alta dimensionalidad que emplean técnicas de aprendizaje supervisado, deben incluir la utilización de técnicas de selección de rasgos basada en Incertidumbre Simétrica, en Información Mutua Condicional, selección embebida empleando Bosques Aleatorios y técnicas de ensamble para la clasificación. En la presente investigación, se incluye el grupo de técnicas anteriores en el ambiente para el aprendizaje automático Weka, quedando a disposición de los investigadores una nueva versión que incorpora la capacidad de tratar con conjuntos de datos de alta dimensión. A partir de varios conjuntos de datos recopilados de los desafíos NIPS2003 y RSCTC2010, se hace una validación de los algoritmos seleccionados.
Nowadays many processes generate high dimension groups of data meaning a challenge for the conventional methods of the machine learning, where the metrics, models and techniques act poorly. Recent studies suggest that the prediction tasks in high-dimensionality groups of data that use techniques of supervised learning should include the use of preselection techniques based on Symmetrical Uncertainty, based on Conditional Mutual Information; embedded selection using Random Forests and assembles techniques for clasification. On present investigation, the techniques are included in the environment for Weka machine learning. It offers to investigators a new version that incorporates the capacity of try with groups of high dimension data. The selected algorithms are validated starting from several groups of collected data of the challenges NIPS2003 and RSCTC2010.

Descripción

Palabras clave

Aprendizaje Automatizado Weka, Tareas de Predicción, Datos de Alta Dimensión, Selección de Rasgos, Incertidumbre Simétrica, Información Mutua Condicional, Bosques Aleatorios, Técnicas de Ensamblaje, Clasificación, Inteligencia Artificial

Citación

Descargar Referencia Bibliográfica