Estudio e implementación en MOA de una nueva propuesta del método Bagging para combinar clasificadores base

Fecha

2018-06-24

Autores

Campos Gómez, Rosa María

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

En la actualidad, el volumen de los datos generados por sensores, Internet, dispositivos de localización, telefonía y muchos otros, esta en constante aumento. El tamaño de estos datos es potencialmente infinito debido a su constante generación, por lo que es necesario procesarlos de forma eficiente utilizando un límite escaso de memoria en un límite reducido de tiempo. Los Sistemas Multiclasificadores proporcionan un mecanismo eficaz de combinar los resultados de un conjunto de clasificadores obteniendo un modelo más complejo que un clasificador simple logrando mejor precisión en la predicción. Existen varios tipos de multiclasificadores en este trabajo se profundiza en el estudio de los multiclasificadores incrementales Bagging y Boosting, el método Bagging combina los resultados de clasificadores entrenados con conjuntos de entrenamientos generados por la técnica de bootstraping, los clasificadores obtenidos mediante esta técnica son independientes entre sí. Bagging obtiene los resultados de la clasificación a través de una votación siguiendo el consenso de prulabilidad. En estudios realizados en el año 1997 Lam y Suen [30] estudiaron el voto mayoritario como método de combinación de un número par o impar de clasificadores que pueden votar por una de las k clases o abstenerse. Con el estudio del voto mayoritario obtienen algunos resultados interesantes, llegan a la conclusión que el voto mayoritario no es una buena técnica de combinación cuando nos encontramos en presencia de clasificadores individuales. Análisis Masivo Online(MOA) es un entorno de software para la implementación de algoritmos permitiéndonos llevar a cabo experimentos para el aprendizaje en línea con flujos de datos. MOA incluye una colección de métodos tradicionales y online, así como herramientas para la evaluaciófile. Entre estos métodos se encuentran versiones en linea del método Bagging, se ha hecho evidente la necesidad de estudiar y experimentar distintas formas de combinación para este método pues obtiene clasificadores independientes. Para dicho estudio se propone en este trabajo la realización de una nueva versión en linea del algoritmo Bagging para la herramienta MOA que no combine el resultado de los clasificadores mediante la votación mayoritaria, se proponen como métodos de combinación Naıve Bayes (NB), EWMA, Entropy Weighting (EW) y Dempster–Shafer (DS). Se logra incluir este nuevo método mediante la realización de un nuevo clasificador quedando implementado en el subpaquete moa.classifiers.meta, donde la clase principal que la representa se denomina AbstractClassifier y fue compilado con la versión 1.8 de la máquina virtual de Java. Para la evaluación de este nuevo método fue comparado empíricamente con varios algoritmos de ensamble de la familia bagging, utilizando Naive Bayes como clasificador base. Los experimentos incluyeron conjuntos de datos artificiales y reales. Todos los algoritmos fueron probados frente a los tipos de cambios comunes (abruptos y graduales). Los experimentos mostraron que el nuevo algoritmo es una buena opción para el aprendizaje a partir de flujos de datos con cambios de concepto.
At the present time, the volume of the data generated by sensors, Internet, localization devices, telephony and many other, this in constant increase. The size of these data is potentially infinite due to its constant generation, for what is necessary to process them in an efficient way using a scarce limit by heart in a reduced limit of time. The Systems Multiclasificadores provides an effective mechanism of combining the results of a group of classifiers obtaining a more complex model that a simple classifier achieving better precision in the prediction. Several multiclasificadores types exist in this work it is deepened in the study of the incremental multiclasificadores Bagging and Boosting, the method Bagging combines the results of classifiers trained with groups of trainings generated by the bootstraping technique, the classifiers obtained by means of this technique are independent to each other. Bagging obtains the results of the classification through a voting following the prulabilidad consent. In studies carried out in the year 1997 Lam and Suen [30] did they study the majority vote as method of combination of an even or odd number of classifiers that you/they can vote for one of those?? classes or to abstain. With the study of the majority vote they obtain some interesting results, they arrive to the conclución that the majority vote is not a good combination technique when we are in presence of individual classifiers. Massive analysis Online(MOA) it is a software environment for the implementation of algorithms allowing us to carry out experiments for the on-line learning with flows of data. MOA includes a collection of traditional methods and online, as well as tools for the evaluation. Among these methods they are versions in it lines of the method Bagging, it has become evident the necessity to study and to experience different combination forms for this since method obtains independent classifiers. For this study he/she intends in this work the realization of a new version in it lines of the algorithm Bagging for the tool MOA that doesn’t combine the result of the classifiers by means of the majority voting, they intend as combination methods Naive Bayes (NB), EWMA, EntropyWeighting (EW) and Dempster–Shafer (DS). it is possible to include this new method by means of the realization of a new classifier being implemented in the subpaquete moa.classifiers.meta, where the main class that represents it is denominated AbstractClassifier 10 and it was compiled with the version 1.8 of the virtual machine of Java. For the evaluation of this new method it was compared empirically with several algorithms of it assembles of the family bagging, using Naive Bayes like classifier bases. The experiments included groups of artificial and real data. All the algorithms were proven in front of the types of common changes (abrupt and gradual). The experiments showed that the new algorithm is a good option for the learning starting from flows of data with concept changes.

Descripción

Palabras clave

Clasificación, Multiclasificadores, Métodos de Combinación, Inteligencia Artificial

Citación