Combinación de medidas de diversidad en sistemas multiclasificadores utilizando Lógica Borrosa

Fecha

2015-06-26

Autores

Artiles Morales, Joaquin

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

Las técnicas de clasificación hoy en día se están utilizando en la solución de diferentes problemas de la sociedad. Existen varios modelos de clasificación reportados en la literatura como las redes neuronales, árboles de clasificación, análisis discriminante, entre otros. En investigaciones recientes muchos autores introducen el término multiclasificador como un “clasificador” que combina las salidas de un conjunto de clasificadores individuales, utilizando algún criterio (ej.; promedio, voto mayoritario, mínimo, etc.). Cuando se combinan clasificadores es importante garantizar la diversidad entre ellos ya que no tendría sentido combinar clasificadores cuya clasificación es la misma. Existen varios modelos para construir un multiclasificador y todos garantizan esta diversidad de diferentes formas. En el caso de aquellos que usan distintos clasificadores bases, existen algunas medidas estadísticas que pueden ser usadas para estimar cuán diversos son, las cuales son llamadas medidas de diversidad. La selección de los distintos clasificadores bases para un sistema multiclasificador es una tarea compleja, precisamente por las grandes cantidades de clasificadores individuales y las múltiples combinaciones que ellos pueden generar, ante este problema combinatorio se propone el uso de las meta heurísticas, con las medidas de diversidad para obtener una combinación de clasificadores diversos y una exactitud en la combinación superior a la mejor individual. El curso pasado se desarrolló la investigación (Hernández, 2014), en la que se usaron específicamente los Algoritmos Genéticos para lograr lo explicado anteriormente, como resultado de la misma se obtuvo la primera versión de un sistema llamado: Splicing v1.2. En dicho software se propuso la combinación de las medidas de diversidad mediantes varios operadores, uno de ellos es un operador borroso (Fuzzy), donde solo se utilizó una función de pertenencia. En este trabajo se realizan las modificaciones necesarias sobre ese sistema para obtener una versión más completa donde se incorporan varias funciones de pertenencia para seleccionar cuál de ellas ofrece los mejores resultados. Además se proponen nuevos criterios de comparación para la combinación de las salidas de estas funciones, se diseñaron experimentos aplicando varias pruebas estadísticas para proponer la mejor función de pertenencia y el mejor criterio. Se realiza una comparación con todos los operadores donde los mejores resultados se obtienen con el operador borroso. Finalmente, se muestra una aplicación en el campo de la Bioinformática.
Classification techniques today are being used in solving several problems of society. There are several classification models reported in the literature: neuronal networks, classification trees, discriminant analysis, among others. In recent research many authors introduced the term multi-classifier, as a "classifier" which combines the outputs of a set of individual classifiers, using some criterion (e.g. average, a majority vote, minimum, etc.). When combining classifiers is important to ensure diversity among them, because it would not make sense to combine classifiers whose rating is the same. There are several models to build a multi-classifier and all these guarantee this diversity in different forms. In the case of those using different base classifiers, there are some statistical measures that can be used to estimate how diverse they are, which are called diversity measures. The selection of the different base classifiers for a multiclassifier system is a complex task, precisely because of the large amount of individual classifiers and multiple combinations that they can generate. The use of metaheuristics is proposed in order to deal with this combinatorial problem, with the diversity measures for a combination of different classifiers and an accuracy in the combination superior to the single best. Last year a research was developed (Hernández, 2014), which specifically used Genetic Algorithms to achieve the explained above, and the result was the first version of a system called: Splicing v1.2. In that software was proposed to combine diversity measures through several operators one of which is a fuzzy operator, where only a membership function was used. In this work, the necessary modifications to the system are made to obtain a more complete version, where several membership functions are incorporated to select which one provides the best results. Besides, new criteria for combining the outputs of these functions are proposed, experiments were designed using various statistical tests to propose the best membership function and the best criterion. There is performed a comparison with all operators where the best results are obtained with the fuzzy operator. Finally, an application is shown in the field of Bioinformatics.

Descripción

Palabras clave

Medidas de Diversidad, Sistemas Multiclasificadores, Funciones de Pertenencia, Lógica Borrosa

Citación

Descargar Referencia Bibliográfica