IMMAN. Herramienta para la selección de rasgos basado en la Teoría de Información

Fecha

2013-06-26

Autores

Pino Urias, Ricardo Wilfredo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central "Marta Abreu" de la Villas

Resumen

El trabajo presenta la definición de varios métodos de selección de rasgos en dos categorías, estos son supervisados y no supervisados: en el primer grupo se encuentran la Entropía Diferencial, Información de Jeffrey e Información Mutua de la Entropía Diferencial; y en el segundo las basadas en: 1) el uso de un intervalo de discretización 2) las que no usan tal esquema y por tanto no necesitan configuración. La anterior propuesta se fundamenta en los postulados de la Teoría de Información. Se proponen nuevos conceptos y estrategias de trabajo sustentados fundamentalmente en el concepto de entropía, estos son: Índice de Gini, Negentropía, Índice de Redundancia, Información de Energía Contenida, Entropía del Valor Degenerado, los cuales hasta el momento no se han utilizado en la literatura especializada con este fin. En este mismo sentido, se crean tres nuevas medidas para seleccionar rasgos constituyendo aportes teóricos de la investigación. Además, se extienden y modifican otras medidas existentes, proporcionando mejoras a las mismas, y se re-implementan varias medidas “clásicas” de selección de rasgos. Todas las medidas se han implementado en la herramienta IMMAN (acrónimo de Information Theory based Chemometric Analysis), diseñada para la selección de rasgos y la comparación de conjuntos de datos de aprendizaje. Finalmente, con el propósito de evidenciar las potencialidades del uso del programa se han realizado varias aplicaciones usando conjunto de datos con alta dimensión. En todos los casos, los resultados obtenidos con el enfoque del uso de la Teoría de Información se comparan favorablemente con lo reportado en la literatura y/o con parámetros clásicos que también emplean conceptos de esta teoría.
The report presents the definition of several feature selection methods comprised of two categories, these are supervised and unsupervised: in the first group are the Differential Entropy, Jeffrey’s Information and Mutual Information of Differential Entropy, and the second those based on: 1) the use of a discretization interval 2) those which do not use such a scheme and therefore need no configuration. The above proposal is based on the principles of Information Theory. It proposes new concepts and strategies supported primarily on the concept of entropy, these are: Gini Index, Negentropy, Redundancy Index, Information Contained Energy, and Entropy Degenerate Value, which so far have not been used in the literature for this purpose. In this sense, three new measures to feature selection measures have been created, constituting an important theoretical contributions of the research. Also, other existing methods have been extended, re-implemented and modified. All of this measures have been implemented in the tool IMMAN (acronym for Information Theory based Chemometric Analysis), designed for the selection of features and comparing learning datasets. Finally, in order to demonstrate the potential of the use of the program there have been several applications using dataset with higher dimension. In all cases, the results obtained with the approach of the use of Information Theory compare favorably with those reported in the literature and/or classic parameters that also use concepts of this theory.

Descripción

Palabras clave

Selección de Rasgos., Information Theory Based Chemometric Analysis, Aprendizaje Automático, Teoría de la Información

Citación

Descargar Referencia Bibliográfica