Biblioteca para el preprocesamiento de datos usando conjuntos aproximados

Fecha

2019-06-18

Autores

Bello García, Beatriz

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

La comunidad científica reconoce el papel de la Teoría de los Conjuntos Aproximados (Rough Set Theory, RST) para el análisis inteligente de los datos. En este trabajo, se describe la implementación en Python de una biblioteca para el preprocesamiento de datos, etapa previa determinante para el descubrimiento de conocimiento, de métodos basados en los conjuntos aproximados. En particular, son implementadas las definiciones y medidas principales basadas en RST, así como métodos de selección de rasgos y ejemplos. Se verifica la eficacia de los métodos a partir de las pruebas realizadas desde bases de datos del UCI repositorio. Además, se tratan los conceptos básicos de RST para grandes volúmenes de datos, en particular, lo referido a clase de equivalencia. Se implementa la vectorización de código utilizando las facilidades de Numpy de Python. Por último, se implementaron algunos conceptos básicos en entorno Apache Spark. Los resultados demuestran la validez de las implementaciones y la necesidad de optimizar código.
The scientific community recognizes the role of the Rough Set Theory (RST) for the intelligent data analysis. In this paper, we describe the Python implementation of a library for data preprocessing, a decisive preliminary stage for data mining. In particular, the definitions and main measures based on RST are implemented, as well as the methods of selection of features and examples. The accuracy of the methods is verified from the tests performed using databases from the repository UCI. In addition, the basic concepts of RST for large volumes of data are discussed, in particular, referring to compute the equivalence classes. Code vectorization is implemented using the Numpy facilities of Python. Finally, some basic concepts were implemented in the Apache Spark environment. The results demonstrate the validity of the implementations and the need to optimize code.

Descripción

Palabras clave

Biblioteca en Python, Preprocesamiento de Datos, Conjuntos Aproximados, Aprendizaje Automatizado, Inteligencia Artificial, Desarrollo de Aplicaciones

Citación