Biblioteca para el preprocesamiento de datos usando conjuntos aproximados

Bello García, Beatriz

Publicación:
Biblioteca para el preprocesamiento de datos usando conjuntos aproximados

Archivos

Tesis de diploma Beatriz.pdf (1.83 MB)

Fecha

2019-06-18

Autores

Bello García, Beatriz

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

La comunidad científica reconoce el papel de la Teoría de los Conjuntos Aproximados (Rough Set Theory, RST) para el análisis inteligente de los datos. En este trabajo, se describe la implementación en Python de una biblioteca para el preprocesamiento de datos, etapa previa determinante para el descubrimiento de conocimiento, de métodos basados en los conjuntos aproximados. En particular, son implementadas las definiciones y medidas principales basadas en RST, así como métodos de selección de rasgos y ejemplos. Se verifica la eficacia de los métodos a partir de las pruebas realizadas desde bases de datos del UCI repositorio. Además, se tratan los conceptos básicos de RST para grandes volúmenes de datos, en particular, lo referido a clase de equivalencia. Se implementa la vectorización de código utilizando las facilidades de Numpy de Python. Por último, se implementaron algunos conceptos básicos en entorno Apache Spark. Los resultados demuestran la validez de las implementaciones y la necesidad de optimizar código.
The scientific community recognizes the role of the Rough Set Theory (RST) for the intelligent data analysis. In this paper, we describe the Python implementation of a library for data preprocessing, a decisive preliminary stage for data mining. In particular, the definitions and main measures based on RST are implemented, as well as the methods of selection of features and examples. The accuracy of the methods is verified from the tests performed using databases from the repository UCI. In addition, the basic concepts of RST for large volumes of data are discussed, in particular, referring to compute the equivalence classes. Code vectorization is implemented using the Numpy facilities of Python. Finally, some basic concepts were implemented in the Apache Spark environment. The results demonstrate the validity of the implementations and the need to optimize code.

Palabras clave

Biblioteca en Python, Preprocesamiento de Datos, Conjuntos Aproximados, Aprendizaje Automatizado, Inteligencia Artificial, Desarrollo de Aplicaciones

URI

https://dspace.uclv.edu.cu/handle/123456789/12181

Colecciones

Tesis de Pregrado - Licenciatura en Ciencias de la Computación

Página completa del ítem

Publicación:
Biblioteca para el preprocesamiento de datos usando conjuntos aproximados

Archivos

Fecha

Autores

Título de la revista

ISSN de la revista

Título del volumen

Editor

Proyectos de investigación

Unidades organizativas

Número de la revista

Resumen

Descripción

Palabras clave

Citación

URI

Colecciones

Aprobación

Revisión

Complementado por

Referenciado por

Publicación: Biblioteca para el preprocesamiento de datos usando conjuntos aproximados

Archivos

Fecha

Autores

Título de la revista

ISSN de la revista

Título del volumen

Editor

Proyectos de investigación

Unidades organizativas

Número de la revista

Resumen

Descripción

Palabras clave

Citación

URI

Colecciones

Aprobación

Revisión

Complementado por

Referenciado por

Publicación:
Biblioteca para el preprocesamiento de datos usando conjuntos aproximados