Biblioteca para el preprocesamiento de datos usando conjuntos aproximados

dc.contributor.advisorBello Pérez, Rafael Esteban
dc.contributor.advisorMorell Pérez, Carlos
dc.contributor.authorBello García, Beatriz
dc.coverage.spatialSanta Claraen_US
dc.date.accessioned2019-12-06T21:56:50Z
dc.date.available2019-12-06T21:56:50Z
dc.date.issued2019-06-18
dc.description.abstractLa comunidad científica reconoce el papel de la Teoría de los Conjuntos Aproximados (Rough Set Theory, RST) para el análisis inteligente de los datos. En este trabajo, se describe la implementación en Python de una biblioteca para el preprocesamiento de datos, etapa previa determinante para el descubrimiento de conocimiento, de métodos basados en los conjuntos aproximados. En particular, son implementadas las definiciones y medidas principales basadas en RST, así como métodos de selección de rasgos y ejemplos. Se verifica la eficacia de los métodos a partir de las pruebas realizadas desde bases de datos del UCI repositorio. Además, se tratan los conceptos básicos de RST para grandes volúmenes de datos, en particular, lo referido a clase de equivalencia. Se implementa la vectorización de código utilizando las facilidades de Numpy de Python. Por último, se implementaron algunos conceptos básicos en entorno Apache Spark. Los resultados demuestran la validez de las implementaciones y la necesidad de optimizar código.en_US
dc.description.abstractThe scientific community recognizes the role of the Rough Set Theory (RST) for the intelligent data analysis. In this paper, we describe the Python implementation of a library for data preprocessing, a decisive preliminary stage for data mining. In particular, the definitions and main measures based on RST are implemented, as well as the methods of selection of features and examples. The accuracy of the methods is verified from the tests performed using databases from the repository UCI. In addition, the basic concepts of RST for large volumes of data are discussed, in particular, referring to compute the equivalence classes. Code vectorization is implemented using the Numpy facilities of Python. Finally, some basic concepts were implemented in the Apache Spark environment. The results demonstrate the validity of the implementations and the need to optimize code.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento de Ciencias de la Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/12181
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectBiblioteca en Pythonen_US
dc.subjectPreprocesamiento de Datosen_US
dc.subjectConjuntos Aproximadosen_US
dc.subjectAprendizaje Automatizadoen_US
dc.subjectInteligencia Artificialen_US
dc.subjectDesarrollo de Aplicacionesen_US
dc.subject.otherAnálisis de Datosen_US
dc.subject.otherInteligencia Artificialen_US
dc.subject.otherLenguajes de Programaciónen_US
dc.subject.otherAprendizaje Automatizadoen_US
dc.subject.otherDatos Masivosen_US
dc.subject.otherProcesamiento de Datosen_US
dc.subject.otherConjuntos Aproximadosen_US
dc.subject.otherDesarrollo de Aplicacionesen_US
dc.titleBiblioteca para el preprocesamiento de datos usando conjuntos aproximadosen_US
dc.typeThesisen_US
dc.type.thesisbacheloren_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Tesis de diploma Beatriz.pdf
Tamaño:
1.83 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: