Pasos del Pentaho Data Integration en un contexto Big Data

dc.contributor.advisorDíaz de La Paz, Lisandra
dc.contributor.advisorGarcía Mendoza, Juan Luis
dc.contributor.authorMorejón Hernández, Yuniel
dc.coverage.spatialSanta Claraen_US
dc.date.accessioned2018-03-31T22:21:57Z
dc.date.available2018-03-31T22:21:57Z
dc.date.issued2015-06-24
dc.description.abstractEl término big data hace referencia a una inmensa y compleja colección de datos (estructurados, no estructurados, semi-estructurados y mixtos) la cual, debido a su gran tamaño y características, imposibilita su tratamiento por medio de los tradicionales sistemas de bases de datos y aplicaciones de procesamiento de datos. En el presente trabajo de diploma se describen las tecnologías que se utilizan en cada fase de big data (recolección, almacenamiento, procesamiento, análisis y visualización) dentro de estas tecnologías se destaca el ecosistema Hadoop. Además se caracterizan los pasos del Pentaho Data Integration relacionados con big data. Finalmente se implementan transformaciones donde se ejemplifica el uso de big data en el Pentaho Data Integration y se pone de manifiesto su relación con los pasos de limpieza de datos en aras de resolver problemas de calidad de datos detectados en la suite Sistema Integrado de Automatización de Bibliotecas y Centros de Documentación.en_US
dc.description.abstractThe term big data refers to a large and complex data sets (structured, non-structured, semi-structured and mixed) which, due to their large size and characteristics, precludes their treatment by traditional database systems and data processing applications. In this dissertation the technologies used in each phase of big data (collection, storage, processing, analysis and visualization) within the Hadoop ecosystem these technologies stands are described. Further characterized Pentaho Data Integration steps related to big data. Finally transformations where the use of big data is exemplified in the Pentaho Data Integration and shows their relationship to data cleansing steps in order to resolve data quality problems identified in the Integrated System of Automation of Libraries and Documentation Centers suite are implemented.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento de Ciencias de la Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/9165
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectABCDen_US
dc.subjectAlmacenamientoen_US
dc.subjectAnálisisen_US
dc.subjectBig Dataen_US
dc.subjectHadoopen_US
dc.subjectPDIen_US
dc.subjectProcesamientoen_US
dc.subjectRecolecciónen_US
dc.subjectVisualizaciónen_US
dc.subjectStorageen_US
dc.subjectAnalysisen_US
dc.subjectProcessingen_US
dc.subject.otherBig Dataen_US
dc.subject.otherProcesamiento de Datosen_US
dc.subject.otherLimpieza de Datosen_US
dc.subject.otherCalidad de Datosen_US
dc.subject.otherEcosistema de Softwareen_US
dc.subject.otherSoftware Libreen_US
dc.subject.otherAutomatizacion de Bibliotecasen_US
dc.titlePasos del Pentaho Data Integration en un contexto Big Dataen_US
dc.typeThesisen_US
dc.type.thesisbacheloren_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Tesis Yuniel Morejon Hernández.pdf
Tamaño:
2.75 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: