Pasos del Pentaho Data Integration en un contexto Big Data

Fecha

2015-06-24

Autores

Morejón Hernández, Yuniel

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

El término big data hace referencia a una inmensa y compleja colección de datos (estructurados, no estructurados, semi-estructurados y mixtos) la cual, debido a su gran tamaño y características, imposibilita su tratamiento por medio de los tradicionales sistemas de bases de datos y aplicaciones de procesamiento de datos. En el presente trabajo de diploma se describen las tecnologías que se utilizan en cada fase de big data (recolección, almacenamiento, procesamiento, análisis y visualización) dentro de estas tecnologías se destaca el ecosistema Hadoop. Además se caracterizan los pasos del Pentaho Data Integration relacionados con big data. Finalmente se implementan transformaciones donde se ejemplifica el uso de big data en el Pentaho Data Integration y se pone de manifiesto su relación con los pasos de limpieza de datos en aras de resolver problemas de calidad de datos detectados en la suite Sistema Integrado de Automatización de Bibliotecas y Centros de Documentación.
The term big data refers to a large and complex data sets (structured, non-structured, semi-structured and mixed) which, due to their large size and characteristics, precludes their treatment by traditional database systems and data processing applications. In this dissertation the technologies used in each phase of big data (collection, storage, processing, analysis and visualization) within the Hadoop ecosystem these technologies stands are described. Further characterized Pentaho Data Integration steps related to big data. Finally transformations where the use of big data is exemplified in the Pentaho Data Integration and shows their relationship to data cleansing steps in order to resolve data quality problems identified in the Integrated System of Automation of Libraries and Documentation Centers suite are implemented.

Descripción

Palabras clave

ABCD, Almacenamiento, Análisis, Big Data, Hadoop, PDI, Procesamiento, Recolección, Visualización, Storage, Analysis, Processing

Citación