Medición de la dimensión completitud en la base de datos Marc de ABCD

Fecha

2015-06-26

Autores

León Hernández, Dariel

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

En la actualidad ha tomado auge el desarrollo de tecnologías para gestionar big data. Estas constituyen un punto esencial en la extracción, almacenamiento, limpieza y análisis de la misma. En las bibliotecas de la Universidad Central “Marta Abreu” de Las Villas (UCLV) se cuenta con un sistema para la administración de registros bibliográficos. Hasta el momento, los datos con los que se cuentan poseen disímiles errores y la no presencia de un software de perfilado de datos dificultaba la medición de su calidad. Por tanto, el presente trabajo de diploma tiene como objetivo implementar trabajos con el modelo de programación MapReduce para medir la dimensión completitud. Además, se crea una herramienta que permite la interacción entre la base de datos utilizada y la fuente de datos. Para lograr estos objetivos se utiliza el marco de trabajo Hadoop para ejecutar los trabajos MapReduce, es decir, para realizar el procesamiento de los datos y la base de datos distribuida MongoDB para su almacenamiento.
Today the development of technologies has boomed to arrange big data. These constitute an essential point in extraction, storing, cleaning and analysis of them. At the Central University “Marta Abreu” de Las Villas libraries, there is a system in order to administer bibliographic records. So far, the data that are available, have dissimilar mistakes and not having a software to profile data make difficult the measurement of quality. Thus, this paper has an objective to implement jobs with the MapReduce programming model to measure the completeness dimension. Beside it is created a tool that allows interactions between the used database and the data source. In order to achieve these objectives a framework named Hadoop is used to implement MapReduce jobs, that is, to carry out the processing of data and MongoDB distributed database for its storage.

Descripción

Palabras clave

Big Data, Dimensión Completitud, Hadoop, MongoDB, Completeness Dimension

Citación