Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce

Nuñez Arcia, Yaisel; Díaz de La Paz, Lisandra; García Mendoza, Juan Luis

Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce

dc.contributor.author	Nuñez Arcia, Yaisel
dc.contributor.author	Díaz de La Paz, Lisandra
dc.contributor.author	García Mendoza, Juan Luis
dc.contributor.department	Universidad Central ”Marta Abreu” de Las Villas. Departamento Ciencia de la Computación	en_US
dc.contributor.department	Universidad Central ”Marta Abreu” de Las Villas, Centro de Investigaciones de la Informática	en_US
dc.coverage.spatial	Cuba	en_US
dc.date.accessioned	2022-02-17T18:31:19Z
dc.date.available	2022-02-17T18:31:19Z
dc.date.issued	2016
dc.description.abstract	Los problemas de calidad de datos a nivel de instancia tienen un impacto directo en la toma de decisiones de las organizaciones y afectan su desempeño. A medida que crece desmedidamente la información es mayor la probabilidad de que se encuentren dichos problemas en los datos. En este trabajo se presenta un algoritmo para corregir anomalías a nivel de instancia en fuentes de datos big data con formato estructurado o semi-estructurado. Como método de agrupamiento se utiliza el algoritmo K-means, para calcular la distancia de edición entre las cadenas se aplica la modificación de Levenshtein y para manejar el volumen de los datos se utiliza el modelo de programación distribuida MapReduce. Además, con el fin de mejorar la calidad de los datos se propusieron las siguientes cuatro fases: identificación del tipo de fuente de datos, el formato de los datos y el problema a corregir; pre-procesamiento de los datos; agrupamiento de los datos y limpieza de los datos.	en_US
dc.description.abstract	Data quality problems at instance level have a direct impact on decision making of organizations and affect their performance. As information grows unreasonably it is greater the probability that such problems occur in data. This paper presents an algorithm to correct instance level anomalies in big data sources with semi-structured or structured format. As a clustering method, K-means algorithm was used. To calculate the edit distance between strings the modification of Levenshtein was applied, and to handle the volume of the data, MapReduce model for distributed programming was used. Besides, in order to improve data quality, the following four phases were proposed.	en_US
dc.identifier.citation	Nuñez-Arcia, Y., Díaz-de-la-Paz, L., & García-Mendoza, J. L. (2016). Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce. Revista Cubana de Ciencias Informáticas, 10(3), 105-118.	en_US
dc.identifier.issn	2227-1899	en_US
dc.identifier.uri	https://dspace.uclv.edu.cu/handle/123456789/13458
dc.language.iso	es	en_US
dc.relation.journal	Revista Cubana de Ciencias Informáticas	en_US
dc.rights	Este documento es Propiedad Patrimonial de Ediciones Futuro y se socializa en este Repositorio gracias a la política de acceso abierto de la Revista Cubana de Ciencias Informáticas	en_US
dc.rights.holder	Universidad de las Ciencias Informáticas	en_US
dc.source.endpage	118	en_US
dc.source.initialpage	105	en_US
dc.source.issue	3	en_US
dc.source.volume	10	en_US
dc.subject	Calidad de Datos	en_US
dc.subject	Limpieza de Datos	en_US
dc.subject	Big Data	en_US
dc.subject	Algoritmo K Means	en_US
dc.subject	MapReduce	en_US
dc.subject	Data Quality	en_US
dc.subject	Data Cleansing	en_US
dc.subject	Big Data	en_US
dc.subject	K Means Algorithm	en_US
dc.subject	MapReduce	en_US
dc.subject.other	Toma de Decisiones Informadas	en_US
dc.subject.other	Calidad de Datos	en_US
dc.subject.other	Limpieza de Datos	en_US
dc.subject.other	Datos Masivos	en_US
dc.subject.other	Algoritmos de Agrupamiento	en_US
dc.subject.other	Programación Distribuida	en_US
dc.subject.other	Tecnologías de Bases de Datos	en_US
dc.title	Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce	en_US
dc.title.alternative	Algorithm to correct instance level anomalies in large volumes of data using MapReduce	en_US
dc.type	Article	en_US
dc.type.article	2	en_US

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: ART Revista RCCI 2016.pdf
Tamaño:: 518.56 KB
Formato:: Adobe Portable Document Format

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 3.33 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Artículos - Centro de Estudios Informáticos