Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce

Nuñez Arcia, YaiselDíaz de La Paz, LisandraGarcía Mendoza, Juan LuisAlgoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduceAlgorithm to correct instance level anomalies in large volumes of data using MapReduceMy University2016Calidad de DatosLimpieza de DatosBig DataAlgoritmo K MeansMapReduceData QualityData CleansingBig DataK Means AlgorithmMapReduceToma de Decisiones InformadasCalidad de DatosLimpieza de DatosDatos MasivosAlgoritmos de AgrupamientoProgramación DistribuidaTecnologías de Bases de DatosMy UniversityMy University2022-02-172022-02-172016esArticleNuñez-Arcia, Y., Díaz-de-la-Paz, L., & García-Mendoza, J. L. (2016). Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce. Revista Cubana de Ciencias Informáticas, 10(3), 105-118.2227-1899https://dspace.uclv.edu.cu/handle/123456789/13458Este documento es Propiedad Patrimonial de Ediciones Futuro y se socializa en este Repositorio gracias a la política de acceso abierto de la Revista Cubana de Ciencias InformáticasUniversidad de las Ciencias InformáticasLos problemas de calidad de datos a nivel de instancia tienen un impacto directo en la toma de decisiones de las organizaciones y afectan su desempeño. A medida que crece desmedidamente la información es mayor la probabilidad de que se encuentren dichos problemas en los datos. En este trabajo se presenta un algoritmo para corregir anomalías a nivel de instancia en fuentes de datos big data con formato estructurado o semi-estructurado. Como método de agrupamiento se utiliza el algoritmo K-means, para calcular la distancia de edición entre las cadenas se aplica la modificación de Levenshtein y para manejar el volumen de los datos se utiliza el modelo de programación distribuida MapReduce. Además, con el fin de mejorar la calidad de los datos se propusieron las siguientes cuatro fases: identificación del tipo de fuente de datos, el formato de los datos y el problema a corregir; pre-procesamiento de los datos; agrupamiento de los datos y limpieza de los datos.Data quality problems at instance level have a direct impact on decision making of organizations and affect their performance. As information grows unreasonably it is greater the probability that such problems occur in data. This paper presents an algorithm to correct instance level anomalies in big data sources with semi-structured or structured format. As a clustering method, K-means algorithm was used. To calculate the edit distance between strings the modification of Levenshtein was applied, and to handle the volume of the data, MapReduce model for distributed programming was used. Besides, in order to improve data quality, the following four phases were proposed.