Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce

dc.contributor.authorNuñez Arcia, Yaisel
dc.contributor.authorDíaz de La Paz, Lisandra
dc.contributor.authorGarcía Mendoza, Juan Luis
dc.contributor.departmentUniversidad Central ”Marta Abreu” de Las Villas. Departamento Ciencia de la Computaciónen_US
dc.contributor.departmentUniversidad Central ”Marta Abreu” de Las Villas, Centro de Investigaciones de la Informáticaen_US
dc.coverage.spatialCubaen_US
dc.date.accessioned2022-02-17T18:31:19Z
dc.date.available2022-02-17T18:31:19Z
dc.date.issued2016
dc.description.abstractLos problemas de calidad de datos a nivel de instancia tienen un impacto directo en la toma de decisiones de las organizaciones y afectan su desempeño. A medida que crece desmedidamente la información es mayor la probabilidad de que se encuentren dichos problemas en los datos. En este trabajo se presenta un algoritmo para corregir anomalías a nivel de instancia en fuentes de datos big data con formato estructurado o semi-estructurado. Como método de agrupamiento se utiliza el algoritmo K-means, para calcular la distancia de edición entre las cadenas se aplica la modificación de Levenshtein y para manejar el volumen de los datos se utiliza el modelo de programación distribuida MapReduce. Además, con el fin de mejorar la calidad de los datos se propusieron las siguientes cuatro fases: identificación del tipo de fuente de datos, el formato de los datos y el problema a corregir; pre-procesamiento de los datos; agrupamiento de los datos y limpieza de los datos.en_US
dc.description.abstractData quality problems at instance level have a direct impact on decision making of organizations and affect their performance. As information grows unreasonably it is greater the probability that such problems occur in data. This paper presents an algorithm to correct instance level anomalies in big data sources with semi-structured or structured format. As a clustering method, K-means algorithm was used. To calculate the edit distance between strings the modification of Levenshtein was applied, and to handle the volume of the data, MapReduce model for distributed programming was used. Besides, in order to improve data quality, the following four phases were proposed.en_US
dc.identifier.citationNuñez-Arcia, Y., Díaz-de-la-Paz, L., & García-Mendoza, J. L. (2016). Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce. Revista Cubana de Ciencias Informáticas, 10(3), 105-118.en_US
dc.identifier.issn2227-1899en_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/13458
dc.language.isoesen_US
dc.relation.journalRevista Cubana de Ciencias Informáticasen_US
dc.rightsEste documento es Propiedad Patrimonial de Ediciones Futuro y se socializa en este Repositorio gracias a la política de acceso abierto de la Revista Cubana de Ciencias Informáticasen_US
dc.rights.holderUniversidad de las Ciencias Informáticasen_US
dc.source.endpage118en_US
dc.source.initialpage105en_US
dc.source.issue3en_US
dc.source.volume10en_US
dc.subjectCalidad de Datosen_US
dc.subjectLimpieza de Datosen_US
dc.subjectBig Dataen_US
dc.subjectAlgoritmo K Meansen_US
dc.subjectMapReduceen_US
dc.subjectData Qualityen_US
dc.subjectData Cleansingen_US
dc.subjectBig Dataen_US
dc.subjectK Means Algorithmen_US
dc.subjectMapReduceen_US
dc.subject.otherToma de Decisiones Informadasen_US
dc.subject.otherCalidad de Datosen_US
dc.subject.otherLimpieza de Datosen_US
dc.subject.otherDatos Masivosen_US
dc.subject.otherAlgoritmos de Agrupamientoen_US
dc.subject.otherProgramación Distribuidaen_US
dc.subject.otherTecnologías de Bases de Datosen_US
dc.titleAlgoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduceen_US
dc.title.alternativeAlgorithm to correct instance level anomalies in large volumes of data using MapReduceen_US
dc.typeArticleen_US
dc.type.article2en_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
ART Revista RCCI 2016.pdf
Tamaño:
518.56 KB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: