Centro de Investigaciones de la Informática (CII)
URI permanente para esta comunidad
En esta comunidad se agrupan las colecciones que recogen la producción científica del Centro de Investigaciones de la Informática en la UCLV.
Examinar
Examinando Centro de Investigaciones de la Informática (CII) por Materia "Calidad de Datos"
Mostrando 1 - 2 de 2
Resultados por página
Opciones de ordenación
Ítem Acceso Abierto Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce(2016) Nuñez Arcia, Yaisel; Díaz de La Paz, Lisandra; García Mendoza, Juan Luis; Universidad Central ”Marta Abreu” de Las Villas. Departamento Ciencia de la Computación; Universidad Central ”Marta Abreu” de Las Villas, Centro de Investigaciones de la InformáticaLos problemas de calidad de datos a nivel de instancia tienen un impacto directo en la toma de decisiones de las organizaciones y afectan su desempeño. A medida que crece desmedidamente la información es mayor la probabilidad de que se encuentren dichos problemas en los datos. En este trabajo se presenta un algoritmo para corregir anomalías a nivel de instancia en fuentes de datos big data con formato estructurado o semi-estructurado. Como método de agrupamiento se utiliza el algoritmo K-means, para calcular la distancia de edición entre las cadenas se aplica la modificación de Levenshtein y para manejar el volumen de los datos se utiliza el modelo de programación distribuida MapReduce. Además, con el fin de mejorar la calidad de los datos se propusieron las siguientes cuatro fases: identificación del tipo de fuente de datos, el formato de los datos y el problema a corregir; pre-procesamiento de los datos; agrupamiento de los datos y limpieza de los datos.Ítem Acceso Abierto Herramienta CompMARC para la medición de la completitud de registros bibliográficos en formato MARC 21(2016) García Mendoza, Juan Luis; Díaz de La Paz, Lisandra; González González, Luisa Manuela; Nuñez Arcia, Yaisel; Leiva Mederos, Amed Abel; Universidad Central ”Marta Abreu” de Las Villas. Departamento Ciencia de la Computación; Universidad Central ”Marta Abreu” de Las Villas, Centro de Investigaciones de la Informática; Universidad Central ”Marta Abreu” de Las Villas, Departamento Ciencia de la InformaciónMARC 21 constituye uno de los estándares más utilizados para la catalogación de registros bibliográficos. Según los resultados del procesamiento de encuestas aplicadas a especialistas en Ciencias de la Información de la Universidad Central “Marta Abreu” de Las Villas, uno de los principales problemas de calidad de datos que presentan los registros bibliográficos en este formato es la incompletitud de sus datos. Por consiguiente, el presente trabajo tiene como objetivo medir la dimensión de calidad de datos completitud de registros bibliográficos en formato MARC 21. En el proceso de medición de la completitud se utilizaron dos métricas propuestas en la literatura para metadatos. Como principal resultado se implementó la herramienta CompMARC que utiliza ambas métricas y determina el grado de completitud de estos registros a partir de los umbrales propuestos en este trabajo.