Centro de Investigaciones de la Informática (CII)

URI permanente para esta comunidad

https://dspace.uclv.edu.cu/handle/123456789/2398

En esta comunidad se agrupan las colecciones que recogen la producción científica del Centro de Investigaciones de la Informática en la UCLV.

Examinar

Mostrando 1 - 3 de 3

Acceso Abierto
Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce
(2016) Nuñez Arcia, Yaisel; Díaz de La Paz, Lisandra; García Mendoza, Juan Luis; Universidad Central ”Marta Abreu” de Las Villas. Departamento Ciencia de la Computación; Universidad Central ”Marta Abreu” de Las Villas, Centro de Investigaciones de la Informática
Los problemas de calidad de datos a nivel de instancia tienen un impacto directo en la toma de decisiones de las organizaciones y afectan su desempeño. A medida que crece desmedidamente la información es mayor la probabilidad de que se encuentren dichos problemas en los datos. En este trabajo se presenta un algoritmo para corregir anomalías a nivel de instancia en fuentes de datos big data con formato estructurado o semi-estructurado. Como método de agrupamiento se utiliza el algoritmo K-means, para calcular la distancia de edición entre las cadenas se aplica la modificación de Levenshtein y para manejar el volumen de los datos se utiliza el modelo de programación distribuida MapReduce. Además, con el fin de mejorar la calidad de los datos se propusieron las siguientes cuatro fases: identificación del tipo de fuente de datos, el formato de los datos y el problema a corregir; pre-procesamiento de los datos; agrupamiento de los datos y limpieza de los datos.
Acceso Abierto
Herramienta CompMARC para la medición de la completitud de registros bibliográficos en formato MARC 21
(2016) García Mendoza, Juan Luis; Díaz de La Paz, Lisandra; González González, Luisa Manuela; Nuñez Arcia, Yaisel; Leiva Mederos, Amed Abel; Universidad Central ”Marta Abreu” de Las Villas. Departamento Ciencia de la Computación; Universidad Central ”Marta Abreu” de Las Villas, Centro de Investigaciones de la Informática; Universidad Central ”Marta Abreu” de Las Villas, Departamento Ciencia de la Información
MARC 21 constituye uno de los estándares más utilizados para la catalogación de registros bibliográficos. Según los resultados del procesamiento de encuestas aplicadas a especialistas en Ciencias de la Información de la Universidad Central “Marta Abreu” de Las Villas, uno de los principales problemas de calidad de datos que presentan los registros bibliográficos en este formato es la incompletitud de sus datos. Por consiguiente, el presente trabajo tiene como objetivo medir la dimensión de calidad de datos completitud de registros bibliográficos en formato MARC 21. En el proceso de medición de la completitud se utilizaron dos métricas propuestas en la literatura para metadatos. Como principal resultado se implementó la herramienta CompMARC que utiliza ambas métricas y determina el grado de completitud de estos registros a partir de los umbrales propuestos en este trabajo.
Acceso Abierto
Weights Estimation in the Completeness Measurement of Bibliographic Metadata
(2021) Díaz de La Paz, Lisandra; Riestra Collado, Francisco Noelvi; García Mendoza, Juan Luis; González González, Luisa Manuela; Leiva Mederos, Amed Abel; Taboada Crispi, Alberto; Universidad Central ”Marta Abreu” de Las Villas. Departamento Ciencia de la Computación; Universidad Central ”Marta Abreu” de Las Villas, Departamento Ciencia de la Información; Universidad Central ”Marta Abreu” de Las Villas, Centro de Investigaciones de la Informática; Meliá Las Dunas Cayo de Santa María; Instituto Nacional de Astrofísica, Óptica y Electrónica, México
The Weighted completeness metrics for metadata use a weighting factor to indicate the importance of each ﬁeld. In the case of bibliographic metadata, a common way of representing the importance of a ﬁeld is its frequency of appearance in a given repository. The inaccuracy of this method is why we need to recalculate the weights as the volume of the repository grows. In this paper, we used the Particle Swarm Optimization (PSO) method in the estimation of the weights for the completeness metrics of bibliographic metadata. This method is independent of the metadata format, of the collection and the volume of the repository used. As part of this work, we deﬁned the ﬁtness function of the PSO method to reﬂect the importance levels of the ﬁelds. Finally, we presented a case study with the estimated weights and the calculated completeness of the bibliographic records described at the full cataloging level in MARC 21 format.

Examinar

Examinando Centro de Investigaciones de la Informática (CII) por Autor "Díaz de La Paz, Lisandra"

Resultados por página

Opciones de ordenación