Centro de Investigaciones de la Informática (CII)
URI permanente para esta comunidad
En esta comunidad se agrupan las colecciones que recogen la producción científica del Centro de Investigaciones de la Informática en la UCLV.
Examinar
Examinando Centro de Investigaciones de la Informática (CII) por Autor "Díaz de La Paz, Lisandra"
Mostrando 1 - 3 de 3
Resultados por página
Opciones de ordenación
Ítem Acceso Abierto Algoritmo para corregir anomalías a nivel de instancia en grandes volúmenes de datos utilizando MapReduce(2016) Nuñez Arcia, Yaisel; Díaz de La Paz, Lisandra; García Mendoza, Juan Luis; Universidad Central ”Marta Abreu” de Las Villas. Departamento Ciencia de la Computación; Universidad Central ”Marta Abreu” de Las Villas, Centro de Investigaciones de la InformáticaLos problemas de calidad de datos a nivel de instancia tienen un impacto directo en la toma de decisiones de las organizaciones y afectan su desempeño. A medida que crece desmedidamente la información es mayor la probabilidad de que se encuentren dichos problemas en los datos. En este trabajo se presenta un algoritmo para corregir anomalías a nivel de instancia en fuentes de datos big data con formato estructurado o semi-estructurado. Como método de agrupamiento se utiliza el algoritmo K-means, para calcular la distancia de edición entre las cadenas se aplica la modificación de Levenshtein y para manejar el volumen de los datos se utiliza el modelo de programación distribuida MapReduce. Además, con el fin de mejorar la calidad de los datos se propusieron las siguientes cuatro fases: identificación del tipo de fuente de datos, el formato de los datos y el problema a corregir; pre-procesamiento de los datos; agrupamiento de los datos y limpieza de los datos.Ítem Acceso Abierto Herramienta CompMARC para la medición de la completitud de registros bibliográficos en formato MARC 21(2016) García Mendoza, Juan Luis; Díaz de La Paz, Lisandra; González González, Luisa Manuela; Nuñez Arcia, Yaisel; Leiva Mederos, Amed Abel; Universidad Central ”Marta Abreu” de Las Villas. Departamento Ciencia de la Computación; Universidad Central ”Marta Abreu” de Las Villas, Centro de Investigaciones de la Informática; Universidad Central ”Marta Abreu” de Las Villas, Departamento Ciencia de la InformaciónMARC 21 constituye uno de los estándares más utilizados para la catalogación de registros bibliográficos. Según los resultados del procesamiento de encuestas aplicadas a especialistas en Ciencias de la Información de la Universidad Central “Marta Abreu” de Las Villas, uno de los principales problemas de calidad de datos que presentan los registros bibliográficos en este formato es la incompletitud de sus datos. Por consiguiente, el presente trabajo tiene como objetivo medir la dimensión de calidad de datos completitud de registros bibliográficos en formato MARC 21. En el proceso de medición de la completitud se utilizaron dos métricas propuestas en la literatura para metadatos. Como principal resultado se implementó la herramienta CompMARC que utiliza ambas métricas y determina el grado de completitud de estos registros a partir de los umbrales propuestos en este trabajo.Ítem Acceso Abierto Weights Estimation in the Completeness Measurement of Bibliographic Metadata(2021) Díaz de La Paz, Lisandra; Riestra Collado, Francisco Noelvi; García Mendoza, Juan Luis; González González, Luisa Manuela; Leiva Mederos, Amed Abel; Taboada Crispi, Alberto; Universidad Central ”Marta Abreu” de Las Villas. Departamento Ciencia de la Computación; Universidad Central ”Marta Abreu” de Las Villas, Departamento Ciencia de la Información; Universidad Central ”Marta Abreu” de Las Villas, Centro de Investigaciones de la Informática; Meliá Las Dunas Cayo de Santa María; Instituto Nacional de Astrofísica, Óptica y Electrónica, MéxicoThe Weighted completeness metrics for metadata use a weighting factor to indicate the importance of each field. In the case of bibliographic metadata, a common way of representing the importance of a field is its frequency of appearance in a given repository. The inaccuracy of this method is why we need to recalculate the weights as the volume of the repository grows. In this paper, we used the Particle Swarm Optimization (PSO) method in the estimation of the weights for the completeness metrics of bibliographic metadata. This method is independent of the metadata format, of the collection and the volume of the repository used. As part of this work, we defined the fitness function of the PSO method to reflect the importance levels of the fields. Finally, we presented a case study with the estimated weights and the calculated completeness of the bibliographic records described at the full cataloging level in MARC 21 format.