Estandarización de cadenas en grandes volúmenes de información

Batule Domínguez, Mavelyn

Estandarización de cadenas en grandes volúmenes de información

Archivos

Tesis Mavelyn Batule.pdf (540.55 KB)

Fecha

2009-07-03

Autores

Batule Domínguez, Mavelyn

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

En la actualidad la administración de grandes volúmenes de datos es cada vez más frecuente, los mismos conforman la base para la toma de decisiones y la gestión del conocimiento; por tanto, contar con datos normalizados resulta imprescindible. La estandarización, como parte de la limpieza de datos, es la encargada de dar solución a esta problemática. La herramienta DBStandardS fue creada para automatizar el proceso de estandarizar los campos tipo cadena, utilizando para esto la formación de grupos de elementos semejantes. Su puesta en práctica mostró varias deficiencias en presencia de grandes volúmenes de información, provocadas fundamentalmente por una demora inadmisible en el paso de agrupamiento de cadenas; haciéndose necesario la incorporación de un método más eficiente. En esta investigación se propone una modificación de los algoritmos sugeridos en la literatura de forma tal que las operaciones de intercambio se realicen solo entre objetos de un mismo cluster, buscando un equilibrio entre calidad de grupos formados y tiempo de ejecución del algoritmo. Su implementación, junto a otros cambios, conforman las novedades de la segunda versión del software, obteniéndose un producto con mucho más alcance.
Nowadays the great data volumes management is more frequent. These conform the base for the taking of decisions and the administration of the knowledge. Therefore, to have normalized data is indispensable. The standardization, like part of the cleaning of data, is the one in charge of giving solution to this problem. The tool DBStandardS was created to automate the process of standardizing the fields type chain, using for this the clustering of similar elements. Its setting in practice showed several deficiencies in presence of big volumes of information, provoked fundamentally for an inadmissible delay in the step of cluster of chains; becoming necessary the incorporation of a more efficient method. This investigation proposes a modification of the algorithms suggested in the literature in such way that the exchange operations are carried out alone among objects of oneself cluster. The implementation of the algorithm, next to other changes, it conform the novelties of the second version of the software, being obtained a product with much more reach.

Palabras clave

Bases de Datos, Estandarización, Limpieza de Datos, Agrupamiento de Cadenas, DBStandardS, Gestión del Conocimiento

URI

https://dspace.uclv.edu.cu/handle/123456789/9453

Colecciones

Tesis de Pregrado - Licenciatura en Ciencias de la Computación

Descargar Referencia Bibliográfica

Página completa del ítem

Estandarización de cadenas en grandes volúmenes de información

Archivos

Fecha

Autores

Título de la revista

ISSN de la revista

Título del volumen

Editor

Resumen

Descripción

Palabras clave

Citación

URI

Colecciones

Descargar Referencia Bibliográfica