Estandarización de cadenas en grandes volúmenes de información
Fecha
2009-07-03
Autores
Batule Domínguez, Mavelyn
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Central “Marta Abreu” de Las Villas
Resumen
En la actualidad la administración de grandes volúmenes de datos es cada vez más frecuente, los mismos conforman la base para la toma de decisiones y la gestión del conocimiento; por tanto, contar con datos normalizados resulta imprescindible. La estandarización, como parte de la limpieza de datos, es la encargada de dar solución a esta problemática. La herramienta DBStandardS fue creada para automatizar el proceso de estandarizar los campos tipo cadena, utilizando para esto la formación de grupos de elementos semejantes. Su puesta en práctica mostró varias deficiencias en presencia de grandes volúmenes de información, provocadas fundamentalmente por una demora inadmisible en el paso de agrupamiento de cadenas; haciéndose necesario la incorporación de un método más eficiente. En esta investigación se propone una modificación de los algoritmos sugeridos en la literatura de forma tal que las operaciones de intercambio se realicen solo entre objetos de un mismo cluster, buscando un equilibrio entre calidad de grupos formados y tiempo de ejecución del algoritmo. Su implementación, junto a otros cambios, conforman las novedades de la segunda versión del software, obteniéndose un producto con mucho más alcance.
Nowadays the great data volumes management is more frequent. These conform the base for the taking of decisions and the administration of the knowledge. Therefore, to have normalized data is indispensable. The standardization, like part of the cleaning of data, is the one in charge of giving solution to this problem. The tool DBStandardS was created to automate the process of standardizing the fields type chain, using for this the clustering of similar elements. Its setting in practice showed several deficiencies in presence of big volumes of information, provoked fundamentally for an inadmissible delay in the step of cluster of chains; becoming necessary the incorporation of a more efficient method. This investigation proposes a modification of the algorithms suggested in the literature in such way that the exchange operations are carried out alone among objects of oneself cluster. The implementation of the algorithm, next to other changes, it conform the novelties of the second version of the software, being obtained a product with much more reach.
Nowadays the great data volumes management is more frequent. These conform the base for the taking of decisions and the administration of the knowledge. Therefore, to have normalized data is indispensable. The standardization, like part of the cleaning of data, is the one in charge of giving solution to this problem. The tool DBStandardS was created to automate the process of standardizing the fields type chain, using for this the clustering of similar elements. Its setting in practice showed several deficiencies in presence of big volumes of information, provoked fundamentally for an inadmissible delay in the step of cluster of chains; becoming necessary the incorporation of a more efficient method. This investigation proposes a modification of the algorithms suggested in the literature in such way that the exchange operations are carried out alone among objects of oneself cluster. The implementation of the algorithm, next to other changes, it conform the novelties of the second version of the software, being obtained a product with much more reach.
Descripción
Palabras clave
Bases de Datos, Estandarización, Limpieza de Datos, Agrupamiento de Cadenas, DBStandardS, Gestión del Conocimiento