Estandarización de cadenas en grandes volúmenes de información

dc.contributor.advisorLópez Porrero, Beatriz Eugenia
dc.contributor.advisorPérez Vázquez, Ramiro Alberto
dc.contributor.authorBatule Domínguez, Mavelyn
dc.coverage.spatialSanta Claraen_US
dc.date.accessioned2018-05-31T20:18:23Z
dc.date.available2018-05-31T20:18:23Z
dc.date.issued2009-07-03
dc.description.abstractEn la actualidad la administración de grandes volúmenes de datos es cada vez más frecuente, los mismos conforman la base para la toma de decisiones y la gestión del conocimiento; por tanto, contar con datos normalizados resulta imprescindible. La estandarización, como parte de la limpieza de datos, es la encargada de dar solución a esta problemática. La herramienta DBStandardS fue creada para automatizar el proceso de estandarizar los campos tipo cadena, utilizando para esto la formación de grupos de elementos semejantes. Su puesta en práctica mostró varias deficiencias en presencia de grandes volúmenes de información, provocadas fundamentalmente por una demora inadmisible en el paso de agrupamiento de cadenas; haciéndose necesario la incorporación de un método más eficiente. En esta investigación se propone una modificación de los algoritmos sugeridos en la literatura de forma tal que las operaciones de intercambio se realicen solo entre objetos de un mismo cluster, buscando un equilibrio entre calidad de grupos formados y tiempo de ejecución del algoritmo. Su implementación, junto a otros cambios, conforman las novedades de la segunda versión del software, obteniéndose un producto con mucho más alcance.en_US
dc.description.abstractNowadays the great data volumes management is more frequent. These conform the base for the taking of decisions and the administration of the knowledge. Therefore, to have normalized data is indispensable. The standardization, like part of the cleaning of data, is the one in charge of giving solution to this problem. The tool DBStandardS was created to automate the process of standardizing the fields type chain, using for this the clustering of similar elements. Its setting in practice showed several deficiencies in presence of big volumes of information, provoked fundamentally for an inadmissible delay in the step of cluster of chains; becoming necessary the incorporation of a more efficient method. This investigation proposes a modification of the algorithms suggested in the literature in such way that the exchange operations are carried out alone among objects of oneself cluster. The implementation of the algorithm, next to other changes, it conform the novelties of the second version of the software, being obtained a product with much more reach.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento de Ciencias de la Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/9453
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectBases de Datosen_US
dc.subjectEstandarizaciónen_US
dc.subjectLimpieza de Datosen_US
dc.subjectAgrupamiento de Cadenasen_US
dc.subjectDBStandardSen_US
dc.subjectGestión del Conocimientoen_US
dc.subject.otherBases de Datosen_US
dc.subject.otherNormalizaciónen_US
dc.subject.otherLimpieza de Datosen_US
dc.subject.otherAutomatizaciónen_US
dc.subject.otherGestión del Conocimientoen_US
dc.titleEstandarización de cadenas en grandes volúmenes de informaciónen_US
dc.typeThesisen_US
dc.type.thesisbacheloren_US

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Tesis Mavelyn Batule.pdf
Tamaño:
540.55 KB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: