Limpieza de datos: reemplazo de valores ausentes y estandarización

dc.contributor.advisorPérez Vázquez, Ramiro Alberto
dc.contributor.authorLópez Porrero, Beatriz Eugenia
dc.coverage.spatial1016432en_US
dc.date.accessioned2016-12-06T23:46:04Z
dc.date.available2016-12-06T23:46:04Z
dc.date.issued2011-01-25
dc.description.abstractLa limpieza de datos es un proceso de gran importancia cuando se quiere asegurar la calidad de los mismos. Aunque existen varias herramientas que permiten realizar distintas tareas relacionadas con la limpieza de datos, por diferentes circunstancias estas no son de fácil acceso para los especialistas de nuestro país. En este trabajo se hace un estudio de los principales tipos de errores que pueden aparecer en las bases de datos, proponiéndose una taxonomía de errores para las bases de datos cubanas, en que se constata que algunos de los que más se presentan son la forma no estándar de representar campos de tipo cadenas de caracteres y la ausencia de información. Se propuso una modificación de la distancia de edición de Levenshtein, un marco de trabajo para la estandarización de cadenas de caracteres y un método de trabajo para realizar en el ambiente de las bases de datos el reemplazo de los valores ausentes. Se obtuvieron las herramientas DBAnalyzer, que ayuda a la detección de errores en los datos, DBStandard, que permite la estandarización de las cadenas de caracteres, aplicando una modificación a la distancia de edición de Levenshtein y DbNulos, que ofrece un asistente que ayuda al especialista a la selección de los métodos para la sustitución de los valores ausentes. Las herramientas han sido aplicadas en varias empresas que validan la efectividad del uso de las mismas, como por ejemplo en las bases de datos de Recursos Humanos de la Universidad Central, de la ONAT (Oficina Nacional de Administración Tributaria) de Ranchuelo, del Departamento de Anatomía patológica del Hospital Provincial de Villa Clara y otras.en_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/7213
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación. Departamento Ciencias de la Computaciónen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectLimpieza de Datosen_US
dc.subjectReemplazoen_US
dc.subjectValores Ausentesen_US
dc.subjectEstandarizaciónen_US
dc.subjectTaxonomía de erroresen_US
dc.subjectBases de Datos Cubanasen_US
dc.subjectHerramientas Computacionalesen_US
dc.subjectEntorno Empresarialen_US
dc.titleLimpieza de datos: reemplazo de valores ausentes y estandarizaciónen_US
dc.typeThesisen_US
dc.type.thesisphden_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Tesis Doctorado Beatriz.pdf
Tamaño:
1.37 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: