Marco de trabajo para estandarizar campos tipo cadena

Fecha

2008-06-22

Autores

Rodríguez Durán, Karel

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

En los Sistemas de bases de datos frecuentemente se introducen errores tipográficos en los datos, lo cual en principio puede traer graves consecuencias en las respuestas a solicitudes que se hagan sobre la información; pero esto puede tener aún mayor incidencia si las bases de datos de los sistemas operacionales son fuentes de Almacenes de datos, pues la presencia de estos valores erróneos puede influir negativamente en el proceso de toma de decisiones. Estos errores y otros, producto de malas transcripciones o al entrar los datos hacen que la misma información sea representada de formas diferentes. En la limpieza de datos el paso de estandarizar la información conduce a la eliminación de estos problemas y constituye un importante paso en el proceso de limpieza. En este trabajo se expone un marco de trabajo para realizar la estandarización, se describen las fases de análisis y diseño de la herramienta que implementa este marco de trabajo, así como los algoritmos utilizados para llevar a cabo este proceso.
In Database Systems often are introduced typographical errors in the data, which in principle can have grave consequences on responses to requests that are made on information, but this can have even greater impact if the databases of operational systems are sources of datawarehouses, since the presence of these erroneous values may adversely affect the decision-making process. These errors and others, the product of bad transcripts or to enter data make the same information is represented in different ways. In data cleaning the step to standardize the information leads to the elimination of these problems and it is an important step in the cleaning process. This paper presents a framework for conducting the standardization, describes the stages of analysis and design tool that implements this framework, as well as the algorithms used to carry out this process.

Descripción

Palabras clave

Bases de Datos, Estandarización, Distancia de Edición, Levenshtein, Clusterización, K-Medoides

Citación