Marco de trabajo para estandarizar campos tipo cadena
dc.contributor.advisor | López Porrero, Beatriz Eugenia | |
dc.contributor.advisor | Pérez Vázquez, Ramiro Alberto | |
dc.contributor.author | Rodríguez Durán, Karel | |
dc.coverage.spatial | Santa Clara | en_US |
dc.date.accessioned | 2018-05-31T15:29:35Z | |
dc.date.available | 2018-05-31T15:29:35Z | |
dc.date.issued | 2008-06-22 | |
dc.description.abstract | En los Sistemas de bases de datos frecuentemente se introducen errores tipográficos en los datos, lo cual en principio puede traer graves consecuencias en las respuestas a solicitudes que se hagan sobre la información; pero esto puede tener aún mayor incidencia si las bases de datos de los sistemas operacionales son fuentes de Almacenes de datos, pues la presencia de estos valores erróneos puede influir negativamente en el proceso de toma de decisiones. Estos errores y otros, producto de malas transcripciones o al entrar los datos hacen que la misma información sea representada de formas diferentes. En la limpieza de datos el paso de estandarizar la información conduce a la eliminación de estos problemas y constituye un importante paso en el proceso de limpieza. En este trabajo se expone un marco de trabajo para realizar la estandarización, se describen las fases de análisis y diseño de la herramienta que implementa este marco de trabajo, así como los algoritmos utilizados para llevar a cabo este proceso. | en_US |
dc.description.abstract | In Database Systems often are introduced typographical errors in the data, which in principle can have grave consequences on responses to requests that are made on information, but this can have even greater impact if the databases of operational systems are sources of datawarehouses, since the presence of these erroneous values may adversely affect the decision-making process. These errors and others, the product of bad transcripts or to enter data make the same information is represented in different ways. In data cleaning the step to standardize the information leads to the elimination of these problems and it is an important step in the cleaning process. This paper presents a framework for conducting the standardization, describes the stages of analysis and design tool that implements this framework, as well as the algorithms used to carry out this process. | en_US |
dc.description.sponsorship | Facultad de Matemática, Física y Computación. Departamento de Ciencias de la Computación | en_US |
dc.description.status | non-published | en_US |
dc.identifier.uri | https://dspace.uclv.edu.cu/handle/123456789/9444 | |
dc.language.iso | es | en_US |
dc.publisher | Universidad Central “Marta Abreu” de Las Villas | en_US |
dc.rights | Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 License | en_US |
dc.subject | Bases de Datos | en_US |
dc.subject | Estandarización | en_US |
dc.subject | Distancia de Edición | en_US |
dc.subject | Levenshtein | en_US |
dc.subject | Clusterización | en_US |
dc.subject | K-Medoides | en_US |
dc.subject.other | Base de Datos | en_US |
dc.subject.other | Normalización | en_US |
dc.subject.other | Limpieza de Datos | en_US |
dc.title | Marco de trabajo para estandarizar campos tipo cadena | en_US |
dc.type | Thesis | en_US |
dc.type.thesis | bachelor | en_US |
Archivos
Bloque original
1 - 1 de 1
Cargando...
- Nombre:
- Marco de trabajo para estandarizar campos tipo cadena.pdf
- Tamaño:
- 912.92 KB
- Formato:
- Adobe Portable Document Format
Bloque de licencias
1 - 1 de 1
No hay miniatura disponible
- Nombre:
- license.txt
- Tamaño:
- 3.33 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción: