Marco de trabajo para estandarizar campos tipo cadena

dc.contributor.advisorLópez Porrero, Beatriz Eugenia
dc.contributor.advisorPérez Vázquez, Ramiro Alberto
dc.contributor.authorRodríguez Durán, Karel
dc.coverage.spatialSanta Claraen_US
dc.date.accessioned2018-05-31T15:29:35Z
dc.date.available2018-05-31T15:29:35Z
dc.date.issued2008-06-22
dc.description.abstractEn los Sistemas de bases de datos frecuentemente se introducen errores tipográficos en los datos, lo cual en principio puede traer graves consecuencias en las respuestas a solicitudes que se hagan sobre la información; pero esto puede tener aún mayor incidencia si las bases de datos de los sistemas operacionales son fuentes de Almacenes de datos, pues la presencia de estos valores erróneos puede influir negativamente en el proceso de toma de decisiones. Estos errores y otros, producto de malas transcripciones o al entrar los datos hacen que la misma información sea representada de formas diferentes. En la limpieza de datos el paso de estandarizar la información conduce a la eliminación de estos problemas y constituye un importante paso en el proceso de limpieza. En este trabajo se expone un marco de trabajo para realizar la estandarización, se describen las fases de análisis y diseño de la herramienta que implementa este marco de trabajo, así como los algoritmos utilizados para llevar a cabo este proceso.en_US
dc.description.abstractIn Database Systems often are introduced typographical errors in the data, which in principle can have grave consequences on responses to requests that are made on information, but this can have even greater impact if the databases of operational systems are sources of datawarehouses, since the presence of these erroneous values may adversely affect the decision-making process. These errors and others, the product of bad transcripts or to enter data make the same information is represented in different ways. In data cleaning the step to standardize the information leads to the elimination of these problems and it is an important step in the cleaning process. This paper presents a framework for conducting the standardization, describes the stages of analysis and design tool that implements this framework, as well as the algorithms used to carry out this process.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento de Ciencias de la Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/9444
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectBases de Datosen_US
dc.subjectEstandarizaciónen_US
dc.subjectDistancia de Ediciónen_US
dc.subjectLevenshteinen_US
dc.subjectClusterizaciónen_US
dc.subjectK-Medoidesen_US
dc.subject.otherBase de Datosen_US
dc.subject.otherNormalizaciónen_US
dc.subject.otherLimpieza de Datosen_US
dc.titleMarco de trabajo para estandarizar campos tipo cadenaen_US
dc.typeThesisen_US
dc.type.thesisbacheloren_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Marco de trabajo para estandarizar campos tipo cadena.pdf
Tamaño:
912.92 KB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: