Implementación de una versión mejorada del sistema para la sustitución de valores nulos en una base de datos

Cargando...
Miniatura

Autores

Caso Montero, Noraida

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas.

Resumen

En la literatura se han reportado varias técnicas para el tratamiento de valores faltantes. Un tratamiento muy común a los datos perdidos de una base de datos es el reemplazo por un valor calculado a partir de la información que se obtiene de los valores de la tabla. Con el reemplazo de los valores faltantes se busca que al eliminar el valor perdido en su lugar quede un valor cercano al valor ausente, para lograr esto es necesario aplicar el método apropiado lo que conlleva a la necesidad de un estudio detallado de los métodos de reemplazo. Aprovechar la información contenida en los patrones de valores faltantes puede ayudar a decidir el método a utilizar y lograr un reemplazo eficiente de los valores perdidos. En este trabajo se expone las clasificaciones de los problemas de calidad de los datos que se pueden solucionar con la limpieza de datos, se plantea el concepto de valor ausente y nulo; así como la clasificación de patrones de valores nulos. Además se destaca cómo el proceso de imputación de estos valores forma parte de la limpieza de datos que es necesario llevar a cabo cuando se produce la carga de los datos operacionales en un almacén o cuando se va a hacer un proceso de minería de datos para la toma de decisiones. Se explican algunas técnicas reportadas en la literatura para solucionar los problemas ocasionados por la existencia de datos ausentes y nulos dentro de las bases de datos y se presenta una herramienta a la que se le añadió el método regresión múltiple para reemplazar valores faltante que forman parte de patrones de valores faltantes monótonos y se constató la utilidad y eficiencia de este método y de los métodos ya existentes.
In literature has been published several techniques for the treatment of missing values. A very common treatment to lost data of a data base is the replacement for a value calculated as from the information that gets from the values of a table. With the replacement of missing values, searches to eliminate the lost value and in its place leave a close value to the missing one, in order to achieve this it is necessary to apply the appropriated method which yields to the need of a detail study of replacement's methods. Making good use of the information contained in the patterns of missing values can help to decide the method to utilize and to achieve an efficient replacement of lost values. The classifications of the problems of quality of the data that can get solved with the data cleaning are exposed in this work, the concept of missing and void value is presented; as well as the kind of void values. Besides stands out how the imputation process of these values is a part of the data cleaning that is necessary to achieve in the moment of the load of operational data at a store or when a process of data mining for the decision taking do. The literature explains some techniques which solve problems caused by the existence of missing and void data within databases and offer a tool to which add the multiple regression method to replace missing values that are a part of patterns of missing monotonous values verifying its utility and efficiency as well as of the others existent methods.

Descripción

Citación

Aprobación

Revisión

Complementado por

Referenciado por