Adecuación a un procedimiento de minería de datos para guiar la categorización no supervisada

Fecha

2016-06-10

Autores

Rodriguez León, Ciro

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

Cada día la cantidad de datos generados por las sociedades modernas aumenta extraordinariamente. Las potencialidades de su correcto procesamiento y conversión en información relevante, son enormes. Con el objetivo de guiar este proceso y hacerlo más sencillo se han creado varios procedimientos de minería de datos. Estos procedimientos son de propósito general, por tanto, están diseñados para ser usados en una amplia gama de problemas y ninguno contiene técnicas y/o algoritmos que se ajusten a circunstancias específicas. Entonces, procesos importantes como la categorización de instancias no supervisadas, en conjuntos de datos tipo atributo-valor, son todavía complejos. En la presente investigación las fases de un procedimiento de minería de datos conocido como CRISP-DM fueron adecuadas para la categorización de instancias no supervisadas de conjuntos de datos tipo atributo-valor. CRISP-DM fue elegida sobre otros procedimientos, como el proceso KDD y SEMMA, por ser de libre distribución, independiente de la aplicación y la más usada por los expertos en el campo. Por último, las fases adecuadas de CRISP-DM fueron validadas mediante un caso de estudio relacionado con la diabetes mellitus tipo 2 en la provincia de Cienfuegos. Después de un estudio inicial, los pacientes fueron analizados, independientemente, por género. Los resultados mostraron tres grupos para los pacientes masculinos y cuatro para los femeninos; todos los grupos fueron interpretados como niveles de riesgo de complicaciones futuras de la enfermedad.
Each day the amount of data generated by modern societies increases massively. The potential for its correct processing and conversion into relevant information is enormous. With the goal of guiding this process and making it simpler, several data mining proceeding have been proposed. These procedures are of general purpose; therefore, they are designed to be used in a wide range of problems and none of them contains techniques and/or algorithms that fit specific situations. So, important processes such as the categorization of unsupervised instances, in datasets of type attribute-value, are still complex. In the present research, the phases of a data mining procedure known as CRISP-DM were particularized for the categorization of unsupervised instances from datasets of type attribute-value. CRISP-DM was picked over other existing procedures, such as the KDD process and SEMMA, for being of free distribution, independent of the application and the most used by experts in the field. Finally, the particularized phases of CRISP-DM were validated with a study case concerning type-2 diabetes mellitus in the province of Cienfuegos. After an initial study, the patients were analyzed, independently, by gender. Results showed three clusters for male patients and four for female patients; all clusters were interpreted as risk levels for future disease complications.

Descripción

Palabras clave

Adecuación, Procedimiento, Minería de Datos, Guía, Categorización no Supervisada, Inteligencia Artificial

Citación