Adecuación a un procedimiento de minería de datos para guiar la categorización no supervisada

Rodriguez León, CiroAdecuación a un procedimiento de minería de datos para guiar la categorización no supervisadaUniversidad Central “Marta Abreu” de Las Villas2016AdecuaciónProcedimientoMinería de DatosGuíaCategorización no SupervisadaInteligencia ArtificialMinería de DatosGuía MetodológicaCategorizaciónAprendizaje no SupervisadoProcedimiento de MejoraValidaciónInteligencia ArtificialMy UniversityMy UniversityGarcía Lorenzo, María Matilde2018-04-132018-04-132016-06-10esThesishttps://dspace.uclv.edu.cu/handle/123456789/9235Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 LicenseCada día la cantidad de datos generados por las sociedades modernas aumenta extraordinariamente. Las potencialidades de su correcto procesamiento y conversión en información relevante, son enormes. Con el objetivo de guiar este proceso y hacerlo más sencillo se han creado varios procedimientos de minería de datos. Estos procedimientos son de propósito general, por tanto, están diseñados para ser usados en una amplia gama de problemas y ninguno contiene técnicas y/o algoritmos que se ajusten a circunstancias específicas. Entonces, procesos importantes como la categorización de instancias no supervisadas, en conjuntos de datos tipo atributo-valor, son todavía complejos. En la presente investigación las fases de un procedimiento de minería de datos conocido como CRISP-DM fueron adecuadas para la categorización de instancias no supervisadas de conjuntos de datos tipo atributo-valor. CRISP-DM fue elegida sobre otros procedimientos, como el proceso KDD y SEMMA, por ser de libre distribución, independiente de la aplicación y la más usada por los expertos en el campo. Por último, las fases adecuadas de CRISP-DM fueron validadas mediante un caso de estudio relacionado con la diabetes mellitus tipo 2 en la provincia de Cienfuegos. Después de un estudio inicial, los pacientes fueron analizados, independientemente, por género. Los resultados mostraron tres grupos para los pacientes masculinos y cuatro para los femeninos; todos los grupos fueron interpretados como niveles de riesgo de complicaciones futuras de la enfermedad.Each day the amount of data generated by modern societies increases massively. The potential for its correct processing and conversion into relevant information is enormous. With the goal of guiding this process and making it simpler, several data mining proceeding have been proposed. These procedures are of general purpose; therefore, they are designed to be used in a wide range of problems and none of them contains techniques and/or algorithms that fit specific situations. So, important processes such as the categorization of unsupervised instances, in datasets of type attribute-value, are still complex. In the present research, the phases of a data mining procedure known as CRISP-DM were particularized for the categorization of unsupervised instances from datasets of type attribute-value. CRISP-DM was picked over other existing procedures, such as the KDD process and SEMMA, for being of free distribution, independent of the application and the most used by experts in the field. Finally, the particularized phases of CRISP-DM were validated with a study case concerning type-2 diabetes mellitus in the province of Cienfuegos. After an initial study, the patients were analyzed, independently, by gender. Results showed three clusters for male patients and four for female patients; all clusters were interpreted as risk levels for future disease complications.