Sistema de apoyo a la toma de decisiones para la realización de coronariografías utilizando técnicas de minería de datos

Fecha

2016-05-20

Autores

González Camacho, Beyda

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

La Minería de Datos es muy utilizada en casi todas las ramas de la ciencia, en especial en la medicina. Los datos recopilados en el Salón de Hemodinámica del Cardiocentro “Ernesto Che Guevara” pueden utilizarse en una aplicación de Minería de Datos. La aplicación de técnicas de preprocesamiento a los datos debe disminuir la complejidad del conjunto de datos. De las metodologías del Aprendizaje Automático Supervisado, la Clasificación es la que se utiliza cuando los datos están estructurados por clases y las medidas de exactitud ayudan a elegir el mejor modelo de clasificación. Se realizaron, manualmente, las tareas de limpieza de datos y normalización. Para imputar los valores perdidos se compararon tres algoritmos, de ellos el que mejor comportamiento mostró fue KMI. Para la selección de atributos se compararon los resultados de dos algoritmos: ConsistencySubsetEval y ReliefFAttributeEval, este último con dos variantes. Aunque los tres resultados disminuyeron la complejidad del conjunto de datos, ninguno fue un ganador global. En la selección de instancias se confrontaron los resultados de tres métodos, de ellos el que mejor desempeño tuvo fue NCNEdit. Para seleccionar el mejor clasificador simple se compararon los algoritmos que mayor sensibilidad presentaban, el que mejor comportamiento mostró fue IBk. Se compararon tres metaclasificadores, el que mejor valores de exactitud mostró fue Stacking. Se realizó un experimento añadiéndole instancias artificiales al conjunto de entrenamiento para lograr un modelo más interpretable logrando con el algoritmo LMT altos valores de sensibilidad y especificidad. Se tuvieron en cuenta los costos al seleccionar el modelo final, el elegido fue CostSensitiveClassifier usando como algoritmo de base a Stacking. Se evaluó el modelo en la práctica médica y se compararon sus resultados con la clasificación realizada por un grupo de especialistas de alto nivel. Esta comparación arrojó que el sistema cometió casi la mitad de errores menos que los especialistas, a pesar de haber sido probado con un conjunto de casos valorado por los especialistas como difícil de clasificar.
Data mining is widely used in almost all branches of science, especially in medicine. Data collected in the Salón de Hemodinámica del Cardiocentro "Ernesto Che Guevara" can be used in a data mining application. The application of preprocessing techniques to data must decrease the complexity of the data set. From all the methodologies of Supervised Machine Learning, the Classification is used when data are structured by classes, and accuracy measures help choose the best classification model. The data cleansing and normalization tasks were performed manually. To impute missing values three algoritms were compared, who showed the best performance was KMI. For the selection of attributes the results of two algorithms were compared: ConsistencySubsetEval and ReliefFAttributeEval, the last one with two variants. Although the three results reduce complexity of the data set, none was a global winner. In selecting instances the results of three methods were compared, of which who had the best performance was NCNEdit. To select the best single classifier algorithms the algorithms with higher sensitivity were compared, the one who showed better performance was IBK. Three meta-classifiers were compared, who had better accuracy values was Stacking. An experiment was performed adding artificial instances to the training set to achieve a more interpretable model, the algorithm LMT achieve high values of sensitivity and specificity. Costs were taken into account when selecting the final model, the chosen was CostSensitiveClassifier using Stacking as base algorithm. The model was evaluated in medical practice and their results were compared with the classification made by a group of high-level specialists. This comparison showed that the system incurred in almost half of errors less than specialists, despite having been tested with a set of cases considered by specialists as difficult to classify.

Descripción

Palabras clave

Sistema de Apoyo, Toma de Decisiones, Coronariografías, Técnicas de Minería de Datos, Aprendizaje Automático Supervisado, Clasificación, Algoritmos, Hemodinámica, Cardiocentro “Ernesto Che Guevara”, Santa Clara

Citación