Mejoras de la clasificación en interacciones de proteínas de la Arabidopsis Thaliana utilizando técnicas para conjuntos de datos desbalanceados

Fecha

2016

Autores

Castillo Sánchez, Ana Caridad

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

En la actualidad, constituye un reto lograr la correcta clasificación de grandes conjuntos de datos usando aprendizaje automatizado. En problemas de Bioinformática es muy común tener grandes bases de casos, las cuales en algunas ocasiones son desbalanceadas, siendo la clase minoritaria casi siempre la de principal interés de investigación. Este trabajo se enmarca en la predicción de interacciones de proteínas, donde el conjunto de datos pertenece a la interacción de proteínas en la Arabidopsis Thaliana y precisamente la clase minoritaria es aquella que representa a las proteínas que interactúan. Como resultado de este trabajo se presenta la aplicación de diferentes técnicas para tratar el desbalance existente en los datos, tanto dirigidas a los atributos como a las instancias, además de los resultados que se alcanzan al aplicar diversos métodos de clasificación. La experimentación se realiza utilizando dos herramientas: WEKA (Waikato Environment for Knowledge Analysis) y KEEL (Knowledge Extraction based on Evolutionary Learning). Para hacer la selección del mejor clasificador se aplican las medidas más conocidas basadas en la matriz de confusión: razón de Verdaderos Positivos (VP), área bajo la Curva de Operación del Receptor (ROC), la Exactitud (Accuracy, en inglés), la medida-F (F-Measure, en inglés) y las curvas Precision_Recall (PRC). Finalmente se demuestra que utilizando las técnicas de desbalance como pre-procesamiento de los datos, se logra mejorar los resultados de la clasificación en la base Arabidopsis Thaliana, respecto a los ya alcanzados hasta el momento.
At present, it is challenging to correctly classify large datasets using automated learning. In Bioinformatics problems it is very common to have large case bases, which are sometimes unbalanced, with the minority class almost always being the main research interest. This work is framed in the prediction of protein interactions, where the dataset belongs to the interaction of proteins in Arabidopsis Thaliana and precisely the minority class is that which represents the interacting proteins. As a result of this work we present the application of different techniques to deal with the imbalance in the data, both for the attributes and the instances, as well as the results achieved by applying different classification methods. The experimentation is carried out using two tools: WEKA (Waikato Environment for Knowledge Analysis) and KEEL (Knowledge Extraction based on Evolutionary Learning). In order to make the selection of the best classifier, the most known measures based on the confusion matrix are applied: True Positive Ratio (VP), area under the Receiver Operating Curve (ROC), Accuracy, (F-Measure) and Precision_Recall (PRC) curves. Finally, it is shown that using the unbalance techniques as pre-processing of the data, it is possible to improve the results of the classification in the base Arabidopsis Thaliana, compared to those already achieved so far.

Descripción

Palabras clave

Técnicas de Preprocesamiento, Datos Desbalanceados, Métodos de Clasificación, Waikato environment for knowledge analysis (Weka), Knowledge extraction based on evolutionary learning (Keel), Interacción de Proteínas, Bioinformática

Citación