Mejoras de la clasificación en interacciones de proteínas de la Arabidopsis Thaliana utilizando técnicas para conjuntos de datos desbalanceados

Castillo Sánchez, Ana Caridad

Mejoras de la clasificación en interacciones de proteínas de la Arabidopsis Thaliana utilizando técnicas para conjuntos de datos desbalanceados

dc.contributor.advisor	Chávez Cárdenas, María del Carmen
dc.contributor.advisor	García Lorenzo, María Matilde
dc.contributor.advisor	Cabrera Hernández, Leidys
dc.contributor.author	Castillo Sánchez, Ana Caridad
dc.coverage.spatial	Santa Clara	en_US
dc.date.accessioned	2019-03-11T21:30:08Z
dc.date.available	2019-03-11T21:30:08Z
dc.date.issued	2016
dc.description.abstract	En la actualidad, constituye un reto lograr la correcta clasificación de grandes conjuntos de datos usando aprendizaje automatizado. En problemas de Bioinformática es muy común tener grandes bases de casos, las cuales en algunas ocasiones son desbalanceadas, siendo la clase minoritaria casi siempre la de principal interés de investigación. Este trabajo se enmarca en la predicción de interacciones de proteínas, donde el conjunto de datos pertenece a la interacción de proteínas en la Arabidopsis Thaliana y precisamente la clase minoritaria es aquella que representa a las proteínas que interactúan. Como resultado de este trabajo se presenta la aplicación de diferentes técnicas para tratar el desbalance existente en los datos, tanto dirigidas a los atributos como a las instancias, además de los resultados que se alcanzan al aplicar diversos métodos de clasificación. La experimentación se realiza utilizando dos herramientas: WEKA (Waikato Environment for Knowledge Analysis) y KEEL (Knowledge Extraction based on Evolutionary Learning). Para hacer la selección del mejor clasificador se aplican las medidas más conocidas basadas en la matriz de confusión: razón de Verdaderos Positivos (VP), área bajo la Curva de Operación del Receptor (ROC), la Exactitud (Accuracy, en inglés), la medida-F (F-Measure, en inglés) y las curvas Precision_Recall (PRC). Finalmente se demuestra que utilizando las técnicas de desbalance como pre-procesamiento de los datos, se logra mejorar los resultados de la clasificación en la base Arabidopsis Thaliana, respecto a los ya alcanzados hasta el momento.	en_US
dc.description.abstract	At present, it is challenging to correctly classify large datasets using automated learning. In Bioinformatics problems it is very common to have large case bases, which are sometimes unbalanced, with the minority class almost always being the main research interest. This work is framed in the prediction of protein interactions, where the dataset belongs to the interaction of proteins in Arabidopsis Thaliana and precisely the minority class is that which represents the interacting proteins. As a result of this work we present the application of different techniques to deal with the imbalance in the data, both for the attributes and the instances, as well as the results achieved by applying different classification methods. The experimentation is carried out using two tools: WEKA (Waikato Environment for Knowledge Analysis) and KEEL (Knowledge Extraction based on Evolutionary Learning). In order to make the selection of the best classifier, the most known measures based on the confusion matrix are applied: True Positive Ratio (VP), area under the Receiver Operating Curve (ROC), Accuracy, (F-Measure) and Precision_Recall (PRC) curves. Finally, it is shown that using the unbalance techniques as pre-processing of the data, it is possible to improve the results of the classification in the base Arabidopsis Thaliana, compared to those already achieved so far.	en_US
dc.description.sponsorship	Facultad de Matemática, Física y Computación. Departamento de Computación	en_US
dc.description.status	non-published	en_US
dc.identifier.uri	https://dspace.uclv.edu.cu/handle/123456789/10873
dc.language.iso	es	en_US
dc.publisher	Universidad Central “Marta Abreu” de Las Villas	en_US
dc.rights	Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 License	en_US
dc.subject	Técnicas de Preprocesamiento	en_US
dc.subject	Datos Desbalanceados	en_US
dc.subject	Métodos de Clasificación	en_US
dc.subject	Waikato environment for knowledge analysis (Weka)	en_US
dc.subject	Knowledge extraction based on evolutionary learning (Keel)	en_US
dc.subject	Interacción de Proteínas	en_US
dc.subject	Bioinformática	en_US
dc.subject.other	Procesamiento de Datos	en_US
dc.subject.other	Desbalance de Clases	en_US
dc.subject.other	Clasificación	en_US
dc.subject.other	Aprendizaje Automático	en_US
dc.subject.other	Proteinas Vegetales	en_US
dc.subject.other	Bioinformática	en_US
dc.title	Mejoras de la clasificación en interacciones de proteínas de la Arabidopsis Thaliana utilizando técnicas para conjuntos de datos desbalanceados	en_US
dc.type	Thesis	en_US
dc.type.thesis	master	en_US

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Tesis Maestria Ana Caridad Castillo.pdf
Tamaño:: 2.84 MB
Formato:: Adobe Portable Document Format

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 3.33 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Tesis de Maestría - Bioinformática y Biología Computacional