Mejoras de la clasificación en interacciones de proteínas de la Arabidopsis Thaliana utilizando técnicas para conjuntos de datos desbalanceados

dc.contributor.advisorChávez Cárdenas, María del Carmen
dc.contributor.advisorGarcía Lorenzo, María Matilde
dc.contributor.advisorCabrera Hernández, Leidys
dc.contributor.authorCastillo Sánchez, Ana Caridad
dc.coverage.spatialSanta Claraen_US
dc.date.accessioned2019-03-11T21:30:08Z
dc.date.available2019-03-11T21:30:08Z
dc.date.issued2016
dc.description.abstractEn la actualidad, constituye un reto lograr la correcta clasificación de grandes conjuntos de datos usando aprendizaje automatizado. En problemas de Bioinformática es muy común tener grandes bases de casos, las cuales en algunas ocasiones son desbalanceadas, siendo la clase minoritaria casi siempre la de principal interés de investigación. Este trabajo se enmarca en la predicción de interacciones de proteínas, donde el conjunto de datos pertenece a la interacción de proteínas en la Arabidopsis Thaliana y precisamente la clase minoritaria es aquella que representa a las proteínas que interactúan. Como resultado de este trabajo se presenta la aplicación de diferentes técnicas para tratar el desbalance existente en los datos, tanto dirigidas a los atributos como a las instancias, además de los resultados que se alcanzan al aplicar diversos métodos de clasificación. La experimentación se realiza utilizando dos herramientas: WEKA (Waikato Environment for Knowledge Analysis) y KEEL (Knowledge Extraction based on Evolutionary Learning). Para hacer la selección del mejor clasificador se aplican las medidas más conocidas basadas en la matriz de confusión: razón de Verdaderos Positivos (VP), área bajo la Curva de Operación del Receptor (ROC), la Exactitud (Accuracy, en inglés), la medida-F (F-Measure, en inglés) y las curvas Precision_Recall (PRC). Finalmente se demuestra que utilizando las técnicas de desbalance como pre-procesamiento de los datos, se logra mejorar los resultados de la clasificación en la base Arabidopsis Thaliana, respecto a los ya alcanzados hasta el momento.en_US
dc.description.abstractAt present, it is challenging to correctly classify large datasets using automated learning. In Bioinformatics problems it is very common to have large case bases, which are sometimes unbalanced, with the minority class almost always being the main research interest. This work is framed in the prediction of protein interactions, where the dataset belongs to the interaction of proteins in Arabidopsis Thaliana and precisely the minority class is that which represents the interacting proteins. As a result of this work we present the application of different techniques to deal with the imbalance in the data, both for the attributes and the instances, as well as the results achieved by applying different classification methods. The experimentation is carried out using two tools: WEKA (Waikato Environment for Knowledge Analysis) and KEEL (Knowledge Extraction based on Evolutionary Learning). In order to make the selection of the best classifier, the most known measures based on the confusion matrix are applied: True Positive Ratio (VP), area under the Receiver Operating Curve (ROC), Accuracy, (F-Measure) and Precision_Recall (PRC) curves. Finally, it is shown that using the unbalance techniques as pre-processing of the data, it is possible to improve the results of the classification in the base Arabidopsis Thaliana, compared to those already achieved so far.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento de Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/10873
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectTécnicas de Preprocesamientoen_US
dc.subjectDatos Desbalanceadosen_US
dc.subjectMétodos de Clasificaciónen_US
dc.subjectWaikato environment for knowledge analysis (Weka)en_US
dc.subjectKnowledge extraction based on evolutionary learning (Keel)en_US
dc.subjectInteracción de Proteínasen_US
dc.subjectBioinformáticaen_US
dc.subject.otherProcesamiento de Datosen_US
dc.subject.otherDesbalance de Clasesen_US
dc.subject.otherClasificaciónen_US
dc.subject.otherAprendizaje Automáticoen_US
dc.subject.otherProteinas Vegetalesen_US
dc.subject.otherBioinformáticaen_US
dc.titleMejoras de la clasificación en interacciones de proteínas de la Arabidopsis Thaliana utilizando técnicas para conjuntos de datos desbalanceadosen_US
dc.typeThesisen_US
dc.type.thesismasteren_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Tesis Maestria Ana Caridad Castillo.pdf
Tamaño:
2.84 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: