Algoritmos supervisados para la detección de ortólogos con manejo del desbalance

dc.contributor.advisorGalpert Cañizares, Deborah Raquel
dc.contributor.advisorMillo Sánchez, Reinier
dc.contributor.authorPérez García, David
dc.coverage.spatial1016432en_US
dc.date.accessioned2015-12-01T21:52:50Z
dc.date.available2015-12-01T21:52:50Z
dc.date.issued2013-07-04
dc.description.abstractLa presente tesis incluye dos enfoques para manejar el desbalance en la clasificación binaria de pares de genes ortólogos vista como problema supervisado. El estudio involucra los genomas de Saccharomyces Cerevisiae y Schizosaccharomyces Pombe con las clasificaciones de INPARANOID7.0 y GENEDB. Se conforman diferentes conjuntos de rasgos a partir de diferentes valores de los parámetros de alineamiento global. Los rasgos son: la puntuación del alineamiento local y global de proteínas, la comparación de la longitud, la pertenencia a bloques localmente colineales y la comparación de los perfiles físico-químicos de las proteínas. En el primer enfoque, un clasificador de Regresión logística basado en mezcla genera un número predefinido de conjuntos de datos balanceados manteniendo la clase minoritaria y reemplazando con repetición en la clase mayoritaria. Los modelos seleccionados son evaluados en el conjunto de prueba y mezclados con el promedio o con el voto mayoritario. En el segundo enfoque, se propone un clasificador sensitivo al costo de bosque aleatorio “Random Forest” que considera la proporción de casos en la matriz de costo y utiliza un filtro de distribución supervisado o un método de reducción basado en los conjuntos aproximados.en_US
dc.description.abstractThis thesis paper presents two approaches to manage imbalance in binary gene pair ortholog classification as a supervised problem. The study involves Saccharomyces Cerevisiae and Schizosaccharomyces Pombe genomes with INPARANOID7.0 and GENEDB classifications. From different alignment parameters we built feature sets including the score of local and global protein alignments, the sequence length comparison, the membership to locally collinear blocks and the comparison of physico-chemical protein profiles. In the first approach, a logistic regression ensemble-based classifier randomly generates a predefined number of balanced datasets keeping the minority class and replacing with repetition in the majority class. Selected regression models are evaluated in the test dataset and merged with the average or the majority vote. In the second approach, a cost-sensitive Random Forest considers the proportion of cases in the cost matrix and uses a supervised spread subsample or a rough set reduction method. Keywords: ortholog detection, similarity measures, ensemble-based classifier, cost-sensitive classifier, imbalance problem, rough set theoryen_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento Ciencias de la Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/3838
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectDetección de ortólogosen_US
dc.subjectMedidas de Similituden_US
dc.subjectClasificador basado en mezclaen_US
dc.subjectClasificador Sensitivo al Costoen_US
dc.subjectProblema de Desbalanceen_US
dc.subjectTeoría de Conjuntos Aproximadosen_US
dc.subjectOrtholog Detectionen_US
dc.subjectSimilarity Measuresen_US
dc.subjectEnsemble-Based Classifieren_US
dc.subjectCost-Sensitive Classifieren_US
dc.subjectImbalance Problemen_US
dc.subjectRough Set Theoryen_US
dc.titleAlgoritmos supervisados para la detección de ortólogos con manejo del desbalanceen_US
dc.typeThesisen_US
dc.type.thesisbacheloren_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
TESIS_OK5.pdf
Tamaño:
2.61 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: