Algoritmos supervisados para la detección de ortólogos con manejo del desbalance

Pérez García, DavidAlgoritmos supervisados para la detección de ortólogos con manejo del desbalanceUniversidad Central “Marta Abreu” de Las Villas2013Detección de ortólogosMedidas de SimilitudClasificador basado en mezclaClasificador Sensitivo al CostoProblema de DesbalanceTeoría de Conjuntos AproximadosOrtholog DetectionSimilarity MeasuresEnsemble-Based ClassifierCost-Sensitive ClassifierImbalance ProblemRough Set TheoryMy UniversityMy UniversityGalpert Cañizares, Deborah RaquelMillo Sánchez, Reinier2015-12-012015-12-012013-07-04esThesishttps://dspace.uclv.edu.cu/handle/123456789/3838Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 LicenseLa presente tesis incluye dos enfoques para manejar el desbalance en la clasificación binaria de pares de genes ortólogos vista como problema supervisado. El estudio involucra los genomas de Saccharomyces Cerevisiae y Schizosaccharomyces Pombe con las clasificaciones de INPARANOID7.0 y GENEDB. Se conforman diferentes conjuntos de rasgos a partir de diferentes valores de los parámetros de alineamiento global. Los rasgos son: la puntuación del alineamiento local y global de proteínas, la comparación de la longitud, la pertenencia a bloques localmente colineales y la comparación de los perfiles físico-químicos de las proteínas. En el primer enfoque, un clasificador de Regresión logística basado en mezcla genera un número predefinido de conjuntos de datos balanceados manteniendo la clase minoritaria y reemplazando con repetición en la clase mayoritaria. Los modelos seleccionados son evaluados en el conjunto de prueba y mezclados con el promedio o con el voto mayoritario. En el segundo enfoque, se propone un clasificador sensitivo al costo de bosque aleatorio “Random Forest” que considera la proporción de casos en la matriz de costo y utiliza un filtro de distribución supervisado o un método de reducción basado en los conjuntos aproximados.This thesis paper presents two approaches to manage imbalance in binary gene pair ortholog classification as a supervised problem. The study involves Saccharomyces Cerevisiae and Schizosaccharomyces Pombe genomes with INPARANOID7.0 and GENEDB classifications. From different alignment parameters we built feature sets including the score of local and global protein alignments, the sequence length comparison, the membership to locally collinear blocks and the comparison of physico-chemical protein profiles. In the first approach, a logistic regression ensemble-based classifier randomly generates a predefined number of balanced datasets keeping the minority class and replacing with repetition in the majority class. Selected regression models are evaluated in the test dataset and merged with the average or the majority vote. In the second approach, a cost-sensitive Random Forest considers the proportion of cases in the cost matrix and uses a supervised spread subsample or a rough set reduction method. Keywords: ortholog detection, similarity measures, ensemble-based classifier, cost-sensitive classifier, imbalance problem, rough set theory