Algoritmos supervisados para la detección de ortólogos con manejo del desbalance

Fecha

2013-07-04

Autores

Pérez García, David

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

La presente tesis incluye dos enfoques para manejar el desbalance en la clasificación binaria de pares de genes ortólogos vista como problema supervisado. El estudio involucra los genomas de Saccharomyces Cerevisiae y Schizosaccharomyces Pombe con las clasificaciones de INPARANOID7.0 y GENEDB. Se conforman diferentes conjuntos de rasgos a partir de diferentes valores de los parámetros de alineamiento global. Los rasgos son: la puntuación del alineamiento local y global de proteínas, la comparación de la longitud, la pertenencia a bloques localmente colineales y la comparación de los perfiles físico-químicos de las proteínas. En el primer enfoque, un clasificador de Regresión logística basado en mezcla genera un número predefinido de conjuntos de datos balanceados manteniendo la clase minoritaria y reemplazando con repetición en la clase mayoritaria. Los modelos seleccionados son evaluados en el conjunto de prueba y mezclados con el promedio o con el voto mayoritario. En el segundo enfoque, se propone un clasificador sensitivo al costo de bosque aleatorio “Random Forest” que considera la proporción de casos en la matriz de costo y utiliza un filtro de distribución supervisado o un método de reducción basado en los conjuntos aproximados.
This thesis paper presents two approaches to manage imbalance in binary gene pair ortholog classification as a supervised problem. The study involves Saccharomyces Cerevisiae and Schizosaccharomyces Pombe genomes with INPARANOID7.0 and GENEDB classifications. From different alignment parameters we built feature sets including the score of local and global protein alignments, the sequence length comparison, the membership to locally collinear blocks and the comparison of physico-chemical protein profiles. In the first approach, a logistic regression ensemble-based classifier randomly generates a predefined number of balanced datasets keeping the minority class and replacing with repetition in the majority class. Selected regression models are evaluated in the test dataset and merged with the average or the majority vote. In the second approach, a cost-sensitive Random Forest considers the proportion of cases in the cost matrix and uses a supervised spread subsample or a rough set reduction method. Keywords: ortholog detection, similarity measures, ensemble-based classifier, cost-sensitive classifier, imbalance problem, rough set theory

Descripción

Palabras clave

Detección de ortólogos, Medidas de Similitud, Clasificador basado en mezcla, Clasificador Sensitivo al Costo, Problema de Desbalance, Teoría de Conjuntos Aproximados, Ortholog Detection, Similarity Measures, Ensemble-Based Classifier, Cost-Sensitive Classifier, Imbalance Problem, Rough Set Theory

Citación