Aplicación de medidas de similitud y algoritmos de agrupamiento a la detección de genes ortólogos

Fecha

2012-07-03

Autores

Millo Sánchez, Reinier

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

En el presente trabajo se realiza un estudio sobre las diferentes medidas de similitud que caracterizan la relación entre los pares de secuencias de dos genomas, los algoritmos de detección de genes ortólogos, los algoritmos de agrupamientos sobre grafos aplicados a la detección de genes ortólogos y las medidas de validación de agrupamientos. Se presenta un nuevo algoritmo para la detección de ortólogos, usando el algoritmo de agrupamiento MCL sobre el grafo bipartido de la similitud de las secuencias. La implementación del algoritmo se distribuye entre MATLAB y Java, aprovechando las ventajas que brinda cada uno. Se exponen estrategias de poda del grafo bipartido usando un umbral para la homología de las secuencias, la similitud de las secuencias y la eliminación de ambigüedades del grafo. Con el objetivo de disminuir la relación de falsos positivos al tener en cuenta las relaciones de ortólogos muchos a muchos, se define una nueva política para la asignación de ortólogos a partir de los grupos de homología obtenidos del agrupamiento del grafo. Los resultados del algoritmo se validan con los genomas de Saccharomyces Cerevisiae en y el Schizosaccharomyce Pombe usando la lista de genes ortólogos obtenida por el algoritmo de INPARANOID 7.0, con la medida de validación externa ARI. Los resultados se comparan con resultados de modelos de regresión obtenidos con ayuda del SPSS.
This thesis paper studies various similarity measures featuring the relationship between pairs of sequences of two genomes, different ortholog detection algorithms, graph clustering algorithms applied to ortholog detection problems, and clustering validation measures. A novel ortholog detection algorithm with the MCL clustering over the bipartite similarity graph is also presented. This algorithm implemented on MATLAB and Java benefits from both of these languages. Some pruning strategies are described for the bipartite graph. One strategy is based on the threshold of the sequence homology, another one on the sequence similarity and the third one on the deletion of the ambiguities in the graph. A new ortholog assigning policy is defined over the homology groups obtained from the MCL clustering, in order to decrease the obtained false positive rate taking into to account the many-to-many ortholog relationships. The algorithm results were validated by using the external validation measure adjusted Rand index with Saccharomyces Cerevisiae and Schizosaccharomyce Pombe genomes against the ortholog list reported by the INPARANOID 7.0 algorithm. The final results were compared with the results of some logistic regression models constructed with the SPSS.

Descripción

Palabras clave

Medidas de Similitud, Detección de Genes Ortólogos, Algoritmo de Agrupamiento MCL, Grafo Bipartido, Poda, Matlab, Java, Validación de Agrupamientos, Inparanoid 7.0, Modelos de Regresión, Spss

Citación