Aplicación de medidas de similitud y algoritmos de agrupamiento a la detección de genes ortólogos
Fecha
2012-07-03
Autores
Millo Sánchez, Reinier
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Central “Marta Abreu” de Las Villas
Resumen
En el presente trabajo se realiza un estudio sobre las diferentes medidas de similitud que
caracterizan la relación entre los pares de secuencias de dos genomas, los algoritmos de
detección de genes ortólogos, los algoritmos de agrupamientos sobre grafos aplicados
a la detección de genes ortólogos y las medidas de validación de agrupamientos. Se
presenta un nuevo algoritmo para la detección de ortólogos, usando el algoritmo de
agrupamiento MCL sobre el grafo bipartido de la similitud de las secuencias. La
implementación del algoritmo se distribuye entre MATLAB y Java, aprovechando las
ventajas que brinda cada uno.
Se exponen estrategias de poda del grafo bipartido usando un umbral para la homología
de las secuencias, la similitud de las secuencias y la eliminación de ambigüedades del
grafo. Con el objetivo de disminuir la relación de falsos positivos al tener en cuenta las
relaciones de ortólogos muchos a muchos, se define una nueva política para la asignación
de ortólogos a partir de los grupos de homología obtenidos del agrupamiento del grafo.
Los resultados del algoritmo se validan con los genomas de Saccharomyces Cerevisiae
en y el Schizosaccharomyce Pombe usando la lista de genes ortólogos obtenida por
el algoritmo de INPARANOID 7.0, con la medida de validación externa ARI. Los
resultados se comparan con resultados de modelos de regresión obtenidos con ayuda
del SPSS.
This thesis paper studies various similarity measures featuring the relationship between pairs of sequences of two genomes, different ortholog detection algorithms, graph clustering algorithms applied to ortholog detection problems, and clustering validation measures. A novel ortholog detection algorithm with the MCL clustering over the bipartite similarity graph is also presented. This algorithm implemented on MATLAB and Java benefits from both of these languages. Some pruning strategies are described for the bipartite graph. One strategy is based on the threshold of the sequence homology, another one on the sequence similarity and the third one on the deletion of the ambiguities in the graph. A new ortholog assigning policy is defined over the homology groups obtained from the MCL clustering, in order to decrease the obtained false positive rate taking into to account the many-to-many ortholog relationships. The algorithm results were validated by using the external validation measure adjusted Rand index with Saccharomyces Cerevisiae and Schizosaccharomyce Pombe genomes against the ortholog list reported by the INPARANOID 7.0 algorithm. The final results were compared with the results of some logistic regression models constructed with the SPSS.
This thesis paper studies various similarity measures featuring the relationship between pairs of sequences of two genomes, different ortholog detection algorithms, graph clustering algorithms applied to ortholog detection problems, and clustering validation measures. A novel ortholog detection algorithm with the MCL clustering over the bipartite similarity graph is also presented. This algorithm implemented on MATLAB and Java benefits from both of these languages. Some pruning strategies are described for the bipartite graph. One strategy is based on the threshold of the sequence homology, another one on the sequence similarity and the third one on the deletion of the ambiguities in the graph. A new ortholog assigning policy is defined over the homology groups obtained from the MCL clustering, in order to decrease the obtained false positive rate taking into to account the many-to-many ortholog relationships. The algorithm results were validated by using the external validation measure adjusted Rand index with Saccharomyces Cerevisiae and Schizosaccharomyce Pombe genomes against the ortholog list reported by the INPARANOID 7.0 algorithm. The final results were compared with the results of some logistic regression models constructed with the SPSS.
Descripción
Palabras clave
Medidas de Similitud, Detección de Genes Ortólogos, Algoritmo de Agrupamiento MCL, Grafo Bipartido, Poda, Matlab, Java, Validación de Agrupamientos, Inparanoid 7.0, Modelos de Regresión, Spss