Galpert Cañizares, Deborah RaquelSánchez Rodríguez, RobersyMillo Sánchez, Reinier2018-03-192018-03-192012-07-03https://dspace.uclv.edu.cu/handle/123456789/8941En el presente trabajo se realiza un estudio sobre las diferentes medidas de similitud que caracterizan la relación entre los pares de secuencias de dos genomas, los algoritmos de detección de genes ortólogos, los algoritmos de agrupamientos sobre grafos aplicados a la detección de genes ortólogos y las medidas de validación de agrupamientos. Se presenta un nuevo algoritmo para la detección de ortólogos, usando el algoritmo de agrupamiento MCL sobre el grafo bipartido de la similitud de las secuencias. La implementación del algoritmo se distribuye entre MATLAB y Java, aprovechando las ventajas que brinda cada uno. Se exponen estrategias de poda del grafo bipartido usando un umbral para la homología de las secuencias, la similitud de las secuencias y la eliminación de ambigüedades del grafo. Con el objetivo de disminuir la relación de falsos positivos al tener en cuenta las relaciones de ortólogos muchos a muchos, se define una nueva política para la asignación de ortólogos a partir de los grupos de homología obtenidos del agrupamiento del grafo. Los resultados del algoritmo se validan con los genomas de Saccharomyces Cerevisiae en y el Schizosaccharomyce Pombe usando la lista de genes ortólogos obtenida por el algoritmo de INPARANOID 7.0, con la medida de validación externa ARI. Los resultados se comparan con resultados de modelos de regresión obtenidos con ayuda del SPSS.This thesis paper studies various similarity measures featuring the relationship between pairs of sequences of two genomes, different ortholog detection algorithms, graph clustering algorithms applied to ortholog detection problems, and clustering validation measures. A novel ortholog detection algorithm with the MCL clustering over the bipartite similarity graph is also presented. This algorithm implemented on MATLAB and Java benefits from both of these languages. Some pruning strategies are described for the bipartite graph. One strategy is based on the threshold of the sequence homology, another one on the sequence similarity and the third one on the deletion of the ambiguities in the graph. A new ortholog assigning policy is defined over the homology groups obtained from the MCL clustering, in order to decrease the obtained false positive rate taking into to account the many-to-many ortholog relationships. The algorithm results were validated by using the external validation measure adjusted Rand index with Saccharomyces Cerevisiae and Schizosaccharomyce Pombe genomes against the ortholog list reported by the INPARANOID 7.0 algorithm. The final results were compared with the results of some logistic regression models constructed with the SPSS.esEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 LicenseMedidas de SimilitudDetección de Genes OrtólogosAlgoritmo de Agrupamiento MCLGrafo BipartidoPodaMatlabJavaValidación de AgrupamientosInparanoid 7.0Modelos de RegresiónSpssMedidas de SimilitudAlgoritmos ComputacionalesDiseñoOrtología GenéticaBioinformáticaAplicación de medidas de similitud y algoritmos de agrupamiento a la detección de genes ortólogosThesis