Aplicación de medidas de similitud y algoritmos de agrupamiento a la detección de genes ortólogos

dc.contributor.advisorGalpert Cañizares, Deborah Raquel
dc.contributor.advisorSánchez Rodríguez, Robersy
dc.contributor.authorMillo Sánchez, Reinier
dc.coverage.spatialSanta Claraen_US
dc.date.accessioned2018-03-19T17:57:36Z
dc.date.available2018-03-19T17:57:36Z
dc.date.issued2012-07-03
dc.description.abstractEn el presente trabajo se realiza un estudio sobre las diferentes medidas de similitud que caracterizan la relación entre los pares de secuencias de dos genomas, los algoritmos de detección de genes ortólogos, los algoritmos de agrupamientos sobre grafos aplicados a la detección de genes ortólogos y las medidas de validación de agrupamientos. Se presenta un nuevo algoritmo para la detección de ortólogos, usando el algoritmo de agrupamiento MCL sobre el grafo bipartido de la similitud de las secuencias. La implementación del algoritmo se distribuye entre MATLAB y Java, aprovechando las ventajas que brinda cada uno. Se exponen estrategias de poda del grafo bipartido usando un umbral para la homología de las secuencias, la similitud de las secuencias y la eliminación de ambigüedades del grafo. Con el objetivo de disminuir la relación de falsos positivos al tener en cuenta las relaciones de ortólogos muchos a muchos, se define una nueva política para la asignación de ortólogos a partir de los grupos de homología obtenidos del agrupamiento del grafo. Los resultados del algoritmo se validan con los genomas de Saccharomyces Cerevisiae en y el Schizosaccharomyce Pombe usando la lista de genes ortólogos obtenida por el algoritmo de INPARANOID 7.0, con la medida de validación externa ARI. Los resultados se comparan con resultados de modelos de regresión obtenidos con ayuda del SPSS.en_US
dc.description.abstractThis thesis paper studies various similarity measures featuring the relationship between pairs of sequences of two genomes, different ortholog detection algorithms, graph clustering algorithms applied to ortholog detection problems, and clustering validation measures. A novel ortholog detection algorithm with the MCL clustering over the bipartite similarity graph is also presented. This algorithm implemented on MATLAB and Java benefits from both of these languages. Some pruning strategies are described for the bipartite graph. One strategy is based on the threshold of the sequence homology, another one on the sequence similarity and the third one on the deletion of the ambiguities in the graph. A new ortholog assigning policy is defined over the homology groups obtained from the MCL clustering, in order to decrease the obtained false positive rate taking into to account the many-to-many ortholog relationships. The algorithm results were validated by using the external validation measure adjusted Rand index with Saccharomyces Cerevisiae and Schizosaccharomyce Pombe genomes against the ortholog list reported by the INPARANOID 7.0 algorithm. The final results were compared with the results of some logistic regression models constructed with the SPSS.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento Ciencias de la Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/8941
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectMedidas de Similituden_US
dc.subjectDetección de Genes Ortólogosen_US
dc.subjectAlgoritmo de Agrupamiento MCLen_US
dc.subjectGrafo Bipartidoen_US
dc.subjectPodaen_US
dc.subjectMatlaben_US
dc.subjectJavaen_US
dc.subjectValidación de Agrupamientosen_US
dc.subjectInparanoid 7.0en_US
dc.subjectModelos de Regresiónen_US
dc.subjectSpssen_US
dc.subject.otherMedidas de Similituden_US
dc.subject.otherAlgoritmos Computacionalesen_US
dc.subject.otherDiseñoen_US
dc.subject.otherOrtología Genéticaen_US
dc.subject.otherBioinformáticaen_US
dc.titleAplicación de medidas de similitud y algoritmos de agrupamiento a la detección de genes ortólogosen_US
dc.typeThesisen_US
dc.type.thesisbacheloren_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Tesis Millo - Colores.pdf
Tamaño:
2.85 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: