Agrupamiento en grafos bipartitos y optimización de parámetros basada en enjambre de partículas, aplicación en la detección de genes ortólogos

Fecha

2011-07-06

Autores

Montes de Oca Labrada, Maray

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

El presente trabajo es una continuidad del trabajo de diploma “Herramientas Computacionales de Comparación de Genomas” donde se construía un grafo bipartito completo a partir de la medida de similaridad local-global entre genes y se implementaba un agrupamiento BUS sobre este grafo para detectar genes ortólogos. En el presente trabajo se realiza un estudio de diferentes técnicas de agrupamiento y co-agrupamiento sobre grafos bipartitos y se aplica la implementación del algoritmo de particionamiento multinivel METIS a la fase de agrupamiento del algoritmo de detección de ortólogos. Inicialmente se realiza una poda por umbral a la matriz del grafo bipartito completo formado para la comparación de los genomas S.Cerevisiae y S.pombe. Luego se aplica el METIS a la matriz podada y sus resultados de agrupamiento se comparan con la base de datos de ortólogos para estas dos especies curada manualmente en el Laboratorio Sanger. Esta comparación se realiza mediante el cálculo de la medida Indice Ajustado de Rand obteniéndose mejores valores que los obtenidos con el algoritmo BUS. La implementación de estos procedimientos se realizó en Matlab 9.0 con el uso del paquete LINKCLUE disponible en Internet. Con vistas a mejorar la precisión de la detección de ortólogos, se realiza primeramente una estimación de los parámetros para el umbral de la poda minimizando la distancia de Hamming entre la matriz podada y la matriz formada a partir de los resultados de agrupamiento de Sanger. Este procedimiento se realizó en MATLAB implementando la metaheurística bioinspirada en enjambres de partículas PSO. Los resultados obtenidos muestran que elvalor más adecuado para la poda es 80. Seguidamente, se realiza otro proceso de estimación del parámetro de cantidad de grupos iniciales a formar por el METIS, optimizando el Indice Ajustado de Rand en comparación con la base de datos Sanger. Para esto se implementó también el PSO en Matlab y se utilizó la mejor matriz podada en el paso previo. Finalmente, los resultados de calidad obtenidos en el agrupamiento superan los del algoritmo BUS.
This Project is a continuation of the Diploma Paper “Computational Tools for genome comparison” where the authors built a complete bipartite graph from a local-global gene similarity measure. They implemented a BUS clustering algorithm to this graph to detect the orthologs. In our project, we studied some clustering and biclustering techniques for bipartite graphs. We applied the available implementation of the multilevel partitioning algorithm METIS to the grouping phase of the ortholog detection algorithm. First, we run a threshold pruning process to the complete graph of the comparison of the S.Cerevisiae and S.pombe genomes. Next, we applied METIS on the pruned matrix and its results are compared with the ones in the manually curated SANGER database. This comparison was made through the Adjusted Rand Index measure (ARI) with better results than the ones obtained with BUS. The implementation of the procedures was made in Matlab 9.0 with the use the LINKCLUE available package for the ARI calculation. In order to improve the precision of the ortholog detection we first estimate the value of the prunning process minimizing the Hamming Distance between the pruned matrix and the binary matrix obtained from SANGER database. This process was based on the bio-inspired metaheuristic Particle Swarm Optimization (PSO). The best pruning parameter was 80. The pruned matrix built with this value was used in the next PSO step where we estimate the value of the number of clusters for the METIS algorithm maximizing the ARI measure in respect to SANGER. Both PSO implementations were made in Matlab. The maximum ARI obtained overdo the BUS ARI.

Descripción

Palabras clave

Agrupamiento, Grafos Bipartitos, Optimización de Parámetros, Enjambre de Partículas, Detección de Genes Ortólogos, Matlab 9.0, Paquete LINKCLUE, Laboratorio de Bioinformática, Universidad Central Marta Abreu de Las Villas (UCLV)

Citación