Implementación de algoritmos de cálculo de similitud de proteínas utilizando Apache Spark

Fecha

2019-07-18

Autores

Puerto Pacheco, Andrés

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

La comparación de proteínas dentro del análisis de secuencias de proteínas o enzimas resulta un área de investigación activa en bioinformática ya que la cantidad de secuencias aumenta considerablemente a ritmo acelerado por el perfeccionamiento de las técnicas de secuenciación de genomas. El reconocimiento de la función o la clasificación estructural de las proteínas o enzimas continúa siendo un reto por la divergencia en las secuencias que hace que los métodos de comparación basados en alineamiento fallen cuando se comparan secuencias homólogas con baja identidad. Es por esto que la combinación de medidas basadas en alineamiento y libres de este puede ser útil en las distintas aplicaciones. La implementación PySpark de cálculo de medidas de similitud entre proteínas como parte de un sistema de big data analítica que se desarrolla en este trabajo logra este fin y además mejora la versión anterior implementada en la UCLV al permitir un aumento en el rango de los parámetros de estas medidas. La nueva implementación también reduce la carga computacional en el cálculo de la frecuencia de subsecuencias de longitud k en las secuencias. Las pruebas de software fueron satisfactorias en el clúster de Spark de la UCLV.
Protein comparison is an active bioinformatics research topic in sequence analysis of proteins or enzymes since the amount of sequences increases in a rapid rate because of the improvements achieved in genome sequencing techniques. The recognition of the function or the structural classification of proteins or enzymes continues to be a challenge due to the divergence of sequences causing that the alignment-based comparison methods fail when they compare homolog sequences with low identity percent. For this reason the combination of alignment-based and alignment-free similarity measures may be useful in different applications. The PySpark implementation of the protein similarity measures as part of a big data analytics system developed in this theses paper is pursuing this goal and also improves the previous version of the calculations implemented in the UCLV when it allows an increased range of the parameter values. Besides, the new implementation reduce the computational load in the calculation of the frequency of the subsequences of length k. The software testing was acceptable in the Spark cluster of the UCLV.

Descripción

Palabras clave

Medidas de Similitud, Alineamiento de Proteínas, Descriptores de Proteínas Libres de Alineamiento, Spark, PySpark, Similarity Measures, Protein Alignment, Alignment-Free Protein Descriptors

Citación