Implementación de algoritmos de cálculo de similitud de proteínas utilizando Apache Spark

dc.contributor.advisorGalpert Cañizares, Deborah Raquel
dc.contributor.advisorMolina Ruiz, Reinaldo
dc.contributor.authorPuerto Pacheco, Andrés
dc.coverage.spatialSanta Claraen_US
dc.date.accessioned2019-10-02T19:17:51Z
dc.date.available2019-10-02T19:17:51Z
dc.date.issued2019-07-18
dc.description.abstractLa comparación de proteínas dentro del análisis de secuencias de proteínas o enzimas resulta un área de investigación activa en bioinformática ya que la cantidad de secuencias aumenta considerablemente a ritmo acelerado por el perfeccionamiento de las técnicas de secuenciación de genomas. El reconocimiento de la función o la clasificación estructural de las proteínas o enzimas continúa siendo un reto por la divergencia en las secuencias que hace que los métodos de comparación basados en alineamiento fallen cuando se comparan secuencias homólogas con baja identidad. Es por esto que la combinación de medidas basadas en alineamiento y libres de este puede ser útil en las distintas aplicaciones. La implementación PySpark de cálculo de medidas de similitud entre proteínas como parte de un sistema de big data analítica que se desarrolla en este trabajo logra este fin y además mejora la versión anterior implementada en la UCLV al permitir un aumento en el rango de los parámetros de estas medidas. La nueva implementación también reduce la carga computacional en el cálculo de la frecuencia de subsecuencias de longitud k en las secuencias. Las pruebas de software fueron satisfactorias en el clúster de Spark de la UCLV.en_US
dc.description.abstractProtein comparison is an active bioinformatics research topic in sequence analysis of proteins or enzymes since the amount of sequences increases in a rapid rate because of the improvements achieved in genome sequencing techniques. The recognition of the function or the structural classification of proteins or enzymes continues to be a challenge due to the divergence of sequences causing that the alignment-based comparison methods fail when they compare homolog sequences with low identity percent. For this reason the combination of alignment-based and alignment-free similarity measures may be useful in different applications. The PySpark implementation of the protein similarity measures as part of a big data analytics system developed in this theses paper is pursuing this goal and also improves the previous version of the calculations implemented in the UCLV when it allows an increased range of the parameter values. Besides, the new implementation reduce the computational load in the calculation of the frequency of the subsequences of length k. The software testing was acceptable in the Spark cluster of the UCLV.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento de Ciencias de la Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/11434
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectMedidas de Similituden_US
dc.subjectAlineamiento de Proteínasen_US
dc.subjectDescriptores de Proteínas Libres de Alineamientoen_US
dc.subjectSparken_US
dc.subjectPySparken_US
dc.subjectSimilarity Measuresen_US
dc.subjectProtein Alignmenten_US
dc.subjectAlignment-Free Protein Descriptorsen_US
dc.subject.otherProteínasen_US
dc.subject.otherGenéticaen_US
dc.subject.otherMedidas de Similituden_US
dc.subject.otherProgramación de Expresiones Genéticasen_US
dc.subject.otherBioinformáticaen_US
dc.subject.otherDesarrollo de Herramientasen_US
dc.titleImplementación de algoritmos de cálculo de similitud de proteínas utilizando Apache Sparken_US
dc.typeThesisen_US
dc.type.thesisbacheloren_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Tesis Andres Puerto.pdf
Tamaño:
2.42 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: