Aplicación del modelo de programación Spark al cálculo de medidas de similitud para pares de genes

Arteaga Pérez, Alejandro

Aplicación del modelo de programación Spark al cálculo de medidas de similitud para pares de genes

dc.contributor.advisor	Galpert Cañizares, Deborah Raquel
dc.contributor.advisor	Molina Ruiz, Reinaldo
dc.contributor.author	Arteaga Pérez, Alejandro
dc.coverage.spatial	Santa Clara	en_US
dc.date.accessioned	2018-11-02T16:32:18Z
dc.date.available	2018-11-02T16:32:18Z
dc.date.issued	2018-06-20
dc.description.abstract	Las técnicas de Minería de Datos han sido adaptadas para manejar grandes volúmenes de datos mediante modelos de programación como MapReduce y Spark. La extracción de datos a partir de secuencias de proteínas en la genómica comparativa es uno de los procesos dentro de la minería de datos que resulta imprescindible en la Bioinformática. En este trabajo se utilizó Spark para abordar el problema de la comparación de pares de proteínas, en específico, para calcular descriptores de proteínas. Esta elección se debe fundamentalmente a que Spark puede reducir el tiempo de ejecución en el problema planteado al soportar varios tipos de trabajos computacionales, procesamiento de flujo de datos, manejo intensivo de memoria y una conexión a un clúster de Hadoop para manejar los datos distribuidos en el sistema de archivos HDFS. Algunos experimentos de cálculo de descriptores en proteomas de levaduras fueron realizados teniendo en cuenta la configuración del clúster de la Universidad Central “Marta Abreu” de Las Villas. Los resultados obtenidos en cuanto a los tiempos de ejecución son prometedores para poder aplicar el programa de cálculo de descriptores a múltiples proteomas.	en_US
dc.description.abstract	Data mining techniques have been adapted to handle large volumes of data through programming models such as MapReduce and Spark. Data extraction from protein sequences in comparative genomics is an essential data mining process required in Bioinformatics. Spark was used in this work to tackle the pairwise protein comparison problem, specifically, the protein descriptor calculations. The reason of this selection is related with the fact that Spark may reduce the execution time in the proposed problem by supporting different types of computational tasks, data flow process, intensive memory usage and connections to a Hadoop cluster in order to manage the data distributed in the HDFS file system. Some experiments calculating protein descriptors in yeast proteomes were executed considering the settings of the computing cluster of the Universidad Central “Marta Abreu” de Las Villas. The results obtained regarding execution times are promising to carry out further calculations of protein descriptors in multiple proteomes.	en_US
dc.description.sponsorship	Facultad de Matemática, Física y Computación. Departamento de Ciencias de la Computación	en_US
dc.description.status	non-published	en_US
dc.identifier.uri	https://dspace.uclv.edu.cu/handle/123456789/10162
dc.language.iso	es	en_US
dc.publisher	Universidad Central “Marta Abreu” de Las Villas	en_US
dc.rights	Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 License	en_US
dc.subject	Spark	en_US
dc.subject	Clúster	en_US
dc.subject	Descriptores de Proteínas	en_US
dc.subject	Spark	en_US
dc.subject	Clúster	en_US
dc.subject	Protein Descriptors	en_US
dc.subject.other	Minería de Datos	en_US
dc.subject.other	Programación	en_US
dc.subject.other	Análisis de Secuencia de Proteínas	en_US
dc.subject.other	Descriptores Moleculares	en_US
dc.subject.other	Medidas de Similitud	en_US
dc.subject.other	Análisis de Clúster	en_US
dc.subject.other	Bioinformática	en_US
dc.title	Aplicación del modelo de programación Spark al cálculo de medidas de similitud para pares de genes	en_US
dc.type	Thesis	en_US
dc.type.thesis	bachelor	en_US

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Trabajo de Diploma Alejandro Arteaga (con revisiones arregladas).pdf
Tamaño:: 1.4 MB
Formato:: Adobe Portable Document Format

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 3.33 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Tesis de Pregrado - Licenciatura en Ciencias de la Computación