Aplicación del modelo de programación Spark al cálculo de medidas de similitud para pares de genes

dc.contributor.advisorGalpert Cañizares, Deborah Raquel
dc.contributor.advisorMolina Ruiz, Reinaldo
dc.contributor.authorArteaga Pérez, Alejandro
dc.coverage.spatialSanta Claraen_US
dc.date.accessioned2018-11-02T16:32:18Z
dc.date.available2018-11-02T16:32:18Z
dc.date.issued2018-06-20
dc.description.abstractLas técnicas de Minería de Datos han sido adaptadas para manejar grandes volúmenes de datos mediante modelos de programación como MapReduce y Spark. La extracción de datos a partir de secuencias de proteínas en la genómica comparativa es uno de los procesos dentro de la minería de datos que resulta imprescindible en la Bioinformática. En este trabajo se utilizó Spark para abordar el problema de la comparación de pares de proteínas, en específico, para calcular descriptores de proteínas. Esta elección se debe fundamentalmente a que Spark puede reducir el tiempo de ejecución en el problema planteado al soportar varios tipos de trabajos computacionales, procesamiento de flujo de datos, manejo intensivo de memoria y una conexión a un clúster de Hadoop para manejar los datos distribuidos en el sistema de archivos HDFS. Algunos experimentos de cálculo de descriptores en proteomas de levaduras fueron realizados teniendo en cuenta la configuración del clúster de la Universidad Central “Marta Abreu” de Las Villas. Los resultados obtenidos en cuanto a los tiempos de ejecución son prometedores para poder aplicar el programa de cálculo de descriptores a múltiples proteomas.en_US
dc.description.abstractData mining techniques have been adapted to handle large volumes of data through programming models such as MapReduce and Spark. Data extraction from protein sequences in comparative genomics is an essential data mining process required in Bioinformatics. Spark was used in this work to tackle the pairwise protein comparison problem, specifically, the protein descriptor calculations. The reason of this selection is related with the fact that Spark may reduce the execution time in the proposed problem by supporting different types of computational tasks, data flow process, intensive memory usage and connections to a Hadoop cluster in order to manage the data distributed in the HDFS file system. Some experiments calculating protein descriptors in yeast proteomes were executed considering the settings of the computing cluster of the Universidad Central “Marta Abreu” de Las Villas. The results obtained regarding execution times are promising to carry out further calculations of protein descriptors in multiple proteomes.en_US
dc.description.sponsorshipFacultad de Matemática, Física y Computación. Departamento de Ciencias de la Computaciónen_US
dc.description.statusnon-publisheden_US
dc.identifier.urihttps://dspace.uclv.edu.cu/handle/123456789/10162
dc.language.isoesen_US
dc.publisherUniversidad Central “Marta Abreu” de Las Villasen_US
dc.rightsEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 Licenseen_US
dc.subjectSparken_US
dc.subjectClústeren_US
dc.subjectDescriptores de Proteínasen_US
dc.subjectSparken_US
dc.subjectClústeren_US
dc.subjectProtein Descriptorsen_US
dc.subject.otherMinería de Datosen_US
dc.subject.otherProgramaciónen_US
dc.subject.otherAnálisis de Secuencia de Proteínasen_US
dc.subject.otherDescriptores Molecularesen_US
dc.subject.otherMedidas de Similituden_US
dc.subject.otherAnálisis de Clústeren_US
dc.subject.otherBioinformáticaen_US
dc.titleAplicación del modelo de programación Spark al cálculo de medidas de similitud para pares de genesen_US
dc.typeThesisen_US
dc.type.thesisbacheloren_US

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Trabajo de Diploma Alejandro Arteaga (con revisiones arregladas).pdf
Tamaño:
1.4 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
3.33 KB
Formato:
Item-specific license agreed upon to submission
Descripción: