Aplicación del modelo de programación Spark al cálculo de medidas de similitud para pares de genes

Fecha

2018-06-20

Autores

Arteaga Pérez, Alejandro

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

Las técnicas de Minería de Datos han sido adaptadas para manejar grandes volúmenes de datos mediante modelos de programación como MapReduce y Spark. La extracción de datos a partir de secuencias de proteínas en la genómica comparativa es uno de los procesos dentro de la minería de datos que resulta imprescindible en la Bioinformática. En este trabajo se utilizó Spark para abordar el problema de la comparación de pares de proteínas, en específico, para calcular descriptores de proteínas. Esta elección se debe fundamentalmente a que Spark puede reducir el tiempo de ejecución en el problema planteado al soportar varios tipos de trabajos computacionales, procesamiento de flujo de datos, manejo intensivo de memoria y una conexión a un clúster de Hadoop para manejar los datos distribuidos en el sistema de archivos HDFS. Algunos experimentos de cálculo de descriptores en proteomas de levaduras fueron realizados teniendo en cuenta la configuración del clúster de la Universidad Central “Marta Abreu” de Las Villas. Los resultados obtenidos en cuanto a los tiempos de ejecución son prometedores para poder aplicar el programa de cálculo de descriptores a múltiples proteomas.
Data mining techniques have been adapted to handle large volumes of data through programming models such as MapReduce and Spark. Data extraction from protein sequences in comparative genomics is an essential data mining process required in Bioinformatics. Spark was used in this work to tackle the pairwise protein comparison problem, specifically, the protein descriptor calculations. The reason of this selection is related with the fact that Spark may reduce the execution time in the proposed problem by supporting different types of computational tasks, data flow process, intensive memory usage and connections to a Hadoop cluster in order to manage the data distributed in the HDFS file system. Some experiments calculating protein descriptors in yeast proteomes were executed considering the settings of the computing cluster of the Universidad Central “Marta Abreu” de Las Villas. The results obtained regarding execution times are promising to carry out further calculations of protein descriptors in multiple proteomes.

Descripción

Palabras clave

Spark, Clúster, Descriptores de Proteínas, Spark, Clúster, Protein Descriptors

Citación