Agrupamiento de enzimas similares de la familia GH-70 utilizando descriptores libres de alineamiento

Fecha

2019-07-17

Autores

Rivera Fonseca, Jerry

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

El reconocimiento de la estructura de las secuencias de enzimas de la familia GH-70 constituye un tema abierto en la Bioinformática por la importancia de estas enzimas en el campo de la Biotecnología y, específicamente en nuestro país, por el perjuicio que ocasionan a la producción de azúcar. El uso de descriptores libres de alineamiento para el estudio de las estructuras resulta una tendencia en el análisis de secuencias. La integración de diversos descriptores puede aportar información valiosa al reconocimiento de secuencias similares estructuralmente dentro de dicha familia. En los experimentos, los métodos de agrupamiento Expectation Maximization (EM) y K-means fueron comparados en este trabajo para este fin, conjuntamente con diferentes valores de parámetros de selección de métodos de pre-procesamiento como la normalización y la reducción de la dimensionalidad por reducción de rasgos redundantes. Para esta última reducción se comparan dos métodos: la reducción basada en la correlación y la reducción basada en el análisis de las componentes principales (PCA). Para medir la calidad de los experimentos de agrupamiento se utilizó la medida de validación interna Overall Similarity. Los mejores experimentos resultan los que no aplican PCA. El mejor agrupamiento seleccionado con 20 grupos de secuencias, con el algoritmo EM y un umbral de reducción de rasgos altamente correlacionados de 0.99, aparece descrito con los rasgos predictores que más aportan, las distancias entre el centroide y las secuencias, las distancias entre los centroides y un gráfico donde se muestran las secuencias en cada clúster ploteadas por el valor de uno de los mejores rasgos predictores, observándose la concentración de las secuencias en dos grupos.
The structure recognition of the enzyme sequences of GH-70 family is an open field in Bioinformatics because of the importance of these enzymes in the Biotechnology field; specifically, in our country they are important due to their damaging effect in the sugar cane production. The use of alignment-free descriptors to study the structures is a tendency in sequence analysis. The integration of diverse descriptors may add useful information to the recognition of similar structure sequences among this family. The Expectation Maximization (EM) and K-means clustering algorithms were compared in this theses paper to achieve the clustering goal. Besides, the selection of different parameter values related with the selection of pre-processing methods as normalization and dimensionality reduction by means of the reduction of redundant features was carried out in the experiments. For this last reduction the method based on the correlation between features was compared with the one based on principal component analysis (PCA). The Overall Similarity internal validation measure was used to assess the quality of the clustering experiments. The best experiments were those without the application of PCA. The best clustering selected was the one with twenty clusters, executed with the EM algorithm and a threshold of 0.99 for high correlated features. This clustering is described with the most important predictor features. The distance between the centroid and the sequence and the distances between the centroids and a graphical image where the sequences in each cluster are plotted by the value of one of the best predictor features are also presented. The concentration of the sequences towards to clusters is visible in this image.

Descripción

Palabras clave

Descriptores Libres de Alineamiento, Enzimas GH-70, Reducción de la Dimensionalidad, Análisis de Componentes Principales, Agrupamiento, Aligment-Free Descriptors, GH-70 Enzymes, Dimensionality Reduction, Clustering

Citación

Descargar Referencia Bibliográfica