Determinación de las secuencias de aminoácidos de longitud N de máxima complejidad mediante el empleo de Algoritmos Genéticos

Fecha

2007

Autores

Cuéllar Jústiz, Oristela

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

En esta tesis se exponen los resultados obtenidos en la determinación de las secuencias de aminoácidos de máxima complejidad a partir de diferentes funciones estimadoras potenciales, tomando como referencia la complejidad de Kolmogorov. Las proteínas son cadenas de aminoácidos de tamaño n formadas por 20 aminoácidos proteicos. Para estos aminoácidos se conoce la probabilidad que tiene cada uno de aparecer en cualquier proteína después de cada uno de los restantes; así como la probabilidad de ser el primero en cualquier cadena. Se presentan tres problemas de optimización combinatoria, sobre el conjunto de estas cadenas, que se modelan por distintas vías; por la naturaleza de estos problemas, resulta muy costoso computacionalmente la aplicación de métodos exactos para buscar su solución, por este motivo se utilizan heurísticas modernas, particularmente, Algoritmos Genéticos (AG). En el trabajo se ofrecen los aspectos más importantes de esta heurística y su implementación en el Mathematica 5.0. Se implementan tres variantes para el AG clásico (AGC) y se introduce un nuevo operador, dando lugar a un nuevo algoritmo, el cual ha sido denominado Algoritmo Genético con Transposón (AGT). La mejor variante del AG clásico se determinó mediante pruebas numéricas y luego se comparó con el AGT. Los resultados evidencian la efectividad del nuevo operador propuesto, al mejorar de manera significativa, la eficiencia del algoritmo. Como consecuencia del trabajo, se obtiene un algoritmo que permite evaluar el potencial de las funciones objetivo en la estimación de la complejidad de la secuencia de aminoácidos que conforman las proteínas.
In this thesis the results obtained in the determination of the sequences of amino acids of Maximum Complexity are exposed. Complexity has been evaluated from different potential estimator functions, taking like reference the complexity of Kolmogorov. The proteins are chains of amino acids of so large n formed by 20 proteic amino acids. For these amino acids the probability to appear in any protein after each one of the rest has been determined; as well as the probability of being first in any chain. Three optimization problems of combinatory, on the set of these chains, that are modeled by different routes; by the nature of these problems, the application turns out computationally very expensive from exact methods to look for its solution. For this reason, a modern heuristic are used, particularly, Genetic Algorithms (AG). The implementation of the heuristic was done using Mathematica 5.0 software. Three variants for classic AG (AGC) are implemented and a new operator was introduced, giving rise to a new algorithm, which has been denominated Genetic Algorithm with Transposón (AGT). The best variant of the classic AG was determined by means of numerical tests and it was compared itself with the AGT. The results demonstrate the effectiveness of the new proposed operator, when improving of significant way, the efficiency of the algorithm. As a result of the work, an algorithm is obtained that allows to evaluate the potential of the functions objective in the estimation of the complexity of the sequence of amino acids that conform proteins.

Descripción

Palabras clave

Modelación Matemática, Secuencias de Aminoácidos, Longitud N de Máxima Complejidad, Algoritmos Genéticos, Bioinformática

Citación