Modelo para la clasificación de secuencias, en problemas de la bioinformática, usando técnicas de inteligencia artificial

Fecha

2008

Autores

Bonet Cruz, Isis

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central "Marta Abreu" de Las Villas. Facultad de Matemática, Física y Computación. Departamento de Ciencias de la Computación

Resumen

La motivación del trabajo es predecir la resistencia del VIH ante siete inhibidores de la proteasa, a partir de bases de casos de genotipo y fenotipo, mediante el desarrollo y aplicación de nuevas técnicas de inteligencia artificial. Se obtiene un modelo integrador que facilita la solución de problemas de clasificación de secuencias dentro de la bioinformática, mediante la combinación de métodos y la selección de rasgos basada en información biológica, para potenciar la eficacia de los pronósticos. Se proponen dos métodos de clasificación que parten del uso de las energías de contacto asociadas a cada aminoácido y consideran como clase la resistencia o susceptibilidad ante fármacos. El primero está basado en redes neuronales recurrentes bidireccionales con un módulo que combina las salidas de los diferentes tiempos en la red. El segundo combina varios modelos de clasificación a partir de un metaclasificador. La red recurrente tiene la ventaja de poder trabajar con secuencias de longitud variable, con inserciones o eliminaciones. El modelo multiclasificador es útil cuando se está en presencia de secuencias alineadas. Además se proponen dos medidas de distancias basadas en información biológica: la primera para comprobar relación entre posiciones en las secuencias, la segunda para analizar visualmente los datos.
The motivation of this thesis is to predict the HIV drugs resistance from the available information of the virus genotype and phenotype by developing new Artificial Intelligence techniques. An integrated model with methods combination and features selection based on biological information was obtained improving the efficacy in Bioinformatics sequences classification. Two classification methods are proposed: the bidirectional recurrent neural networks with an aggregation module to combine the outputs per times into a single classification, and the combination of diverse classification models with a meta-classifier. Both methods take the contact energies of the amino acids as features and the drugs resistance or susceptibility as objective feature. The recurrent neural network is many helpful in sequences with dynamic size caused by deletion or insertion mutations. The multiclassifier model is useful in aligned sequences. Two distance measures with biological meaning are introduced as well: the first one to support position relations, and the second one to visually analyze the data.

Descripción

Palabras clave

Modelo Multiclasificador, Clasificación de Secuencias, Problemas de la Bioinformática, Técnicas de Inteligencia Artificial

Citación