Modelos de redes bayesianas en el estudio de secuencias genómicas y otros problemas biomédicos

Fecha

2008

Autores

Grau Ábalo, Ricardo del Corazón
Casas Cardoso, Gladys María

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central "Marta Abreu" de Las Villas. Facultad de Matemática, Física y Computación. Departamento de Ciencias de la Computación

Resumen

Este trabajo está relacionado con problemas de análisis de regiones genómicas codificantes para proteínas utilizando un tipo de modelo gráfico-probabilístico: las redes bayesianas. Las posibilidades del uso de las redes bayesianas se fortalece si se realiza el aprendizaje de las mejores estructuras y parámetros. En el trabajo se presentan tres nuevos algoritmos para el aprendizaje estructural desde datos. Dos de estos algoritmos obtienen la estructura de dependencias basándose en la detección de interacciones al estilo del algoritmo CHAID (Chi-square Automatic Interaction Detector). El tercero de estos algoritmos se basa en un método de optimización bioinspirado, concretamente la optimización basada en enjambres de partículas (Particle Swarm Optimization, PSO) para contribuir a la reducción de atributos. En la validación de estos algoritmos se han utilizado 18 archivos de datos del repositorio de aprendizaje automatizado, así como otros enfoques alternativos para el aprendizaje de la estructura de redes bayesianas, reportados anteriormente; cuyos resultados demuestran la validez de los modelos propuestos. Además se desarrollaron tres aplicaciones que responden a problemas reales de distintas áreas. Los dos primeros problemas pertenecen al área de la Bioinformática, la primera aplicación es sobre la predicción de interacciones de proteínas y la segunda sobre predicción de sitios de splicing en regiones genómicas codificantes para proteínas. Para concluir se presenta una aplicación sobre un tema médico bien conocido: el diagnóstico de la hipertensión arterial.
The current thesis is concerned with the analysis of coding regions for proteins by using a type of graph-probabilistic model: Bayesian networks. The capabilities of the Bayesian networks are significantly enhanced as long as the best structures and parameters are properly learned. This study puts forward three new algorithms for structural learning from data. Two of them become cognizant about the dependency structure owing to the detection of the interactions like in the CHAID (Chi-square Automatic Interaction Detection) algorithm. The third one of these approaches is anchored on a bio-inspired optimization method, i.e. the optimization driven by swarms of particles (Particle Swarm Optimization, PSO) to help reduce attributes. Eighteen widely used data repositories from University of California at Irvine have been employed in the validation of the aforementioned algorithms, besides considering other alternative models previously reported in literature. The results attained demonstrate the feasibility of the proposed methods. In addition, three applications that respond to real problems in different fields were developed. The first two problems lie under the umbrella of bioinformatics; the former is concerned with the prediction of protein interactions whereas the latter has to do with splicing sites forecasting. Last but not least, an application addressing the well-known problem of hypertension diagnosis is introduced.

Descripción

Palabras clave

Modelos de Redes Bayesianas, Secuencias Genómicas, Problemas Biomédicos, Bioinformática

Citación