Modelación y manejo de bases de datos para el almacenamiento de la información sobre ortología

Fecha

2013-05-20

Autores

de la Rosa Martín, Tonysé

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación. Departamento de Computación

Resumen

La presente investigación tiene como precedente la necesidad de crear bases de datos locales para el almacenamiento de información referente a la ortología genética y se-cuencias genómicas de especies para el posterior estudio de éstas por los investigadores del Centro de Estudios de Informática (CEI) de la Universidad Central “Marta Abreu” de las Villas “(UCLV). En la tesis se presenta una aplicación informática desarrollada a partir de tecnologías libres que integra los procesos de validación e incorporación de información a partir de ficheros XML de secuencias genómicas y de información ortológica, así como la creación de distintos tipos de ficheros utilizados por otras aplicaciones dentro del área de la Bioin-formática. Se incluye el estudio de las tecnologías y herramientas necesarias para el diseño e im-plementación de las bases de datos creadas con este fin, así como de la aplicación in-formática para el manejo de la información contenida en estas bases de datos. Se presenta la prueba del sistema en cuanto a su correcto funcionamiento, evidenciando que la utilización del mismo contribuirá a la disminución de las dificultades del uso de aplicaciones de manejo de ortología en internet por el tiempo de procesamiento y descar-ga de datos de gran volumen.
Orthology data available in Internet tends to be represented in orthoXML files and the cor-responding genome sequences, in seqXML ones. Some shortcomings have been founded in the management of a variety of such files when there is a need to create local databas-es for storing orthology information and genomic sequences of species for further studies of researchers at the Centre of Informatics Studies (CEI) of the Central University "Marta Abreu" of Las Villas (UCLV). This thesis paper includes the design and implementation of two local relational databases and a database application to integrate validation processes and addition of the mentioned XML files. The software is developed with Open Source technologies taking advantages of the multithreaded facilities in Java and the transactions in PostgreSQL server. SAX library is used in the management of XML files of large vo-lume. The application has the capability of exporting available orthology information in ARFF or SPSS format. Genomic sequence information can be exported to FASTA format. An example of the application usage is also presented with the Cobweb clustering ob-tained in Weka package from Inparanoid, OMA and Roundup ortholog classifications.

Descripción

Palabras clave

Orthology, DataBase, Biological DataBases, XML Files, OrthoXML Files, SeqXML Files, Bases de Datos, Bases de Datos Biológicas, Ficheros XML, Ficheros OrthoXML, Ficheros SeqXML, Ortología Genética

Citación