Tesis de Maestría - Bioinformática y Biología Computacional
URI permanente para esta colección
En esta colección están depositadas las tesis defendidas dentro del programa de la Maestría en Bioinformática y Biología Computacional de la Facultad de Matemática Física y Computación en la UCLV.
Examinar
Envíos recientes
Ítem Acceso Abierto Procedimiento de extracción de rasgos 3D-proteicos basado en Álgebra Lineal: Aplicaciones en estudios bioinformáticos(Universidad Central “Marta Abreu” de Las Villas, 2016) Contreras Torres, Ernesto; Marrero Ponce, Yovani; García Jacas, César Raúl; Andrea Sampe, OrtegaEn el presente trabajo, se propone un nuevo procedimiento para la extracción de rasgos tridimensionales (3D) proteicos basado en las formas algebraicas 2-lineales utilizando la kth matriz multi-métrica bidimensional de similitud-disimilitud para codificar información relativa a las interacciones no covalentes de estos biopolímeros. Se proponen además esquemas de generalización para el cálculo de las distancias inter-atómicas mediante el empleo de varias métricas. Se usaron las matrices simple-estocástica y de probabilidad mutua para normalizar la matriz multi-métrica bidimensional de similitud-disimilitud no estocástica. Asimismo, se generaliza la obtención de índices totales y locales por medio de varios operadores de agregación. Con el objetivo de discriminar entre las diferentes interacciones no covalentes entre las cadenas laterales de los aminoácidos, se definen procedimientos de cortes macromoleculares geométricos y topológicos. Además, se desarrolló un software denominado ToMoCoMD-CAMPS MuLiMs-MCoMPAs que automatiza el cálculo de los descriptores propuestos. Se realizaron estudios de variabilidad basado en entropía de Shannon y análisis de componentes principales. Adicionalmente, se creó una métrica denominada Entropía Promedio de Shannon Estandarizada y una nueva representación gráfica, de utilidad en los análisis de variabilidad. Además, los descriptores propuestos se aplicaron satisfactoriamente en la clasificación estructural de proteínas, así como en la predicción de la velocidad de plegamiento de cadenas polipeptídicas. En ambos estudios se obtuvieron modelos robustos y de buena capacidad predictiva. Finalmente, se anticipa la potencial aplicación de los descriptores propuestos en la modelación de otras propiedades biológicas y/o funciones de interés en ciencia de proteínas.Ítem Acceso Abierto Mejoras de la clasificación en interacciones de proteínas de la Arabidopsis Thaliana utilizando técnicas para conjuntos de datos desbalanceados(Universidad Central “Marta Abreu” de Las Villas, 2016) Castillo Sánchez, Ana Caridad; Chávez Cárdenas, María del Carmen; García Lorenzo, María Matilde; Cabrera Hernández, LeidysEn la actualidad, constituye un reto lograr la correcta clasificación de grandes conjuntos de datos usando aprendizaje automatizado. En problemas de Bioinformática es muy común tener grandes bases de casos, las cuales en algunas ocasiones son desbalanceadas, siendo la clase minoritaria casi siempre la de principal interés de investigación. Este trabajo se enmarca en la predicción de interacciones de proteínas, donde el conjunto de datos pertenece a la interacción de proteínas en la Arabidopsis Thaliana y precisamente la clase minoritaria es aquella que representa a las proteínas que interactúan. Como resultado de este trabajo se presenta la aplicación de diferentes técnicas para tratar el desbalance existente en los datos, tanto dirigidas a los atributos como a las instancias, además de los resultados que se alcanzan al aplicar diversos métodos de clasificación. La experimentación se realiza utilizando dos herramientas: WEKA (Waikato Environment for Knowledge Analysis) y KEEL (Knowledge Extraction based on Evolutionary Learning). Para hacer la selección del mejor clasificador se aplican las medidas más conocidas basadas en la matriz de confusión: razón de Verdaderos Positivos (VP), área bajo la Curva de Operación del Receptor (ROC), la Exactitud (Accuracy, en inglés), la medida-F (F-Measure, en inglés) y las curvas Precision_Recall (PRC). Finalmente se demuestra que utilizando las técnicas de desbalance como pre-procesamiento de los datos, se logra mejorar los resultados de la clasificación en la base Arabidopsis Thaliana, respecto a los ya alcanzados hasta el momento.Ítem Acceso Abierto Evaluación de la influencia de los acantilados de actividad (activity cliffs) en la modelación QSAR(Universidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación. Departamento de Computación, 2015-05-20) Velázquez Libera, José Luís; Cruz Monteagudo, Maykel; Pérez Castillo, YunierkisLa modelación QSAR es un ejemplo de herramienta quimioinformática cuyo uso se ha extendido a diferentes esferas del desarrollo de la sociedad. El principal supuesto de las aproximaciones en modelos QSAR es la continuidad del espacio de las Relaciones Estructura-Actividad (SAR), la cual se puede ver afectada por la presencia de los activity cliffs. Estudios recientes han mostrado los efectos negativos de la presencia de los activity cliffs sobre la capacidad predictiva de los modelos QSAR. Sin embargo, no se reportan estudios en los que se evalúe el efecto de eliminarlos de los conjuntos de datos previamente a la modelación. El objetivo del presente trabajo fue evaluar el efecto de la eliminación de los activity cliffs sobre la capacidad predictiva de modelos QSAR basados en algoritmos de aprendizaje automatizado. Con este propósito se diseñó e implementó un procedimiento para identificar los activity cliffs, y eliminar los más influyentes de los conjuntos de datos. Se utilizaron nueve algoritmos de aprendizaje automatizado en la modelación de los cinco conjuntos de datos seleccionados. Se evaluó el desempeño de los modelos QSAR obtenidos a partir de los conjuntos de datos “sin activity cliffs” respecto a los obtenidos para los conjuntos de datos originales. Durante el proceso de evaluación se pudo comprobar que la eliminación de los activity cliffs no condujo a cambios estadísticamente significativos de la continuidad de las SAR. Sin embargo, si se apreciaron mejoras estadísticamente significativas en la modelabilidad de los conjuntos de entrenamiento; específicamente los procesados empleando el algoritmo que realiza agregación de las matrices de similitud por media geométrica. Por otra parte, eliminar los activity cliffs permitió mejoras estadísticamente significativas en el proceso de entrenamiento y validación de los modelos, no siendo así en la clasificación de los subconjuntos de validación externa, donde de manera general no hubo cambios estadísticamente significativos. No obstante, se mejoró la clasificación de la clase peor clasificada por los modelos obtenidos de los subconjuntos de entrenamiento originales. Este último resultado fue estadísticamente significativo para el algoritmo de eliminación de activity cliffs que no realiza fusión de matrices de similitud, lo que muestra una tendencia a balancear la clasificación.Ítem Acceso Abierto Evaluación del perfil neurotóxico de líquidos iónicos basado en técnicas de aprendizaje automático supervisado(Universidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación. Departamento de Computación, 2015-05-20) Dominguez López, Rotceh; Cruz Monteagudo, MaykelLa enzima Acetilcolinesterasa (AChE) juega un papel imprescindible en la hidrólisis del neurotransmisor Acetilcolina, el cual es el responsable de la transmisión de los impulsos nerviosos. Desde la década de los 30, especialistas en las ciencias químicas han producido compuestos que son capaces de inhibir esta enzima y por tanto afectar el proceso de transmisión de los impulsos nerviosos, lo cual provoca consecuencias graves para el organismo afectado. En la actualidad se ha comenzado la producción de compuestos llamados “líquidos iónicos”; que poseen características físico-químicas atractivas para la producción de solventes que son utilizados en la sustitución de solventes moleculares tóxicos para el medio ambiente. Estudios han demostrado que algunos líquidos iónicos pueden inhibir el funcionamiento de la enzima AChE y provocar daños al sistema nervioso central, surgiendo la necesidad de evaluar el perfil neurotóxico de los líquidos iónicos utilizando la enzima AChE como indicador de neurotoxicidad. Los estudios sobre la cuantificación de la relación entre la estructura y la actividad (QSAR) surgen para realizar análisis basados en la cuantificación de dicha relación presente en compuestos químicos. En el presente trabajo fue usada la habilidad de los líquidos iónicos para inhibir la AChE y de esta manera evaluar el perfil neurotóxico de los líquidos iónicos y consecuentemente su perfil no neurotóxico. En este sentido estudios QSAR pueden proveer información útil sobre el perfil químico de los líquidos iónicos. En el desarrollo del trabajo se aplicaron multiclasificadores, como técnicas de aprendizaje automático supervisado, y como resultado se obtuvieron modelos capaces de predecir si un nuevo líquido iónico es capaz o no de inhibir la AChE. Los multiclasificadores Bagging, Boosting, Stacking y Vote fueron utilizados en la experimentación con el fin de identificar modelos QSAR predictivos. Fueron calculadas cinco medidas de diversidad para los clasificadores bases utilizados en los multiclasificadores Stacking y Vote. Finalmente se obtuvieron dos modelos que superaron el desempeño de los clasificadores individuales utilizados, razón por la que fueron seleccionados para solucionar el problema. El multiclasificador AdaBoostM1, que utiliza una red neuronal MultilayerPerceptron como clasificador base y el multiclasificador Stacking, que utiliza la combinación de clasificadores FDLA, Jrip, Kstar, NaiveBayes y SMO como clasificadores bases, fueron los multiclasificadores seleccionados.Ítem Acceso Abierto Herramientas computacionales para la comparación de genomas y detección de genes ortólogos con un enfoque de grafo bipartido(Universidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación. Departamento de Computación, 2012-04-15) Fernández Marín, Miguel Ángel; Grau Ábalo, Ricardo del Corazón; Galpert Cañizares, Deborah Raquel; Leyva Vázquez, Maikel YelandiEn los estudios de comparación de genomas, específicamente el problema de la detección de genes ortólogos, se toman en cuenta las mutaciones de nucleótidos y los reordenamientos globales en los genomas. Los algoritmos consultados en la bibliografía que abordan este problema muestran aproximadamente un 90% de precisión siendo éste un problema latente. El presente trabajo plantea como objetivo diseñar una herramienta computacional para la detección de genes ortólogos, basado en el enfoque de grafos bipartidos, que combine, mediante el operador de agregación “Ordered Weighted Average operator” (OWA) y la media aritmética, rasgos como la homología de los genes, la longitud de las secuencias, la relación evolutiva según el modelo “The Five Model” (SG2009) y la pertenencia a regiones conservadas teniendo en cuenta los reordenamientos globales en los genomas y las mutaciones. La fase de agrupamiento del algoritmo implementa la técnica de particionamiento de grafos BUS, que incluye la búsqueda de bloques con un orden conservado, la eliminación de ambigüedades y la selección de los mejores subconjuntos uno a uno. Se tomó como referencia para validar la clasificación el algoritmo Inparanoid 7.0, aunque el mismo no se ha reportado con un 100% de exactitud en la clasificación. El algoritmo y la experimentación utilizando los genomas Saccharomyces Cervisiae y Schizosaccharomyces Pombe fueron implementados en Matlab 7.10.0. La validación muestra una coincidencia en la clasificación de un 85.24%. Palabras Claves: Genes ortólogos, alineamiento, reordenamientos globales en los genomas, precisión de algoritmos, segmentos conservados, grafo bipartido, particionamiento de grafo BUS.Ítem Acceso Abierto Modelación y manejo de bases de datos para el almacenamiento de la información sobre ortología(Universidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación. Departamento de Computación, 2013-05-20) de la Rosa Martín, Tonysé; Galpert Cañizares, Deborah Raquel; Pupo Meriño, MarioLa presente investigación tiene como precedente la necesidad de crear bases de datos locales para el almacenamiento de información referente a la ortología genética y se-cuencias genómicas de especies para el posterior estudio de éstas por los investigadores del Centro de Estudios de Informática (CEI) de la Universidad Central “Marta Abreu” de las Villas “(UCLV). En la tesis se presenta una aplicación informática desarrollada a partir de tecnologías libres que integra los procesos de validación e incorporación de información a partir de ficheros XML de secuencias genómicas y de información ortológica, así como la creación de distintos tipos de ficheros utilizados por otras aplicaciones dentro del área de la Bioin-formática. Se incluye el estudio de las tecnologías y herramientas necesarias para el diseño e im-plementación de las bases de datos creadas con este fin, así como de la aplicación in-formática para el manejo de la información contenida en estas bases de datos. Se presenta la prueba del sistema en cuanto a su correcto funcionamiento, evidenciando que la utilización del mismo contribuirá a la disminución de las dificultades del uso de aplicaciones de manejo de ortología en internet por el tiempo de procesamiento y descar-ga de datos de gran volumen.Ítem Acceso Abierto Estudios de medidas de diversidad en sistemas multiclasificadores(Universidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación. Departamento de Computación, 2013-05-20) Cabrera Hernández, Leidys; Casas Cardoso, GladysEn la actualidad las técnicas de clasificación existentes ayudan a resolver muchos problemas en el campo del aprendizaje automatizado y la búsqueda de patrones. Dentro de estas técnicas se encuentran los clasificadores individuales y los sistemas multiclasificadores, estos últimos combinan la salida de varios clasificadores con el objetivo de mejorar el resultado de la clasificación. Resulta intuitivo pensar que el resultado de combinar un grupo de clasificadores idénticos no va a ser mejor que el resultado de uno solo de sus miembros. Al contrario, resultaría más conveniente si se combinara un grupo de clasificadores diferentes entre sí, dado que al menos uno de ellos debe dar la respuesta correcta cuando el resto falle. Dicha diferencia es conocida principalmente como diversidad. Comprender y cuantificar la diversidad que existe en un ensamblado de clasificadores es un aspecto importante. En el presente trabajo se pretende analizar los resultados de medidas de diversidad usadas para tal propósito. Para esto se diseñan y ejecutan experimentos en los que se calculan los valores de las medidas para varias combinaciones de clasificadores, los cuales son entrenados con rasgos diferentes. El multiclasificador utilizado fue el “Vote_S_R” y para la combinación de las salidas de los clasificadores se utilizan dos funciones matemáticas: promedio de probabilidades y voto mayoritario. Luego se aplican técnicas estadísticas como análisis descriptivos, análisis de correlación, entre otras, que demuestran la variabilidad de los resultados de las medidas de diversidad. Para el cálculo de estas medidas se utilizó el software “Diversidad”, al cual se le incorporó la implementación de la mayoría de las medidas. Además con su ayuda se obtienen resultados para aplicaciones reales.Ítem Acceso Abierto Análisis borroso de datos: aplicaciones(Universidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación. Departamento Ciencias de la Computación, 2014-06-25) Denoda Pérez, Lisset; Casas Cardoso, Gladys; Morales Martínez, Jorge LuisBajo el nombre “análisis de datos” se agrupa una gran cantidad de métodos estadísticos cuyo propósito es extraer conclusiones a partir de un conjunto de datos. A este proceso se le denomina “descubrimiento de conocimiento”. Con frecuencia los datos recogidos son imprecisos o tienen asociado cierto grado de incertidumbre. Para procesarlos existe un conjunto de métodos que combinan los análisis estadísticos tradicionales con la teoría de la Lógica Borrosa. A ello se le denomina “análisis borroso de datos”. En esta tesis se presentan de manera resumida los conceptos fundamentales de la teoría de conjuntos borrosos. Se definen los números borrosos triangulares, trapezoidales, así como sus operaciones fundamentales. Se muestran variantes para realizar el cálculo de medidas descriptivas borrosas como la media, moda, mediana y varianza. Se exponen diferentes modelos de regresión lineal borrosa reportadas en la literatura así como las medidas de bondad de ajuste para los mismos. Se explica las medidas de riesgo borrosas y se propone una nueva técnica borrosa para obtener los canales endémicos. Se detallan las herramientas computacionales utilizadas haciendo énfasis en el diseño de la versión 2.0 del efuzzy. Se mostraron numerosas aplicaciones de los métodos desarrollados a la solución de problemas reales.Ítem Acceso Abierto Influencia de las radiaciones ionizantes en la productividad biológica(Universidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación. Departamento Ciencias de la Computación, 2014-06-25) Rodríguez López, Lien; Cárdenas Ortiz, Rolando Pedro; Rodríguez Hoyos, OscarLas radiaciones juegan un rol esencial en el establecimiento y proliferación de la biota en los ambientes naturales. El proceso de fotosíntesis, básico para casi toda la biosfera terrestre, se realiza absorbiendo fotones en las bandas visible e infrarroja del espectro electromagnético, mientras que los fotones ultravioletas (UV) y las radiaciones ionizantes tienden a inhibirla (disminuyendo, por diversos mecanismos, su rendimiento cuántico). La modelación cuantitativa de lo anterior dista mucho de ser un tema cerrado: la mayoría de los modelos solo considera las irradiancias espectrales en las bandas ultravioleta y visible, y alguna que otra variable ambiental adicional, seleccionada acorde al entorno natural que se modela. Por lo general se presta poca o ninguna atención a la potencial influencia de radiaciones ionizantes en el proceso fotosintético. Lo anterior trae como consecuencia la poca disponibilidad de modelos adecuados para describir la productividad biológica en situaciones en que las radiaciones ionizantes juegan un rol preponderante. En esta tesis se resuelven y discuten varios casos de modelación de la influencia de las radiaciones ionizantes en la productividad biológica, usando herramientas bioinformáticas y biofísicas.Ítem Acceso Abierto Modelación matemática del efecto de la radiación ultravioleta en la productividad primaria de cianobacterias fitoplanctónicas(Universidad Central “Marta Abreu” de Las Villas. Facultad de Matemática, Física y Computación. Departamento de Computación, 2014-06-20) Avila Alonso, Dailé; Cárdenas Ortiz, Rolando PedroLa fotosíntesis del fitoplancton es uno de los procesos más importante de la biosfera. Las cianobacterias son los organismos fotosintéticos más antiguos de la Tierra y los géneros Prochlorococcus y Synechococcus dominan las comunidades fitoplanctónicas oceánicas actuales. En su evolución, se han desarrollado en regímenes diferentes de radiación ultravioleta (UV), con implicaciones para la productividad primaria. En el presente trabajo se determina el efecto de esta radiación en la productividad primaria de cianobacterias fitoplanctónicas en diferentes ambientes radiacionales (eón Arcaico y eón Fanerozoico-actualidad), a través de un modelo biofísico racional. El efecto de la radiación UV (fotoinhibición y reducción del potencial fotosintético) se limita a la superficie y la zona fotoactiva del océano, aunque puede extenderse un poco más en la zona fótica, debido a la radiación UVA. El ozono como bloqueador atmosférico tiene relevancia en los valores de las tasas de fotosíntesis en superficie y el bloqueador oceánico Fe2+ pudo haber permitido alcanzar tasas elevadas por debajo de la misma en el Arcaico. Debido a la concentración del daño por radiación UV en las aguas superficiales, no tiene grandes afectaciones a la productividad primaria de la zona fótica, ya que el proceso puede ser mantenido en las mayores profundidades por las especies más eficientes utilizando la radiación fotosintéticamente activa. Por otra parte, la conceptualización del modelo de fotosíntesis describe apropiadamente la situación modelada.