Chávez Cárdenas, María del CarmenGarcía Lorenzo, María MatildeCabrera Hernández, LeidysCastillo Sánchez, Ana Caridad2019-03-112019-03-112016https://dspace.uclv.edu.cu/handle/123456789/10873En la actualidad, constituye un reto lograr la correcta clasificación de grandes conjuntos de datos usando aprendizaje automatizado. En problemas de Bioinformática es muy común tener grandes bases de casos, las cuales en algunas ocasiones son desbalanceadas, siendo la clase minoritaria casi siempre la de principal interés de investigación. Este trabajo se enmarca en la predicción de interacciones de proteínas, donde el conjunto de datos pertenece a la interacción de proteínas en la Arabidopsis Thaliana y precisamente la clase minoritaria es aquella que representa a las proteínas que interactúan. Como resultado de este trabajo se presenta la aplicación de diferentes técnicas para tratar el desbalance existente en los datos, tanto dirigidas a los atributos como a las instancias, además de los resultados que se alcanzan al aplicar diversos métodos de clasificación. La experimentación se realiza utilizando dos herramientas: WEKA (Waikato Environment for Knowledge Analysis) y KEEL (Knowledge Extraction based on Evolutionary Learning). Para hacer la selección del mejor clasificador se aplican las medidas más conocidas basadas en la matriz de confusión: razón de Verdaderos Positivos (VP), área bajo la Curva de Operación del Receptor (ROC), la Exactitud (Accuracy, en inglés), la medida-F (F-Measure, en inglés) y las curvas Precision_Recall (PRC). Finalmente se demuestra que utilizando las técnicas de desbalance como pre-procesamiento de los datos, se logra mejorar los resultados de la clasificación en la base Arabidopsis Thaliana, respecto a los ya alcanzados hasta el momento.At present, it is challenging to correctly classify large datasets using automated learning. In Bioinformatics problems it is very common to have large case bases, which are sometimes unbalanced, with the minority class almost always being the main research interest. This work is framed in the prediction of protein interactions, where the dataset belongs to the interaction of proteins in Arabidopsis Thaliana and precisely the minority class is that which represents the interacting proteins. As a result of this work we present the application of different techniques to deal with the imbalance in the data, both for the attributes and the instances, as well as the results achieved by applying different classification methods. The experimentation is carried out using two tools: WEKA (Waikato Environment for Knowledge Analysis) and KEEL (Knowledge Extraction based on Evolutionary Learning). In order to make the selection of the best classifier, the most known measures based on the confusion matrix are applied: True Positive Ratio (VP), area under the Receiver Operating Curve (ROC), Accuracy, (F-Measure) and Precision_Recall (PRC) curves. Finally, it is shown that using the unbalance techniques as pre-processing of the data, it is possible to improve the results of the classification in the base Arabidopsis Thaliana, compared to those already achieved so far.esEste documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas. Los usuarios podrán hacer uso de esta obra bajo la siguiente licencia: Creative Commons: Atribución-No Comercial-Compartir Igual 4.0 LicenseTécnicas de PreprocesamientoDatos DesbalanceadosMétodos de ClasificaciónWaikato environment for knowledge analysis (Weka)Knowledge extraction based on evolutionary learning (Keel)Interacción de ProteínasBioinformáticaProcesamiento de DatosDesbalance de ClasesClasificaciónAprendizaje AutomáticoProteinas VegetalesBioinformáticaMejoras de la clasificación en interacciones de proteínas de la Arabidopsis Thaliana utilizando técnicas para conjuntos de datos desbalanceadosThesis