Software para la visualización del método de clasificación Self-labeling Grey-box

Fecha

2017-06-28

Autores

Rodríguez Martínez, Carlos Enrique

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

El aprendizaje semi-supervisado es un tipo de aprendizaje de supervisión débil que utiliza tanto datos etiquetados como datos no etiquetados durante el entrenamiento del modelo. En muchos problemas de aplicación, la cantidad de datos sin etiqueta excede los etiquetados, por tanto, los enfoques semi-supervisados son muy útiles en este tipo de contexto donde etiquetar los casos es un proceso costoso en tiempo o recursos. Recientemente ha sido propuesto en la literatura un método de clasificación semi-supervisada llamado Self-labeling Grey-box que ha demostrado tener buen balance entre exactitud del modelo e interpretabilidad, lo cual es un requisito fundamental en varios campos de aplicación como la Bioinformática. En este trabajo se incorpora esta técnica como un nuevo clasificador a la plataforma de aprendizaje automatizado WEKA, permitiendo la exploración del modelo con varios parámetros, clasificadores base y métodos de validación. Como contribución principal se diseña e implementa una herramienta de software llamada Grey-box para la explotación del modelo, en particular la clasificación de un nuevo caso del problema y la visualización del árbol generado por esta técnica. Estas implementaciones permiten la comparación justa del modelo propuesto por parte de la comunidad científica y la explotación de forma amigable por parte de los usuarios finales del modelo propuesto, dando visibilidad al balance obtenido entre exactitud e interpretabilidad.
Semi-supervised learning is a subclass of weak-supervision learning which uses both labeled and unlabeled data for learning the model. In many real life settings, the amount of unlabeled instances largely exceeds the amount of labeled ones. This makes semi-supervised approaches highly convenient to deal with real-world scenarios, especially when labeling the instances is expensive or time-consuming. Recently, a novel semi-supervised classification method called Self-labeling Grey-box have been proposed, showing good trade-off between accuracy and interpretability, which is a main requirement in several real-world domains such as Bioinformatics problems. In this work, we add this technique to the WEKA platform for machine learning, allowing the exploration of the model using different parameters, base classifiers and validation schemes. The main contribution of this work is the design and implementation of a software tool for the exploitation of the classifier, i.e. the classification of new instances and the visualization of the white box component generated by the model. Both implementations allow the scientific community to explore the capabilities of the classifier by comparing it against other techniques in a fair platform, as well as the exploitation from end users of the model, highlighting the trade-off between accuracy and interpretability obtained with the classifier.

Descripción

Palabras clave

Software, Visualización, Método de Clasificación, Self-labeling Grey-box, Plataforma WEKA, Bioinformática

Citación

Descargar Referencia Bibliográfica