Métodos de clasificación semi-supervisada para series temporales

Fecha

2015-06-26

Autores

Rodríguez Morales, José Daniel

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

El análisis de series temporales se ha convertido en un área de investigación muy activa, dentro de esta, la clasificación es una de las tareas que ha acaparado gran atención en la actualidad. La mayoría de las investigaciones del estado del arte asumen la existencia de grandes volúmenes de datos etiquetados, los cuales en la práctica no siempre están disponibles. En este trabajo se aborda el problema de la clasificación automática de series temporales mediante aprendizaje semi-supervisado. Este paradigma es apropiado para enfrentar situaciones donde se tienen abundantes datos no etiquetados y una pequeña cantidad de datos etiquetados. En este trabajo se realiza un estudio de las diferentes técnicas de aprendizaje automático y sus características, así como las propuestas existentes para la clasificación de series temporales. Se describen tres de los algoritmos de clasificación semi-supervisada propuestos en la literatura, los cuales no han sido probados en el dominio de las series temporales, ellos son: SETRED, SNNRCE y Democratic-Co. Estos algoritmos se implementan en el paquete sslclass en el lenguaje de programación R. Para evaluar este trabajo se realizan experimentos empleando varios conjuntos de datos. Los resultados obtenidos son comparados incluyendo el algoritmo clásico Self-Training como referencia. Se utilizaron como clasificadores base los métodos supervisados: Máquinas de Soporte Vectorial, Arboles de Decisión y 1-NN. Además se emplearon como medidas de distancia Euclidiana y DTW. Finalmente, los resultados de los algoritmos implementados son contrastados usando pruebas estadísticas no paramétricas.
Time series analysis has become a very active research area, within this, classification is one of the tasks that has attracted great attention at present. Most state of the art research assume the existence of large amounts of labeled data, which in practice are not always available. In this work we approach the machine learning classification problem of time series through semisupervised learning. This paradigm is appropriate to deal with situations where there are lots of unlabeled data and a small amount of labeled data. This work presents a study of the different machine learning techniques and their characteristics, as well as existing proposals for classifying time series. Three of the semi-supervised classification algorithms proposed in the literature, which have not been tested in the field of time series are described, they are: SETRED, SNNRCE and Democratic-Co. These algorithms are implemented in the sslclass package in R programming language. To evaluate this work experiments are performed using several data sets. The results are compared including the Self-Training classic algorithm as a reference. The supervised classifiers used were: Support Vector Machines, Decision Trees and 1-NN. In addition they were used a distance measures Euclidean and DTW. Finally, the results of the implemented algorithms are contrasted using non-parametric statistical tests.

Descripción

Palabras clave

Métodos Clasificación, Clasificación Semi-Supervisada, Series Temporales, Aprendizaje Automático, Algoritmos de Clasificación, Lenguaje de Programación R, Estadísticas No Paramétricas, Inteligencia Artificial

Citación

Descargar Referencia Bibliográfica