Enfoque basado en aprendizaje reforzado para problemas de secuenciación de tareas tipo Flow Shop

Fecha

2014-06-28

Autores

Bermúdez Cabrera, Juan Manuel

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

El problema de secuenciación tipo Flow Shop define un grupo importante de problemas de secuenciación en el campo de planificación de la producción. El problema considerado aquí consiste en encontrar una permutación de tareas que pueda ser procesada secuencialmente en un número de recursos con el objetivo de minimizar el tiempo de completamiento de todas las tareas, conocido en la literatura como makespan o Cmax. Este problema típico de la optimización combinatoria es NP-Hard y puede ser encontrado en ambientes de manufactura, donde existen máquinas-herramientas convencionales y se fabrican diferentes tipos de piezas que pueden, en dependencia del escenario, presentar una misma ruta o no. La siguiente investigación presenta un algoritmo de Aprendizaje Reforzado conocido como Q-Learning para resolver problemas de tipo Flow Shop. Este algoritmo se basa en aprender una función acción-valor que proporciona la utilidad esperada de tomar una acción dada en un estado determinado. Para validar la calidad de las soluciones de este algoritmo se utilizan problemas de la literatura especializada y los resultados obtenidos son comparados con los resultados óptimos reportados. Además se propone una herramienta para trabajar con estos tipos de problemas y que puede servir como entorno de trabajo integrado para resolver otros tipos de problemas de secuenciación de tareas usando Aprendizaje Reforzado.
The Flow Shop Scheduling Problem outlines an important group of scheduling problems in the field of production planning. The problem considered here is to find a permutation of tasks that can be processed sequentially on a number of resources to minimize the completion time of all tasks, known in the literature as makespan or Cmax. This typical combinatorial optimization problem is NP-Hard and can be found in manufacturing environments, where there are conventional machine tools and different types of parts that can, depending on the stage, presenting the same route or not made. The following research presents a Reinforcement Learning algorithm known as Q-Learning to solve problems of the Flow Shop category. This algorithm is based on learning action-value function that gives the expected utility of taking a given action in a given state. To validate the quality of the solutions, test cases of the specialized literature are used and the results obtained were compared with the reported optimal results. Also a tool for working with these kinds of problems and can serve as integrated working environment to solve other scheduling problems using Reinforced Learning is proposed.

Descripción

Palabras clave

Algoritmo, Aprendizaje Reforzado, Problemas de Secuenciación, Tareas Tipo Flow Shop, Validación de la Calidad

Citación