Enfoque multi-objetivo basado en aprendizaje reforzado para problemas de secuenciación de tareas tipo Job Shop (MOQL)

Fecha

2014-06-30

Autores

Ortega Sánchez, Liliana

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

Los problemas de scheduling requieren organizar en el tiempo la ejecución de tareas que comparten un conjunto finito de recursos, y que están sujetas a un conjunto de restricciones impuestas por diversos factores. Este tipo de problemas aparecen con frecuencia en la vida real en numerosos entornos productivos y de servicios. El problema consiste en optimizar uno o varios criterios que se representan mediante funciones objetivo. En esta investigación se estudia el Job Shop Scheduling con el objetivo de minimizar el makespan, el flow time y el tardiness de los trabajos. El hecho de considerar todos estos objetivos a la vez es el problema de optimización multi-objetivo en estudio. El uso de agentes y de aprendizaje reforzado para dar solución a este tipo de problemas resulta un enfoque muy natural. El comportamiento de los agentes a la hora de seleccionar una acción estará determinado por uno de los algoritmos de aprendizaje reforzado más usados para resolver este tipo de problemas; el Q-Learning. En esta tesis se describen varias funciones de recompensa usadas para cada uno de los objetivos a optimizar. Para dar solución al problema multi-objetivo se hace uso de la Optimalidad de Pareto obteniéndose un frente de soluciones no dominadas. El desempeño del algoritmo propuesto es evaluado usando las instancias de problemas Job Shop que se encuentran en la OR-Library. Los resultados obtenidos son evaluados en términos de dos de las métricas propuestas en la literatura. Dos casos de estudio para el objetivo tardiness son presentados.
Scheduling problems require the organization in time of a set of tasks which share a finite set of resources, these tasks are subject to a set of constraints imposed by several factors. This type of problem is usually found in real world environments, where the goal is to optimize one or several criteria represented through objective functions. In this work, the Job Shop scheduling problem is studied with the objective of minimizing the makespan and the mean flow time of the jobs. The simultaneous consideration of these objectives is the multi-objective optimization problem under study. The use of agents and reinforcement learning to solve this type of problems is a natural approach. One of the most used reinforcement learning algorithms, the Q-Learning, determines the behavior of the agents when selecting the actions. In this thesis, different reward functions are described for each of the objectives to be optimized. To solve the multi-objective problem the Pareto Optimality is used, obtaining a non-dominated solution front. The performance of the proposed algorithm is evaluated by solving benchmark job shop scheduling problem instances provided by the OR-library. The results obtained are evaluated in terms of two metrics proposed in the literature. Two case studies for the tardiness objective are proposed.

Descripción

Palabras clave

Job Shop, Q-Learning, Scheduling, Pareto, Multiple Objectives, Aprendizaje Reforzado

Citación