Título: Posicionamiento autónomo de UAVs en redes inalámbricas de sensores empleando Q-learning. Autor: Deny Manuel Pons Pérez. Tutores: Ing. Rigoberto Acosta González. Title: Autonomous positioning UAVs in wireless sensor networks using Q-Learning. Author: Deny Manuel Pons Pérez. Thesis Director: ing. Rigoberto Acosta González. i Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas, y se encuentra depositado en los fondos de la Biblioteca Universitaria “Chiqui Gómez Lubian” subordinada a la Dirección de Información Científico Técnica de la mencionada casa de altos estudios. Se autoriza su utilización bajo la licencia siguiente: Atribución- No Comercial- Compartir Igual Para cualquier información contacte con: Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de Las Villas. Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830 Teléfonos.: +53 01 42281503-1419 ii PENSAMIENTO “El desarrollo del hombre depende fundamentalmente de la invención. Es el producto más importante de su cerebro creativo. Su objetivo final es el dominio completo de la mente sobre el mundo material y el aprovechamiento de las fuerzas de la naturaleza a favor de las necesidades humanas.” Nikola Tesla. iii DEDICATORIA A toda mi familia y amigos en especial a mi madre y hermana. A mi abuela Inés, que fue como mi segunda madre y siempre seguirá viva en mi corazón. iv AGRADECIMIENTOS A mi familia por todo su apoyo incondicional. A todos mis amigos, en especial a aquellos que siempre han estado ahí cuando más los necesito. A mi tutor, que me ayudó muchísimo hasta el final, de verdad, muchas gracias. A todos lo profesores que he tenido a lo largo de mi vida escolar. A todos mis compañeros. v RESUMEN Una red inalámbrica de sensores está compuesta por sensores autónomos especialmente distribuidos para monitorizar condiciones físicas o ambientales. Estas redes pueden ser de gran utilidad en la agricultura para generar un gran volumen de información variada que servirán para lograr mejorar la productividad. Obtener esta información implica establecer un canal de comunicación para el intercambio de información, por lo que en este trabajo se implementará una infraestructura basada en UAVs que hará más factible esta tarea. El principal resultado de esta investigación será analizar el rendimiento del algoritmo Q- learning multiagente cooperativo en el posicionamiento autónomo de UAV para el descubrimiento de dispositivos IoT. Además de la creación de un entorno de software para potenciar la investigación en las comunicaciones inalámbricas utilizando UAVs para las redes inalámbricas de sensores. Se demuestra que algoritmo Q-learning multiagente cooperativo es una excelente opción para el descubrimiento de los dispositivos IoT gracias a su rendimiento, pues como promedio 5 o menos dispositivos IoT quedan sin cobertura. Además de desarrollar mecanismos de forma autónoma que permiten una disminución del consumo de potencia. vi ABSTRACT A wireless sensor network is composed of autonomous sensors specially distributed to monitor physical or environmental conditions. These networks can be very useful in agriculture to generate a large volume of varied information that will serve to improve productivity. Obtaining this information implies establishing a communication channel for the exchange of information, so this work will implement an infrastructure based on UAVs that will make this task more feasible. The main outcome of this research will be to analyze the performance of the cooperative multi-agent Q-learning algorithm in autonomous UAV positioning for IoT device discovery. In addition to the creation of a software environment to enhance research in wireless communications using UAVs for wireless sensor networks. It is demonstrated that cooperative multi-agent Q-learning algorithm is an excellent choice for the discovery of IoT devices due to its performance, since on average 5 or less IoT devices remain uncovered. In addition to developing autonomous mechanisms that allow a decrease in power consumption. vii TABLA DE CONTENIDOS PENSAMIENTO ................................................................................................................... ii DEDICATORIA .................................................................................................................... iii AGRADECIMIENTOS ......................................................................................................... iv RESUMEN ............................................................................................................................. v ABSTRACT ........................................................................................................................... vi INTRODUCCIÓN .................................................................................................................. 1 Antecedentes ........................................................................................................................... 2 Objetivos del trabajo. .............................................................................................................. 3 Organización del informe ....................................................................................................... 4 CAPÍTULO 1. VEHÍCULOS AÉREOS NO TRIPULADOS............................................ 6 1.1 Definición de UAV. .............................................................................................. 6 1.2 Características de los UAVs. ................................................................................ 6 1.2.1 Clasificación según la altura de vuelo máxima. ............................................... 7 1.1.2 Clasificación según la forma de sustentación. .................................................. 8 1.1.3 Clasificación según su carga útil .................................................................... 12 1.1.4 Clasificación según el método de control ....................................................... 16 1.2 Tipos de sensores utilizados en UAVs ............................................................... 16 1.3 Política de seguridad. .......................................................................................... 19 1.3.1 Política de privacidad en Cuba ....................................................................... 20 1.4 Redes inalámbricas de sensores. ......................................................................... 21 1.4.1 Características de las redes de sensores inalámbricos. ................................... 22 1.4.2 Protocolos utilizados en redes de sensores inalámbricos. ............................... 23 viii 1.4.3 Aplicaciones de los UAVs en redes de sensores inalámbricos. ...................... 25 1.5 Conclusiones del capítulo. .................................................................................. 26 CAPÍTULO 2. APRENDIZAJE POR REFUERZO. ....................................................... 27 2.1 Aprendizaje por refuerzo. ................................................................................... 27 2.1.1 Elementos que caracterizan el aprendizaje por refuerzo ................................ 27 2.1.2 Interfaz entorno – agente ................................................................................ 28 2.1.3 Función de valor ............................................................................................. 29 2.2 Métodos Libres de Modelos ............................................................................... 30 2.2.1 Aprendizaje por Diferencia Temporal ............................................................ 31 2.3 Procesos de decisión de Márkov y su relación con el aprendizaje por refuerzo. 33 2.3.1 Juegos de Márkov totalmente cooperativos. ................................................... 33 2.3.2 Q-Learning descentralizado ............................................................................ 34 2.4 Modelo de Consumo Energético. ....................................................................... 36 2.5 Conclusiones del capítulo. .................................................................................. 39 CAPÍTULO 3. SIMULACIÓN Y RESUTADOS. ........................................................... 40 3.1 Canal de Comunicación ...................................................................................... 40 3.1.1 Conexión de los dispositivos IoT .................................................................... 42 3.2 Escenario de simulación. .................................................................................... 43 3.2.1 Simulación ...................................................................................................... 44 3.3 Métricas .............................................................................................................. 47 3.4 Resultados numéricos ......................................................................................... 48 3.5 Conclusiones del capítulo. .................................................................................. 51 CONCLUSIONES Y RECOMENDACIONES .................................................................... 52 Conclusiones ......................................................................................................................... 52 ix Recomendaciones ................................................................................................................. 52 REFERENCIAS BIBLIOGRÁFICAS ................................................................................. 53 ANEXOS .............................................................................................................................. 59 Anexo I Tabla de coeficientes de superficie polinomial para a ....................................... 59 Anexo II Tabla de coeficientes de superficie polinomial para b ....................................... 59 Anexo III Notaciones principales y terminología. .............................................................. 60 INTRODUCCIÓN 1 INTRODUCCIÓN Los UAVs (Unmanned Aerial Vehicle) o VANT (Vehículo Aéreo no Tripulado), como su propio nombre lo indica son aeronaves que vuelan sin tripulación. Hay una amplia variedad de formas, tamaños, configuraciones y características en el diseño de los VANT. Dichas aeronaves pueden ser completamente autónomas, programadas para realizar un patrón de vuelo y seguir unas directrices predefinidas o pueden comandarse por un piloto de manera remota mediante enlace de datos. Los drones tienen un gran potencial en áreas muy diversas, ya que pueden desplazarse rápidamente sobre un terreno irregular o accidentado sin riesgo para las personas[1]. Los UAVs tienen diversas aplicaciones; pueden ser utilizados en eventos, tanto deportivos como culturales ; como delivery; en situaciones de emergencia; búsqueda de personas; control fiscal; vigilancia fronteriza; como satélites y en zona rurales, al apoyar la agricultura de precisión, los drones pueden mejorar la salud del suelo, escaneos, monitorear la salud de los cultivos, ayudar en la planificación de programas de riego, aplicar fertilizantes, estimar datos de producción y proporcionar datos valiosos para el análisis meteorológico[2]. La agricultura contemporánea enfrenta a numerosos retos relacionados con la efectividad de la fertilización y su precisión, falta de información actualizada, cumplimiento de normas de protección del medio ambiente, así como de competitividad creciente; todo lo que genera aumento de costos e insatisfacción de la productividad. Hay múltiples posibles aplicaciones de las tecnologías de Drones en procesos de producción de la agricultura que incluyen, entre otros, métodos automatizados de la inspección, mapeo y análisis de los cultivos, análisis multiespectral, así como mano métodos de fumigación de campos, apoyo con daños los procesos de gestión y supervisión de campos productivos[3]. INTRODUCCIÓN 2 El aprendizaje por refuerzo es un área del aprendizaje automático inspirada en la psicología conductista, cuya ocupación es determinar qué acciones debe escoger un agente de software en un entorno dado con el fin de maximizar alguna noción de "recompensa" o premio acumulado[4]. Dentro de los métodos de aprendizaje por refuerzo se encuentra el Q-Learning que permite resolver problemas de decisión secuencial. Este algoritmo proporciona resultados de excelente calidad teniendo en cuenta las características presentes en entornos reales. Además, es un método simple y fácil de implementar. Utilizando algoritmos de aprendizaje de refuerzo los drones pueden ajustar sus posiciones, direcciones de vuelo y control de movimiento para dar servicio a sus usuarios de tierra, incluso disminuir el consumo de energía. Antecedentes Los primeros intentos de crear un UAV, tal y como los conocemos hoy, comienzan durante el desarrollo de la Primera Guerra Mundial. A finales de 1916 se construye en Reino Unido por el capitán A.H Low el “Aerial Target”, un vehículo no tripulado controlado por radio desde tierra[5]. Poco a poco estos fueron evolucionando hasta, además de ser usados militarmente, tener varias aplicaciones dentro de las que destacan su uso en el escenario del Internet de las cosas (IoT). Hoy en día, los avances de la tecnología y el abaratamiento de costo han permitido que más gente tenga acceso para adquirir un dron. Países como México ya están implementando conceptos operativos para estos sistemas con la implicación de sus autoridades. Las aplicaciones son inmediatas para la vigilancia de sus largos corredores, de líneas de alta potencia y red de transporte de gas. En la zona de la Amazonía, Brasil utiliza UAVs frente a otros sensores dentro de su sistema de vigilancia de esta zona vital del planeta para evitar su explotación indebida y actividades ilícitas dentro de la misma[6]. Todo ello con un menor riesgo y coste que con plataformas tripuladas. Varios países están adquiriendo sistemas del mercado para vigilancia de fronteras como Bolivia y Colombia. Se están llegando a acuerdos entre varios países para llevar a cabo actividades de lucha contra el tráfico de drogas y contrabando[7]. INTRODUCCIÓN 3 Desde el momento en que los UAVs se mostraron al mundo como una herramienta tan versátil ramas como la industria, el ejemplo clave del mundo real, han realizado proyectos recientes que emplean drones para la conectividad inalámbrica, como el proyecto Loon de Google. Además, Qualcomm y AT&T están planeando implementar UAVs para permitir comunicaciones de cable a gran escala menos en las próximas redes inalámbricas de quinta generación (5G)[8]. Mientras tanto, las iniciativas de Amazon Prime Air y Project Wing de Google son ejemplos destacados de casos de uso para UAVs conectados a la telefonía celular. Actualmente, el uso de drones en el ámbito profesional tiene una utilización que abarca muchos campos y que pretende abarcar aún más. El dron tiene la ventaja de ofrecer un gran número de posibilidades en muchos sectores, tanto comerciales, como de seguridad. El uso de drones, además, ha supuesto una gran mejora en muchos puestos de trabajo ya que se han podido mejorar ciertas acciones que requerían más complicación o eran de gran difícil acceso. Objetivos del trabajo. El objetivo general de este trabajo es analizar el algoritmo Q-Learning en el posicionamiento autónomo de UAVs en sus variantes simple-agente cooperativo, simple-agente no cooperativo, multi-agente cooperativo y multi-agente no cooperativo. De este se derivan los siguientes objetivos específicos: • Describir las características de los principales tipos de UAVs. • Describir las principales características y funcionamiento de las redes inalámbricas de sensores. • Implementar las variantes del algoritmo Q-learning. • Describir el modelo matemático para el consumo energético de un UAV. • Implementar un entorno de software para las simulaciones donde aplicar las variantes del algoritmo Q-learning. • Analizar los resultados de las variantes del algoritmo Q-learning implementadas. Para darle cumplimiento estos objetivos tenemos las siguientes interrogantes científicas: • ¿Cuáles son las principales características de los principales tipos de UAVs? INTRODUCCIÓN 4 • ¿Cuáles son las principales características y funcionamiento de las redes inalámbricas de sensores? • ¿Cómo implementar las variantes del algoritmo Q-learning? • ¿Cómo implementar un entorno de software para las simulaciones donde aplicar las variantes del algoritmo Q-learning? • ¿Cómo describir el modelo matemático para el consumo energético de un UAV? • ¿Cuál variante del algoritmo obtiene los mejores resultados en su ejecución? A estas interrogantes se le dará respuesta mediante las siguientes tareas de investigación: • El estudio de las principales características de los principales tipos de UAVs. • El estudio de las principales características y funcionamiento de las redes inalámbricas de sensores. • El análisis de las variantes del algoritmo Q-learning para implementar. • El estudio de los diferentes modelos matemático para el consumo energético de un UAV. • El estudio de los diferentes entornos de software para las simulaciones donde aplicar las variantes del algoritmo Q-learning. • El análisis de resultados en la ejecución de algoritmos implementados. Organización del informe El informe de la investigación se estructurará en introducción, capitulario, conclusiones, referencias bibliográficas, y anexos. En la introducción se dejará definida la importancia, actualidad y necesidad del tema que se aborda y se dejarán explícitos los elementos del diseño teórico. Desarrollo CAPITULO I: Se describirán los principales tipos de UAVs y sus características. También se analizarán las diversas aplicaciones posibles para el desarrollo e implementación de una red inalámbrica de sensores. CAPITULO II: Se estudiará las características y especificaciones de los algoritmos Aprendizaje Automático (Machine Learning) y Aprendizaje por refuerzo (Reinforcement INTRODUCCIÓN 5 Learning), marcando pauta en el algoritmo Q-Learning. Además del estudio de diversos modelos matemático para el consumo energético de un UAV. CAPITULO III: Se Implementará un entorno de software para las simulaciones donde aplicar las variantes de los algoritmos Q-Learning. Por último, se comparará cuál de los resultados de los algoritmos será más óptimo a los requerimientos deseados. Conclusiones: Conclusiones del trabajo. Recomendaciones: Recomendaciones para trabajos futuros. Referencias bibliográficas: Organización de la bibliografía consultada. Anexos: Contenido adicional para comprender detalladamente los procedimientos y resultados. CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 6 CAPÍTULO 1. VEHÍCULOS AÉREOS NO TRIPULADOS. En el presente capítulo se describirán los principales tipos de UAVs y sus principales características. También se realizará un análisis de las diversas aplicaciones posibles para el desarrollo e implementación de las redes de sensores inalámbricos. 1.1 Definición de UAV. El término dron hace referencia a un vehículo aéreo no tripulado (VANT), un término que en inglés se conoce como UAV (Unmanned Aerial Vehicle), aunque de manera más apropiada se denomina como Remotely Piloted Aircraft System (RPAS). En definitiva, se trata de una aeronave que vuela sin tripulación, donde sus funciones se ejecutan de forma remota. Por lo tanto, un dron es un vehículo sin tripulación capaz de mantener de manera autónoma un nivel de vuelo controlado y sostenido que puede estar impulsado por un motor eléctrico, de explosión o de reacción. Sus movimientos son controlados principalmente por una unidad remota en la mayoría de los casos, mientras que otros diseños más avanzados son operados desde computadoras o constan de una trayectoria programada con anterioridad. A la hora de realizar una clasificación, tendremos que tener en cuanta diferentes características para poder organizar por tipologías los drones existentes hasta el momento. 1.2 Características de los UAVs. Aspectos que caracterizan a un UAV: • ESPACIO AÉREO: altura de vuelo, distancia, área, exterior o interior, urbano, suburbano, o rural. • FORMA DE SUSTENTACIÓN: ala fija o rotatoria, globos y dirigibles. CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 7 • CARGA ÚTIL: certificación CE. • TIPO de SENSOR: fotografía, video, térmico, lidar, etc. • OPERADOR REMOTO: vuelo visual o navegación autónoma, capacitación requerida, permisos, certificado de aeronavegación. • LEGISLACIÓN: legislación nacional, RAAC y ANAC, comparada, internacional (OACI). 1.2.1 Clasificación según la altura de vuelo máxima. La altura de máxima de vuelo de un UAV es un parámetro muy importante a tener en cuenta a la hora de saber qué tipo de dron usar para cada aplicación. Esta es imprescindible para maximizar la cobertura del suelo y satisfacer diferentes requisitos de calidad de servicio (QoS). Existen dos tipos de clasificaciones de los UAV según la altura máxima que pueden alcanzar: Las plataformas de baja altitud (PBA): se emplean generalmente para ayudar a las comunicaciones celulares, ya que son más eficaces y suelen proporcionar enlaces de línea de visión de corto alcance (LoS) que pueden mejorar significativamente la comunicación[9]. En comparación con las PGAs, el despliegue de las PBAs se puede hacer más rápidamente, por lo que los hace más apropiados para las aplicaciones de alta sensibilidad respecto a tiempo de respuesta (por ejemplo, situaciones de emergencia). A diferencia de las PGAs, las PBAs se pueden utilizar para la recopilación de datos de sensores de tierra. Además, las PBAs se pueden recargar o reemplazar fácilmente si es necesario. Las plataformas a gran altitud (PGA): como los globos pueden proporcionar conectividad inalámbrica. En comparación con los PBA, los PGA tienen una cobertura más amplia y pueden permanecer mucho más tiempo en el aire. Estas usualmente se mantienen a altitudes superiores a 16 km y suelen estar casi estacionarias[10], [11]. Sin embargo, el despliegue de PGA es más complejo y se consideran principalmente como vehículos para proporcionar conectividad a grandes fracciones de población mundial con pobre infraestructura de comunicación inalámbrica terrestre. Es importante resaltar que el uso de PGA en las comunicaciones celulares puede causar una interrupción total de las redes debido a las interferencias intercelulares extremadamente que pueden causar[9]. En consecuencia, rara CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 8 vez son considerados en la literatura sobre redes celulares asistidas por VAnT, si no más bien perseguidos por compañías proveedoras de Internet como Google. 1.1.2 Clasificación según la forma de sustentación. Una de las principales características para clasificar los UAV es la forma en que sustentan su vuelo. En el siguiente esquema, podemos ver dicha clasificación, la cual se explicará a continuación: Figura 1.1: Clasificación de los UAV según la forma de sustentación. Globos aerostáticos Son aeronaves más livianas que el aire, que a través de un quemador de llama generan aire caliente en la recámara y le sirven para elevarse y mantenerse en vuelo. Funcionan a partir del movimiento de gases que pueden ser calientes o no. El impulso de estos gases hace que la recamara, formada por una extensión de tela que constituye la envoltura del globo le permita desplazarse en el aire, subir en altura y despegar del suelo. Son usados usualmente en aplicaciones de altitud ultra alta[12]. Son mucho más flexibles en términos de peso, tamaño y consumo de energía de la carga útil, esencialmente solo dependiendo del volumen de la tela envolvente o globo. Sin embargo, mientras más grande el globo más difícil es mantenerlo estático. CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 9 Se puede destacar las grandes alturas en que generalmente operan, volviéndolos ideales para conexiones basadas en el establecimiento de una línea de vista entre receptor y emisor. Dirigibles Un dirigible es un aerostato provisto de motores capaces de propulsarlo en vuelo dirigido. Está constituido por un armazón metálico cubierto de una envoltura impermeable y aerodinámica con varios depósitos de un gas más ligero que el aire (hidrógeno o helio)[13]. Además, poseen una barquilla suspendida para el transporte de pasajeros o mercancías. El proceso de sustentación aerostática en estas aeronaves se logra mediante el llenado de depósitos ubicados al interior de su estructura con un gas de menor densidad respecto de la atmósfera circundante, que antiguamente era el hidrógeno, pero que actualmente se usa el helio por tratarse de un gas no inflamable, aunque este gas es un poco menos ligero que el hidrógeno. Estas características hacen que difieran de los aviones respecto de la sustentación aerodinámica, que se obtiene mediante el movimiento de un perfil alar en el aire. Actualmente se utilizan en una serie de aplicaciones secundarias, una de ellas es la modalidad de RPAS teledirigidos usados especialmente en trabajos aéreos como la publicidad. El principal inconveniente para el uso de dirigibles en escenarios de recuperación ante desastres en realidad proviene de su tamaño, que requiere un extenso operativo terrestre y las instalaciones de tierra apropiadas, hangares para almacenar y campo abierto para levantar y descender el globo. Entre las ventajas de estos dispositivos se pueden mencionar sus largos periodos de vuelos, estos dispositivos pueden implementarse para mantener servicios de red inalámbrica por varias semanas sin necesidad de mantenimiento alguno. Clasificación según el tipo de ala (Aerodinos) Dron de ala fija Los drones de ala fija son aeronaves que poseen un perfil alar que permite que la aeronave pueda moverse a través del aire y sea capaz de generar fuerzas sustentadoras para mantenerse en el aire[14]. Este tipo de drones tienen una estética muy similar a los aeromodelos de radiocontrol. CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 10 La principal característica de este tipo de drones es la gran autonomía que nos ofrecen ya que pueden estar volando varias horas gracias a su eficiencia aerodinámica. Los drones de ala fija son ideales para mapear grandes superficies de terreno ya que con una única batería se cubren grandes extensiones de terreno. Por este motivo son drones muy utilizados en trabajos de agricultura de precisión y de fotogrametría. A diferencia de los drones de ala rotatoria, con este tipo de drones no es posible realizar vuelos estacionarios. Por tanto, no podremos realizar trabajos que requieran que el dron esté volando estático a una altura determinada como pueden ser, por ejemplo, los trabajos de inspección. Otra particularidad de este tipo de drones es que no pueden despegar ni aterrizar en vertical. Para el despegue de un dron de ala fija necesitaremos una persona que se encargue de lanzarlo a mano o disponer directamente de una catapulta. La gran mayoría de los drones de ala fija actuales ya son capaces de realizar aterrizajes de forma autónoma, pero hay que tener en cuenta que se necesita una superficie lo suficientemente grande y en buen estado para que el dron no sufra ningún percance. Dron de ala rotativa Son las aeronaves no tripuladas más conocidas y vendidas en el mercado. Estos drones consiguen la sustentación gracias a las hélices que llevan incorporadas en los extremos de cada brazo. Cada hélice está impulsada por un motor y permite una gran estabilidad durante el vuelo. A diferencia de los drones de ala fija, los multirrotores pueden permaneces quietos sobrevolando en un mismo sitio. Estos multirrotores ofrecen una gran versatilidad, puesto que permiten instalar todo tipo de cámaras y varios tipos de sensores para realizar diferentes tareas. Son drones que despegan y aterrizan de forma vertical y prácticamente desde cualquier superficie, eso sí, su gran inconveniente suele estar relacionado con la autonomía de vuelo que ofrecen[15]. CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 11 Por lo tanto, si queremos realizar ciertas tareas que nos lleven mucho tiempo, tendremos que disponer de varias baterías. Esto supone un coste adicional, puesto que tendremos que tener varias baterías. Estos se pueden clasificar según la cantidad de hélices que lo componen[16]: Drones de rotor único: La construcción más común en los drones tiene motores de tipo multi rotor, pero en este caso el modelo tiene un solo rotor. Otro será un rotor de cola que simplemente ayuda a proporcionar control al encabezado. En el caso de que necesites un dron que pueda cargar con determinados pesos pero que también sean resistentes, este tipo de rotor puede ser la mejor opción. Tricóptero: Hay tres tipos diferentes de motores potentes dentro de un tricóptero, tres controladores, cuatro giroscopios y un solo servo. Los motores se colocan en cada extremo de los tres brazos y cada uno de estos sostiene un sensor de localización. Siempre que necesites levantar el tricóptero, es esencial iniciar un movimiento en la palanca del acelerador, y el sensor del giroscopio recibirá inmediatamente la señal y pasará directamente al controlador que ayuda a controlar la rotación del motor. Un tricóptero es capaz de mantenerse estabilizado en su camino, ya que está equipado con sensores clásicos y material electrónico. No es necesario aplicar ninguna corrección manual. Quadcóptero: Cuando un multirrotor está diseñado con cuatro palas de rotor entonces se convierte en un quadcóptero. Estos dispositivos suelen ser controlados por motores DC sin escobillas. Dos de los motores se utilizan para moverse en sentido horario, mientras que los otros dos funcionan en sentido antihorario, facilitando un aterrizaje seguro al aparato. La batería de estos dispositivos suele ser de polímero de litio. Son los más habituales y los más extendidos en el mercado. Hexacóptero: Un hexacóptero te servirá para muchas aplicaciones gracias a su mecanismo de 6 motores, donde 3 trabajan en sentido horario y otros tres se mueven en dirección antihoraria. Estos dispositivos son capaces de obtener una mayor potencia de elevación en comparación con los anteriores. No tendrás que preocuparte por el mecanismo, ya que está diseñado para funcionar y aterrizar de un modo extremadamente seguro. Octocóptero: Un octocóptero te ofrecerá sus potentes ocho motores, que envían potencia a 8 hélices funcionales. Estos drones tienen muchas capacidades de vuelo en comparación con CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 12 las unidades discutidas anteriormente y también son muy estables. Podrás hacer uso de una grabación de imágenes estables con octocópteros a cualquier altitud. Estos dispositivos encuentran aplicación en el mundo de la fotografía profesional. Tabla 1.1: Tabla comparativa Ala Fija Ala rotatoria Vuelo A altitud y velocidad Estacionario y estable Maniobrabilidad Menor Mayor Autonomía Mayor Menor Energía Eléctrica/Explosión Eléctrica Carga útil Menor Mayor Dependiendo el tipo de misión u objetivo que se pretende realizar, uno de estos modelos se impondrá sobre el otro. Por ejemplo, en aquellos casos donde se requiera que el dispositivo realice maniobras en forma estacionaria y/o a baja velocidad, el dron más adecuado sería el de ala rotativa. En cambio, si se desea utilizar estos dispositivos para realizar vuelos a velocidades y alturas superiores, por ejemplo, para recolectar datos cartográficos, la opción más prudente sería optar por los drones de ala fija. 1.1.3 Clasificación según su carga útil Una de las nuevas novedades de la Normativa Europea de UAS es la clasificación de los tipos de drones en función de su peso. Este sistema de clasificación establece siete nuevos tipos de drones según su MTOW (Masa máxima al Despegue) y sus especificaciones técnicas que, además, marcarán las limitaciones para volar en cada una de las categorías operacionales[17]. A partir de 2021, los nuevos drones que se fabriquen, se clasificarán dentro de siete nuevas clases de drones: CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 13 Drones de clase C0 • MTOW inferior a 250 gr. • Velocidad máxima de 19 m/s. • Altura máxima limitada a 120 metros. • Alimentación eléctrica. Drones de clase C1 • MTOW inferior a 900 gr o transmisión de energía en caso de impacto inferior a 80 J. • Velocidad máxima de 19 m/s. • Altura máxima limitada a 120 m. • Alimentación eléctrica. • Número de serie único. • Sistemas de identificación a distancia directa y de red. • Sistema de geoconsciencia. • Sistemas de aviso de baja batería en UAS y estación de control. Drones de clase C2 • MTOW inferior a 4 kg • Altura máxima limitada a 120 m. • Alimentación eléctrica. • Enlace de datos protegido ante accesos no autorizados al mando y control. • Modo de velocidad baja seleccionable para limitar el UAS a 3 m/s como máximo (excepto en drones de ala fija). • Número de serie único. • Sistemas de identificación a distancia directa y de red. • Sistema de geoconsciencia. • Sistemas de aviso de baja batería en UAS y mando de control. CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 14 • Luces de control de altitud y vuelo nocturno incorporadas. Drones de clase C3 • MTOW inferior a 25 kg • Dimensión característica máxima de 3 metros. • Altura máxima limitada a 120 m. • Alimentación eléctrica. • Número de serie único. • Sistemas de identificación a distancia directa y de red. • Sistema de geoconsciencia. • Sistemas de aviso de baja batería en UAS y mando de control. • Luces de control de altitud y vuelo nocturno incorporadas. Drones de clase C4 • MTOW inferior a 25 kg incluida carga útil. • No incorporar modos automáticos de control (excepto para asistencia en la estabilización del vuelo sin efecto directo en la trayectoria y asistencia en pérdida de enlace, siempre que se disponga de posición fija predeterminada de los mandos de vuelo en caso de pérdida de enlace). • Destinado a la práctica del aeromodelismo. Drones de clase C5 • MTOW inferior a 25 kg • No ser UAS de ala fija, salvo si es cautivo. • Sistema información clara sobre la altitud de vuelo. • Modo de velocidad baja seleccionable para limitar el UAS a 5 m/s como máximo. • Sistema de recuperación o aterrizaje seguro, en caso de pérdida de enlace. CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 15 • Sistema de recuperación de enlace de mando y control perdido, o sistema de terminación del vuelo o aterrizaje seguro del UAS. • Enlace de datos protegido ante accesos no autorizados al mando y control. • Alimentación eléctrica. • Número de serie único. • Sistemas de identificación a distancia directa. • Sistema de geoconsciencia. • Sistemas de aviso de baja batería en UAS y estación de control. • Luces de control de altitud y vuelo nocturno incorporadas. • Si incorpora sistema de limitación de vuelo en zonas o volúmenes concretos del espacio aéreo, este deberá informar al piloto de tal impedimento. • Si un UAS de clase C3 incorpora accesorios o mejoras ubicables dentro de la clase C5, pasará a considerarse dron de clase C5. • Kit de accesorios sin cambios en el UAS de clase C3. Drones de clase C6 • MTOW inferior a 25 kg • Sistema información clara sobre la altitud de vuelo, que evite que el UAS traspase los límites, tanto horizontales como verticales, de un espacio operacional programable. • Velocidad máxima horizontal de 50 m/s respecto al suelo. • Sistema de recuperación o aterrizaje seguro, en caso de pérdida de enlace. • Sistema de recuperación de enlace de mando y control perdido, o sistema de terminación del vuelo o aterrizaje seguro del UAS. • Enlace de datos protegido ante accesos no autorizados al mando y control. • Alimentación eléctrica. • Número único de serie. CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 16 • Sistemas de identificación a distancia directa. • Sistemas de geoconsciencia. • Sistemas de aviso de baja batería en UAS y mando de control. • Si incorpora sistema de limitación de vuelo en volúmenes o zonas concretas del espacio aéreo, éste deberá informar al piloto de tal impedimento. • Luces de control de altitud y vuelo nocturno incorporadas. 1.1.4 Clasificación según el método de control Autónomo: La aeronave está dotada y se guía por con sus propios sistemas y sensores integrados, no necesita de un piloto que lo controle desde tierra. Monitorizado: Este tipo de control para UAV si se necesita un técnico humano, el cual controla y proporciona de información el dron, mediante un receptor respecto a la actuación de un emisor. El dron tiene su plan de vuelo y el técnico a pesar de no poder controlarlo directamente, puede decidir qué maniobra llevar a cabo[18]. Supervisado: Un operador pilota directamente la aeronave, aunque este puede realizar algunas tareas automáticamente. Preprogramado: Este sigue un plan de vuelo diseñado, pero no tiene los medios ni las herramientas para cambiar o adaptarse a cambios que se puedan presentar. Controlado remotamente: Son los más implantados dentro de los drones civiles, son conocidos como drones de radiocontrol. La aeronave es pilotada directamente por un técnico mediante una emisora de radiofrecuencia[18]. 1.2 Tipos de sensores utilizados en UAVs Los drones ejecutan su plan de vuelo gracias a múltiples sensores; cumplen la función de adquirir datos para que posteriormente puedan ser procesados y analizados con la ayuda de un software. Es importante esta parte del dron, aún más que el aparato de vuelo en sí; si lo que se quiere es recopilar información y monitorear cualquier cosa mediante percepción remota o teledetección; que te permite obtener información sin estar en contacto físico con lo que quieres captar[19]. CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 17 Hay dos tipos de sensores; los sensores activos y los sensores pasivos; los primeros son los que generan la radiación que miden emitiendo un pulso y registrando el rebote[20]. Este tipo de sensor activo es especial para los levantamientos topográficos, y por su volumen y tamaño son equipos que utilizan las plataformas o drones grandes con fines comerciales[21]. Por otra parte; los sensores pasivos son aquellos que reflejan la radiación emitida desde el objeto, como ejemplo de estos sensores pasivos se pueden mencionar las cámaras fotográficas, video cámaras, cámaras infrarrojas, y cámaras térmicas. Son de tamaño reducido y consumen muy poca energía y estas las colocan en los drones pequeños de uso civil[22]. A continuación, se hará una breve de descripción de varios sensores de gran importancia y aplicabilidad incorporados a una gran cantidad de UAV: IMU externos: Los sensores IMU (Inertial Measurement Unit) miden la velocidad, la orientación y las fuerzas gravitacionales de los UAVs, gracias a sus acelerómetros y giróscopos. Altímetro: El altímetro es un sensor que contienen los drones, para regular automáticamente la altura del vuelo, lo que te permitirá realizar grabaciones con alturas estables; que no disminuyan ni aumenten durante la grabación; podrás con tu control de distancia, hacer avanzar a tu dron, hacerlo girar, e incluso retrocederlo a tu antojo; sin que este pierda la estabilidad y gracias al altímetro, mantendrá la altura del vuelo que escogiste para tu mejor toma fotográfica o filmográfica[23]. LIDAR: Los sensores LIDAR (Light Detection and Ranging) son un sistema que permite medir la distancia desde el emisor a un objeto utilizando un láser pulsado. Esta distancia se calcula mediante el retardo producido en los pulsos debido a la distancia. Estos sistemas permiten, por tanto, identificar posibles obstáculos y colisiones para permitir una navegación autónoma[24]. Los LIDAR tienen buena precisión en distancia y velocidad. El problema reside en el tiempo de barrido, ya que presenta un haz muy estrecho, y en la limitación de su desempeño en condiciones atmosféricas adversas como niebla o lluvia. Giroscopio: Otro sensor es el giroscopio, encargado de medir los ángulos de ubicación del dron; cuando este se encuentra en el aire, generalmente este sensor, se ubica en la misma unidad, en la que se encuentra el acelerómetro de tres ejes; así trabajan en conjunto, por una CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 18 parte, el acelerómetro calculará la posición, mientras que, por otra parte, el giroscopio calculará el ángulo en el que se encuentra. Brújula: Muchos drones tienen una brújula electrónica, o magnetómetro independiente de la controladora de vuelo; alejada de la batería, de cables de distribución y de los reguladores de velocidad ESC, que causan interferencias molestas[25]. La corriente continua que va circulando por los cables de distribución, es tanta, que genera un gran campo magnético que puede dañar el magnetómetro, ocasionando un problema como desviación de la orientación o movimientos en espiral. Con esta brújula, (que, con el campo magnético de la tierra, más la información de declinación que proporciona el GPS) se sabrá siempre donde está el norte[26]. Sensores de GPS externo: Los sensores GPS también permiten medir la velocidad y la orientación y además de proporcionar la posición de la aeronave. La integración de un segundo receptor de GPS puede ser recomendable para sistemas redundantes o la integración de cálculo de orientación sin magnetómetro. Sensores de calidad del aire: Estos sensores facilitan medir si existen agentes contaminantes como partículas y gases nocivos perjudiciales. Se suelen emplear para crear informes medioambientales, detectar fugas de gases, etc. Sensores de nivel combustible: Conocer el nivel de combustible permite optimizar dicho recurso además de permitir evitar posibles accidentes o pérdida de los UAVs por una falta de combustible. Sensores de temperatura: Los sensores de temperatura integrados posibilitan añadir información para el control del vuelo, evitando congelaciones y detectando posibles sobrecalentamientos del motor o ciertos componentes. Sensores de lluvia: Los sensores de lluvia son de una gran utilidad, ya que facilitan adaptar las condiciones del vuelo a las condiciones meteorológicas[27]. Además, permite programar acciones automáticas como la vuelta a casa en caso de que la aeronave no se encuentre preparada para el vuelo con lluvia. Las cámaras es uno de los sensores más usados en UAV ya que estas pueden tener varias aplicaciones de gran ayuda tanto para el ser humano como para la naturaleza. Estas son de CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 19 gran ayuda en la agricultura, al igual que otros sensores los cuales se mencionan a continuación. Cámara Parrot Sequoia+: es el sensor multiespectral más conocido en agricultura. Esta solución liviana, adaptable y valiosa tiene dos tipos de sensores al precio de uno: cuatro sensores multiespectrales de 1.2 MP con obturadores globales y RGB, más un sensor de luz solar[28]. Cámara MicaSense RedEdge: es un sensor multiespectral resistente y preciso para el análisis agrícola avanzado. Captura tanto las bandas espectrales requeridas para los índices de salud de los cultivos, así como una banda azul adicional para obtener un análisis profundo sobre cuestiones específicas[29]. Phantom 4 Multiespectral RTK: es el primer modelo de DJI pensado y diseñado teniendo en cuenta los requisitos del mercado de agricultura y mapeo brindando una solución compacta con una cámara multiespectral de 5 canales y RGB adicional con la capacidad de capturar datos RTK con precisión de centímetros[30]. Cámara multiespectral: La recolección de imágenes agrícolas ahora es más simple y más eficiente que nunca con un sistema de imágenes estabilizadas incorporado que recopila conjuntos de datos completos desde el primer momento. Sensor de luz solar espectral: Un sensor de luz solar espectral integrado en la parte superior del dron captura la irradiancia solar, lo que maximiza la precisión y la coherencia de la recopilación de datos en diferentes momentos del día[31]. Cuando se combina con datos procesados posteriormente, esta información ayuda a obtener los resultados NDVI más precisos. 1.3 Política de seguridad. El uso cada vez mayor de drones ha implicado el análisis y discusión de diversas situaciones que pueden comprometer la seguridad e integridad de las personas, empresa y hasta de una nación. Pueden ser usados para el espionaje, para realizar sabotajes y varias acciones que atentan contra la seguridad nacional. Debido a su comercialización no controlada pueden ser adquiridos por personas o grupos de dudosa ética. Algunas personas pueden ser grabadas y fotografiadas de forma ilegal, tanto en espacios privados como públicos, constituyendo tal CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 20 motivo una seria amenaza a la inviolabilidad de la privacidad personal. Además, en comparación con los aviones tripulados tradicionales, los drones suelen ser insuficientemente mantenidos y es más probable que se encuentren con errores de piloto. Como resultado, las operaciones de drones se enfrentan a mayores riesgos de seguridad. Debido a los nuevos avances en los UAV en julio de 2020 comenzó la elaboración de un nuevo Reglamento Europeo[32], el cual pretende estandarizar las diferentes normativas de los Estados miembros y regular el uso civil de los drones con independencia de su tamaño o peso. De esta forma, será posible ofrecer un marco regulador común que englobe la totalidad de los escenarios operacionales posibles, y que se ajuste a la realidad tecnológica actual. El nuevo reglamento europeo introduce, un concepto más amplio sobre las zonas geográficas donde se pueden, expresamente, permitir, restringir o excluir, las operaciones con drones[33]. Esto contribuye a controlar y evitar riesgos de seguridad pública, privacidad y protección de datos, y riesgos medioambientales. A partir de ahora, se establecen tres categorías operacionales diferentes, atendiendo al nivel de riesgo de la operación en sí misma. De este modo, la clasificación quedará de la siguiente manera: categoría abierta para operaciones de bajo riesgo; categoría específica para riesgo medio; y categoría certificada, para vuelos que presenten un nivel de riesgo alto[33]. 1.3.1 Política de privacidad en Cuba El 24 de junio de 2021, Cuba aprobó por primera vez una regulación sobre drones, cuya fabricación, importación y uso se permiten desde este día solo con fines de aeromodelismo o trabajos aéreos específicos y siempre bajo la tutela de una entidad estatal. El boletín expone que solo los miembros del Club de Aviación de Cuba pueden practicar el aeromodelismo y que el trabajo aéreo consiste en la filmación de eventos, observación y patrulla, búsqueda y salvamento o inspección de aeródromos, entre otras actividades que deberán ser aprobadas por el grupo empresarial estatal GEOCUBA. De este modo, solo podrán usar drones en Cuba aquellos mayores de 18 años acreditados por la Autoridad Aeronáutica para la ejecución de vuelos de aeronaves no tripuladas en interés de trabajos aéreos y del aeromodelismo. CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 21 Entre las múltiples restricciones está la de realizar el vuelo con fines de captación de imágenes para fotografía, filmación, grabación, u otras actividades similares sin el permiso establecido, y se contemplan multas y confiscación de los drones para los infractores. También se prohíbe volar aeronaves no tripuladas sobre concentraciones de personas, actos públicos y en horarios nocturnos sin autorización, en zonas militares, a menos de ocho kilómetros alrededor de los aeropuertos, pistas de aviación y otras áreas establecidas por las autoridades. 1.4 Redes inalámbricas de sensores. Las redes inalámbricas de sensores (WSN, Wireless Sensor Networks) están formadas por dispositivos autónomos, distribuidos a lo largo de un área de interés y cuyo objetivo es monitorizar parámetros físicos o ambientales tales como temperatura, sonido, vibraciones, presión, movimiento o agentes contaminantes[34]. Una red de sensores está compuesta por un gran número de nodos sensores que están densamente desplegados dentro del fenómeno o cerca de él. La posición de los nodos sensores no necesita ser diseñada o predeterminada. Las WSN consisten en un conjunto de nodos de pequeño tamaño, de muy bajo consumo y capaces de una comunicación sin cables, interconectados entre sí a través de una red y, a su vez, conectados a un sistema central encargado de recopilar la información recogida por cada uno de los sensores[35]. Una WSN se caracteriza por dispositivos de tamaño pequeño, y por la capacidad de monitorizar fenómenos ambientales a través de un conjunto de sensores, así como de enviar los datos a través de transmisores/receptores. Sin embargo, en los últimos años las redes de sensores/actuadores inalámbricos (WSAN) han ganado una atención creciente, desde el punto de vista comercial y técnico, debido a su potencial para desarrollar nuevas y atractivas soluciones en áreas como la automatización industrial, eficiencia energética de edificios, monitorización ambiental, gestión automatizada del hogar, monitorización de señales corporales, entre muchas otras[36], [37]. CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 22 Una WSAN es un sistema distribuido de nodos sensores/actuadores que están interconectados sobre enlaces inalámbricos. Los sensores recolectan información sobre el mundo físico y transmiten los datos coleccionados hacia los controladores/actuadores a través de comunicaciones single-hop o multi-hop. Las WSAN no son solo una mejora o un complemento de las redes de sensores inalámbricos (WSN). En las WSN el consumo de energía es generalmente la principal preocupación; sin embargo, este puede que no sea el caso en algunas WSANs donde cumplir con los requisitos de comunicaciones fiables de tiempo real sea más importante. 1.4.1 Características de las redes de sensores inalámbricos. Variabilidad del canal: El canal de comunicaciones es muy variable, en el que existen una serie de fenómenos como pueden ser la atenuación, desvanecimientos rápidos, desvanecimientos lentos e interferencias, que puede producir errores en los datos. No se utiliza infraestructura de red: No tiene necesidad alguna de infraestructura para poder operar, ya que sus nodos pueden actuar de emisores, receptores o enrutadores de la información. Sin embargo, hay que destacar en el concepto de red sensora la figura del nodo dedicado a recolectar los datos y por el cual se recoge la información generada, normalmente en tiempo discreto. Esta información generalmente es adquirida por una computadora o microcontrolador conectado a este nodo y es sobre este que recae la posibilidad de transmitir los datos[38]. Tolerancia a errores: Un dispositivo sensor tiene que ser capaz de seguir funcionando a pesar de tener errores en el sistema propio. Comunicaciones multisalto o broadcast: En aplicaciones sensoras siempre es característico el uso de algún protocolo que permita comunicaciones multi hop, aunque también es muy común utilizar mensajería basada en broadcast. Consumo energético: Es uno de los factores más sensibles debido a que tienen que conjugar autonomía con capacidad de procesamiento, ya que actualmente cuentan con una unidad de energía limitada. Un nodo sensor tiene que contar con un procesador de consumo ultra bajo, así como de un módulo de radio con la misma característica, a esto hay que agregar un CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 23 software que también conjugue todo lo anterior, haciendo el consumo aún más restrictivo[38]. Limitaciones de hardware: Para poder conseguir un consumo ajustado, se hace indispensable que el hardware sea lo más sencillo posible, así como su módulo de radio, esto nos deja una capacidad de procesamiento limitada. Costos de producción: Dada que la naturaleza de una red de sensores tiene que ser en número muy elevada, para poder obtener datos con fiabilidad, los nodos sensores una vez definida su aplicación, son económicos de hacer si son fabricados en grandes cantidades[39]. 1.4.2 Protocolos utilizados en redes de sensores inalámbricos. Los sistemas Bluetooth y Wi-Fi (IEEE 802.11) son dos opciones muy populares y comercialmente disponibles cuya utilización en redes inalámbricas de sensores ha sido evaluada[40]. Sin embargo, estos tienen algunos inconvenientes. En el caso de Bluetooth se puede mencionar: • la necesidad de tener un nodo maestro constantemente, con el costo de interrogar sus esclavos. • la cantidad limitada de esclavos por Picored que soporta. • para el caso de redes de sensores densas, se necesitará un número enorme de nodos maestros. • un esclavo activo debe permanecer siempre encendido, ya que no puede predecir cuándo será interrogado por el maestro. • un esclavo pasivo debe postularse con el maestro para cambiar a activo, y si ya hay siete nodos activos, será rechazado. • se requiere que cada nodo pueda asumir el rol de maestro o esclavo, agregando una complejidad considerable. • los rápidos saltos de frecuencia requieren una sincronización estricta entre los nodos de la picoreds. CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 24 En el caso de Wi-Fi en el estándar IEEE 802.11: • requiere que los nodos estén permanentemente escuchando el medio, ya que podrán tener que recibir un frame en cualquier momento. • los nodos deben sobre-escuchar paquetes RTS y CTS para ajustar sus temporizadores NAV adecuadamente. • si bien se proveen algunas funcionalidades de ahorro de energía, en general está orientado a altas tasas transmisión, y los transceptores disponibles requieren una cantidad de energía que es órdenes de magnitud mayores que lo aceptable en aplicaciones de redes de sensores. • es un protocolo de salto-único para redes ad-hoc, cuando lo común en redes de sensores es el encaminamiento de salto-múltiple. Estándar IEEE 802.15.4 IEEE 802.15.4 es un estándar que define el nivel físico y el control de acceso al medio de redes inalámbricas de área personal con tasas bajas de transmisión de datos. La actual revisión del estándar se aprobó en 2006 y el grupo de trabajo IEEE 802.15 es el responsable de su desarrollo[38]. Ventajas: • Ideal para conexiones punto a punto y punto a multipunto. • Fue creado para el direccionamiento de información y el refrescamiento de la red. • Opera en la banda libre de ISM 2.4 GHz para conexiones inalámbricas. • Es óptimo para redes de bajas tasas de transferencias de datos y rebaja tiempo de espera en el envío y recepción de paquetes. • Proporciona larga duración de la batería. • Presenta soporte para varias topologías de red y permite hasta 65000 nodos en una red. • Provee conexiones seguras entre dispositivos. Desventajas: • La tasa de transferencia es muy baja. CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 25 • Manipula solo textos pequeños comparado con otras tecnologías. • Trabaja de modo que no puede ser compatible con bluetooth en todos sus aspectos porque no llegan a tener las mismas tasas de transferencias, ni la misma capacidad de soporte para nodos. • Posee menor cobertura porque pertenece a redes inalámbricas de tipo área personal. Este estándar es la base sobre la que se define la especificación de Zigbee, cuyo propósito es ofrecer una solución completa para este tipo de redes, construyendo los niveles superiores de la pila de protocolos que el estándar no cubre. 1.4.3 Aplicaciones de los UAVs en redes de sensores inalámbricos. Medio Ambiente: Monitorizar especies en extinción, detectar y prevenir incendios forestales, además en ciudades se monitoriza los niveles de contaminación de la atmósfera y recogen datos sobre el clima, con el fin de mantener un desarrollo sostenible. Salud: Seguimiento a pacientes, monitorizar deportistas en el terreno de juego para evaluar su desempeño. Automatización industrial: Las aplicaciones de automatización industrial proporcionan un control, conservación, eficiencia y seguridad, de la siguiente manera: reduciendo los gastos de energía a través de los procesos de fabricación optimizados; utilizando aplicaciones de detección que ayuden a identificar un funcionamiento ineficiente o equipos de bajo rendimiento; automatizando la adquisición de datos de sensores remotos para reducir la intervención del usuario; desplegando redes de vigilancia para mejorar la seguridad pública y de los empleados. Durante este despliegue se tiene que tener en cuenta la red de comunicaciones ya existente y lograr integrar la nueva propuesta a la ya existente[41]. Automatización de edificios: es posible controlar el consumo de energía de un hotel, un parámetro importante, debido a que la energía es un gasto operativo importante para un hotel; para garantizarlo se desarrolla un sistema de gestión centralizado que permita a los operadores de los hoteles asegurarse de que las habitaciones vacías no se enfríen. Desplegar redes de monitoreo inalámbrico para mejorar la protección del perímetro. CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS 26 Domótica: Automatizar tareas cotidianas en el hogar y tener controlado un hogar mediante sensores; proporcionando un ahorro energético, garantizando la seguridad y el bienestar dentro del hogar[41]. Las aplicaciones de control para el hogar proporcionan el control, la conservación, la comodidad y la seguridad mediante una gestión flexible de la iluminación, calefacción y sistemas de refrigeración desde cualquier lugar en el hogar; automatizando el control de varios sistemas domésticos; captura de datos muy detallados como consumo de agua y de servicios públicos como gas y electricidad. Agricultura: En el caso de la agricultura de precisión mediante drones, existe un amplio número de variables distintas a medir (espectro visible, multiespectrales, LIDAR, Térmico, etc.)[42]. Aun siendo datos muy distintos, su tratamiento tiene algunos puntos en común. Es decir, una vez que se extraen los datos y se realiza el pretratamiento de los mismos, hay que combinar las distintas bandas del espectro para realizar el cálculo de índices de vegetación. Cada índice es específico para cada variable que buscamos medir en nuestro campo (fertilidad, malas hierbas, estrés hídrico, enfermedades, etc.). 1.5 Conclusiones del capítulo. La tecnología actual ha avanzado a tal extremo que no es necesario preocuparse por esta sino por las aplicaciones que debemos darle. En este capítulo se estudió la evolución los UAV, así como sus características y distintas clasificaciones. También vimos las diversas aplicaciones de los UAV desde su uso recreativo hasta su gran impacto en el avance tecnológico de nuestra sociedad. Dentro de estas aplicaciones nos enfocaremos en la implantación de redes inalámbricas de sensores, donde son de mejor utilidad los drones de ala rotatoria, principalmente los cuadricópteros. CAPÍTULO 2. APRENDIZAJE POR REFUERZO 27 CAPÍTULO 2. APRENDIZAJE POR REFUERZO. En este capítulo se estudiará las características y especificaciones de los algoritmos de Aprendizaje por refuerzo (Reinforcement Learning), marcando pauta en el algoritmo Q- Learning. Además del estudio de un modelo matemático para el consumo energético de los UAV. 2.1 Aprendizaje por refuerzo. El aprendizaje por refuerzo (Reinforcement Learning) es un área del aprendizaje automático inspirada en la psicología conductista, cuya ocupación es determinar qué acciones debe escoger un agente en un entorno dado con el fin de maximizar alguna noción de "recompensa" o premio acumulado[43]. Este intenta conseguir que una inteligencia artificial aprenda a decidir mediante su propia experiencia. Es decir que, ante una situación determinada, sea capaz de seleccionar por sí misma la mejor acción a ejecutar en ese momento mediante un proceso interactivo de prueba y error a base de reforzar positivamente cada vez que se aproxima o logra objetivo[44]. Por eso, con el aprendizaje por reforzado una máquina puede tomar decisiones, aunque no almacene un conocimiento a priori del entorno o de las variables que se están dando, y realizar de manera satisfactoria cuestiones abstractas más avanzadas. 2.1.1 Elementos que caracterizan el aprendizaje por refuerzo Se pueden enmarcar seis componentes principales del sistema de aprendizaje por refuerzo: Agente: Es el sujeto del aprendizaje por refuerzo. Su funcionamiento consiste en leer el estado del entorno, realizar acciones sobre el entorno y leer las recompensas que producen estas acciones[45]. CAPÍTULO 2. APRENDIZAJE POR REFUERZO 28 Entorno: Es el objeto sobre el que opera el agente. El entorno recibe las acciones del agente y evoluciona. Su comportamiento suele ser desconocido y estocástico. Es el responsable de generar las recompensas asociadas a las acciones y cambios de estado[45]. Política: Define el comportamiento del agente. Puede verse como un mapeo de estado a acción, es decir, establece las reglas de asociación entre el estado del entorno y la acción a tomar. Puede ser estocástica[45]. Función de refuerzo: Establece la recompensa a generar en función del estado del entorno y la acción realizada sobre él. Puede ser estocástica. El objetivo del aprendizaje por refuerzo es maximizar la recompensa total obtenida a largo plazo[46]. Función de evaluación (función de valor): refleja una estimación de la recompensa que se va a recibir a partiendo de un cierto estado y siguiendo una cierta política. Esta función sirve de base para escoger la acción a realizar (aquella que conduzca al estado con mayor valor). El objetivo de los algoritmos de aprendizaje por refuerzo es construir esta función[46]. Modelo del entorno: permite predecir el comportamiento del entorno infiriendo la forma en que este afecta al agente y aprovechar esta información para resolver el problema. Los métodos que usan modelos para resolver problemas de aprendizaje por refuerzo son llamados métodos con modelo, a diferencia de los métodos libre de modelo que son básicamente modelos de aprendizaje de prueba y error[4]. 2.1.2 Interfaz entorno – agente El proceso de interacción entre el agente y el entorno en el aprendizaje por refuerzo puede ser definido como el proceso de toma de decisión de Márkov. El agente interactúa con su entorno en una serie de estados. Debido a esto se define un paso en el tiempo en el estado del entorno como t, así como St ϵ S= {s0, s1, …sn-1}. La acción tomada por el agente en un tiempo t se definirá como At ϵ A= {a0, a1, …am-1}. Por tanto, en cualquiera de los pasos en el tiempo t y en cualquiera de los siguientes pasos en el tiempo t, el agente interactúa con el entorno de la siguiente manera[47]: 1. El agente observa el entorno y obtiene el estado St. 2. El agente decide tomar una acción At basada en la política actual acorde a St. CAPÍTULO 2. APRENDIZAJE POR REFUERZO 29 3. Después del paso en el tiempo de St, el agente obtiene la recompensa esperada del entorno Rt+1 y observa el nuevo estado del entorno St+1. Luego se define una recompensa inmediata Rt+1 en el tiempo t+1, para reflejar que Rt+1 y St+1 son determinadas por el estado St y la acción At en el tiempo t. Según con las propiedades del proceso finito de Márkov, el estado del entorno y la recompensa inmediata del siguiente paso en el tiempo t+1, depende solo del estado del entorno y la acción del agente en el tiempo t. Por tanto, se puede definir la dinámica del entorno como la siguiente distribución probabilística discreta: 𝑝 (𝑠′, 𝑟|𝑠, 𝑎) = Pr [𝑆𝑡+1=𝑆′, 𝑅𝑡+1=𝑟|𝑆𝑡=𝑠, 𝐴𝑡=𝑎] (2.1) Se debe tener en cuenta que s’ ϵ S, r ϵ R, s ϵ S y a ϵ A representan los posibles valores aleatorios para sus correspondientes variables. Intuitivamente en el problema de toma de decisiones secuenciales del aprendizaje por refuerzo, las acciones tomadas por el agente en un determinado paso en el tiempo no solo afectarán la recompensa inmediata correspondiente, el cambio en el entorno en consecuencia y las futuras recompensas también estarán influenciadas por esta. Cuando se define el estado se supone que este es la sumatoria de toda la información útil que se ha acumulado a lo largo del tiempo de aprendizaje hasta el momento. Una vez que el agente obtiene el actual estado puede ignorar la historia previa a este. Por tanto, siempre y cuando la definición del estado sea razonable se puede modelar el problema del aprendizaje por refuerzo en un proceso de decisión de Márkov. Como es conocido el objetivo del agente es elevar la recompensa final[48]. 2.1.3 Función de valor La función de valor es uno de los conceptos más importantes en la mayoría de los algoritmos de aprendizaje por refuerzo. Existen dos tipos de función de valor: La función de valor de estado es el resultado aleatorio que se puede obtener de un estado s siguiendo una determinada política π. La función de valor de acción es el resultado aleatorio que se puede obtener partiendo de un estado s, tomando una acción a, y siguiendo una política π. Considerando la política estocástica generalizada como π(a|s): probabilidad de tomar la acción a bajo el estado s, la cual satisface que Σa𝜋(𝑎|𝑠) =1. La función de valor de estado y CAPÍTULO 2. APRENDIZAJE POR REFUERZO 30 la función de valor de acción para una política π, pueden ser definidas como Vπ(s) y Qπ(s, a) respectivamente[48]. 𝑉𝜋(𝑠)=𝔼 [∑ 𝛾𝑘∞ 𝑘=0 𝑅𝑡+𝑘+1 ∨ 𝑆𝑡 = 𝑠] (2.2) 𝑄𝜋 (𝑠, 𝑎) = 𝔼π [∑ 𝛾𝑘∞ 𝑘=0 𝑅𝑡+𝑘+1 ∨ 𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎] (2.3) Donde 𝔼π […] representa la respuesta aleatoria esperada bajo la política π. En el proceso de decisión de Márkov cuando el agente es totalmente consciente de la dinámica de su entorno, o sea, la probabilidad de transición p (s’, r | s, a) es conocida por el agente, el problema de la toma secuencial de decisiones puede ser directamente resuelto con las iteraciones de las ecuaciones del Bellman[49] y calcular con exactitud el valor de estado y valor de acción. Una vez identificada la dinámica del entorno en que se encuentra el agente; en el momento de tratar de resolver con una política óptima el proceso de decisión de Márkov, se convierte en un problema de programación dinámica. Donde, si Vπ(s) ≥ Vπ’(s) para todos los estados de s ϵ S, se define que la política π es mejor que la política π’[49]. De acuerdo con la teoría de la programación dinámica, existe al menos una política óptima 𝜋∗, la cual tiene un óptimo valor de función de estado 𝑉∗(𝑠) y un óptimo valor de función de acción 𝑄∗ (𝑠, 𝑎). Pero en el mundo real el entorno dinámico p (s’, r| s, a) no es conocido por el agente, y se dificulta introducir directamente las ecuaciones de Bellman para resolver la política óptima. Por tanto, el agente necesita obtener una estimación lo más acertadamente posible de los valores de función, bajo condiciones de limitado poder computacional y escasos recursos de programación. En respuesta a esto se utiliza un modelo de aprendizaje por refuerzo con una estructura libre, en el cual el agente solo necesita confiar en la experiencia obtenida por la interacción con su entorno para aprender la política óptima, sin conocer la dinámica de su entorno. 2.2 Métodos Libres de Modelos Cuando el entorno no es conocido por el agente o este posee muy poca información de él, es necesario estimar los valores de las funciones de acción y de estado. CAPÍTULO 2. APRENDIZAJE POR REFUERZO 31 Tomando como ejemplo una serie de resultados de la estimación del valor de la función de acción de las ecuaciones de Bellman[49], se supone que habrá un conjunto de resultados G1, G2, …, Gk, los cuales son obtenidos siguiendo la política π después de haber tomado la misma acción a en el mismo estado s. En consecuencia, se puede obtener el estimado del valor de la función de acción: 𝑄𝜋 (𝑠, 𝑎) ≈𝑄𝑘 (𝑠, 𝑎) = 1 𝑘 ∑ 𝐺𝑗 𝑘 𝑗=1 (2.4) Luego en (2.4) se escribe en una forma incremental de (k ≥ 2): 𝑄𝑘 (𝑠, 𝑎) = 𝑄𝑘−1(𝑠, 𝑎) + 1 𝑘 [𝐺𝑘−𝑄𝑘−1(𝑠, 𝑎)] (2.5) Cuando se obtienen k-enésima muestras Gk, se puede adoptar el estimado Qk-1(s, a) de la iteración anterior para calcular el incremento Gk -Qk-1(s, a) y actualizar el estimado de k- enésima iteración Qk (s, a). Similarmente la función de estado se puede expresar así: 𝑉𝑘 = 𝑉𝑘−1(𝑠) + 1 𝑘 [𝐺𝑘−𝑉𝑘−1(𝑠)] (2.6) En (2.6) Gk es una muestra tras seguir la política π en el mismo estado s. Por tanto, siempre que una nueva muestra sea obtenida, se podrá realizar una nueva iteración para actualizar la estimación de la función de valor. Normalmente el tamaño del paso 1/k se establece en un valor positivo pequeño fijo α, que también se denomina tasa de aprendizaje. A medida que el número de muestras se incrementa el estimado de la función de valor se vuelve más exacto. 2.2.1 Aprendizaje por Diferencia Temporal El aprendizaje por Diferencia Temporal (DT) no requiere tener un modelo del ambiente. Como cualquier método libre de modelo aprende sus valores de función directamente de su experiencia para obtener una política óptima. Sin embargo, se caracteriza por la singularidad de ser un método paso a paso, usando el error o diferencia entre predicciones sucesivas (en lugar del error entre la predicción y la salida final) aprendiendo al existir cambios entre predicciones sucesivas. Es un método incremental y por lo tanto fácil de computar. Converge más rápido con mejores predicciones. No requiere tener un modelo del ambiente. CAPÍTULO 2. APRENDIZAJE POR REFUERZO 32 El aprendizaje DT es esencialmente una forma recursiva de las ecuaciones de Bellman. Las cuales pueden ser expresadas: 𝑉𝜋=𝔼𝜋[𝑅𝑡+1+𝛾𝑉𝜋(𝑆𝑡+1) |𝑆𝑡=𝑠] (2.7) 𝑄𝜋(𝑠)=𝔼𝜋[𝑅𝑡+1+𝛾𝑉𝜋(𝑆𝑡+1) | 𝑆𝑡=𝑠, 𝐴𝑡=𝑎] (2.8) Si se considera la estimación del valor de la función de estado, se puede elegir muestrear Rt+1+γVπ(St+1) para calcular la media muestral y, por tanto, obtener una estimación imparcial de Vπ(s). Óptimamente, solo se necesita realizar el muestreo y observación del siguiente paso en el tiempo, y este puede ser usado para la inmediata actualización estimada. Sin embargo, en un problema de aprendizaje por refuerzo real, el verdadero valor de la función de valor es desconocido. Aunque se puede directamente muestrear Rt+1 y St+1, no se puede calcular Vπ(St+1), por lo tanto, no se puede determinar la muestra del objetivo de actualización Rt+1+γVπ(St+1) en el actual cálculo. Para asegurar la actualización paso a paso actual, es necesario introducir algún sesgo. En general, aprendizaje DT establece el objetivo de actualización en función del valor estimado obtenido, es decir, Rt+1+γV(St+1) es el objetivo de actualización para estimar el valor de la función de estado. Esta es la muestra direccionada de Vπ(s), y su sesgo es introducido al estimar V(St+1). Este método es llamado bootstrapping. Por lo tanto, se puede obtener la estimación de la actualización del valor de la función de estado en el paso en el tiempo t como: 𝑉𝑡+1(𝑆𝑡)=𝑉𝑡(𝑆𝑡)+𝛼 [ 𝑅𝑡+1 + 𝛾𝑉𝑡 (𝑆𝑡+1 − 𝑉𝑡(𝑆𝑡))] (2.9) Donde Vt representa la estimación anterior del valor de la función de estado para el paso en el tiempo t, Vt+1 es la estimación posterior para el valor de la función de estado y α es la taza de aprendizaje. Cada actualización solo necesita muestrear la recompensa inmediata Rt+1 y el paso sucesivo a el estado St+1. El objetivo de actualización DT Rt+1+γVt (St+1) es construido en el paso en el tiempo t+1 y sesga la actualización de la estimación del valor de la función de estado. Es válido mencionar que cuando se selecciona una taza de aprendizaje razonable, Vt(s) se acercará al valor verdadero, es decir, Vt(s)→Vπ(s), ya que el tiempo t tiende a infinito. CAPÍTULO 2. APRENDIZAJE POR REFUERZO 33 2.3 Procesos de decisión de Márkov y su relación con el aprendizaje por refuerzo. Los procesos de decisión de Márkov (PDM) son una herramienta para modelar problemas de marcado de decisiones secuenciales, en los que un tomador de decisiones interactúa con un sistema de forma secuencial[50]. Los PDM constan de estados, acciones, transiciones entre estados y una función de recompensa. Un PDM es una tupla ⟨S, A, T, R⟩ en donde S es un conjunto finito de estados, A es un conjunto finito de acciones, T es una función de transición definida como T ∶ S × A × S → [0, 1] (∑ 𝑇(𝑠, 𝑎, 𝑠′)𝑠′∈𝑆 =1), y R es una función de recompensa definida como R ∶ S × A × S → R[51]. Para discutir el orden en que ocurren las acciones, definiremos un reloj global discreto, t. El sistema que se controla es markoviano si el resultado de una acción no depende de resultado de una acción no depende de las acciones anteriores ni de los estados visitados(historia), sino que sólo depende del estado actual[51]: P (st+1 = s′| at = a, st = s) = T (s, a, s′) (2.10) 2.3.1 Juegos de Márkov totalmente cooperativos. Los juegos de Márkov o juegos estocásticos son la base de gran parte de la investigación en MARL. Los juegos de Márkov son un superconjunto de PDM y juegos matriciales que incluyen múltiples agentes y múltiples estados[52]. Figura 2.1: Marco MARL para redes multidrones.[53] Un juego de Márkov[54] se define como una tupla ⟨j, S, A1, ..., Aj, T, R1..., Rj⟩ donde: • j es el número de agentes; • S es el conjunto finito de estados; CAPÍTULO 2. APRENDIZAJE POR REFUERZO 34 • Aj es el conjunto de acciones disponibles para el agente j (y a = a1 x…x aj el conjunto de acciones conjuntas); • T ∶ S × A × S → [0; 1] es la función de transición tal que ∀s ∈ S, ∀a ∈ A, ∑ 𝑇𝑠′∈𝑆 (s, a, s′) = 1; • Ri ∶ S × A → R es la función de recompensa para el agente i. La figura 2.1 describe cómo puede funcionar un marco de aprendizaje por refuerzo multiagente, en el que los agentes recogen información localmente sobre el entorno, dado por el estado actual y la recompensa en el paso de tiempo t, y deciden independientemente sus propias acciones (an) basadas en sus propias tablas Q. Después, las acciones se combinan en una única acción conjunta, que se evalúa en el entorno, lo que da lugar a nuevos estados y recompensas y repite el ciclo. Las funciones de transición y recompensa dependen de la acción conjunta. La función de transición T da la probabilidad de que la acción a en el estado s en el paso de tiempo t conduzca al estado s′ en el paso t+1[54]: P (St+1 = s′| at = a, st = s) = T (s, a, s′). (2.11) Se supone que las funciones de transición y recompensa son desconocidas para el agente, pero estas se descubren al interactuar con el entorno[55]. Utilizamos cooperativo para referirnos a la configuración en la que todos los agentes obtienen la misma recompensa, elaborando una recompensa de equipo[55]. Cuando el juego es estocástico el problema es distinguir entre las diferentes fuentes que provocan la variación en las recompensas observadas. La variación puede deberse al ruido en el entorno o al comportamiento de los otros agentes[52]. 2.3.2 Q-Learning descentralizado El Q-Learning es probablemente el algoritmo más utilizado en el marco del agente único por su simplicidad y robustez[52], y también fue uno de los primeros algoritmos de RL aplicados a entornos multiagente[55]. Hoy en día, se han propuesto diferentes variantes del algoritmo de Q-Learning para entornos multiagente. En el Q-Learning descentralizado, no se abordan explícitamente los problemas de coordinación. Sin embargo, se ha implementado con éxito en algunas aplicaciones[52]. CAPÍTULO 2. APRENDIZAJE POR REFUERZO 35 En el Q-Learning descentralizado, la tabla Qj del agente j define el valor de un estado, st, en el momento t, para seleccionar la acción 𝑎𝑡 𝑗 y rt+1 es la recompensa recibida[52]. La ecuación de actualización para el agente j es: Qj (st, 𝑎𝑡 𝑗 ) ← Qj (st,𝑎𝑡 𝑗 ) + 𝜆 [rt+1 + 𝜙maxa Q j (st+1, a) – Q (st, 𝑎𝑡 𝑗 )], (2.12) donde 𝜆 es la tasa de aprendizaje, que dicta lo rápido que aprende un agente, y 𝜙 es el factor de descuento. Los siguientes son los parámetros para el algoritmo de aprendizaje Q descentralizado: • Agentes: Cada dron es un agente independiente y tiene una tabla Q individual. • Estados: Los estados están formados por tres componentes, la posición 3D del dron, su estado de transmisión (un valor binario que indica si el radiotransmisor del dron está "encendido" o "apagado"), más la frecuencia de transmisión (s = [x, y, z, statustx, ftx]). En el caso de este trabajo el radiotransmisor siempre estará encendido y se transmite con frecuencia única. • Acciones: Cada dron puede seleccionar una acción del conjunto de acciones disponibles, el espacio de acciones. • Recompensa: Se puede calcular empleando la siguiente ecuación, 𝑅 = 𝑈 + 𝑊𝑡−𝑊𝑚𝑖𝑛 𝑊𝑚𝑖𝑛 (2.13) donde U es el número de dispositivos IoT conectados del conjunto de dispositivos IoT, Wt es el dispositivo IoT de peor tasa de transmisión del conjunto de dispositivos IoT y Wmin es la tasa de transmisión calculada para el valor de umbral de conexión de los dispositivos IoT. Se supone que los drones tienen acceso al total de número de usuarios conectados a otros UAV a través de una entidad central. Obsérvese que los drones deben tener una conexión de retorno a la red central, y que la entidad central está en la red central. Se supone que el backhaul es ideal[56]. • Política: Cada dron selecciona una acción de acuerdo con una política 𝜖-greedy[49], que puede expresarse como: CAPÍTULO 2. APRENDIZAJE POR REFUERZO 36 𝑎𝑗 { 𝜏, 𝑠𝑖𝑟𝑎𝑛𝑑(0,1) < 𝜖 𝑎𝑟𝑔𝑚𝑎𝑥 𝑎∈𝐴 𝑄(𝑆𝑡+1, 𝑎), 𝑠𝑖𝑟𝑎𝑛𝑑(0,1) ≥ 𝜖 (2.14) donde 𝜏 es una acción seleccionada al azar, y rand (0,1) denota un número aleatorio número utilizando una distribución uniforme sobre el intervalo [0, 1]. • Actualización: Cada dron actualiza su tabla Q utilizando (2.12). • Inicio: Todos los drones se inicializan en posiciones determinadas. • Episodio: Las interacciones agente-entorno se dividen en episodios. Un episodio puede ser descrito como una instantánea de la red. En cada episodio, los drones toman mediciones basadas en su estado actual y evalúan su recompensa. Este proceso se repite a lo largo de un número de iteraciones hasta que se cumple uno de los criterios de parada. Al final de un episodio, los drones pasan al mejor estado de recompensa. • Criterios de parada: Se proponen tres criterios de parada: 1. Los drones han alcanzado el número máximo de iteraciones para ese episodio (ITmax). 2. La recompensa no ha mejorado después de un número de iteraciones (ITRmax). 3. La recompensa ha alcanzado su valor máximo (Rmax). Los drones han asociado el máximo número de dispositivos IoT. 2.4 Modelo de Consumo Energético. Una de las características técnicas que impiden el uso de drones de manera prolongada es la gestión de la energía que les proporciona la batería que integra. A continuación, se describe un modelo matemático para el consumo energético de un dron, donde se utilizan ecuaciones sacadas de [57]. La potencia de movilidad es el consumo energético de un dron mientras está desplazándose, es importante destacar que en cada ecuación se tendrá en cuenta la cantidad de rotores. La potencia consumida por movimiento horizontal se calcula usando la siguiente ecuación: Ph = Pp + PI (2.15) CAPÍTULO 2. APRENDIZAJE POR REFUERZO 37 donde, Pp = 1 2 ρCDoSvh 3 + 𝜋 4 RNbρcbCDow 3β4[1+3( 𝑉ℎ 𝑤𝛽 2] (2.16), los parámetros de esta ecuación son sacados de la tabla ubicada en el anexo3. y PI = 𝑇 𝑅 √𝜆−𝑉ℎ 2 2 (2.17), λ= √𝑉ℎ 4 + ( 𝑇 𝑅𝜋𝜌𝛽2 ) 2 (2.18) Por otra parte, la potencia consumida cuando asciende el dron, la podemos calcular empleando la siguiente ecuación: Pα = 𝑇 2𝑅 𝑉𝑎 + 𝑇 2𝑅 √𝑉𝛼2 + 2𝑇 𝑅𝜋𝜌𝛽2 (2.19) Mientras que la potencia consumida cuando desciende se puede calcular empleando la siguiente ecuación: Pd = 𝑇 2𝑅 𝑉𝑑 - 𝑇 2𝑅 √𝑉𝑑 2 − 2𝑇 𝑅𝜋𝜌𝛽2 (2.20) Para esta última ecuación se debe cumplir el siguiente requisito: 𝑉𝑑 2𝑉ℎ𝑜𝑣𝑒𝑟 ≥ 1 (2.21) Como mínimo la velocidad de descenso debe ser igual o mayor a 2 veces la velocidad de hovering. Donde la velocidad de hovering la calculamos así: 𝑉ℎ𝑜𝑣𝑒𝑟 = √ 𝑇 2𝜌𝜋𝛽2𝑅 (2.22) La potencia estática es el consumo energético de un dron mientras está flotando sin desplazarse. El único cambio con respecto a la potencia de movilidad reside en como calcular la potencia de hovering. Phover = T𝑉ℎ𝑜𝑣𝑒𝑟 (2.23) CAPÍTULO 2. APRENDIZAJE POR REFUERZO 38 es decir, la potencia es fuerza por velocidad. Por tanto, sustituyendo la ecuación 2.22 en 2.23 incorporando la cantidad de rotores obtenemos la siguiente ecuación: Ph = 𝑇 𝑅 √ 𝑇 2𝜌𝜋𝛽2𝑅 (2.24) realizando un ajuste matemático obtenemos la siguiente ecuación: Phover = √ 𝑇3 2𝜌𝜋𝛽2𝑅3 (2.25). En la Figuras 2.2 y la Figura 2.3 se observan los resultados de emplear este modelo matemático para el consumo energético de un dron. En la Figura 2.2 se muestra el consumo de potencia para cada tipo de acción en dependencia del número de rotores que dispone el dron suponiendo que el dron se desplaza a una velocidad de 10 m/s. La Figura 2.3 muestra el cambio en el consumo de potencia para cada tipo de movimiento en dependencia de la velocidad, cuando el dron posee 4 rotores. Nótese como en la Figura 2.3 el consumo de Potencia Total va en ascenso, luego cae y vuelve a ascender; ese fenómeno está asociado a la condición para descender expresada en la ecuación 2.21. Pues es el momento donde el dron tiene mayor velocidad que la velocidad de hovering, por tanto, la potencia necesaria para descender va disminuyendo con la velocidad hasta llegar a valores asintóticos. CAPÍTULO 2. APRENDIZAJE POR REFUERZO 39 Figura 2.2: Rotores vs. Potencia Figura 2.3: Velocidad vs. Potencia 2.5 Conclusiones del capítulo. En este capítulo, se realizó un análisis de las principales características de los algoritmos de aprendizaje por refuerzo. Además, se explicaron los fundamentos del algoritmo Q-Learning descentralizado y sus bondades para su despliegue en configuraciones multiagentes. También se describió un modelo matemático para el consumo energético de un dron donde se evidencia que un dron necesita más energía para mantenerse en una posición estática que para desplazarse de forma horizontal, mientras que la mayor potencia consumida es cuando se realiza un movimiento de ascenso. Es importante destacar que a medida que aumenta el número de rotores en un dron la potencia consumida para cada tipo de movimiento es menos. CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 40 CAPÍTULO 3. SIMULACIÓN Y RESUTADOS. En este capítulo se implementará un entorno de software para las simulaciones donde aplicar las variantes de los algoritmos Q-Learning, utilizando como lenguaje de programación el Python. Se realizará la modelación de un canal de comunicación, analizando además la conexión de los dispositivos IoT. Por último, se analizará cuál de los resultados de los algoritmos será más óptimo a los requerimientos deseados. 3.1 Canal de Comunicación La propagación de la señal inalámbrica se ve afectada por el medio entre el transmisor y el receptor. Las características del canal Aire a Tierra (AaT) difieren significativamente de los canales clásicos de comunicación terrestre que, a su vez, pueden determinar el rendimiento de las comunicaciones inalámbricas basadas en VAnT en términos de cobertura y capacidad. Además, en comparación con los enlaces de comunicación Aire a Aire (AaA) que experimentan LoS (Line of Sight) dominante, los canales AaT son más susceptibles al bloqueo. Claramente, el diseño y el despliegue óptimos de los sistemas de comunicación basados en VAnT requieren el uso de un modelo de canal AaT preciso. Si bien la técnica de trazado de rayos es un enfoque razonable para el modelado de canales, carece de suficiente precisión, especialmente en operaciones de baja frecuencia. Un modelado de canal AaT preciso es importante especialmente cuando se utilizan VAnT en aplicaciones como la mejora de la cobertura. En particular, cualquier movimiento o vibración por parte de los VAnT puede afectar las características del canal. Además, el canal AaT depende en gran medida de la altitud y el tipo del VAnT, el ángulo de elevación y el tipo del entorno de propagación. Por lo tanto, encontrar un modelo de canal genérico para las CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 41 comunicaciones VAnT-a-tierra necesita soluciones y mediciones integrales en diversos entornos. Además, los efectos de la altitud de un VAnT, los movimientos de las antenas y el sombreado causados por el cuerpo del VAnT deben capturarse en el modelado de canales. Claramente, capturar estos factores es un reto en el modelado de canales AaT. Uno de los modelos de pérdida de trayecto AaT más ampliamente adoptados para plataformas de baja altitud se presenta en [58]. Como se explica en [58], la pérdida de trayecto entre un VAnT y un dispositivo de tierra depende de la ubicación del VAnT y el dispositivo de tierra, así como del tipo de entorno de propagación (por ejemplo, rural, suburbano, urbano, urbano de gran altura). En este caso, dependiendo del entorno, los enlaces de comunicación AaT pueden ser LoS o NLoS (Non Line of Sight). Tenga en cuenta que, sin ninguna información adicional sobre las ubicaciones exactas, las alturas y el número de obstáculos, se debe considerar la aleatoriedad asociada con los enlaces de LoS y NLoS. Como resultado, muchas de las publicaciones existentes sobre comunicación VANT (por ejemplo [59], [60] , [61] y [62] ) adoptaron el modelo probabilístico de pérdida de trayectoria dado en [63] y [58]. Como se discute en estas publicaciones, los enlaces LoS y NLoS se pueden considerar por separado con diversas probabilidades de ocurrencia. La probabilidad de ocurrencia es una función del entorno, la densidad y la altura de los edificios, y el ángulo de elevación entre el VAnT y el dispositivo de tierra. Figura 3.1: Diagrama de LoS. CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 42 Como se muestra en la figura 3.1 el modelo probabilístico común de LoS se basa en las estadísticas geométricas generales de diversos entornos. En particular, en varios tipos de entornos, el UIT-R proporcionar algunos parámetros dependientes del medio ambiente para determinar la densidad, el número y el máximo de los edificios u otros obstáculos[64]. Claramente, debido a la aplicación que se propone en este trabajo, los dispositivos IoT desplegados en tierra no tienen a sus alrededores ninguna estructura elevada, como árboles o edificios, que irrumpa en la línea de visión directa entre los dispositivos IoT y los VAnT. Con el objetivo de proveer una amplia cobertura y minimizar los dispositivos IoT sin cobertura, son desplegados un total de Nd drones. Cada dron es equipado con una antena que tiene una determinada directividad. Las antenas tienen un ángulo de apertura Ѳ donde se concentra el lóbulo mayor de la antena y se obtiene la mayor ganancia. Entonces, se puede obtener el radio de cobertura de un dron de la siguiente forma: ρ = ℎ𝑑𝑡𝑎𝑛 Ѳ 2 (3.1), donde ℎ𝑑 es la altura del dron. También, se considera que la señal fuera del radio de cobertura es fuerte atenuada. Un conjunto Nu de dispositivos IoT son repartidos en el área cuadrada de L×L. Si se considera un conjunto de drones D= {1 ,2 ,3 …, Nd} y conjunto de dispositivos IoT U= {1, 2, 3, …, Nu}, la pérdida por trayecto (PL) entre el dron j y un dispositivo IoT i, donde j ϵ D, e i ϵ U, puede calcularse empleando la siguiente ecuación: 𝑃𝐿𝑖𝑗 = 20𝑙𝑜𝑔 ( 4𝜋𝑓𝑐𝑑𝑖𝑗 𝑐 ) + 𝜉(3.2), donde fc es la frecuencia de transmisión, dij es la distancia entre el dron j y un dispositivo IoT i, y ξ es la pérdida por trayecto adicional. 3.1.1 Conexión de los dispositivos IoT La conexión de un dispositivo IoT i a un dron j depende del valor de la potencia de la señal de referencia recibida (RSRP), puede ser expresada en dB, y puede calcularse como: RSRPij = EIRPj - PLij (3.3) Donde EIRPj es la potencia irradiada isotrópica equivalente y representa la suma de la potencia de transmisión y la ganancia de la antena. Empleando este valor se puede calcular la relación señal a ruido (SINR, por sus siglas en inglés): CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 43 SINRij = 𝑅𝑆𝑅𝑃𝑖𝑗 𝑁+∑ 𝑅𝑆𝑅𝑃𝑖𝑘 𝑁𝑏 𝑘=1,𝑘≠𝑗 (3.4) Donde N es la potencia de ruido aditivo blanco Gaussiano. Los dispositivos IoT se conectan al dron de mayor SINR. Aunque este proceso de conexión se divide en dos partes: 1. El dispositivo IoT comprueba si puede seguir conectado al dron, verificando si el valor de SINR es mayor e igual al umbral de conexión. De lo contrario el dispositivo IoT se desconecta. 2. La conexión también depende de la capacidad de Radio Access Network (RAN). Si el valor de SINR es mayor al umbral y existe capacidad de RAN entonces se establece la conexión. De lo contrario el dispositivo IoT intentará con el próximo dron con menor SINR. Si el dispositivo IoT no logra establecer conexión o no existe capacidad de RAN, se considera fuera de cobertura. Throughput El throughput Tij de un dispositivo IoT i conectado a un dron j, en bits por segundo, puede ser calculado empleando la fórmula de capacidad de canal de Shannon. Ti, j = B𝑙𝑜𝑔2(1 + 𝑆𝐼𝑁𝑅𝑖,𝑗) (3.5) Donde B es el ancho de banda en Hz. 3.2 Escenario de simulación. Se implementó un escenario de simulación en Python. Los principales parámetros de simulación son mostrados en la Tabla 3.1. El escenario de simulación constituye un área cuadrada de 200m de lado, donde fueron desplegados Nu dispositivos IoT, y se desconoce la ubicación precisa de los mismos. El escenario de simulación se discretizó para mejorar el rendimiento. Por tanto, el movimiento de los drones se discretizó en pasos de 20 m en el plano horizontal (ejes X-Y) y pasos de 20 m en el plano vertical (eje Z). Se realizan 100 corridas independientes, cada una con un total de 100 episodios. Para que esto sea posible cada episodio es dividido en iteraciones. Para cada iteración los drones se mueven juntos por el entorno buscando las mejores posiciones. Cuando se alcanza alguno de los criterios de CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 44 parada se detiene el episodio, se retorna a la mejor posición encontrada y se obtienen las métricas. 3.2.1 Simulación Se realiza la tarea de descubrimiento de los dispositivos IoT pues de ellos solo se conoce la cantidad y no la ubicación. Por tanto, el objetivo fundamental es lograr la conexión, entiéndase como descubrimiento, de la máxima cantidad de nodos que cumplan un umbral de conexión. Para alcanzar ese objetivo se emplea el algoritmo de aprendizaje por refuerzo Q-Learning empleando la variante Q-Learning descentralizado. Esta variante esta tiene un enfoque multiagente cooperativo donde todos los agentes (drones) se mueven al mismo tiempo intentando maximizar la recompensa. Se entiende como cooperativo que todos los agentes reciben la misma recompensa, luego de la acción que hayan realizado. La cantidad de VAnT (Nd) empleados es de 10, donde siempre se ubican, de forma intencionada, inicialmente en las siguientes posiciones en el espacio: (50,50,100); (50,150,100); (100,100,100); (150,50,100); (150,150,100); (50,100,60); (100,500,60); (100,100,60); (100,150,60); (150,100,60). Además, se diseñó e implementó dos variantes de distribución de usuarios para su despliegue en el terreno: • En la distribución de usuarios con clúster la separación mínima entre dispositivos IoT debe ser de 5 metros. Los clústeres tienen tamaño entre 7 y 9 dispositivos IoT. En la siguiente figura se muestra un ejemplo de distribución en clúster. CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 45 Figura 3.2: Clúster • En la distribución de usuarios aleatoria la separación mínima entre dispositivos debe ser de 10 metros. En la siguiente figura se muestra un ejemplo de distribución aleatoria. CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 46 Figura 3.3 Aleatorio Tabla 3.1 Parámetros utilizados. Parámetros Valores 𝜉 LoS 1 dB Lado del área cuadrada (L) 200 m Tamaño de paso en el eje x y en el eje y 20m Tamaño de paso en el eje z 20m Altura mínima para los drones 10m Altura máxima para los drones 100m Numero de dispositivos IoT (Nu) 200 CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 47 Número de UAV 10 UAV EIRP -3 dBW UAV ángulo de directividad de la antena (𝜃) 600 RBs in UAV 25 Ancho de banda de un RB 180 kHz Umbral de SINR requerido -3 dB N (AWGN) -120 dBm Frecuencia de transmisión fc 1 GHz Número total de episodios 100 Número de simulaciones independientes 100 Máximo de iteraciones por episodios (ITmax) 100 Máximo de iteraciones con la igual recompensa (ITRmax) 20 Máxima recompensa (Rmax) 200 Tasa de aprendizaje (𝜆) 0.9 Factor de descuento (𝜙) 0.9 3.3 Métricas Las métricas utilizadas para evaluar el rendimiento del algoritmo, empleando los parámetros y condiciones expuestos con anterioridad, son las siguientes. • El por ciento de dispositivos IoT fuera de cobertura, el cual se obtiene: CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 48 𝐷𝑢 = 100 𝑁𝑜 𝑁𝑢 , donde Nu es la cantidad de dispositivos IoT y No es la cantidad de usuarios fuera de cobertura y se calcula como: 𝑁𝑜 = 𝑁𝑢 −∑𝑈𝑗 𝑗=1 𝑁𝑑 • Promedio de consumo de potencia de los VAnT por episodio. • Promedio de consumo de la batería de los VAnT por episodio. 3.4 Resultados numéricos En la Figura 3.4 se muestra el número de promedio de dispositivos IoT sin cobertura por episodios para ambas variantes de distribución de dispositivos IoT. Se evidencia que para la distribución en clúster se logra un mejor rendimiento que para la distribución aleatoria; pero para ambas se logra tener menos del 2.5% de dispositivos sin cobertura, es decir menos de 5 dispositivos IoT sin cobertura. CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 49 Figura 3.4 Usuarios sin cobertura Esto leve diferencia en el rendimiento del algoritmo Q-learning descentralizado para ambas distribuciones de dispositivos IoT se debe principalmente a la altura que deben tomar los drones para abarcar dentro de su radio de cobertura a la mayor cantidad de dispositivos IoT. Como se observa en la Figura 3.5 para la distribución aleatoria la frecuencia de posicionamiento de los VAnT en la máxima altura (100m) es superior que, en la distribución en clúster, por lo tanto, existe mayor interferencia al solaparse los radios de cobertura. Mientras que se observa que en las alturas de 40m y 60m el posicionamiento de VAnT para la distribución en clúster es más frecuente que para la distribución aleatoria, esto permite disminuir la interferencia. Lo anteriormente expuesto es lógico pues para la distribución en clúster los dispositivos IoT están ubicados en conjuntos en posiciones más cercanas. Mientras en la distribución aleatoria los dispositivos IoT estás más dispersos. Figura 3.5: Frecuencia de posicionamiento de los VAnT para las diferentes alturas. El rendimiento del algoritmo Q-learning descentralizado referido al consumo de potencia energética se observa en la Figura 3.6. Para ambas distribuciones de dispositivos IoT se alcanza un consumo inferior a los 3KW desde el episodio 30. Evidenciando el acertado rendimiento del algoritmo a pesar de no optimizar de forma directa el consumo de potencia, pues como se puede observar en (2.13) no existe un término que proponga disminuir dicho consumo. CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 50 Figura 3.6 Consumo promedio de potencia de los VanT por episodio. Dicha estabilidad en el consumo de potencia permite que los VAnT realicen la búsqueda de las mejores posiciones para cumplir su objetivo sin agotar totalmente su batería como se muestra en la Figura 3.7. En dicha figura se puede observar que al alcanzar el episodio final los VAnT poseen más del 60% de la batería. Figura 3.7 Consumo promedio de la batería de los VAnT por episodio. CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 51 3.5 Conclusiones del capítulo. En este capítulo se analizó la modelación de un canal de comunicación para su posterior implementación en el escenario de simulaciones. Se describió las estrategias implementadas para la distribución de los dispositivos IoT sobre el terreno. Utilizando como referente las métricas planteadas se pudo constatar del excelente rendimiento del algoritmo Q-Learning para resolver la tarea propuesta empleando los UAV en ambas distribuciones de dispositivos IoT, donde el algoritmo obtiene un mejor desempeño para la distribución en clúster de los dispositivos IoT. ANEXOS 52 CONCLUSIONES Y RECOMENDACIONES Conclusiones A partir de la investigación realizada en capítulos anteriores y de los resultados obtenidos en las simulaciones, se concluye lo siguiente: 1 El algoritmo Q-Learning multiagente cooperativo es una excelente opción para el descubrimiento de los dispositivos IoT gracias a su rendimiento, pues como promedio 5 o menos dispositivos IoT quedan sin cobertura. 2 El algoritmo Q-Learning multiagente cooperativo desarrolla mecanismos de forma autónoma que permiten una disminución del consumo de potencia, traduciéndose en la disminución del uso de la energía de la batería. 3 Los UAV aprendieron a utilizar la altur