Título: Posicionamiento autónomo de UAVs en redes 

inalámbricas de sensores empleando Q-learning. 

Autor: Deny Manuel Pons Pérez. 

Tutores: Ing. Rigoberto Acosta González. 

  
Title: Autonomous positioning UAVs in wireless sensor networks 

using Q-Learning. 

Author: Deny Manuel Pons Pérez. 

Thesis Director: ing. Rigoberto Acosta González.


 i 

Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de 

Las Villas, y se encuentra depositado en los fondos de la Biblioteca Universitaria “Chiqui 

Gómez Lubian” subordinada a la Dirección de Información Científico Técnica de la 

mencionada casa de altos estudios. 

Se autoriza su utilización bajo la licencia siguiente: 

Atribución- No Comercial- Compartir Igual  

 
Para cualquier información contacte con: 

Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de Las 

Villas. Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830 

Teléfonos.: +53 01 42281503-1419 

 
 ii 

PENSAMIENTO 

 
“El desarrollo del hombre depende fundamentalmente de la invención. Es el producto 

más importante de su cerebro creativo. Su objetivo final es el dominio completo de la 

mente sobre el mundo material y el aprovechamiento de las fuerzas de la naturaleza a 

favor de las necesidades humanas.” 

Nikola Tesla.  


 iii 

DEDICATORIA 

A toda mi familia y amigos en especial a mi madre y hermana. 

A mi abuela Inés, que fue como mi segunda madre y siempre seguirá viva en mi corazón.  

 
 iv 

AGRADECIMIENTOS 

A mi familia por todo su apoyo incondicional. 

A todos mis amigos, en especial a aquellos que siempre han estado ahí cuando más los 

necesito. 

A mi tutor, que me ayudó muchísimo hasta el final, de verdad, muchas gracias. 

A todos lo profesores que he tenido a lo largo de mi vida escolar. 

A todos mis compañeros.    

   
 v 

RESUMEN 

Una red inalámbrica de sensores está compuesta por sensores autónomos especialmente 

distribuidos para monitorizar condiciones físicas o ambientales. Estas redes pueden ser de 

gran utilidad en la agricultura para generar un gran volumen de información variada que 

servirán para lograr mejorar la productividad. Obtener esta información implica establecer 

un canal de comunicación para el intercambio de información, por lo que en este trabajo se 

implementará una infraestructura basada en UAVs que hará más factible esta tarea. El 

principal resultado de esta investigación será analizar el rendimiento del algoritmo Q-

learning multiagente cooperativo en el posicionamiento autónomo de UAV para el 

descubrimiento de dispositivos IoT. Además de la creación de un entorno de software para 

potenciar la investigación en las comunicaciones inalámbricas utilizando UAVs para las 

redes inalámbricas de sensores. Se demuestra que algoritmo Q-learning multiagente 

cooperativo es una excelente opción para el descubrimiento de los dispositivos IoT gracias a 

su rendimiento, pues como promedio 5 o menos dispositivos IoT quedan sin cobertura.  

Además de desarrollar mecanismos de forma autónoma que permiten una disminución del 

consumo de potencia. 

 
 vi 

ABSTRACT 

A wireless sensor network is composed of autonomous sensors specially distributed to 

monitor physical or environmental conditions. These networks can be very useful in 

agriculture to generate a large volume of varied information that will serve to improve 

productivity. Obtaining this information implies establishing a communication channel for 

the exchange of information, so this work will implement an infrastructure based on UAVs 

that will make this task more feasible. The main outcome of this research will be to analyze 

the performance of the cooperative multi-agent Q-learning algorithm in autonomous UAV 

positioning for IoT device discovery. In addition to the creation of a software environment 

to enhance research in wireless communications using UAVs for wireless sensor networks. 

It is demonstrated that cooperative multi-agent Q-learning algorithm is an excellent choice 

for the discovery of IoT devices due to its performance, since on average 5 or less IoT devices 

remain uncovered.  In addition to developing autonomous mechanisms that allow a decrease 

in power consumption. 

 
 vii 

TABLA DE CONTENIDOS 

PENSAMIENTO ................................................................................................................... ii 

DEDICATORIA .................................................................................................................... iii 

AGRADECIMIENTOS ......................................................................................................... iv 

RESUMEN ............................................................................................................................. v 

ABSTRACT ........................................................................................................................... vi 

INTRODUCCIÓN .................................................................................................................. 1 

Antecedentes ........................................................................................................................... 2 

Objetivos del trabajo. .............................................................................................................. 3 

Organización del informe ....................................................................................................... 4 

CAPÍTULO 1. VEHÍCULOS AÉREOS NO TRIPULADOS............................................ 6 

1.1 Definición de UAV. .............................................................................................. 6 

1.2 Características de los UAVs. ................................................................................ 6 

1.2.1 Clasificación según la altura de vuelo máxima. ............................................... 7 

1.1.2 Clasificación según la forma de sustentación. .................................................. 8 

1.1.3 Clasificación según su carga útil .................................................................... 12 

1.1.4 Clasificación según el método de control ....................................................... 16 

1.2 Tipos de sensores utilizados en UAVs ............................................................... 16 

1.3 Política de seguridad. .......................................................................................... 19 

1.3.1 Política de privacidad en Cuba ....................................................................... 20 

1.4 Redes inalámbricas de sensores. ......................................................................... 21 

1.4.1 Características de las redes de sensores inalámbricos. ................................... 22 

1.4.2 Protocolos utilizados en redes de sensores inalámbricos. ............................... 23 


 viii 

1.4.3 Aplicaciones de los UAVs en redes de sensores inalámbricos. ...................... 25 

1.5 Conclusiones del capítulo. .................................................................................. 26 

CAPÍTULO 2. APRENDIZAJE POR REFUERZO. ....................................................... 27 

2.1 Aprendizaje por refuerzo. ................................................................................... 27 

2.1.1 Elementos que caracterizan el aprendizaje por refuerzo ................................ 27 

2.1.2 Interfaz entorno – agente ................................................................................ 28 

2.1.3 Función de valor ............................................................................................. 29 

2.2 Métodos Libres de Modelos ............................................................................... 30 

2.2.1 Aprendizaje por Diferencia Temporal ............................................................ 31 

2.3 Procesos de decisión de Márkov y su relación con el aprendizaje por refuerzo.

 33 

2.3.1 Juegos de Márkov totalmente cooperativos. ................................................... 33 

2.3.2 Q-Learning descentralizado ............................................................................ 34 

2.4 Modelo de Consumo Energético. ....................................................................... 36 

2.5 Conclusiones del capítulo. .................................................................................. 39 

CAPÍTULO 3. SIMULACIÓN Y RESUTADOS. ........................................................... 40 

3.1 Canal de Comunicación ...................................................................................... 40 

3.1.1 Conexión de los dispositivos IoT .................................................................... 42 

3.2 Escenario de simulación. .................................................................................... 43 

3.2.1 Simulación ...................................................................................................... 44 

3.3 Métricas .............................................................................................................. 47 

3.4 Resultados numéricos ......................................................................................... 48 

3.5 Conclusiones del capítulo. .................................................................................. 51 

CONCLUSIONES Y RECOMENDACIONES .................................................................... 52 

Conclusiones ......................................................................................................................... 52 


 ix 

Recomendaciones ................................................................................................................. 52 

REFERENCIAS BIBLIOGRÁFICAS ................................................................................. 53 

ANEXOS .............................................................................................................................. 59 

Anexo I Tabla de coeficientes de superficie polinomial para a ....................................... 59 

Anexo II Tabla de coeficientes de superficie polinomial para b ....................................... 59 

Anexo III Notaciones principales y terminología. .............................................................. 60 

 
INTRODUCCIÓN 

 
1 

INTRODUCCIÓN 

Los UAVs (Unmanned Aerial Vehicle) o VANT (Vehículo Aéreo no Tripulado), como su 

propio nombre lo indica son aeronaves que vuelan sin tripulación. Hay una amplia variedad 

de formas, tamaños, configuraciones y características en el diseño de los VANT. Dichas 

aeronaves pueden ser completamente autónomas, programadas para realizar un patrón de 

vuelo y seguir unas directrices predefinidas o pueden comandarse por un piloto de manera 

remota mediante enlace de datos. Los drones tienen un gran potencial en áreas muy diversas, 

ya que pueden desplazarse rápidamente sobre un terreno irregular o accidentado sin riesgo 

para las personas[1]. Los UAVs tienen diversas aplicaciones; pueden ser utilizados en 

eventos, tanto deportivos como culturales ; como delivery; en situaciones de emergencia; 

búsqueda de personas; control fiscal; vigilancia fronteriza; como satélites y en zona rurales, 

al apoyar la agricultura de precisión, los drones pueden mejorar la salud del suelo, escaneos, 

monitorear la salud de los cultivos, ayudar en la planificación de programas de riego, aplicar 

fertilizantes, estimar datos de producción y proporcionar datos valiosos para el análisis 

meteorológico[2]. 

La agricultura contemporánea enfrenta a numerosos retos relacionados con la efectividad de 

la fertilización y su precisión, falta de información actualizada, cumplimiento de normas de 

protección del medio ambiente, así como de competitividad creciente; todo lo que genera 

aumento de costos e insatisfacción de la productividad. 

Hay múltiples posibles aplicaciones de las tecnologías de Drones en procesos de producción 

de la agricultura que incluyen, entre otros, métodos automatizados de la inspección, mapeo 

y análisis de los cultivos, análisis multiespectral, así como mano métodos de fumigación de 

campos, apoyo con daños los procesos de gestión y supervisión de campos productivos[3]. 


INTRODUCCIÓN 

 
2 

El aprendizaje por refuerzo es un área del aprendizaje automático inspirada en la psicología 

conductista, cuya ocupación es determinar qué acciones debe escoger un agente de software 

en un entorno dado con el fin de maximizar alguna noción de "recompensa" o premio 

acumulado[4]. Dentro de los métodos de aprendizaje por refuerzo se encuentra el Q-Learning 

que permite resolver problemas de decisión secuencial. Este algoritmo proporciona 

resultados de excelente calidad teniendo en cuenta las características presentes en entornos 

reales. Además, es un método simple y fácil de implementar. Utilizando algoritmos de 

aprendizaje de refuerzo los drones pueden ajustar sus posiciones, direcciones de vuelo y 

control de movimiento para dar servicio a sus usuarios de tierra, incluso disminuir el consumo 

de energía. 

Antecedentes 

Los primeros intentos de crear un UAV, tal y como los conocemos hoy, comienzan durante 

el desarrollo de la Primera Guerra Mundial. A finales de 1916 se construye en Reino Unido 

por el capitán A.H Low el “Aerial Target”, un vehículo no tripulado controlado por radio 

desde tierra[5]. Poco a poco estos fueron evolucionando hasta, además de ser usados 

militarmente, tener varias aplicaciones dentro de las que destacan su uso en el escenario del 

Internet de las cosas (IoT). Hoy en día, los avances de la tecnología y el abaratamiento de 

costo han permitido que más gente tenga acceso para adquirir un dron.  

Países como México ya están implementando conceptos operativos para estos sistemas con 

la implicación de sus autoridades. Las aplicaciones son inmediatas para la vigilancia de sus 

largos corredores, de líneas de alta potencia y red de transporte de gas. 

En la zona de la Amazonía, Brasil utiliza UAVs frente a otros sensores dentro de su sistema 

de vigilancia de esta zona vital del planeta para evitar su explotación indebida y actividades 

ilícitas dentro de la misma[6]. Todo ello con un menor riesgo y coste que con plataformas 

tripuladas. 

Varios países están adquiriendo sistemas del mercado para vigilancia de fronteras como 

Bolivia y Colombia. Se están llegando a acuerdos entre varios países para llevar a cabo 

actividades de lucha contra el tráfico de drogas y contrabando[7]. 


INTRODUCCIÓN 

 
3 

Desde el momento en que los UAVs se mostraron al mundo como una herramienta tan 

versátil ramas como la industria, el ejemplo clave del mundo real, han realizado proyectos 

recientes que emplean drones para la conectividad inalámbrica, como el proyecto Loon de 

Google. Además, Qualcomm y AT&T están planeando implementar UAVs para permitir 

comunicaciones de cable a gran escala menos en las próximas redes inalámbricas de quinta 

generación (5G)[8]. Mientras tanto, las iniciativas de Amazon Prime Air y Project Wing de 

Google son ejemplos destacados de casos de uso para UAVs conectados a la telefonía celular.  

Actualmente, el uso de drones en el ámbito profesional tiene una utilización que abarca 

muchos campos y que pretende abarcar aún más. El dron tiene la ventaja de ofrecer un gran 

número de posibilidades en muchos sectores, tanto comerciales, como de seguridad. 

 El uso de drones, además, ha supuesto una gran mejora en muchos puestos de trabajo ya que 

se han podido mejorar ciertas acciones que requerían más complicación o eran de gran difícil 

acceso. 

Objetivos del trabajo. 

El objetivo general de este trabajo es analizar el algoritmo Q-Learning en el posicionamiento 

autónomo de UAVs en sus variantes simple-agente cooperativo, simple-agente no 

cooperativo, multi-agente cooperativo y multi-agente no cooperativo. 

De este se derivan los siguientes objetivos específicos:  

• Describir las características de los principales tipos de UAVs. 

• Describir las principales características y funcionamiento de las redes inalámbricas de 

sensores. 

• Implementar las variantes del algoritmo Q-learning.  

• Describir el modelo matemático para el consumo energético de un UAV. 

• Implementar un entorno de software para las simulaciones donde aplicar las variantes del 

algoritmo Q-learning. 

• Analizar los resultados de las variantes del algoritmo Q-learning implementadas. 

Para darle cumplimiento estos objetivos tenemos las siguientes interrogantes científicas: 

• ¿Cuáles son las principales características de los principales tipos de UAVs? 


INTRODUCCIÓN 

 
4 

• ¿Cuáles son las principales características y funcionamiento de las redes inalámbricas de 

sensores? 

• ¿Cómo implementar las variantes del algoritmo Q-learning? 

• ¿Cómo implementar un entorno de software para las simulaciones donde aplicar las 

variantes del algoritmo Q-learning? 

• ¿Cómo describir el modelo matemático para el consumo energético de un UAV? 

• ¿Cuál variante del algoritmo obtiene los mejores resultados en su ejecución?  

A estas interrogantes se le dará respuesta mediante las siguientes tareas de investigación: 

• El estudio de las principales características de los principales tipos de UAVs. 

• El estudio de las principales características y funcionamiento de las redes inalámbricas 

de sensores.  

• El análisis de las variantes del algoritmo Q-learning para implementar. 

• El estudio de los diferentes modelos matemático para el consumo energético de un UAV. 

• El estudio de los diferentes entornos de software para las simulaciones donde aplicar las 

variantes del algoritmo Q-learning. 

• El análisis de resultados en la ejecución de algoritmos implementados. 

Organización del informe  

El informe de la investigación se estructurará en introducción, capitulario, conclusiones, 

referencias bibliográficas, y anexos. 

En la introducción se dejará definida la importancia, actualidad y necesidad del tema que 

se aborda y se dejarán explícitos los elementos del diseño teórico. 

Desarrollo 

CAPITULO I: Se describirán los principales tipos de UAVs y sus características. También 

se analizarán las diversas aplicaciones posibles para el desarrollo e implementación de una 

red inalámbrica de sensores. 

CAPITULO II: Se estudiará las características y especificaciones de los algoritmos 

Aprendizaje Automático (Machine Learning) y Aprendizaje por refuerzo (Reinforcement 


INTRODUCCIÓN 

 
5 

Learning), marcando pauta en el algoritmo Q-Learning. Además del estudio de diversos 

modelos matemático para el consumo energético de un UAV.  

CAPITULO III: Se Implementará un entorno de software para las simulaciones donde 

aplicar las variantes de los algoritmos Q-Learning. Por último, se comparará cuál de los 

resultados de los algoritmos será más óptimo a los requerimientos deseados. 

Conclusiones: Conclusiones del trabajo. 

Recomendaciones: Recomendaciones para trabajos futuros. 

Referencias bibliográficas: Organización de la bibliografía consultada. 

Anexos: Contenido adicional para comprender detalladamente los procedimientos y 

resultados.


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
6 

CAPÍTULO 1. VEHÍCULOS AÉREOS NO TRIPULADOS.   

En el presente capítulo se describirán los principales tipos de UAVs y sus principales 

características. También se realizará un análisis de las diversas aplicaciones posibles para el 

desarrollo e implementación de las redes de sensores inalámbricos.  

1.1 Definición de UAV.  

El término dron hace referencia a un vehículo aéreo no tripulado (VANT), un término que 

en inglés se conoce como UAV (Unmanned Aerial Vehicle), aunque de manera más 

apropiada se denomina como Remotely Piloted Aircraft System (RPAS). En definitiva, se 

trata de una aeronave que vuela sin tripulación, donde sus funciones se ejecutan de forma 

remota. Por lo tanto, un dron es un vehículo sin tripulación capaz de mantener de manera 

autónoma un nivel de vuelo controlado y sostenido que puede estar impulsado por un motor 

eléctrico, de explosión o de reacción. Sus movimientos son controlados principalmente por 

una unidad remota en la mayoría de los casos, mientras que otros diseños más avanzados son 

operados desde computadoras o constan de una trayectoria programada con anterioridad. A 

la hora de realizar una clasificación, tendremos que tener en cuanta diferentes características 

para poder organizar por tipologías los drones existentes hasta el momento. 

1.2 Características de los UAVs.  

Aspectos que caracterizan a un UAV: 

• ESPACIO AÉREO: altura de vuelo, distancia, área, exterior o interior, urbano, 

suburbano, o rural. 

• FORMA DE SUSTENTACIÓN: ala fija o rotatoria, globos y dirigibles. 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
7 

• CARGA ÚTIL: certificación CE. 

• TIPO de SENSOR: fotografía, video, térmico, lidar, etc. 

• OPERADOR REMOTO: vuelo visual o navegación autónoma, capacitación requerida, 

permisos, certificado de aeronavegación. 

• LEGISLACIÓN: legislación nacional, RAAC y ANAC, comparada, internacional 

(OACI). 

1.2.1 Clasificación según la altura de vuelo máxima. 

La altura de máxima de vuelo de un UAV es un parámetro muy importante a tener en cuenta 

a la hora de saber qué tipo de dron usar para cada aplicación. Esta es imprescindible para 

maximizar la cobertura del suelo y satisfacer diferentes requisitos de calidad de servicio 

(QoS). Existen dos tipos de clasificaciones de los UAV según la altura máxima que pueden 

alcanzar:  

Las plataformas de baja altitud (PBA): se emplean generalmente para ayudar a las 

comunicaciones celulares, ya que son más eficaces y suelen proporcionar enlaces de línea de 

visión de corto alcance (LoS) que pueden mejorar significativamente la comunicación[9]. En 

comparación con las PGAs, el despliegue de las PBAs se puede hacer más rápidamente, por 

lo que los hace más apropiados para las aplicaciones de alta sensibilidad respecto a tiempo 

de respuesta (por ejemplo, situaciones de emergencia). A diferencia de las PGAs, las PBAs 

se pueden utilizar para la recopilación de datos de sensores de tierra. Además, las PBAs se 

pueden recargar o reemplazar fácilmente si es necesario. 

Las plataformas a gran altitud (PGA): como los globos pueden proporcionar conectividad 

inalámbrica. En comparación con los PBA, los PGA tienen una cobertura más amplia y 

pueden permanecer mucho más tiempo en el aire. Estas usualmente se mantienen a altitudes 

superiores a 16 km y suelen estar casi estacionarias[10], [11]. Sin embargo, el despliegue de 

PGA es más complejo y se consideran principalmente como vehículos para proporcionar 

conectividad a grandes fracciones de población mundial con pobre infraestructura de 

comunicación inalámbrica terrestre. Es importante resaltar que el uso de PGA en las 

comunicaciones celulares puede causar una interrupción total de las redes debido a las 

interferencias intercelulares extremadamente que pueden causar[9]. En consecuencia, rara 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
8 

vez son considerados en la literatura sobre redes celulares asistidas por VAnT, si no más bien 

perseguidos por compañías proveedoras de Internet como Google. 

1.1.2 Clasificación según la forma de sustentación.  

Una de las principales características para clasificar los UAV es la forma en que sustentan su 

vuelo. En el siguiente esquema, podemos ver dicha clasificación, la cual se explicará a 

continuación: 

 
Figura 1.1: Clasificación de los UAV según la forma de sustentación. 

Globos aerostáticos 

Son aeronaves más livianas que el aire, que a través de un quemador de llama generan aire 

caliente en la recámara y le sirven para elevarse y mantenerse en vuelo. Funcionan a partir 

del movimiento de gases que pueden ser calientes o no. El impulso de estos gases hace que 

la recamara, formada por una extensión de tela que constituye la envoltura del globo le 

permita desplazarse en el aire, subir en altura y despegar del suelo. Son usados usualmente 

en aplicaciones de altitud ultra alta[12]. Son mucho más flexibles en términos de peso, 

tamaño y consumo de energía de la carga útil, esencialmente solo dependiendo del volumen 

de la tela envolvente o globo. Sin embargo, mientras más grande el globo más difícil es 

mantenerlo estático. 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
9 

Se puede destacar las grandes alturas en que generalmente operan, volviéndolos ideales para 

conexiones basadas en el establecimiento de una línea de vista entre receptor y emisor. 

Dirigibles 

Un dirigible es un aerostato provisto de motores capaces de propulsarlo en vuelo dirigido. 

Está constituido por un armazón metálico cubierto de una envoltura impermeable y 

aerodinámica con varios depósitos de un gas más ligero que el aire (hidrógeno o helio)[13]. 

Además, poseen una barquilla suspendida para el transporte de pasajeros o mercancías. 

El proceso de sustentación aerostática en estas aeronaves se logra mediante el llenado de 

depósitos ubicados al interior de su estructura con un gas de menor densidad respecto de la 

atmósfera circundante, que antiguamente era el hidrógeno, pero que actualmente se usa el 

helio por tratarse de un gas no inflamable, aunque este gas es un poco menos ligero que el 

hidrógeno. Estas características hacen que difieran de los aviones respecto de la sustentación 

aerodinámica, que se obtiene mediante el movimiento de un perfil alar en el aire. 

Actualmente se utilizan en una serie de aplicaciones secundarias, una de ellas es la modalidad 

de RPAS teledirigidos usados especialmente en trabajos aéreos como la publicidad. 

El principal inconveniente para el uso de dirigibles en escenarios de recuperación ante 

desastres en realidad proviene de su tamaño, que requiere un extenso operativo terrestre y las 

instalaciones de tierra apropiadas, hangares para almacenar y campo abierto para levantar y 

descender el globo. Entre las ventajas de estos dispositivos se pueden mencionar sus largos 

periodos de vuelos, estos dispositivos pueden implementarse para mantener servicios de red 

inalámbrica por varias semanas sin necesidad de mantenimiento alguno. 

Clasificación según el tipo de ala (Aerodinos) 

Dron de ala fija 

Los drones de ala fija son aeronaves que poseen un perfil alar que permite que la aeronave 

pueda moverse a través del aire y sea capaz de generar fuerzas sustentadoras para mantenerse 

en el aire[14]. Este tipo de drones tienen una estética muy similar a los aeromodelos de 

radiocontrol. 

 
CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
10 

La principal característica de este tipo de drones es la gran autonomía que nos ofrecen ya que 

pueden estar volando varias horas gracias a su eficiencia aerodinámica. Los drones de ala fija 

son ideales para mapear grandes superficies de terreno ya que con una única batería se cubren 

grandes extensiones de terreno. Por este motivo son drones muy utilizados en trabajos de 

agricultura de precisión y de fotogrametría. 

 
A diferencia de los drones de ala rotatoria, con este tipo de drones no es posible realizar 

vuelos estacionarios. Por tanto, no podremos realizar trabajos que requieran que el dron esté 

volando estático a una altura determinada como pueden ser, por ejemplo, los trabajos de 

inspección. 

 
Otra particularidad de este tipo de drones es que no pueden despegar ni aterrizar en vertical. 

Para el despegue de un dron de ala fija necesitaremos una persona que se encargue de lanzarlo 

a mano o disponer directamente de una catapulta. La gran mayoría de los drones de ala fija 

actuales ya son capaces de realizar aterrizajes de forma autónoma, pero hay que tener en 

cuenta que se necesita una superficie lo suficientemente grande y en buen estado para que el 

dron no sufra ningún percance. 

 
Dron de ala rotativa 

Son las aeronaves no tripuladas más conocidas y vendidas en el mercado. Estos drones 

consiguen la sustentación gracias a las hélices que llevan incorporadas en los extremos de 

cada brazo. Cada hélice está impulsada por un motor y permite una gran estabilidad durante 

el vuelo. A diferencia de los drones de ala fija, los multirrotores pueden permaneces quietos 

sobrevolando en un mismo sitio. 

Estos multirrotores ofrecen una gran versatilidad, puesto que permiten instalar todo tipo de 

cámaras y varios tipos de sensores para realizar diferentes tareas. Son drones que despegan 

y aterrizan de forma vertical y prácticamente desde cualquier superficie, eso sí, su gran 

inconveniente suele estar relacionado con la autonomía de vuelo que ofrecen[15]. 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
11 

Por lo tanto, si queremos realizar ciertas tareas que nos lleven mucho tiempo, tendremos que 

disponer de varias baterías. Esto supone un coste adicional, puesto que tendremos que tener 

varias baterías. 

Estos se pueden clasificar según la cantidad de hélices que lo componen[16]: 

Drones de rotor único: La construcción más común en los drones tiene motores de tipo multi 

rotor, pero en este caso el modelo tiene un solo rotor. Otro será un rotor de cola que 

simplemente ayuda a proporcionar control al encabezado. En el caso de que necesites un dron 

que pueda cargar con determinados pesos pero que también sean resistentes, este tipo de rotor 

puede ser la mejor opción. 

Tricóptero: Hay tres tipos diferentes de motores potentes dentro de un tricóptero, tres 

controladores, cuatro giroscopios y un solo servo. Los motores se colocan en cada extremo 

de los tres brazos y cada uno de estos sostiene un sensor de localización. Siempre que 

necesites levantar el tricóptero, es esencial iniciar un movimiento en la palanca del 

acelerador, y el sensor del giroscopio recibirá inmediatamente la señal y pasará directamente 

al controlador que ayuda a controlar la rotación del motor. Un tricóptero es capaz de 

mantenerse estabilizado en su camino, ya que está equipado con sensores clásicos y material 

electrónico. No es necesario aplicar ninguna corrección manual. 

Quadcóptero: Cuando un multirrotor está diseñado con cuatro palas de rotor entonces se 

convierte en un quadcóptero. Estos dispositivos suelen ser controlados por motores DC sin 

escobillas. Dos de los motores se utilizan para moverse en sentido horario, mientras que los 

otros dos funcionan en sentido antihorario, facilitando un aterrizaje seguro al aparato. La 

batería de estos dispositivos suele ser de polímero de litio. Son los más habituales y los más 

extendidos en el mercado. 

Hexacóptero: Un hexacóptero te servirá para muchas aplicaciones gracias a su mecanismo 

de 6 motores, donde 3 trabajan en sentido horario y otros tres se mueven en dirección 

antihoraria. Estos dispositivos son capaces de obtener una mayor potencia de elevación en 

comparación con los anteriores. No tendrás que preocuparte por el mecanismo, ya que está 

diseñado para funcionar y aterrizar de un modo extremadamente seguro. 

Octocóptero: Un octocóptero te ofrecerá sus potentes ocho motores, que envían potencia a 8 

hélices funcionales. Estos drones tienen muchas capacidades de vuelo en comparación con 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
12 

las unidades discutidas anteriormente y también son muy estables. Podrás hacer uso de una 

grabación de imágenes estables con octocópteros a cualquier altitud. Estos dispositivos 

encuentran aplicación en el mundo de la fotografía profesional. 

Tabla 1.1: Tabla comparativa 

 Ala Fija Ala rotatoria 

Vuelo A altitud y velocidad Estacionario y estable 

Maniobrabilidad  Menor Mayor 

Autonomía  Mayor Menor 

Energía  Eléctrica/Explosión Eléctrica 

Carga útil  Menor Mayor 

Dependiendo el tipo de misión u objetivo que se pretende realizar, uno de estos modelos se 

impondrá sobre el otro. 

Por ejemplo, en aquellos casos donde se requiera que el dispositivo realice maniobras en 

forma estacionaria y/o a baja velocidad, el dron más adecuado sería el de ala rotativa. 

En cambio, si se desea utilizar estos dispositivos para realizar vuelos a velocidades y alturas 

superiores, por ejemplo, para recolectar datos cartográficos, la opción más prudente sería 

optar por los drones de ala fija. 

1.1.3 Clasificación según su carga útil 

Una de las nuevas novedades de la Normativa Europea de UAS es la clasificación de los 

tipos de drones en función de su peso. Este sistema de clasificación establece siete nuevos 

tipos de drones según su MTOW (Masa máxima al Despegue) y sus especificaciones técnicas 

que, además, marcarán las limitaciones para volar en cada una de las categorías 

operacionales[17]. 

A partir de 2021, los nuevos drones que se fabriquen, se clasificarán dentro de siete nuevas 

clases de drones: 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
13 

Drones de clase C0 

• MTOW inferior a 250 gr. 

• Velocidad máxima de 19 m/s. 

• Altura máxima limitada a 120 metros. 

• Alimentación eléctrica. 

Drones de clase C1 

• MTOW inferior a 900 gr o transmisión de energía en caso de impacto inferior a 80 J. 

• Velocidad máxima de 19 m/s. 

• Altura máxima limitada a 120 m. 

• Alimentación eléctrica. 

• Número de serie único. 

• Sistemas de identificación a distancia directa y de red. 

• Sistema de geoconsciencia. 

• Sistemas de aviso de baja batería en UAS y estación de control. 

Drones de clase C2 

• MTOW inferior a 4 kg 

• Altura máxima limitada a 120 m. 

• Alimentación eléctrica. 

• Enlace de datos protegido ante accesos no autorizados al mando y control. 

• Modo de velocidad baja seleccionable para limitar el UAS a 3 m/s como máximo 

(excepto en drones de ala fija). 

• Número de serie único. 

• Sistemas de identificación a distancia directa y de red. 

• Sistema de geoconsciencia. 

• Sistemas de aviso de baja batería en UAS y mando de control. 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
14 

• Luces de control de altitud y vuelo nocturno incorporadas. 

Drones de clase C3 

• MTOW inferior a 25 kg 

• Dimensión característica máxima de 3 metros. 

• Altura máxima limitada a 120 m. 

• Alimentación eléctrica. 

• Número de serie único. 

• Sistemas de identificación a distancia directa y de red. 

• Sistema de geoconsciencia. 

• Sistemas de aviso de baja batería en UAS y mando de control. 

• Luces de control de altitud y vuelo nocturno incorporadas. 

Drones de clase C4 

• MTOW inferior a 25 kg incluida carga útil. 

• No incorporar modos automáticos de control (excepto para asistencia en la 

estabilización del vuelo sin efecto directo en la trayectoria y asistencia en pérdida de enlace, 

siempre que se disponga de posición fija predeterminada de los mandos de vuelo en caso de 

pérdida de enlace). 

• Destinado a la práctica del aeromodelismo. 

Drones de clase C5 

• MTOW inferior a 25 kg 

• No ser UAS de ala fija, salvo si es cautivo. 

• Sistema información clara sobre la altitud de vuelo. 

• Modo de velocidad baja seleccionable para limitar el UAS a 5 m/s como máximo. 

• Sistema de recuperación o aterrizaje seguro, en caso de pérdida de enlace. 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
15 

• Sistema de recuperación de enlace de mando y control perdido, o sistema de 

terminación del vuelo o aterrizaje seguro del UAS. 

• Enlace de datos protegido ante accesos no autorizados al mando y control. 

• Alimentación eléctrica. 

• Número de serie único. 

• Sistemas de identificación a distancia directa. 

• Sistema de geoconsciencia. 

• Sistemas de aviso de baja batería en UAS y estación de control. 

• Luces de control de altitud y vuelo nocturno incorporadas. 

• Si incorpora sistema de limitación de vuelo en zonas o volúmenes concretos del espacio 

aéreo, este deberá informar al piloto de tal impedimento. 

• Si un UAS de clase C3 incorpora accesorios o mejoras ubicables dentro de la clase C5, 

pasará a considerarse dron de clase C5. 

• Kit de accesorios sin cambios en el UAS de clase C3. 

Drones de clase C6 

• MTOW inferior a 25 kg 

• Sistema información clara sobre la altitud de vuelo, que evite que el UAS traspase los 

límites, tanto horizontales como verticales, de un espacio operacional programable. 

• Velocidad máxima horizontal de 50 m/s respecto al suelo. 

• Sistema de recuperación o aterrizaje seguro, en caso de pérdida de enlace. 

• Sistema de recuperación de enlace de mando y control perdido, o sistema de 

terminación del vuelo o aterrizaje seguro del UAS. 

• Enlace de datos protegido ante accesos no autorizados al mando y control. 

• Alimentación eléctrica. 

• Número único de serie. 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
16 

• Sistemas de identificación a distancia directa. 

• Sistemas de geoconsciencia. 

• Sistemas de aviso de baja batería en UAS y mando de control. 

• Si incorpora sistema de limitación de vuelo en volúmenes o zonas concretas del espacio 

aéreo, éste deberá informar al piloto de tal impedimento. 

• Luces de control de altitud y vuelo nocturno incorporadas. 

1.1.4 Clasificación según el método de control 

Autónomo: La aeronave está dotada y se guía por con sus propios sistemas y sensores 

integrados, no necesita de un piloto que lo controle desde tierra. 

Monitorizado: Este tipo de control para UAV si se necesita un técnico humano, el cual 

controla y proporciona de información el dron, mediante un receptor respecto a la actuación 

de un emisor. El dron tiene su plan de vuelo y el técnico a pesar de no poder controlarlo 

directamente, puede decidir qué maniobra llevar a cabo[18]. 

Supervisado: Un operador pilota directamente la aeronave, aunque este puede realizar 

algunas tareas automáticamente. 

Preprogramado: Este sigue un plan de vuelo diseñado, pero no tiene los medios ni las 

herramientas para cambiar o adaptarse a cambios que se puedan presentar. 

Controlado remotamente: Son los más implantados dentro de los drones civiles, son 

conocidos como drones de radiocontrol. La aeronave es pilotada directamente por un técnico 

mediante una emisora de radiofrecuencia[18]. 

1.2 Tipos de sensores utilizados en UAVs 

Los drones ejecutan su plan de vuelo gracias a múltiples sensores; cumplen la función de 

adquirir datos para que posteriormente puedan ser procesados y analizados con la ayuda de 

un software. Es importante esta parte del dron, aún más que el aparato de vuelo en sí; si lo 

que se quiere es recopilar información y monitorear cualquier cosa mediante percepción 

remota o teledetección; que te permite obtener información sin estar en contacto físico con 

lo que quieres captar[19]. 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
17 

Hay dos tipos de sensores; los sensores activos y los sensores pasivos; los primeros son los 

que generan la radiación que miden emitiendo un pulso y registrando el rebote[20]. Este tipo 

de sensor activo es especial para los levantamientos topográficos, y por su volumen y tamaño 

son equipos que utilizan las plataformas o drones grandes con fines comerciales[21]. 

Por otra parte; los sensores pasivos son aquellos que reflejan la radiación emitida desde el 

objeto, como ejemplo de estos sensores pasivos se pueden mencionar las cámaras 

fotográficas, video cámaras, cámaras infrarrojas, y cámaras térmicas. Son de tamaño 

reducido y consumen muy poca energía y estas las colocan en los drones pequeños de uso 

civil[22]. 

A continuación, se hará una breve de descripción de varios sensores de gran importancia y 

aplicabilidad incorporados a una gran cantidad de UAV: 

IMU externos: Los sensores IMU (Inertial Measurement Unit) miden la velocidad, la 

orientación y las fuerzas gravitacionales de los UAVs, gracias a sus acelerómetros y 

giróscopos. 

Altímetro: El altímetro es un sensor que contienen los drones, para regular automáticamente 

la altura del vuelo, lo que te permitirá realizar grabaciones con alturas estables; que no 

disminuyan ni aumenten durante la grabación; podrás con tu control de distancia, hacer 

avanzar a tu dron, hacerlo girar, e incluso retrocederlo a tu antojo; sin que este pierda la 

estabilidad y gracias al altímetro, mantendrá la altura del vuelo que escogiste para tu mejor 

toma fotográfica o filmográfica[23]. 

LIDAR: Los sensores LIDAR (Light Detection and Ranging) son un sistema que permite 

medir la distancia desde el emisor a un objeto utilizando un láser pulsado. Esta distancia se 

calcula mediante el retardo producido en los pulsos debido a la distancia. Estos sistemas 

permiten, por tanto, identificar posibles obstáculos y colisiones para permitir una navegación 

autónoma[24]. Los LIDAR tienen buena precisión en distancia y velocidad. El problema 

reside en el tiempo de barrido, ya que presenta un haz muy estrecho, y en la limitación de su 

desempeño en condiciones atmosféricas adversas como niebla o lluvia. 

Giroscopio: Otro sensor es el giroscopio, encargado de medir los ángulos de ubicación del 

dron; cuando este se encuentra en el aire, generalmente este sensor, se ubica en la misma 

unidad, en la que se encuentra el acelerómetro de tres ejes; así trabajan en conjunto, por una 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
18 

parte, el acelerómetro calculará la posición, mientras que, por otra parte, el giroscopio 

calculará el ángulo en el que se encuentra. 

Brújula: Muchos drones tienen una brújula electrónica, o magnetómetro independiente de la 

controladora de vuelo; alejada de la batería, de cables de distribución y de los reguladores de 

velocidad ESC, que causan interferencias molestas[25]. La corriente continua que va 

circulando por los cables de distribución, es tanta, que genera un gran campo magnético que 

puede dañar el magnetómetro, ocasionando un problema como desviación de la orientación 

o movimientos en espiral. Con esta brújula, (que, con el campo magnético de la tierra, más 

la información de declinación que proporciona el GPS) se sabrá siempre donde está el 

norte[26]. 

Sensores de GPS externo: Los sensores GPS también permiten medir la velocidad y la 

orientación y además de proporcionar la posición de la aeronave. La integración de un 

segundo receptor de GPS puede ser recomendable para sistemas redundantes o la integración 

de cálculo de orientación sin magnetómetro. 

Sensores de calidad del aire: Estos sensores facilitan medir si existen agentes contaminantes 

como partículas y gases nocivos perjudiciales. Se suelen emplear para crear informes 

medioambientales, detectar fugas de gases, etc. 

Sensores de nivel combustible: Conocer el nivel de combustible permite optimizar dicho 

recurso además de permitir evitar posibles accidentes o pérdida de los UAVs por una falta de 

combustible. 

Sensores de temperatura: Los sensores de temperatura integrados posibilitan añadir 

información para el control del vuelo, evitando congelaciones y detectando posibles 

sobrecalentamientos del motor o ciertos componentes. 

Sensores de lluvia: Los sensores de lluvia son de una gran utilidad, ya que facilitan adaptar 

las condiciones del vuelo a las condiciones meteorológicas[27]. Además, permite programar 

acciones automáticas como la vuelta a casa en caso de que la aeronave no se encuentre 

preparada para el vuelo con lluvia. 

Las cámaras es uno de los sensores más usados en UAV ya que estas pueden tener varias 

aplicaciones de gran ayuda tanto para el ser humano como para la naturaleza. Estas son de 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
19 

gran ayuda en la agricultura, al igual que otros sensores los cuales se mencionan a 

continuación. 

Cámara Parrot Sequoia+: es el sensor multiespectral más conocido en agricultura. Esta 

solución liviana, adaptable y valiosa tiene dos tipos de sensores al precio de uno: cuatro 

sensores multiespectrales de 1.2 MP con obturadores globales y RGB, más un sensor de luz 

solar[28]. 

Cámara MicaSense RedEdge: es un sensor multiespectral resistente y preciso para el análisis 

agrícola avanzado. Captura tanto las bandas espectrales requeridas para los índices de salud 

de los cultivos, así como una banda azul adicional para obtener un análisis profundo sobre 

cuestiones específicas[29]. 

Phantom 4 Multiespectral RTK: es el primer modelo de DJI pensado y diseñado teniendo en 

cuenta los requisitos del mercado de agricultura y mapeo brindando una solución compacta 

con una cámara multiespectral de 5 canales y RGB adicional con la capacidad de capturar 

datos RTK con precisión de centímetros[30]. 

Cámara multiespectral: La recolección de imágenes agrícolas ahora es más simple y más 

eficiente que nunca con un sistema de imágenes estabilizadas incorporado que recopila 

conjuntos de datos completos desde el primer momento. 

Sensor de luz solar espectral: Un sensor de luz solar espectral integrado en la parte superior 

del dron captura la irradiancia solar, lo que maximiza la precisión y la coherencia de la 

recopilación de datos en diferentes momentos del día[31]. Cuando se combina con datos 

procesados posteriormente, esta información ayuda a obtener los resultados NDVI más 

precisos. 

1.3 Política de seguridad. 

El uso cada vez mayor de drones ha implicado el análisis y discusión de diversas situaciones 

que pueden comprometer la seguridad e integridad de las personas, empresa y hasta de una 

nación. Pueden ser usados para el espionaje, para realizar sabotajes y varias acciones que 

atentan contra la seguridad nacional. Debido a su comercialización no controlada pueden ser 

adquiridos por personas o grupos de dudosa ética. Algunas personas pueden ser grabadas y 

fotografiadas de forma ilegal, tanto en espacios privados como públicos, constituyendo tal 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
20 

motivo una seria amenaza a la inviolabilidad de la privacidad personal. Además, en 

comparación con los aviones tripulados tradicionales, los drones suelen ser insuficientemente 

mantenidos y es más probable que se encuentren con errores de piloto. Como resultado, las 

operaciones de drones se enfrentan a mayores riesgos de seguridad. 

Debido a los nuevos avances en los UAV en julio de 2020 comenzó la elaboración de un 

nuevo Reglamento Europeo[32], el cual pretende estandarizar las diferentes normativas de 

los Estados miembros y regular el uso civil de los drones con independencia de su tamaño o 

peso. 

De esta forma, será posible ofrecer un marco regulador común que englobe la totalidad de 

los escenarios operacionales posibles, y que se ajuste a la realidad tecnológica actual. 

El nuevo reglamento europeo introduce, un concepto más amplio sobre las zonas geográficas 

donde se pueden, expresamente, permitir, restringir o excluir, las operaciones con drones[33]. 

Esto contribuye a controlar y evitar riesgos de seguridad pública, privacidad y protección de 

datos, y riesgos medioambientales. 

A partir de ahora, se establecen tres categorías operacionales diferentes, atendiendo al nivel 

de riesgo de la operación en sí misma. De este modo, la clasificación quedará de la siguiente 

manera: categoría abierta para operaciones de bajo riesgo; categoría específica para riesgo 

medio; y categoría certificada, para vuelos que presenten un nivel de riesgo alto[33]. 

1.3.1 Política de privacidad en Cuba 

El 24 de junio de 2021, Cuba aprobó por primera vez una regulación sobre drones, cuya 

fabricación, importación y uso se permiten desde este día solo con fines de aeromodelismo o 

trabajos aéreos específicos y siempre bajo la tutela de una entidad estatal. 

El boletín expone que solo los miembros del Club de Aviación de Cuba pueden practicar el 

aeromodelismo y que el trabajo aéreo consiste en la filmación de eventos, observación y 

patrulla, búsqueda y salvamento o inspección de aeródromos, entre otras actividades que 

deberán ser aprobadas por el grupo empresarial estatal GEOCUBA. 

De este modo, solo podrán usar drones en Cuba aquellos mayores de 18 años acreditados por 

la Autoridad Aeronáutica para la ejecución de vuelos de aeronaves no tripuladas en interés 

de trabajos aéreos y del aeromodelismo. 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
21 

Entre las múltiples restricciones está la de realizar el vuelo con fines de captación de 

imágenes para fotografía, filmación, grabación, u otras actividades similares sin el permiso 

establecido, y se contemplan multas y confiscación de los drones para los infractores. 

También se prohíbe volar aeronaves no tripuladas sobre concentraciones de personas, actos 

públicos y en horarios nocturnos sin autorización, en zonas militares, a menos de ocho 

kilómetros alrededor de los aeropuertos, pistas de aviación y otras áreas establecidas por las 

autoridades. 

1.4 Redes inalámbricas de sensores. 

Las redes inalámbricas de sensores (WSN, Wireless Sensor Networks) están formadas por 

dispositivos autónomos, distribuidos a lo largo de un área de interés y cuyo objetivo es 

monitorizar parámetros físicos o ambientales tales como temperatura, sonido, vibraciones, 

presión, movimiento o agentes contaminantes[34]. 

Una red de sensores está compuesta por un gran número de nodos sensores que están 

densamente desplegados dentro del fenómeno o cerca de él. La posición de los nodos 

sensores no necesita ser diseñada o predeterminada. 

Las WSN consisten en un conjunto de nodos de pequeño tamaño, de muy bajo consumo y 

capaces de una comunicación sin cables, interconectados entre sí a través de una red y, a su 

vez, conectados a un sistema central encargado de recopilar la información recogida por cada 

uno de los sensores[35]. 

Una WSN se caracteriza por dispositivos de tamaño pequeño, y por la capacidad de 

monitorizar fenómenos ambientales a través de un conjunto de sensores, así como de enviar 

los datos a través de transmisores/receptores. 

Sin embargo, en los últimos años las redes de sensores/actuadores inalámbricos (WSAN) han 

ganado una atención creciente, desde el punto de vista comercial y técnico, debido a su 

potencial para desarrollar nuevas y atractivas soluciones en áreas como la automatización 

industrial, eficiencia energética de edificios, monitorización ambiental, gestión automatizada 

del hogar, monitorización de señales corporales, entre muchas otras[36], [37]. 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
22 

Una WSAN es un sistema distribuido de nodos sensores/actuadores que están 

interconectados sobre enlaces inalámbricos. Los sensores recolectan información sobre el 

mundo físico y transmiten los datos coleccionados hacia los controladores/actuadores a 

través de comunicaciones single-hop o multi-hop. 

Las WSAN no son solo una mejora o un complemento de las redes de sensores inalámbricos 

(WSN). En las WSN el consumo de energía es generalmente la principal preocupación; sin 

embargo, este puede que no sea el caso en algunas WSANs donde cumplir con los requisitos 

de comunicaciones fiables de tiempo real sea más importante. 

1.4.1 Características de las redes de sensores inalámbricos. 

Variabilidad del canal: El canal de comunicaciones es muy variable, en el que existen una 

serie de fenómenos como pueden ser la atenuación, desvanecimientos rápidos, 

desvanecimientos lentos e interferencias, que puede producir errores en los datos. 

No se utiliza infraestructura de red: No tiene necesidad alguna de infraestructura para poder 

operar, ya que sus nodos pueden actuar de emisores, receptores o enrutadores de la 

información. Sin embargo, hay que destacar en el concepto de red sensora la figura del nodo 

dedicado a recolectar los datos y por el cual se recoge la información generada, normalmente 

en tiempo discreto. Esta información generalmente es adquirida por una computadora o 

microcontrolador conectado a este nodo y es sobre este que recae la posibilidad de transmitir 

los datos[38]. 

Tolerancia a errores: Un dispositivo sensor tiene que ser capaz de seguir funcionando a pesar 

de tener errores en el sistema propio. 

Comunicaciones multisalto o broadcast: En aplicaciones sensoras siempre es característico 

el uso de algún protocolo que permita comunicaciones multi hop, aunque también es muy 

común utilizar mensajería basada en broadcast. 

Consumo energético: Es uno de los factores más sensibles debido a que tienen que conjugar 

autonomía con capacidad de procesamiento, ya que actualmente cuentan con una unidad de 

energía limitada. Un nodo sensor tiene que contar con un procesador de consumo ultra bajo, 

así como de un módulo de radio con la misma característica, a esto hay que agregar un 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
23 

software que también conjugue todo lo anterior, haciendo el consumo aún más 

restrictivo[38]. 

Limitaciones de hardware: Para poder conseguir un consumo ajustado, se hace indispensable 

que el hardware sea lo más sencillo posible, así como su módulo de radio, esto nos deja una 

capacidad de procesamiento limitada. 

Costos de producción: Dada que la naturaleza de una red de sensores tiene que ser en número 

muy elevada, para poder obtener datos con fiabilidad, los nodos sensores una vez definida su 

aplicación, son económicos de hacer si son fabricados en grandes cantidades[39]. 

1.4.2 Protocolos utilizados en redes de sensores inalámbricos. 

Los sistemas Bluetooth y Wi-Fi (IEEE 802.11) son dos opciones muy populares y 

comercialmente disponibles cuya utilización en redes inalámbricas de sensores ha sido 

evaluada[40]. Sin embargo, estos tienen algunos inconvenientes. 

En el caso de Bluetooth se puede mencionar: 

• la necesidad de tener un nodo maestro constantemente, con el costo de interrogar sus 

esclavos. 

• la cantidad limitada de esclavos por Picored que soporta.  

• para el caso de redes de sensores densas, se necesitará un número enorme de nodos 

maestros. 

• un esclavo activo debe permanecer siempre encendido, ya que no puede predecir 

cuándo será interrogado por el maestro. 

• un esclavo pasivo debe postularse con el maestro para cambiar a activo, y si ya hay 

siete nodos activos, será rechazado. 

• se requiere que cada nodo pueda asumir el rol de maestro o esclavo, agregando una 

complejidad considerable. 

• los rápidos saltos de frecuencia requieren una sincronización estricta entre los nodos 

de la picoreds. 

 
CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
24 

En el caso de Wi-Fi en el estándar IEEE 802.11: 

• requiere que los nodos estén permanentemente escuchando el medio, ya que podrán 

tener que recibir un frame en cualquier momento. 

• los nodos deben sobre-escuchar paquetes RTS y CTS para ajustar sus temporizadores 

NAV adecuadamente. 

• si bien se proveen algunas funcionalidades de ahorro de energía, en general está 

orientado a altas tasas transmisión, y los transceptores disponibles requieren una cantidad de 

energía que es órdenes de magnitud mayores que lo aceptable en aplicaciones de redes de 

sensores. 

• es un protocolo de salto-único para redes ad-hoc, cuando lo común en redes de sensores 

es el encaminamiento de salto-múltiple. 

Estándar IEEE 802.15.4   

IEEE 802.15.4 es un estándar que define el nivel físico y el control de acceso al medio de 

redes inalámbricas de área personal con tasas bajas de transmisión de datos. La actual 

revisión del estándar se aprobó en 2006 y el grupo de trabajo IEEE 802.15 es el responsable 

de su desarrollo[38]. 

Ventajas: 

• Ideal para conexiones punto a punto y punto a multipunto. 

• Fue creado para el direccionamiento de información y el refrescamiento de la red. 

• Opera en la banda libre de ISM 2.4 GHz para conexiones inalámbricas. 

• Es óptimo para redes de bajas tasas de transferencias de datos y rebaja tiempo de espera 

en el envío y recepción de paquetes. 

• Proporciona larga duración de la batería. 

• Presenta soporte para varias topologías de red y permite hasta 65000 nodos en una red. 

• Provee conexiones seguras entre dispositivos. 

Desventajas: 

• La tasa de transferencia es muy baja. 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
25 

• Manipula solo textos pequeños comparado con otras tecnologías. 

• Trabaja de modo que no puede ser compatible con bluetooth en todos sus aspectos 

porque no llegan a tener las mismas tasas de transferencias, ni la misma capacidad de soporte 

para nodos. 

• Posee menor cobertura porque pertenece a redes inalámbricas de tipo área personal. 

Este estándar es la base sobre la que se define la especificación de Zigbee, cuyo propósito es 

ofrecer una solución completa para este tipo de redes, construyendo los niveles superiores de 

la pila de protocolos que el estándar no cubre. 

1.4.3 Aplicaciones de los UAVs en redes de sensores inalámbricos. 

Medio Ambiente: Monitorizar especies en extinción, detectar y prevenir incendios forestales, 

además en ciudades se monitoriza los niveles de contaminación de la atmósfera y recogen 

datos sobre el clima, con el fin de mantener un desarrollo sostenible. 

Salud: Seguimiento a pacientes, monitorizar deportistas en el terreno de juego para evaluar 

su desempeño. 

Automatización industrial: Las aplicaciones de automatización industrial proporcionan un 

control, conservación, eficiencia y seguridad, de la siguiente manera: reduciendo los gastos 

de energía a través de los procesos de fabricación optimizados; utilizando aplicaciones de 

detección que ayuden a identificar un funcionamiento ineficiente o equipos de bajo 

rendimiento; automatizando la adquisición de datos de sensores remotos para reducir la 

intervención del usuario; desplegando redes de vigilancia para mejorar la seguridad pública 

y de los empleados. Durante este despliegue se tiene que tener en cuenta la red de 

comunicaciones ya existente y lograr integrar la nueva propuesta a la ya existente[41]. 

Automatización de edificios: es posible controlar el consumo de energía de un hotel, un 

parámetro importante, debido a que la energía es un gasto operativo importante para un hotel; 

para garantizarlo se desarrolla un sistema de gestión centralizado que permita a los 

operadores de los hoteles asegurarse de que las habitaciones vacías no se enfríen. Desplegar 

redes de monitoreo inalámbrico para mejorar la protección del perímetro. 


CAPÍTULO 1. VEHICULOS AEREOS NO TRIPULADOS   

 
26 

Domótica: Automatizar tareas cotidianas en el hogar y tener controlado un hogar mediante 

sensores; proporcionando un ahorro energético, garantizando la seguridad y el bienestar 

dentro del hogar[41]. 

Las aplicaciones de control para el hogar proporcionan el control, la conservación, la 

comodidad y la seguridad mediante una gestión flexible de la iluminación, calefacción y 

sistemas de refrigeración desde cualquier lugar en el hogar; automatizando el control de 

varios sistemas domésticos; captura de datos muy detallados como consumo de agua y de 

servicios públicos como gas y electricidad. 

Agricultura: En el caso de la agricultura de precisión mediante drones, existe un amplio 

número de variables distintas a medir (espectro visible, multiespectrales, LIDAR, Térmico, 

etc.)[42]. Aun siendo datos muy distintos, su tratamiento tiene algunos puntos en común. Es 

decir, una vez que se extraen los datos y se realiza el pretratamiento de los mismos, hay que 

combinar las distintas bandas del espectro para realizar el cálculo de índices de vegetación. 

Cada índice es específico para cada variable que buscamos medir en nuestro campo 

(fertilidad, malas hierbas, estrés hídrico, enfermedades, etc.). 

1.5 Conclusiones del capítulo. 

La tecnología actual ha avanzado a tal extremo que no es necesario preocuparse por esta sino 

por las aplicaciones que debemos darle. En este capítulo se estudió la evolución los UAV, 

así como sus características y distintas clasificaciones. También vimos las diversas 

aplicaciones de los UAV desde su uso recreativo hasta su gran impacto en el avance 

tecnológico de nuestra sociedad. Dentro de estas aplicaciones nos enfocaremos en la 

implantación de redes inalámbricas de sensores, donde son de mejor utilidad los drones de 

ala rotatoria, principalmente los cuadricópteros.


CAPÍTULO 2. APRENDIZAJE POR REFUERZO 

 
27 

CAPÍTULO 2. APRENDIZAJE POR REFUERZO. 

En este capítulo se estudiará las características y especificaciones de los algoritmos de 

Aprendizaje por refuerzo (Reinforcement Learning), marcando pauta en el algoritmo Q-

Learning. Además del estudio de un modelo matemático para el consumo energético de los 

UAV. 

2.1 Aprendizaje por refuerzo. 

El aprendizaje por refuerzo (Reinforcement Learning) es un área del aprendizaje automático 

inspirada en la psicología conductista, cuya ocupación es determinar qué acciones debe 

escoger un agente en un entorno dado con el fin de maximizar alguna noción de 

"recompensa" o premio acumulado[43]. Este intenta conseguir que una inteligencia artificial 

aprenda a decidir mediante su propia experiencia. Es decir que, ante una situación 

determinada, sea capaz de seleccionar por sí misma la mejor acción a ejecutar en ese 

momento mediante un proceso interactivo de prueba y error a base de reforzar positivamente 

cada vez que se aproxima o logra objetivo[44]. 

Por eso, con el aprendizaje por reforzado una máquina puede tomar decisiones, aunque no 

almacene un conocimiento a priori del entorno o de las variables que se están dando, y 

realizar de manera satisfactoria cuestiones abstractas más avanzadas. 

2.1.1 Elementos que caracterizan el aprendizaje por refuerzo 

Se pueden enmarcar seis componentes principales del sistema de aprendizaje por refuerzo: 

Agente: Es el sujeto del aprendizaje por refuerzo. Su funcionamiento consiste en leer el 

estado del entorno, realizar acciones sobre el entorno y leer las recompensas que producen 

estas acciones[45]. 


CAPÍTULO 2. APRENDIZAJE POR REFUERZO 

 
28 

Entorno: Es el objeto sobre el que opera el agente. El entorno recibe las acciones del agente 

y evoluciona. Su comportamiento suele ser desconocido y estocástico. Es el responsable de 

generar las recompensas asociadas a las acciones y cambios de estado[45]. 

Política: Define el comportamiento del agente. Puede verse como un mapeo de estado a 

acción, es decir, establece las reglas de asociación entre el estado del entorno y la acción a 

tomar. Puede ser estocástica[45]. 

Función de refuerzo: Establece la recompensa a generar en función del estado del entorno y 

la acción realizada sobre él. Puede ser estocástica. El objetivo del aprendizaje por refuerzo 

es maximizar la recompensa total obtenida a largo plazo[46]. 

Función de evaluación (función de valor): refleja una estimación de la recompensa que se va 

a recibir a partiendo de un cierto estado y siguiendo una cierta política. Esta función sirve de 

base para escoger la acción a realizar (aquella que conduzca al estado con mayor valor). El 

objetivo de los algoritmos de aprendizaje por refuerzo es construir esta función[46]. 

Modelo del entorno: permite predecir el comportamiento del entorno infiriendo la forma en 

que este afecta al agente y aprovechar esta información para resolver el problema. Los 

métodos que usan modelos para resolver problemas de aprendizaje por refuerzo son llamados 

métodos con modelo, a diferencia de los métodos libre de modelo que son básicamente 

modelos de aprendizaje de prueba y error[4]. 

2.1.2 Interfaz entorno – agente 

El proceso de interacción entre el agente y el entorno en el aprendizaje por refuerzo puede 

ser definido como el proceso de toma de decisión de Márkov. El agente interactúa con su 

entorno en una serie de estados. Debido a esto se define un paso en el tiempo en el estado del 

entorno como t, así como St ϵ S= {s0, s1, …sn-1}. La acción tomada por el agente en un tiempo 

t se definirá como At ϵ A= {a0, a1, …am-1}. Por tanto, en cualquiera de los pasos en el tiempo 

t y en cualquiera de los siguientes pasos en el tiempo t, el agente interactúa con el entorno de 

la siguiente manera[47]: 

1. El agente observa el entorno y obtiene el estado St. 

2. El agente decide tomar una acción At basada en la política actual acorde a St. 


CAPÍTULO 2. APRENDIZAJE POR REFUERZO 

 
29 

3. Después del paso en el tiempo de St, el agente obtiene la recompensa esperada del 

entorno Rt+1 y observa el nuevo estado del entorno St+1. 

Luego se define una recompensa inmediata Rt+1 en el tiempo t+1, para reflejar que Rt+1 y 

St+1 son determinadas por el estado St y la acción At en el tiempo t. Según con las 

propiedades del proceso finito de Márkov, el estado del entorno y la recompensa inmediata 

del siguiente paso en el tiempo t+1, depende solo del estado del entorno y la acción del agente 

en el tiempo t. Por tanto, se puede definir la dinámica del entorno como la siguiente 

distribución probabilística discreta: 

𝑝 (𝑠′, 𝑟|𝑠, 𝑎) = Pr [𝑆𝑡+1=𝑆′, 𝑅𝑡+1=𝑟|𝑆𝑡=𝑠, 𝐴𝑡=𝑎] (2.1) 

Se debe tener en cuenta que s’ ϵ S, r ϵ R, s ϵ S y a ϵ A representan los posibles valores 

aleatorios para sus correspondientes variables. Intuitivamente en el problema de toma de 

decisiones secuenciales del aprendizaje por refuerzo, las acciones tomadas por el agente en 

un determinado paso en el tiempo no solo afectarán la recompensa inmediata 

correspondiente, el cambio en el entorno en consecuencia y las futuras recompensas también 

estarán influenciadas por esta. Cuando se define el estado se supone que este es la sumatoria 

de toda la información útil que se ha acumulado a lo largo del tiempo de aprendizaje hasta el 

momento. Una vez que el agente obtiene el actual estado puede ignorar la historia previa a 

este. Por tanto, siempre y cuando la definición del estado sea razonable se puede modelar el 

problema del aprendizaje por refuerzo en un proceso de decisión de Márkov. Como es 

conocido el objetivo del agente es elevar la recompensa final[48]. 

2.1.3 Función de valor 

La función de valor es uno de los conceptos más importantes en la mayoría de los algoritmos 

de aprendizaje por refuerzo. Existen dos tipos de función de valor: 

La función de valor de estado es el resultado aleatorio que se puede obtener de un estado s 

siguiendo una determinada política π. 

La función de valor de acción es el resultado aleatorio que se puede obtener partiendo de un 

estado s, tomando una acción a, y siguiendo una política π. 

Considerando la política estocástica generalizada como π(a|s): probabilidad de tomar la 

acción a bajo el estado s, la cual satisface que Σa𝜋(𝑎|𝑠) =1. La función de valor de estado y 


CAPÍTULO 2. APRENDIZAJE POR REFUERZO 

 
30 

la función de valor de acción para una política π, pueden ser definidas como Vπ(s) y Qπ(s, a) 

respectivamente[48]. 

𝑉𝜋(𝑠)=𝔼 [∑ 𝛾𝑘∞
𝑘=0 𝑅𝑡+𝑘+1 ∨ 𝑆𝑡 = 𝑠] (2.2) 

𝑄𝜋 (𝑠, 𝑎) = 𝔼π [∑ 𝛾𝑘∞
𝑘=0 𝑅𝑡+𝑘+1 ∨ 𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎] (2.3) 

Donde 𝔼π […] representa la respuesta aleatoria esperada bajo la política π. 

En el proceso de decisión de Márkov cuando el agente es totalmente consciente de la 

dinámica de su entorno, o sea, la probabilidad de transición p (s’, r | s, a) es conocida por el 

agente, el problema de la toma secuencial de decisiones puede ser directamente resuelto con 

las iteraciones de las ecuaciones del Bellman[49] y calcular con exactitud el valor de estado 

y valor de acción. 

Una vez identificada la dinámica del entorno en que se encuentra el agente; en el momento 

de tratar de resolver con una política óptima el proceso de decisión de Márkov, se convierte 

en un problema de programación dinámica. Donde, si Vπ(s) ≥ Vπ’(s) para todos los estados 

de s ϵ S, se define que la política π es mejor que la política π’[49]. De acuerdo con la teoría 

de la programación dinámica, existe al menos una política óptima 𝜋∗, la cual tiene un óptimo 

valor de función de estado 𝑉∗(𝑠) y un óptimo valor de función de acción 𝑄∗ (𝑠, 𝑎). 

Pero en el mundo real el entorno dinámico p (s’, r| s, a) no es conocido por el agente, y se 

dificulta introducir directamente las ecuaciones de Bellman para resolver la política óptima. 

Por tanto, el agente necesita obtener una estimación lo más acertadamente posible de los 

valores de función, bajo condiciones de limitado poder computacional y escasos recursos de 

programación. 

En respuesta a esto se utiliza un modelo de aprendizaje por refuerzo con una estructura libre, 

en el cual el agente solo necesita confiar en la experiencia obtenida por la interacción con su 

entorno para aprender la política óptima, sin conocer la dinámica de su entorno. 

2.2 Métodos Libres de Modelos 

Cuando el entorno no es conocido por el agente o este posee muy poca información de él, es 

necesario estimar los valores de las funciones de acción y de estado. 


CAPÍTULO 2. APRENDIZAJE POR REFUERZO 

 
31 

Tomando como ejemplo una serie de resultados de la estimación del valor de la función de 

acción de las ecuaciones de Bellman[49], se supone que habrá un conjunto de resultados G1, 

G2, …, Gk, los cuales son obtenidos siguiendo la política π después de haber tomado la misma 

acción a en el mismo estado s. En consecuencia, se puede obtener el estimado del valor de la 

función de acción: 

𝑄𝜋 (𝑠, 𝑎) ≈𝑄𝑘 (𝑠, 𝑎) = 
1

𝑘
∑ 𝐺𝑗
𝑘
𝑗=1  (2.4) 

Luego en (2.4) se escribe en una forma incremental de (k ≥ 2): 

𝑄𝑘 (𝑠, 𝑎) = 𝑄𝑘−1(𝑠, 𝑎) + 
1

𝑘
[𝐺𝑘−𝑄𝑘−1(𝑠, 𝑎)] (2.5) 

Cuando se obtienen k-enésima muestras Gk, se puede adoptar el estimado Qk-1(s, a) de la 

iteración anterior para calcular el incremento Gk -Qk-1(s, a) y actualizar el estimado de k-

enésima iteración Qk (s, a). 

Similarmente la función de estado se puede expresar así: 

𝑉𝑘 = 𝑉𝑘−1(𝑠) + 
1

𝑘
[𝐺𝑘−𝑉𝑘−1(𝑠)] (2.6) 

En (2.6) Gk es una muestra tras seguir la política π en el mismo estado s. Por tanto, siempre 

que una nueva muestra sea obtenida, se podrá realizar una nueva iteración para actualizar la 

estimación de la función de valor. Normalmente el tamaño del paso 1/k se establece en un 

valor positivo pequeño fijo α, que también se denomina tasa de aprendizaje. A medida que 

el número de muestras se incrementa el estimado de la función de valor se vuelve más exacto. 

 
2.2.1 Aprendizaje por Diferencia Temporal 

El aprendizaje por Diferencia Temporal (DT) no requiere tener un modelo del ambiente. 

Como cualquier método libre de modelo aprende sus valores de función directamente de su 

experiencia para obtener una política óptima. Sin embargo, se caracteriza por la singularidad 

de ser un método paso a paso, usando el error o diferencia entre predicciones sucesivas (en 

lugar del error entre la predicción y la salida final) aprendiendo al existir cambios entre 

predicciones sucesivas. Es un método incremental y por lo tanto fácil de computar. Converge 

más rápido con mejores predicciones. No requiere tener un modelo del ambiente. 


CAPÍTULO 2. APRENDIZAJE POR REFUERZO 

 
32 

El aprendizaje DT es esencialmente una forma recursiva de las ecuaciones de Bellman. Las 

cuales pueden ser expresadas: 

𝑉𝜋=𝔼𝜋[𝑅𝑡+1+𝛾𝑉𝜋(𝑆𝑡+1) |𝑆𝑡=𝑠] (2.7) 

𝑄𝜋(𝑠)=𝔼𝜋[𝑅𝑡+1+𝛾𝑉𝜋(𝑆𝑡+1) | 𝑆𝑡=𝑠, 𝐴𝑡=𝑎] (2.8) 

Si se considera la estimación del valor de la función de estado, se puede elegir muestrear 

Rt+1+γVπ(St+1) para calcular la media muestral y, por tanto, obtener una estimación imparcial 

de Vπ(s). Óptimamente, solo se necesita realizar el muestreo y observación del siguiente paso 

en el tiempo, y este puede ser usado para la inmediata actualización estimada. Sin embargo, 

en un problema de aprendizaje por refuerzo real, el verdadero valor de la función de valor es 

desconocido. Aunque se puede directamente muestrear Rt+1 y St+1, no se puede calcular 

Vπ(St+1), por lo tanto, no se puede determinar la muestra del objetivo de actualización 

Rt+1+γVπ(St+1) en el actual cálculo. 

Para asegurar la actualización paso a paso actual, es necesario introducir algún sesgo. En 

general, aprendizaje DT establece el objetivo de actualización en función del valor estimado 

obtenido, es decir, Rt+1+γV(St+1) es el objetivo de actualización para estimar el valor de la 

función de estado. Esta es la muestra direccionada de Vπ(s), y su sesgo es introducido al 

estimar V(St+1). Este método es llamado bootstrapping. Por lo tanto, se puede obtener la 

estimación de la actualización del valor de la función de estado en el paso en el tiempo t 

como: 

𝑉𝑡+1(𝑆𝑡)=𝑉𝑡(𝑆𝑡)+𝛼 [ 𝑅𝑡+1 + 𝛾𝑉𝑡 (𝑆𝑡+1 − 𝑉𝑡(𝑆𝑡))] (2.9) 

Donde Vt representa la estimación anterior del valor de la función de estado para el paso en 

el tiempo t, Vt+1 es la estimación posterior para el valor de la función de estado y α es la taza 

de aprendizaje. Cada actualización solo necesita muestrear la recompensa inmediata Rt+1 y 

el paso sucesivo a el estado St+1. El objetivo de actualización DT Rt+1+γVt (St+1) es construido 

en el paso en el tiempo t+1 y sesga la actualización de la estimación del valor de la función 

de estado. Es válido mencionar que cuando se selecciona una taza de aprendizaje razonable, 

Vt(s) se acercará al valor verdadero, es decir, Vt(s)→Vπ(s), ya que el tiempo t tiende a 

infinito. 


CAPÍTULO 2. APRENDIZAJE POR REFUERZO 

 
33 

2.3 Procesos de decisión de Márkov y su relación con el aprendizaje por refuerzo. 

Los procesos de decisión de Márkov (PDM) son una herramienta para modelar problemas de 

marcado de decisiones secuenciales, en los que un tomador de decisiones interactúa con un 

sistema de forma secuencial[50]. Los PDM constan de estados, acciones, transiciones entre 

estados y una función de recompensa. Un PDM es una tupla ⟨S, A, T, R⟩ en donde S es un 

conjunto finito de estados, A es un conjunto finito de acciones, T es una función de transición 

definida como T ∶ S × A × S → [0, 1] (∑ 𝑇(𝑠, 𝑎, 𝑠′)𝑠′∈𝑆 =1), y R es una función de recompensa 

definida como R ∶ S × A × S → R[51]. 

Para discutir el orden en que ocurren las acciones, definiremos un reloj global discreto, t. El 

sistema que se controla es markoviano si el resultado de una acción no depende de resultado 

de una acción no depende de las acciones anteriores ni de los estados visitados(historia), sino 

que sólo depende del estado actual[51]: 

P (st+1 = s′| at = a, st = s) = T (s, a, s′) (2.10) 

2.3.1 Juegos de Márkov totalmente cooperativos. 

Los juegos de Márkov o juegos estocásticos son la base de gran parte de la investigación en 

MARL. Los juegos de Márkov son un superconjunto de PDM y juegos matriciales que 

incluyen múltiples agentes y múltiples estados[52]. 

 
Figura 2.1: Marco MARL para redes multidrones.[53] 

Un juego de Márkov[54] se define como una tupla ⟨j, S, A1, ..., Aj, T, R1..., Rj⟩ donde: 

• j es el número de agentes; 

• S es el conjunto finito de estados; 


CAPÍTULO 2. APRENDIZAJE POR REFUERZO 

 
34 

• Aj es el conjunto de acciones disponibles para el agente j (y a = a1 x…x aj el conjunto 

de acciones conjuntas); 

• T ∶ S × A × S → [0; 1] es la función de transición tal que ∀s ∈ S, ∀a ∈ A, ∑ 𝑇𝑠′∈𝑆 (s, 

a, s′) = 1; 

• Ri ∶ S × A → R es la función de recompensa para el agente i. 

La figura 2.1 describe cómo puede funcionar un marco de aprendizaje por refuerzo 

multiagente, en el que los agentes recogen información localmente sobre el entorno, dado 

por el estado actual y la recompensa en el paso de tiempo t, y deciden independientemente 

sus propias acciones (an) basadas en sus propias tablas Q. Después, las acciones se combinan 

en una única acción conjunta, que se evalúa en el entorno, lo que da lugar a nuevos estados 

y recompensas y repite el ciclo. 

Las funciones de transición y recompensa dependen de la acción conjunta. La función de 

transición T da la probabilidad de que la acción a en el estado s en el paso de tiempo t 

conduzca al estado s′ en el paso t+1[54]: 

P (St+1 = s′| at = a, st = s) = T (s, a, s′). (2.11) 

Se supone que las funciones de transición y recompensa son desconocidas para el agente, 

pero estas se descubren al interactuar con el entorno[55]. Utilizamos cooperativo para 

referirnos a la configuración en la que todos los agentes obtienen la misma recompensa, 

elaborando una recompensa de equipo[55]. Cuando el juego es estocástico el problema es 

distinguir entre las diferentes fuentes que provocan la variación en las recompensas 

observadas. La variación puede deberse al ruido en el entorno o al comportamiento de los 

otros agentes[52]. 

2.3.2 Q-Learning descentralizado 

El Q-Learning es probablemente el algoritmo más utilizado en el marco del agente único por 

su simplicidad y robustez[52], y también fue uno de los primeros algoritmos de RL aplicados 

a entornos multiagente[55]. Hoy en día, se han propuesto diferentes variantes del algoritmo 

de Q-Learning para entornos multiagente. En el Q-Learning descentralizado, no se abordan 

explícitamente los problemas de coordinación. Sin embargo, se ha implementado con éxito 

en algunas aplicaciones[52]. 


CAPÍTULO 2. APRENDIZAJE POR REFUERZO 

 
35 

En el Q-Learning descentralizado, la tabla Qj del agente j define el valor de un estado, st, en 

el momento t, para seleccionar la acción 𝑎𝑡
𝑗
y rt+1 es la recompensa recibida[52]. La ecuación 

de actualización para el agente j es: 

Qj (st, 𝑎𝑡
𝑗
) ← Qj (st,𝑎𝑡

𝑗
) + 𝜆 [rt+1 + 𝜙maxa Q

j
 (st+1, a) – Q (st, 𝑎𝑡

𝑗
)], (2.12) 

donde 𝜆 es la tasa de aprendizaje, que dicta lo rápido que aprende un agente, y 𝜙 es el factor 

de descuento. 

Los siguientes son los parámetros para el algoritmo de aprendizaje Q descentralizado: 

• Agentes: Cada dron es un agente independiente y tiene una tabla Q individual. 

• Estados: Los estados están formados por tres componentes, la posición 3D del dron, 

su estado de transmisión (un valor binario que indica si el radiotransmisor del dron 

está "encendido" o "apagado"), más la frecuencia de transmisión (s = [x, y, z, statustx, 

ftx]). En el caso de este trabajo el radiotransmisor siempre estará encendido y se 

transmite con frecuencia única. 

• Acciones: Cada dron puede seleccionar una acción del conjunto de acciones 

disponibles, el espacio de acciones. 

• Recompensa: Se puede calcular empleando la siguiente ecuación, 

 𝑅 = 𝑈 +
𝑊𝑡−𝑊𝑚𝑖𝑛

𝑊𝑚𝑖𝑛
 (2.13) 

donde U es el número de dispositivos IoT conectados del conjunto de dispositivos IoT, Wt es 

el dispositivo IoT de peor tasa de transmisión del conjunto de dispositivos IoT y Wmin es la 

tasa de transmisión calculada para el valor de umbral de conexión de los dispositivos IoT. Se 

supone que los drones tienen acceso al total de número de usuarios conectados a otros UAV 

a través de una entidad central. Obsérvese que los drones deben tener una conexión de retorno 

a la red central, y que la entidad central está en la red central. Se supone que el backhaul es 

ideal[56]. 

• Política: Cada dron selecciona una acción de acuerdo con una política 𝜖-greedy[49], 

que puede expresarse como: 


CAPÍTULO 2. APRENDIZAJE POR REFUERZO 

 
36 

𝑎𝑗 {
𝜏, 𝑠𝑖𝑟𝑎𝑛𝑑(0,1) < 𝜖

𝑎𝑟𝑔𝑚𝑎𝑥
𝑎∈𝐴

𝑄(𝑆𝑡+1, 𝑎), 𝑠𝑖𝑟𝑎𝑛𝑑(0,1) ≥ 𝜖  (2.14) 

donde 𝜏 es una acción seleccionada al azar, y rand (0,1) denota un número aleatorio número 

utilizando una distribución uniforme sobre el intervalo [0, 1]. 

• Actualización: Cada dron actualiza su tabla Q utilizando (2.12). 

• Inicio: Todos los drones se inicializan en posiciones determinadas. 

• Episodio: Las interacciones agente-entorno se dividen en episodios. Un episodio 

puede ser descrito como una instantánea de la red. En cada episodio, los drones toman 

mediciones basadas en su estado actual y evalúan su recompensa. Este proceso se 

repite a lo largo de un número de iteraciones hasta que se cumple uno de los criterios 

de parada. Al final de un episodio, los drones pasan al mejor estado de recompensa. 

• Criterios de parada: Se proponen tres criterios de parada: 

1. Los drones han alcanzado el número máximo de iteraciones para ese episodio 

(ITmax). 

2. La recompensa no ha mejorado después de un número de iteraciones (ITRmax). 

3. La recompensa ha alcanzado su valor máximo (Rmax). Los drones han 

asociado el máximo número de dispositivos IoT. 

2.4 Modelo de Consumo Energético. 

Una de las características técnicas que impiden el uso de drones de manera prolongada es la 

gestión de la energía que les proporciona la batería que integra. A continuación, se describe 

un modelo matemático para el consumo energético de un dron, donde se utilizan ecuaciones 

sacadas de [57].  

La potencia de movilidad es el consumo energético de un dron mientras está desplazándose, 

es importante destacar que en cada ecuación se tendrá en cuenta la cantidad de rotores. 

La potencia consumida por movimiento horizontal se calcula usando la siguiente ecuación: 

Ph = Pp + PI (2.15) 


CAPÍTULO 2. APRENDIZAJE POR REFUERZO 

 
37 

donde, 

Pp = 
1

2
ρCDoSvh

3 + 
𝜋

4
RNbρcbCDow

3β4[1+3(
𝑉ℎ

𝑤𝛽
2] (2.16), los parámetros de esta ecuación son 

sacados de la tabla ubicada en el anexo3. 

y 

PI = 
𝑇

𝑅
√𝜆−𝑉ℎ

2

2
  (2.17), 

λ= √𝑉ℎ
4 + (

𝑇

𝑅𝜋𝜌𝛽2
)
2

  (2.18) 

Por otra parte, la potencia consumida cuando asciende el dron, la podemos calcular 

empleando la siguiente ecuación: 

Pα = 
𝑇

2𝑅
𝑉𝑎 + 

𝑇

2𝑅
√𝑉𝛼2 +

2𝑇

𝑅𝜋𝜌𝛽2
  (2.19) 

Mientras que la potencia consumida cuando desciende se puede calcular empleando la 

siguiente ecuación: 

Pd = 
𝑇

2𝑅
𝑉𝑑 - 

𝑇

2𝑅
√𝑉𝑑

2 −
2𝑇

𝑅𝜋𝜌𝛽2
  (2.20) 

Para esta última ecuación se debe cumplir el siguiente requisito: 

𝑉𝑑

2𝑉ℎ𝑜𝑣𝑒𝑟
≥ 1 (2.21) 

Como mínimo la velocidad de descenso debe ser igual o mayor a 2 veces la velocidad de 

hovering. Donde la velocidad de hovering la calculamos así: 

𝑉ℎ𝑜𝑣𝑒𝑟 = √
𝑇

2𝜌𝜋𝛽2𝑅
 (2.22)  

La potencia estática es el consumo energético de un dron mientras está flotando sin 

desplazarse. El único cambio con respecto a la potencia de movilidad reside en como calcular 

la potencia de hovering. 

Phover = T𝑉ℎ𝑜𝑣𝑒𝑟 (2.23) 


CAPÍTULO 2. APRENDIZAJE POR REFUERZO 

 
38 

es decir, la potencia es fuerza por velocidad. Por tanto, sustituyendo la ecuación 2.22 en 2.23 

incorporando la cantidad de rotores obtenemos la siguiente ecuación: 

Ph =
𝑇

𝑅
√

𝑇

2𝜌𝜋𝛽2𝑅
 (2.24) 

realizando un ajuste matemático obtenemos la siguiente ecuación: 

Phover = √
𝑇3

2𝜌𝜋𝛽2𝑅3
 (2.25). 

En la Figuras 2.2 y la Figura 2.3 se observan los resultados de emplear este modelo 

matemático para el consumo energético de un dron.  En la Figura 2.2 se muestra el consumo 

de potencia para cada tipo de acción en dependencia del número de rotores que dispone el 

dron suponiendo que el dron se desplaza a una velocidad de 10 m/s. La Figura 2.3 muestra 

el cambio en el consumo de potencia para cada tipo de movimiento en dependencia de la 

velocidad, cuando el dron posee 4 rotores. Nótese como en la Figura 2.3 el consumo de 

Potencia Total va en ascenso, luego cae y vuelve a ascender; ese fenómeno está asociado a 

la condición para descender expresada en la ecuación 2.21. Pues es el momento donde el 

dron tiene mayor velocidad que la velocidad de hovering, por tanto, la potencia necesaria 

para descender va disminuyendo con la velocidad hasta llegar a valores asintóticos. 

 
CAPÍTULO 2. APRENDIZAJE POR REFUERZO 

 
39 

Figura 2.2: Rotores vs. Potencia 

 
Figura 2.3: Velocidad vs. Potencia 

2.5 Conclusiones del capítulo. 

En este capítulo, se realizó un análisis de las principales características de los algoritmos de 

aprendizaje por refuerzo. Además, se explicaron los fundamentos del algoritmo Q-Learning 

descentralizado y sus bondades para su despliegue en configuraciones multiagentes. También 

se describió un modelo matemático para el consumo energético de un dron donde se 

evidencia que un dron necesita más energía para mantenerse en una posición estática que 

para desplazarse de forma horizontal, mientras que la mayor potencia consumida es cuando 

se realiza un movimiento de ascenso. Es importante destacar que a medida que aumenta el 

número de rotores en un dron la potencia consumida para cada tipo de movimiento es menos.


CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 

 
40 

 
CAPÍTULO 3. SIMULACIÓN Y RESUTADOS. 

En este capítulo se implementará un entorno de software para las simulaciones donde aplicar 

las variantes de los algoritmos Q-Learning, utilizando como lenguaje de programación el 

Python. Se realizará la modelación de un canal de comunicación, analizando además la 

conexión de los dispositivos IoT. Por último, se analizará cuál de los resultados de los 

algoritmos será más óptimo a los requerimientos deseados.   

3.1 Canal de Comunicación 

La propagación de la señal inalámbrica se ve afectada por el medio entre el transmisor y el 

receptor. Las características del canal Aire a Tierra (AaT) difieren significativamente de los 

canales clásicos de comunicación terrestre que, a su vez, pueden determinar el rendimiento 

de las comunicaciones inalámbricas basadas en VAnT en términos de cobertura y capacidad. 

Además, en comparación con los enlaces de comunicación Aire a Aire (AaA) que 

experimentan LoS (Line of Sight) dominante, los canales AaT son más susceptibles al 

bloqueo. Claramente, el diseño y el despliegue óptimos de los sistemas de comunicación 

basados en VAnT requieren el uso de un modelo de canal AaT preciso. Si bien la técnica de 

trazado de rayos es un enfoque razonable para el modelado de canales, carece de suficiente 

precisión, especialmente en operaciones de baja frecuencia.  

Un modelado de canal AaT preciso es importante especialmente cuando se utilizan VAnT en 

aplicaciones como la mejora de la cobertura. En particular, cualquier movimiento o vibración 

por parte de los VAnT puede afectar las características del canal. Además, el canal AaT 

depende en gran medida de la altitud y el tipo del VAnT, el ángulo de elevación y el tipo del 

entorno de propagación. Por lo tanto, encontrar un modelo de canal genérico para las 


CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 

 
41 

comunicaciones VAnT-a-tierra necesita soluciones y mediciones integrales en diversos 

entornos. Además, los efectos de la altitud de un VAnT, los movimientos de las antenas y el 

sombreado causados por el cuerpo del VAnT deben capturarse en el modelado de canales. 

Claramente, capturar estos factores es un reto en el modelado de canales AaT. 

Uno de los modelos de pérdida de trayecto AaT más ampliamente adoptados para plataformas 

de baja altitud se presenta en [58]. Como se explica en [58], la pérdida de trayecto entre un 

VAnT y un dispositivo de tierra depende de la ubicación del VAnT y el dispositivo de tierra, 

así como del tipo de entorno de propagación (por ejemplo, rural, suburbano, urbano, urbano 

de gran altura). En este caso, dependiendo del entorno, los enlaces de comunicación AaT 

pueden ser LoS o NLoS (Non Line of Sight). Tenga en cuenta que, sin ninguna información 

adicional sobre las ubicaciones exactas, las alturas y el número de obstáculos, se debe 

considerar la aleatoriedad asociada con los enlaces de LoS y NLoS. Como resultado, muchas 

de las publicaciones existentes sobre comunicación VANT (por ejemplo [59], [60] , [61] y 

[62] ) adoptaron el modelo probabilístico de pérdida de trayectoria dado en [63] y [58]. Como 

se discute en estas publicaciones, los enlaces LoS y NLoS se pueden considerar por separado 

con diversas probabilidades de ocurrencia. La probabilidad de ocurrencia es una función del 

entorno, la densidad y la altura de los edificios, y el ángulo de elevación entre el VAnT y el 

dispositivo de tierra.  

 
Figura 3.1: Diagrama de LoS. 


CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 

 
42 

Como se muestra en la figura 3.1 el modelo probabilístico común de LoS se basa en las 

estadísticas geométricas generales de diversos entornos. En particular, en varios tipos de 

entornos, el UIT-R proporcionar algunos parámetros dependientes del medio ambiente para 

determinar la densidad, el número y el máximo de los edificios u otros obstáculos[64]. 

Claramente, debido a la aplicación que se propone en este trabajo, los dispositivos IoT 

desplegados en tierra no tienen a sus alrededores ninguna estructura elevada, como árboles o 

edificios, que irrumpa en la línea de visión directa entre los dispositivos IoT y los VAnT.  

Con el objetivo de proveer una amplia cobertura y minimizar los dispositivos IoT sin 

cobertura, son desplegados un total de Nd drones. Cada dron es equipado con una antena que 

tiene una determinada directividad. Las antenas tienen un ángulo de apertura Ѳ donde se 

concentra el lóbulo mayor de la antena y se obtiene la mayor ganancia. Entonces, se puede 

obtener el radio de cobertura de un dron de la siguiente forma: 

ρ = ℎ𝑑𝑡𝑎𝑛
Ѳ

2
  (3.1), 

donde ℎ𝑑 es la altura del dron. También, se considera que la señal fuera del radio de cobertura 

es fuerte atenuada. Un conjunto Nu de dispositivos IoT son repartidos en el área cuadrada de 

L×L. Si se considera un conjunto de drones D= {1 ,2 ,3 …, Nd} y conjunto de dispositivos 

IoT U= {1, 2, 3, …, Nu}, la pérdida por trayecto (PL) entre el dron j y un dispositivo IoT i, 

donde j ϵ D, e i ϵ U, puede calcularse empleando la siguiente ecuación: 

𝑃𝐿𝑖𝑗 = 20𝑙𝑜𝑔 (
4𝜋𝑓𝑐𝑑𝑖𝑗

𝑐
) + 𝜉(3.2), 

donde fc es la frecuencia de transmisión, dij es la distancia entre el dron j y un dispositivo IoT 

i, y ξ es la pérdida por trayecto adicional. 

3.1.1 Conexión de los dispositivos IoT 

La conexión de un dispositivo IoT i a un dron j depende del valor de la potencia de la señal 

de referencia recibida (RSRP), puede ser expresada en dB, y puede calcularse como: 

RSRPij = EIRPj - PLij (3.3) 

Donde EIRPj es la potencia irradiada isotrópica equivalente y representa la suma de la 

potencia de transmisión y la ganancia de la antena. Empleando este valor se puede calcular 

la relación señal a ruido (SINR, por sus siglas en inglés): 


CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 

 
43 

SINRij = 
𝑅𝑆𝑅𝑃𝑖𝑗

𝑁+∑ 𝑅𝑆𝑅𝑃𝑖𝑘
𝑁𝑏
𝑘=1,𝑘≠𝑗

  (3.4) 

Donde N es la potencia de ruido aditivo blanco Gaussiano. Los dispositivos IoT se conectan 

al dron de mayor SINR. Aunque este proceso de conexión se divide en dos partes: 

1. El dispositivo IoT comprueba si puede seguir conectado al dron, verificando si el 

valor de SINR es mayor e igual al umbral de conexión. De lo contrario el dispositivo 

IoT se desconecta. 

2. La conexión también depende de la capacidad de Radio Access Network (RAN). Si 

el valor de SINR es mayor al umbral y existe capacidad de RAN entonces se establece 

la conexión. De lo contrario el dispositivo IoT intentará con el próximo dron con 

menor SINR. Si el dispositivo IoT no logra establecer conexión o no existe capacidad 

de RAN, se considera fuera de cobertura. 

Throughput 

El throughput Tij de un dispositivo IoT i conectado a un dron j, en bits por segundo, puede 

ser calculado empleando la fórmula de capacidad de canal de Shannon. 

Ti, j = B𝑙𝑜𝑔2(1 + 𝑆𝐼𝑁𝑅𝑖,𝑗) (3.5) 

Donde B es el ancho de banda en Hz. 

3.2 Escenario de simulación. 

Se implementó un escenario de simulación en Python. Los principales parámetros de 

simulación son mostrados en la Tabla 3.1.  El escenario de simulación constituye un área 

cuadrada de 200m de lado, donde fueron desplegados Nu dispositivos IoT, y se desconoce la 

ubicación precisa de los mismos. El escenario de simulación se discretizó para mejorar el 

rendimiento. Por tanto, el movimiento de los drones se discretizó en pasos de 20 m en el 

plano horizontal (ejes X-Y) y pasos de 20 m en el plano vertical (eje Z). Se realizan 100 

corridas independientes, cada una con un total de 100 episodios. Para que esto sea posible 

cada episodio es dividido en iteraciones. Para cada iteración los drones se mueven juntos por 

el entorno buscando las mejores posiciones. Cuando se alcanza alguno de los criterios de 


CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 

 
44 

parada se detiene el episodio, se retorna a la mejor posición encontrada y se obtienen las 

métricas. 

3.2.1 Simulación  

Se realiza la tarea de descubrimiento de los dispositivos IoT pues de ellos solo se conoce la 

cantidad y no la ubicación. Por tanto, el objetivo fundamental es lograr la conexión, 

entiéndase como descubrimiento, de la máxima cantidad de nodos que cumplan un umbral 

de conexión. Para alcanzar ese objetivo se emplea el algoritmo de aprendizaje por refuerzo 

Q-Learning empleando la variante Q-Learning descentralizado. Esta variante esta tiene un 

enfoque multiagente cooperativo donde todos los agentes (drones) se mueven al mismo 

tiempo intentando maximizar la recompensa. Se entiende como cooperativo que todos los 

agentes reciben la misma recompensa, luego de la acción que hayan realizado.  

La cantidad de VAnT (Nd) empleados es de 10, donde siempre se ubican, de forma 

intencionada, inicialmente en las siguientes posiciones en el espacio: (50,50,100); 

(50,150,100); (100,100,100); (150,50,100); (150,150,100); (50,100,60); (100,500,60); 

(100,100,60); (100,150,60); (150,100,60).  

Además, se diseñó e implementó dos variantes de distribución de usuarios para su despliegue 

en el terreno: 

• En la distribución de usuarios con clúster la separación mínima entre dispositivos IoT 

debe ser de 5 metros. Los clústeres tienen tamaño entre 7 y 9 dispositivos IoT. En la 

siguiente figura se muestra un ejemplo de distribución en clúster. 


CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 

 
45 

 
 Figura 3.2: Clúster 

• En la distribución de usuarios aleatoria la separación mínima entre dispositivos debe 

ser de 10 metros. En la siguiente figura se muestra un ejemplo de distribución 

aleatoria. 


CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 

 
46 

 
 Figura 3.3 Aleatorio 

 
Tabla 3.1 Parámetros utilizados.  

Parámetros Valores 

𝜉 LoS 1 dB 

Lado del área cuadrada (L) 200 m 

Tamaño de paso en el eje x y en el eje y 20m 

Tamaño de paso en el eje z  20m 

Altura mínima para los drones 10m 

Altura máxima para los drones 100m 

Numero de dispositivos IoT (Nu) 200 


CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 

 
47 

Número de UAV 10 

UAV EIRP -3 dBW 

UAV ángulo de directividad de la antena (𝜃) 600 

RBs in UAV 25 

Ancho de banda de un RB 180 kHz 

Umbral de SINR requerido -3 dB 

N (AWGN) -120 dBm 

Frecuencia de transmisión fc 1 GHz 

Número total de episodios 100 

Número de simulaciones independientes 100 

Máximo de iteraciones por episodios (ITmax) 100 

Máximo de iteraciones con la igual recompensa (ITRmax) 20 

Máxima recompensa (Rmax) 200 

Tasa de aprendizaje (𝜆) 0.9 

Factor de descuento (𝜙) 0.9 

 
3.3 Métricas 

Las métricas utilizadas para evaluar el rendimiento del algoritmo, empleando los parámetros 

y condiciones expuestos con anterioridad, son las siguientes. 

• El por ciento de dispositivos IoT fuera de cobertura, el cual se obtiene: 


CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 

 
48 

𝐷𝑢 = 100
𝑁𝑜

𝑁𝑢
, 

donde Nu es la cantidad de dispositivos IoT y No es la cantidad de usuarios fuera de 

cobertura y se calcula como: 

𝑁𝑜 = 𝑁𝑢 −∑𝑈𝑗

𝑗=1

𝑁𝑑

 
• Promedio de consumo de potencia de los VAnT por episodio. 

• Promedio de consumo de la batería de los VAnT por episodio. 

3.4 Resultados numéricos 

En la Figura 3.4 se muestra el número de promedio de dispositivos IoT sin cobertura por 

episodios para ambas variantes de distribución de dispositivos IoT. Se evidencia que para la 

distribución en clúster se logra un mejor rendimiento que para la distribución aleatoria; pero 

para ambas se logra tener menos del 2.5% de dispositivos sin cobertura, es decir menos de 5 

dispositivos IoT sin cobertura.  

 
CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 

 
49 

Figura 3.4 Usuarios sin cobertura 

Esto leve diferencia en el rendimiento del algoritmo Q-learning descentralizado para ambas 

distribuciones de dispositivos IoT se debe principalmente a la altura que deben tomar los 

drones para abarcar dentro de su radio de cobertura a la mayor cantidad de dispositivos IoT.  

Como se observa en la Figura 3.5 para la distribución aleatoria la frecuencia de 

posicionamiento de los VAnT en la máxima altura (100m) es superior que, en la distribución 

en clúster, por lo tanto, existe mayor interferencia al solaparse los radios de cobertura. 

Mientras que se observa que en las alturas de 40m y 60m el posicionamiento de VAnT para 

la distribución en clúster es más frecuente que para la distribución aleatoria, esto permite 

disminuir la interferencia. Lo anteriormente expuesto es lógico pues para la distribución en 

clúster los dispositivos IoT están ubicados en conjuntos en posiciones más cercanas. Mientras 

en la distribución aleatoria los dispositivos IoT estás más dispersos. 

 
Figura 3.5: Frecuencia de posicionamiento de los VAnT para las diferentes alturas. 

El rendimiento del algoritmo Q-learning descentralizado referido al consumo de potencia 

energética se observa en la Figura 3.6. Para ambas distribuciones de dispositivos IoT se 

alcanza un consumo inferior a los 3KW desde el episodio 30.  Evidenciando el acertado 

rendimiento del algoritmo a pesar de no optimizar de forma directa el consumo de potencia, 

pues como se puede observar en (2.13) no existe un término que proponga disminuir dicho 

consumo. 


CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 

 
50 

 
Figura 3.6 Consumo promedio de potencia de los VanT por episodio. 

Dicha estabilidad en el consumo de potencia permite que los VAnT realicen la búsqueda de 

las mejores posiciones para cumplir su objetivo sin agotar totalmente su batería como se 

muestra en la Figura 3.7. En dicha figura se puede observar que al alcanzar el episodio final 

los VAnT poseen más del 60% de la batería. 

 
Figura 3.7 Consumo promedio de la batería de los VAnT por episodio. 


CAPÍTULO 3. SIMULACIÓN Y RESULTADOS. 

 
51 

3.5 Conclusiones del capítulo. 

En este capítulo se analizó la modelación de un canal de comunicación para su posterior 

implementación en el escenario de simulaciones. Se describió las estrategias implementadas 

para la distribución de los dispositivos IoT sobre el terreno. Utilizando como referente las 

métricas planteadas se pudo constatar del excelente rendimiento del algoritmo Q-Learning 

para resolver la tarea propuesta empleando los UAV en ambas distribuciones de dispositivos 

IoT, donde el algoritmo obtiene un mejor desempeño para la distribución en clúster de los 

dispositivos IoT. 


ANEXOS 

 
52 

CONCLUSIONES Y RECOMENDACIONES 

Conclusiones 

A partir de la investigación realizada en capítulos anteriores y de los resultados obtenidos en 

las simulaciones, se concluye lo siguiente: 

1 El algoritmo Q-Learning multiagente cooperativo es una excelente opción para el 

descubrimiento de los dispositivos IoT gracias a su rendimiento, pues como promedio 

5 o menos dispositivos IoT quedan sin cobertura.  

2 El algoritmo Q-Learning multiagente cooperativo desarrolla mecanismos de forma 

autónoma que permiten una disminución del consumo de potencia, traduciéndose en la 

disminución del uso de la energía de la batería. 

3 Los UAV aprendieron a utilizar la altur