Departamento de Control Automático 
 
 
Título: Sistema de inteligencia artificial para la detección de nódulos 

pulmonares. 

 
Autor: Pedro Pablo Camellón Quintero 

 
Tutores: Dr.C. Marlén Pérez Díaz 

    Dr.C. José Daniel López Cabrera 

  
2021 


Universidad Central “Marta Abreu” de Las Villas 

Facultad de Ingeniería Eléctrica 

 
Departamento de Control Automático 

 
TRABAJO DE DIPLOMA 
 

Sistema de inteligencia artificial para la detección 
de nódulos pulmonares 

 
Autor: Pedro Pablo Camellón Quintero 
 
 
Tutores: Dr.C. Marlén Pérez Díaz 
                      mperez@uclv.edu.cu 
          https://orcid.org/0000-0002-3706-9154 
 

        Dr.C. José Daniel López Cabrera 
josedaniellc@uclv.cu  
https://orcid.org/0000-0003-2137-0361 

            
Santa Clara 

2021 

"Año 63 de la Revolución" 

 
Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las 

Villas, y se encuentra depositado en los fondos de la Biblioteca Universitaria “Chiqui Gómez 

Lubian” subordinada a la Dirección de Información Científico Técnica de la mencionada 

casa de altos estudios.  

Se autoriza su utilización bajo la licencia siguiente:  

Atribución- No Comercial- Compartir Igual  

 
Para cualquier información contacte con:  

Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de Las  

Villas. Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830  

Teléfonos.: +53 01 42281503-1419  


1 

 
PENSAMIENTO 

 
“No necesito saberlo todo, tan solo saber dónde encontrar aquello  

que me haga falta cuando lo necesite”. 

Albert Einstein  

 
1 

 
DEDICATORIA 

 
A mi familia, en especial mis padres, a Meli y a mis amigos  

por su poyo infinito. 

A todos los que me ayudaron a lo largo de mi carrera estudiantil. 


1 

 
AGRADECIMIENTOS 

 
Quiero agradecer a todas aquellas personas que en diferentes formas me apoyaron y 

acompañaron a lo largo de este proceso: 

 
 A mis padres por inculcarme desde pequeño el amor a las ciencias 

 A mis tutores, Marlén y José Daniel, por su guía y apoyo inmenso 

 A Jorge Armando por sus consejos 

 A todas aquellas personas que dedican su vida al desarrollo de la ciencia, en especial, 

de la Inteligencia Artificial


1 

 
RESUMEN 

 
El cáncer de pulmón es el causante del mayor número de muertes por cáncer en el mundo. 

La radiografía de tórax es el método más extendido para la identificación de los nódulos 

pulmonares, sin embargo, estas son difíciles de interpretar debido a su bajo contraste y al 

conjunto de estructuras anatómicas que se superponen. Los sistemas de detección asistidos 

por ordenador incrementan la efectividad de los diagnósticos y reducen la carga laboral de 

los especialistas. En el presente trabajo se propone un sistema de este tipo basado en 

inteligencia artificial para la detección de nódulos pulmonares a partir de radiografías de 

tórax. El mismo emplea redes neuronales de convolución. Para la detección de nódulos se 

utilizó la red SqueezeNet con tres estrategias de entrenamiento (imagen completa, 

segmentación de pulmón y regiones de interés). Se aplicaron técnicas de transferencia de 

aprendizaje y aumento de datos. Se crearon conjuntos de imágenes a partir de tres bases de 

datos internacionales. Se entrenó y validó la red, y para el mejor modelo obtenido se realizó 

una prueba externa a partir de una cuarta base de datos. El mejor modelo se obtuvo con 

SqueezeNet e imágenes consistentes en pequeños parches. Este alcanzó una exactitud 

balanceada de 93 %, aún sin poder de generalización.  

Palabras clave: radiografía de tórax; nódulo pulmonar; inteligencia artificial; aprendizaje 

profundo. 

 
1 

 
ABSTRACT 

 
Lung cancer is the cause of the highest number of cancer deaths in the world. The chest X-

ray is the most widespread method for the identification of pulmonary nodules; however, 

these are difficult to interpret due to their low contrast and the set of overlapping anatomical 

structures. Computer-aided detection systems increase the effectiveness of diagnoses and 

reduce the workload of specialists. In the present work, a system of this type based on 

artificial intelligence is proposed for the detection of pulmonary nodules from chest X-rays. 

It uses convolutional neural networks. For the detection of nodules, the SqueezeNet network 

was used with three training strategies (complete image, lung segmentation and interest 

regions). Learning transfer techniques and data augmentation were applied. Image sets were 

created from three international databases. The network was trained and validated, and for 

the best model obtained, an external test was carried out from a fourth database. The best 

model was obtained with SqueezeNet and images consisting of small patches. This reached 

a balanced accuracy of 93%, even without power of generalization. 

 
Key words: chest x-ray; lung nodule; artificial intelligence; deep learning. 

 
1 

 
GLOSARIO DE SIGLAS Y TÉRMINOS 

 
BD: Base de datos 

CAD: (del inglés Computer Aided Diagnosis). Sistema de diagnóstico asistido por 

computadora. 

CNN: (del inglés Convolutional Neural Network). Red neuronal de convolución  

DL: (del inglés Deep Learning). Aprendizaje profundo 

FN: Falso negativo 

FP: Falso positivo 

IA: Inteligencia artificial 

ML: (del inglés Machine Learning). Aprendizaje automático 

RNA: Red neuronal artificial 

VN: Verdadero negativo 

VP: Verdadero positivo 

 
1 

 
TABLA DE CONTENIDOS 

INTRODUCCIÓN ..................................................................................................................... 2 

CAPÍTULO 1. MARCO TEÓRICO ........................................................................................ 6 

1.1  Imágenes de rayos x ............................................................................................................. 6 

1.2  Radiografía de tórax ............................................................................................................ 7 

1.3  Cáncer de pulmón ................................................................................................................ 8 

1.3.1 El nódulo pulmonar ............................................................................................................. 9 

1.4  Sistemas CAD ..................................................................................................................... 11 

1.4.1  Sistemas CAD basados en RNA ........................................................................................ 12 

1.4.2  Interpretación de los resultados de los sistemas que emplean RNA .............................. 15 

1.5  Etapas de los sistemas CAD para la detección de nódulos pulmonares ........................ 16 

1.6  Particularidades de los sistemas CAD basados en aprendizaje profundo .................... 19 

1.7  Conclusiones del capítulo ................................................................................................... 22 

CAPÍTULO 2. MATERIALES Y MÉTODOS ..................................................................... 23 

2.1  Descripción de los conjuntos de imágenes utilizados ...................................................... 23 

2.2  Software y hardware empleados ....................................................................................... 24 

2.3  Prepocesamiento de las imágenes para el entrenamiento ............................................... 24 

2.3.1  Imagen completa ................................................................................................................ 24 

2.3.2  Segmentación de la región pulmonar ............................................................................... 25 

2.3.3  Extracción de la región correspondiente al cuadro delimitador de cada lesión ........... 26 

2.4  Entrenamiento, validación y prueba de los modelos ....................................................... 27 

2.4.1    SqueezeNet ........................................................................................................................ 31 

CAPÍTULO 3. RESULTADOS Y DISCUSIÓN ................................................................... 33 

3.1 Resultados de cada estrategia para el entrenamiento y validación de los modelos ...... 33 

3.1.1 Imagen completa ................................................................................................................ 33 

3.1.2 Imagen segmentada ............................................................................................................ 37 

3.1.3 Regiones de interés ............................................................................................................. 39 

3.2 Prueba externa.................................................................................................................... 45 

3.3  Discusión general ................................................................................................................ 46 

3.4  Análisis económico ............................................................................................................. 48 

3.5  Conclusiones del capítulo ................................................................................................... 49 

CONCLUSIONES Y RECOMENDACIONES .................................................................... 50 

REFERENCIAS BIBLIOGRÁFICAS .................................................................................. 51 


1 

 
ANEXOS .................................................................................................................................. 56 

Anexo 1. Código en Python para cargar y preprocesar las imágenes ....................................  

Anexo 2. Código en Python para definir la red empleada y entrenarla .................................  

Anexo 3. Código en Python para emplear el buscador de tasa de aprendizaje .....................  

Anexo 4. Código en Python para realizar un ajuste fino de la red .........................................  

  
2 

 
INTRODUCCIÓN 

 
El cáncer es el mayor impedimento para incrementar la esperanza de vida en los países del 

mundo con infraestructura adecuada para la salud. Específicamente, el cáncer de pulmón 

sobresale como el que mayor número de muertes provoca. Aproximadamente 1 796 144 

personas fallecieron debido a esta enfermedad en 2020, según la Agencia Internacional para 

la Investigación del Cáncer [1]. Estas estadísticas, sumadas a las pesquisas médicas masivas 

impulsadas en varios países, han aumentado la carga laboral de los radiólogos [2], [3]. En 

Cuba, el cáncer es la segunda causa de muerte con una taza de 223 por cada 100 000 

habitantes. Las estadísticas de los últimos 20 años indican que 66.7 de cada 100 000 hombres 

y 38.6 de cada 100 000 mujeres sufren cáncer de pulmón [4]. 

El cáncer de pulmón es el resultado de un crecimiento incontrolado de células del tejido 

pulmonar. En su fase inicial se aprecia como pequeñas masas de tejido aproximadamente 

esféricas, de entre 5 a 30 mm de tamaño. Estas son conocidas como nódulos pulmonares [5]. 

El desarrollo de las técnicas de obtención de imágenes médicas como la radiografía, la 

tomografía computarizada (TC), la ultrasonografía y la resonancia magnética, ha permitido 

un diagnóstico temprano en muchas enfermedades. En el cáncer, esto aumenta las 

probabilidades de éxito de la intervención quirúrgica y evita costos superiores en tratamientos 

durante etapas más avanzadas. Los métodos que involucran radiaciones ionizantes más 

empleados en la obtención de imágenes médicas son la tomografía computarizada y la 

radiografía. Estas se emplean cotidianamente para diagnosticar el cáncer de pulmón.  

La TC ofrece información volumétrica en 3D con alta resolución, alto contraste y en un corto 

período de tiempo. El número de imágenes por cada sesión depende del área a observar, que 

es grande para la región del tórax; y de la resolución del equipo, comúnmente de 200 a 400 

imágenes. Esta alta resolución ofrece una gran ventaja en la detección de nódulos pulmonares 

en comparación con las radiografías [6], [7]. Sin embargo, su empleo tiene varios 

inconvenientes como son: el gran número de imágenes que requiere aumenta el tiempo de 

inspección por el especialista, en muchos hospitales no se cuenta con el equipamiento 

necesario, ni se cuenta con recursos para adquirirlo y la alta dosis de radiación efectiva (5.5 

mSv), cincuenta veces mayor en promedio que la de una sesión de radiografía (0.1 mSv) [8]. 


3 

 
Debido a los inconvenientes de la TC, la radiografía es el método más utilizado, contando 

además con una rápida y fácil obtención e interpretación, una baja exposición del paciente a 

radiaciones ionizantes y la disponibilidad en la mayoría de hospitales y clínicas, debido al 

menor costo de adquisición de los equipos y de cada sesión. Existe una versión portátil que 

expone al paciente a una menor dosis de radiación [9]. En este sentido, las radiografías de 

tórax son las más empleadas para identificar radio-opacidades o masas anómalas en los 

pulmones, que pudieran constituir tumores. Esta prueba se realiza generalmente en dos 

proyecciones, una frontal y otra lateral. 

Debido al solapamiento de las estructuras anatómicas, las radiografías podrían ser solo 

adecuadas para la detección de nódulos de gran tamaño en comparación con las tomografías, 

teniendo una efectividad limitada en el diagnóstico temprano [10]. Su incorrecta 

interpretación es la mayor causa de diagnósticos errados [11], por lo que se recomienda una 

doble lectura. Esto depende mucho de la experiencia del especialista, las condiciones de 

visualización, la presencia de artefactos en las imágenes y las características de las lesiones 

[12]. Los nódulos pueden presentar densidades variadas, lo que afecta su visibilidad en la 

radiografía. Estos pueden surgir en cualquier parte del área pulmonar, pudiendo quedar 

ocultos por las costillas, el mediastino o las estructuras debajo del diafragma. 

Cada vez es mayor el interés a nivel mundial en desarrollar sistemas de diagnóstico asistido 

por ordenador (CAD del inglés Computer Aided Diagnosis) para reducir la carga laboral de 

los especialistas y para mejorar su índice de aciertos [13]. Algunos se basan en tomografías 

[14], [15], y otros en radiografías [16], [17], resaltando regiones con alta probabilidad de 

constituir un tumor en el área pulmonar, facilitando una segunda opinión al radiólogo 

[18].También, la mayor utilidad puede ser su implementación en pesquizajes masivos para 

detección temprana de cáncer de pulmón. Esto significa pasar por el sistema todas las 

radiografías disponibles en un hospital o región que se hayan realizado por cualquier causa. 

En este sentido, lo que sería una tarea ardua para especialistas, es una tarea sencilla para una 

máquina con un algoritmo entrenado. 

Los primeros sistemas se basaban en reglas definidas por expertos [19], [20]. Luego, con la 

aplicación de técnicas de aprendizaje automático (ML del inglés machine learning) como las 

redes neuronales artificiales (RNA), se han complejizado y mejorado sus resultados 

considerablemente [21]. Recientemente se han incorporado avances en el aprendizaje 


4 

 
profundo (DL del inglés deep learning), logrando buenos diagnósticos [16]. Una de las 

arquitecturas de DL más usadas en la clasificación de imágenes es la red neuronal de 

convolución (CNN del inglés Convolutional Neural Networks) [22], la cual imita el 

comportamiento de la corteza visual humana [23]. 

El rendimiento de los sistemas depende del correcto ajuste de cada una de sus etapas, 

generalmente cuatro: preprocesamiento de las imágenes, segmentación de la región de 

interés, extracción de características y clasificación [24], aunque se pudiera añadir, en el caso 

concreto de lesiones pulmonares, la detección de candidatos a nódulos, su segmentación, 

extracción de características, clasificación y determinación de su posible malignidad [25]. 

Los sistemas CAD actuales no alcanzan una sensibilidad del 100 %, al no detectar la totalidad 

de las lesiones [26]. Algunos estudios apuntan que la sensibilidad de un humano varía entre 

un 49 % y un 65 % sin uso del CAD, y entre un 68 % y un 93 % con su asistencia [27]. 

Como se aprecia, la detección y clasificación de los nódulos pulmonares aún constituye un 

desafío, a pesar del rendimiento que ofrecen los novedosos métodos de aprendizaje profundo 

y de la disponibilidad de conjuntos anotados de imágenes. El tema a desarrollar en la presente 

tesis consiste en aplicar técnicas de DL a la identificación de nódulos pulmonares con vistas 

a su implementación en hospitales oncológicos cubanos.  

En este sentido, el objeto de estudio son las radiografías pulmonares y el campo de 

investigación es la detección de nódulos pulmonares en las radiografías de tórax a partir de 

técnicas de inteligencia artificial. 

A tono con lo anterior, se define como problema científico de investigación el hecho de 

que los especialistas presentan dificultades para detectar los nódulos pulmonares a partir de 

imágenes radiológicas digitales, debido al bajo contraste de las lesiones de pulmón respecto 

al tejido sano y la presencia de múltiples estructuras anatómicas y ruido. Se necesita 

implementar un sistema automatizado basado en una CNN que ayude a resolver este 

inconveniente. 

La hipótesis de investigación que se formula es: La detección de nódulos pulmonares puede 

ser eficaz con la ayuda de un sistema automatizado basado en inteligencia artificial, como 

puede ser una CNN.   

El objetivo general de la tesis es: Desarrollar un sistema automatizado en Python, basado en 

una CNN, que sea capaz de detectar nódulos pulmonares.  


5 

 
Para acometer lo anterior se definen los siguientes objetivos específicos: 

1. Seleccionar una arquitectura de red neuronal eficaz y eficiente computacionalmente 

para la detección de nódulos pulmonares. 

2. Entrenar y ajustar la red neuronal con la arquitectura previamente seleccionada para el 

80 % y el 20 % respectivamente, de un conjunto de imágenes anotado. 

3. Evaluar el modelo a partir de una prueba con datos anotados, pero de diferente origen 

al del conjunto de imágenes originalmente utilizado para entrenamiento y validación. 

La presente tesis está organizada de la siguiente manera: Introducción, tres capítulos, 

Conclusiones, Recomendaciones, 107 referencias bibliográficas y 4 anexos, contando con 67 

páginas, donde se incluyen 32 figuras y 2 tablas.


CAPÍTULO 1 
6 

 
CAPÍTULO 1. MARCO TEÓRICO  

 
En el presente capítulo se abordan varios elementos conceptuales, tecnológicos y de revisión 

bibliográfica sobre los CAD con inteligencia artificial (IA), tales como: el concepto de 

imagen médica, obtención de las radiografías de tórax y los parámetros que determinan su 

calidad, características de los nódulos pulmonares y problemas asociados a su detección en 

Radiología, aportes de los sistemas CAD para la detección de lesiones pulmonares, su 

evolución y sus principales etapas. Finalmente se explica el papel que juegan los métodos de 

aprendizaje profundo en los nuevos sistemas de diagnóstico durante la segmentación del área 

de interés y en la detección de las lesiones. Se presenta un enfoque crítico de los principales 

sistemas de IA publicados hasta la actualidad para la detección y clasificación de nódulos 

pulmonares.  

1.1  Imágenes de rayos x 

El interés por el estudio de la anatomía del cuerpo humano ha potenciado el desarrollo de las 

técnicas de obtención de imágenes médicas para diversos fines clínicos. Estas son 

representaciones gráficas bidimensionales de una estructura, región, órgano o tejido del 

cuerpo humano. En el caso de las imágenes digitales, consisten en una matriz de M x N celdas 

denominadas píxeles, de características variables. En las imágenes monocromáticas, como 

las radiografías, cada píxel posee un valor de luminancia en niveles de gris [28]. Las imágenes 

digitales pueden ser manipuladas, permitiendo mejorar diferentes parámetros de la misma a 

través de técnicas de procesamiento digital. 

Las radiografías son un tipo de imagen médica obtenida mediante la exposición del cuerpo 

humano a rayos x. Se realizan con una fuente de rayos x en un lado del paciente y un detector 

en el otro. Las propiedades de atenuación de cada tejido ante los rayos x que lo atraviesan 

son diferentes. Esto resulta en una distribución heterogénea de grises sobre la imagen 

radiográfica [29]. 

En los equipos de rayos x, un alto voltaje acelera un gran número de electrones emitidos por 

un cátodo hacia un objeto metálico (ánodo), los que al impactar con el mismo lo calientan y 

emiten pequeñas dosis de radiación x [30]. La Figura 1.1 ofrece una descripción del proceso 

de emisión en un tubo de rayos x. Tras atravesar al paciente, la radiación es detectada por 


CAPÍTULO 1 
7 

 
una placa con fotodetectores, que registra el patrón previo de atenuación en el tejido, 

conformando una distribución de grises que constituye la imagen radiográfica [30]. 

 
Figura 1.1 Descripción del proceso de emisión de rayos x. Extraído de [31]. 

La calidad de las imágenes está determinada por el método de obtención, las características 

del equipo y su configuración. Es necesario que estas cumplan con ciertos parámetros para 

que sean útiles para el especialista. Dentro de los parámetros que determinan la calidad de 

las radiografías están el ruido que contienen, la presencia de artefactos, la resolución espacial, 

la distorsión y el contraste [12]. 

1.2  Radiografía de tórax 

Las radiografías de tórax se emplean comúnmente para identificar lesiones en el área 

pulmonar. El tórax es la región del cuerpo humano localizada entre el cuello y el abdomen. 

En las radiografías de esta región destacan, por su mayor visibilidad, ciertos huesos y el 

mediastino, y con menor nitidez que estos, los pulmones, las vías respiratorias y el diafragma.  

Los huesos son densos, por lo que son más brillantes, algunos de los que se aprecian son las 

costillas, parte de la médula espinal, del húmero, la clavícula y la escápula. Generalmente las 

imágenes son obtenidas luego de que el paciente inhale aire. Los pulmones y las vías 

respiratorias, al contener aire, son menos densos que los tejidos blandos a su alrededor y se 

muestran más oscuros. El mediastino es un espacio virtual que contiene el corazón, los vasos 

sanguíneos mayores, la tráquea, los bronquios, el esófago, el timus y el corazón. La mayoría 

de estas estructuras, a excepción del corazón, no son visibles en las radiografías; es la 

superposición en la radiografía frontal la que lo provoca [32]. La Figura 1.2 muestra la 


CAPÍTULO 1 
8 

 
complejidad anatómica de este tipo de imagen, así como la localización de las principales 

estructuras presentes. 

 
Figura 1.2 Imagen radiográfica de tórax 

En la radiografía de tórax se incluye la región pulmonar, como se aprecia en la Figura 1.2. 

Los pulmones son dos órganos blandos, esponjosos y elásticos que están situados dentro de 

la cavidad torácica, por encima del diafragma y separados por la región cardiomediastinal. 

Poseen forma de semicono irregular con una base dirigida hacia abajo y un ápice redondeado. 

Están cubiertos con pleura visceral y se ubican libremente en la cavidad pleural 

correspondiente. La función principal de los pulmones es el intercambio de gases, 

(oxigenación de la sangre y eliminación del anhídrido carbónico de la misma). 

Existen opiniones diversas sobre cuánto abarca el área pulmonar en situaciones anormales. 

Algunos especialistas solo consideran las cavidades que contienen aire, mientras otros 

incluyen el área oscurecida por el fluido pleural. La mayoría de los sistemas CAD sigue el 

primer criterio [32]. 

1.3  Cáncer de pulmón  

El cáncer de pulmón es una neoplasia maligna originada como resultado de un crecimiento 

descontrolado de células del tejido pulmonar o del recubrimiento de las vías respiratorias 

[33]. Se divide en dos tipos fundamentalmente: de células pequeñas y de células no pequeñas 

[34]. Inicialmente desarrolla pequeñas masas de tejido aproximadamente esféricas, de entre 

5 a 30 mm, que reciben el nombre de nódulos pulmonares [5].  


CAPÍTULO 1 
9 

 
El cáncer puede diseminarse por otras partes del cuerpo antes de ser detectado en los 

pulmones [34]. El diagnóstico temprano facilita el tratamiento, conlleva menores riesgos y 

aumenta la esperanza de vida del paciente. Su baja tasa de supervivencia (inferior al 16 % en 

5 años) [35] suele deberse a que es identificado cuando se encuentra en una etapa avanzada. 

1.3.1 El nódulo pulmonar 

El nódulo pulmonar es la primera etapa en el desarrollo del cáncer de pulmón. Se aprecia en 

las radiografías como una opacidad redondeada cuyo diámetro es inferior a 3 cm. Presenta 

generalmente bordes definidos, los que pueden ser irregulares, espiculados o lobulados [36]. 

La Figura 1.3 muestra algunos ejemplos de nódulos. 

     
Figura 1.3 Se aprecia en la radiografía un nódulo claramente visible en el pulmón derecho 

(izquierda). Nódulos pulmonares sobre regiones de interés en una radiografía (derecha). Tomado de 

[31], [37]. 

La detección de nódulos se ve afectada, a menudo, por errores durante la observación, las 

características de la lesión y defectos técnicos; situación que ha persistido sin mucha 

variación desde mediados del siglo pasado, a pesar de los grandes avances tecnológicos. Se 

han descubierto anomalías en la revisión de imágenes radiográficas clasificadas como 

normales, en personas diagnosticadas con neoplasia maligna pulmonar [11]. 

Los errores cometidos por el observador son la principal causa de diagnósticos erróneos. Se 

subdividen, en el estudio de [38], en tres categorías: errores de escaneo, de reconocimiento y 

de toma de decisiones, donde cada uno representa el 30 %, el 25 % y el 45 % respectivamente. 

El error de escaneo se debe a que la opacidad no se percibe en la parte central de la retina 

humana durante el análisis de la imagen. Se requiere un promedio de 300 fijaciones oculares 


CAPÍTULO 1 
10 

 
para cubrir un área de 14 × 17 cm, mientras que en la práctica médica solo se utilizan 80-120 

fijaciones oculares en un promedio de 20-30 segundos dedicados a cada imagen por un 

radiólogo. Esto significa que grandes partes no se observan con la suficiente atención. La 

experiencia del especialista también juega un papel muy importante. Los más 

experimentados desarrollan una ruta de exploración eficaz al conocer la apariencia típica de 

los hallazgos normales y patológicos [39]. La identificación de una anomalía puede interferir 

con el proceso de búsqueda de otras, debido a la “satisfacción de búsqueda” que experimenta 

el especialista, quien puede cesar la búsqueda o concentrarse en la parte incorrecta de la 

imagen [40]. 

El error de reconocimiento consiste en la pérdida de lesiones, aún tras un escaneo adecuado. 

Se debe, en gran parte, a los modelos mentales creados por el observador. La búsqueda activa 

se ve afectada por las condiciones de trabajo, la fatiga, el índice de sospecha, la edad del 

paciente, la presencia de otras anomalías y la historia clínica [11]. La disponibilidad de datos 

clínicos permite identificar pacientes de alto riesgo en los que se realiza una búsqueda más 

exhaustiva. La interpretación inexacta de una anomalía identificada como normal 

corresponde a un error en la toma de decisiones.  

La dimensión, visibilidad y ubicación son las características más importantes para la 

identificación del tumor. En [41] se aprecia una tasa de detección del 29 % en tumores con 

un diámetro menor o igual a 10 mm y del 28 % para diámetros entre 10 a 30 mm. Las lesiones 

mayores de 40 mm no se pasaron por alto [41]. Sin embargo, en la literatura, el tamaño medio 

de los carcinomas omitidos es bastante variable. En la mayoría de los casos supera los 10 

mm [42],[43], lo que demuestra que otros factores también influyen en la identificación.  

La visibilidad de los nódulos se ve muy afectada por la nitidez de los márgenes y su densidad. 

Los resultados de [43] indican que los especialistas califican primero el nivel de opacidad en 

la radiografía y posteriormente emplean la sesión tomográfica para describir los bordes y la 

densidad de las lesiones. Varios autores apuntan que la mayoría de las lesiones pasadas por 

alto no tenían bordes nítidos y poseían baja densidad [41], [42].  

Sobre la influencia de la ubicación, varios autores apuntan una prevalencia marcada para los 

lóbulos superiores, entre el 45  % y el 66 % [41], [44], [45]. Se reseñó en [42] que el 81 % de 

los casos de no detección, correspondían a los lóbulos superiores, particularmente en el 


CAPÍTULO 1 
11 

 
derecho (56 %). Sin embargo, otros estudios sugirieron que se deben tener más en cuenta las 

regiones con gran superposición de estructuras [46]. Se resaltó en [41], que los tumores de 

localización central perdidos, eran más grandes que los periféricos, lo que significa que las 

estructuras superpuestas son la principal causa de lesiones no descubiertas. 

Es menos probable que se perciba una lesión en algunas áreas ciegas del tórax como los 

ápices, las regiones hiliares y el espacio retrocardíaco. Se ha demostrado que el 65% de las 

lesiones pulmonares que se originan en los hilios se pasaron por alto, solo detectándose 

lesiones mayores de 3 cm [47]. Las estructuras cardíacas pueden ocultar los nódulos 

localizados en los lóbulos inferiores, tal y como se señala en [43], donde se detectó una tasa 

del 92% de tumores en los lóbulos inferiores no detectados. 

El empleo de sistemas CAD en los últimos años ha ayudado a contrarrestar las dificultades 

que enfrentan los especialistas al analizar radiografías de tórax en busca de las lesiones 

mencionadas. Estos han favorecido diagnósticos más certeros, al aportar una segunda opinión 

sobre posibles nódulos y han aportado hipótesis plausibles respecto al diagnóstico. También 

son muy útiles en los pesquizajes masivos para detección temprana de cáncer de pulmón. 

1.4  Sistemas CAD 

Los sistemas CAD desarrollados para la detección de nódulos pulmonares a partir de 

radiografías de tórax, resaltan regiones con alta probabilidad de constituir un tumor en el área 

pulmonar. Se clasifican fundamentalmente en: sistemas basados en reglas, basados en 

aprendizaje automático y basados en aprendizaje profundo. Los primeros utilizaban 

ecuaciones para describir la apariencia de las lesiones en las radiografías [19]. Un intérprete 

analizaba dicha apariencia y, aplicando reglas definidas por expertos, seleccionaba 

estructuras que podían constituir nódulos. Definir las reglas era una tarea compleja en la que 

diferían la mayoría de los estudios sobre estos sistemas. El exceso en su número hacía al 

sistema más robusto, pero más demandante de recursos computacionales. El estudio [48] 

propuso como número óptimo de características 210, que clasifica entre geométricas, de 

contraste, estadísticas de primer orden y estadísticas de segundo orden. Por ejemplo en [49] 

se utilizaron 109 características (96 bancos de filtros, 2 de posición y 11 detectores).  


CAPÍTULO 1 
12 

 
El aumento en los últimos años de las capacidades de almacenamiento y de cómputo de 

información han permitido el surgimiento de una rama de la inteligencia artificial conocida 

como aprendizaje automático. Esta persigue desarrollar en las máquinas la habilidad de 

aprender. Los sistemas CAD basados en estos novedosos algoritmos han alcanzado mejores 

resultados [24]. Comparten con los sistemas basados en reglas las etapas de pre-

procesamiento y segmentación de la región pulmonar y el empleo de ecuaciones para 

describir las lesiones. Sin embargo, se diferencian en que son capaces de aprender por sí 

mismos las reglas de clasificación a partir de las características detectadas. Para ello se 

emplea un grupo de imágenes anotadas, algunas con presencia de nódulos y otras no. Esto 

genera modelos capaces de identificar las lesiones a partir de nuevas imágenes. Estos 

sistemas requieren generalmente la introducción de un vector de características para realizar 

el aprendizaje en las fases de entrenamiento, validación y prueba. Ejemplos de algoritmos de 

clasificación empleados en estos sistemas son las máquinas de vectores de soporte (SVM del 

inglés Support Vector Machines) [50], k vecinos más cercanos (kNN del inglés k-nearest 

neighbours), los bosques aleatorios (RF del inglés random forest) y las  RNA. 

1.4.1  Sistemas CAD basados en RNA 

Las RNA son modelos matemáticos inspirados en las redes neuronales biológicas del cerebro 

humano, con las que comparten algunas características como aprender de la experiencia, 

generalizar ejemplos previos a nuevos y abstraer las principales características de un conjunto 

de datos [51]. Las redes de varias capas son capaces de resolver problemas no separables 

linealmente, limitación fundamental de las que poseen solo una. El número de capas ocultas, 

aquellas ubicadas entre la de entrada y la de salida, diferencia las redes superficiales de las 

profundas. Las primeras poseen solo una capa oculta, mientras que las redes profundas 

cuentan con dos o más [23]. Además, las RNA superficiales necesitan que les sea 

proporcionado un vector de características a su entrada para realizar la etapa de 

entrenamiento y luego para clasificar; sin embargo, las redes profundas son capaces de 

autogenerar dicho vector. 

La unidad básica de las RNA son las neuronas. Estas poseen una función de activación 𝑎 y 

un grupo de parámetros, compuesto por un conjunto de pesos 𝑤 y otro de sesgos 𝑏. La 

función de activación se define como: 


CAPÍTULO 1 
13 

 
𝑎 = 𝜎(𝑤 𝑥 + 𝑏)                                                                                                         (1.1) 

donde σ es una no linealidad denominada función de transferencia (comúnmente se emplea 

la función sigmoidal, ReLU (del inglés Rectified Linear Unit) o la tangente hiperbólica). 

Durante el entrenamiento se ajustan los parámetros para satisfacer ciertos criterios, 

redefiniendo las relaciones entre las neuronas de la red [22]. La Figura 1.4 muestra un ejemplo 

de neurona artificial. 

 
Figura 1.4 Principales elementos de una neurona artificial. Extraído de [24]. 

Generalmente en la última capa de estas redes las activaciones se distribuyen en una, dos o 

más clases. La función más empleada actualmente es softmax (del inglés máximo suave) [22]. 

La salida puede ser única, binaria o separada en tres o más clases y responde a las 

características en las cuales el sistema se entrenó. Estas son seleccionadas por la propia red 

a partir de los datos de entrada en el caso de las redes profundas, como ya se ha expresado, 

para dar una salida de clasificación. La Figura 1.5 muestra la arquitectura de una red neuronal 

simple. 

 
Figura 1.5 Arquitectura básica de una RNA multicapa. Adaptado de [23]. 


CAPÍTULO 1 
14 

 
La función de pérdidas es característica de los algoritmos de entrenamiento supervisados. 

Esta indica el error entre la predicción realizada por el modelo y el valor real en la imagen 

anotada para cada elemento. El objetivo del entrenamiento es minimizar este error y la 

función de pérdidas. La función de costo generaliza la función de pérdidas a todo el conjunto. 

Uno de los métodos más empleados para reducir el error de las predicciones es el descenso 

del gradiente, el cuál ajusta los parámetros de las neuronas que componen la red. 

La función de propagación es propia de la neurona, comúnmente se usa la suma ponderada 

de todas sus entradas [23]. La tasa de aprendizaje, el número de iteraciones, el costo umbral, 

entre otros, son los hiperparámetros. Estos no dependen de un entrenamiento y se definen en 

función de cada aplicación. 

El conjunto de datos en estos sistemas es comúnmente dividido en dos o tres partes: datos de 

entrenamiento, validación y prueba. En las etapas de entrenamiento y validación se suele usar 

un conjunto de igual origen, particionado para el 80 % y el 20 % del total de datos, 

respectivamente.  

El grupo de prueba, procedente de una fuente diferente, permite comprobar cómo los modelos 

obtenidos extrapolan lo aprendido a nuevos grupos de casos. Se persigue que el modelo 

obtenido funcione perfectamente con los datos limitados de entrenamiento y con los nuevos 

en la aplicación real. Cuando esto no sucede, y se obtiene un rendimiento excelente durante 

el entrenamiento, y otro muy inferior con nuevos datos, se plantea que existe sobreajuste en 

el modelo desarrollado. Este inconveniente impide al modelo generalizar adecuadamente lo 

aprendido a ejemplos nuevos. Esto no significa que se deba sacrificar exactitud en el 

entrenamiento a propósito, violando una de las principales estrategias del aprendizaje 

automático, sino lograr un balance adecuado entre el sobreajuste y la capacidad de 

generalización [23]. El conjunto de prueba permite detectar el sobreajuste [23] al aplicar el 

modelo a datos nuevos. También, la validación cruzada se emplea con este fin, en esta se 

dividen los datos en varios grupos alternando su función entre datos de entrenamiento y 

validación. 

El principal impedimento para comparar adecuadamente los diversos sistemas CAD 

propuestos para el diagnóstico de nódulos pulmonares es el uso de datos de diferente calidad 

y complejidad. Se emplean conjuntos de datos personalizados privados [32]. Muchos estudios 


CAPÍTULO 1 
15 

 
refieren la falta de datos públicos debidamente anotados, aunque se realizan grandes 

esfuerzos por remediar esto [52]. Los conjuntos de imágenes JSRT [53], LIDC-IDRI y 

LUNA16 [54] son ejemplos de este empeño.  

1.4.2  Interpretación de los resultados de los sistemas que emplean RNA 

Se han propuesto varios métodos de visualización con el fin de comprender lo que les permite 

a las redes neuronales llegar a sus resultados. Esto también contribuye a identificar posibles 

sesgos en los datos de entrenamiento. En [55] por ejemplo, se visualizaron directamente los 

filtros de la primera capa. Dado que los filtros en capas altas reciben entradas de sus capas 

anteriores en lugar de píxeles, no hay una forma directa de visualizarlas. Se propuso entonces 

la red neuronal Deconvnet [56], donde se modificó el paso hacia atrás de la ReLU para solo 

permitir los gradientes positivos de las capas superiores. Tomando en cuenta la anterior, en 

[57] se propuso una técnica llamada Class Activation Mapping (CAM). Sin embargo, esta no 

puede ser a aplicada a estructuras con capas completamente conectadas y requiere que los 

mapas de características precedan directamente de las capas finales.  

El método CAM se empleó en [58] para determinar qué región de la red se consideraba con 

alta probabilidad de presentar nódulos pulmonares en cada radiografía. En la Figura 1.6 se 

puede apreciar una radiografía con nódulo antes y después de aplicarle el método CAM, 

donde las regiones con mayor probabilidad de presentar nódulos se destacan con colores más 

cálidos. La posición del nódulo señalada en la BD (base de datos) está encerrada por el área 

que el modelo tiene en cuenta para la clasificación. El área que se destaca es reducida, por lo 

que el modelo que ofreció este desempeño fue el seleccionado en el estudio original. 

 
Figura 1.6 Radiografía con presencia de nódulo pulmonar antes (izquierda) y después (derecha) 

de aplicarle CAM para evaluar la clasificación de la red. Extraído de [58]. 


CAPÍTULO 1 
16 

 
Los inconvenientes mostrados por CAM fueron mejorados con la introducción del mapeo de 

activación de clases ponderado por gradientes (del inglés Gradient-weighted Class Activation 

Mapping Grad-CAM) en [59], dándole al método anterior mayor alcance. Este utiliza el 

comportamiento de los gradientes en las capas finales para resaltar aproximadamente las 

regiones de la imagen tenidas en cuenta para la clasificación dada.  

Se ha afirmado que las representaciones más profundas en una CNN capturan construcciones 

visuales de alto nivel. Además, las características convolucionales retienen naturalmente la 

información espacial que se pierde en las capas completamente conectadas, por lo que 

podemos esperar que las últimas capas convolucionales tengan el mejor compromiso entre la 

semántica de alto nivel y la información espacial detallada [60]. 

1.5  Etapas de los sistemas CAD para la detección de nódulos pulmonares 

Las imágenes radiográficas de pulmón son comúnmente preprocesadas para mejorar su 

calidad antes de entrar a la red neuronal durante el entrenamiento y en la explotación del 

sistema. Esto aumenta la probabilidad de que la salida de la red sea la correcta. Así por 

ejemplo, se mejora el contraste entre las anomalías y el tejido sano [31] y se reduce el ruido 

[61] y los artefactos existentes sobre la imagen [62], aumentándose la efectividad de las etapas 

siguientes. En la Figura 1.7 se muestra un ejemplo de una imagen antes y después de pasar 

por esta fase. Obsérvese cómo mejora su contraste y la definición de estructuras, logrando 

que las posibles lesiones se perciban con mayor facilidad.  

 
Figura 1.7 Imagen original (izquierda). Imagen pre-procesada (derecha). Extraído de [31]. 

La siguiente etapa, luego del preprocesamiento, es la segmentación de la región pulmonar. 

Esta facilita la detección al reducir el área a examinar y elimina artefactos y otras estructuras 

(tráquea, bronquios, músculos, grasa) fuera del área de interés. Es un procedimiento difícil, 


CAPÍTULO 1 
17 

 
ya que las costillas y la clavícula poseen bordes fuertes, el área pulmonar puede variar entre 

pacientes, algunos órganos se superponen y pueden coexistir varias patologías [63].  

El método manual de segmentación consume mucho tiempo, por lo que se emplean 

algoritmos que lo hacen automáticamente, entre ellos: los basados en reglas [64], en formas 

activas [65], de aprendizaje automático, y recientemente, de aprendizaje profundo. 

Usualmente se combinan algunos, obteniéndose sistemas híbridos que presentan mejores 

resultados [66]. En la Figura 1.8 se muestra una imagen a modo de ejemplo, del resultado de 

esta etapa. 

       
Figura 1.8 Ejemplo de máscara de segmentación (izquierda). Región pulmonar delimitada (derecha). 

En [31] se utilizó la segmentación mediante el método de umbral de niveles múltiples,  

obteniendo una sensibilidad media del 93 %. Por otro lado, en [67], el empleo de un 

clasificador kNN permitió alcanzar una exactitud del 96.9 %; y en [68], al utilizar un 

clasificador de agrupamiento C-media difuso, se obtuvo una exactitud del 97.8 %. En algunos 

estudios además de segmentar el área pulmonar, eliminan las costillas para mejorar la 

visibilidad de los nódulos [17].  

En la imagen segmentada, las radio-opacidades son marcadas como candidatos a nódulos. 

Las lesiones pueden ser pequeñas y presentar variadas formas y texturas. También el valor 

de intensidad de los píxeles puede ser similar a la de sus alrededores, por lo que su detección 

se considera una tarea difícil. En [69] se propuso la imagen diferencia, como uno de los 

primeros métodos para detectar las radio-opacidades. Se han propuesto también técnicas 

basadas en detectores de manchas que utilizan el Laplaciano de Gauss [70], detectores de 

gradiente radial promedio [71], índice de convergencia multiescala ponderado [72], filtros de 

índice de convergencia  [72], lógica difusa [73] y aprendizaje profundo [16], [27], [74].  


CAPÍTULO 1 
18 

 
Otros ejemplos concretos de los resultados mencionados son los siguientes: la utilización de 

un filtro de convergencia de banda deslizante (SBF del inglés Sliding Band Filter) permitió  

lograr una especificidad de aproximadamente 120 detecciones por imagen y una de 

sensibilidad del 100 % en  [31]. La Figura 1.9 muestra un ejemplo de esta etapa. 

 
Figura 1.9 Candidatos a nódulos señalados. Extraído de [31]. 

Los candidatos detectados son segmentados antes de proceder a la extracción de sus 

características. En los trabajos [31] y [72] se emplea para la segmentación de las lesiones un 

algoritmo de umbral basado en la distancia adaptativa. Definir las características puede ser 

muy complicado, debido a la gran variabilidad que puede darse tanto en el tejido sano como 

en el tejido normal. Por esta razón, la mayoría de los estudios difieren en cuáles son las más 

adecuadas. Se aprecian principalmente: información de histogramas [69], salidas de filtros 

[75], características geométricas, de textura, de morfología, de intensidad [49] y 

características de degradado [72].  

La reducción de falsos positivos, por último, pretende eliminar la mayoría de los no-nódulos 

de la serie de candidatos surgidos durante la etapa de detección. Para esto se analizan las 

características de cada uno utilizando generalmente un clasificador basado en reglas, como 

el discriminante lineal de Fisher [72], filtros gaussianos o métodos de aprendizaje automático. 

Entre los métodos de aprendizaje automático más utilizados están: SVM [50, 76], [77], kNN, 

RF, k-media, RNA [75] o combinaciones de estos [78]. A pesar de los buenos resultados 

obtenidos, estos no son suficientes para su uso habitual en la práctica médica. Los sistemas 

basados en aprendizaje profundo superan en muchos casos los resultados de los métodos 

tradicionales de visión por computadora y reciben cada vez mayor atención de la comunidad 

científica. 


CAPÍTULO 1 
19 

 
1.6  Particularidades de los sistemas CAD basados en aprendizaje profundo 

Los sistemas basados en aprendizaje profundo determinan por sí mismos las ecuaciones que 

describen las lesiones, lo que les otorga gran ventaja frente a los sistemas tradicionales. Esta 

es una rama del aprendizaje automático que data de la década de 1940. Ha recibido varios 

nombres y ganado y perdido popularidad a lo largo de la historia [51]. Su auge durante los 

últimos años se debe a la superación de los principales obstáculos que evitaban que las 

arquitecturas profundas fueran empleadas. Entre estos se pueden mencionar: el 

desvanecimiento del gradiente, el sobreajuste y la gran carga computacional. El primero fue 

resuelto con la introducción de la función de activación ReLU, la regla de aprendizaje de 

entropía cruzada y el descenso del gradiente. El segundo fue superado con el uso de la 

regularización o dropout y el tercero, aún presente, ha sido enfrentado con el desarrollo de 

nuevo hardware, como las tarjetas de procesamiento gráfico (GPU del inglés Graphics 

Processing Units), y software para aprovecharlo al máximo [23]. También han sido 

favorecidos por la creciente digitalización, que ha aumentado la disponibilidad de datos 

requeridos por estos modernos algoritmos [79].  

Generalmente los estudios convergen en un número de capas muy superior al empleado por 

las técnicas tradicionales de aprendizaje automático. Los algoritmos de aprendizaje profundo 

emplean una cascada de capas con unidades de procesamiento no lineal para extraer y 

transformar variables. Cada capa posee un mayor nivel de abstracción que la anterior, 

formándose una jerarquía de conceptos [51]. Las arquitecturas profundas superan en 

rendimiento a los algoritmos tradicionales y permiten el empleo de RNA para resolver 

adecuadamente problemas no separables de manera lineal. 

La CNN es una de las arquitecturas de aprendizaje profundo más usadas en la clasificación 

de imágenes [22]. Esta imita el procesamiento de las imágenes en el cerebro, lo cual 

constituye la principal diferencia en concepto y operación respecto a las redes neuronales 

anteriores [23]. Los pesos en la red son compartidos para realizar operaciones de convolución 

en las imágenes [22]. Las capas de convolución generan los mapas de características X al 

aplicar un grupo de núcleos 𝑊 = {W , W , … , W , } y añadir sesgos 𝐵 = {𝑏 , … 𝑏  } a cada 

imagen de entrada en la forma: 

X =  𝜎(W ∗ X + 𝑏 )                                                                                (1.2) 


CAPÍTULO 1 
20 

 
donde σ es una transformación no lineal aplicada a cada característica.  

Los valores de los píxeles vecinos se combinan dejando el mayor valor o el medio 

(operaciones invariantes a las permutaciones) en las capas de agrupación. El agrupamiento 

es una técnica de submuestreo utilizada a menudo para mitigar el sobreajuste, con lo que se 

vuelve a incrementar la robustez de la red y se reducen aún más los parámetros necesarios y 

las dimensiones de las imágenes [79]. Al final se agregan capas totalmente conectadas y de 

normalización. En las capas totalmente conectadas, sin pesos compartidos, se le aplica por lo 

general, la función softmax a las activaciones de la última capa, para asignarle una clase a 

cada una.  

Debido a su principio de funcionamiento, las CNN realizan automáticamente el pre-

procesamiento, ya que generan sus propios filtros. Sin embargo, muchos sistemas aún 

emplean un preprocesamiento antes de entregar las imágenes a la red. La segmentación, por 

ejemplo, es un paso fundamental para esto, pues disminuye los requerimientos de cálculo 

[32] y evita que sean captadas estructuras ajenas al área de interés [80] que pueden constituir 

sesgos para la clasificación [81]. Un ejemplo de estas estructuras son las etiquetas textuales 

presentes comúnmente en las radiografías, como se demostró en [82].  

Los sesgos se evidencian cuando las características aprendidas por la red neuronal no son 

relevantes al emplearlas en escenarios del mundo real. Esto demuestra que los modelos 

pueden clasificar correctamente ciertas imágenes, pero carecen de capacidad de 

generalización a nuevos ejemplos [83]. El aprendizaje por atajos, como se identifica esta 

problemática, constituye uno de los principales obstáculos para lograr sistemas más 

confiables. En este caso los sistemas aprenden otras características que no son las de interés, 

para realizar la clasificación. Se recomienda, por tanto, determinar la validez de los modelos 

e interpretar cuidadosamente los resultados utilizando conjuntos de datos externos [80]. 

Un aspecto algo desventajoso de las CNN es la inmensa cantidad de datos que requieren, por 

lo general varios cientos de miles para que trabajen de forma óptima [51]. Sin embargo, 

generalmente las imágenes médicas disponibles para el entrenamiento de las redes son 

insuficientes. Las técnicas de aumento de datos [84] pretenden resolver esto. Estas 

comprenden la aplicación de transformaciones geométricas y de calidad a las imágenes como 

la ampliación, rotación en diversas direcciones [85], variación del brillo y del contraste, 


CAPÍTULO 1 
21 

 
mezcla de imágenes y borrado de ciertas partes de las mismas. Estos métodos permiten 

mejorar la sensibilidad de los modelos y disminuyen el riesgo de sobreajuste del sistema. 

Otro método empleado para afrontar esta dificultad es la transferencia de aprendizaje.  

La transferencia de aprendizaje parte de un modelo preentrenado con conjuntos de imágenes 

mucho mayores que los disponibles para la aplicación de interés. A este se le ajustan algunos 

pesos de las capas finales al entrenarlo nuevamente, pero empleando el conjunto de datos de 

interés [24].  

Las técnicas de aprendizaje automático se aplican desde hace unos años en la segmentación 

de la región pulmonar y de las lesiones. Más recientemente, se han empleado para esta tarea 

las de aprendizaje profundo también [32]. Las redes neuronales convolucionales asignan una 

clase a cada píxel para analizar la imagen; pero esto tiene un costo computacional muy 

grande. La mayoría de los estudios han optado por el empleo de una variante conocida como 

Fully ConvNet para resolver este inconveniente, las que son capaces de procesar imágenes 

de cualquier resolución a diferencia de las ordinarias. La arquitectura U-Net [86] se basa en 

este tipo de CNN y es una de las más empleadas para la segmentación [87]. Posee un canal 

de codificación y otro de decodificación que presentan cierta simetría, lo que les otorga la 

apariencia de U.  

Han surgido muchas arquitecturas de CNN para la segmentación y clasificación de imágenes. 

Las redes más profundas incluyen pequeños bloques para hacer el procesamiento más 

eficiente. Estos bloques presentan convoluciones de ramificación con capas de agrupación y 

normalización en lotes. Algunos ejemplos de estas redes son: LeNet [88] (1998), AlexNet 

(2012) [89], GoogLeNet (Inception v1) (2014) [90], VGG16/19 (2014), U-Net (2015) [86], 

ResNet (2015) [91], SqueezeNet (2016) [92] y DenseNet (2016) [93]. Las características de 

estas redes son combinadas para obtener las ventajas que cada una ofrece [94]. 

Se han presentado varios métodos durante las últimas cuatro décadas para segmentar la 

región pulmonar, detectar y segmentar candidatos a nódulos y clasificarlos. A pesar de las 

limitaciones para realizar una correcta comparación, se puede afirmar para la segmentación, 

que los métodos basados en reglas son frágiles y deficientes cuando las estructuras 

anatómicas están muy deformadas. En general su rendimiento es menor que los de las otras 

dos categorías, aunque por su rapidez aún se aprovechan en sistemas híbridos. Las técnicas 


CAPÍTULO 1 
22 

 
de aprendizaje automático han dado resultados intermedios hasta la fecha; presentando como 

principal dificultad la determinación del grupo apropiado de características [32]. Las de 

aprendizaje profundo han resuelto el problema de la forma más eficaz hasta el momento. No 

obstante, es importante resaltar que no se ha obtenido un algoritmo único que pueda aplicarse 

a todas las etapas, ya que se tiende a la especialización [95]. 

1.7  Conclusiones del capítulo 

Se puede plantear que mucho ha evolucionado el proceso de adquisición de las radiografías 

de tórax. Sin embargo, el bajo contraste y el pequeño tamaño que presentan las lesiones 

pulmonares provoca en muchos casos que su detección sea muy compleja. Estas dificultades 

se presentan también en los sistemas automatizados de diagnóstico. Se han empleado 

históricamente en estos, métodos de aprendizaje automático que utilizan características 

extraídas manualmente. Sin embargo, recientemente se han introducido métodos de 

aprendizaje profundo que permiten prescindir del preprocesamiento, la segmentación y de la 

extracción de características necesarios en los métodos tradicionales, posibilitando una 

mayor robustez y menores tiempos de ejecución. Por lo tanto, se justifica el desarrollo de 

sistemas automatizados, basado en redes neuronales convolucionales de aprendizaje 

profundo, capaces de detectar las principales lesiones pulmonares para ayudar a los 

especialistas en sus diagnósticos.  

 
CAPÍTULO 2 
23 

 
CAPÍTULO 2. MATERIALES Y MÉTODOS 

 
En el presente capítulo se describen los conjuntos de imágenes y el software utilizado en la 

presente tesis. Se analizan los métodos empleados para aumentar el conjunto de imágenes y 

las arquitecturas de redes neuronales convolucionales seleccionadas para segmentar y para 

detectar nódulos. También se expone el proceso de entrenamiento, validación y prueba de la 

red de detección y se caracteriza el hardware con el que se procesó toda la información. 

2.1  Descripción de los conjuntos de imágenes utilizados 

En esta investigación se utilizaron dos conjuntos anotados de radiografías, una para entrenar 

los modelos, y otro de diferente origen, para evaluar su capacidad de generalización. El 

primero fue un conjunto de radiografías frontales de tórax, creado a partir de la combinación 

de las BD ChestX-ray14 [96], PadChest [97] y Openi [98], en las cuáles, de las imágenes con 

nódulos, se cuenta con la ubicación de cada lesión. Cada una de estas radiografías presenta 

una única lesión. Este conjunto se utilizó para entrenamiento y validación de la red de 

detección. Se utilizó la BD JSRT (Japón) [53] para realizar la prueba externa. Las 

características generales de estas BD se recogen en la Tabla 2.1.  

Tabla 2.1 Bases de datos utilizadas en la investigación 

 
Nombre de la BD 

Total de imágenes 

sin lesiones 

Total de imágenes 

con nódulos  

ChestX-ray14 2348 617 

PadChest 1196 314 

Openi 205 54 

Total 3749 985 

JSRT 93 153 


CAPÍTULO 2 
24 

 
2.2  Software y hardware empleados 

Se utilizó el lenguaje de programación Python y el marco de trabajo de aprendizaje 

automático Fastai para implementar el sistema de IA.  

Se utilizó una computadora de escritorio con las siguientes prestaciones: 

 Procesador (CPU): Intel® Core™ i7-8700 3.2 GHz 

 Tarjeta Gráfica: NVIDIA GeForce® RTX 3070 8 GB GDDR6 

 RAM: 32 GB (2 x 16 GB) DDR4 3200MHz 

 Placa Base: MSI B365M PRO-VH 

 Almacenamiento: SSD 128GB M.2 SATA + HDD 1TB (7200RPM) 

2.3  Preprocesamiento de las imágenes para el entrenamiento  

Se probaron tres estrategias. La primera fue el empleo de las imágenes completas extraídas 

directamente de las BD. En la segunda, estas mismas imágenes fueron segmentadas, 

extrayendo la región pulmonar, antes de ser analizadas por la red neuronal. Para la tercera 

estrategia, se utilizaron regiones de interés de dos tamaños diferentes de parches.  

Se aplicaron técnicas de aumento de datos para generar más imágenes de las presentes en el 

conjunto mostrado en la Tabla 2.1, empleando las funcionalidades que incluye Fastai. Estas 

variaron en dependencia de las características de las imágenes a analizar con las redes 

neuronales y se describen más adelante para cada estrategia. 

2.3.1  Imagen completa 

En esta estrategia se emplearon las imágenes completas extraídas directamente de las BD. 

Estas fueron redimensionadas a 224 x 224 píxeles, que es el tamaño usual que acepta la CNN 

utilizada. En este caso el aumento de datos se hizo sobre la base de rotar hasta 15 grados cada 

imagen a derecha e izquierda. Otra técnica implementada fue ampliar hasta un 110 % el 

tamaño original de cada imagen, y en otros, reducirlo hasta el 80 %. Además, se disminuyó 

el brillo de las imágenes originales hasta el 80 % y se voltearon horizontalmente.  


CAPÍTULO 2 
25 

 
2.3.2  Segmentación de la región pulmonar 

En la segunda estrategia se segmentó la región pulmonar de cada radiografía utilizando una 

CNN preentrenada1 basada en la arquitectura U-Net [86]. Esta red fue entrenada con 

imágenes radiográficas y máscaras segmentadas a mano por especialistas humanos, 

pertenecientes a los conjuntos Montgomery [99]. La aplicación de esta etapa pretendió 

disminuir la probabilidad de aprendizaje por atajos o características fuera de la región 

pulmonar. Las máscaras obtenidas también se emplearon en la obtención de los cuadros 

delimitadores de ambos pulmones. 

Las imágenes de entrada a la red tuvieron una resolución de 256 x 256 píxeles. La 

arquitectura de segmentación presenta dos secciones fundamentales: un canal de codificación 

y otro de decodificación, en las cuales se aprecia una simetría que le otorga la apariencia de 

U. En total, la red contó con 23 capas convolucionales y aplicó transformaciones 

automáticamente para aumentar el número de imágenes de entrenamiento, obteniendo una 

mayor robustez [86]. La Figura 2.1 muestra el esquema de la arquitectura implementada. 

 
Figura 2.1 Esquema de arquitectura U-Net. Cada bloque azul corresponde a un mapa de 

características de varios canales. El número de canales se indica encima de cada rectángulo y la 

resolución a la izquierda. Las flechas señalan las operaciones ejecutadas. A la entrada se introduce 

una radiografía y la red devuelve una máscara de segmentación. Adaptado de [86]. 

 
1 https://github. com/imlab-uiip/lung-segmentation-2d  


CAPÍTULO 2 
26 

 
El canal de codificación consistió en la aplicación repetida de dos convoluciones de 3x3 

píxeles (convoluciones sin relleno), cada una seguida de una capa con función ReLU y una 

operación de agrupación máxima de 2x2 píxeles con stride de 2, para reducir la resolución. 

En cada paso de reducción se duplicaron los canales de características. En el canal de 

decodificación se incrementó la resolución de la imagen a la salida, para compensar las 

pérdidas del paso anterior. Se incrementó el muestreo del mapa de características seguido de 

una convolución 2x2 píxeles (convolución ascendente) que dividió a la mitad el número de 

canales de funciones. Para la localización de lesiones, las características de alta resolución 

de la ruta de contracción fueron concatenadas con las de expansión. En la capa final se utilizó 

una convolución de 1x1 píxel para asignar cada característica extraída al número deseado de 

clases.  

La imagen devuelta por esta red fue sometida a una etapa de postprocesamiento para 

mejorarla. Los agujeros encontrados fueron rellenados en las regiones conectadas a partir de 

la operación de apertura morfológica. Se realizó una dilatación de la máscara de 

segmentación, utilizando un elemento estructurante en forma de disco de dimensiones 

proporcionales a la imagen. Se utilizó el 2 % de la imagen como radio del elemento 

estructurante. Esta operación persiguió aumentar la máscara de segmentación obtenida y 

proporcionarle a la red más información sobre los pulmones. El aumento de datos en esta 

estrategia fue semejante al descrito en el acápite anterior. 

2.3.3  Extracción de la región correspondiente al cuadro delimitador de cada lesión 

Una de las deficiencias que presentan los métodos basados en DL para identificar nódulos 

pulmonares a partir de CXR, es la baja resolución de las imágenes utilizadas para entrenar 

las redes. En la mayoría de los trabajos al emplear redes preentrenadas se utilizan imágenes 

de 224 x 224 píxeles. Este proceso de redimensionamiento puede hacer que se pierdan 

características importantes en las imágenes. Debido a esto, en esta investigación la tercera 

estrategia estuvo enfocada a paliar este inconveniente. De ahí que, en lugar de imágenes 

completas o segmentaciones de pulmones completos, se utilizara la división en regiones de 

interés (son cuadros delimitadores de lesiones o regiones sanas, también denominados 

parches).  


CAPÍTULO 2 
27 

 
Esta estrategia consistió en extraer un parche correspondiente al cuadro delimitador de cada 

nódulo y otro, de igual tamaño, de una región sin esta anomalía, de cada radiografía con 

presencia de lesiones. Se probó una variante adicional de mayor tamaño de región, 

correspondiente a un 96 % superior a la de la primera variante. La Figura 2.2 presenta los 

dos ejemplos de regiones seleccionadas de diferentes tamaños, correspondientes al mismo 

nódulo y de dos regiones normales. 

   
Figura 2.2 Parches de diferente tamaño correspondientes a la misma lesión y a tejido normal. Área 

correspondiente al cuadro delimitador de la lesión (izquierda arriba); área superior en un 96 % a la del 

cuadro delimitador (derecha arriba), región sana en dos tamaños diferente (debajo). 

Para el aumento de datos en ambas estrategias, se aplicaron las transformaciones aplicadas 

en las estrategias anteriores y, además, se realizaron rotaciones de hasta 180 grados en ambas 

direcciones y se voltearon verticalmente. El Anexo 1 muestra el código de su 

implementación.  

A partir de estas divisiones se obtienen nuevos conjuntos de imágenes. Las sub-imágenes 

con presencia de las características de interés (nódulos) se ubicaron en una carpeta y las 

restantes en otra. Con esto se logró un etiquetado correcto, lo cual es imprescindible para el 

entrenamiento de las CNN [100]. 

2.4  Entrenamiento, validación y prueba de los modelos 

Se realizaron varios ensayos de prueba y error para obtener el mejor modelo. En todos los 

casos las BD se dividieron en dos grupos, el 80 % para entrenar los modelos y el 20 % para 

validarlos. En cada carpeta de las representadas en la Figura 2.3 se dividieron las imágenes 


CAPÍTULO 2 
28 

 
en cuatro: sin nódulos para entrenamiento, con nódulos para entrenamiento, sin nódulos para 

validación y con nódulos para validación. 

Se probó como arquitectura de red neuronal SqueezeNet 1.1 (en lo adelante solo 

SqueezeNet), que es una red no tan costosa computacionalmente (buscando eficiencia), con 

las tres estrategias de obtención de imágenes para entrenamiento y validación. La selección 

de esta red se justifica con su actual aceptación por la comunidad científica internacional 

[101]. El Anexo 2 muestra el código utilizado para cargarla. 

 
Figura 2.3 Estrategias de entrenamiento de los modelos de detección 

Utilizando las herramientas de Fastai se implementó la arquitectura mencionada. Se podría 

hacer un entrenamiento desde cero, pero se aprovecharon modelos preentranados en el 

conjunto Image-Net que Fastai incorpora. Así, dado el limitado conjunto de datos de esta 

investigación, las CNN aprenderían solamente las características de alto nivel 

(correspondientes a estructuras anatómicas) en tanto se aprovecha del modelo preentrenado 

el aprendizaje de estructuras más sencillas como líneas, bordes, entre otras.  

El modelo preentrenado correspondiente a la arquitectura empleada requiere que las 

imágenes suministradas sean RGB con resolución 224 x 224 píxeles, por lo que estas fueron 

Train CNN 


CAPÍTULO 2 
29 

 
redimensionadas y se les triplicó el único canal que presentan para convertirlas de escala de 

grises a RGB. Posteriormente cada una fue normalizada según la media y la desviación 

estándar del conjunto Image-Net.  

Se aplicó además transferencia de aprendizaje. Esta consistió en que durante las dos primeras 

épocas de cada entrenamiento se conservaron los pesos de los modelos preentrenados 

cargados, excepto los de la última capa, que son los que se ajustan para aprender las 

características de alto nivel antes mencionadas. La aplicación de la transferencia de 

aprendizaje, unida a las técnicas de aumento de datos, permitieron satisfacer en parte, la gran 

cantidad de datos requerida por la CNN utilizada. 

Posteriormente todos los pesos de los modelos fueron recalculados al realizar un ajuste fino 

de la red durante 30 épocas. En este punto se comparó la evolución de las funciones de 

pérdidas durante el entrenamiento y la validación y se examinó el valor final de la tasa de 

aprendizaje. En el caso que dichas funciones convergieran en el gráfico, se determinaba una 

nueva tasa de aprendizaje óptima, utilizando la herramienta denominada “buscador de tasa 

de aprendizaje” (lr_finder) incluida en Fastai, la cual lo hace automáticamente. Se 

continuaba el entrenamiento por otras 30 épocas, empleando este nuevo valor como el inicial 

y actualizando los pesos de toda la red. Este proceso se repitió hasta apreciar que las pérdidas 

durante la validación se tornaran superiores a las apreciadas en el entrenamiento.  

Se debe aclarar que las diferentes estrategias ejecutadas compartieron la mayor parte de los 

ajustes descritos.  La selección correcta de la tasa de aprendizaje fue fundamental para 

mejorar la velocidad del entrenamiento y el desempeño de los modelos. Un valor inicial muy 

elevado de la misma puede provocar que las pérdidas durante la validación se incrementen 

inmediatamente. El Anexo 3 muestra el código para utilizar la herramienta de búsqueda de 

tasa de aprendizaje de Fastai. 

Otras especificaciones utilizadas en la implementación de la red fueron: el empleo del 

optimizador Adam por su adaptabilidad y robustez con parámetros β1 = 0.9 y β2 = 0.999 y 

la selección como función de pérdidas la de entropía cruzada (CrossEntropyLoss).  

El método de entrenamiento empleado fue el expuesto en [102] denominado 1cycle policy. 

Es el método recomendado por Fastai y el que emplea en sus funciones fine_tune y 


CAPÍTULO 2 
30 

 
fit_one_cycle, las que fueron utilizadas para entrenar los modelos como se describe en los 

Anexos 3 y 4. El mismo consiste en incrementar progresivamente la tasa de aprendizaje hasta 

un máximo definido y luego reducirla hasta un valor mucho menor que el inicial a menor 

velocidad, permitiendo usar tasas mucho mayores que en otros tipos de entrenamiento. El 

incremento inicial acelera el entrenamiento y evita el sobreajuste, mientras que la reducción 

disminuye el error en las predicciones de los modelos. 

Como no se puede entrenar con todas las imágenes a la vez, se entrenó progresivamente con 

pequeños grupos de imágenes, denominados lotes. Por tanto, el tamaño de cada lote fue otro 

factor muy importante a tener en cuenta. El mayor tamaño de los lotes beneficia la estabilidad 

de los entrenamientos, pero al decrementar el número de lotes por época, los pesos en las 

redes tienen menos oportunidades de actualizarse. El número más adecuado se seleccionó 

mediante prueba y error. En todos los entrenamientos se empleó un tamaño de lote de 32. 

Se empleó el método Grad-CAM para visualizar las regiones de las radiografías en las que 

los modelos pusieron su atención para detectar los nódulos pulmonares [59]. El principal 

objetivo de este método fue determinar si los modelos se fijaban en zonas válidas o si se 

introducían sesgos debido al aprendizaje por atajos [80]. Se implementó este método usando 

las facilidades que otorga Fastai. 

Al finalizar cada época se validó el modelo. Para esto se emplearon como métricas la 

sensibilidad, precisión, exactitud, exactitud balanceada y el valor F1, definidas a 

continuación: 

Sensibilid =                                                                   (2.1) 

Precisión =                                                                    (2.2) 

Exactitud =                                                                      (2.3) 

Exactitud Balanceada = ∗ ( +  )                                                                      (2.4) 

Valor F1 =  
 

                                                                   (2.5) 


CAPÍTULO 2 
31 

 
Donde VP (verdaderos positivos) corresponde a los elementos que el sistema detecta como 

positivos, coincidiendo con la anotación de la BD. Los VN (verdaderos negativos) son los 

elementos que el sistema detecta como negativos, coincidiendo también con la anotación de 

la BD. Los FP (falsos positivos) son los elementos que el sistema detecta como positivos 

contrario a la anotación en la BD. Los FN (falsos negativos) son los elementos que el sistema 

detecta como negativos, cuando la anotación de la BD los muestra como positivos.  

Los resultados de estas métricas permitían evaluar cómo avanzaba el rendimiento del modelo. 

El modelo se guardó siempre que se llegaba a un mejor comportamiento de la precisión 

balanceada.    

Para desarrollar la validación se utilizó el 20 % de los datos de cada conjunto. Esto permitió 

valorar el desempeño de los modelos en imágenes no vistas durante el entrenamiento. Estos 

resultados definían si se continuaba con el entrenamiento o si ya se habían alcanzado los 

mejores rendimientos. 

Finalmente se comprobó la capacidad de generalización de los modelos mediante una prueba 

externa. Se ejecutó exactamente en las mismas condiciones descritas hasta este punto, pero 

para conjuntos de datos obtenidos a partir de la BD JSRT (nunca antes vistos por la red).  

2.4.1    SqueezeNet 

La arquitectura SqueezeNet cuenta con varios módulos fire como base, los que poseen una 

capa de contracción (que solo tiene filtros convolucionales de 1x1) y otra de expansión (que 

emplea filtros convolucionales de 1x1 y 3x3). La capa de compresión ayudó a limitar el 

número de canales de entrada a los filtros de 3x3. La Figura 2.4 muestra un esquema de un 

módulo fire. 


CAPÍTULO 2 
32 

 
Figura 2.4 Organización de los filtros de convolución en un módulo fire. Tomado de [92]. 

SqueezeNet carece de capas totalmente conectadas. Se divide en una etapa de extracción de 

características y otra de clasificación. La primera está compuesta por una capa de 

convolución seguida por una de agrupamiento máximo; luego se aprecian dos módulos fire, 

otra capa de agrupamiento máximo y cuatro módulos fire. La segunda etapa cuenta con una 

capa de dropout, otra de convolución que da la salida de clasificación (dos clases en la 

aplicación de interés) y una última capa de agrupamiento máximo. Las salidas de las capas 

de convolución pasaban a través de funciones de activación de tipo ReLU. La Figura 2.5 

muestra un esquema de esta arquitectura. Como Fastai también incluye la definición de esta 

arquitectura y un modelo preentrenado basado en la misma, no fue necesario implementarla. 

 
Figura 2.5 Esquema de la arquitectura SqueezeNet. 

  
CAPÍTULO 3 
33 

 
CAPÍTULO 3. RESULTADOS Y DISCUSIÓN 

 
En el presente capítulo se exponen los resultados de la detección de nódulos pulmonares 

alcanzados utilizando una red neuronal convolucional para tres estrategias de entrada de 

imágenes al entrenamiento y validación. Se evalúan los resultados comparando la salida de 

la red con las anotaciones presentes en la BD creada a partir de ChestX-ray14 [96], PadChest 

[97] y Openi [98]. Se analizaron además los trabajos de otros autores que emplean otros tipos 

de redes neuronales y BD similares a modo de comparación con los presentes resultados. Se 

obtuvieron varios modelos basados en la arquitectura SqueezeNet. Todos contaron con una 

salida de clasificación en dos clases: con nódulo y sin nódulo. Se discute el mejor modelo 

obtenido y se somete a una prueba externa para valorar su poder de generalización. 

3.1 Resultados de cada estrategia para el entrenamiento y validación de los modelos 

3.1.1 Imagen completa 

La primera estrategia probada fue la detección de las lesiones en las imágenes completas 

como las mostradas en la Figura 3.1, para la CNN SqueezeNet [92]. Se aprecian en la misma 

figura algunas de las imágenes resultantes a partir de una imagen original sobre la que se 

aplicaron técnicas de aumento de datos. 

     
Figura 3.1 Imágenes completas empleadas en el entrenamiento (izquierda). Imágenes resultantes de la 

aplicación de las técnicas de aumento de datos (derecha). 

La Figura 3.2 muestra el progreso de las últimas 30 épocas del entrenamiento. Obsérvese el 

comportamiento de la curva naranja correspondiente al valor de las pérdidas en el conjunto 


CAPÍTULO 3 
34 

 
de validación. Esta exhibe valores crecientes, separándose de la azul (pérdidas durante el 

entrenamiento). Se detuvo el entrenamiento al apreciarse que estas se separaron, lo cual 

indica que hubo un sobreajuste en el modelo para esta estrategia con la CNN SqueezeNet 

[103].  

 
Figura 3.2 Progreso de la última etapa de entrenamiento del modelo para radiografía completa. 

Como mejor modelo obtenido se seleccionó el que alcanzó una exactitud balanceada de 80,56 

% en la etapa de validación, lo cual se produjo para la época 11. La Figura 3.3 muestra la 

matriz de confusión obtenida al evaluar el modelo con el conjunto de validación. A partir de 

esta matriz se calcularon las métricas de desempeño del modelo: sensibilidad (64,95 %), 

precisión (83,23 %), exactitud (89,11 %), exactitud balanceada (80,56 %) y el valor F1 (72,97 

%).  

Épocas 

P
ér

di
da

s 


CAPÍTULO 3 
35 

 
Figura 3.3 Matriz de confusión del modelo con mejor exactitud balanceada para radiografías completas. 

Como se aprecia, se obtuvieron 28 falsos positivos y 75 falsos negativos. Este desempeño se 

pudiera valorar como favorable si se compara con el desempeño humano que es entre 49 % 

y 65 % [27]. Sin embargo, se debe comprobar si el aprendizaje y clasificación han sido hechos 

correctamente en base a la característica de interés (nódulos) o si se basa en atajos o sesgos.  

A fin de valorar la calidad del desempeño de la red para la tarea, se aplicó el método Grad-

CAM para verificar qué regiones fueron identificadas por la misma como significativas para 

desarrollar la detección. La Figura 3.4 muestra la aplicación del Grad-CAM. Los colores 

cálidos indican las regiones de mayor peso para la clasificación. Se evidencia que varias 

regiones son ajenas al área de los pulmones. Esto significa que el sistema posee sesgos, por 

lo que la aparentemente buena clasificación no se puede considerar como correcta [80].  

 
R
ea

l 

Predicción 


CAPÍTULO 3 
36 

 
Figura 3.4 Grad-CAM aplicado a varias imágenes siguiendo la misma estructura de la matriz de 

confusión de la Figura 3.3.  El círculo blanco indica la localización real de la lesión. Las flechas 

negras indican sitios donde la red neuronal se basa para clasificar como VP, VN, FP y FN. 

Se puede apreciar, en el extremo superior izquierdo, que la red lo detecta como una imagen 

con un positivo, lo cual es cierto (VP). Sin embargo, se aprecia que la red ve tanto el sitio 

real como otros donde no hay lesión y que están fuera de la región pulmonar, lo cual 

constituye un sesgo en el modelo. Para la imagen superior derecha, donde realmente hay un 

nódulo, la red neuronal no ha tenido en cuenta para su clasificación la región real donde este 

se encuentra. Por esta razón, constituye un falso negativo. La imagen se ha clasificado como 

negativa, dado que en los sitios activados (señalados con flechas), no hay nódulos. Esto es 

cierto, pero constituye un sesgo, ya que son regiones fuera de la región pulmonar, en tanto 

no identificó la región con nódulo real. La imagen inferior izquierda, es normal. Sin embargo, 

la red la ve como positiva, constituyendo un FP. Obsérvese que se marcan activos sitios fuera 

de la región pulmonar. Por último, en la imagen inferior derecha, donde no hay nódulo, la 

red lo da como negativo, pero marca como sitios activos, varios que se encuentran fuera de 

la región pulmonar. Concluyendo, la estrategia de utilizar una imagen completa con la CNN 

SqueezeNet, no ha sido satisfactoria. 

 
CAPÍTULO 3 
37 

 
3.1.2 Imagen segmentada 

Debido al aprendizaje por atajos evidenciado en la estrategia anterior, se segmentó el área 

pulmonar en las imágenes completas como muestra la Figura 3.5. Esto se realizó para obligar 

a la red neuronal a emitir una clasificación basándose solo en la región pulmonar. Se aprecian 

en la misma figura algunas de las imágenes resultantes tras la aplicación de las técnicas de 

aumento de datos. 

   
Figura 3.5 Imágenes segmentadas para desarrollar el entrenamiento (izquierda). Imágenes 

segmentadas resultantes de la aplicación de las técnicas de aumento de datos (derecha). 

Al observar el valor que asumen las pérdidas de la red durante la validación (línea naranja en 

la Figura 3.6) se aprecia cómo se detuvo el entrenamiento. Las pérdidas durante la validación 

aumentaron, separándose de la línea azul (pérdidas durante entrenamiento). Esto indica un 

sobreajuste en el modelo. En este caso, se seleccionó como modelo de referencia aquel con 

mayor valor de exactitud balanceada en la etapa de validación de cada época, guardado 

durante el entrenamiento. 

 
Figura 3.6 Comportamiento del modelo para imagen segmentada 

P
ér

di
da

s 

Épocas 


CAPÍTULO 3 
38 

 
El modelo seleccionado alcanzó una exactitud balanceada de 93,41 % en la etapa de 

validación para la época 9. La Figura 3.7 muestra la matriz de confusión obtenida al evaluarlo 

en el conjunto de validación. A partir de esta se calcularon las métricas de desempeño del 

modelo: sensibilidad (90,10 %), precisión (88,27 %), exactitud (95,29 %), exactitud 

balanceada (93,41 %) y el valor F1 (89,18 %).  

 
Figura 3.7 Matriz de confusión del modelo con mejor exactitud balanceada para imágenes segmentadas 

de pulmones. 

Estos indicadores parecen ser favorables, sobre todo si se compara contra el desempeño 

humano [27]. Para el conjunto de datos utilizados se obtuvieron 73 FP y 19 FN.  Sin embargo, 

al aplicar el método Grad-CAM para verificar las regiones tenidas en cuenta por la red para 

detectar nódulos a partir de imágenes segmentadas, se evidencia que este modelo, aunque 

mejora respecto al desempeño del modelo anterior, tampoco es capaz de identificar 

adecuadamente todas las regiones con nódulos. La Figura 3.8 muestra esta evidencia. 

R
ea

l 

Predicción 


CAPÍTULO 3 
39 

 
Figura 3.8 Grad-CAM aplicado a imágenes con pulmones segmentados siguiendo la misma estructura 

de la matriz de confusión de la Figura 3.7. El círculo blanco indica la localización real de la lesión. 

En el extremo superior izquierdo se identifica la región con el nódulo correctamente, pero se 

marcan otras zonas que no los poseen. En el extremo superior derecho, no se detecta el 

nódulo, por tanto, es un falso negativo. La imagen se clasifica como negativa basado en la 

activación de zonas que realmente son negativas. En el extremo inferior izquierdo, se 

muestran activas como positivas zonas donde realmente no hay nódulo, por tanto, es un FP, 

y en la de la derecha se identifica correctamente que la imagen es negativa. En todos los casos 

se muestran activaciones fuera de la región pulmonar.   

3.1.3 Regiones de interés 

Para paliar el problema de la baja resolución de imagen en las dos estrategias anteriores se 

trabajó en esta con imágenes correspondientes a regiones restringidas al cuadro delimitador 

de cada lesión y otras de tamaño semejante sobre tejido sano (parches). Se utilizaron dos 

dimensiones diferentes para estos parches. Así, las secciones correspondientes a los cuadros 

delimitadores le permitieron a la red SqueezeNet concentrarse solo en las regiones que 

presentan las características de interés (normal o patológica). 

 
CAPÍTULO 3 
40 

 
Regiones de interés más pequeñas 

En esta estrategia, a diferencia de las anteriores, tras culminar las primeras 30 épocas para 

los parches más pequeños, se obtuvo la tasa de aprendizaje más adecuada. Como aún era 

posible seguir mejorando el modelo, este se cargó, se calculó un nuevo valor de tasa de 

aprendizaje que fue (10-4) y se entrenó por otras 30 épocas.  La Figura 3.9 muestra la gráfica 

devuelta por el buscador incluido en Fastai y cuatro valores de tasa de aprendizaje que 

recomienda a partir de métodos automatizados de búsqueda. De estos se seleccionó valley 

(del inglés valle), siguiendo el criterio de aceptación que tiene por la comunidad científica 

para este hiperparámetro [104]. 

 
Figura 3.9 Comportamiento de la tasa de aprendizaje en la estrategia de parches pequeños 

La Figura 3.10 muestra el progreso de las últimas 30 épocas del entrenamiento para los 

parches más pequeños. Obsérvese el comportamiento de la curva naranja correspondiente a 

la validación. Se aprecia que este modelo aún tiene potencialidades para refinarse más. Se 

recomienda entrenar durante más épocas, lo cual no fue realizado en el marco de esta 

investigación por razones de tiempo. Los entrenamientos de esta variante tuvieron una 

duración promedio de 20 segundos por época. 

P
ér

di
da

 
Tasa de aprendizaje 


CAPÍTULO 3 
41 

 
Figura 3.10 Comportamiento del modelo para parches pequeños 

La Figura 3.11 muestra la matriz de confusión correspondiente al modelo con mejor exactitud 

balanceada en el conjunto de validación (92,99 %) para los parches más pequeños. A partir 

de esta se calcularon las métricas de desempeño: sensibilidad (88,77 %), precisión (94,05 %), 

exactitud (94,40 %), exactitud balanceada (92,99 %) y el valor F1 (91,34 %).  

 
Figura 3.11 Matriz de confusión del modelo con mejor exactitud balanceada para los parches más 
pequeños. 

Predicción 

R
ea

l 

P
ér

di
da

s 

Épocas 


CAPÍTULO 3 
42 

 
Obsérvese cómo se reducen las tasas de FP y FN a 11 y 22 respectivamente. Dado que en 

este modelo los valores de las métricas de desempeño se hacen cada vez más fuertes en 

relación con el desempeño humano, se requiere evaluar si el aprendizaje fue real o por atajos, 

para evidenciar si el comportamiento de la red es correcto o no.    

La aplicación del método Grad-CAM se aprecia en la Figura 3.12. Permite verificar, las 

porciones de cada parche tenidas en cuenta por la red para efectuar la detección. Se interpreta 

que la red toma en cuenta los bordes de las lesiones para su detección en los casos positivos 

correctamente, mientras que, en los negativos, el mapa de atención es más disperso. Este 

comportamiento sin duda es mucho mejor a lo obtenido en las estrategas anteriores [58].  

    
Figura 3.12 Grad-CAM aplicado a imágenes correspondientes a los cuatro casos encontrados 

durante la evaluación del sistema (VP, FN, FP, VN, de izquierda a derecha, de arriba hacia abajo). 

Para las imágenes de la parte superior, correspondientes a un parche con un nódulo real, la 

red o lo identifica o al menos detecta sus bordes. Para las imágenes negativas inferiores, el 

mapa se activa adecuadamente en varias regiones donde no está un nódulo. 

Regiones de interés más grandes 

Se entrenó con los parches más grandes también durante 30 épocas. Al apreciarse que aún 

era posible obtener un mejor desempeño del modelo, este se cargó, se calculó un nuevo valor 


CAPÍTULO 3 
43 

 
de tasa de aprendizaje adecuado (3 x 10-4) y se entrenó por otras 30 épocas.  La Figura 3.13 

muestra la gráfica devuelta por el buscador incluido en Fastai y los cuatro valores de tasa de 

aprendizaje que este recomienda. Al igual que en el caso anterior, se escogió valley de 

acuerdo con el nivel de aceptación existente [104]. 

 
Figura 3.13 Comportamiento de la tasa de aprendizaje en la estrategia de parches más grandes. 

La Figura 3.14 muestra el progreso de las primeras 30 épocas del entrenamiento para los 

parches más grandes. Al igual que en el caso anterior, se aprecia que el modelo tiene 

posibilidades de refinarse aún más en el futuro, es decir, de lograr una caída más abrupta de 

las pérdidas en ambas gráficas (entrenamiento y validación). Se recomienda entrenar durante 

más épocas. No obstante, el modelo muestra buena concordancia entre entrenamiento y 

validación, sin apreciarse un sobreajuste evidente. 

 
Figura 3.14 Comportamiento del modelo para parches grandes 

Tasa de aprendizaje 

P
ér

di
da

 
Épocas 

Pé
rd

id
as

 
CAPÍTULO 3 
44 

 
La Figura 3.15 muestra la matriz de confusión correspondiente al modelo con mejor exactitud 

balanceada en el conjunto de validación (78,16 %) para los parches más grandes. A partir de 

esta, se calcularon las métricas de desempeño: sensibilidad (61,96 %), precisión (82,01 %), 

exactitud (84,87 %), exactitud balanceada (78,16 %) y el valor F1 (70,59 %).  

 
Figura 3.15 Matriz de confusión del modelo con mejor exactitud balanceada para los parches más 

grandes 

Las tasas de FP y FN suben con respecto al modelo usando parches pequeños. En este caso 

se obtiene 25 y 70 respectivamente. Se verificó además si el aprendizaje de este modelo fue 

real o por atajos con la aplicación de Grad-CAM (Figura 3.16).  

Como se aprecia en el mapa Grad-CAM, el modelo es capaz de tener en cuenta regiones 

correctas para realizar la detección. Siguiendo para la figura anterior el mismo orden de la 

matriz de confusión, el VP coincide en localización con la ubicación real del nódulo. El FN 

se debe a que se trata de un nódulo muy pequeño y el modelo no fue capaz de identificar 

correctamente los bordes de la lesión. En el caso del FP marca una costilla como si fuese una 

lesión y el VN está bien delimitado. 

 
R
ea

l 

Predicción 


CAPÍTULO 3 
45 

 
Figura 3.16 Grad-CAM aplicado a imágenes correspondientes a los cuatro casos encontrados durante 

la evaluación del sistema (VP, FN, FP, VN, de izquierda a derecha, de arriba hacia abajo). 

Como se puede apreciar, entre todas las estrategias de entrenamiento probadas, la que mejor 

ajusta el modelo, utilizando la red SqueezeNet para la detección de nódulos pulmonares, fue 

la de los parches pequeños. La misma posee una exactitud balanceada de 93 %, con las tasas 

más bajas de FP y FN logradas y, además, no se aprecia un sobreajuste evidente del modelo. 

Quedan algunos sesgos que propician detecciones incorrectas, que pudieran ser atenuados 

incrementando el tiempo de entrenamiento (más épocas) o utilizando una red de arquitectura 

más profunda y, por ende, más costosa computacionalmente. Se comprueba que la mejor 

resolución espacial de entrada al modelo, a partir de utilizar imágenes más pequeñas, es 

importante para la adecuada detección de las lesiones. 

3.2 Prueba externa 

Se ejecutó la prueba externa para el modelo obtenido con la mejor estrategia de 

entrenamiento (parches pequeños). En este caso se utilizó como BD la JSRT, no vista con 

anterioridad por la red neuronal implementada. La Figura 3.17 muestra la matriz de confusión 

correspondiente. A partir de esta se calcularon las métricas de desempeño: sensibilidad 

(40,94%), precisión (91,04%), exactitud (78,97 %), exactitud balanceada (69,46 %) y el valor 

F1 (56,48 %).  


CAPÍTULO 3 
46 

 
Figura 3.17 Matriz de confusión para la BD externa a partir de parches pequeños 

Como se puede apreciar, aún el poder de generalización del modelo es limitado [80] para 

reconocer los VP, comportándose muy bien para los VN. Esto remarca la importancia de 

continuar ajustando los parámetros del modelo para buscar su generalización, ya sea a partir 

de arquitecturas más profundas o utilizando un mayor número de épocas en el entrenamiento. 

Un aspecto que no se debe pasar por alto, es la necesidad de entrenar las CNN con altos 

volúmenes de datos. En esta investigación, a pesar de utilizar aumento de datos, el número 

total de imágenes originales utilizadas con la estrategia de parches pequeños no superó las 

2947. Existen estudios que plantean que volúmenes adecuados de entrenamiento rondan las 

10 000 imágenes [105], [105].  

3.3   Discusión general 

A partir de las imágenes radiográficas digitales, los radiólogos pueden apreciar normalmente 

entre el 45 % y el 68 % de los nódulos reales [27]. Esto se debe al bajo contraste de los 

mismos, la superposición de estructuras anatómicas, tiempo limitado para ejecutar una tarea 

donde aparece cansancio visual y a las propias limitaciones del sistema visual humano. En 

general se plantea que los expertos humanos cometen muchos errores durante la detección 

de nódulos pulmonares [27], [27]. Si los nódulos son menores de 10 mm solo detectan un 29 

Predicción 

R
ea

l 


CAPÍTULO 3 
47 

 
%. También la detección se encuentra fuertemente determinada por la localización [27], [27], 

[27]. De ahí la importancia del empleo de sistemas automatizados como segunda opinión. 

Por ejemplo, en la Figura 3.18 existe un nódulo muy difícil para ser visualizado por el ojo 

humano, debido a su pequeño tamaño, bajo contraste y superposición con una costilla. 

Obsérvese en el zoom de la derecha, que para este nódulo la diferencia de contraste con 

respecto al fondo circundante es prácticamente indetectable por el ojo humano.  

     
Figura 3.18 Nódulo pulmonar de difícil detección 

El modelo a partir de parches pequeños con la red SqueezeNet fue capaz de detectar dicho 

nódulo, mostrando sus potencialidades. Es por tanto importante su ajuste futuro para que 

incremente su sensibilidad por encima de la del ojo humano entrenado. Esto serviría para 

hacer el diagnóstico mucho más rápido y evitar la fatiga visual. También serviría como 

método de segunda opinión, o para la detección temprana a partir de pesquizajes masivos.  

Esto tiene valor ante todo social para el hombre, como ente principal del medio ambiente. 

El costo computacional del entrenamiento para 30 épocas fue de 10 segundos por época para 

las prestaciones computacionales utilizadas (Procesador Intel® Core™ i7-8700 3.2 GHz, con 

tarjeta gráfica NVIDIA GeForce® RTX 3070 8 GB GDDR6 y RAM de 32 GB (2 x 16 GB) 

DDR4 3200MHz).  El modelo una vez entrenado, corre en un tiempo de 0.3 segundos en la 

computadora utilizada para cada parche pequeño, considerándose por tanto muy eficiente.  

Se analizaron los resultados de un sistema similar de la literatura científica para compararlos 

con los obtenidos por el sistema propuesto en esta tesis. La comparación no es del todo 

correcta, ya que se utilizan bases de datos diferentes a las empleadas en esta investigación, 

por tanto, solo debe de ser entendida como marco de referencia. El sistema desarrollado en 

[106] fue estudiado en condiciones reales en tres hospitales de Corea del Sur y uno de Estados 


CAPÍTULO 3 
48 

 
Unidos. En la Tabla 3.1 se muestra el valor de la sensibilidad para la detección de nódulos 

pulmonares respecto al total real existente. 

Tabla 3.1 Resultados del sistema publicado en la fuente [106]. 

Hospital 

Sensibilidad (%) (Imágenes 

con correcta detección/ Total 

de imágenes con nódulos) 

Seoul National University Hospital 69,9 (100/143) 

Boramae Hospital 82,0 (114/139) 

National Cancer Center 69,6 (80/115) 

University of California San Francisco 

Medical Center 
75,0 (78/104) 

 
El sistema mostrado en la tabla presenta superior desempeño (en términos de sensibilidad) 

que el propuesto en esta investigación, cuya sensibilidad fue de 40,94% en la prueba externa. 

Esta referencia, sin embargo, es muy importante para apuntar hacia la meta a seguir, ya que 

ofrece una estimación de cuáles son los valores que pudieran obtenerse o superarse cuando 

el sistema propuesto logre el poder de generalización. También permite enfocar 

concretamente cuáles son las limitaciones actuales del mismo. 

3.4   Análisis económico 

El presente sistema no ha sido aún registrado y no se puede comercializar. De hecho, para 

esto requiere de una interfaz de usuario. No existe por tanto hasta el momento una estimación 

económica del mismo. Existen muy pocos sistemas profesionales para la detección de 

nódulos pulmonares aprobados para uso en instalaciones clínicas. Recientemente se 

reconoció a Auto Lung Nodule Detection de Samsumg para su uso en los Estados Unidos. 

Este sistema se incluye en su equipo portátil Samsung-Medison AccE GM85, entre otros, el 

cual tiene un costo aproximado de $ 280.000 USD. Este aspecto permite valorar el impacto 


CAPÍTULO 3 
49 

 
económico que tendría un sistema como el propuesto para el beneficio de la salud pública en 

el país.  

3.5   Conclusiones del capítulo 

Después de realizada la investigación puede concluirse que la primera estrategia de 

entrenamiento/validación probada, consistente en entrar al sistema la imagen de la 

radiografía completa, no fue exitosa. Se evidencia el aprendizaje por atajos y un número 

elevado de FP y FN. Cuando se segmenta la región pulmonar, los resultados mejoran, pero 

persisten sesgos. Al emplearse pequeños parches que contienen o no la característica a 

estudiar, la detección mejora apreciablemente, disminuyen los errores de clasificación en 

cada clase y se reduce el aprendizaje por atajos. Un factor decisivo, es la resolución espacial 

del parche. Mientras más pequeño y ajustado el parche a la característica a detectar, mejor es 

el resultado del modelo. La CNN SqueezeNet muestra potencialidades para la tarea 

propuesta, pero precisa de ajustes en cuanto a número de épocas a considerar en el 

entrenamiento y el empleo de un conjunto de datos mucho mayor. Otra posible solución 

puede ser el empleo de una red más profunda. El sistema obtenido aún no posee poder de 

generalización. 

 
CONCLUSIONES Y RECOMENDACIONES 
50 

 
CONCLUSIONES Y RECOMENDACIONES 

 
Conclusiones 

En esta investigación se ha cumplido la hipótesis formulada y se arriba a las siguientes 

conclusiones: 

1. Se desarrolló un sistema automatizado basado en una CNN empleando Python, capaz 

de detectar nódulos pulmonares.  

2. Se seleccionó como arquitectura a SqueezeNet para la detección de nódulos 

pulmonares, la cual, cuando se entrena a partir de pequeños parches que contienen o 

no la característica a estudiar, muestra buenas potencialidades en cuanto a eficacia 

para ejecutar la tarea con eficiencia computacional. 

3. Se emplearon para el entrenamiento y validación de la red neuronal el 80 % y el 20 

% respectivamente, de las imágenes de varias bases de datos, lográndose buenos 

resultados, para la estrategia de parches pequeños: sensibilidad (88,77 %), precisión 

(94,05 %), exactitud (94,40 %), exactitud balanceada (92,99 %) y valor F1 (91,34 %)  

4. El modelo obtenido aún no posee poder de generalización, ya que ante una BD externa 

logra resultados por debajo de los estándares aceptados internacionalmente. Esto 

confirma la necesidad de ajustes para eliminar los posibles sesgos que aún subyacen.  

 
Recomendaciones 

1. Se recomienda hacer un entrenamiento más prolongado del modelo obtenido con la 

estrategia de parches pequeños. 

2. Probar arquitecturas más profundas que la empleada. 

3. Emplear un mayor número de radiografías digitales correctamente etiquetadas para 

el entrenamiento. 

 
REFERENCIAS BIBLIOGRÁFICAS 
51 

 
REFERENCIAS BIBLIOGRÁFICAS 

 
[1] H. Sung et al., "Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality 
worldwide for 36 cancers in 185 countries," CA Cancer J Clin, vol. 71, no. 3, pp. 209-249, May/Jun 
2021 2021. 

[2] D. R. Aberle, "Implementing lung cancer screening: the US experience," Clin Radiol, vol. 72, no. 5, 
pp. 401-406, May 2017. 

[3] M. Oudkerk et al., "European position statement on lung cancer screening," Lancet Oncol, vol. 18, no. 
12, pp. e754-e766, Dec 2017. 

[4] M. Bazan, B. F. Mestre, and A. Peix, "Cardio-Oncology in Cuba: The Present and the Future," JACC: 
Cardiooncology, pp. 162-164, 2021. 

[5] H. Mahersia, M. Zaroug, and L. Gabralla, "Lung Cancer Detection on CT Scan Images: A Review on 
the Analysis Techniques," International Journal Of Advanced Research In Artificial Intelligence, 
2015. 

[6] C. I. Henschke et al., "Early lung cancer action project: overall design and findings from baseline 
screening," The Lancet, pp. 99-105, 1999. 

[7] S. J. Swensen et al., "Lung cancer screening with CT: Mayo Clinic experience," Radiology, vol. 226, 
no. 3, pp. 756-61, Mar 2003. 

[8] L. J. M. Kroft, L. Van der Velden, I. Hernández Girón, J. J. H. Roelofs, A. de Roos, and J. Geleijns, 
"Added Value of Ultra–low-dose Computed Tomography, Dose Equivalent to Chest X-Ray 
Radiography, for Diagnosing, Chest Pathology," Journal of Thoracic Imaging, p. 8, 2019. 

[9] Radmedix. (2021, 2021/10/04). RadmediX Solutions  [Online]. Available: 
https://radmedix.com/solutions/portable-x-ray/  

[10] D. Gu, G. Liu, and Z. Xue, "On the performance of lung nodule detection, segmentation and 
classification," Comput Med Imaging Graph, vol. 89, p. 101886, Apr 2021. 

[11] A. del Ciello, P. Franchi, A. Contegiacomo, G. Cicchetti, L. Bonomo, and A. R. Larici, "Missed lung 
cancer: when, where, and