Departamento de Control Automático Título: Sistema de inteligencia artificial para la detección de nódulos pulmonares. Autor: Pedro Pablo Camellón Quintero Tutores: Dr.C. Marlén Pérez Díaz Dr.C. José Daniel López Cabrera 2021 Universidad Central “Marta Abreu” de Las Villas Facultad de Ingeniería Eléctrica Departamento de Control Automático TRABAJO DE DIPLOMA Sistema de inteligencia artificial para la detección de nódulos pulmonares Autor: Pedro Pablo Camellón Quintero Tutores: Dr.C. Marlén Pérez Díaz mperez@uclv.edu.cu https://orcid.org/0000-0002-3706-9154 Dr.C. José Daniel López Cabrera josedaniellc@uclv.cu https://orcid.org/0000-0003-2137-0361 Santa Clara 2021 "Año 63 de la Revolución" Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas, y se encuentra depositado en los fondos de la Biblioteca Universitaria “Chiqui Gómez Lubian” subordinada a la Dirección de Información Científico Técnica de la mencionada casa de altos estudios. Se autoriza su utilización bajo la licencia siguiente: Atribución- No Comercial- Compartir Igual Para cualquier información contacte con: Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de Las Villas. Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830 Teléfonos.: +53 01 42281503-1419 1 PENSAMIENTO “No necesito saberlo todo, tan solo saber dónde encontrar aquello que me haga falta cuando lo necesite”. Albert Einstein 1 DEDICATORIA A mi familia, en especial mis padres, a Meli y a mis amigos por su poyo infinito. A todos los que me ayudaron a lo largo de mi carrera estudiantil. 1 AGRADECIMIENTOS Quiero agradecer a todas aquellas personas que en diferentes formas me apoyaron y acompañaron a lo largo de este proceso:  A mis padres por inculcarme desde pequeño el amor a las ciencias  A mis tutores, Marlén y José Daniel, por su guía y apoyo inmenso  A Jorge Armando por sus consejos  A todas aquellas personas que dedican su vida al desarrollo de la ciencia, en especial, de la Inteligencia Artificial 1 RESUMEN El cáncer de pulmón es el causante del mayor número de muertes por cáncer en el mundo. La radiografía de tórax es el método más extendido para la identificación de los nódulos pulmonares, sin embargo, estas son difíciles de interpretar debido a su bajo contraste y al conjunto de estructuras anatómicas que se superponen. Los sistemas de detección asistidos por ordenador incrementan la efectividad de los diagnósticos y reducen la carga laboral de los especialistas. En el presente trabajo se propone un sistema de este tipo basado en inteligencia artificial para la detección de nódulos pulmonares a partir de radiografías de tórax. El mismo emplea redes neuronales de convolución. Para la detección de nódulos se utilizó la red SqueezeNet con tres estrategias de entrenamiento (imagen completa, segmentación de pulmón y regiones de interés). Se aplicaron técnicas de transferencia de aprendizaje y aumento de datos. Se crearon conjuntos de imágenes a partir de tres bases de datos internacionales. Se entrenó y validó la red, y para el mejor modelo obtenido se realizó una prueba externa a partir de una cuarta base de datos. El mejor modelo se obtuvo con SqueezeNet e imágenes consistentes en pequeños parches. Este alcanzó una exactitud balanceada de 93 %, aún sin poder de generalización. Palabras clave: radiografía de tórax; nódulo pulmonar; inteligencia artificial; aprendizaje profundo. 1 ABSTRACT Lung cancer is the cause of the highest number of cancer deaths in the world. The chest X- ray is the most widespread method for the identification of pulmonary nodules; however, these are difficult to interpret due to their low contrast and the set of overlapping anatomical structures. Computer-aided detection systems increase the effectiveness of diagnoses and reduce the workload of specialists. In the present work, a system of this type based on artificial intelligence is proposed for the detection of pulmonary nodules from chest X-rays. It uses convolutional neural networks. For the detection of nodules, the SqueezeNet network was used with three training strategies (complete image, lung segmentation and interest regions). Learning transfer techniques and data augmentation were applied. Image sets were created from three international databases. The network was trained and validated, and for the best model obtained, an external test was carried out from a fourth database. The best model was obtained with SqueezeNet and images consisting of small patches. This reached a balanced accuracy of 93%, even without power of generalization. Key words: chest x-ray; lung nodule; artificial intelligence; deep learning. 1 GLOSARIO DE SIGLAS Y TÉRMINOS BD: Base de datos CAD: (del inglés Computer Aided Diagnosis). Sistema de diagnóstico asistido por computadora. CNN: (del inglés Convolutional Neural Network). Red neuronal de convolución DL: (del inglés Deep Learning). Aprendizaje profundo FN: Falso negativo FP: Falso positivo IA: Inteligencia artificial ML: (del inglés Machine Learning). Aprendizaje automático RNA: Red neuronal artificial VN: Verdadero negativo VP: Verdadero positivo 1 TABLA DE CONTENIDOS INTRODUCCIÓN ..................................................................................................................... 2 CAPÍTULO 1. MARCO TEÓRICO ........................................................................................ 6 1.1 Imágenes de rayos x ............................................................................................................. 6 1.2 Radiografía de tórax ............................................................................................................ 7 1.3 Cáncer de pulmón ................................................................................................................ 8 1.3.1 El nódulo pulmonar ............................................................................................................. 9 1.4 Sistemas CAD ..................................................................................................................... 11 1.4.1 Sistemas CAD basados en RNA ........................................................................................ 12 1.4.2 Interpretación de los resultados de los sistemas que emplean RNA .............................. 15 1.5 Etapas de los sistemas CAD para la detección de nódulos pulmonares ........................ 16 1.6 Particularidades de los sistemas CAD basados en aprendizaje profundo .................... 19 1.7 Conclusiones del capítulo ................................................................................................... 22 CAPÍTULO 2. MATERIALES Y MÉTODOS ..................................................................... 23 2.1 Descripción de los conjuntos de imágenes utilizados ...................................................... 23 2.2 Software y hardware empleados ....................................................................................... 24 2.3 Prepocesamiento de las imágenes para el entrenamiento ............................................... 24 2.3.1 Imagen completa ................................................................................................................ 24 2.3.2 Segmentación de la región pulmonar ............................................................................... 25 2.3.3 Extracción de la región correspondiente al cuadro delimitador de cada lesión ........... 26 2.4 Entrenamiento, validación y prueba de los modelos ....................................................... 27 2.4.1 SqueezeNet ........................................................................................................................ 31 CAPÍTULO 3. RESULTADOS Y DISCUSIÓN ................................................................... 33 3.1 Resultados de cada estrategia para el entrenamiento y validación de los modelos ...... 33 3.1.1 Imagen completa ................................................................................................................ 33 3.1.2 Imagen segmentada ............................................................................................................ 37 3.1.3 Regiones de interés ............................................................................................................. 39 3.2 Prueba externa.................................................................................................................... 45 3.3 Discusión general ................................................................................................................ 46 3.4 Análisis económico ............................................................................................................. 48 3.5 Conclusiones del capítulo ................................................................................................... 49 CONCLUSIONES Y RECOMENDACIONES .................................................................... 50 REFERENCIAS BIBLIOGRÁFICAS .................................................................................. 51 1 ANEXOS .................................................................................................................................. 56 Anexo 1. Código en Python para cargar y preprocesar las imágenes .................................... Anexo 2. Código en Python para definir la red empleada y entrenarla ................................. Anexo 3. Código en Python para emplear el buscador de tasa de aprendizaje ..................... Anexo 4. Código en Python para realizar un ajuste fino de la red ......................................... 2 INTRODUCCIÓN El cáncer es el mayor impedimento para incrementar la esperanza de vida en los países del mundo con infraestructura adecuada para la salud. Específicamente, el cáncer de pulmón sobresale como el que mayor número de muertes provoca. Aproximadamente 1 796 144 personas fallecieron debido a esta enfermedad en 2020, según la Agencia Internacional para la Investigación del Cáncer [1]. Estas estadísticas, sumadas a las pesquisas médicas masivas impulsadas en varios países, han aumentado la carga laboral de los radiólogos [2], [3]. En Cuba, el cáncer es la segunda causa de muerte con una taza de 223 por cada 100 000 habitantes. Las estadísticas de los últimos 20 años indican que 66.7 de cada 100 000 hombres y 38.6 de cada 100 000 mujeres sufren cáncer de pulmón [4]. El cáncer de pulmón es el resultado de un crecimiento incontrolado de células del tejido pulmonar. En su fase inicial se aprecia como pequeñas masas de tejido aproximadamente esféricas, de entre 5 a 30 mm de tamaño. Estas son conocidas como nódulos pulmonares [5]. El desarrollo de las técnicas de obtención de imágenes médicas como la radiografía, la tomografía computarizada (TC), la ultrasonografía y la resonancia magnética, ha permitido un diagnóstico temprano en muchas enfermedades. En el cáncer, esto aumenta las probabilidades de éxito de la intervención quirúrgica y evita costos superiores en tratamientos durante etapas más avanzadas. Los métodos que involucran radiaciones ionizantes más empleados en la obtención de imágenes médicas son la tomografía computarizada y la radiografía. Estas se emplean cotidianamente para diagnosticar el cáncer de pulmón. La TC ofrece información volumétrica en 3D con alta resolución, alto contraste y en un corto período de tiempo. El número de imágenes por cada sesión depende del área a observar, que es grande para la región del tórax; y de la resolución del equipo, comúnmente de 200 a 400 imágenes. Esta alta resolución ofrece una gran ventaja en la detección de nódulos pulmonares en comparación con las radiografías [6], [7]. Sin embargo, su empleo tiene varios inconvenientes como son: el gran número de imágenes que requiere aumenta el tiempo de inspección por el especialista, en muchos hospitales no se cuenta con el equipamiento necesario, ni se cuenta con recursos para adquirirlo y la alta dosis de radiación efectiva (5.5 mSv), cincuenta veces mayor en promedio que la de una sesión de radiografía (0.1 mSv) [8]. 3 Debido a los inconvenientes de la TC, la radiografía es el método más utilizado, contando además con una rápida y fácil obtención e interpretación, una baja exposición del paciente a radiaciones ionizantes y la disponibilidad en la mayoría de hospitales y clínicas, debido al menor costo de adquisición de los equipos y de cada sesión. Existe una versión portátil que expone al paciente a una menor dosis de radiación [9]. En este sentido, las radiografías de tórax son las más empleadas para identificar radio-opacidades o masas anómalas en los pulmones, que pudieran constituir tumores. Esta prueba se realiza generalmente en dos proyecciones, una frontal y otra lateral. Debido al solapamiento de las estructuras anatómicas, las radiografías podrían ser solo adecuadas para la detección de nódulos de gran tamaño en comparación con las tomografías, teniendo una efectividad limitada en el diagnóstico temprano [10]. Su incorrecta interpretación es la mayor causa de diagnósticos errados [11], por lo que se recomienda una doble lectura. Esto depende mucho de la experiencia del especialista, las condiciones de visualización, la presencia de artefactos en las imágenes y las características de las lesiones [12]. Los nódulos pueden presentar densidades variadas, lo que afecta su visibilidad en la radiografía. Estos pueden surgir en cualquier parte del área pulmonar, pudiendo quedar ocultos por las costillas, el mediastino o las estructuras debajo del diafragma. Cada vez es mayor el interés a nivel mundial en desarrollar sistemas de diagnóstico asistido por ordenador (CAD del inglés Computer Aided Diagnosis) para reducir la carga laboral de los especialistas y para mejorar su índice de aciertos [13]. Algunos se basan en tomografías [14], [15], y otros en radiografías [16], [17], resaltando regiones con alta probabilidad de constituir un tumor en el área pulmonar, facilitando una segunda opinión al radiólogo [18].También, la mayor utilidad puede ser su implementación en pesquizajes masivos para detección temprana de cáncer de pulmón. Esto significa pasar por el sistema todas las radiografías disponibles en un hospital o región que se hayan realizado por cualquier causa. En este sentido, lo que sería una tarea ardua para especialistas, es una tarea sencilla para una máquina con un algoritmo entrenado. Los primeros sistemas se basaban en reglas definidas por expertos [19], [20]. Luego, con la aplicación de técnicas de aprendizaje automático (ML del inglés machine learning) como las redes neuronales artificiales (RNA), se han complejizado y mejorado sus resultados considerablemente [21]. Recientemente se han incorporado avances en el aprendizaje 4 profundo (DL del inglés deep learning), logrando buenos diagnósticos [16]. Una de las arquitecturas de DL más usadas en la clasificación de imágenes es la red neuronal de convolución (CNN del inglés Convolutional Neural Networks) [22], la cual imita el comportamiento de la corteza visual humana [23]. El rendimiento de los sistemas depende del correcto ajuste de cada una de sus etapas, generalmente cuatro: preprocesamiento de las imágenes, segmentación de la región de interés, extracción de características y clasificación [24], aunque se pudiera añadir, en el caso concreto de lesiones pulmonares, la detección de candidatos a nódulos, su segmentación, extracción de características, clasificación y determinación de su posible malignidad [25]. Los sistemas CAD actuales no alcanzan una sensibilidad del 100 %, al no detectar la totalidad de las lesiones [26]. Algunos estudios apuntan que la sensibilidad de un humano varía entre un 49 % y un 65 % sin uso del CAD, y entre un 68 % y un 93 % con su asistencia [27]. Como se aprecia, la detección y clasificación de los nódulos pulmonares aún constituye un desafío, a pesar del rendimiento que ofrecen los novedosos métodos de aprendizaje profundo y de la disponibilidad de conjuntos anotados de imágenes. El tema a desarrollar en la presente tesis consiste en aplicar técnicas de DL a la identificación de nódulos pulmonares con vistas a su implementación en hospitales oncológicos cubanos. En este sentido, el objeto de estudio son las radiografías pulmonares y el campo de investigación es la detección de nódulos pulmonares en las radiografías de tórax a partir de técnicas de inteligencia artificial. A tono con lo anterior, se define como problema científico de investigación el hecho de que los especialistas presentan dificultades para detectar los nódulos pulmonares a partir de imágenes radiológicas digitales, debido al bajo contraste de las lesiones de pulmón respecto al tejido sano y la presencia de múltiples estructuras anatómicas y ruido. Se necesita implementar un sistema automatizado basado en una CNN que ayude a resolver este inconveniente. La hipótesis de investigación que se formula es: La detección de nódulos pulmonares puede ser eficaz con la ayuda de un sistema automatizado basado en inteligencia artificial, como puede ser una CNN. El objetivo general de la tesis es: Desarrollar un sistema automatizado en Python, basado en una CNN, que sea capaz de detectar nódulos pulmonares. 5 Para acometer lo anterior se definen los siguientes objetivos específicos: 1. Seleccionar una arquitectura de red neuronal eficaz y eficiente computacionalmente para la detección de nódulos pulmonares. 2. Entrenar y ajustar la red neuronal con la arquitectura previamente seleccionada para el 80 % y el 20 % respectivamente, de un conjunto de imágenes anotado. 3. Evaluar el modelo a partir de una prueba con datos anotados, pero de diferente origen al del conjunto de imágenes originalmente utilizado para entrenamiento y validación. La presente tesis está organizada de la siguiente manera: Introducción, tres capítulos, Conclusiones, Recomendaciones, 107 referencias bibliográficas y 4 anexos, contando con 67 páginas, donde se incluyen 32 figuras y 2 tablas. CAPÍTULO 1 6 CAPÍTULO 1. MARCO TEÓRICO En el presente capítulo se abordan varios elementos conceptuales, tecnológicos y de revisión bibliográfica sobre los CAD con inteligencia artificial (IA), tales como: el concepto de imagen médica, obtención de las radiografías de tórax y los parámetros que determinan su calidad, características de los nódulos pulmonares y problemas asociados a su detección en Radiología, aportes de los sistemas CAD para la detección de lesiones pulmonares, su evolución y sus principales etapas. Finalmente se explica el papel que juegan los métodos de aprendizaje profundo en los nuevos sistemas de diagnóstico durante la segmentación del área de interés y en la detección de las lesiones. Se presenta un enfoque crítico de los principales sistemas de IA publicados hasta la actualidad para la detección y clasificación de nódulos pulmonares. 1.1 Imágenes de rayos x El interés por el estudio de la anatomía del cuerpo humano ha potenciado el desarrollo de las técnicas de obtención de imágenes médicas para diversos fines clínicos. Estas son representaciones gráficas bidimensionales de una estructura, región, órgano o tejido del cuerpo humano. En el caso de las imágenes digitales, consisten en una matriz de M x N celdas denominadas píxeles, de características variables. En las imágenes monocromáticas, como las radiografías, cada píxel posee un valor de luminancia en niveles de gris [28]. Las imágenes digitales pueden ser manipuladas, permitiendo mejorar diferentes parámetros de la misma a través de técnicas de procesamiento digital. Las radiografías son un tipo de imagen médica obtenida mediante la exposición del cuerpo humano a rayos x. Se realizan con una fuente de rayos x en un lado del paciente y un detector en el otro. Las propiedades de atenuación de cada tejido ante los rayos x que lo atraviesan son diferentes. Esto resulta en una distribución heterogénea de grises sobre la imagen radiográfica [29]. En los equipos de rayos x, un alto voltaje acelera un gran número de electrones emitidos por un cátodo hacia un objeto metálico (ánodo), los que al impactar con el mismo lo calientan y emiten pequeñas dosis de radiación x [30]. La Figura 1.1 ofrece una descripción del proceso de emisión en un tubo de rayos x. Tras atravesar al paciente, la radiación es detectada por CAPÍTULO 1 7 una placa con fotodetectores, que registra el patrón previo de atenuación en el tejido, conformando una distribución de grises que constituye la imagen radiográfica [30]. Figura 1.1 Descripción del proceso de emisión de rayos x. Extraído de [31]. La calidad de las imágenes está determinada por el método de obtención, las características del equipo y su configuración. Es necesario que estas cumplan con ciertos parámetros para que sean útiles para el especialista. Dentro de los parámetros que determinan la calidad de las radiografías están el ruido que contienen, la presencia de artefactos, la resolución espacial, la distorsión y el contraste [12]. 1.2 Radiografía de tórax Las radiografías de tórax se emplean comúnmente para identificar lesiones en el área pulmonar. El tórax es la región del cuerpo humano localizada entre el cuello y el abdomen. En las radiografías de esta región destacan, por su mayor visibilidad, ciertos huesos y el mediastino, y con menor nitidez que estos, los pulmones, las vías respiratorias y el diafragma. Los huesos son densos, por lo que son más brillantes, algunos de los que se aprecian son las costillas, parte de la médula espinal, del húmero, la clavícula y la escápula. Generalmente las imágenes son obtenidas luego de que el paciente inhale aire. Los pulmones y las vías respiratorias, al contener aire, son menos densos que los tejidos blandos a su alrededor y se muestran más oscuros. El mediastino es un espacio virtual que contiene el corazón, los vasos sanguíneos mayores, la tráquea, los bronquios, el esófago, el timus y el corazón. La mayoría de estas estructuras, a excepción del corazón, no son visibles en las radiografías; es la superposición en la radiografía frontal la que lo provoca [32]. La Figura 1.2 muestra la CAPÍTULO 1 8 complejidad anatómica de este tipo de imagen, así como la localización de las principales estructuras presentes. Figura 1.2 Imagen radiográfica de tórax En la radiografía de tórax se incluye la región pulmonar, como se aprecia en la Figura 1.2. Los pulmones son dos órganos blandos, esponjosos y elásticos que están situados dentro de la cavidad torácica, por encima del diafragma y separados por la región cardiomediastinal. Poseen forma de semicono irregular con una base dirigida hacia abajo y un ápice redondeado. Están cubiertos con pleura visceral y se ubican libremente en la cavidad pleural correspondiente. La función principal de los pulmones es el intercambio de gases, (oxigenación de la sangre y eliminación del anhídrido carbónico de la misma). Existen opiniones diversas sobre cuánto abarca el área pulmonar en situaciones anormales. Algunos especialistas solo consideran las cavidades que contienen aire, mientras otros incluyen el área oscurecida por el fluido pleural. La mayoría de los sistemas CAD sigue el primer criterio [32]. 1.3 Cáncer de pulmón El cáncer de pulmón es una neoplasia maligna originada como resultado de un crecimiento descontrolado de células del tejido pulmonar o del recubrimiento de las vías respiratorias [33]. Se divide en dos tipos fundamentalmente: de células pequeñas y de células no pequeñas [34]. Inicialmente desarrolla pequeñas masas de tejido aproximadamente esféricas, de entre 5 a 30 mm, que reciben el nombre de nódulos pulmonares [5]. CAPÍTULO 1 9 El cáncer puede diseminarse por otras partes del cuerpo antes de ser detectado en los pulmones [34]. El diagnóstico temprano facilita el tratamiento, conlleva menores riesgos y aumenta la esperanza de vida del paciente. Su baja tasa de supervivencia (inferior al 16 % en 5 años) [35] suele deberse a que es identificado cuando se encuentra en una etapa avanzada. 1.3.1 El nódulo pulmonar El nódulo pulmonar es la primera etapa en el desarrollo del cáncer de pulmón. Se aprecia en las radiografías como una opacidad redondeada cuyo diámetro es inferior a 3 cm. Presenta generalmente bordes definidos, los que pueden ser irregulares, espiculados o lobulados [36]. La Figura 1.3 muestra algunos ejemplos de nódulos. Figura 1.3 Se aprecia en la radiografía un nódulo claramente visible en el pulmón derecho (izquierda). Nódulos pulmonares sobre regiones de interés en una radiografía (derecha). Tomado de [31], [37]. La detección de nódulos se ve afectada, a menudo, por errores durante la observación, las características de la lesión y defectos técnicos; situación que ha persistido sin mucha variación desde mediados del siglo pasado, a pesar de los grandes avances tecnológicos. Se han descubierto anomalías en la revisión de imágenes radiográficas clasificadas como normales, en personas diagnosticadas con neoplasia maligna pulmonar [11]. Los errores cometidos por el observador son la principal causa de diagnósticos erróneos. Se subdividen, en el estudio de [38], en tres categorías: errores de escaneo, de reconocimiento y de toma de decisiones, donde cada uno representa el 30 %, el 25 % y el 45 % respectivamente. El error de escaneo se debe a que la opacidad no se percibe en la parte central de la retina humana durante el análisis de la imagen. Se requiere un promedio de 300 fijaciones oculares CAPÍTULO 1 10 para cubrir un área de 14 × 17 cm, mientras que en la práctica médica solo se utilizan 80-120 fijaciones oculares en un promedio de 20-30 segundos dedicados a cada imagen por un radiólogo. Esto significa que grandes partes no se observan con la suficiente atención. La experiencia del especialista también juega un papel muy importante. Los más experimentados desarrollan una ruta de exploración eficaz al conocer la apariencia típica de los hallazgos normales y patológicos [39]. La identificación de una anomalía puede interferir con el proceso de búsqueda de otras, debido a la “satisfacción de búsqueda” que experimenta el especialista, quien puede cesar la búsqueda o concentrarse en la parte incorrecta de la imagen [40]. El error de reconocimiento consiste en la pérdida de lesiones, aún tras un escaneo adecuado. Se debe, en gran parte, a los modelos mentales creados por el observador. La búsqueda activa se ve afectada por las condiciones de trabajo, la fatiga, el índice de sospecha, la edad del paciente, la presencia de otras anomalías y la historia clínica [11]. La disponibilidad de datos clínicos permite identificar pacientes de alto riesgo en los que se realiza una búsqueda más exhaustiva. La interpretación inexacta de una anomalía identificada como normal corresponde a un error en la toma de decisiones. La dimensión, visibilidad y ubicación son las características más importantes para la identificación del tumor. En [41] se aprecia una tasa de detección del 29 % en tumores con un diámetro menor o igual a 10 mm y del 28 % para diámetros entre 10 a 30 mm. Las lesiones mayores de 40 mm no se pasaron por alto [41]. Sin embargo, en la literatura, el tamaño medio de los carcinomas omitidos es bastante variable. En la mayoría de los casos supera los 10 mm [42],[43], lo que demuestra que otros factores también influyen en la identificación. La visibilidad de los nódulos se ve muy afectada por la nitidez de los márgenes y su densidad. Los resultados de [43] indican que los especialistas califican primero el nivel de opacidad en la radiografía y posteriormente emplean la sesión tomográfica para describir los bordes y la densidad de las lesiones. Varios autores apuntan que la mayoría de las lesiones pasadas por alto no tenían bordes nítidos y poseían baja densidad [41], [42]. Sobre la influencia de la ubicación, varios autores apuntan una prevalencia marcada para los lóbulos superiores, entre el 45 % y el 66 % [41], [44], [45]. Se reseñó en [42] que el 81 % de los casos de no detección, correspondían a los lóbulos superiores, particularmente en el CAPÍTULO 1 11 derecho (56 %). Sin embargo, otros estudios sugirieron que se deben tener más en cuenta las regiones con gran superposición de estructuras [46]. Se resaltó en [41], que los tumores de localización central perdidos, eran más grandes que los periféricos, lo que significa que las estructuras superpuestas son la principal causa de lesiones no descubiertas. Es menos probable que se perciba una lesión en algunas áreas ciegas del tórax como los ápices, las regiones hiliares y el espacio retrocardíaco. Se ha demostrado que el 65% de las lesiones pulmonares que se originan en los hilios se pasaron por alto, solo detectándose lesiones mayores de 3 cm [47]. Las estructuras cardíacas pueden ocultar los nódulos localizados en los lóbulos inferiores, tal y como se señala en [43], donde se detectó una tasa del 92% de tumores en los lóbulos inferiores no detectados. El empleo de sistemas CAD en los últimos años ha ayudado a contrarrestar las dificultades que enfrentan los especialistas al analizar radiografías de tórax en busca de las lesiones mencionadas. Estos han favorecido diagnósticos más certeros, al aportar una segunda opinión sobre posibles nódulos y han aportado hipótesis plausibles respecto al diagnóstico. También son muy útiles en los pesquizajes masivos para detección temprana de cáncer de pulmón. 1.4 Sistemas CAD Los sistemas CAD desarrollados para la detección de nódulos pulmonares a partir de radiografías de tórax, resaltan regiones con alta probabilidad de constituir un tumor en el área pulmonar. Se clasifican fundamentalmente en: sistemas basados en reglas, basados en aprendizaje automático y basados en aprendizaje profundo. Los primeros utilizaban ecuaciones para describir la apariencia de las lesiones en las radiografías [19]. Un intérprete analizaba dicha apariencia y, aplicando reglas definidas por expertos, seleccionaba estructuras que podían constituir nódulos. Definir las reglas era una tarea compleja en la que diferían la mayoría de los estudios sobre estos sistemas. El exceso en su número hacía al sistema más robusto, pero más demandante de recursos computacionales. El estudio [48] propuso como número óptimo de características 210, que clasifica entre geométricas, de contraste, estadísticas de primer orden y estadísticas de segundo orden. Por ejemplo en [49] se utilizaron 109 características (96 bancos de filtros, 2 de posición y 11 detectores). CAPÍTULO 1 12 El aumento en los últimos años de las capacidades de almacenamiento y de cómputo de información han permitido el surgimiento de una rama de la inteligencia artificial conocida como aprendizaje automático. Esta persigue desarrollar en las máquinas la habilidad de aprender. Los sistemas CAD basados en estos novedosos algoritmos han alcanzado mejores resultados [24]. Comparten con los sistemas basados en reglas las etapas de pre- procesamiento y segmentación de la región pulmonar y el empleo de ecuaciones para describir las lesiones. Sin embargo, se diferencian en que son capaces de aprender por sí mismos las reglas de clasificación a partir de las características detectadas. Para ello se emplea un grupo de imágenes anotadas, algunas con presencia de nódulos y otras no. Esto genera modelos capaces de identificar las lesiones a partir de nuevas imágenes. Estos sistemas requieren generalmente la introducción de un vector de características para realizar el aprendizaje en las fases de entrenamiento, validación y prueba. Ejemplos de algoritmos de clasificación empleados en estos sistemas son las máquinas de vectores de soporte (SVM del inglés Support Vector Machines) [50], k vecinos más cercanos (kNN del inglés k-nearest neighbours), los bosques aleatorios (RF del inglés random forest) y las RNA. 1.4.1 Sistemas CAD basados en RNA Las RNA son modelos matemáticos inspirados en las redes neuronales biológicas del cerebro humano, con las que comparten algunas características como aprender de la experiencia, generalizar ejemplos previos a nuevos y abstraer las principales características de un conjunto de datos [51]. Las redes de varias capas son capaces de resolver problemas no separables linealmente, limitación fundamental de las que poseen solo una. El número de capas ocultas, aquellas ubicadas entre la de entrada y la de salida, diferencia las redes superficiales de las profundas. Las primeras poseen solo una capa oculta, mientras que las redes profundas cuentan con dos o más [23]. Además, las RNA superficiales necesitan que les sea proporcionado un vector de características a su entrada para realizar la etapa de entrenamiento y luego para clasificar; sin embargo, las redes profundas son capaces de autogenerar dicho vector. La unidad básica de las RNA son las neuronas. Estas poseen una función de activación 𝑎 y un grupo de parámetros, compuesto por un conjunto de pesos 𝑤 y otro de sesgos 𝑏. La función de activación se define como: CAPÍTULO 1 13 𝑎 = 𝜎(𝑤 𝑥 + 𝑏) (1.1) donde σ es una no linealidad denominada función de transferencia (comúnmente se emplea la función sigmoidal, ReLU (del inglés Rectified Linear Unit) o la tangente hiperbólica). Durante el entrenamiento se ajustan los parámetros para satisfacer ciertos criterios, redefiniendo las relaciones entre las neuronas de la red [22]. La Figura 1.4 muestra un ejemplo de neurona artificial. Figura 1.4 Principales elementos de una neurona artificial. Extraído de [24]. Generalmente en la última capa de estas redes las activaciones se distribuyen en una, dos o más clases. La función más empleada actualmente es softmax (del inglés máximo suave) [22]. La salida puede ser única, binaria o separada en tres o más clases y responde a las características en las cuales el sistema se entrenó. Estas son seleccionadas por la propia red a partir de los datos de entrada en el caso de las redes profundas, como ya se ha expresado, para dar una salida de clasificación. La Figura 1.5 muestra la arquitectura de una red neuronal simple. Figura 1.5 Arquitectura básica de una RNA multicapa. Adaptado de [23]. CAPÍTULO 1 14 La función de pérdidas es característica de los algoritmos de entrenamiento supervisados. Esta indica el error entre la predicción realizada por el modelo y el valor real en la imagen anotada para cada elemento. El objetivo del entrenamiento es minimizar este error y la función de pérdidas. La función de costo generaliza la función de pérdidas a todo el conjunto. Uno de los métodos más empleados para reducir el error de las predicciones es el descenso del gradiente, el cuál ajusta los parámetros de las neuronas que componen la red. La función de propagación es propia de la neurona, comúnmente se usa la suma ponderada de todas sus entradas [23]. La tasa de aprendizaje, el número de iteraciones, el costo umbral, entre otros, son los hiperparámetros. Estos no dependen de un entrenamiento y se definen en función de cada aplicación. El conjunto de datos en estos sistemas es comúnmente dividido en dos o tres partes: datos de entrenamiento, validación y prueba. En las etapas de entrenamiento y validación se suele usar un conjunto de igual origen, particionado para el 80 % y el 20 % del total de datos, respectivamente. El grupo de prueba, procedente de una fuente diferente, permite comprobar cómo los modelos obtenidos extrapolan lo aprendido a nuevos grupos de casos. Se persigue que el modelo obtenido funcione perfectamente con los datos limitados de entrenamiento y con los nuevos en la aplicación real. Cuando esto no sucede, y se obtiene un rendimiento excelente durante el entrenamiento, y otro muy inferior con nuevos datos, se plantea que existe sobreajuste en el modelo desarrollado. Este inconveniente impide al modelo generalizar adecuadamente lo aprendido a ejemplos nuevos. Esto no significa que se deba sacrificar exactitud en el entrenamiento a propósito, violando una de las principales estrategias del aprendizaje automático, sino lograr un balance adecuado entre el sobreajuste y la capacidad de generalización [23]. El conjunto de prueba permite detectar el sobreajuste [23] al aplicar el modelo a datos nuevos. También, la validación cruzada se emplea con este fin, en esta se dividen los datos en varios grupos alternando su función entre datos de entrenamiento y validación. El principal impedimento para comparar adecuadamente los diversos sistemas CAD propuestos para el diagnóstico de nódulos pulmonares es el uso de datos de diferente calidad y complejidad. Se emplean conjuntos de datos personalizados privados [32]. Muchos estudios CAPÍTULO 1 15 refieren la falta de datos públicos debidamente anotados, aunque se realizan grandes esfuerzos por remediar esto [52]. Los conjuntos de imágenes JSRT [53], LIDC-IDRI y LUNA16 [54] son ejemplos de este empeño. 1.4.2 Interpretación de los resultados de los sistemas que emplean RNA Se han propuesto varios métodos de visualización con el fin de comprender lo que les permite a las redes neuronales llegar a sus resultados. Esto también contribuye a identificar posibles sesgos en los datos de entrenamiento. En [55] por ejemplo, se visualizaron directamente los filtros de la primera capa. Dado que los filtros en capas altas reciben entradas de sus capas anteriores en lugar de píxeles, no hay una forma directa de visualizarlas. Se propuso entonces la red neuronal Deconvnet [56], donde se modificó el paso hacia atrás de la ReLU para solo permitir los gradientes positivos de las capas superiores. Tomando en cuenta la anterior, en [57] se propuso una técnica llamada Class Activation Mapping (CAM). Sin embargo, esta no puede ser a aplicada a estructuras con capas completamente conectadas y requiere que los mapas de características precedan directamente de las capas finales. El método CAM se empleó en [58] para determinar qué región de la red se consideraba con alta probabilidad de presentar nódulos pulmonares en cada radiografía. En la Figura 1.6 se puede apreciar una radiografía con nódulo antes y después de aplicarle el método CAM, donde las regiones con mayor probabilidad de presentar nódulos se destacan con colores más cálidos. La posición del nódulo señalada en la BD (base de datos) está encerrada por el área que el modelo tiene en cuenta para la clasificación. El área que se destaca es reducida, por lo que el modelo que ofreció este desempeño fue el seleccionado en el estudio original. Figura 1.6 Radiografía con presencia de nódulo pulmonar antes (izquierda) y después (derecha) de aplicarle CAM para evaluar la clasificación de la red. Extraído de [58]. CAPÍTULO 1 16 Los inconvenientes mostrados por CAM fueron mejorados con la introducción del mapeo de activación de clases ponderado por gradientes (del inglés Gradient-weighted Class Activation Mapping Grad-CAM) en [59], dándole al método anterior mayor alcance. Este utiliza el comportamiento de los gradientes en las capas finales para resaltar aproximadamente las regiones de la imagen tenidas en cuenta para la clasificación dada. Se ha afirmado que las representaciones más profundas en una CNN capturan construcciones visuales de alto nivel. Además, las características convolucionales retienen naturalmente la información espacial que se pierde en las capas completamente conectadas, por lo que podemos esperar que las últimas capas convolucionales tengan el mejor compromiso entre la semántica de alto nivel y la información espacial detallada [60]. 1.5 Etapas de los sistemas CAD para la detección de nódulos pulmonares Las imágenes radiográficas de pulmón son comúnmente preprocesadas para mejorar su calidad antes de entrar a la red neuronal durante el entrenamiento y en la explotación del sistema. Esto aumenta la probabilidad de que la salida de la red sea la correcta. Así por ejemplo, se mejora el contraste entre las anomalías y el tejido sano [31] y se reduce el ruido [61] y los artefactos existentes sobre la imagen [62], aumentándose la efectividad de las etapas siguientes. En la Figura 1.7 se muestra un ejemplo de una imagen antes y después de pasar por esta fase. Obsérvese cómo mejora su contraste y la definición de estructuras, logrando que las posibles lesiones se perciban con mayor facilidad. Figura 1.7 Imagen original (izquierda). Imagen pre-procesada (derecha). Extraído de [31]. La siguiente etapa, luego del preprocesamiento, es la segmentación de la región pulmonar. Esta facilita la detección al reducir el área a examinar y elimina artefactos y otras estructuras (tráquea, bronquios, músculos, grasa) fuera del área de interés. Es un procedimiento difícil, CAPÍTULO 1 17 ya que las costillas y la clavícula poseen bordes fuertes, el área pulmonar puede variar entre pacientes, algunos órganos se superponen y pueden coexistir varias patologías [63]. El método manual de segmentación consume mucho tiempo, por lo que se emplean algoritmos que lo hacen automáticamente, entre ellos: los basados en reglas [64], en formas activas [65], de aprendizaje automático, y recientemente, de aprendizaje profundo. Usualmente se combinan algunos, obteniéndose sistemas híbridos que presentan mejores resultados [66]. En la Figura 1.8 se muestra una imagen a modo de ejemplo, del resultado de esta etapa. Figura 1.8 Ejemplo de máscara de segmentación (izquierda). Región pulmonar delimitada (derecha). En [31] se utilizó la segmentación mediante el método de umbral de niveles múltiples, obteniendo una sensibilidad media del 93 %. Por otro lado, en [67], el empleo de un clasificador kNN permitió alcanzar una exactitud del 96.9 %; y en [68], al utilizar un clasificador de agrupamiento C-media difuso, se obtuvo una exactitud del 97.8 %. En algunos estudios además de segmentar el área pulmonar, eliminan las costillas para mejorar la visibilidad de los nódulos [17]. En la imagen segmentada, las radio-opacidades son marcadas como candidatos a nódulos. Las lesiones pueden ser pequeñas y presentar variadas formas y texturas. También el valor de intensidad de los píxeles puede ser similar a la de sus alrededores, por lo que su detección se considera una tarea difícil. En [69] se propuso la imagen diferencia, como uno de los primeros métodos para detectar las radio-opacidades. Se han propuesto también técnicas basadas en detectores de manchas que utilizan el Laplaciano de Gauss [70], detectores de gradiente radial promedio [71], índice de convergencia multiescala ponderado [72], filtros de índice de convergencia [72], lógica difusa [73] y aprendizaje profundo [16], [27], [74]. CAPÍTULO 1 18 Otros ejemplos concretos de los resultados mencionados son los siguientes: la utilización de un filtro de convergencia de banda deslizante (SBF del inglés Sliding Band Filter) permitió lograr una especificidad de aproximadamente 120 detecciones por imagen y una de sensibilidad del 100 % en [31]. La Figura 1.9 muestra un ejemplo de esta etapa. Figura 1.9 Candidatos a nódulos señalados. Extraído de [31]. Los candidatos detectados son segmentados antes de proceder a la extracción de sus características. En los trabajos [31] y [72] se emplea para la segmentación de las lesiones un algoritmo de umbral basado en la distancia adaptativa. Definir las características puede ser muy complicado, debido a la gran variabilidad que puede darse tanto en el tejido sano como en el tejido normal. Por esta razón, la mayoría de los estudios difieren en cuáles son las más adecuadas. Se aprecian principalmente: información de histogramas [69], salidas de filtros [75], características geométricas, de textura, de morfología, de intensidad [49] y características de degradado [72]. La reducción de falsos positivos, por último, pretende eliminar la mayoría de los no-nódulos de la serie de candidatos surgidos durante la etapa de detección. Para esto se analizan las características de cada uno utilizando generalmente un clasificador basado en reglas, como el discriminante lineal de Fisher [72], filtros gaussianos o métodos de aprendizaje automático. Entre los métodos de aprendizaje automático más utilizados están: SVM [50, 76], [77], kNN, RF, k-media, RNA [75] o combinaciones de estos [78]. A pesar de los buenos resultados obtenidos, estos no son suficientes para su uso habitual en la práctica médica. Los sistemas basados en aprendizaje profundo superan en muchos casos los resultados de los métodos tradicionales de visión por computadora y reciben cada vez mayor atención de la comunidad científica. CAPÍTULO 1 19 1.6 Particularidades de los sistemas CAD basados en aprendizaje profundo Los sistemas basados en aprendizaje profundo determinan por sí mismos las ecuaciones que describen las lesiones, lo que les otorga gran ventaja frente a los sistemas tradicionales. Esta es una rama del aprendizaje automático que data de la década de 1940. Ha recibido varios nombres y ganado y perdido popularidad a lo largo de la historia [51]. Su auge durante los últimos años se debe a la superación de los principales obstáculos que evitaban que las arquitecturas profundas fueran empleadas. Entre estos se pueden mencionar: el desvanecimiento del gradiente, el sobreajuste y la gran carga computacional. El primero fue resuelto con la introducción de la función de activación ReLU, la regla de aprendizaje de entropía cruzada y el descenso del gradiente. El segundo fue superado con el uso de la regularización o dropout y el tercero, aún presente, ha sido enfrentado con el desarrollo de nuevo hardware, como las tarjetas de procesamiento gráfico (GPU del inglés Graphics Processing Units), y software para aprovecharlo al máximo [23]. También han sido favorecidos por la creciente digitalización, que ha aumentado la disponibilidad de datos requeridos por estos modernos algoritmos [79]. Generalmente los estudios convergen en un número de capas muy superior al empleado por las técnicas tradicionales de aprendizaje automático. Los algoritmos de aprendizaje profundo emplean una cascada de capas con unidades de procesamiento no lineal para extraer y transformar variables. Cada capa posee un mayor nivel de abstracción que la anterior, formándose una jerarquía de conceptos [51]. Las arquitecturas profundas superan en rendimiento a los algoritmos tradicionales y permiten el empleo de RNA para resolver adecuadamente problemas no separables de manera lineal. La CNN es una de las arquitecturas de aprendizaje profundo más usadas en la clasificación de imágenes [22]. Esta imita el procesamiento de las imágenes en el cerebro, lo cual constituye la principal diferencia en concepto y operación respecto a las redes neuronales anteriores [23]. Los pesos en la red son compartidos para realizar operaciones de convolución en las imágenes [22]. Las capas de convolución generan los mapas de características X al aplicar un grupo de núcleos 𝑊 = {W , W , … , W , } y añadir sesgos 𝐵 = {𝑏 , … 𝑏 } a cada imagen de entrada en la forma: X = 𝜎(W ∗ X + 𝑏 ) (1.2) CAPÍTULO 1 20 donde σ es una transformación no lineal aplicada a cada característica. Los valores de los píxeles vecinos se combinan dejando el mayor valor o el medio (operaciones invariantes a las permutaciones) en las capas de agrupación. El agrupamiento es una técnica de submuestreo utilizada a menudo para mitigar el sobreajuste, con lo que se vuelve a incrementar la robustez de la red y se reducen aún más los parámetros necesarios y las dimensiones de las imágenes [79]. Al final se agregan capas totalmente conectadas y de normalización. En las capas totalmente conectadas, sin pesos compartidos, se le aplica por lo general, la función softmax a las activaciones de la última capa, para asignarle una clase a cada una. Debido a su principio de funcionamiento, las CNN realizan automáticamente el pre- procesamiento, ya que generan sus propios filtros. Sin embargo, muchos sistemas aún emplean un preprocesamiento antes de entregar las imágenes a la red. La segmentación, por ejemplo, es un paso fundamental para esto, pues disminuye los requerimientos de cálculo [32] y evita que sean captadas estructuras ajenas al área de interés [80] que pueden constituir sesgos para la clasificación [81]. Un ejemplo de estas estructuras son las etiquetas textuales presentes comúnmente en las radiografías, como se demostró en [82]. Los sesgos se evidencian cuando las características aprendidas por la red neuronal no son relevantes al emplearlas en escenarios del mundo real. Esto demuestra que los modelos pueden clasificar correctamente ciertas imágenes, pero carecen de capacidad de generalización a nuevos ejemplos [83]. El aprendizaje por atajos, como se identifica esta problemática, constituye uno de los principales obstáculos para lograr sistemas más confiables. En este caso los sistemas aprenden otras características que no son las de interés, para realizar la clasificación. Se recomienda, por tanto, determinar la validez de los modelos e interpretar cuidadosamente los resultados utilizando conjuntos de datos externos [80]. Un aspecto algo desventajoso de las CNN es la inmensa cantidad de datos que requieren, por lo general varios cientos de miles para que trabajen de forma óptima [51]. Sin embargo, generalmente las imágenes médicas disponibles para el entrenamiento de las redes son insuficientes. Las técnicas de aumento de datos [84] pretenden resolver esto. Estas comprenden la aplicación de transformaciones geométricas y de calidad a las imágenes como la ampliación, rotación en diversas direcciones [85], variación del brillo y del contraste, CAPÍTULO 1 21 mezcla de imágenes y borrado de ciertas partes de las mismas. Estos métodos permiten mejorar la sensibilidad de los modelos y disminuyen el riesgo de sobreajuste del sistema. Otro método empleado para afrontar esta dificultad es la transferencia de aprendizaje. La transferencia de aprendizaje parte de un modelo preentrenado con conjuntos de imágenes mucho mayores que los disponibles para la aplicación de interés. A este se le ajustan algunos pesos de las capas finales al entrenarlo nuevamente, pero empleando el conjunto de datos de interés [24]. Las técnicas de aprendizaje automático se aplican desde hace unos años en la segmentación de la región pulmonar y de las lesiones. Más recientemente, se han empleado para esta tarea las de aprendizaje profundo también [32]. Las redes neuronales convolucionales asignan una clase a cada píxel para analizar la imagen; pero esto tiene un costo computacional muy grande. La mayoría de los estudios han optado por el empleo de una variante conocida como Fully ConvNet para resolver este inconveniente, las que son capaces de procesar imágenes de cualquier resolución a diferencia de las ordinarias. La arquitectura U-Net [86] se basa en este tipo de CNN y es una de las más empleadas para la segmentación [87]. Posee un canal de codificación y otro de decodificación que presentan cierta simetría, lo que les otorga la apariencia de U. Han surgido muchas arquitecturas de CNN para la segmentación y clasificación de imágenes. Las redes más profundas incluyen pequeños bloques para hacer el procesamiento más eficiente. Estos bloques presentan convoluciones de ramificación con capas de agrupación y normalización en lotes. Algunos ejemplos de estas redes son: LeNet [88] (1998), AlexNet (2012) [89], GoogLeNet (Inception v1) (2014) [90], VGG16/19 (2014), U-Net (2015) [86], ResNet (2015) [91], SqueezeNet (2016) [92] y DenseNet (2016) [93]. Las características de estas redes son combinadas para obtener las ventajas que cada una ofrece [94]. Se han presentado varios métodos durante las últimas cuatro décadas para segmentar la región pulmonar, detectar y segmentar candidatos a nódulos y clasificarlos. A pesar de las limitaciones para realizar una correcta comparación, se puede afirmar para la segmentación, que los métodos basados en reglas son frágiles y deficientes cuando las estructuras anatómicas están muy deformadas. En general su rendimiento es menor que los de las otras dos categorías, aunque por su rapidez aún se aprovechan en sistemas híbridos. Las técnicas CAPÍTULO 1 22 de aprendizaje automático han dado resultados intermedios hasta la fecha; presentando como principal dificultad la determinación del grupo apropiado de características [32]. Las de aprendizaje profundo han resuelto el problema de la forma más eficaz hasta el momento. No obstante, es importante resaltar que no se ha obtenido un algoritmo único que pueda aplicarse a todas las etapas, ya que se tiende a la especialización [95]. 1.7 Conclusiones del capítulo Se puede plantear que mucho ha evolucionado el proceso de adquisición de las radiografías de tórax. Sin embargo, el bajo contraste y el pequeño tamaño que presentan las lesiones pulmonares provoca en muchos casos que su detección sea muy compleja. Estas dificultades se presentan también en los sistemas automatizados de diagnóstico. Se han empleado históricamente en estos, métodos de aprendizaje automático que utilizan características extraídas manualmente. Sin embargo, recientemente se han introducido métodos de aprendizaje profundo que permiten prescindir del preprocesamiento, la segmentación y de la extracción de características necesarios en los métodos tradicionales, posibilitando una mayor robustez y menores tiempos de ejecución. Por lo tanto, se justifica el desarrollo de sistemas automatizados, basado en redes neuronales convolucionales de aprendizaje profundo, capaces de detectar las principales lesiones pulmonares para ayudar a los especialistas en sus diagnósticos. CAPÍTULO 2 23 CAPÍTULO 2. MATERIALES Y MÉTODOS En el presente capítulo se describen los conjuntos de imágenes y el software utilizado en la presente tesis. Se analizan los métodos empleados para aumentar el conjunto de imágenes y las arquitecturas de redes neuronales convolucionales seleccionadas para segmentar y para detectar nódulos. También se expone el proceso de entrenamiento, validación y prueba de la red de detección y se caracteriza el hardware con el que se procesó toda la información. 2.1 Descripción de los conjuntos de imágenes utilizados En esta investigación se utilizaron dos conjuntos anotados de radiografías, una para entrenar los modelos, y otro de diferente origen, para evaluar su capacidad de generalización. El primero fue un conjunto de radiografías frontales de tórax, creado a partir de la combinación de las BD ChestX-ray14 [96], PadChest [97] y Openi [98], en las cuáles, de las imágenes con nódulos, se cuenta con la ubicación de cada lesión. Cada una de estas radiografías presenta una única lesión. Este conjunto se utilizó para entrenamiento y validación de la red de detección. Se utilizó la BD JSRT (Japón) [53] para realizar la prueba externa. Las características generales de estas BD se recogen en la Tabla 2.1. Tabla 2.1 Bases de datos utilizadas en la investigación Nombre de la BD Total de imágenes sin lesiones Total de imágenes con nódulos ChestX-ray14 2348 617 PadChest 1196 314 Openi 205 54 Total 3749 985 JSRT 93 153 CAPÍTULO 2 24 2.2 Software y hardware empleados Se utilizó el lenguaje de programación Python y el marco de trabajo de aprendizaje automático Fastai para implementar el sistema de IA. Se utilizó una computadora de escritorio con las siguientes prestaciones:  Procesador (CPU): Intel® Core™ i7-8700 3.2 GHz  Tarjeta Gráfica: NVIDIA GeForce® RTX 3070 8 GB GDDR6  RAM: 32 GB (2 x 16 GB) DDR4 3200MHz  Placa Base: MSI B365M PRO-VH  Almacenamiento: SSD 128GB M.2 SATA + HDD 1TB (7200RPM) 2.3 Preprocesamiento de las imágenes para el entrenamiento Se probaron tres estrategias. La primera fue el empleo de las imágenes completas extraídas directamente de las BD. En la segunda, estas mismas imágenes fueron segmentadas, extrayendo la región pulmonar, antes de ser analizadas por la red neuronal. Para la tercera estrategia, se utilizaron regiones de interés de dos tamaños diferentes de parches. Se aplicaron técnicas de aumento de datos para generar más imágenes de las presentes en el conjunto mostrado en la Tabla 2.1, empleando las funcionalidades que incluye Fastai. Estas variaron en dependencia de las características de las imágenes a analizar con las redes neuronales y se describen más adelante para cada estrategia. 2.3.1 Imagen completa En esta estrategia se emplearon las imágenes completas extraídas directamente de las BD. Estas fueron redimensionadas a 224 x 224 píxeles, que es el tamaño usual que acepta la CNN utilizada. En este caso el aumento de datos se hizo sobre la base de rotar hasta 15 grados cada imagen a derecha e izquierda. Otra técnica implementada fue ampliar hasta un 110 % el tamaño original de cada imagen, y en otros, reducirlo hasta el 80 %. Además, se disminuyó el brillo de las imágenes originales hasta el 80 % y se voltearon horizontalmente. CAPÍTULO 2 25 2.3.2 Segmentación de la región pulmonar En la segunda estrategia se segmentó la región pulmonar de cada radiografía utilizando una CNN preentrenada1 basada en la arquitectura U-Net [86]. Esta red fue entrenada con imágenes radiográficas y máscaras segmentadas a mano por especialistas humanos, pertenecientes a los conjuntos Montgomery [99]. La aplicación de esta etapa pretendió disminuir la probabilidad de aprendizaje por atajos o características fuera de la región pulmonar. Las máscaras obtenidas también se emplearon en la obtención de los cuadros delimitadores de ambos pulmones. Las imágenes de entrada a la red tuvieron una resolución de 256 x 256 píxeles. La arquitectura de segmentación presenta dos secciones fundamentales: un canal de codificación y otro de decodificación, en las cuales se aprecia una simetría que le otorga la apariencia de U. En total, la red contó con 23 capas convolucionales y aplicó transformaciones automáticamente para aumentar el número de imágenes de entrenamiento, obteniendo una mayor robustez [86]. La Figura 2.1 muestra el esquema de la arquitectura implementada. Figura 2.1 Esquema de arquitectura U-Net. Cada bloque azul corresponde a un mapa de características de varios canales. El número de canales se indica encima de cada rectángulo y la resolución a la izquierda. Las flechas señalan las operaciones ejecutadas. A la entrada se introduce una radiografía y la red devuelve una máscara de segmentación. Adaptado de [86]. 1 https://github. com/imlab-uiip/lung-segmentation-2d CAPÍTULO 2 26 El canal de codificación consistió en la aplicación repetida de dos convoluciones de 3x3 píxeles (convoluciones sin relleno), cada una seguida de una capa con función ReLU y una operación de agrupación máxima de 2x2 píxeles con stride de 2, para reducir la resolución. En cada paso de reducción se duplicaron los canales de características. En el canal de decodificación se incrementó la resolución de la imagen a la salida, para compensar las pérdidas del paso anterior. Se incrementó el muestreo del mapa de características seguido de una convolución 2x2 píxeles (convolución ascendente) que dividió a la mitad el número de canales de funciones. Para la localización de lesiones, las características de alta resolución de la ruta de contracción fueron concatenadas con las de expansión. En la capa final se utilizó una convolución de 1x1 píxel para asignar cada característica extraída al número deseado de clases. La imagen devuelta por esta red fue sometida a una etapa de postprocesamiento para mejorarla. Los agujeros encontrados fueron rellenados en las regiones conectadas a partir de la operación de apertura morfológica. Se realizó una dilatación de la máscara de segmentación, utilizando un elemento estructurante en forma de disco de dimensiones proporcionales a la imagen. Se utilizó el 2 % de la imagen como radio del elemento estructurante. Esta operación persiguió aumentar la máscara de segmentación obtenida y proporcionarle a la red más información sobre los pulmones. El aumento de datos en esta estrategia fue semejante al descrito en el acápite anterior. 2.3.3 Extracción de la región correspondiente al cuadro delimitador de cada lesión Una de las deficiencias que presentan los métodos basados en DL para identificar nódulos pulmonares a partir de CXR, es la baja resolución de las imágenes utilizadas para entrenar las redes. En la mayoría de los trabajos al emplear redes preentrenadas se utilizan imágenes de 224 x 224 píxeles. Este proceso de redimensionamiento puede hacer que se pierdan características importantes en las imágenes. Debido a esto, en esta investigación la tercera estrategia estuvo enfocada a paliar este inconveniente. De ahí que, en lugar de imágenes completas o segmentaciones de pulmones completos, se utilizara la división en regiones de interés (son cuadros delimitadores de lesiones o regiones sanas, también denominados parches). CAPÍTULO 2 27 Esta estrategia consistió en extraer un parche correspondiente al cuadro delimitador de cada nódulo y otro, de igual tamaño, de una región sin esta anomalía, de cada radiografía con presencia de lesiones. Se probó una variante adicional de mayor tamaño de región, correspondiente a un 96 % superior a la de la primera variante. La Figura 2.2 presenta los dos ejemplos de regiones seleccionadas de diferentes tamaños, correspondientes al mismo nódulo y de dos regiones normales. Figura 2.2 Parches de diferente tamaño correspondientes a la misma lesión y a tejido normal. Área correspondiente al cuadro delimitador de la lesión (izquierda arriba); área superior en un 96 % a la del cuadro delimitador (derecha arriba), región sana en dos tamaños diferente (debajo). Para el aumento de datos en ambas estrategias, se aplicaron las transformaciones aplicadas en las estrategias anteriores y, además, se realizaron rotaciones de hasta 180 grados en ambas direcciones y se voltearon verticalmente. El Anexo 1 muestra el código de su implementación. A partir de estas divisiones se obtienen nuevos conjuntos de imágenes. Las sub-imágenes con presencia de las características de interés (nódulos) se ubicaron en una carpeta y las restantes en otra. Con esto se logró un etiquetado correcto, lo cual es imprescindible para el entrenamiento de las CNN [100]. 2.4 Entrenamiento, validación y prueba de los modelos Se realizaron varios ensayos de prueba y error para obtener el mejor modelo. En todos los casos las BD se dividieron en dos grupos, el 80 % para entrenar los modelos y el 20 % para validarlos. En cada carpeta de las representadas en la Figura 2.3 se dividieron las imágenes CAPÍTULO 2 28 en cuatro: sin nódulos para entrenamiento, con nódulos para entrenamiento, sin nódulos para validación y con nódulos para validación. Se probó como arquitectura de red neuronal SqueezeNet 1.1 (en lo adelante solo SqueezeNet), que es una red no tan costosa computacionalmente (buscando eficiencia), con las tres estrategias de obtención de imágenes para entrenamiento y validación. La selección de esta red se justifica con su actual aceptación por la comunidad científica internacional [101]. El Anexo 2 muestra el código utilizado para cargarla. Figura 2.3 Estrategias de entrenamiento de los modelos de detección Utilizando las herramientas de Fastai se implementó la arquitectura mencionada. Se podría hacer un entrenamiento desde cero, pero se aprovecharon modelos preentranados en el conjunto Image-Net que Fastai incorpora. Así, dado el limitado conjunto de datos de esta investigación, las CNN aprenderían solamente las características de alto nivel (correspondientes a estructuras anatómicas) en tanto se aprovecha del modelo preentrenado el aprendizaje de estructuras más sencillas como líneas, bordes, entre otras. El modelo preentrenado correspondiente a la arquitectura empleada requiere que las imágenes suministradas sean RGB con resolución 224 x 224 píxeles, por lo que estas fueron Train CNN CAPÍTULO 2 29 redimensionadas y se les triplicó el único canal que presentan para convertirlas de escala de grises a RGB. Posteriormente cada una fue normalizada según la media y la desviación estándar del conjunto Image-Net. Se aplicó además transferencia de aprendizaje. Esta consistió en que durante las dos primeras épocas de cada entrenamiento se conservaron los pesos de los modelos preentrenados cargados, excepto los de la última capa, que son los que se ajustan para aprender las características de alto nivel antes mencionadas. La aplicación de la transferencia de aprendizaje, unida a las técnicas de aumento de datos, permitieron satisfacer en parte, la gran cantidad de datos requerida por la CNN utilizada. Posteriormente todos los pesos de los modelos fueron recalculados al realizar un ajuste fino de la red durante 30 épocas. En este punto se comparó la evolución de las funciones de pérdidas durante el entrenamiento y la validación y se examinó el valor final de la tasa de aprendizaje. En el caso que dichas funciones convergieran en el gráfico, se determinaba una nueva tasa de aprendizaje óptima, utilizando la herramienta denominada “buscador de tasa de aprendizaje” (lr_finder) incluida en Fastai, la cual lo hace automáticamente. Se continuaba el entrenamiento por otras 30 épocas, empleando este nuevo valor como el inicial y actualizando los pesos de toda la red. Este proceso se repitió hasta apreciar que las pérdidas durante la validación se tornaran superiores a las apreciadas en el entrenamiento. Se debe aclarar que las diferentes estrategias ejecutadas compartieron la mayor parte de los ajustes descritos. La selección correcta de la tasa de aprendizaje fue fundamental para mejorar la velocidad del entrenamiento y el desempeño de los modelos. Un valor inicial muy elevado de la misma puede provocar que las pérdidas durante la validación se incrementen inmediatamente. El Anexo 3 muestra el código para utilizar la herramienta de búsqueda de tasa de aprendizaje de Fastai. Otras especificaciones utilizadas en la implementación de la red fueron: el empleo del optimizador Adam por su adaptabilidad y robustez con parámetros β1 = 0.9 y β2 = 0.999 y la selección como función de pérdidas la de entropía cruzada (CrossEntropyLoss). El método de entrenamiento empleado fue el expuesto en [102] denominado 1cycle policy. Es el método recomendado por Fastai y el que emplea en sus funciones fine_tune y CAPÍTULO 2 30 fit_one_cycle, las que fueron utilizadas para entrenar los modelos como se describe en los Anexos 3 y 4. El mismo consiste en incrementar progresivamente la tasa de aprendizaje hasta un máximo definido y luego reducirla hasta un valor mucho menor que el inicial a menor velocidad, permitiendo usar tasas mucho mayores que en otros tipos de entrenamiento. El incremento inicial acelera el entrenamiento y evita el sobreajuste, mientras que la reducción disminuye el error en las predicciones de los modelos. Como no se puede entrenar con todas las imágenes a la vez, se entrenó progresivamente con pequeños grupos de imágenes, denominados lotes. Por tanto, el tamaño de cada lote fue otro factor muy importante a tener en cuenta. El mayor tamaño de los lotes beneficia la estabilidad de los entrenamientos, pero al decrementar el número de lotes por época, los pesos en las redes tienen menos oportunidades de actualizarse. El número más adecuado se seleccionó mediante prueba y error. En todos los entrenamientos se empleó un tamaño de lote de 32. Se empleó el método Grad-CAM para visualizar las regiones de las radiografías en las que los modelos pusieron su atención para detectar los nódulos pulmonares [59]. El principal objetivo de este método fue determinar si los modelos se fijaban en zonas válidas o si se introducían sesgos debido al aprendizaje por atajos [80]. Se implementó este método usando las facilidades que otorga Fastai. Al finalizar cada época se validó el modelo. Para esto se emplearon como métricas la sensibilidad, precisión, exactitud, exactitud balanceada y el valor F1, definidas a continuación: Sensibilid = (2.1) Precisión = (2.2) Exactitud = (2.3) Exactitud Balanceada = ∗ ( + ) (2.4) Valor F1 = (2.5) CAPÍTULO 2 31 Donde VP (verdaderos positivos) corresponde a los elementos que el sistema detecta como positivos, coincidiendo con la anotación de la BD. Los VN (verdaderos negativos) son los elementos que el sistema detecta como negativos, coincidiendo también con la anotación de la BD. Los FP (falsos positivos) son los elementos que el sistema detecta como positivos contrario a la anotación en la BD. Los FN (falsos negativos) son los elementos que el sistema detecta como negativos, cuando la anotación de la BD los muestra como positivos. Los resultados de estas métricas permitían evaluar cómo avanzaba el rendimiento del modelo. El modelo se guardó siempre que se llegaba a un mejor comportamiento de la precisión balanceada. Para desarrollar la validación se utilizó el 20 % de los datos de cada conjunto. Esto permitió valorar el desempeño de los modelos en imágenes no vistas durante el entrenamiento. Estos resultados definían si se continuaba con el entrenamiento o si ya se habían alcanzado los mejores rendimientos. Finalmente se comprobó la capacidad de generalización de los modelos mediante una prueba externa. Se ejecutó exactamente en las mismas condiciones descritas hasta este punto, pero para conjuntos de datos obtenidos a partir de la BD JSRT (nunca antes vistos por la red). 2.4.1 SqueezeNet La arquitectura SqueezeNet cuenta con varios módulos fire como base, los que poseen una capa de contracción (que solo tiene filtros convolucionales de 1x1) y otra de expansión (que emplea filtros convolucionales de 1x1 y 3x3). La capa de compresión ayudó a limitar el número de canales de entrada a los filtros de 3x3. La Figura 2.4 muestra un esquema de un módulo fire. CAPÍTULO 2 32 Figura 2.4 Organización de los filtros de convolución en un módulo fire. Tomado de [92]. SqueezeNet carece de capas totalmente conectadas. Se divide en una etapa de extracción de características y otra de clasificación. La primera está compuesta por una capa de convolución seguida por una de agrupamiento máximo; luego se aprecian dos módulos fire, otra capa de agrupamiento máximo y cuatro módulos fire. La segunda etapa cuenta con una capa de dropout, otra de convolución que da la salida de clasificación (dos clases en la aplicación de interés) y una última capa de agrupamiento máximo. Las salidas de las capas de convolución pasaban a través de funciones de activación de tipo ReLU. La Figura 2.5 muestra un esquema de esta arquitectura. Como Fastai también incluye la definición de esta arquitectura y un modelo preentrenado basado en la misma, no fue necesario implementarla. Figura 2.5 Esquema de la arquitectura SqueezeNet. CAPÍTULO 3 33 CAPÍTULO 3. RESULTADOS Y DISCUSIÓN En el presente capítulo se exponen los resultados de la detección de nódulos pulmonares alcanzados utilizando una red neuronal convolucional para tres estrategias de entrada de imágenes al entrenamiento y validación. Se evalúan los resultados comparando la salida de la red con las anotaciones presentes en la BD creada a partir de ChestX-ray14 [96], PadChest [97] y Openi [98]. Se analizaron además los trabajos de otros autores que emplean otros tipos de redes neuronales y BD similares a modo de comparación con los presentes resultados. Se obtuvieron varios modelos basados en la arquitectura SqueezeNet. Todos contaron con una salida de clasificación en dos clases: con nódulo y sin nódulo. Se discute el mejor modelo obtenido y se somete a una prueba externa para valorar su poder de generalización. 3.1 Resultados de cada estrategia para el entrenamiento y validación de los modelos 3.1.1 Imagen completa La primera estrategia probada fue la detección de las lesiones en las imágenes completas como las mostradas en la Figura 3.1, para la CNN SqueezeNet [92]. Se aprecian en la misma figura algunas de las imágenes resultantes a partir de una imagen original sobre la que se aplicaron técnicas de aumento de datos. Figura 3.1 Imágenes completas empleadas en el entrenamiento (izquierda). Imágenes resultantes de la aplicación de las técnicas de aumento de datos (derecha). La Figura 3.2 muestra el progreso de las últimas 30 épocas del entrenamiento. Obsérvese el comportamiento de la curva naranja correspondiente al valor de las pérdidas en el conjunto CAPÍTULO 3 34 de validación. Esta exhibe valores crecientes, separándose de la azul (pérdidas durante el entrenamiento). Se detuvo el entrenamiento al apreciarse que estas se separaron, lo cual indica que hubo un sobreajuste en el modelo para esta estrategia con la CNN SqueezeNet [103]. Figura 3.2 Progreso de la última etapa de entrenamiento del modelo para radiografía completa. Como mejor modelo obtenido se seleccionó el que alcanzó una exactitud balanceada de 80,56 % en la etapa de validación, lo cual se produjo para la época 11. La Figura 3.3 muestra la matriz de confusión obtenida al evaluar el modelo con el conjunto de validación. A partir de esta matriz se calcularon las métricas de desempeño del modelo: sensibilidad (64,95 %), precisión (83,23 %), exactitud (89,11 %), exactitud balanceada (80,56 %) y el valor F1 (72,97 %). Épocas P ér di da s CAPÍTULO 3 35 Figura 3.3 Matriz de confusión del modelo con mejor exactitud balanceada para radiografías completas. Como se aprecia, se obtuvieron 28 falsos positivos y 75 falsos negativos. Este desempeño se pudiera valorar como favorable si se compara con el desempeño humano que es entre 49 % y 65 % [27]. Sin embargo, se debe comprobar si el aprendizaje y clasificación han sido hechos correctamente en base a la característica de interés (nódulos) o si se basa en atajos o sesgos. A fin de valorar la calidad del desempeño de la red para la tarea, se aplicó el método Grad- CAM para verificar qué regiones fueron identificadas por la misma como significativas para desarrollar la detección. La Figura 3.4 muestra la aplicación del Grad-CAM. Los colores cálidos indican las regiones de mayor peso para la clasificación. Se evidencia que varias regiones son ajenas al área de los pulmones. Esto significa que el sistema posee sesgos, por lo que la aparentemente buena clasificación no se puede considerar como correcta [80]. R ea l Predicción CAPÍTULO 3 36 Figura 3.4 Grad-CAM aplicado a varias imágenes siguiendo la misma estructura de la matriz de confusión de la Figura 3.3. El círculo blanco indica la localización real de la lesión. Las flechas negras indican sitios donde la red neuronal se basa para clasificar como VP, VN, FP y FN. Se puede apreciar, en el extremo superior izquierdo, que la red lo detecta como una imagen con un positivo, lo cual es cierto (VP). Sin embargo, se aprecia que la red ve tanto el sitio real como otros donde no hay lesión y que están fuera de la región pulmonar, lo cual constituye un sesgo en el modelo. Para la imagen superior derecha, donde realmente hay un nódulo, la red neuronal no ha tenido en cuenta para su clasificación la región real donde este se encuentra. Por esta razón, constituye un falso negativo. La imagen se ha clasificado como negativa, dado que en los sitios activados (señalados con flechas), no hay nódulos. Esto es cierto, pero constituye un sesgo, ya que son regiones fuera de la región pulmonar, en tanto no identificó la región con nódulo real. La imagen inferior izquierda, es normal. Sin embargo, la red la ve como positiva, constituyendo un FP. Obsérvese que se marcan activos sitios fuera de la región pulmonar. Por último, en la imagen inferior derecha, donde no hay nódulo, la red lo da como negativo, pero marca como sitios activos, varios que se encuentran fuera de la región pulmonar. Concluyendo, la estrategia de utilizar una imagen completa con la CNN SqueezeNet, no ha sido satisfactoria. CAPÍTULO 3 37 3.1.2 Imagen segmentada Debido al aprendizaje por atajos evidenciado en la estrategia anterior, se segmentó el área pulmonar en las imágenes completas como muestra la Figura 3.5. Esto se realizó para obligar a la red neuronal a emitir una clasificación basándose solo en la región pulmonar. Se aprecian en la misma figura algunas de las imágenes resultantes tras la aplicación de las técnicas de aumento de datos. Figura 3.5 Imágenes segmentadas para desarrollar el entrenamiento (izquierda). Imágenes segmentadas resultantes de la aplicación de las técnicas de aumento de datos (derecha). Al observar el valor que asumen las pérdidas de la red durante la validación (línea naranja en la Figura 3.6) se aprecia cómo se detuvo el entrenamiento. Las pérdidas durante la validación aumentaron, separándose de la línea azul (pérdidas durante entrenamiento). Esto indica un sobreajuste en el modelo. En este caso, se seleccionó como modelo de referencia aquel con mayor valor de exactitud balanceada en la etapa de validación de cada época, guardado durante el entrenamiento. Figura 3.6 Comportamiento del modelo para imagen segmentada P ér di da s Épocas CAPÍTULO 3 38 El modelo seleccionado alcanzó una exactitud balanceada de 93,41 % en la etapa de validación para la época 9. La Figura 3.7 muestra la matriz de confusión obtenida al evaluarlo en el conjunto de validación. A partir de esta se calcularon las métricas de desempeño del modelo: sensibilidad (90,10 %), precisión (88,27 %), exactitud (95,29 %), exactitud balanceada (93,41 %) y el valor F1 (89,18 %). Figura 3.7 Matriz de confusión del modelo con mejor exactitud balanceada para imágenes segmentadas de pulmones. Estos indicadores parecen ser favorables, sobre todo si se compara contra el desempeño humano [27]. Para el conjunto de datos utilizados se obtuvieron 73 FP y 19 FN. Sin embargo, al aplicar el método Grad-CAM para verificar las regiones tenidas en cuenta por la red para detectar nódulos a partir de imágenes segmentadas, se evidencia que este modelo, aunque mejora respecto al desempeño del modelo anterior, tampoco es capaz de identificar adecuadamente todas las regiones con nódulos. La Figura 3.8 muestra esta evidencia. R ea l Predicción CAPÍTULO 3 39 Figura 3.8 Grad-CAM aplicado a imágenes con pulmones segmentados siguiendo la misma estructura de la matriz de confusión de la Figura 3.7. El círculo blanco indica la localización real de la lesión. En el extremo superior izquierdo se identifica la región con el nódulo correctamente, pero se marcan otras zonas que no los poseen. En el extremo superior derecho, no se detecta el nódulo, por tanto, es un falso negativo. La imagen se clasifica como negativa basado en la activación de zonas que realmente son negativas. En el extremo inferior izquierdo, se muestran activas como positivas zonas donde realmente no hay nódulo, por tanto, es un FP, y en la de la derecha se identifica correctamente que la imagen es negativa. En todos los casos se muestran activaciones fuera de la región pulmonar. 3.1.3 Regiones de interés Para paliar el problema de la baja resolución de imagen en las dos estrategias anteriores se trabajó en esta con imágenes correspondientes a regiones restringidas al cuadro delimitador de cada lesión y otras de tamaño semejante sobre tejido sano (parches). Se utilizaron dos dimensiones diferentes para estos parches. Así, las secciones correspondientes a los cuadros delimitadores le permitieron a la red SqueezeNet concentrarse solo en las regiones que presentan las características de interés (normal o patológica). CAPÍTULO 3 40 Regiones de interés más pequeñas En esta estrategia, a diferencia de las anteriores, tras culminar las primeras 30 épocas para los parches más pequeños, se obtuvo la tasa de aprendizaje más adecuada. Como aún era posible seguir mejorando el modelo, este se cargó, se calculó un nuevo valor de tasa de aprendizaje que fue (10-4) y se entrenó por otras 30 épocas. La Figura 3.9 muestra la gráfica devuelta por el buscador incluido en Fastai y cuatro valores de tasa de aprendizaje que recomienda a partir de métodos automatizados de búsqueda. De estos se seleccionó valley (del inglés valle), siguiendo el criterio de aceptación que tiene por la comunidad científica para este hiperparámetro [104]. Figura 3.9 Comportamiento de la tasa de aprendizaje en la estrategia de parches pequeños La Figura 3.10 muestra el progreso de las últimas 30 épocas del entrenamiento para los parches más pequeños. Obsérvese el comportamiento de la curva naranja correspondiente a la validación. Se aprecia que este modelo aún tiene potencialidades para refinarse más. Se recomienda entrenar durante más épocas, lo cual no fue realizado en el marco de esta investigación por razones de tiempo. Los entrenamientos de esta variante tuvieron una duración promedio de 20 segundos por época. P ér di da Tasa de aprendizaje CAPÍTULO 3 41 Figura 3.10 Comportamiento del modelo para parches pequeños La Figura 3.11 muestra la matriz de confusión correspondiente al modelo con mejor exactitud balanceada en el conjunto de validación (92,99 %) para los parches más pequeños. A partir de esta se calcularon las métricas de desempeño: sensibilidad (88,77 %), precisión (94,05 %), exactitud (94,40 %), exactitud balanceada (92,99 %) y el valor F1 (91,34 %). Figura 3.11 Matriz de confusión del modelo con mejor exactitud balanceada para los parches más pequeños. Predicción R ea l P ér di da s Épocas CAPÍTULO 3 42 Obsérvese cómo se reducen las tasas de FP y FN a 11 y 22 respectivamente. Dado que en este modelo los valores de las métricas de desempeño se hacen cada vez más fuertes en relación con el desempeño humano, se requiere evaluar si el aprendizaje fue real o por atajos, para evidenciar si el comportamiento de la red es correcto o no. La aplicación del método Grad-CAM se aprecia en la Figura 3.12. Permite verificar, las porciones de cada parche tenidas en cuenta por la red para efectuar la detección. Se interpreta que la red toma en cuenta los bordes de las lesiones para su detección en los casos positivos correctamente, mientras que, en los negativos, el mapa de atención es más disperso. Este comportamiento sin duda es mucho mejor a lo obtenido en las estrategas anteriores [58]. Figura 3.12 Grad-CAM aplicado a imágenes correspondientes a los cuatro casos encontrados durante la evaluación del sistema (VP, FN, FP, VN, de izquierda a derecha, de arriba hacia abajo). Para las imágenes de la parte superior, correspondientes a un parche con un nódulo real, la red o lo identifica o al menos detecta sus bordes. Para las imágenes negativas inferiores, el mapa se activa adecuadamente en varias regiones donde no está un nódulo. Regiones de interés más grandes Se entrenó con los parches más grandes también durante 30 épocas. Al apreciarse que aún era posible obtener un mejor desempeño del modelo, este se cargó, se calculó un nuevo valor CAPÍTULO 3 43 de tasa de aprendizaje adecuado (3 x 10-4) y se entrenó por otras 30 épocas. La Figura 3.13 muestra la gráfica devuelta por el buscador incluido en Fastai y los cuatro valores de tasa de aprendizaje que este recomienda. Al igual que en el caso anterior, se escogió valley de acuerdo con el nivel de aceptación existente [104]. Figura 3.13 Comportamiento de la tasa de aprendizaje en la estrategia de parches más grandes. La Figura 3.14 muestra el progreso de las primeras 30 épocas del entrenamiento para los parches más grandes. Al igual que en el caso anterior, se aprecia que el modelo tiene posibilidades de refinarse aún más en el futuro, es decir, de lograr una caída más abrupta de las pérdidas en ambas gráficas (entrenamiento y validación). Se recomienda entrenar durante más épocas. No obstante, el modelo muestra buena concordancia entre entrenamiento y validación, sin apreciarse un sobreajuste evidente. Figura 3.14 Comportamiento del modelo para parches grandes Tasa de aprendizaje P ér di da Épocas Pé rd id as CAPÍTULO 3 44 La Figura 3.15 muestra la matriz de confusión correspondiente al modelo con mejor exactitud balanceada en el conjunto de validación (78,16 %) para los parches más grandes. A partir de esta, se calcularon las métricas de desempeño: sensibilidad (61,96 %), precisión (82,01 %), exactitud (84,87 %), exactitud balanceada (78,16 %) y el valor F1 (70,59 %). Figura 3.15 Matriz de confusión del modelo con mejor exactitud balanceada para los parches más grandes Las tasas de FP y FN suben con respecto al modelo usando parches pequeños. En este caso se obtiene 25 y 70 respectivamente. Se verificó además si el aprendizaje de este modelo fue real o por atajos con la aplicación de Grad-CAM (Figura 3.16). Como se aprecia en el mapa Grad-CAM, el modelo es capaz de tener en cuenta regiones correctas para realizar la detección. Siguiendo para la figura anterior el mismo orden de la matriz de confusión, el VP coincide en localización con la ubicación real del nódulo. El FN se debe a que se trata de un nódulo muy pequeño y el modelo no fue capaz de identificar correctamente los bordes de la lesión. En el caso del FP marca una costilla como si fuese una lesión y el VN está bien delimitado. R ea l Predicción CAPÍTULO 3 45 Figura 3.16 Grad-CAM aplicado a imágenes correspondientes a los cuatro casos encontrados durante la evaluación del sistema (VP, FN, FP, VN, de izquierda a derecha, de arriba hacia abajo). Como se puede apreciar, entre todas las estrategias de entrenamiento probadas, la que mejor ajusta el modelo, utilizando la red SqueezeNet para la detección de nódulos pulmonares, fue la de los parches pequeños. La misma posee una exactitud balanceada de 93 %, con las tasas más bajas de FP y FN logradas y, además, no se aprecia un sobreajuste evidente del modelo. Quedan algunos sesgos que propician detecciones incorrectas, que pudieran ser atenuados incrementando el tiempo de entrenamiento (más épocas) o utilizando una red de arquitectura más profunda y, por ende, más costosa computacionalmente. Se comprueba que la mejor resolución espacial de entrada al modelo, a partir de utilizar imágenes más pequeñas, es importante para la adecuada detección de las lesiones. 3.2 Prueba externa Se ejecutó la prueba externa para el modelo obtenido con la mejor estrategia de entrenamiento (parches pequeños). En este caso se utilizó como BD la JSRT, no vista con anterioridad por la red neuronal implementada. La Figura 3.17 muestra la matriz de confusión correspondiente. A partir de esta se calcularon las métricas de desempeño: sensibilidad (40,94%), precisión (91,04%), exactitud (78,97 %), exactitud balanceada (69,46 %) y el valor F1 (56,48 %). CAPÍTULO 3 46 Figura 3.17 Matriz de confusión para la BD externa a partir de parches pequeños Como se puede apreciar, aún el poder de generalización del modelo es limitado [80] para reconocer los VP, comportándose muy bien para los VN. Esto remarca la importancia de continuar ajustando los parámetros del modelo para buscar su generalización, ya sea a partir de arquitecturas más profundas o utilizando un mayor número de épocas en el entrenamiento. Un aspecto que no se debe pasar por alto, es la necesidad de entrenar las CNN con altos volúmenes de datos. En esta investigación, a pesar de utilizar aumento de datos, el número total de imágenes originales utilizadas con la estrategia de parches pequeños no superó las 2947. Existen estudios que plantean que volúmenes adecuados de entrenamiento rondan las 10 000 imágenes [105], [105]. 3.3 Discusión general A partir de las imágenes radiográficas digitales, los radiólogos pueden apreciar normalmente entre el 45 % y el 68 % de los nódulos reales [27]. Esto se debe al bajo contraste de los mismos, la superposición de estructuras anatómicas, tiempo limitado para ejecutar una tarea donde aparece cansancio visual y a las propias limitaciones del sistema visual humano. En general se plantea que los expertos humanos cometen muchos errores durante la detección de nódulos pulmonares [27], [27]. Si los nódulos son menores de 10 mm solo detectan un 29 Predicción R ea l CAPÍTULO 3 47 %. También la detección se encuentra fuertemente determinada por la localización [27], [27], [27]. De ahí la importancia del empleo de sistemas automatizados como segunda opinión. Por ejemplo, en la Figura 3.18 existe un nódulo muy difícil para ser visualizado por el ojo humano, debido a su pequeño tamaño, bajo contraste y superposición con una costilla. Obsérvese en el zoom de la derecha, que para este nódulo la diferencia de contraste con respecto al fondo circundante es prácticamente indetectable por el ojo humano. Figura 3.18 Nódulo pulmonar de difícil detección El modelo a partir de parches pequeños con la red SqueezeNet fue capaz de detectar dicho nódulo, mostrando sus potencialidades. Es por tanto importante su ajuste futuro para que incremente su sensibilidad por encima de la del ojo humano entrenado. Esto serviría para hacer el diagnóstico mucho más rápido y evitar la fatiga visual. También serviría como método de segunda opinión, o para la detección temprana a partir de pesquizajes masivos. Esto tiene valor ante todo social para el hombre, como ente principal del medio ambiente. El costo computacional del entrenamiento para 30 épocas fue de 10 segundos por época para las prestaciones computacionales utilizadas (Procesador Intel® Core™ i7-8700 3.2 GHz, con tarjeta gráfica NVIDIA GeForce® RTX 3070 8 GB GDDR6 y RAM de 32 GB (2 x 16 GB) DDR4 3200MHz). El modelo una vez entrenado, corre en un tiempo de 0.3 segundos en la computadora utilizada para cada parche pequeño, considerándose por tanto muy eficiente. Se analizaron los resultados de un sistema similar de la literatura científica para compararlos con los obtenidos por el sistema propuesto en esta tesis. La comparación no es del todo correcta, ya que se utilizan bases de datos diferentes a las empleadas en esta investigación, por tanto, solo debe de ser entendida como marco de referencia. El sistema desarrollado en [106] fue estudiado en condiciones reales en tres hospitales de Corea del Sur y uno de Estados CAPÍTULO 3 48 Unidos. En la Tabla 3.1 se muestra el valor de la sensibilidad para la detección de nódulos pulmonares respecto al total real existente. Tabla 3.1 Resultados del sistema publicado en la fuente [106]. Hospital Sensibilidad (%) (Imágenes con correcta detección/ Total de imágenes con nódulos) Seoul National University Hospital 69,9 (100/143) Boramae Hospital 82,0 (114/139) National Cancer Center 69,6 (80/115) University of California San Francisco Medical Center 75,0 (78/104) El sistema mostrado en la tabla presenta superior desempeño (en términos de sensibilidad) que el propuesto en esta investigación, cuya sensibilidad fue de 40,94% en la prueba externa. Esta referencia, sin embargo, es muy importante para apuntar hacia la meta a seguir, ya que ofrece una estimación de cuáles son los valores que pudieran obtenerse o superarse cuando el sistema propuesto logre el poder de generalización. También permite enfocar concretamente cuáles son las limitaciones actuales del mismo. 3.4 Análisis económico El presente sistema no ha sido aún registrado y no se puede comercializar. De hecho, para esto requiere de una interfaz de usuario. No existe por tanto hasta el momento una estimación económica del mismo. Existen muy pocos sistemas profesionales para la detección de nódulos pulmonares aprobados para uso en instalaciones clínicas. Recientemente se reconoció a Auto Lung Nodule Detection de Samsumg para su uso en los Estados Unidos. Este sistema se incluye en su equipo portátil Samsung-Medison AccE GM85, entre otros, el cual tiene un costo aproximado de $ 280.000 USD. Este aspecto permite valorar el impacto CAPÍTULO 3 49 económico que tendría un sistema como el propuesto para el beneficio de la salud pública en el país. 3.5 Conclusiones del capítulo Después de realizada la investigación puede concluirse que la primera estrategia de entrenamiento/validación probada, consistente en entrar al sistema la imagen de la radiografía completa, no fue exitosa. Se evidencia el aprendizaje por atajos y un número elevado de FP y FN. Cuando se segmenta la región pulmonar, los resultados mejoran, pero persisten sesgos. Al emplearse pequeños parches que contienen o no la característica a estudiar, la detección mejora apreciablemente, disminuyen los errores de clasificación en cada clase y se reduce el aprendizaje por atajos. Un factor decisivo, es la resolución espacial del parche. Mientras más pequeño y ajustado el parche a la característica a detectar, mejor es el resultado del modelo. La CNN SqueezeNet muestra potencialidades para la tarea propuesta, pero precisa de ajustes en cuanto a número de épocas a considerar en el entrenamiento y el empleo de un conjunto de datos mucho mayor. Otra posible solución puede ser el empleo de una red más profunda. El sistema obtenido aún no posee poder de generalización. CONCLUSIONES Y RECOMENDACIONES 50 CONCLUSIONES Y RECOMENDACIONES Conclusiones En esta investigación se ha cumplido la hipótesis formulada y se arriba a las siguientes conclusiones: 1. Se desarrolló un sistema automatizado basado en una CNN empleando Python, capaz de detectar nódulos pulmonares. 2. Se seleccionó como arquitectura a SqueezeNet para la detección de nódulos pulmonares, la cual, cuando se entrena a partir de pequeños parches que contienen o no la característica a estudiar, muestra buenas potencialidades en cuanto a eficacia para ejecutar la tarea con eficiencia computacional. 3. Se emplearon para el entrenamiento y validación de la red neuronal el 80 % y el 20 % respectivamente, de las imágenes de varias bases de datos, lográndose buenos resultados, para la estrategia de parches pequeños: sensibilidad (88,77 %), precisión (94,05 %), exactitud (94,40 %), exactitud balanceada (92,99 %) y valor F1 (91,34 %) 4. El modelo obtenido aún no posee poder de generalización, ya que ante una BD externa logra resultados por debajo de los estándares aceptados internacionalmente. Esto confirma la necesidad de ajustes para eliminar los posibles sesgos que aún subyacen. Recomendaciones 1. Se recomienda hacer un entrenamiento más prolongado del modelo obtenido con la estrategia de parches pequeños. 2. Probar arquitecturas más profundas que la empleada. 3. Emplear un mayor número de radiografías digitales correctamente etiquetadas para el entrenamiento. REFERENCIAS BIBLIOGRÁFICAS 51 REFERENCIAS BIBLIOGRÁFICAS [1] H. Sung et al., "Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries," CA Cancer J Clin, vol. 71, no. 3, pp. 209-249, May/Jun 2021 2021. [2] D. R. Aberle, "Implementing lung cancer screening: the US experience," Clin Radiol, vol. 72, no. 5, pp. 401-406, May 2017. [3] M. Oudkerk et al., "European position statement on lung cancer screening," Lancet Oncol, vol. 18, no. 12, pp. e754-e766, Dec 2017. [4] M. Bazan, B. F. Mestre, and A. Peix, "Cardio-Oncology in Cuba: The Present and the Future," JACC: Cardiooncology, pp. 162-164, 2021. [5] H. Mahersia, M. Zaroug, and L. Gabralla, "Lung Cancer Detection on CT Scan Images: A Review on the Analysis Techniques," International Journal Of Advanced Research In Artificial Intelligence, 2015. [6] C. I. Henschke et al., "Early lung cancer action project: overall design and findings from baseline screening," The Lancet, pp. 99-105, 1999. [7] S. J. Swensen et al., "Lung cancer screening with CT: Mayo Clinic experience," Radiology, vol. 226, no. 3, pp. 756-61, Mar 2003. [8] L. J. M. Kroft, L. Van der Velden, I. Hernández Girón, J. J. H. Roelofs, A. de Roos, and J. Geleijns, "Added Value of Ultra–low-dose Computed Tomography, Dose Equivalent to Chest X-Ray Radiography, for Diagnosing, Chest Pathology," Journal of Thoracic Imaging, p. 8, 2019. [9] Radmedix. (2021, 2021/10/04). RadmediX Solutions [Online]. Available: https://radmedix.com/solutions/portable-x-ray/ [10] D. Gu, G. Liu, and Z. Xue, "On the performance of lung nodule detection, segmentation and classification," Comput Med Imaging Graph, vol. 89, p. 101886, Apr 2021. [11] A. del Ciello, P. Franchi, A. Contegiacomo, G. Cicchetti, L. Bonomo, and A. R. Larici, "Missed lung cancer: when, where, and