Universidad Central “Marta Abreu” de Las Villas Facultad de Matemática, Física y Computación Licenciatura en Ciencia de la Computación Trabajo de Diploma Título: “Paquete sobre el Mathematica 8.0 para variantes del análisis de Regresión Categórica” Autora: Claudia Orama Gómez Tutores: Dra. Gladys Casas Cardoso MSc. Juan Manuel Navarro Céspedes Santa Clara 2011 Dictamen I El que suscribe, Claudia Orama Gómez, hago constar que el trabajo titulado “Paquete sobre el Mathematica 8 para variantes del análisis de Regresión Categórica” fue realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la culminación de los estudios de la especialidad de Ciencia de la Computación, autorizando a que el mismo sea utilizado por la institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos ni publicado sin la autorización de la Universidad. Firma del autor Los abajo firmantes, certificamos que el presente trabajo ha sido realizado según acuerdos de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada. Firma del tutor Firma del jefe del Laboratorio Fecha II “Mejor es adquirir sabiduría que oro preciado; Y adquirir inteligencia vale más que la plata.” Proverbios 16:16 “Porque mejor es la sabiduría que las piedras preciosas; Y todo cuanto se puede desear, no es de compararse con ella.” Proverbios 8:11 Dedicatoria III …al Rey de los siglos, inmortal, invisible, al único y sabio Dios, sea honor y gloria por los siglos de los siglos… 1 Timoteo 1:17 Agradecimientos IV Agradecimientos En primer lugar a Dios porque por Él he llegado hasta aquí. A mi familia por apoyarme en todo. A mi tutores: Dra. Gladys Casas Cardoso y MSc. Juan Manuel Navarro Céspedes por dedicarme su tiempo y experiencia. A Jorge Luis por haberme ayudado incondicionalmente. A mi esposo Jorge por ayudarme y apoyarme en todo, en los buenos y en los malos momentos. A mi amiga Lisette por ayudarme y estar dispuesta para lo que necesitara. A mis suegros por alentarme todo este tiempo. A los profesores que me llevaron a ser un profesional. A mis amigos y hermanos que siempre se preocuparon por mí. A todos los que de una forma u otra en algún momento contribuyeron a realizar este trabajo. Resumen V Resumen El análisis de datos categóricos es una rama importante de la estadística. Su campo de aplicación es amplio. Las ciencias sociales y las ciencias médicas son buenos ejemplos de ello. Esta tesis trata sobre un método de análisis de datos categóricos: el análisis de regresión categórica. El trabajo comienza con un estudio exhaustivo del análisis de regresión múltiple y la verificación de los supuestos. Se describen numerosas pruebas gráficas y estadísticas para verificar la normalidad de los residuales y la homogeneidad de sus varianzas. Se explican en detalle el modelo de regresión categórica y su algoritmo. Se creó y probó un paquete sobre el Mathematica 8.0 para realizar los cálculos fundamentales. Se utilizaron datos simulados para mostrar y comentar los resultados más importantes. Además se presentó un problema con datos reales: el diagnóstico de la hipertensión arterial en la ciudad de Santa Clara. Abstract VI Abstract The categorical data analysis is an important branch of Statistic. Their field of application is wide. Social Sciences and Medical Sciences are good examples. This thesis is about the method of analysis of categorical data: the categorical regression analysis. The work begins with an exhaustive study of the multiple regression analysis and the verification of the assumptions. Many graphical and statistical tests to verify the residual normality and the homogeneity of their variances are described. The model of the categorical regression analysis and its algorithm are carefully explained. A Mathematical package to do the fundamental calculus was created and proved. A simulated data was used in order to show and comment the most important results. Also a real data of a medical problem was presented: the diagnosed of the hypertension in the Santa Clara City. Índice VII Índice Introducción ........................................................................................................... 1 1. Análisis de regresión lineal múltiple y de regresión categórica ........................... 6 1.1 Análisis de regresión .................................................................................. 6 1.1.1 Análisis de regresión lineal simple .......................................................... 7 1.1.2 Análisis de regresión lineal múltiple ........................................................ 9 1.2 Verificación de los supuestos ................................................................... 13 1.2.1 Algunas pruebas gráficas ...................................................................... 14 1.2.2 Prueba de la homogeneidad de varianzas ............................................. 17 1.2.3 Pruebas de normalidad ......................................................................... 18 1.3 Análisis de regresión categórica............................................................... 22 1.3.1 Niveles de escalamiento óptimo ........................................................... 24 1.3.2 Estimación de las Transformaciones ..................................................... 28 1.3.3 Formulación del modelo de regresión categórica ................................. 29 1.3.4 Algoritmo para la regresión categórica ................................................. 31 1.4 Consideraciones finales del capítulo ........................................................ 35 2. Implementaciones sobre el Mathematica ........................................................ 36 2.1 La entrada de los datos ............................................................................... 36 2.2 Análisis de regresión lineal múltiple ............................................................ 39 2.2.1 Propiedades del LinearModelFit relacionadas con la suma de los cuadrados de los errores: .............................................................................. 40 2.2.2 Propiedades del LinearModelFit relacionadas con los parámetros ....... 41 2.2.3 Propiedades del LinearModelFit que miden la bondad de ajuste .......... 42 Índice VIII 2.3 Verificación de los supuestos ...................................................................... 43 2.3.1 Prueba de Kolmogorov Smirnov ............................................................ 43 2.3.2 Prueba de Jarque Bera .......................................................................... 44 2.3.3 Prueba de Anderson Darling ................................................................. 46 2.3.4 Prueba de Shapiro Wilk ......................................................................... 47 2.4 Implementación de la regresión categórica sobre el Mathematica ............. 48 2.5 Consideraciones finales del capítulo ........................................................... 56 3. Diagramas y Aplicaciones ................................................................................ 57 3.1 Modelado con UML. Diagramas .................................................................. 57 3.1.1 Diagrama de casos de uso ..................................................................... 57 3.1.2 Diagrama de Actividades ....................................................................... 59 3.2 Paquete RegCatNum ................................................................................... 62 3.3 Función RegresionLineal ............................................................................. 63 3.3 Aplicaciones ................................................................................................ 64 3.3.1 Estudio con datos simulados ................................................................. 64 3.3.2 Estudio de la Hipertensión Arterial ....................................................... 67 3.4 Consideraciones finales del capítulo ........................................................... 71 Conclusiones ........................................................................................................ 72 Recomendaciones ................................................................................................ 73 Referencias Bibliográficas .................................................................................... 74 Anexos ................................................................................................................. 76 Introducción 1 Introducción El cambiante mundo moderno está sustentado por un conjunto de ciencias empleadas por el hombre para, entre otras cosas, controlar y perfeccionar los procesos; tal es el caso de la Estadística. Son varios los métodos que se ocupan de los modelos matemáticos en general y que en los últimos años se han desarrollado, métodos que gracias al desarrollo de la informática han sido automatizados, por lo que resultan de gran utilidad práctica para solucionar problemas presentes en la sociedad. La tecnología informática con que se dispone hoy en día, casi inimaginable hace sólo dos décadas, ha posibilitado avances extraordinarios en el análisis de datos ya sea en áreas del conocimiento como la medicina, la meteorología, la bioinformática y la educación o de tipo psicológico, sociológico y de otros referidos al comportamiento humano. Este impacto es más evidente en la relativa facilidad con la que los ordenadores pueden analizar enormes cantidades de datos complejos y en menos tiempo. Hoy en día casi cualquier problema se puede analizar fácilmente por un número ilimitado de programas estadísticos, incluso en ordenadores personales. Además, los efectos del progreso tecnológico han extendido mucho más la capacidad de manipular datos, liberando a los investigadores de las restricciones del pasado y permitiéndoles así abordar investigaciones más sustantivas y ensayar sus modelos teóricos. Las limitaciones metodológicas no son ya un asunto crítico para el teórico empañado en la búsqueda de evidencia empírica. Gran parte de esta creciente comprensión y pericia en el análisis de datos ha venido a través del estudio y desarrollo de la estadística y de la inferencia estadística. En las investigaciones, fundamentalmente las de corte social, intervienen conjuntos de datos que reflejan alguna cualidad o categoría. A estos datos se les conoce como datos categóricos. Dichos datos pueden contener una mezcla de diferentes tipos de variables, muchas de las cuales están medidas en categorías ordenadas o desordenadas. Variables como las estaciones del año, los tipos de determinado producto en el mercado, o el hecho que un estudiante apruebe o no un examen, son Introducción 2 ejemplos de variables con categorías desordenadas. Variables como el nivel de educación o la frecuencia con que se desarrolla cierta actividad (nunca, a veces o siempre), son ejemplos de variables con categorías ordenadas. Las variables continuas pueden considerarse variables categóricas, coincidiendo cada categoría o cualidad con su valor. Estos tipos de variables requieren diferentes tratamientos en el proceso de análisis de datos, los cuales no siempre son tan evidentes como pudieran parecer. Además, muchas de estos conjuntos pueden contener variables que pueden o no estar relacionados linealmente, lo cual también tendrá que ser reflejado en el resultado del análisis. De aquí entonces que el análisis de datos categóricos no siempre se realizará tan fácilmente como el investigador desearía. No son pocos los métodos que introducen las denominadas variables “dummy” para trabajar con variables que no tienen propiedades numéricas reales. En estos métodos las variables categóricas son divididas en variables indicadoras de cada categoría, donde el “uno” representa la presencia de la misma y el “cero” la ausencia. Estas variables “dummy” son utilizadas como variables numéricas en el análisis. Tales métodos, sin embargo, suelen ser muy intensivos, especialmente cuando las variables tienen muchas categorías(Agresti 2002). El trabajo con datos categóricos data desde 1902 con el descubrimiento más importante de Karl Pearson: el test chi cuadrado. Sobre la década de los 60 hubo una explosión, dado en gran medida por el desarrollo de la informática, de métodos de análisis estadísticos para datos categóricos(Agresti 2002). Para el análisis de datos categóricos se han desarrollado varios métodos, uno de los cuales se estudiará en detalle en el presente trabajo: el análisis de Regresión Categórica. Resulta interesante conocer cómo influyen los métodos de discretización y las transformaciones del escalamiento que se aplican a las variables en los resultados de la regresión. Estos procedimientos se encuentran implementados en el SPSS, por lo que resulta imposible realizar esos análisis utilizando dicho paquete. El paquete Introducción 3 Mathematica (http://www.wolfram.com) es un sistema para hacer matemáticas utilizando una computadora personal. Es a la vez:  Una calculadora científica.  Un paquete de subrutinas de cálculo numérico.  Un instrumento de cálculo simbólico.  Un sistema de graficación.  Un lenguaje de programación de alto nivel.  Un sistema interactivo para crear documentos multimedia.  Un sistema de apoyo a otros programas.  Una gran fuente de información matemática (Wolfram 1999). Este software (Mathematica) contiene paquetes para hacer análisis de regresión y realizar verificación de los supuestos, los cuales servirán de punto de partida para la elaboración del paquete de regresión categórica. La versión que se ha utilizado es la 8.0 pues es la primera en incorporar pruebas de hipótesis para probar normalidad como Kolmogorov Smirnov, Anderson Darling, Jarque Bera y muchas otras más. Consecuentemente el objetivo general de la presente tesis es desarrollar una implementación computacional, utilizando el paquete Mathematica, de algunas variantes del método de regresión categórica. Para lograr dicho objetivo, se proponen los objetivos específicos: 1. Implementar en el Mathematica el método de regresión lineal múltiple con el análisis de los supuestos. 2. Estudiar el algoritmo de regresión categórica para seleccionar las variantes factibles de implementación inmediata sobre el paquete Mathematica. 3. Crear un paquete en el Mathematica con los procedimientos necesarios para realizar los cálculos de la variante seleccionada. http://www.wolfram.com/ Introducción 4 4. Obtener e interpretar aplicaciones con datos simulados y reales. Para dar cumplimiento a estos objetivos fue necesario plantearse y solucionar algunas tareas de investigación, entre las que se encuentran: 1. Estudiar las funciones del Mathematica que permiten realizar análisis de regresión lineal. 2. Estudiar las facilidades que brinda el Mathematica 8.0 para realizar el análisis de los supuestos. 3. Implementar una función que aglutine los dos aspectos anteriores. 4. Implementar una entrada cómoda de datos en la que se especifique por cada variable su escalado. 5. Estudiar el algoritmo de regresión categórica. Seleccionar las variantes que sean factibles de implementar de manera inmediata. 6. Implementar en el Mathematica una primera variante del algoritmo de regresión categórica y realizar el análisis de los supuestos a la ecuación obtenida. El primer paso para la realización de este trabajo fue la confección del marco teórico. Para ello se realizó una amplia revisión de la literatura consultando libros, artículos y páginas de internet, entre otras fuentes. Sus elementos esenciales se encuentran expuestos de manera resumida en el primer capítulo de la presente tesis. Como conclusión de la elaboración del marco teórico se enuncia la siguiente hipótesis de investigación: H1: “Utilizando el software Mathematica se implementa un paquete que permite realizar variantes del análisis de regresión para datos categóricos” H2: “El paquete implementado permite resolver problemas reales de varios campos de aplicación, entre los que se encuentra la Medicina” Introducción 5 El trabajo está conformado por tres capítulos: El capítulo 1 constituye una revisión bibliográfica sobre el tema de regresión lineal múltiple y la importancia que tiene la verificación de los supuestos, describiendo luego la regresión categórica, técnica relativamente nueva. En el capítulo 2 se hace énfasis en las implementaciones realizadas en el Mathematica para el desarrollo del paquete de regresión categórica. En el capítulo 3 se muestran aplicaciones obtenidas del método de regresión categórica explicado en los capítulos anteriores, mediante un estudio de la Hipertensión Arterial (HTA) y de un juego de datos simulados. Finalmente se presentan las conclusiones de la tesis, así como algunas recomendaciones que abren futuras líneas de investigación. Capítulo 1 6 1. Análisis de regresión lineal múltiple y de regresión categórica En este capítulo se describe brevemente la conocida técnica de regresión lineal múltiple, haciendo énfasis en la importancia de la verificación de los supuestos. Posteriormente se presenta y describe una técnica relativamente nueva: la regresión categórica. 1.1 Análisis de regresión Desde un punto de vista más general, el análisis de un proceso conduce a la concepción del mismo bajo el principio de la caja negra, como se muestra en la figura 1.1. Figura 1.1 Principio de la caja negra en un análisis de regresión donde: X : es el vector de variables de entrada (que incluye las variables controlables) Y : es el vector de variables de salida. Y el rectángulo o caja negra es el proceso que se desconoce y que se desea investigar. Se desea encontrar la función que relaciona las variables de entrada y salida a partir de conjuntos de valores experimentales de esas variables. El objetivo del análisis de regresión es determinar para cada componente jy , del vector Y , la función jf que la relaciona con las componentes nxxx ,,, 21  del vector X :  njj xxxfy ,,, 21  . Capítulo 1 7 Es necesario tener resultados experimentales donde para cada conjunto de variables de entrada se haya medido el valor de las variables de salida objeto de análisis. El caso más simple, frecuente en la práctica, es aquel en que las funciones jf son lineales, o sea, se buscan coeficientes k tales que:   nnj xxxy 2211 (1.1) donde  representa el error de estimación. No siempre este modelo es el más adecuado y por ello son importantes también los casos en que, por ejemplo, las funciones jf son cuadráticas, más generalmente polinomios, o incluso, expresiones más complejas en que aparezcan funciones trascendentes. Los problemas de regresión no lineal pueden ser reducidos a problemas de regresión lineal siempre y cuando las igualdades  njj xxxfy ,,, 21  puedan ser reducidas a ciertas dependencias lineales entre funciones de las variables mencionadas. 1.1.1 Análisis de regresión lineal simple La figura 1.2 muestra la relación lineal que existe entre dos variables cualesquiera X, Y. Figura 1.2 Relación lineal entre las variables X e Y. Capítulo 1 8 Se quiere obtener la ecuación que mejor ajuste la nube de puntos, o sea una ecuación de la forma  bxay . El método de los mínimos cuadrados intenta minimizar los cuadrados de los residuales, es decir:       2 1 2 1 2 1 minminˆmin    n i i n i ii n i ii bxayyy  (1.2) Sea:     2 1 2 1 ˆ    n i ii n i ii bxayyyS (1.3) Se necesita hallar el mínimo de S. Para ello se calculan:   12     ii bxay a S (1.4)   iii xbxay b S    2 (1.5) Igualando a 0 se obtienen las ecuaciones:   0 ii bxay (1.6)    0 iii xbxay (1.7) Trabajando algebraicamente:   ii xbnay (1.8)   2 iiii xbxayx (1.9) Resolviendo el sistema de ecuaciones se llega a la solución:          2 xx yyxx b i ii (1.10) xbya  (1.11) Capítulo 1 9 Además puede probarse que: 02 2 2    n a S (1.12) 02 2 2 2     ix b S (1.13) Los estimadores hallados son estimadores mínimos cuadráticos de los parámetros originales. Ellos cumplen varias propiedades, como por ejemplo son insesgados(Calero 1998). 1.1.2 Análisis de regresión lineal múltiple El procedimiento regresión lineal permite utilizar más de una variable independiente. La ecuación de regresión ya no define una recta en el plano, sino un hiperplano en un espacio multidimensional. La ecuación será de la forma:   nnj xxxy 2211 (1.14) Este modelo, al igual que cualquier otro modelo estadístico, se basa en una serie de supuestos (linealidad, independencia, normalidad, homocedasticidad y no-colinealidad) que se verán más adelante. La ecuación de regresión mínimo-cuadrática se construye estimando los valores de los coeficientes i del modelo de regresión. Estas estimaciones se obtienen intentando hacer que las diferencias al cuadrado entre los valores observados y los pronosticados sean mínimas. Métodos para hallar ecuaciones múltiples Enter: En un sólo paso todas las variables independientes entran a formar parte de la ecuación. Capítulo 1 10 Remove: Parte de una ecuación con todas las variables independientes incorporadas y en un único paso elimina todas las variables que cumplen con el criterio de eliminación. Forward: Es un método paso a paso en el que las variables independientes entran paso a paso en el modelo. La primera variable en entrar es aquella que mayor correlación tenga con la variable dependiente y. Esta variable entra en la ecuación sólo si satisface el criterio de entrada. En los pasos siguientes entra la variable que mayor coeficiente de correlación parcial tenga. El procedimiento finaliza cuando no queden variables que satisfagan el criterio de entrada. Backward: Es un método paso a paso, que comienza con todas las variables incluidas en el modelo. En cada paso elimina la variable que menor coeficiente de correlación parcial tenga con la variable dependiente y. Para eliminar esta variable se necesita además que ella cumpla un criterio de eliminación. El procedimiento finaliza cuando no queden variables en el modelo que satisfagan el criterio de eliminación. Stepwise: Es un método paso a paso que combina las dos técnicas anteriores. En cada paso entra a la ecuación la variable independiente más importante, si cumple el criterio de entrada. Las variables que ya están en el modelo, pueden ser eliminadas si cumplen con el criterio de eliminación. El método termina cuando ninguna variable puede ser incluida o eliminada. Estimaciones y predicciones Como resultado de un análisis de regresión lineal simple se obtiene una ecuación lineal de y en función de x. Para hacer pronósticos, los nuevos valores de x deben pertenecer al dominio de las x utilizadas en la construcción del modelo. Debe verificarse la validez del modelo, probando la bondad del ajuste mediante una prueba de hipótesis(Scheffe 1959): 0: bHo 0:1 bH Capítulo 1 11 Que conduce a la tabla ANOVA: Tabla 1.1 Tabla ANOVA Fuente de variación Suma de cuadrados g.l. Cuadrados medios F Significación Regresión SCReg 1 CMReg sCM gCM F Re Re  Sig Residual SCRes n-2 CMRes Total SCTot n-1 donde: SCReg: suma de cuadrados de la regresión SCRes: suma de cuadrados residual SCTot: suma de cuadrados total Puede verificarse que: SCTot = SCReg + SCRes CMReg: cuadrado medio de la regresión CMRes: cuadrado medio residual De manera general puede decirse que la variabilidad total se descompone en variabilidad explicada por la regresión y variabilidad residual. Si esta última es mayor que la primera, entonces el modelo hallado no es útil. En ese caso debe cuestionarse el uso de una línea recta para modelar el problema y se sugiere probar variantes de regresiones no lineales. Coeficiente de determinación 2R El coeficiente de determinación representa la proporción de la varianza total que es explicada por la regresión. Capítulo 1 12 Este valor se encuentra entre 0 y 1 )10( 2  R y es una medida que puede utilizarse para determinar si se ha hecho un buen ajuste de X e Y. Por ejemplo, si 90.02 R puede afirmarse que el 90% de la varianza total es explicada por la suma de cuadrados de la regresión, por lo tanto existe una fuerte relación entre X e Y. El valor del 2R aumenta en la medida en que se incrementan las variables en el modelo. Por tanto, no es correcto comparar el valor del 2R de dos regresiones con un número de variables explicativas diferentes. Coeficiente 2R ajustado Para subsanar la tendencia del 2R se ha definido un R2-ajustado de la siguiente manera: (1.15) donde p es el número de parámetros en el modelo. El modelo que se busca es aquel que tiene un R2-ajustado alto con pocas variables. El 2R ajustado podría disminuir al incluirse una variable adicional en el modelo. El valor 2R ajustado siempre es un poquito más bajo que el valor 2R múltiple porque refleja la complejidad del modelo (el número de variables) a medida que se relaciona con los datos. Por consiguiente, el valor 2R ajustado es una medida más precisa del rendimiento del modelo. Criterio de información Akaike (AIC) El criterio de información Akaike (AIC) es una medida relativa de bondand de ajuste para un modelo estadístico. Fue desarrollado por Hirotsugu Akaike y publicado por él mismo en 1974. En el caso general, el AIC se calcula como: (1.16) )1( 1 1 )1/( )/( 1 22 R pn n nSST pnSSE Rajus        Capítulo 1 13 donde k es el número de parámetros en el modelo estadístico y L es el valor maximizado de la función de probabilidad para el modelo estimado. De un conjunto de modelos candidatos para el juego de datos, se escoge el de menor valor AIC. Por consiguiente, el AIC no sólo ofrece la bondad del ajuste sino que también incluye una función de incremento del número de parámetros estimados en forma de multa. Esta multa pone freno al overfitting (incremento del número de parámetros en el modelo que mejora la bondad de ajuste sin tener en cuenta el número de parámetros libres en el proceso de generación de datos)(Wikipedia). 1.2 Verificación de los supuestos Para validar un modelo, se necesita verificar los supuestos de un análisis de regresión ya que el incumplimiento de uno de ellos puede ocasionar errores sistemáticos. Entre los más importantes se pueden mencionar:  Independencia. Los residuos son independientes entre sí, es decir, los residuos constituyen una variable aleatoria (recordemos que los residuos son las diferencias entre los valores observados y los pronosticados). Es frecuente encontrarse con residuos autocorrelacionados cuando se trabaja con series temporales.  Homocedasticidad. Para cada valor de la variable independiente (o combinación de valores de las variables independientes), la varianza de los residuos es constante.  Normalidad. Para cada valor de la variable independiente (o combinación de valores de las variables independientes), los residuos se distribuyen normalmente con media cero.  No-colinealidad. No existe relación lineal exacta entre ninguna de las variables independientes. El incumplimiento de este supuesto da origen a colinealidad o multicolinealidad. Capítulo 1 14 El examen de los residuos es necesario y útil, no sólo porque permite comprobar la validez de los supuestos hechos en el Análisis de Regresión, sino también porque, en el caso de fallar algunos de ellos, da indicaciones para lograr su cumplimiento: cambiando la forma del modelo, transformando las variables, rechazando observaciones o utilizando pesos (Mínimos Cuadrados Ponderados). Una vez que los residuos han sido calculados se presentan varias alternativas para su examen:  Analizar la relación de los residuos y las variables.  Analizar los residuos en conjunto para rechazar observaciones o probar si su distribución es Normal.  Graficar los residuos contra los valores estimados para verificar la homogeneidad de la varianza experimental y la adecuación del modelo. 1.2.1 Algunas pruebas gráficas La figura 1.3 muestra un ejemplo en el que los residuos se agrupan en forma de una banda horizontal. Esto no da evidencia de fallos en los supuestos. Figura 1.3 Representación gráfica de los residuales contra los valores predichos sugiriendo homogeneidad de varianzas. En el gráfico siguiente, los residuos varían en magnitud notablemente al aumentar los valores de la Y. Esto indica que la varianza de las observaciones no es constante y Capítulo 1 15 que se deben utilizar pesos (Mínimos Cuadrados Ponderados) o transformar las observaciones. Figura 1.4 Representación gráfica de los residuales contra los valores predichos sin sugerir homogeneidad de varianzas. Este último gráfico muestra que los residuos se relacionan con los valores predichos en forma de parábola o similar. Ello es un indicador de que el modelo es inadecuado, se necesitan términos extras en el modelo o transformaciones de la variable dependiente. Figura 1.5 Representación gráfica de los residuales contra los valores predichos mostrando una relación cuadrática. Capítulo 1 16 Observaciones extremas (OUTLIERS) Una de las razones más importante para calcular los residuos es la detección de observaciones extremas. La mayoría de los procedimientos para examinar residuos son sensibles a la presencia de valores atípicos. Las pruebas numéricas para detectar la no adecuación del modelo y la varianza no constante a veces reaccionan a las observaciones extremas, (un resultado positivo podría indicar una observación extrema o la presencia de lo que debía detectar el procedimiento numérico). Por ejemplo, si existiera un error en las mediciones, la recta se puede afectar enormemente, al igual que el coeficiente de determinación, como lo muestra la figura 1.6. Figura 1.6 Influencia de un valor atípico en una ecuación de regresión y = 0.14x + 1.4334 R2 = 0.5592 0 1 2 3 4 5 6 0 5 10 15 20 25 Utilizar una regla fija para rechazar observaciones extremas da protección contra errores groseros, pero puede ocasionar que, aún si todas las observaciones fueran buenas y se cumplieran los supuestos iniciales, se rechazará alguna de ellas, lo cual incrementaría la varianza de los parámetros estimados. Podría considerarse el Capítulo 1 17 porcentaje de incremento de esta varianza como el precio que se paga por la regla de rechazo, la cual es una garantía contra observaciones malas. Un tipo posible de regla a usar es: “Rechazar la observación con el residuo de mayor magnitud y mayor que Cs donde C es una constante dada. Si esta observación se rechaza, recalcular todos los residuos y S y aplicar la regla nuevamente hasta que no haya más rechazo”. Examen gráfico de los residuos contra los valores de iŷ Al preparar un gráfico en el cual cada observación está representada por un punto cuya ordenada es el residuo y cuya abscisa es el valor estimado iŷ se pueden detectar los siguientes casos: 1. Los residuos se agrupan en forma de una banda horizontal lo cual no da evidencia de fallo de los supuestos hechos. 2. Los residuos varían en magnitud notablemente al aumentar o disminuir los valores de iŷ . Esto indica que la varianza de las observaciones no es constante y que se deben utilizar pesos (Mínimos Cuadrados Ponderados) o transformar las observaciones y antes de efectuar el análisis de regresión. 3. Los residuos se relacionan con las iŷ en forma de parábola o similar. Esto indica que el modelo es inadecuado, se necesitan términos extras en el modelo o transformaciones de la variable dependiente. 1.2.2 Prueba de la homogeneidad de varianzas El método consiste en calcular un coeficiente de regresión lineal de los 2 i contra iŷ dividido por 2s :   Hs yy h n i iii 2 2 1 ˆ     (1.17) Capítulo 1 18 donde H, en general, es un poco más pequeño que la suma de cuadrados del total pero, sin mucho error, puede ser sustituido por ésta. Para probar la significación de la desviación de h de cero se utiliza que:      Hpn pn hV 2 2    (1.18) Si h es significativamente diferente de cero se puede elegir la transformación potencia py con el estimado: yhp *5.01 cuando 0p . Si 0p se considera que la transformación a efectuar es  yln . 1.2.3 Pruebas de normalidad Según la cantidad de observaciones n se aplica una de las tres pruebas siguientes:  Prueba W si 503  n  Prueba 2W si 10050  n  Prueba de KOLMOGOROV-SMIRNOV (100 < n) Entre otras podemos destacar también:  Prueba de Kolmogorov-Smirnov con corrección de Lilliefors  Prueba de Jarque Bera  Prueba de Anderson-Darling Todas exigen que lo errores sean colocados en orden creciente tal que neee  21 y la de KOLMOGOROV-SMIRNOV requiere además de la definición de función de distribución de probabilidad empírica siguiente:             n 1k 1 xpara1 para/ x para0    kn xnkXF Capítulo 1 19 Prueba W Se calcula el estadígrafo:     2 2 2 1 1 * * Spn a W n i iini                (1.19) donde los valores de ia dependen de n y se determinan mediante tablas y la suma se extiende sólo hasta la parte entera inferior de 2 n debido a la simetría de la tabla. Si  WW se rechaza la hipótesis de normalidad a un nivel de confianza de 1 . Los valores de W están también tabulados en la literatura. Prueba W2 Se calcula el estadígrafo:                        n i ii eFLn n i eFLn n i nW 1 2 1 2 12 1 2 12 2 (1.20) donde  xF es la función de distribución de probabilidades teórica, en este caso la Normal:    xxF  . Si    12 WW se rechaza la hipótesis de normalidad a un nivel de confianza 1 . Los valores de W para 1 desde 0 hasta 0.95 se encuentran en tablas de la literatura. Capítulo 1 20 Prueba de KOLMOGOROV-SMIRNOV Se calcula el estadígrafo:     Rx xFxFD n   max (1.21) y si   DDn se rechaza la hipótesis de normalidad. Los valores de  D se presentan a continuación:   D 0.01 1.03 0.05 0.89 0.10 0.80 0.20 0.74 Prueba de Kolmogorov-Smirnov con corrección de Lilliefors La prueba de Kolmogorov-Smirnov con la modificación de Lillierfors es la más utilizada y se considera uno de los test más potentes para muestras mayores de 30 casos. En este test la Hipótesis nula Ho: es que el conjunto de datos siguen una distribución normal. Y la Hipótesis Alternativa H1: es que no sigue una distribución normal. Este test se basa en evaluar un estadístico: Dn = ⎟Fn (x) – F(x)⎟ (1.22) Fn (x): es la distribución empírica F (x): es la distribución teórica, que en este caso es la normal Capítulo 1 21 Si el valor del estadístico supera un determinado valor, que depende del nivel de significación con el que uno quiera rechazar la hipótesis nula, diremos que esa colección de datos no se distribuye según una distribución normal. Lillierfors tabuló este estadístico para el caso más habitual en el que desconocemos la media y la varianza poblacional y las estimamos a partir de los datos muestrales (SPSS). Prueba de Jarque Bera El Test de Jarque-Bera es una medida de bondad de ajuste para el análisis de la normalidad, basado en la kurtosis y el sesgo. El test estadístico JB es definido como: (1.23) donde n es el número de observaciones (o grados de libertad en general); S es la muestra del sesgo y K es la muestra de la kurtosis: (1.24) (1.25) donde y son los estimados de los terceros y cuartos momentos centrales respectivamente, es la media de la muestra y es el estimado del segundo momento central, la varianza. Una muestra tiene distribución normal si el sesgo es 0 y la kurtosis es 3. Como se muestra en la definición de JB, cualquier desviación en estos valores incrementa el estadístico JB (Guerra Bustillo 1991). Capítulo 1 22 Prueba de Anderson Darling La prueba de Anderson-Darling es una prueba no paramétrica sobre si los datos de una muestra provienen de una distribución específica, en este caso normal. La fórmula para el estadístico A determina si los datos (observar que los datos se deben ordenar) vienen de una distribución con función acumulativa F: A2 = − N – S (1.26) donde (1.27) El estadístico de la prueba se puede entonces comparar contra las distribuciones del estadístico de prueba (dependiendo de qué F se utiliza) para determinar el P-valor (Wikipedia). 1.3 Análisis de regresión categórica El análisis de regresión categórica se aplica a datos cualitativos con el propósito de predecir la probabilidad de ocurrencia de una categoría particular de la respuesta como función de una o más variables independientes(Haber 2001). La regresión categórica (RegCat) se ha desarrollado como un método de regresión lineal para variables categóricas. La regresión categórica cuantifica los datos categóricos mediante la asignación de valores numéricos a las categorías, obteniéndose una ecuación de regresión lineal óptima para las variables transformadas. RegCat extiende la regresión lineal ordinaria, considerando variables continuas, ordinales y nominales. Las variables categóricas se cuantifican de manera que ellas reflejen las características de las categorías originales, utilizando transformaciones no lineales para hallar el modelo que mejor ajuste. Finalmente las variables cuantificadas se tratan de la misma forma que las variables continuas (Van der Kooij 1997). http://es.wikipedia.org/wiki/Contraste_de_hipótesis http://es.wikipedia.org/wiki/Estadística_no_paramétrica http://es.wikipedia.org/wiki/Muestra_aleatoria http://es.wikipedia.org/wiki/Estadístico_muestral Capítulo 1 23 El objetivo fundamental de la regresión categórica con escalamiento óptimo consiste en describir las relaciones entre una variable respuesta y un conjunto de variables predictoras (De Leeuw 1990). El escalamiento óptimo es un método para encontrar valores numéricos óptimos que reemplazan los valores de las categorías, por lo tanto transforma los datos categóricos en datos numéricos. En la terminología del escalamiento óptimo, a este proceso, se le denomina “cuantificación”. Las transformaciones de las variables categóricas se estiman simultáneamente con la estimación de los coeficientes de la regresión, usando una alternativa del procedimiento de los mínimos cuadrados que maximiza el cuadrado del coeficiente de regresión múltiple, para la regresión lineal en las variables transformadas. Como resultado de estos criterios de optimización, las transformaciones de escalamiento óptimo linealizan la relación entre la respuesta y los predictores. Entonces, el método RegCat resulta en variables categóricas transformadas que tienen valores con propiedades numéricas óptimas para describir la relación entre la respuesta y los predictores. Las cuantificaciones de las variables categóricas por lo general resultan una transformación no lineal, que puede ser no monótona o por la aplicación de alguna restricción, monótona o lineal. Algunas restricciones se especifican seleccionando un nivel de escalamiento óptimo. En la metodología de escalamiento óptimo, las variables numéricas se tratan como variables categóricas, con el número de categorías igual al número de los diferentes valores de la variable. Seleccionando el nivel de escalamiento numérico, para una variable numérica se obtiene una transformación lineal. Incluyendo transformaciones lineales, RegCat puede también aplicarse a datos que contienen variables numéricas. Una variable numérica puede también ser no linealmente transformada, en este caso no se respetará el espacio relativo de los valores de las categorías. Luego, el escalamiento óptimo es aplicable a ambas variables categóricas (para cuantificar) y para variables numéricas (para transformaciones no lineales) (Van der Kooij 2007). Capítulo 1 24 El propósito de RegCat es el mismo que cualquier otro análisis de regresión, lo interesante es que ella puede aplicarse para aquellas variables, en las que los análisis clásicos de regresión fallan. 1.3.1 Niveles de escalamiento óptimo En el proceso de cuantificación ciertas propiedades de los datos se preservan en la transformación. Las propiedades que se seleccionan para ser preservadas se especifican seleccionando un nivel de escalamiento óptimo para las variables. Es importante para realizarlo, que el nivel de escalamiento óptimo es el nivel en el que una variable se analiza, el que no necesariamente coincide con el nivel de medición de la variable. Las propiedades de los datos que se distinguen en el enfoque de la regresión categórica son las de grupos, orden e igual espacio relativo. En dependencia del nivel de medición (nominal, ordinal o intervalo) las variables tendrán una, dos o todas estas propiedades. Las variables con nivel de medición nominal solamente tiene propiedades de agrupación, esto es, los valores de las categorías solamente sirven para codificar las observaciones en clases. Las variables ordinales tienen propiedades de agrupación y orden. Las variables con nivel de medición de intervalo (numéricas) tienen todas las propiedades. Si el investigador desea preservar todas las propiedades de medición de la variable en las variables cuantificadas, el nivel de escalamiento debe seleccionarse en concordancia con el nivel de medición de la variable. Con nivel nominal, sólo se preserva la propiedad de agrupación, el nivel de escalamiento ordinal preserva la agrupación y el orden, y el nivel de escalamiento numérico preserva la agrupación, el orden e igual espacio relativo. Seleccionando el nivel de escalamiento numérico para una variable medida categóricamente implica que en el análisis los valores categóricos se tratan como valores numéricos (y cuando todas las variables se tratan Capítulo 1 25 numéricamente, RegCat es equivalente a la regresión lineal estándar). La forma de la curva, cuando se grafican los valores cuantificados contra los valores de las categorías, está relacionada con el nivel de escalamiento: con nivel de escalamiento nominal la curva de transformación puede descender debido a que el ordenamiento de los valores cuantificados no necesitan ser el mismo que el de los valores de la categoría original. Para el nivel de escalamiento ordinal, el ordenamiento de los valores cuantificados y de los valores de la categoría original es el mismo, resultando una curva de transformación monótona. El nivel de escalamiento numérico resulta una línea recta, debido a que los intervalos entre las cuantificaciones por categorías consecutivas son proporcionales a los intervalos entre los valores de categoría. El nivel de escalamiento, y por tanto la forma de la curva de transformación, está también relacionado con el número de grados de libertad de la transformación, y por tanto al ajuste del modelo. Las transformaciones con más libertad resultan transformaciones menos suaves y ajustan mejor, mientras que transformaciones más restrictivas son más suaves pero los resultados ajustan menos. De manera que, existe un equilibrio entre las propiedades de preservación de los datos y la preservación de la información relacional en los datos: restringiendo las transformaciones, preservando más propiedades de los datos, se alcanza un costo de ajuste y se pierde información relacional. La transformación con el máximo de libertad es el resultado a partir del nivel de escalamiento nominal, donde el número de grados de libertad es igual al número de categorías menos uno. El nivel de escalamiento ordinal requiere una restricción de orden sobre las cuantificaciones categóricas, resultando el número de grados de libertad igual al número de categorías con diferentes valores cuantificados menos uno. El escalamiento numérico impone una restricción de intervalo adicional a la restricción de orden y tiene un grado de libertad. El nivel de escalamiento nominal y el ordinal dan lugar a transformaciones que son funciones paso, la cuales son adecuadas para variables con un número pequeño de categorías. Para variables con un número más grande de categorías, las funciones spline son más apropiadas, entre estas distinguimos splines no monótonos para Capítulo 1 26 transformaciones no ordenadas y splines monótonos para transformaciones ordenadas. Las funciones spline son funciones polinomiales por trozos, las cuales son más restrictivas que las funciones paso, dando lugar a curvas de transformación más suaves, pero con un ajuste menor. Para obtener una transformación spline, el rango de la variable se divide en un número de intervalos, igual al número de nodos especificado menos uno. Los nodos son los puntos extremos de los intervalos. Entonces las funciones polinomiales de un grado específico se ajustan en cada intervalo y se empatan en cada nodo. La suavidad y el número de grados de libertad de una curva de transformación spline depende del número de nodos y del grado de las funciones polinomiales(Van der Kooij 2007). En términos de restricciones, o sea, de suavidad de la curva de transformación y ajuste, la transformación spline no monótona está entre una nominal y una transformación lineal. Con número de nodos interiores igual al número de categorías menos dos y usando un polinomio de primer grado, la transformación spline es la misma que la transformación nominal. Con el número de nodos interiores igual a cero y con un polinomio de primer grado, la transformación spline es la misma que la transformación lineal. De la misma manera, una transformación spline monótona está entre una ordinal y una transformación lineal. Lo expresado en el párrafo anterior se ilustra en la figura 1.7 que se muestra a continuación, la cual muestra la gráfica de transformación de la variable dependiente Diagnóstico de Expertos (DiagExp), que tiene tres categorías: (1-normotenso, 2- hiperreactivo, 3-hipertenso) y la variable independiente categórica Edad de los Pacientes (Edad). A la variable dependiente se le fijó el nivel de medición ordinal mientras que a la independiente se le variaron los niveles de medición. Con el nivel de medición nominal aplicada a la variable independiente se obtiene una curva bastante dentada (Figura 1.7.1). En el mismo se puede apreciar que ambas variables que a medida que se incrementan alcanzan valores máximos. El 2R que se obtiene es igual a 0.128. Al aplicar una transformación spline no monótona (2do grado Capítulo 1 27 con 10 nodos interiores) las irregularidades son más suaves (Figura 1.7.2), mucho más si se tienen dos nodos interiores (Figura 1.7.3). Los 2R para estos casos son 0.088 y 0.081 respectivamente. Obsérvese que el 2R disminuye en la medida en que el nivel de escalado utilizado conserva más propiedades. Como las transformaciones ordinales se obtienen mediante el average de las cuantificaciones nominales que están en el orden equivocado, la aplicación de niveles de escalamiento ordinales da lugar a transformaciones que restringen todos los valores cuantificados en forma de mesetas (Figura 1.7.4). El 2R que se obtiene en esta transformación es 0.094. Cuando se aplica una transformación monótona (2 grados con 10 nodos interiores) muchas de las mesetas desaparecen (Figura 1.7.5) y con 2 grados y 2 nodos interiores la transformación es casi lineal (Figura 1.7.6). Los valores de los 2R en estos casos son 0.085 y 0.078(Van der Kooij 2007). En la figura 1.7.7 se muestra la transformación con nivel de escalado numérico. El 2R que se obtiene es 0.073. En todas estas gráficas de observa que a medida que se gana en suavidad se pierde en ajuste. Capítulo 1 28 Figura 1.7 Gráfica de transformación de la variable dependiente DiagExp, y la variable independiente categórica Edad. 1.3.2 Estimación de las Transformaciones En el método de regresión categórica, el modelo de regresión y las cuantificaciones se estiman simultáneamente en un proceso iterativo usando los mínimos cuadrados alternantes. El algoritmo alterna entre la estimación de la transformación de la variable respuesta y la estimación de las transformaciones y regresión ponderada de las Capítulo 1 29 variables predictoras. La transformación de la respuesta en una iteración se estima a partir de la combinación lineal de los predictores transformados desde las iteraciones previas. Las cuantificaciones nominales son el punto de partida (y el punto final si el nivel de escalamiento es nominal) en la estimación de las cuantificaciones restringidas. La cuantificación nominal para una categoría es la media de los valores predictores de la categoría cuando se estima la respuesta y la media de los residuos parciales de las categorías cuando se estima el predictor. Si el nivel de escalamiento no es nominal, estas cuantificaciones se restringen según sea el nivel de escalamiento. La restricción se impone aplicando la regresión ponderada (ponderando con las frecuencias de las categorías) de las cuantificaciones nominales, en los valores de las categorías para el nivel de escalamiento ordinal y numérica, y en I-spline base(Ramsay 1988) para las transformaciones spline, con restricciones no negativas para los splines monótonos. Para el nivel de escalamiento ordinal, se usa la regresión monótona ponderada, la cual se reduce al promedio ponderado de las cuantificaciones nominales de las categorías que están en el orden equivocado. Con nivel de escalamiento numérico, los valores de las categorías se convierten en scores estándar, lo cual es equivalente a la regresión lineal ponderada de las cuantificaciones nominales en los valores de las categorías. Finalmente, la variable cuantificada se normaliza, y se estima el coeficiente de regresión para una variable predictora. En el método RegCat una transformación monótona es siempre creciente con los valores de las categorías. Si el nivel de escalamiento de un predictor es ordinal o spline monótono, y la relación con la respuesta (después de quitar la influencia de otros predictores) es decreciente de manera monótona, entonces el coeficiente de regresión será negativo(Van der Kooij 2007). 1.3.3 Formulación del modelo de regresión categórica La regresión lineal múltiple es una técnica que estudia la relación lineal entre la variable respuesta y un conjunto de variables predictoras. La regresión categórica múltiple es Capítulo 1 30 una técnica no lineal, donde la no linealidad radica en las transformaciones de las variables. El modelo de la regresión categórica es el modelo de la regresión lineal clásica, aplicado a las variables transformadas:       J j ejxjjyr 1  (1.28) con la función de pérdida:       2 1 11 ,;,,,    J j jjjrjjr xyL   (1.29) …donde: J es el número de variables predictoras, y representa la variable respuesta observada o discretizada, jx representa las variables predictoras observadas o discretizadas, j los coeficientes de regresión, r las transformaciones de la variable respuesta, j las transformaciones de las variables predictoras y e el vector error. Todas las variables son centradas y normalizadas para obtener la suma de los cuadrados igual a N , y 2  representa el cuadrado de la norma euclidiana. La forma de las transformaciones depende del nivel de escalamiento óptimo, el cual puede seleccionarse para cada variable por separado y es independiente del nivel de medición. El nivel de escalamiento define qué parte de la información que está en la variable observada o discretizada (según sea el nivel de medición) se retiene en la transformación de la variable. Con nivel de escalamiento numérico, los valores de la categoría de una variable se tratan como cuantitativos. Entonces toda la información se Capítulo 1 31 retiene y la única transformación aplicada es la estandarización, resultando una transformación lineal. Luego, cuando para todas las variables se aplica el nivel de escalamiento numérico, el resultado de la RegCat es igual al resultado de la regresión lineal múltiple con las variables estandarizadas. Con niveles de escalamiento no numérico, los valores de las categorías se tratan como cualitativos, y se transforman en valores cuantitativos. En este caso, alguna parte de la información en la variable observada o discretizada se pierde. Con nivel ordinal o spline monótono, la información de intervalo se pierde y solamente la información de grupo y orden se retienen, así se posibilita una transformación monótona. Con nivel nominal y spline no monótono sólo la información de agrupación tiene que conservarse, dando lugar a una transformación no monótona. Aplicando niveles de escalamiento no lineales, las relaciones no lineales entre la variable respuesta y las variables predictoras se linealizan, por lo tanto el modelo de regresión lineal del término es todavía aplicable. 1.3.4 Algoritmo para la regresión categórica En RegCat las variables observadas o discretizadas se codifican en una matriz indicadora mG de tamaño mCN  , donde N es el número de observaciones y mC representa el número de categorías de la variable ,,,1, Mmm  donde M es el número total de variables. Una entrada  micg de mG , donde mCc ,,1 , es 1 si la observación i está en la categoría c de la variable m y 0 en otro caso. Entonces las variables transformadas pueden escribirse como el producto de la matriz indicadora mG y el mC - vector de las cuantificaciones categóricas mv :     jvjGjxjrvrGyr   (1.30) Capítulo 1 32 donde rv es el vector de las categorías cuantificadas de la variable respuesta, y jv el vector de categorías cuantificadas para una variable predictora. Luego, el modelo de RegCat con las variables transformadas escrito en términos de matrices indicadoras y categorías cuantificadas es: evGvG J j jjjrr  1  (1.31) Con la función de pérdida mínimos cuadrados asociada:   2 1 11 ,;,,;    J j jjjrrjjr vGvGvvvL   (1.32) La función de pérdida (1.32) se minimiza por el algoritmo de mínimos cuadrados alternantes, que alterna entre la cuantificación de la variable respuesta por un lado, y la cuantificación de las variables predictoras y estimación de los coeficientes de regresión por el otro. Primero se inicializan las cuantificaciones y los coeficientes de regresión. RegCat tiene dos formas de inicialización: aleatoria y numérica. Una inicialización aleatoria usa valores aleatorios estandarizados para las cuantificaciones iniciales, y los coeficientes de regresión iniciales son las correlaciones de orden cero de la variable respuesta cuantificada aleatoriamente con las variables predictoras cuantificadas de manera aleatoria. Con una inicialización numérica los valores se obtienen a partir de un análisis con nivel de escalamiento numérico para todas las variables. En el primer paso del algoritmo, las cuantificaciones de las variables predictoras y los coeficientes de regresión se mantienen fijos. Con nivel de escalamiento numérico las cuantificaciones rv de la variable respuesta son los valores de las categorías de la variable observada o discretizada centrada y normalizada. Capítulo 1 33 Con nivel de escalamiento no numérico las cuantificaciones son actualizadas en la siguiente forma:     J j jjjrrr vGGDv 1 1~  (1.33) donde rrr GGD  . Las cuantificaciones rv~ son las cuantificaciones no estandarizadas para el nivel de escalamiento nominal. Para los niveles ordinal, no monótono o spline monótono, se aplica una restricción para rv~ , en relación con el nivel de escalamiento, produciendo  rv . Por tanto, rr vv ~ para el nivel de escalamiento nominal, y  arestringidvv rr ~ para los niveles ordinales y spline. Entonces  rv se estandariza:   2/12/1   rrrrr vDvvNv (1.34) En el segundo paso del algoritmo, las cuantificaciones de la variable respuesta se mantienen fijas, y las cuantificaciones jv de las variables predictoras con nivel de escalamiento no numérico, y los coeficientes de regresión se actualizan para cada variable al mismo tiempo. El enfoque trabaja como sigue. Primero se calcula el vectorN  de los valores predichos:    J j jjj vGz 1  (1.35) Para actualizar las cuantificaciones de la variable j , la contribución de la variable j a la predicción (la combinación lineal ponderada de los predictores transformados) se sustrae de z: jjjj vGzz  (1.36) Capítulo 1 34 Las cuantificaciones no restringidas se actualizan de la manera siguiente:    jrrjjjj zvGGDsignv  1~  (1.37) Para variables con nivel de escalamiento no numérico jv~ se restringe según sea el nivel de escalamiento, y se normaliza como en (1.34), produciendo  jv . Para variables con nivel de escalamiento numérico,  jv contiene los valores de las categorías de los datos observados o discretizados centrados y estandarizados. Luego los coeficientes de regresión j se actualizan:   jjjj vDvN ~1 (1.38) Luego, la contribución actualizada de la variable j para la predicción se adiciona a jz :  jjjj vGzz  , (1.39) y el algoritmo continúa con la actualización de la cuantificación para la próxima variable predictora, hasta que todos los predictores sean actualizados. Los valores perdidos se calculan como 2 zvG rr  . Estos dos pasos se repiten hasta que se alcance el criterio de convergencia especificado por el usuario. Para el nivel de escalamiento ordinal, se usa la regresión monótona ponderada de las cuantificaciones nominales en la variable observada o discretizada. Para la restricción en relación con los niveles de escalamiento spline se usa la regresión ponderada de las cuantificaciones nominales en un I-spline base(Ramsay 1988), con restricciones no negativas adicionales para el nivel de escalamiento spline monótono. En este punto, pudiera ocurrir una complicación adicional. Una restricción creciente de manera monótona puede a veces dar lugar a una variable transformada con valores constantes. Capítulo 1 35 Por ejemplo, cuando los valores de v~ son decrecientes de manera monótona, excepto para el primer y el último valor, las cuantificaciones restringidas son la media de v~ para todas las categorías. En este caso, la transformación en una constante puede evitarse dando lugar a una función monótona decreciente(Van der Kooij 2007). 1.4 Consideraciones finales del capítulo En este capítulo se han presentado de manera resumida, los conceptos fundamentales del análisis de regresión lineal. Se describe la fundamentación matemática del análisis de regresión lineal simple y se muestran las ideas esenciales de su generalización a la regresión lineal múltiple. Se dedica un epígrafe al análisis de la validez de la ecuación obtenida. Se muestran pruebas gráficas y analíticas para verificar la validez de los supuestos. Finalmente se presenta el método de regresión categórica. Se formula el modelo y se describen los niveles de escalado. El capítulo culmina con la exposición del algoritmo de regresión categórica y la descripción matemática de sus dos pasos fundamentales. Capítulo 2 36 2. Implementaciones sobre el Mathematica En este capítulo se explican brevemente las implementaciones realizadas en el paquete Mathematica. 2.1 La entrada de los datos Para la entrada se tienen dos ficheros texto, uno con el nombre de cada variable y su escalado y el otro con los valores de cada variable en cada observación. Existen cinco tipos de escalados posibles: Numérico Num Ordinal Ord Spline ordinal SO(g,ni) Nominal Nom Spline nominal SN(g,ni) En el caso de los Spline, “g” es el grado del polinomio y “ni” el número de nodos o puntos interiores. El SPSS trae por defecto que el grado del polinomio es dos y el número de nodos interiores es dos también. Estos dos tipos de escalado (Spline Ordinal y Nominal) se recomiendan cuando hay muchas categorías en una variable con nivel de medición Ordinal o Nominal respectivamente. A continuación se muestra cómo quedaría el primer fichero para un subconjunto de datos tomados del estudio realizado en la ciudad Santa Clara sobre la Hipertensión Arterial (HTA) en personas adultas. Ejemplo del fichero 1: Edad Num Peso Num Talla Num Sexo Num Raza Num DiastBasal Num Capítulo 2 37 SistMin1 Num Asma Num SistBas Num Luego se crea una matriz cuyos datos se leen de otro fichero texto que sólo contiene números. La matriz de datos tiene una columna de números por cada una de las variables previamente definidas: Edad Peso Talla Sexo Raza DiastBasal SistMin1 Asma SistBas Ejemplo del fichero 2: 18 70 1.67 2 1 90 155 2 135 55 68 1.74 2 1 85 160 2 160 49 70 1.66 2 2 90 150 2 150 47 75 1.64 1 2 80 130 2 120 73 93 1.66 2 1 90 160 2 160 49 93 1.83 2 1 105 150 2 140 57 64 1.50 1 1 100 160 2 150 23 51 1.51 1 1 90 140 1 130 44 90 1.66 2 1 90 150 2 140 43 91 1.64 2 1 100 150 2 140 Estos dos ficheros son los parámetros de la función RegCatNum una vez que se carga dicho paquete. Para la entrada de los datos se utilizó la función Import[“file”] la cual importa datos del fichero “file” especificado como parámetro en la función RegCatNum a través de su camino. El contenido de dat1 en este caso particular sería: Para un fácil acceso a los datos, esta entrada se requirió de forma “Table” quedando almacenado en la variable dat1 una lista de listas. Capítulo 2 38 Si se desea ver los datos de la forma original con la función TableForm[ ], se logra: De la misma manera se cargan los datos del segundo fichero, encabezando la matriz con las variables del primer fichero. La forma de matriz se le da a través de la función MatrixForm[ ] y para el encabezado se utiliza la opción TableHeadings, guardándose previamente en la variable l los nombres de las variables que aparecen en el fichero 1 mediante un ciclo: Obteniéndose entonces: En caso de haber errores, o sea, la cantidad de columnas no coincide con la cantidad de variables reportadas o faltan datos en la matriz, se imprime mediante la función Print[ ] un cartel de “Error en datos”. Capítulo 2 39 2.2 Análisis de regresión lineal múltiple El software Mathematica contiene un paquete para hacer análisis de regresión. En la versión que actualmente se trabaja: 8.0, Regress (nombre de la función que realizaba la regresión lineal en el paquete LinearRegress) ha sido reemplazada por LinearModelFit, la cual está incorporada al Kernel del Mathematica, por lo que ya no es necesario cargar el paquete con anterioridad. El resultado se retorna como el objeto FittedModel que representa el modelo lineal construido. Este contiene un conjunto de propiedades, como se muestra a continuación: Para obtener la forma funcional del objeto FittedModel, se usa Normal: La función Normal encuentra el ajuste de los mínimos cuadrados a una lista de datos como una combinación linear de la funciones base especificadas, tal y como se explicó en el capítulo 1. Las funciones bases son las que especifican a las predictoras como funciones de las variables independientes Usando LinearModelFit Existen tres formas de llamar a la función LinearModelFit, pero la que se implementa en este caso está estructurada de la siguiente manera: LinearModelFit[{{x11,x12,…,y1},{x21,x22,…,y2},…},{f1,f2,…},{x1,x2,…}]: Construye un modelo lineal de la forma donde las dependen de las variables . http://reference.wolfram.com/mathematica/ref/LinearModelFit.html http://reference.wolfram.com/mathematica/ref/FittedModel.html http://reference.wolfram.com/mathematica/ref/LinearModelFit.html Capítulo 2 40 LinearModelFit produce un modelo lineal de la forma bajo la suposición de que los originales están independientemente distribuidos normalmente con media y desviación estándar común. Si se utiliza el subconjunto de datos presentados en el epígrafe 2.1 para el análisis de regresión lineal: donde variables contiene todas las variables predictoras consideradas para este caso particular (ocho variables independientes), se obtiene como resultado el modelo lineal construido que se muestra en la figura 2.1: Figura 2.1 Ecuación de regresión usando el LinearModelFit del paquete Mathematica Algunas de sus propiedades más importantes se explican y muestran a continuación. 2.2.1 Propiedades del LinearModelFit relacionadas con la suma de los cuadrados de los errores:  ANOVATable: Tabla de Análisis de varianza. La construcción de esta tabla quedó explicada en el capítulo 1. Como propiedades también, se tienen las opciones de la Tabla ANOVA por separado:  ANOVATableDegreesOfFreedom: Grados de libertad a partir de la Tabla ANOVA.  ANOVATableFStatistics: Estadístico F de la tabla.  ANOVATableMeanSquares: Cuadrado de la media de los errores de la tabla.  ANOVATablePValues: p-valores de la tabla. http://reference.wolfram.com/mathematica/ref/LinearModelFit.html Capítulo 2 41  ANOVATableSumsOfSquares: Suma de los cuadrados de la tabla. La figura 2.2 muestra la Tabla ANOVA resultante del análisis realizado al ejemplo anterior, usando la propiedad : Figura 2.2 Tabla ANOVA 2.2.2 Propiedades del LinearModelFit relacionadas con los parámetros A continuación se describen las propiedades que están relacionadas con los parámetros y con su estimación:  ParameterTable: Tabla que contiene información de los parámetros ajustados. Como propiedades también, se tienen las opciones de la Tabla de parámetros por separado:  BestFitParameter: Parámetros estimados.  ParameterErrors: Errores estándar para parámetros estimados.  ParameterPValues: p-valores para parámetros t-estadísticos.  ParameterTStatistics: t-estadísticos para parámetros calculados. La figura 2.3 contiene la información de la tabla de parámetros resultante del análisis realizado al ejemplo anterior, usando la propiedad : Capítulo 2 42 Figura 2.3 Tabla de los parámetros 2.2.3 Propiedades del LinearModelFit que miden la bondad de ajuste Este conjunto de propiedades es sumamente importante porque nos da un criterio de la calidad de la ecuación hallada. Entre los más importantes se tienen:  RSquared: Coeficiente de Determinación R2.  AdjustedRSquared: Coeficiente de determinación R2 ajustado para el número de parámetros del modelo.  AIC: Criterio de Información Akaike. La figura 2.4 muestra los valores del Coeficiente de Determinación R2, R2 Ajustado y Criterio de Información Akaike (AIC) resultante del análisis realizado al ejemplo anterior, usando la propiedades , , : Figura 2.4 Propiedades de bondad de ajuste  DurbinWatsonD, estadístico para detectar si existe o no autocorrelación entre los residuos. Capítulo 2 43 El valor del estadístico Durbin Watson retornado del análisis realizado al ejemplo anterior, usando esta propiedad del LinearModelFit, aparece calculado en la figura 2.5. Figura 2.5 Resultados del test de Durbin Watson 2.3 Verificación de los supuestos Para la verificación de supuestos, el Mathematica 8.0 contiene un paquete llamado “Hypothesis Test”, que cuenta con varios tests de Bondad de Ajuste para el tratamiento de los datos. Tiene entre otras funciones, aquellas que prueban si un conjunto de datos está distribuido normalmente o no. 2.3.1 Prueba de Kolmogorov Smirnov KolmogorovSmirnovTest [data]: Prueba si los datos “data” están distribuidos normalmente usando el test de Kolmogorov-Smirnov. A continuación se especifican algunas de sus propiedades:  Por defecto se devuelve el p-valor.  Los datos pueden ser univariados o multivariados {{x1,y1,…},{x2,y2,…},…}.  Asume que los datos vienen de una distribución continua.  Usa de forma eficaz el estadístico basado en  Para pruebas multivariadas, se usa la media de la prueba estadística marginal univariada. Los p-valores se calculan usando simulación de Monte Carlo.  El nivel de significación que tiene por defecto es 0.05, pero se puede modificar utilizando la opción SignificanceLevel. http://reference.wolfram.com/mathematica/ref/KolmogorovSmirnovTest.html http://reference.wolfram.com/mathematica/ref/KolmogorovSmirnovTest.html Capítulo 2 44  Se puede usar el método Monte Carlo a través de la opción Method Method->"MonteCarlo". Si se utiliza como ejemplo la data que se mostró en el epígrafe 2.1 muestra el siguiente resultado: Figura 2.6 Resultados del test de Kolmogorov - Smirnov Como se puede observar, este subconjunto de datos escogidos al azar no presentan distribución normal según el Test de Kolmogorov-Smirnov. Usando el método Monte Carlo a través de la opción Method retorna un valor parecido, que se muestra en la figura 2.7: Figura 2.7 Resultados del test de Kolmogorov – Smirnov usando Monte Carlo Debe tenerse en cuenta que la prueba de Kolmogorov-Smirnov es muy buena para muestras grandes. Recuérdese que este es un caso de ejemplo en el que sólo se cuenta con diez observaciones. 2.3.2 Prueba de Jarque Bera JarqueBeraALMTest [data]: Prueba si data está distribuida normalmente usando el Test de Jarque Bera ALM. A continuación se especifican algunas de sus propiedades:  Por defecto se devuelve el valor de p.  Los datos pueden ser univariados o multivariados {{x1,y1,…},{x2,y2,…},…}. http://reference.wolfram.com/mathematica/ref/Method.html http://reference.wolfram.com/mathematica/ref/JarqueBeraALMTest.html Capítulo 2 45  Compara con eficacia la asimetría y la kurtosis de los datos para una distribución normal.  Para datos univariados la prueba estadística está dada por: Donde , y los factores de corrección para muestras de tamaño finito dado por , , y  Para pruebas multivariadas, se usa la media de la prueba estadística del marginal univariado. Los valores de p son calculados usando la simulación de Monte Carlo.  El nivel de significación que tiene por defecto es 0.05, controlado por la opción SignificanceLevel.  Se puede usar el método Monte Carlo a través de la opción Method Method->"MonteCarlo". Analizando el caso anterior mediante esta prueba se obtiene el siguiente resultado: Figura 2.8 Resultados del test de Jarque - Bera Como se puede ver, el Jarque-Bera sí muestra normalidad en los residuos, al igual que con el método Monte Carlo (figura 2.9): Figura 2.9 Resultados del test de Jarque – Bera usando Monte Carlo http://reference.wolfram.com/mathematica/ref/Method.html Capítulo 2 46 2.3.3 Prueba de Anderson Darling AndersonDarlingTest [data]: Prueba si data está distribuida normalmente usando el test de Anderson–Darling. A continuación se especifican algunas de sus propiedades:  Por defecto se devuelve el valor de p.  Los datos pueden ser univariados o multivariados {{x1,y1,…},{x2,y2,…},…}.  Asume que los datos vienen de una distribución continua.  Usa de manera eficaz el estadístico basado en: donde Expectation[expr,x ≈ dist] es una función del Mathematica que brinda la expectativa de expr bajo la suposición de que x sigue una distribución de probabilidad dist.  Para datos univariados, la prueba estadística está dada por: …donde y1<…"MonteCarlo". http://reference.wolfram.com/mathematica/ref/AndersonDarlingTest.html http://reference.wolfram.com/mathematica/ref/Method.html Capítulo 2 47 La prueba de Anderson-Darling también muestra que los residuos están distribuidos normalmente aunque con un valor poco por encima del 5 %. Figura 2.10 Resultados del test de Anderson – Darling Ocurre parecido al usar el método Monte Carlo (figura 2.11): Figura 2.11 Resultados del test de Anderson – Darling usando Monte Carlo 2.3.4 Prueba de Shapiro Wilk ShapiroWilkTest [data]: Prueba si los datos (data) están distribuidos normalmente usando el Test de Shapiro-Wilk. A continuación se especifican algunas de sus propiedades:  Por defecto se devuelve el valor de p.  Los datos pueden ser univariados o multivariados {{x1,y1,…},{x2,y2,…},…}.  Compara con eficacia el orden estadístico de los datos con el orden estadístico de una Distribución Normal.  El nivel de significación que tiene por defecto es 0.05, controlado por la opción SignificanceLevel.  Se puede usar el método Monte Carlo a través de la opción Method Method->"MonteCarlo". http://reference.wolfram.com/mathematica/ref/ShapiroWilkTest.html http://reference.wolfram.com/mathematica/ref/Method.html Capítulo 2 48 Los residuales del ejemplo anterior presentan distribución normal nuevamente, esta vez con la prueba Shapiro Wilk. Aquí ocurre parecido a la prueba anterior (Anderson- Darling) como se muestra a continuación en la figura 2.12: Figura 2.12 Resultados del test de Shapiro Wilk Usando el método Monte Carlo se obtiene el siguiente valor: Figura 2.13 Resultados del test de Shapiro Wilk usando Monte Carlo Por lo que se concluye que este modelo de ejemplo es válido tras la verificación de supuestos realizada anteriormente. 2.4 Implementación de la regresión categórica sobre el Mathematica La regresión categórica (RegCat) se ha desarrollado como un método de regresión lineal para variables categóricas. Ella cuantifica los datos categóricos mediante la asignación de valores numéricos a las categorías, obteniéndose una ecuación de regresión lineal óptima para las variables transformadas. A continuación se explica paso a paso el desarrollo del algoritmo que se creó como paquete para el Mathematica. En RegCat las variables observadas o discretizadas se codifican en una matriz indicadora mG de tamaño mCN  , donde N es el número de observaciones y mC representa el número de categorías de la variable ,1,,1,  Jmm  siendo 1J el número total de variables. Para crear dichas matrices, es necesario determinar la cantidad de categorías diferentes C que tiene la variable m, esto se desarrolla mediante un ciclo repetitivo para obtener la información necesaria (datos) de cada variable: For[m=1,m<=length1,m++, Capítulo 2 49 For[n=1,n<=length3,n++, data=List[dat2[[n,m]]]; col=Join[col,data]; ]; Se hace un recorrido por columnas (primer For) y por filas (segundo For) para ir tomando los datos de cada columna (cada variable) de la matriz que se creó a partir de la lectura realizada previamente al segundo fichero explicado en el epígrafe 2.1. En data se guarda elemento a elemento los datos de cada variable y luego se almacenan en col mediante la función Join[ ] hasta obtener la columna completa para cada iteración. Entonces a la variable cat se le asignan los valores de las distintas categorías que tiene cada variable en cada iteración a través de la función Union[ ], la cual a su vez las ordena en orden ascendente: Una vez obtenida esa información se inicializa la correspondiente matriz indicadora con 0 en todas las celdas almacenándose en la variable gm como se muestra en la siguiente línea de código: … donde la variable length3 (# de filas ) tiene como valor la cantidad de observaciones y Length[cat] (# de columnas) devuelve la cantidad de categorías de la variable m. Se usa la función SparseArray[ ] ya que esta toma por defecto valores 0 cuando no se le especifican los elementos y Normal[ ] muestra la matriz común correspondiente al objeto del SparseArray. Una entrada  micg de mG , donde mCc ,,1 , es 1 si la observación i está en la categoría c de la variable m y 0 en otro caso. Este proceso se desarrolla mediante un ciclo iterativo recorriendo por filas la matriz gm verificando, para cada elemento de la Capítulo 2 50 variable m, en cuál posición de entre las categorías se encuentra, logrando así insertar el valor “1” en dicha posición. Lo anterior se muestra a continuación: For[i=1,i<=length3,i++, x=col[[i]]; gm[[i,Last[First[Position[cat,x]]]]]=1 ]; Position[ ] es una función del Mathematica que dada una lista y un elemento de la misma, devuelve su/s posición/es. Se utilizan las funciones Last[ ] y First[ ] para eliminar las llaves ({{ }}) que retorna la función Position[ ] para mostrar la posición del elemento. Es necesario salvar la matriz indicadora que se crea para la variable m en cada iteración, para esto se inicializa una lista vacía (listaGm = { }) y se utiliza la función Join[ ] que va concatenando las matrices en dicha lista: Una vez terminado el ciclo, la lista listaGm contiene todas las matrices indicadoras Gm. Aclarar que se salvan en una lista para un mejor acceso en usos posteriores. La figura 2.14 muestra las matrices indicadoras creadas para las variables del ejemplo anterior: Figura 2.14 Matrices indicadoras Luego se procede a inicializar las cuantificaciones y los coeficientes de regresión. Los valores iniciales se obtienen a partir de un análisis con nivel de escalamiento numérico Capítulo 2 51 para todas las variables por lo que se estandarizan. A continuación se muestra como se realiza este proceso de inicialización del vector de cuantificaciones vm: El Mathematica presenta la función Standardize[ ] a la cual se le pasa una lista y esta es estandarizada mediante el método Zscore. Recordar que col contiene una lista con los elementos de cada columna (de cada variable). Cada columna se estandariza y se salva en scolst a la cual se le aplica una unión a través de la función Union[ ]. Esta función devuelve una lista ordenada de todos los distintos elementos que aparecen en la lista pasada como argumento, en este caso col, obteniéndose de esta forma las distintas categorías para cada variable m ya estandarizadas, las cuales se guardan en la variable vms. Luego, cada lista se salva en una lista vm para obtener finalmente el vector de cuantificaciones. Los coeficientes de regresión iniciales son las correlaciones de orden cero de la variable respuesta cuantificada con las variables predictoras. El Mathematica presenta la función Correlation[ ] la cual brinda la correlación entre dos vectores o listas. La variable scol contiene los vectores cuantificados de cada variable por lo que este proceso se realiza de la siguiente manera: Capítulo 2 52 Ahora se aplica el método de los mínimos cuadrados alternantes cuyo modelo a minimizar es, como se ha visto antes:   2 1 11 ,;,,;    J j jjjrrjjr vGvGvvvL   …donde L se minimiza alternando entre dos pasos. En el primer paso del algoritmo, las cuantificaciones de las variables predictoras y los coeficientes de regresión se mantienen fijos y se actualiza el vector de cuantificaciones de la variable respuesta como sigue: La variable length1 contiene el # de variables del modelo, vm es el vector de cuantificaciones de todas las variables previamente inicializado y como la variable dependiente se encuentra en la última posición (formato establecido al inicio del capítulo), se le asigna a la variable vr el vector de las cuantificaciones de la variable dependiente Y. Con nivel de escalamiento numérico las cuantificaciones rv de la variable respuesta son los valores de las categorías de la variable observada o discretizada centrada y normalizada, por lo que a vr* se le asigna vr. Con nivel de escalamiento no numérico las cuantificaciones son actualizadas en la siguiente forma: Capítulo 2 53 y entonces a vr* se le asigna calculado previamente, donde: Almacenándose en gr la matriz indicadora para la variable respuesta y a través de la función Transpose[ ] se calcula la traspuesta de dicha matriz. Entonces  rv se estandariza: ...donde obs contiene la cantidad de observaciones. En el segundo paso del algoritmo, las cuantificaciones de la variable respuesta se mantienen fijas, y las cuantificaciones jv de las variables predictoras y los coeficientes de regresión se actualizan al mismo tiempo para cada variable. El enfoque trabaja como sigue. Primero se calcula el vectorN  de los valores predichos: ∑ … donde p es igual a la cantidad de variables predictoras del modelo. Para actualizar las cuantificaciones de la variable j , la contribución de la variable j a la predicción se sustrae de z: Entonces la actualización espontánea de jv es: Capítulo 2 54 Para variables con nivel de escalamiento numérico * jv contiene los valores de las categorías de los datos observados o discretizados centrados y estandarizados, por lo que: Con nivel de escalamiento no numérico las cuantificaciones son actualizadas en la siguiente forma: Entonces * jv se estandariza: Luego los coeficientes de regresión j se actualizan: Entonces, la contribución actualizada de la variable j para la predicción se adiciona a jz : y el algoritmo continúa con la actualización de la cuantificación para la próxima variable predictora, hasta que todos los predictores sean actualizados. Estos dos pasos se repiten hasta que se alcance el criterio de convergencia especificado por el usuario con el máximo de iteraciones a ejecutar. Los residuales se calculan como: Capítulo 2 55 Con éstos se realiza la verificación de supuestos, usando las funciones implementadas en el Mathematica para probar la normalidad de los residuos y calculándose el estadístico Durbin Watson de la siguiente manera: ∑ - - ∑ También son calculados el R2, R2 Ajustado y la Tabla ANOVA como sigue: R2: siendo w la matriz identidad de orden (NxN), en este caso (obs x obs), donde obs contiene el total de observaciones. R2 Ajustado: donde u es el p-vector de unos y f es el grado de libertad de las varibles predictoras de orden p. Tabla ANOVA: donde: siendo: y siendo: y siendo: y …y para conformar la tabla se tiene De esa manera queda conformado el algoritmo. Capítulo 2 56 2.5 Consideraciones finales del capítulo En este capítulo se muestran las ideas esenciales acerca de las implementaciones realizadas en el paquete Mathematica. Se comienza explicando la estructura de los ficheros de entrada que tienen las funciones creadas, se explica cómo ejecutar la regresión lineal y posteriormente la categórica. Se describen los tests de hipótesis que prueban la normalidad que aparecen por primera vez en la versión 8.0 del Mathematica. En todo el capítulo se utiliza un juego de datos reducido, pero real, de una investigación relacionada con el estudio de la HTA en adultos. Capítulo 3 57 3. Diagramas y Aplicaciones En este capítulo se muestran las aplicaciones obtenidas del método de regresión categórica explicado en los capítulos anteriores, mediante un estudio completo de la Hipertensión Arterial y un estudio con datos simulados. 3.1 Modelado con UML. Diagramas El modelado es una parte central de todas las actividades que conducen a la producción de buen software. El modelado es una técnica de ingeniería probada y bien aceptada. Un modelo es una simplificación de la realidad que proporciona los planos de un sistema. El Lenguaje Unificado de Modelado (UnifiedModelingLanguage, UML) (RUMBAUGH 2000), utilizado para el desarrollo del software de Regresión Categórica, es un lenguaje estándar para escribir planos de software. Este tiene como objetivos principales la especificación, visualización, construcción y documentación de los productos de un sistema de software. UML es sólo un lenguaje y por tanto es tan sólo una parte de un método de desarrollo de software RUP (Rational Unified Process) (JACOBSON 2000) para lo cual se basa en todos sus tipos de diagramas, que constituyen diferentes vistas del modelo del producto. De los diagramas que componen la estructura de un producto escrito por el lenguaje UML, empleamos: Diagrama de Casos de Uso y los Diagramas de Actividad correspondiente a cada caso de uso. La herramienta empleada para el modelado de todos los diagramas correspondientes a la fase de análisis y diseño fue Visual Paradigm para UML versión 6.0. 3.1.1 Diagrama de casos de uso Los diagramas de casos de uso son importantes para modelar el comportamiento de un sistema, un subsistema o una clase. Estos se emplean para modelar la vista de casos de uso de un sistema. También son importantes para probar sistemas ejecutables a Capítulo 3 58 través de ingeniería directa y para comprender sistemas ejecutables a través de ingeniería inversa. Este modelo se realiza identificando cada actor del sistema como los posibles usuarios para los cuales está realizado el mismo. El paquete RegCatNum está destinado a un usuario experto en Matemáticas o conocedor del paquete Mathematica, pudiendo ser un estudiante, especialista o investigador en matemática y ramas similares. En el diagrama de la figura 3.1 se le ha nombrado a ese actor como usuario. Figura 3.1 Diagrama de Casos de uso El usuario mediante el primer caso de uso puede obtener modelos de regresión categórica a través del paquete RegCatNum que le permitan resolver problemas de diversas áreas de aplicación, sobre todo cuando se presentan variables categóricas. El actor, mediante el segundo caso de uso, puede obtener modelos de regresión lineal aplicado a las variables transformadas con nivel de escalamiento numérico. El usuario utiliza el tercer caso de uso para realizar la verificación de los supuestos y así validar los modelos seleccionados. Capítulo 3 59 3.1.2 Diagrama de Actividades Un diagrama de actividades es fundamentalmente un diagrama de flujo que muestra el flujo de control entre actividades. Los diagramas de actividades se utilizan para modelar los aspectos dinámicos de un sistema, lo que generalmente implica modelar los pasos secuenciales (y posiblemente concurrentes) de un proceso computacional. Las Figuras 3.2, 3.3 y 3.4 muestran tres diagramas de actividades para los casos de uso “Obtener modelos de Regresión Lineal”, “Obtener modelos de Regresión Categórica”, y “Realizar verificación de supuestos”, donde pueden apreciarse a través de modelos simples la descripción del flujo de actividades asociada a cada caso de uso. Capítulo 3 60 Figura 3.2 Diagrama de Actividad correspondiente al caso de uso: Obtener modelos de Regresión Lineal. Capítulo 3 61 Figura 3.3 Diagrama de Actividad correspondiente al caso de uso: Obtener modelos de Regresión Categórica. Capítulo 3 62 Figura 3.4 Diagrama de Actividad correspondiente al caso de uso: Realizar verificación de supuestos. 3.2 Paquete RegCatNum El Mathematica presenta métodos de regresión lineal y no lineal. Entonces el algoritmo de Regresión Categórica se ha agregado al Mathematica como un paquete más cuyo nombre es “RegCatNum” y mediante el cual el usuario puede aplicar dicho método. Para ello se desarrolló primero este método como algoritmo en el Mathematica 8.0 posibilitando este la verificación de supuestos y una vez terminado se guardó a través de la trayectoria: File ►New ► Package quedando conformado así este paquete. Capítulo 3 63 Para su utilización resulta conveniente que el mismo se encuentre en: C:\Program Files\Wolfram Research\Mathematica\8.0\AddOns\Packages Una vez que el usuario desee obtener modelos de Regresión Categórica para esta primera variante con escalamiento numérico sólo tiene que cargar el paquete: < 0.05 por lo que se acepta la hipótesis fundamental, ver Figura 3.6. Figura 3.6 Prueba de normalidad Kolmogorov-Smirnov Las demás pruebas que se implementaron en el paquete RegCatNum dan resultados elevados también siendo 0.683 el valor de Shapiro Wilk, 0.72 el valor de Anderson- Darling y 0.51 el valor de Jarque-Bera por lo que los residuales están distribuidos normalmente. Utilizando la función RegresionLineal los resultados son parecidos obteniéndose un buen modelo de regresión, ver Anexo 1. Capítulo 3 67 3.3.2 Estudio de la Hipertensión Arterial La hipertensión arterial (HTA) es la elevación de la presión arterial por encima de un límite que se considera normal (140/90 mmHg). Es la principal enfermedad crónica degenerativa y la más común causa de muerte, afecta aproximadamente al 20% de la población mundial (Navarro 2008). Se cree que tanto los factores ambientales como los genéticos son causas de la hipertensión. La tensión arterial tiende a elevarse con la edad. Es también más frecuente que aparezca si la persona es obesa, tiene una dieta rica en sal y pobre en potasio, bebe elevadas cantidades de alcohol, no tiene actividad física y sufre de un elevado estrés psicológico. Aunque está claro que la tendencia a la hipertensión puede ser heredada, se desconocen en gran medida los factores genéticos responsables de la misma (Encarta 2006). El conocimiento actual de este problema de salud pública a nivel mundial, obliga a buscar estrategias certeras de detección, control y tratamiento. En este trabajo se presenta un estudio realizado con los 849 individuos de cinco policlínicos de la ciudad de Santa Clara. Cada caso fue inicialmente clasificado como normotenso, hiperreactivo (prehipertenso) o hipertenso por un comité de expertos altamente calificado (Navarro 2008). Este estudio tuvo lugar previamente en el desarrollo de la tesis de maestría del MSc. Juan Manuel Navarro. La tabla 3.1 muestra las variables que formaron parte de este estudio: Tabla 3.1 Variables consideradas en el análisis No. Variable Etiqueta Valores 1. TASistB Presión sistólica basal Baja, Media, Alta 2. TADiastB Presión diastólica basal Baja, Media, Alta 3. TASistB1 Presión sistólica basal al primer minuto Baja, Media, Alta 4. TADiastB1 Presión diastólica basal al primer minuto Baja, Media, Alta 5. TASistB2 Presión sistólica basal al segundo minuto Baja, Media, Alta Capítulo 3 68 En este epígrafe se pretende encontrar un modelo de regresión que permita caracterizar el padecimiento de la HTA en pacientes de cinco policlínicos del municipio de Santa Clara. El problema que se presenta en este trabajo no puede tratarse adecuadamente por una regresión lineal múltiple, pues la variable dependiente (DiagExp) es ordinal y todas las predictoras son categóricas (Ver Tabla 3.1). Se decide entonces aplicar la regresión categórica programada en el paquete RegCatNum del Mathematica. En la corrida se consideraron todas las variables mostradas en la Tabla 3.1 aplicándole a cada una de ellas el nivel de escalamiento numérico. El valor del coeficiente de determinación R2 obtenido fue aproximadamente igual a 0.9174 lo cual indica que el 91.74% de la variable diagnóstico está explicado en el modelo. Figura 3.7 Resumen del modelo El resultado del análisis de varianza resultó significativo ya que la Significación fue igual a 0 < 0.05 como se puede observar en la Figura 3.8 reflejando la validez del modelo. 6. TADiastB2 Presión diastólica basal al segundo minuto Baja, Media, Alta 7. TAPam Presión arterial media Baja, Media, Alta 8. Col_Tot Colesterol total Bajo, Medio, Alto 9. Col_Ldl Colesterol LDL Bajo, Medio, Alto 10. OImc Índice de masa corporal Bajo, Normal, Elevado 11. Sexo Sexo del paciente Masculino, Femenino 12. Fuma Hábito de fumar Sí, No 13. Bebe Hábito de tomar Sí, No 14. DiagExp Diagnóstico de HTA Normotenso, Hiperreactivo, Hiperte