Universidad Central “Marta Abreu” de Las Villas 

Facultad de Matemática, Física y Computación 

Licenciatura en Ciencia de la Computación  

 
Trabajo de Diploma 
 

Título: “Paquete sobre el Mathematica 8.0 para variantes del 

análisis de Regresión Categórica” 

 
Autora: Claudia Orama Gómez 

Tutores: Dra. Gladys Casas Cardoso 

MSc. Juan Manuel Navarro Céspedes 

 
Santa Clara 

2011 


Dictamen 

 
I 

 
El que suscribe, Claudia Orama Gómez, hago constar que el trabajo titulado “Paquete 

sobre el Mathematica 8 para variantes del análisis de Regresión Categórica” fue 

realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la 

culminación de los estudios de la especialidad de Ciencia de la Computación, 

autorizando a que el mismo sea utilizado por la institución, para los fines que estime 

conveniente, tanto de forma parcial como total y que además no podrá ser presentado 

en eventos ni publicado sin la autorización de la Universidad. 

 
Firma del autor 

 
Los abajo firmantes, certificamos que el presente trabajo ha sido realizado según 

acuerdos de la dirección de nuestro centro y el mismo cumple con los requisitos que 

debe tener un trabajo de esta envergadura referido a la temática señalada. 

 
   Firma del tutor       Firma del jefe del Laboratorio  

    
Fecha 


II 

 
“Mejor es adquirir sabiduría que oro preciado;  

Y adquirir inteligencia vale más que la plata.” 

Proverbios 16:16 

“Porque mejor es la sabiduría que las piedras preciosas;  

Y todo cuanto se puede desear, no es de compararse con ella.” 

Proverbios 8:11


Dedicatoria 

 
III 

 
…al Rey de los siglos, inmortal, invisible, al único y sabio Dios, sea honor y gloria 

por los siglos de los siglos… 

1 Timoteo 1:17 


Agradecimientos 

 
IV 

 
Agradecimientos 

 
En primer lugar a Dios porque por Él he llegado hasta aquí. 

A mi familia por apoyarme en todo. 

A mi tutores: Dra. Gladys Casas Cardoso y MSc. Juan Manuel Navarro Céspedes 

por dedicarme su tiempo y experiencia. 

A Jorge Luis por haberme ayudado incondicionalmente. 

A mi esposo Jorge por  ayudarme  y  apoyarme  en todo, en los buenos y en los 

malos momentos. 

A  mi amiga Lisette por ayudarme y estar dispuesta para lo que necesitara. 

A mis suegros por alentarme todo este tiempo. 

A los profesores que me llevaron a ser un profesional. 

A mis amigos y hermanos que siempre se preocuparon por mí. 

A todos los que de una forma u otra en algún momento contribuyeron a realizar 

este trabajo. 


Resumen 

 
V 

 
Resumen 

El análisis de datos categóricos es una rama importante de la estadística. Su campo de 

aplicación es amplio. Las ciencias sociales y las ciencias médicas son buenos ejemplos 

de ello. 

Esta tesis trata sobre un método de análisis de datos categóricos: el análisis de 

regresión categórica. El trabajo comienza con un estudio exhaustivo del análisis de 

regresión múltiple y la verificación de los supuestos. Se describen numerosas pruebas 

gráficas y estadísticas para verificar la normalidad de los residuales y la homogeneidad 

de sus varianzas. 

Se explican en detalle el modelo de regresión categórica y su algoritmo. Se creó y 

probó un paquete sobre el Mathematica 8.0 para realizar los cálculos fundamentales. 

Se utilizaron datos simulados para mostrar y comentar los resultados más importantes. 

Además se presentó un problema con datos reales: el diagnóstico de la hipertensión 

arterial en la ciudad de Santa Clara. 


Abstract 

 
VI 

 
Abstract 

The categorical data analysis is an important branch of Statistic. Their field of 

application is wide. Social Sciences and Medical Sciences are good examples. 

This thesis is about the method of analysis of categorical data: the categorical 

regression analysis. The work begins with an exhaustive study of the multiple 

regression analysis and the verification of the assumptions. Many graphical and 

statistical tests to verify the residual normality and the homogeneity of their variances 

are described. 

The model of the categorical regression analysis and its algorithm are carefully 

explained. A Mathematical package to do the fundamental calculus was created and 

proved. 

A simulated data was used in order to show and comment the most important results. 

Also a real data of a medical problem was presented: the diagnosed of the hypertension 

in the Santa Clara City. 

 
Índice 

 
VII 

 
Índice 

 
Introducción ........................................................................................................... 1 

1. Análisis de regresión lineal múltiple y de regresión categórica ........................... 6 

1.1 Análisis de regresión .................................................................................. 6 

1.1.1 Análisis de regresión lineal simple .......................................................... 7 

1.1.2 Análisis de regresión lineal múltiple ........................................................ 9 

1.2 Verificación de los supuestos ................................................................... 13 

1.2.1 Algunas pruebas gráficas ...................................................................... 14 

1.2.2 Prueba de la homogeneidad de varianzas ............................................. 17 

1.2.3 Pruebas de normalidad ......................................................................... 18 

1.3 Análisis de regresión categórica............................................................... 22 

1.3.1 Niveles de escalamiento óptimo ........................................................... 24 

1.3.2 Estimación de las Transformaciones ..................................................... 28 

1.3.3 Formulación del modelo de regresión categórica ................................. 29 

1.3.4 Algoritmo para la regresión categórica ................................................. 31 

1.4 Consideraciones finales del capítulo ........................................................ 35 

2. Implementaciones sobre el Mathematica ........................................................ 36 

2.1 La entrada de los datos ............................................................................... 36 

2.2 Análisis de regresión lineal múltiple ............................................................ 39 

2.2.1 Propiedades del LinearModelFit relacionadas con la suma de los 

cuadrados de los errores: .............................................................................. 40 

2.2.2 Propiedades del LinearModelFit relacionadas con los parámetros ....... 41 

2.2.3 Propiedades del LinearModelFit que miden la bondad de ajuste .......... 42 


Índice 

 
VIII 

 
2.3 Verificación de los supuestos ...................................................................... 43 

2.3.1 Prueba de Kolmogorov Smirnov ............................................................ 43 

2.3.2 Prueba de Jarque Bera .......................................................................... 44 

2.3.3 Prueba de Anderson Darling ................................................................. 46 

2.3.4 Prueba de Shapiro Wilk ......................................................................... 47 

2.4 Implementación de la regresión categórica sobre el Mathematica ............. 48 

2.5 Consideraciones finales del capítulo ........................................................... 56 

3. Diagramas y Aplicaciones ................................................................................ 57 

3.1 Modelado con UML. Diagramas .................................................................. 57 

3.1.1 Diagrama de casos de uso ..................................................................... 57 

3.1.2 Diagrama de Actividades ....................................................................... 59 

3.2 Paquete RegCatNum ................................................................................... 62 

3.3 Función RegresionLineal ............................................................................. 63 

3.3 Aplicaciones ................................................................................................ 64 

3.3.1 Estudio con datos simulados ................................................................. 64 

3.3.2 Estudio de la Hipertensión Arterial ....................................................... 67 

3.4 Consideraciones finales del capítulo ........................................................... 71 

Conclusiones ........................................................................................................ 72 

Recomendaciones ................................................................................................ 73 

Referencias Bibliográficas .................................................................................... 74 

Anexos ................................................................................................................. 76 

 
Introducción 

 
1 

 
Introducción 

El cambiante mundo moderno está sustentado por un conjunto de ciencias empleadas 

por el hombre para, entre otras cosas, controlar y perfeccionar los procesos; tal es el 

caso de la Estadística. Son varios los métodos que se ocupan de los modelos 

matemáticos en general y que en los últimos años se han desarrollado, métodos que 

gracias al desarrollo de la informática han sido automatizados, por lo que resultan de 

gran utilidad práctica para solucionar problemas presentes en la sociedad. 

La tecnología informática con que se dispone hoy en día, casi inimaginable hace sólo 

dos décadas, ha posibilitado avances extraordinarios en el análisis de datos ya sea en 

áreas del conocimiento como la medicina, la meteorología, la bioinformática y la 

educación o de tipo psicológico, sociológico y de otros referidos al comportamiento 

humano. Este impacto es más evidente en la relativa facilidad con la que los 

ordenadores pueden analizar enormes cantidades de datos complejos y en menos 

tiempo. Hoy en día casi cualquier problema se puede analizar fácilmente por un 

número ilimitado de programas estadísticos, incluso en ordenadores personales. 

Además, los efectos del progreso tecnológico han extendido mucho más la capacidad 

de manipular datos, liberando a los investigadores de las restricciones del pasado y 

permitiéndoles así abordar investigaciones más sustantivas y ensayar sus modelos 

teóricos. Las limitaciones metodológicas no son ya un asunto crítico para el teórico 

empañado en la búsqueda de evidencia empírica. Gran parte de esta creciente 

comprensión y pericia en el análisis de datos ha venido a través del estudio y desarrollo 

de la estadística y de la inferencia estadística. 

En las investigaciones, fundamentalmente las de corte social, intervienen conjuntos de 

datos que reflejan alguna cualidad o categoría. A estos datos se les conoce como datos 

categóricos. Dichos datos pueden contener una mezcla de diferentes tipos de 

variables, muchas de las cuales están medidas en categorías ordenadas o 

desordenadas. Variables como las estaciones del año, los tipos de determinado 

producto en el mercado, o el hecho que un estudiante apruebe o no un examen, son 


Introducción 

 
2 

 
ejemplos de variables con categorías desordenadas. Variables como el nivel de 

educación o la frecuencia con que se desarrolla cierta actividad (nunca, a veces o 

siempre), son ejemplos de variables con categorías ordenadas. Las variables continuas 

pueden considerarse variables categóricas, coincidiendo cada categoría o cualidad con 

su valor. Estos tipos de variables requieren diferentes tratamientos en el proceso de 

análisis de datos, los cuales no siempre son tan evidentes como pudieran parecer. 

Además, muchas de estos conjuntos pueden contener variables que pueden o no estar 

relacionados linealmente, lo cual también tendrá que ser reflejado en el resultado del 

análisis. De aquí entonces que el análisis de datos categóricos no siempre se realizará 

tan fácilmente como el investigador desearía. 

No son pocos los métodos que introducen las denominadas variables “dummy” para 

trabajar con variables que no tienen propiedades numéricas reales. En estos métodos 

las variables categóricas son divididas en variables indicadoras de cada categoría, 

donde el “uno” representa la presencia de la misma y el “cero” la ausencia. Estas 

variables “dummy” son utilizadas como variables numéricas en el análisis. Tales 

métodos, sin embargo, suelen ser muy intensivos, especialmente cuando las variables 

tienen muchas categorías(Agresti 2002). 

El trabajo con datos categóricos data desde 1902 con el descubrimiento más 

importante de Karl Pearson: el test chi cuadrado. Sobre la década de los 60 hubo una 

explosión, dado en gran medida por el desarrollo de la informática, de métodos de 

análisis estadísticos  para datos categóricos(Agresti 2002). 

Para el análisis de datos categóricos se han desarrollado varios métodos, uno de los 

cuales se estudiará en detalle en el presente trabajo: el análisis de Regresión 

Categórica. Resulta interesante conocer cómo influyen los métodos de discretización y 

las transformaciones del escalamiento que se aplican a las variables en los resultados 

de la regresión. Estos procedimientos se encuentran implementados en el SPSS, por lo 

que resulta imposible realizar esos análisis utilizando dicho paquete. El paquete 


Introducción 

 
3 

 
Mathematica (http://www.wolfram.com) es un sistema para hacer matemáticas utilizando 

una computadora personal. Es a la vez: 

 Una calculadora científica. 

 Un paquete de subrutinas de cálculo numérico. 

 Un instrumento de cálculo simbólico. 

 Un sistema de graficación. 

 Un lenguaje de programación de alto nivel. 

 Un sistema interactivo para crear documentos multimedia. 

 Un sistema de apoyo a otros programas. 

 Una gran fuente de información matemática (Wolfram 1999). 

Este software (Mathematica) contiene paquetes para hacer análisis de regresión y 

realizar verificación de los supuestos, los cuales servirán de punto de partida para la 

elaboración del paquete de regresión categórica. La versión que se ha utilizado es la 

8.0 pues es la primera en incorporar pruebas de hipótesis para probar normalidad como 

Kolmogorov Smirnov, Anderson Darling, Jarque Bera y muchas otras más. 

Consecuentemente el objetivo general de la presente tesis es desarrollar una 

implementación computacional, utilizando el paquete Mathematica, de algunas 

variantes del método de regresión categórica. 

Para lograr dicho objetivo, se proponen los objetivos específicos: 

1. Implementar en el Mathematica el método de regresión lineal múltiple con el 

análisis de los supuestos. 

2. Estudiar el algoritmo de regresión categórica para seleccionar las variantes 

factibles de implementación inmediata sobre el paquete Mathematica. 

3. Crear un paquete en el Mathematica con los procedimientos necesarios para 

realizar los cálculos de la variante seleccionada. 

http://www.wolfram.com/


Introducción 

 
4 

 
4. Obtener e interpretar aplicaciones con datos simulados y reales. 

Para dar cumplimiento a estos objetivos fue necesario plantearse y solucionar algunas 

tareas de investigación, entre las que se encuentran: 

1. Estudiar las funciones del Mathematica que permiten realizar análisis de 

regresión lineal. 

2. Estudiar las facilidades que brinda el Mathematica 8.0 para realizar el análisis de 

los supuestos. 

3. Implementar una función que aglutine los dos aspectos anteriores. 

4. Implementar una entrada cómoda de datos en la que se especifique por cada 

variable su escalado. 

5. Estudiar el algoritmo de regresión categórica. Seleccionar las variantes que sean 

factibles de implementar de manera inmediata. 

6. Implementar en el Mathematica una primera variante del algoritmo de regresión 

categórica y realizar el análisis de los supuestos a la ecuación obtenida. 

El primer paso para la realización de este trabajo fue la confección del marco teórico. 

Para ello se realizó una amplia revisión de la literatura consultando libros, artículos y 

páginas de internet, entre otras fuentes. Sus elementos esenciales se encuentran 

expuestos de manera resumida en el primer capítulo de la presente tesis.  

Como conclusión de la elaboración del marco teórico se enuncia la siguiente hipótesis 

de investigación: 

H1: “Utilizando el software Mathematica se implementa un paquete que permite realizar 

variantes del análisis de regresión para datos categóricos” 

H2: “El paquete implementado permite resolver problemas reales de varios campos de 

aplicación, entre los que se encuentra la Medicina” 


Introducción 

 
5 

 
El trabajo está conformado por tres capítulos: 

El capítulo 1 constituye una revisión bibliográfica sobre el tema de regresión lineal 

múltiple y la importancia que tiene la verificación de los supuestos, describiendo luego 

la regresión categórica, técnica relativamente nueva. 

En el capítulo 2 se hace énfasis en las implementaciones realizadas en el Mathematica 

para el desarrollo del paquete de regresión categórica. 

En el capítulo 3 se muestran aplicaciones obtenidas del método de regresión 

categórica explicado en los capítulos anteriores, mediante un estudio de la Hipertensión 

Arterial (HTA) y de un juego de datos simulados. 

Finalmente se presentan las conclusiones de la tesis, así como algunas 

recomendaciones que abren futuras líneas de investigación. 


Capítulo 1 

 
6 

 
 1. Análisis de regresión lineal múltiple y de regresión categórica 

En este capítulo se describe brevemente la conocida técnica de regresión lineal 

múltiple, haciendo énfasis en la importancia de la verificación de los supuestos. 

Posteriormente se presenta y describe una técnica relativamente nueva: la regresión 

categórica. 

1.1 Análisis de regresión 

Desde un punto de vista más general, el análisis de un proceso conduce a la 

concepción del mismo bajo el principio de la caja negra, como se muestra en la figura 

1.1. 

Figura 1.1 Principio de la caja negra en un análisis de regresión 

 
donde: 

X : es el vector de variables de entrada (que incluye las variables controlables) 

Y : es el vector de variables de salida. 

Y el rectángulo o caja negra es el proceso que se desconoce y que se desea 

investigar. Se desea encontrar la función que relaciona las variables de entrada y salida 

a partir de conjuntos de valores experimentales de esas variables. 

El objetivo del análisis de regresión es determinar para cada componente jy , del 

vector Y , la función jf  que la relaciona con las componentes nxxx ,,, 21   del vector 

X :  njj xxxfy ,,, 21  . 


Capítulo 1 

 
7 

 
Es necesario tener resultados experimentales donde para cada conjunto de variables 

de entrada se haya medido el valor de las variables de salida objeto de análisis. 

El caso más simple, frecuente en la práctica, es aquel en que las funciones jf  son 

lineales, o sea, se buscan coeficientes k  tales que: 

  nnj xxxy 2211  
(1.1) 

donde   representa el error de estimación. 

No siempre este modelo es el más adecuado y por ello son importantes también los 

casos en que, por ejemplo, las funciones jf  son cuadráticas, más generalmente 

polinomios, o incluso, expresiones más complejas en que aparezcan funciones 

trascendentes. Los problemas de regresión no lineal pueden ser reducidos a problemas 

de regresión lineal siempre y cuando las igualdades  njj xxxfy ,,, 21   puedan ser 

reducidas a ciertas dependencias lineales entre funciones de las variables 

mencionadas. 

1.1.1 Análisis de regresión lineal simple 

La figura 1.2 muestra la relación lineal que existe entre dos variables cualesquiera X, Y. 

Figura 1.2 Relación lineal entre las variables X e Y. 

 
Capítulo 1 

 
8 

 
Se quiere obtener la ecuación que mejor ajuste la nube de puntos, o sea una ecuación 

de la forma  bxay . 

El método de los mínimos cuadrados intenta minimizar los cuadrados de los residuales, 

es decir: 

     
2

1

2

1

2

1

minminˆmin 



n

i

i

n

i

ii

n

i

ii bxayyy   (1.2) 

Sea:    
2

1

2

1

ˆ 



n

i

ii

n

i

ii bxayyyS

 
(1.3) 

Se necesita hallar el mínimo de S. Para ello se calculan: 

  12 



 ii bxay

a

S
 (1.4) 

  iii xbxay
b

S





2  (1.5) 

Igualando a 0 se obtienen las ecuaciones: 

  0 ii bxay
 

(1.6) 

   0 iii xbxay
 

(1.7) 

Trabajando algebraicamente: 

  ii xbnay
 (1.8) 

  2
iiii xbxayx

 (1.9) 

Resolviendo el sistema de ecuaciones se llega a la solución: 

  

 







2
xx

yyxx
b

i

ii

 (1.10) 

xbya   (1.11) 


Capítulo 1 

 
9 

 
Además puede probarse que:  

02
2

2





n

a

S

 (1.12) 

02 2

2

2





 ix

b

S

 (1.13) 

Los estimadores hallados son estimadores mínimos cuadráticos de los parámetros 

originales. Ellos cumplen varias propiedades, como por ejemplo son insesgados(Calero 

1998). 

1.1.2 Análisis de regresión lineal múltiple 

El procedimiento regresión lineal permite utilizar más de una variable independiente. La 

ecuación de regresión ya no define una recta en el plano, sino un hiperplano en un 

espacio multidimensional. La ecuación será de la forma: 

  nnj xxxy 2211  
(1.14) 

Este modelo, al igual que cualquier otro modelo estadístico, se basa en una serie de 

supuestos (linealidad, independencia, normalidad, homocedasticidad y no-colinealidad) 

que se verán más adelante. 

La ecuación de regresión mínimo-cuadrática se construye estimando los valores de los 

coeficientes i  del modelo de regresión. Estas estimaciones se obtienen intentando 

hacer que las diferencias al cuadrado entre los valores observados y los pronosticados 

sean mínimas. 

Métodos para hallar ecuaciones múltiples 

Enter: En un sólo paso todas las variables independientes entran a formar parte de la 

ecuación.  


Capítulo 1 

 
10 

 
Remove: Parte de una ecuación con todas las variables independientes incorporadas y 

en un único paso elimina todas las variables que cumplen con el criterio de eliminación. 

Forward: Es un método paso a paso en el que las variables independientes entran paso 

a paso en el modelo. La primera variable en entrar es aquella que mayor correlación 

tenga con la variable dependiente y. Esta variable entra en la ecuación sólo si satisface 

el criterio de entrada. En los pasos siguientes entra la variable que mayor coeficiente 

de correlación parcial tenga. El procedimiento finaliza cuando no queden variables que 

satisfagan el criterio de entrada. 

Backward: Es un método paso a paso, que comienza con todas las variables incluidas 

en el modelo. En cada paso elimina la variable que menor coeficiente de correlación 

parcial tenga con la variable dependiente y. Para eliminar esta variable se necesita 

además que ella cumpla un criterio de eliminación. El procedimiento finaliza cuando no 

queden variables en el modelo que satisfagan el criterio de eliminación. 

Stepwise: Es un método paso a paso que combina las dos técnicas anteriores. En cada 

paso entra a la ecuación la variable independiente más importante, si cumple el criterio 

de entrada. Las variables que ya están en el modelo, pueden ser eliminadas si cumplen 

con el criterio de eliminación. El método termina cuando ninguna variable puede ser 

incluida o eliminada. 

Estimaciones y predicciones 

Como resultado de un análisis de regresión lineal simple se obtiene una ecuación lineal 

de y en función de x. Para hacer pronósticos, los nuevos valores de x deben pertenecer 

al dominio de las x utilizadas en la construcción del modelo. 

Debe verificarse la validez del modelo, probando la bondad del ajuste mediante una 

prueba de hipótesis(Scheffe 1959): 

0: bHo  

0:1 bH  


Capítulo 1 

 
11 

 
Que conduce a la tabla ANOVA: 

Tabla 1.1 Tabla ANOVA 

Fuente de 
variación 

Suma de 
cuadrados 

g.l. Cuadrados 
medios 

F Significación 

Regresión SCReg 1 CMReg 

sCM

gCM
F

Re

Re
  

Sig 

Residual SCRes n-2 CMRes 

Total SCTot n-1  

 
donde: 

SCReg: suma de cuadrados de la regresión 

SCRes: suma de cuadrados residual 

SCTot: suma de cuadrados total 

Puede verificarse que: SCTot = SCReg + SCRes 

CMReg: cuadrado medio de la regresión 

CMRes: cuadrado medio residual 

De manera general puede decirse que la variabilidad total se descompone en 

variabilidad explicada por la regresión y variabilidad residual. Si esta última es mayor 

que la primera, entonces el modelo hallado no es útil. En ese caso debe cuestionarse el 

uso de una línea recta para modelar el problema y se sugiere probar variantes de 

regresiones no lineales. 

Coeficiente de determinación 
2R  

El coeficiente de determinación representa la proporción de la varianza total que es 

explicada por la regresión.  


Capítulo 1 

 
12 

 
Este valor se encuentra entre 0 y 1 )10( 2  R  y es una medida que puede utilizarse 

para determinar si se ha hecho un buen ajuste de X e Y. Por ejemplo, si 90.02 R  

puede afirmarse que el 90% de la varianza total es explicada por la suma de cuadrados 

de la regresión, por lo tanto existe una fuerte relación entre  X e Y. 

El valor del 2R  aumenta en la medida en que se incrementan las variables en el 

modelo. Por tanto, no es correcto comparar el valor del 2R  de dos regresiones con un 

número de variables explicativas  diferentes. 

Coeficiente 2R ajustado 

Para subsanar la tendencia del  2R se ha definido un R2-ajustado de la siguiente 

manera: 

(1.15) 

donde p es el número de parámetros en el modelo. 

El modelo que se busca es aquel que tiene un R2-ajustado alto con pocas variables. 

El 2R  ajustado podría disminuir al incluirse una variable adicional en el modelo. 

El valor 2R ajustado siempre es un poquito más bajo que el valor 2R múltiple porque 

refleja la complejidad del modelo (el número de variables) a medida que se relaciona 

con los datos. Por consiguiente, el valor 2R ajustado es una medida más precisa del 

rendimiento del modelo. 

Criterio de información Akaike (AIC) 

El criterio de información Akaike (AIC) es una medida relativa de bondand de ajuste 

para un modelo estadístico. Fue desarrollado por Hirotsugu Akaike y publicado por él 

mismo en 1974. En el caso general, el AIC se calcula como: 

 (1.16) 

)1(
1

1
)1/(

)/(
1 22 R

pn

n

nSST

pnSSE
Rajus 












Capítulo 1 

 
13 

 
donde k es el número de parámetros en el modelo estadístico y L es el valor 

maximizado de la función de probabilidad para el modelo estimado. 

De un conjunto de modelos candidatos para el juego de datos, se escoge el de menor 

valor AIC. Por consiguiente, el AIC no sólo ofrece la bondad del ajuste sino que 

también incluye una función de incremento del número de parámetros estimados en 

forma de multa. Esta multa pone freno al overfitting (incremento del número de 

parámetros en el modelo que mejora la bondad de ajuste sin tener en cuenta el número 

de parámetros libres en el proceso de generación de datos)(Wikipedia). 

1.2 Verificación de los supuestos 

Para validar un modelo, se necesita verificar los supuestos de un análisis de regresión 

ya que el incumplimiento de uno de ellos puede ocasionar errores sistemáticos. Entre 

los más importantes se pueden mencionar: 

 Independencia. Los residuos son independientes entre sí, es decir, los residuos 

constituyen una variable aleatoria (recordemos que los residuos son las 

diferencias entre los valores observados y los pronosticados). Es frecuente 

encontrarse con residuos autocorrelacionados cuando se trabaja con series 

temporales. 

 Homocedasticidad. Para cada valor de la variable independiente (o combinación 

de valores de las variables independientes), la varianza de los residuos es 

constante. 

 Normalidad. Para cada valor de la variable independiente (o combinación de 

valores de las variables independientes), los residuos se distribuyen 

normalmente con media cero. 

 No-colinealidad. No existe relación lineal exacta entre ninguna de las variables 

independientes. El incumplimiento de este supuesto da origen a colinealidad o 

multicolinealidad. 


Capítulo 1 

 
14 

 
El examen de los residuos es necesario y útil, no sólo porque permite comprobar la 

validez de los supuestos hechos en el Análisis de Regresión, sino también porque, en 

el caso de fallar algunos de ellos, da indicaciones para lograr su cumplimiento: 

cambiando la forma del modelo, transformando las variables, rechazando 

observaciones o utilizando pesos (Mínimos Cuadrados Ponderados). 

Una vez que los residuos han sido calculados se presentan varias alternativas para su 

examen: 

 Analizar la relación de los residuos y las variables. 

 Analizar los residuos en conjunto para rechazar observaciones o probar si su 

distribución es Normal. 

 Graficar los residuos contra los valores estimados para verificar la 

homogeneidad de la varianza experimental y la adecuación del modelo. 

1.2.1 Algunas pruebas gráficas 

La figura 1.3 muestra un ejemplo en el que los residuos se agrupan en forma de una 

banda horizontal. Esto no da evidencia de fallos en los supuestos. 

Figura 1.3 Representación gráfica de los residuales contra los valores predichos 

sugiriendo homogeneidad de varianzas. 

 
En el gráfico siguiente, los residuos varían en magnitud notablemente al aumentar los 

valores de la Y. Esto indica que la varianza de las observaciones no es constante y 


Capítulo 1 

 
15 

 
que se deben utilizar pesos (Mínimos Cuadrados Ponderados) o transformar las 

observaciones. 

Figura 1.4 Representación gráfica de los residuales contra los valores predichos sin 

sugerir homogeneidad de varianzas. 

 
Este último gráfico muestra que los residuos se relacionan con los valores predichos en 

forma de parábola o similar. Ello es un indicador de que el modelo es inadecuado, se 

necesitan términos extras en el modelo o transformaciones de la variable dependiente. 

Figura 1.5 Representación gráfica de los residuales contra los valores predichos 

mostrando una relación cuadrática. 

 
Capítulo 1 

 
16 

 
Observaciones extremas (OUTLIERS) 

Una de las razones más importante para calcular los residuos es la detección de 

observaciones extremas.  

La mayoría de los procedimientos para examinar residuos son sensibles a la presencia 

de valores atípicos. 

 Las pruebas numéricas para detectar la no adecuación del modelo y la varianza no 

constante a veces reaccionan a las observaciones extremas, (un resultado positivo 

podría indicar una observación extrema o la presencia de lo que debía detectar el 

procedimiento numérico). 

Por ejemplo, si existiera un error en las mediciones, la recta se puede afectar 

enormemente, al igual que el coeficiente de determinación, como lo muestra la figura 

1.6. 

Figura 1.6 Influencia de un valor atípico en una ecuación de regresión 

y = 0.14x + 1.4334

R2 = 0.5592

0

1

2

3

4

5

6

0 5 10 15 20 25

 
Utilizar una regla fija para rechazar observaciones extremas da protección contra 

errores groseros, pero puede ocasionar que, aún si todas las observaciones fueran 

buenas y se cumplieran los supuestos iniciales, se rechazará alguna de ellas, lo cual 

incrementaría la varianza de los parámetros estimados. Podría considerarse el 


Capítulo 1 

 
17 

 
porcentaje de incremento de esta varianza como el precio que se paga por la regla de 

rechazo, la cual es una garantía contra observaciones malas. Un tipo posible de regla a 

usar es: 

“Rechazar la observación con el residuo de mayor magnitud y mayor que Cs donde C 

es una constante dada. Si esta observación se rechaza, recalcular todos los residuos y 

S y aplicar la regla nuevamente hasta que no haya más rechazo”. 

Examen gráfico de los residuos contra los valores de iŷ   

Al preparar un gráfico en el cual cada observación está representada por un punto cuya 

ordenada es el residuo y cuya abscisa es el valor estimado iŷ  se pueden detectar los 

siguientes casos: 

1. Los residuos se agrupan en forma de una banda horizontal lo cual no da 

evidencia de fallo de los supuestos hechos. 

2. Los residuos varían en magnitud notablemente al aumentar o disminuir los 

valores de iŷ . Esto indica que la varianza de las observaciones no es constante 

y que se deben utilizar pesos (Mínimos Cuadrados Ponderados) o transformar 

las observaciones y antes de efectuar el análisis de regresión. 

3. Los residuos se relacionan con las iŷ  en forma de parábola o similar. Esto indica 

que el modelo es inadecuado, se necesitan términos extras en el modelo o 

transformaciones de la variable dependiente. 

1.2.2 Prueba de la homogeneidad de varianzas 

El método consiste en calcular un coeficiente de regresión lineal de los 2
i  contra iŷ  

dividido por 2s : 

 

Hs

yy

h

n

i

iii

2

2

1

ˆ








 
(1.17) 


Capítulo 1 

 
18 

 
donde H, en general, es un poco más pequeño que la suma de cuadrados del total 

pero, sin mucho error, puede ser sustituido por ésta. 

Para probar la significación de la desviación de h de cero se utiliza que: 

 
 

 Hpn

pn
hV

2

2






 
(1.18) 

Si h es significativamente diferente de cero se puede elegir la transformación potencia 

py  con el estimado: yhp *5.01  cuando 0p . Si 0p  se considera que la 

transformación a efectuar es  yln . 

1.2.3 Pruebas de normalidad 

Según la cantidad de observaciones n se aplica una de las tres pruebas siguientes: 

 Prueba W  si 503  n  

 Prueba 2W  si 10050  n  

 Prueba de KOLMOGOROV-SMIRNOV (100 < n) 

Entre otras podemos destacar también: 

 Prueba de Kolmogorov-Smirnov con corrección de Lilliefors  

 Prueba de Jarque Bera 

 Prueba de Anderson-Darling 

Todas exigen que lo errores sean colocados en orden creciente tal que 

neee  21  y la de KOLMOGOROV-SMIRNOV requiere además de la definición 

de función de distribución de probabilidad empírica siguiente: 

 














 

n

1k

1

xpara1

para/

x para0







kn xnkXF

 
Capítulo 1 

 
19 

 
Prueba W 

Se calcula el estadígrafo: 

 

  2

2

2

1

1

*

*

Spn

a

W

n

i

iini























 

 (1.19) 

donde los valores de ia  dependen de n y se determinan mediante tablas y la suma se 

extiende sólo hasta la parte entera inferior de 
2

n  debido a la simetría de la tabla. 

Si  WW  se rechaza la hipótesis de normalidad a un nivel de confianza de 

1 . Los valores de W  están también tabulados en la literatura. 

Prueba W2 

Se calcula el estadígrafo: 

     


















 





n

i

ii eFLn
n

i
eFLn

n

i
nW

1

2 1
2

12
1

2

12
2

 
(1.20) 

donde  xF  es la función de distribución de probabilidades teórica, en este caso la 

Normal:    xxF  . 

Si    12 WW  se rechaza la hipótesis de normalidad a un nivel de confianza 

1 . Los valores de W  para 1  desde 0 hasta 0.95 se encuentran en tablas de la 

literatura. 


Capítulo 1 

 
20 

 
Prueba de KOLMOGOROV-SMIRNOV 

Se calcula el estadígrafo:  

   

Rx

xFxFD n



 max

 
(1.21)

 
 y si   DDn  se rechaza la hipótesis de normalidad. Los valores de  D  se 

presentan a continuación: 

   D  

0.01 1.03 

0.05 0.89 

0.10 0.80 

0.20 0.74 

 
Prueba de Kolmogorov-Smirnov con corrección de Lilliefors  

La prueba de Kolmogorov-Smirnov con la modificación de Lillierfors es la más utilizada 

y se considera uno de los test más potentes para muestras mayores de 30 casos. En 

este test la Hipótesis nula Ho: es que el conjunto de datos siguen una distribución 

normal. Y la Hipótesis Alternativa H1: es que no sigue una distribución normal. 

Este test se basa en evaluar un estadístico: 

Dn = ⎟Fn (x) – F(x)⎟ (1.22) 

Fn (x): es la distribución empírica 

F (x): es la distribución teórica, que en este caso es la normal 


Capítulo 1 

 
21 

 
Si el valor del estadístico supera un determinado valor, que depende del nivel de 

significación con el que uno quiera rechazar la hipótesis nula, diremos que esa 

colección de datos no se distribuye según una distribución normal. Lillierfors tabuló este 

estadístico para el caso más habitual en el que desconocemos la media y la varianza 

poblacional y las estimamos a partir de los datos muestrales (SPSS). 

Prueba de Jarque Bera 

El Test de Jarque-Bera es una medida de bondad de ajuste para el análisis de la 

normalidad, basado en la kurtosis y el sesgo. El test estadístico JB es definido como: 

 (1.23) 

donde n es el número de observaciones (o grados de libertad en general); S es la 

muestra del sesgo y K es la muestra de la kurtosis: 

 (1.24) 

 (1.25) 

donde  y  son los estimados de los terceros y cuartos momentos centrales 

respectivamente,  es la media de la muestra y es el estimado del segundo 

momento central, la varianza. 

Una muestra tiene distribución normal si el sesgo es 0 y la kurtosis es 3. Como se 

muestra en la definición de JB, cualquier desviación en estos valores incrementa el 

estadístico JB (Guerra Bustillo 1991). 


Capítulo 1 

 
22 

 
Prueba de Anderson Darling 

La prueba de Anderson-Darling es una prueba no paramétrica sobre si los datos de una 

muestra provienen de una distribución específica, en este caso normal. La fórmula para 

el estadístico A determina si los datos  (observar que los datos se deben 

ordenar) vienen de una distribución con función acumulativa F: 

A2 = − N – S (1.26) 

donde 

 (1.27) 

El estadístico de la prueba se puede entonces comparar contra las distribuciones del 

estadístico de prueba (dependiendo de qué F se utiliza) para determinar el P-valor 

(Wikipedia). 

1.3 Análisis de regresión categórica 

El análisis de regresión categórica se aplica a datos cualitativos con el propósito de 

predecir la probabilidad de ocurrencia de una categoría particular de la respuesta como 

función de una o más variables independientes(Haber 2001). La regresión categórica 

(RegCat) se ha desarrollado como un método de regresión lineal para variables 

categóricas. La regresión categórica cuantifica los datos categóricos mediante la 

asignación de valores numéricos a las categorías, obteniéndose una ecuación de 

regresión lineal óptima para las variables transformadas.  

RegCat extiende la regresión lineal ordinaria, considerando variables continuas, 

ordinales y nominales. Las variables categóricas se cuantifican de manera que ellas 

reflejen las características de las categorías originales, utilizando transformaciones no 

lineales para hallar el modelo que mejor ajuste. Finalmente las variables cuantificadas 

se tratan de la misma forma que las variables continuas (Van der Kooij 1997). 

http://es.wikipedia.org/wiki/Contraste_de_hipÃ³tesis
http://es.wikipedia.org/wiki/EstadÃ­stica_no_paramÃ©trica
http://es.wikipedia.org/wiki/Muestra_aleatoria
http://es.wikipedia.org/wiki/EstadÃ­stico_muestral


Capítulo 1 

 
23 

 
El objetivo fundamental de la regresión categórica con escalamiento óptimo consiste en 

describir las relaciones entre una variable respuesta y un conjunto de variables 

predictoras (De Leeuw 1990). El escalamiento óptimo es un método para encontrar 

valores numéricos óptimos que reemplazan los valores de las categorías, por lo tanto 

transforma los datos categóricos en datos numéricos. En la terminología del 

escalamiento óptimo, a este proceso, se le denomina “cuantificación”. Las 

transformaciones de las variables categóricas se estiman simultáneamente con la 

estimación de los coeficientes de la regresión, usando una alternativa del 

procedimiento de los mínimos cuadrados que maximiza el cuadrado del coeficiente de 

regresión múltiple, para la regresión lineal en las variables transformadas. Como 

resultado de estos criterios de optimización, las transformaciones de escalamiento 

óptimo linealizan la relación entre la respuesta y los predictores. Entonces, el método 

RegCat resulta en variables categóricas transformadas que tienen valores con 

propiedades numéricas óptimas para describir la relación entre la respuesta y los 

predictores. Las cuantificaciones de las variables categóricas por lo general resultan 

una transformación no lineal, que puede ser no monótona o por la aplicación de alguna 

restricción, monótona o lineal. Algunas restricciones se especifican seleccionando un 

nivel de escalamiento óptimo. En la metodología de escalamiento óptimo, las variables 

numéricas se tratan como variables categóricas, con el número de categorías igual al 

número de los diferentes valores de la variable. Seleccionando el nivel de escalamiento 

numérico, para una variable numérica se obtiene una transformación lineal. Incluyendo 

transformaciones lineales, RegCat puede también aplicarse a datos que contienen 

variables numéricas. Una variable numérica puede también ser no linealmente 

transformada, en este caso no se respetará el espacio relativo de los valores de las 

categorías. Luego, el escalamiento óptimo es aplicable a ambas variables categóricas 

(para cuantificar) y para variables numéricas (para transformaciones no lineales) (Van 

der Kooij 2007). 


Capítulo 1 

 
24 

 
El propósito de RegCat es el mismo que cualquier otro análisis de regresión, lo 

interesante es que ella puede aplicarse para aquellas variables, en las que los análisis 

clásicos de regresión fallan. 

1.3.1 Niveles de escalamiento óptimo 

En el proceso de cuantificación ciertas propiedades de los datos se preservan en la 

transformación. Las propiedades que se seleccionan para ser preservadas se 

especifican seleccionando un nivel de escalamiento óptimo para las variables. Es 

importante para realizarlo, que el nivel de escalamiento óptimo es el nivel en el que una 

variable se analiza, el que no necesariamente coincide con el nivel de medición de la 

variable. 

Las propiedades de los datos que se distinguen en el enfoque de la regresión 

categórica son las de grupos, orden e igual espacio relativo. En dependencia del nivel 

de medición (nominal, ordinal o intervalo) las variables tendrán una, dos o todas estas 

propiedades. 

Las variables con nivel de medición nominal solamente tiene propiedades de 

agrupación, esto es, los valores de las categorías solamente sirven para codificar las 

observaciones en clases. Las variables ordinales tienen propiedades de agrupación y 

orden. Las variables con nivel de medición de intervalo (numéricas) tienen todas las 

propiedades. 

Si el investigador desea preservar todas las propiedades de medición de la variable en 

las variables cuantificadas, el nivel de escalamiento debe seleccionarse en 

concordancia con el nivel de medición de la variable. Con nivel nominal, sólo se 

preserva la propiedad de agrupación, el nivel de escalamiento ordinal preserva la 

agrupación y el orden, y el nivel de escalamiento numérico preserva la agrupación, el 

orden e igual espacio relativo. Seleccionando el nivel de escalamiento numérico para 

una variable medida categóricamente implica que en el análisis los valores categóricos 

se tratan como valores numéricos (y cuando todas las variables se tratan 


Capítulo 1 

 
25 

 
numéricamente, RegCat es equivalente a la regresión lineal estándar). La forma de la 

curva, cuando se grafican los valores cuantificados contra los valores de las categorías, 

está relacionada con el nivel de escalamiento: con nivel de escalamiento nominal la 

curva de transformación puede descender debido a que el ordenamiento de los valores 

cuantificados no necesitan ser el mismo que el de los valores de la categoría original. 

Para el nivel de escalamiento ordinal, el ordenamiento de los valores cuantificados y de 

los valores de la categoría original es el mismo, resultando una curva de transformación 

monótona. El nivel de escalamiento numérico resulta una línea recta, debido a que los 

intervalos entre las cuantificaciones por categorías consecutivas son proporcionales a 

los intervalos entre los valores de categoría. 

El nivel de escalamiento, y por tanto la forma de la curva de transformación, está 

también relacionado con el número de grados de libertad de la transformación, y por 

tanto al ajuste del modelo. Las transformaciones con más libertad resultan 

transformaciones menos suaves y ajustan mejor, mientras que transformaciones más 

restrictivas son más suaves pero los resultados ajustan menos. De manera que, existe 

un equilibrio entre las propiedades de preservación de los datos y la preservación de la 

información relacional en los datos: restringiendo las transformaciones, preservando 

más propiedades de los datos, se alcanza un costo de ajuste y se pierde información 

relacional. La transformación con el máximo de libertad es el resultado a partir del nivel 

de escalamiento nominal, donde el número de grados de libertad es igual al número de 

categorías menos uno. El nivel de escalamiento ordinal requiere una restricción de 

orden sobre las cuantificaciones categóricas, resultando el número de grados de 

libertad igual al número de categorías con diferentes valores cuantificados menos uno. 

El escalamiento numérico impone una restricción de intervalo adicional a la restricción 

de orden y tiene un grado de libertad. 

El nivel de escalamiento nominal y el ordinal dan lugar a transformaciones que son 

funciones paso, la cuales son adecuadas para variables con un número pequeño de 

categorías. Para variables con un número más grande de categorías, las funciones 

spline son más apropiadas, entre estas distinguimos splines no monótonos para 


Capítulo 1 

 
26 

 
transformaciones no ordenadas y splines monótonos para transformaciones ordenadas. 

Las funciones spline son funciones polinomiales por trozos, las cuales son más 

restrictivas que las funciones paso, dando lugar a curvas de transformación más 

suaves, pero con un ajuste menor. Para obtener una transformación spline, el rango de 

la variable se divide en un número de intervalos, igual al número de nodos especificado 

menos uno. Los nodos son los puntos extremos de los intervalos. Entonces las 

funciones polinomiales de un grado específico se ajustan en cada intervalo y se 

empatan en cada nodo. La suavidad y el número de grados de libertad de una curva de 

transformación spline depende del número de nodos y del grado de las funciones 

polinomiales(Van der Kooij 2007). 

En términos de restricciones, o sea, de suavidad de la curva de transformación y 

ajuste, la transformación spline no monótona está entre una nominal y una 

transformación lineal. Con número de nodos interiores igual al número de categorías 

menos dos y usando un polinomio de primer grado, la transformación spline es la 

misma que la transformación nominal. Con el número de nodos interiores igual a cero y 

con un polinomio de primer grado, la transformación spline es la misma que la 

transformación lineal. De la misma manera, una transformación spline monótona está 

entre una ordinal y una transformación lineal. 

Lo expresado en el párrafo anterior se ilustra en la figura 1.7 que se muestra a 

continuación, la cual muestra la gráfica de transformación de la variable dependiente 

Diagnóstico de Expertos (DiagExp), que tiene tres categorías: (1-normotenso, 2-

hiperreactivo, 3-hipertenso) y la variable independiente categórica Edad de los 

Pacientes (Edad). A la variable dependiente se le fijó el nivel de medición ordinal 

mientras que a la independiente se le variaron los niveles de medición. 

Con el nivel de medición nominal aplicada a la variable independiente se obtiene una 

curva bastante dentada (Figura 1.7.1). En el mismo se puede apreciar que ambas 

variables que a medida que se incrementan alcanzan valores máximos. El 2R  que se 

obtiene es igual a 0.128. Al aplicar una transformación spline no monótona (2do grado 


Capítulo 1 

 
27 

 
con 10 nodos interiores) las irregularidades son más suaves (Figura 1.7.2), mucho más 

si se tienen dos nodos interiores (Figura 1.7.3). Los 2R  para estos casos son 0.088 y 

0.081 respectivamente. Obsérvese que el 2R  disminuye en la medida en que el nivel 

de escalado utilizado conserva más propiedades. 

Como las transformaciones ordinales se obtienen mediante el average de las 

cuantificaciones nominales que están en el orden equivocado, la aplicación de niveles 

de escalamiento ordinales da lugar a transformaciones que restringen todos los valores 

cuantificados en forma de mesetas (Figura 1.7.4). El 2R  que se obtiene en esta 

transformación es 0.094. Cuando se aplica una transformación monótona (2 grados con 

10 nodos interiores) muchas de las mesetas desaparecen (Figura 1.7.5) y con 2 grados 

y 2 nodos interiores la transformación es casi lineal (Figura 1.7.6). Los valores de los 

2R  en estos casos son 0.085 y 0.078(Van der Kooij 2007). En la figura 1.7.7 se 

muestra la transformación con nivel de escalado numérico. El 2R  que se obtiene es 

0.073. En todas estas gráficas de observa que a medida que se gana en suavidad se 

pierde en ajuste. 


Capítulo 1 

 
28 

 
Figura 1.7 Gráfica de transformación de la variable dependiente DiagExp, y la variable 

independiente categórica Edad. 

 
1.3.2 Estimación de las Transformaciones 

En el método de regresión categórica, el modelo de regresión y las cuantificaciones se 

estiman simultáneamente en un proceso iterativo usando los mínimos cuadrados 

alternantes. El algoritmo alterna entre la estimación de la transformación de la variable 

respuesta y la estimación de las transformaciones y regresión ponderada de las 


Capítulo 1 

 
29 

 
variables predictoras. La transformación de la respuesta en una iteración se estima a 

partir de la combinación lineal de los predictores transformados desde las iteraciones 

previas. 

Las cuantificaciones nominales son el punto de partida (y el punto final si el nivel de 

escalamiento es nominal) en la estimación de las cuantificaciones restringidas. La 

cuantificación nominal para una categoría es la media de los valores predictores de la 

categoría cuando se estima la respuesta y la media de los residuos parciales de las 

categorías cuando se estima el predictor. Si el nivel de escalamiento no es nominal, 

estas cuantificaciones se restringen según sea el nivel de escalamiento. La restricción 

se impone aplicando la regresión ponderada (ponderando con las frecuencias de las 

categorías) de las cuantificaciones nominales, en los valores de las categorías para el 

nivel de escalamiento ordinal y numérica, y en I-spline base(Ramsay 1988) para las 

transformaciones spline, con restricciones no negativas para los splines monótonos. 

Para el nivel de escalamiento ordinal, se usa la regresión monótona ponderada, la cual 

se reduce al promedio ponderado de las cuantificaciones nominales de las categorías 

que están en el orden equivocado. Con nivel de escalamiento numérico, los valores de 

las categorías se convierten en scores estándar, lo cual es equivalente a la regresión 

lineal ponderada de las cuantificaciones nominales en los valores de las categorías. 

Finalmente, la variable cuantificada se normaliza, y se estima el coeficiente de 

regresión para una variable predictora. En el método RegCat una transformación 

monótona es siempre creciente con los valores de las categorías. Si el nivel de 

escalamiento de un predictor es ordinal o spline monótono, y la relación con la 

respuesta (después de quitar la influencia de otros predictores) es decreciente de 

manera monótona, entonces el coeficiente de regresión será negativo(Van der Kooij 

2007). 

1.3.3 Formulación del modelo de regresión categórica  

La regresión lineal múltiple es una técnica que estudia la relación lineal entre la variable 

respuesta y un conjunto de variables predictoras. La regresión categórica múltiple es 


Capítulo 1 

 
30 

 
una técnica no lineal, donde la no linealidad radica en las transformaciones de las 

variables. El modelo de la regresión categórica es el modelo de la regresión lineal 

clásica, aplicado a las variables transformadas: 

   



J

j

ejxjjyr
1



 
(1.28) 

con la función de pérdida: 

     
2

1

11 ,;,,, 



J

j

jjjrjjr xyL    (1.29) 

…donde: J es el número de variables predictoras, 

y  representa la variable respuesta observada o discretizada, 

jx  representa las variables predictoras observadas o discretizadas, 

j  los coeficientes de regresión, 

r  las transformaciones de la variable respuesta, 

j  las transformaciones de las variables predictoras y e el vector error. 

Todas las variables son centradas y normalizadas para obtener la suma de los 

cuadrados igual a N , y 
2

 representa el cuadrado de la norma euclidiana. 

La forma de las transformaciones depende del nivel de escalamiento óptimo, el cual 

puede seleccionarse para cada variable por separado y es independiente del nivel de 

medición. El nivel de escalamiento define qué parte de la información que está en la 

variable observada o discretizada (según sea el nivel de medición) se retiene en la 

transformación de la variable. Con nivel de escalamiento numérico, los valores de la 

categoría de una variable se tratan como cuantitativos. Entonces toda la información se 


Capítulo 1 

 
31 

 
retiene y la única transformación aplicada es la estandarización, resultando una 

transformación lineal. Luego, cuando para todas las variables se aplica el nivel de 

escalamiento numérico, el resultado de la RegCat es igual al resultado de la regresión 

lineal múltiple con las variables estandarizadas. 

Con niveles de escalamiento no numérico, los valores de las categorías se tratan como 

cualitativos, y se transforman en valores cuantitativos. En este caso, alguna parte de la 

información en la variable observada o discretizada se pierde. 

Con nivel ordinal o spline monótono, la información de intervalo se pierde y solamente 

la información de grupo y orden se retienen, así se posibilita una transformación 

monótona. Con nivel nominal y spline no monótono sólo la información de agrupación 

tiene que conservarse, dando lugar a una transformación no monótona. 

Aplicando niveles de escalamiento no lineales, las relaciones no lineales entre la 

variable respuesta y las variables predictoras se linealizan, por lo tanto el modelo de 

regresión lineal del término es todavía aplicable. 

1.3.4 Algoritmo para la regresión categórica 

En RegCat las variables observadas o discretizadas se codifican en una matriz 

indicadora mG  de tamaño mCN  , donde N es el número de observaciones y mC  

representa el número de categorías de la variable ,,,1, Mmm   donde M es el 

número total de variables. 

Una entrada  micg  de mG , donde mCc ,,1 , es 1 si la observación i  está en la 

categoría c de la variable m  y 0 en otro caso. 

Entonces las variables transformadas pueden escribirse como el producto de la matriz 

indicadora mG y el mC - vector de las cuantificaciones categóricas mv : 

    jvjGjxjrvrGyr    (1.30) 


Capítulo 1 

 
32 

 
donde rv  es el vector de las categorías cuantificadas de la variable respuesta, y jv  el 

vector de categorías cuantificadas para una variable predictora. Luego, el modelo de 

RegCat con las variables transformadas escrito en términos de matrices indicadoras y 

categorías cuantificadas es: 

evGvG
J

j

jjjrr 
1

  (1.31) 

Con la función de pérdida mínimos  cuadrados asociada: 

 
2

1

11 ,;,,; 



J

j

jjjrrjjr vGvGvvvL    (1.32) 

La función de pérdida (1.32) se minimiza por el algoritmo de mínimos cuadrados 

alternantes, que alterna entre la cuantificación de la variable respuesta por un lado, y la 

cuantificación de las variables predictoras y estimación de los coeficientes de regresión 

por el otro. 

Primero se inicializan las cuantificaciones y los coeficientes de regresión. RegCat tiene 

dos formas de inicialización: aleatoria y numérica. Una inicialización aleatoria usa 

valores aleatorios estandarizados para las cuantificaciones iniciales, y los coeficientes 

de regresión iniciales son las correlaciones de orden cero de la variable respuesta 

cuantificada aleatoriamente con las variables predictoras cuantificadas de manera 

aleatoria. Con una inicialización numérica los valores se obtienen a partir de un análisis 

con nivel de escalamiento numérico para todas las variables. 

En el primer paso del algoritmo, las cuantificaciones de las variables predictoras y los 

coeficientes de regresión se mantienen fijos. Con nivel de escalamiento numérico las 

cuantificaciones rv  de la variable respuesta son los valores de las categorías de la 

variable observada o discretizada centrada y normalizada. 


Capítulo 1 

 
33 

 
Con nivel de escalamiento no numérico las cuantificaciones son actualizadas en la 

siguiente forma: 




 

J

j

jjjrrr vGGDv

1

1~   (1.33) 

donde rrr GGD  . Las cuantificaciones rv~  son las cuantificaciones no estandarizadas 

para el nivel de escalamiento nominal. Para los niveles ordinal, no monótono o spline 

monótono, se aplica una restricción para rv~ , en relación con el nivel de escalamiento, 

produciendo 
rv . Por tanto, rr vv ~ para el nivel de escalamiento nominal, y 

 arestringidvv rr
~  para los niveles ordinales y spline. Entonces 

rv  se estandariza: 

  2/12/1   rrrrr vDvvNv  (1.34) 

En el segundo paso del algoritmo, las cuantificaciones de la variable respuesta se 

mantienen fijas, y las cuantificaciones jv  de las variables predictoras con nivel de 

escalamiento no numérico, y los coeficientes de regresión se actualizan para cada 

variable al mismo tiempo. El enfoque trabaja como sigue. Primero se calcula el 

vectorN  de los valores predichos: 






J

j

jjj vGz

1

  (1.35) 

Para actualizar las cuantificaciones de la variable j , la contribución de la variable j  a 

la predicción (la combinación lineal ponderada de los predictores transformados) se 

sustrae de z: 

jjjj vGzz 
 

 (1.36) 


Capítulo 1 

 
34 

 
Las cuantificaciones no restringidas se actualizan de la manera siguiente: 

   jrrjjjj zvGGDsignv  1~ 
 

(1.37)
 

Para variables con nivel de escalamiento no numérico jv~  se restringe según sea el 

nivel de escalamiento, y se normaliza como en (1.34), produciendo 
jv . Para variables 

con nivel de escalamiento numérico, 
jv  contiene los valores de las categorías de los 

datos observados o discretizados centrados y estandarizados. Luego los coeficientes 

de regresión j  se actualizan: 

  jjjj vDvN ~1
 

(1.38) 

Luego, la contribución actualizada de la variable j  para la predicción se adiciona a jz : 

 jjjj vGzz  , (1.39) 

y el algoritmo continúa con la actualización de la cuantificación para la próxima variable 

predictora, hasta que todos los predictores sean actualizados. 

Los valores perdidos se calculan como 
2

zvG rr  . Estos dos pasos se repiten hasta 

que se alcance el criterio de convergencia especificado por el usuario. 

Para el nivel de escalamiento ordinal, se usa la regresión monótona ponderada de las 

cuantificaciones nominales en la variable observada o discretizada. Para la restricción 

en relación con los niveles de escalamiento spline se usa la regresión ponderada de las 

cuantificaciones nominales en un I-spline base(Ramsay 1988), con restricciones no 

negativas adicionales para el nivel de escalamiento spline monótono. En este punto, 

pudiera ocurrir una complicación adicional. Una restricción creciente de manera 

monótona puede a veces dar lugar a una variable transformada con valores constantes. 


Capítulo 1 

 
35 

 
Por ejemplo, cuando los valores de v~  son decrecientes de manera monótona, excepto 

para el primer y el último valor, las cuantificaciones restringidas son la media de v~  para 

todas las categorías. En este caso, la transformación en una constante puede evitarse 

dando lugar a una función monótona decreciente(Van der Kooij 2007). 

1.4 Consideraciones finales del capítulo 

En este capítulo se han presentado de manera resumida, los conceptos fundamentales 

del análisis de regresión lineal. Se describe la fundamentación matemática del análisis 

de regresión lineal simple y se muestran las ideas esenciales de su generalización a la 

regresión lineal múltiple. 

Se dedica un epígrafe al análisis de la validez de la ecuación obtenida. Se muestran 

pruebas gráficas y analíticas para verificar la validez de los supuestos. 

Finalmente se presenta el método de regresión categórica. Se formula el modelo y se 

describen los niveles de escalado. El capítulo culmina con la exposición del algoritmo 

de regresión categórica y la descripción matemática de sus dos pasos fundamentales. 


Capítulo 2 

 
36 

 
2. Implementaciones sobre el Mathematica 

En este capítulo se explican brevemente las implementaciones realizadas en el 

paquete Mathematica. 

2.1 La entrada de los datos 

Para la entrada se tienen dos ficheros texto, uno con el nombre de cada variable y su 

escalado y el otro con los valores de cada variable en cada observación. Existen cinco 

tipos de escalados posibles: 

Numérico Num 

Ordinal Ord 

Spline ordinal SO(g,ni) 

Nominal Nom 

Spline nominal SN(g,ni) 

En el caso de los Spline, “g” es el grado del polinomio y “ni” el número de nodos o 

puntos interiores. El SPSS trae por defecto que el grado del polinomio es dos y el 

número de nodos interiores es dos también. Estos dos tipos de escalado (Spline 

Ordinal y Nominal) se recomiendan cuando hay muchas categorías en una variable con 

nivel de medición Ordinal o Nominal respectivamente. 

A continuación se muestra cómo quedaría el primer fichero para un subconjunto de 

datos tomados del estudio realizado en la ciudad Santa Clara sobre la Hipertensión 

Arterial (HTA) en personas adultas. 

Ejemplo del fichero 1: 

Edad Num 

Peso Num 

Talla Num 

Sexo Num 

Raza Num 

DiastBasal Num 


Capítulo 2 

 
37 

 
SistMin1 Num 

Asma Num 

SistBas Num 

Luego se crea una matriz cuyos datos se leen de otro fichero texto que sólo contiene 

números. La matriz de datos tiene una columna de números por cada una de las 

variables previamente definidas: 

Edad Peso Talla Sexo Raza DiastBasal SistMin1 Asma SistBas 

Ejemplo del fichero 2: 

18 70 1.67 2 1 90 155 2 135 

55 68 1.74 2 1 85 160 2 160 

49 70 1.66 2 2 90 150 2 150 

47 75 1.64 1 2 80 130 2 120 

73 93 1.66 2 1 90 160 2 160 

49 93 1.83 2 1 105 150 2 140 

57 64 1.50 1 1 100 160 2 150 

23 51 1.51 1 1 90 140 1 130 

44 90 1.66 2 1 90 150 2 140 

43 91 1.64 2 1 100 150 2 140 

Estos dos ficheros son los parámetros de la función RegCatNum una vez que se carga 

dicho paquete. Para la entrada de los datos se utilizó la función Import[“file”] la cual 

importa datos del fichero “file” especificado como parámetro en la función RegCatNum 

a través de su camino.  

                              
El contenido de dat1 en este caso particular sería: 

                                                                                      
Para un fácil acceso a los datos, esta entrada se requirió de forma “Table” quedando 

almacenado en la variable dat1 una lista de listas. 


Capítulo 2 

 
38 

 
Si se desea ver los datos de la forma original con la función TableForm[ ], 

                se logra: 

 
De la misma manera se cargan los datos del segundo fichero, encabezando la matriz 

con las variables del primer fichero. La forma de matriz se le da a través de la función 

MatrixForm[ ] y para el encabezado se utiliza la opción TableHeadings, guardándose 

previamente en la variable l los nombres de las variables que aparecen en el fichero 1 

mediante un ciclo: 

                                        
Obteniéndose entonces: 

 
En caso de haber errores, o sea, la cantidad de columnas no coincide con la cantidad 

de variables reportadas o faltan datos en la matriz, se imprime mediante la función 

Print[ ] un cartel de “Error en datos”. 


Capítulo 2 

 
39 

 
2.2 Análisis de regresión lineal múltiple 

El software Mathematica contiene un paquete para hacer análisis de regresión. En la 

versión que actualmente se trabaja: 8.0, Regress (nombre de la función que realizaba 

la regresión lineal en el paquete LinearRegress) ha sido reemplazada por 

LinearModelFit, la cual está incorporada al Kernel del Mathematica, por lo que ya no es 

necesario cargar el paquete con anterioridad. 

                             
El resultado se retorna como el objeto FittedModel que representa el modelo lineal 

construido. Este contiene un conjunto de propiedades, como se muestra a 

continuación: 

                                   
Para obtener la forma funcional del objeto FittedModel, se usa Normal: 

            
La función Normal encuentra el ajuste de los mínimos cuadrados a una lista de datos 

como una combinación linear de la funciones base especificadas, tal y como se explicó 

en el capítulo 1. Las funciones bases    son las que especifican a las predictoras como 

funciones de las variables independientes 

Usando LinearModelFit 

Existen tres formas de llamar a la función LinearModelFit, pero la que se implementa 

en este caso está estructurada de la siguiente manera: 

LinearModelFit[{{x11,x12,…,y1},{x21,x22,…,y2},…},{f1,f2,…},{x1,x2,…}]: 

Construye un modelo lineal de la forma   donde las  dependen de 

las variables . 

http://reference.wolfram.com/mathematica/ref/LinearModelFit.html
http://reference.wolfram.com/mathematica/ref/FittedModel.html
http://reference.wolfram.com/mathematica/ref/LinearModelFit.html


Capítulo 2 

 
40 

 
LinearModelFit produce un modelo lineal de la forma   bajo la 

suposición de que los  originales están independientemente distribuidos normalmente 

con media  y desviación estándar común. 

Si se utiliza el subconjunto de datos presentados en el epígrafe 2.1 para el análisis de 

regresión lineal: 

  
donde variables contiene todas las variables predictoras consideradas para este caso 

particular (ocho variables independientes), se obtiene como resultado el modelo lineal 

construido que se muestra en la figura 2.1: 

Figura 2.1 Ecuación de regresión usando el LinearModelFit del paquete Mathematica 

 
Algunas de sus propiedades más importantes se explican y muestran a continuación. 

2.2.1 Propiedades del LinearModelFit relacionadas con la suma de los 

cuadrados de los errores: 

 ANOVATable: Tabla de Análisis de varianza. La construcción de esta tabla 

quedó explicada en el capítulo 1. 

Como propiedades también, se tienen las opciones de la Tabla ANOVA por separado: 

 ANOVATableDegreesOfFreedom: Grados de libertad a partir de la Tabla 

ANOVA. 

 ANOVATableFStatistics: Estadístico F de la tabla. 

 ANOVATableMeanSquares: Cuadrado de la media de los errores de la tabla. 

 ANOVATablePValues: p-valores de la tabla. 

http://reference.wolfram.com/mathematica/ref/LinearModelFit.html


Capítulo 2 

 
41 

 
 ANOVATableSumsOfSquares: Suma de los cuadrados de la tabla. 

La figura 2.2 muestra la Tabla ANOVA resultante del análisis realizado al ejemplo 

anterior, usando la propiedad : 

Figura 2.2 Tabla ANOVA 

 
2.2.2 Propiedades del LinearModelFit relacionadas con los parámetros 

A continuación se describen las propiedades que están relacionadas con los 

parámetros y con su estimación: 

 ParameterTable: Tabla que contiene información de los parámetros ajustados.  

Como propiedades también, se tienen las opciones de la Tabla de parámetros por 

separado: 

 BestFitParameter: Parámetros estimados. 

 ParameterErrors: Errores estándar para parámetros estimados. 

 ParameterPValues: p-valores para parámetros t-estadísticos. 

 ParameterTStatistics: t-estadísticos para parámetros calculados. 

La figura 2.3 contiene la información de la tabla de parámetros resultante del análisis 

realizado al ejemplo anterior, usando la propiedad : 


Capítulo 2 

 
42 

 
Figura 2.3 Tabla de los parámetros 

 
2.2.3 Propiedades del LinearModelFit que miden la bondad de ajuste 

Este conjunto de propiedades es sumamente importante porque nos da un criterio de la 

calidad de la ecuación hallada. Entre los más importantes se tienen: 

 RSquared: Coeficiente de Determinación R2. 

 AdjustedRSquared: Coeficiente de determinación R2 ajustado para el número 

de parámetros del modelo. 

 AIC: Criterio de Información Akaike. 

La figura 2.4 muestra los valores del Coeficiente de Determinación R2, R2 Ajustado y 

Criterio de Información Akaike (AIC) resultante del análisis realizado al ejemplo 

anterior, usando la propiedades , , : 

Figura 2.4 Propiedades de bondad de ajuste 

 
 DurbinWatsonD, estadístico para detectar si existe o no autocorrelación entre 

los residuos. 


Capítulo 2 

 
43 

 
El valor del estadístico Durbin Watson retornado del análisis realizado al ejemplo 

anterior, usando esta propiedad del LinearModelFit,  aparece 

calculado en la figura 2.5. 

Figura 2.5 Resultados del test de Durbin Watson 

 
2.3 Verificación de los supuestos 

Para la verificación de supuestos, el Mathematica 8.0 contiene un paquete llamado 

“Hypothesis Test”, que cuenta con varios tests de Bondad de Ajuste para el tratamiento 

de los datos. Tiene entre otras funciones, aquellas que prueban si un conjunto de datos 

está distribuido normalmente o no. 

2.3.1 Prueba de Kolmogorov Smirnov 

KolmogorovSmirnovTest [data]: Prueba si los datos “data” están distribuidos 

normalmente usando el test de Kolmogorov-Smirnov. 

A continuación se especifican algunas de sus propiedades: 

 Por defecto se devuelve el p-valor. 

 Los datos pueden ser univariados  o multivariados 

{{x1,y1,…},{x2,y2,…},…}. 

 Asume que los datos vienen de una distribución continua. 

 Usa de forma eficaz el estadístico basado en   

 Para pruebas multivariadas, se usa la media de la prueba estadística marginal 

univariada. Los p-valores se calculan usando simulación de Monte Carlo. 

 El nivel de significación que tiene por defecto es 0.05, pero se puede modificar 

utilizando la opción SignificanceLevel. 

 
http://reference.wolfram.com/mathematica/ref/KolmogorovSmirnovTest.html
http://reference.wolfram.com/mathematica/ref/KolmogorovSmirnovTest.html


Capítulo 2 

 
44 

 
 Se puede usar el método Monte Carlo a través de la opción Method  

Method->"MonteCarlo". 

Si se utiliza como ejemplo la data que se mostró en el epígrafe 2.1 muestra el siguiente 

resultado: 

Figura 2.6 Resultados del test de Kolmogorov - Smirnov 

 
Como se puede observar, este subconjunto de datos escogidos al azar no presentan 

distribución normal según el Test de Kolmogorov-Smirnov. 

Usando el método Monte Carlo a través de la opción Method retorna un valor parecido, 

que se muestra en la figura 2.7: 

Figura 2.7 Resultados del test de Kolmogorov – Smirnov usando Monte Carlo 

 
Debe tenerse en cuenta que la prueba de Kolmogorov-Smirnov es muy buena para 

muestras grandes. Recuérdese que este es un caso de ejemplo en el que sólo se 

cuenta con diez observaciones. 

2.3.2 Prueba de Jarque Bera 

JarqueBeraALMTest [data]: Prueba si data está distribuida normalmente usando el Test 

de Jarque Bera ALM. 

A continuación se especifican algunas de sus propiedades: 

 Por defecto se devuelve el valor de p. 

 Los datos pueden ser univariados  o multivariados 

{{x1,y1,…},{x2,y2,…},…}. 

http://reference.wolfram.com/mathematica/ref/Method.html
http://reference.wolfram.com/mathematica/ref/JarqueBeraALMTest.html


Capítulo 2 

 
45 

 
 Compara con eficacia la asimetría y la kurtosis de los datos para una distribución 

normal. 

 Para datos univariados la prueba estadística está dada por: 

  
Donde ,  y  los factores de corrección para 

muestras de tamaño finito dado por , , 

y  

 Para pruebas multivariadas, se usa la media de la prueba estadística del 

marginal univariado. Los valores de p son calculados usando la simulación de 

Monte Carlo. 

 El nivel de significación que tiene por defecto es 0.05, controlado por la opción 

SignificanceLevel. 

 Se puede usar el método Monte Carlo a través de la opción Method  

Method->"MonteCarlo". 

Analizando el caso anterior mediante esta prueba se obtiene el siguiente resultado: 

Figura 2.8 Resultados del test de Jarque - Bera 

 
Como se puede ver, el Jarque-Bera sí muestra normalidad en los residuos, al igual que 

con el método Monte Carlo (figura 2.9): 

Figura 2.9 Resultados del test de Jarque – Bera usando Monte Carlo 

 
http://reference.wolfram.com/mathematica/ref/Method.html


Capítulo 2 

 
46 

 
2.3.3 Prueba de Anderson Darling 

AndersonDarlingTest [data]: Prueba si data está distribuida normalmente usando el test 

de Anderson–Darling. 

A continuación se especifican algunas de sus propiedades: 

 Por defecto se devuelve el valor de p. 

 Los datos pueden ser univariados  o multivariados 

{{x1,y1,…},{x2,y2,…},…}. 

 Asume que los datos vienen de una distribución continua. 

 Usa de manera eficaz el estadístico basado en: 

 
donde Expectation[expr,x ≈ dist] es una función del Mathematica que brinda la 

expectativa de expr bajo la suposición de que x sigue una distribución de 

probabilidad dist. 

 Para datos univariados, la prueba estadística está dada por: 

 
…donde y1<…<yn son los datos ordenados. 

 Para pruebas multivariadas, se utiliza la media de la prueba estadística del 

marginal univariado. Los valores de p se calculan usando simulación de Monte 

Carlo. 

 El nivel de significación que tiene por defecto es 0.05, controlado por la opción 

SignificanceLevel. 

  Se puede usar el método Monte Carlo a través de la opción Method 

Method->"MonteCarlo". 

http://reference.wolfram.com/mathematica/ref/AndersonDarlingTest.html
http://reference.wolfram.com/mathematica/ref/Method.html


Capítulo 2 

 
47 

 
La prueba de Anderson-Darling también muestra que los residuos están distribuidos 

normalmente aunque con un valor poco por encima del 5 %. 

Figura 2.10 Resultados del test de Anderson – Darling  

 
Ocurre parecido al usar el método Monte Carlo (figura 2.11): 

Figura 2.11 Resultados del test de Anderson – Darling usando Monte Carlo 

 
2.3.4 Prueba de Shapiro Wilk 

ShapiroWilkTest [data]: Prueba si los datos (data) están distribuidos normalmente 

usando el Test de Shapiro-Wilk. 

A continuación se especifican algunas de sus propiedades: 

 Por defecto se devuelve el valor de p. 

 Los datos pueden ser univariados  o multivariados 

{{x1,y1,…},{x2,y2,…},…}. 

 Compara con eficacia el orden estadístico de los datos con el orden estadístico 

de una Distribución Normal. 

 El nivel de significación que tiene por defecto es 0.05, controlado por la opción 

SignificanceLevel. 

  Se puede usar el método Monte Carlo a través de la opción Method 

 Method->"MonteCarlo". 

http://reference.wolfram.com/mathematica/ref/ShapiroWilkTest.html
http://reference.wolfram.com/mathematica/ref/Method.html


Capítulo 2 

 
48 

 
Los residuales del ejemplo anterior presentan distribución normal nuevamente, esta vez 

con la prueba Shapiro Wilk. Aquí ocurre parecido a la prueba anterior (Anderson-

Darling) como se muestra a continuación en la figura 2.12: 

Figura 2.12 Resultados del test de Shapiro Wilk  

 
Usando el método Monte Carlo se obtiene el siguiente valor: 

Figura 2.13 Resultados del test de Shapiro Wilk usando Monte Carlo 

 
Por lo que se concluye que este modelo de ejemplo es válido tras la verificación de 

supuestos realizada anteriormente. 

2.4 Implementación de la regresión categórica sobre el Mathematica 

La regresión categórica (RegCat) se ha desarrollado como un método de regresión 

lineal para variables categóricas. Ella cuantifica los datos categóricos mediante la 

asignación de valores numéricos a las categorías, obteniéndose una ecuación de 

regresión lineal óptima para las variables transformadas. A continuación se explica 

paso a paso el desarrollo del algoritmo que se creó como paquete para el Mathematica. 

En RegCat las variables observadas o discretizadas se codifican en una matriz 

indicadora mG  de tamaño mCN  , donde N es el número de observaciones y mC  

representa el número de categorías de la variable ,1,,1,  Jmm   siendo 1J  el 

número total de variables. Para crear dichas matrices, es necesario determinar la 

cantidad de categorías diferentes C que tiene la variable m, esto se desarrolla mediante 

un ciclo repetitivo para obtener la información necesaria (datos) de cada variable: 

For[m=1,m<=length1,m++, 


Capítulo 2 

 
49 

 
For[n=1,n<=length3,n++, 

data=List[dat2[[n,m]]]; 

col=Join[col,data];  

]; 

Se hace un recorrido por columnas (primer For) y por filas (segundo For) para ir 

tomando los datos de cada columna (cada variable) de la matriz que se creó a partir de 

la lectura realizada previamente al segundo fichero explicado en el epígrafe 2.1. En 

data se guarda elemento a elemento los datos de cada variable y luego se almacenan 

en col mediante la función Join[ ] hasta obtener la columna completa para cada 

iteración.    

Entonces a la variable cat se le asignan los valores de las distintas categorías que tiene 

cada variable en cada iteración a través de la función Union[ ], la cual a su vez las 

ordena en orden ascendente: 

     
 Una vez obtenida esa información se inicializa la correspondiente matriz indicadora 

con 0 en todas las celdas almacenándose  en la variable gm como se muestra en la 

siguiente línea de código:  

  
… donde la variable length3 (# de filas ) tiene como valor la cantidad de observaciones 

y Length[cat] (# de columnas) devuelve la cantidad de categorías de la variable m. Se 

usa la función SparseArray[ ] ya que esta toma por defecto valores 0 cuando no se le 

especifican los elementos y Normal[ ] muestra la matriz común correspondiente al 

objeto del SparseArray. 

Una entrada  micg  de mG , donde mCc ,,1 , es 1 si la observación i  está en la 

categoría c de la variable m  y 0 en otro caso. Este proceso se desarrolla mediante un 

ciclo iterativo recorriendo por filas la matriz gm verificando, para cada elemento de la 


Capítulo 2 

 
50 

 
variable m, en cuál posición de entre las categorías se encuentra, logrando así insertar 

el valor “1” en dicha posición. Lo anterior se muestra a continuación: 

For[i=1,i<=length3,i++, 

x=col[[i]]; 

gm[[i,Last[First[Position[cat,x]]]]]=1  ]; 

Position[ ] es una función del Mathematica que dada una lista y un elemento de la 

misma, devuelve su/s posición/es. Se utilizan las funciones Last[ ] y First[ ] para 

eliminar las llaves ({{ }}) que retorna la función Position[ ] para mostrar la posición del 

elemento. 

Es necesario salvar la matriz indicadora que se crea para la variable m en cada 

iteración, para esto se inicializa una lista vacía (listaGm = { }) y se utiliza la función  

Join[ ] que va concatenando las matrices en dicha lista: 

  
Una vez terminado el ciclo, la lista listaGm contiene todas las matrices indicadoras Gm. 

Aclarar que se salvan en una lista para un mejor acceso en usos posteriores. La figura 

2.14 muestra las matrices indicadoras creadas para las variables del ejemplo anterior: 

Figura 2.14 Matrices indicadoras 

 
Luego se procede a inicializar las cuantificaciones y los coeficientes de regresión. Los 

valores iniciales se obtienen a partir de un análisis con nivel de escalamiento numérico 


Capítulo 2 

 
51 

 
para todas las variables por lo que se estandarizan. A continuación se muestra como 

se realiza este proceso de inicialización del vector de cuantificaciones vm: 

 
El Mathematica presenta la función Standardize[ ] a la cual se le pasa una lista y esta 

es estandarizada mediante el método Zscore. Recordar que col contiene una lista con 

los elementos de cada columna (de cada variable). 

 Cada columna se estandariza y se salva en scolst a la cual se le aplica una unión a 

través de la función Union[ ]. Esta función devuelve una lista ordenada de todos los 

distintos elementos que aparecen en la lista pasada como argumento, en este caso col, 

obteniéndose de esta forma las distintas categorías para cada variable m ya 

estandarizadas, las cuales se guardan en la variable vms. Luego, cada lista se salva en 

una lista vm para obtener finalmente el vector de cuantificaciones. 

Los coeficientes de regresión iniciales son las correlaciones de orden cero de la 

variable respuesta cuantificada con las variables predictoras. El Mathematica presenta 

la función Correlation[ ] la cual brinda la correlación entre dos vectores o listas. La 

variable scol contiene los vectores cuantificados de cada variable por lo que este 

proceso se realiza de la siguiente manera: 

 
Capítulo 2 

 
52 

 
Ahora se aplica el método de los mínimos cuadrados alternantes cuyo modelo a 

minimizar es, como se ha visto antes: 

 
2

1

11 ,;,,; 



J

j

jjjrrjjr vGvGvvvL  

 
…donde L se minimiza alternando entre dos pasos. En el primer paso del algoritmo, las 

cuantificaciones de las variables predictoras y los coeficientes de regresión se 

mantienen fijos y se actualiza el vector de cuantificaciones de la variable respuesta 

como sigue: 

  
La variable length1 contiene el # de variables del modelo, vm es el vector de 

cuantificaciones de todas las variables previamente inicializado y como la variable 

dependiente se encuentra en la última posición (formato establecido al inicio del 

capítulo), se le asigna a la variable vr el vector de las cuantificaciones de la variable 

dependiente Y. Con nivel de escalamiento numérico las cuantificaciones rv  de la 

variable respuesta son los valores de las categorías de la variable observada o 

discretizada centrada y normalizada, por lo que a vr* se le asigna vr. Con nivel de 

escalamiento no numérico las cuantificaciones son actualizadas en la siguiente forma: 

  
Capítulo 2 

 
53 

 
y entonces a vr* se le asigna  calculado previamente, donde: 

 
Almacenándose en gr la matriz indicadora para la variable respuesta y a través de la 

función Transpose[ ] se calcula la traspuesta de dicha matriz. 

Entonces 
rv  se estandariza: 

  
...donde obs contiene la cantidad de observaciones. 

En el segundo paso del algoritmo, las cuantificaciones de la variable respuesta se 

mantienen fijas, y las cuantificaciones jv  de las variables predictoras y los coeficientes 

de regresión se actualizan al mismo tiempo para cada variable. El enfoque trabaja 

como sigue. Primero se calcula el vectorN  de los valores predichos: 

  ∑                              
 

… donde p es igual a la cantidad de variables predictoras del modelo. 

Para actualizar las cuantificaciones de la variable j , la contribución de la variable j  a 

la predicción se sustrae de z: 

                                   
Entonces la actualización espontánea de jv  es: 

  
Capítulo 2 

 
54 

 
Para variables con nivel de escalamiento numérico 
*

jv  contiene los valores de las 

categorías de los datos observados o discretizados centrados y estandarizados, por lo 

que: 

  
Con nivel de escalamiento no numérico las cuantificaciones son actualizadas en la 

siguiente forma: 

  
Entonces 
*

jv  se estandariza: 

  
Luego los coeficientes de regresión j  se actualizan: 

  
Entonces, la contribución actualizada de la variable j  para la predicción se adiciona a 

jz : 

  
y el algoritmo continúa con la actualización de la cuantificación para la próxima variable 

predictora, hasta que todos los predictores sean actualizados. 

Estos dos pasos se repiten hasta que se alcance el criterio de convergencia 

especificado por el usuario con el máximo de iteraciones a ejecutar. 

Los residuales se calculan como: 

 
Capítulo 2 

 
55 

 
Con éstos se realiza la verificación de supuestos, usando las funciones implementadas 

en el Mathematica para probar la normalidad de los residuos y calculándose el 

estadístico Durbin Watson de la siguiente manera: 

              ∑                -            -       ∑                 
   

También son calculados el R2, R2 Ajustado y la Tabla ANOVA como sigue: 

 R2:   

siendo w la matriz identidad de orden (NxN), en este caso (obs x obs), donde obs 

contiene el total de observaciones. 

R2 Ajustado:  

donde u es el p-vector de unos y f es el grado de libertad de las varibles predictoras de 

orden p. 

Tabla ANOVA: 

  
donde: 

 siendo:  y  

 siendo:  y  

 siendo:                          y  

 
…y para conformar la tabla se tiene   

De esa manera queda conformado el algoritmo. 


Capítulo 2 

 
56 

 
2.5 Consideraciones finales del capítulo 

En este capítulo se muestran las ideas esenciales acerca de las implementaciones 

realizadas en el paquete Mathematica. Se comienza explicando la estructura de los 

ficheros de entrada que tienen las funciones creadas, se explica cómo ejecutar la 

regresión lineal y posteriormente la categórica. 

Se describen los tests de hipótesis que prueban la normalidad que aparecen por 

primera vez en la versión 8.0 del Mathematica. En todo el capítulo se utiliza un juego de 

datos reducido, pero real, de una investigación relacionada con el estudio de la HTA en 

adultos. 


Capítulo 3 

 
57 

 
3. Diagramas y Aplicaciones  

En este capítulo se muestran las aplicaciones obtenidas del método de regresión 

categórica explicado en los capítulos anteriores, mediante un estudio completo de la 

Hipertensión Arterial y un estudio con datos simulados. 

3.1 Modelado con UML. Diagramas 

El modelado es una parte central de todas las actividades que conducen a la 

producción de buen software. El modelado es una técnica de ingeniería probada y bien 

aceptada. Un modelo es una simplificación de la realidad que proporciona los planos de 

un sistema.  

El Lenguaje Unificado de Modelado (UnifiedModelingLanguage, UML) (RUMBAUGH 

2000), utilizado para el desarrollo del software de Regresión Categórica, es un lenguaje 

estándar para escribir planos de software. Este tiene como objetivos principales la 

especificación, visualización, construcción y documentación de los productos de un 

sistema de software. UML es sólo un lenguaje y por tanto es tan sólo una parte de un 

método de desarrollo de software RUP (Rational Unified Process) (JACOBSON 2000) 

para lo cual se basa en todos sus tipos de diagramas, que constituyen diferentes vistas 

del modelo del producto.  

De los diagramas que componen la estructura de un producto escrito por el lenguaje 

UML, empleamos: Diagrama de Casos de Uso y los Diagramas de Actividad 

correspondiente a cada caso de uso. 

La herramienta empleada para el modelado de todos los diagramas correspondientes a 

la fase de análisis y diseño fue Visual Paradigm para UML versión 6.0.  

3.1.1 Diagrama de casos de uso 

Los diagramas de casos de uso son importantes para modelar el comportamiento de un 

sistema, un subsistema o una clase. Estos se emplean para modelar la vista de casos 

de uso de un sistema. También son importantes para probar sistemas ejecutables a 


Capítulo 3 

 
58 

 
través de ingeniería directa y para comprender sistemas ejecutables a través de 

ingeniería inversa. Este modelo se realiza identificando cada actor del sistema como 

los posibles usuarios para los cuales está realizado el mismo. 

El paquete RegCatNum está destinado a un usuario experto en Matemáticas o 

conocedor del paquete Mathematica, pudiendo ser un estudiante, especialista o 

investigador en matemática y ramas similares. En el diagrama de la figura 3.1 se le ha 

nombrado a ese actor como usuario. 

Figura 3.1 Diagrama de Casos de uso 

 
El usuario mediante el primer caso de uso puede obtener modelos de regresión 

categórica a través del paquete RegCatNum que le permitan resolver problemas de 

diversas áreas de aplicación, sobre todo cuando se presentan variables categóricas. El 

actor, mediante el segundo caso de uso, puede obtener modelos de regresión lineal 

aplicado a las variables transformadas con nivel de escalamiento numérico. El usuario 

utiliza el tercer caso de uso para realizar la verificación de los supuestos y así validar 

los modelos seleccionados. 


Capítulo 3 

 
59 

 
3.1.2 Diagrama de Actividades 

Un diagrama de actividades es fundamentalmente un diagrama de flujo que muestra el 

flujo de control entre actividades. Los diagramas de actividades se utilizan para 

modelar los aspectos dinámicos de un sistema, lo que generalmente implica modelar 

los pasos secuenciales (y posiblemente concurrentes) de un proceso computacional. 

Las Figuras 3.2, 3.3 y 3.4 muestran tres diagramas de actividades para los casos de 

uso “Obtener modelos de Regresión Lineal”, “Obtener modelos de Regresión 

Categórica”, y “Realizar verificación de supuestos”, donde pueden apreciarse a través 

de modelos simples la descripción del flujo de actividades asociada a cada caso de 

uso. 


Capítulo 3 

 
60 

 
Figura 3.2 Diagrama de Actividad correspondiente al caso de uso: Obtener modelos 

de Regresión Lineal. 

 
Capítulo 3 

 
61 

 
Figura 3.3 Diagrama de Actividad correspondiente al caso de uso: Obtener modelos 

de Regresión Categórica. 

 
Capítulo 3 

 
62 

 
Figura 3.4 Diagrama de Actividad correspondiente al caso de uso: Realizar 

verificación de supuestos. 

 
3.2 Paquete RegCatNum 

El Mathematica presenta métodos de regresión lineal y no lineal. Entonces el algoritmo 

de Regresión Categórica se ha agregado al Mathematica como un paquete más cuyo 

nombre es “RegCatNum” y mediante el cual el usuario puede aplicar dicho método. 

Para ello se desarrolló primero este método como algoritmo en el Mathematica 8.0 

posibilitando este la verificación de supuestos y una vez terminado se guardó a través 

de la trayectoria: File ►New ► Package quedando conformado así este paquete.  


Capítulo 3 

 
63 

 
Para su utilización resulta conveniente que el mismo se encuentre en: 

 C:\Program Files\Wolfram Research\Mathematica\8.0\AddOns\Packages 

Una vez que el usuario desee obtener modelos de Regresión Categórica para esta 

primera variante con escalamiento numérico sólo tiene que cargar el paquete: 

<<RegCatNum` 

y presionar las teclas Shift+Enter para que se cargue. Una vez realizado este 

procedimiento ya está listo para ser utilizado y ejecutar la función RegCatN para 

realizar análisis de Regresión Categórica, pasándole como parámetros los ficheros 

(camino donde se encuentran) que contienen la información a procesar, como muestra 

el siguiente ejemplo: 

  
El algoritmo tiene como criterio de parada el número máximo de iteraciones a realizar. 

El SPSS tiene implementado que sea cien por defecto pero en este caso se le da la 

opción al usuario de elegir este número. También éste le da al usuario la opción de 

elegir cuál prueba de Normalidad desea usar para la verificación de los supuestos o si 

desea que se haga de forma automática. 

Esta función devuelve una serie de elementos y estimaciones para el analizar el 

modelo ajustado tales como: la correlación de orden cero entre las variables 

predictoras y la variable respuesta, los coeficientes del modelo, los valores de R 

Múltiple, R2 y R2 ajustado, la tabla ANOVA, el valor del estadístico Durbin Watson y de 

la/s Prueba/s de Normalidad, entre otros. 

3.3 Función RegresionLineal 

Para el uso de la función RegresionLineal[], es necesario cargar el Mathematica 8.0 

para abrir el notebook RegresionLineal.nb. Como la Regresión Categórica no es más 

que la Regresión Lineal aplicada a las variables transformadas se decidió realizar la 

misma aplicando el método de los mínimos cuadrados alternantes, como se explicó en 


Capítulo 3 

 
64 

 
el epígrafe 1.3, guardándose como el paquete RegCatNum.m y desarrollar un algoritmo 

aplicando la Regresión Lineal que tiene implementada el Mathematica (LinearModelFit) 

a las variables transformadas o cuantificadas guardándose en RegresionLineal.nb. 

Una vez abierto el Mathematica, el usuario debe introducir el nombre (camino donde se 

encuentran) de los ficheros a analizar en la función ya que esta presenta entrada de 

datos por parámetros y ejecutar el algoritmo. 

Cuando se ejecuta el algoritmo, éste le da al usuario la opción de elegir cuál prueba de 

Normalidad desea usar para la verificación de los supuestos o si desea que se haga de 

forma automática. 

Una vez que el algoritmo termina de ejecutarse, imprime el resumen del modelo junto a 

la Tabla de Análisis de Varianza (ANOVA), los coeficientes de la regresión, las 

variables transformadas o cuantificadas y los valores del estadístico Durbin Watson y 

de las pruebas de normalidad para la verificación de supuestos. 

3.3 Aplicaciones 

En este epígrafe se mostrarán varios ejemplos de aplicaciones que muestran la utilidad 

de las funciones elaboradas. 

3.3.1 Estudio con datos simulados 

Se generó un fichero de datos utilizando para ellos las facilidades de generación de 

números aleatorios del Microsoft Excel. Se generaron dos variables predictoras X1 y X2 

usando distribuciones uniformes. La variable respuesta Y se generó como una 

combinación lineal de las dos independientes y se le incluyó una perturbación aleatoria. 

Se tienen 100 observaciones. 

Se quiere realizar un análisis de Regresión Categórica. Para esto se carga el paquete 

RegCatNum y se le pasa como parámetro los dos ficheros correspondientes, datos1.txt 

y datos2.txt, como se ha explicado en epígrafes anteriores. Los resultados son los 

siguientes: 


Capítulo 3 

 
65 

 
Figura 3.1 Resumen del modelo 

 
Como se puede ver en la figura 3.1, el R2 tiene un valor muy cercano a 1, 

aproximadamente igual a 0.9907 por lo que el 99.07% de la variable respuesta Y está 

explicado en el modelo, siendo este resultado muy bueno. 

A continuación se muestra en la figura 3.2 los coeficientes de las variables en el 

modelo de regresión. 

Figura 3.2 Coeficientes del modelo de regresión 

 
Para interpretar la contribución de los predictores a la regresión, no es suficiente con 

inspeccionar los coeficientes de la regresión. Además debe inspeccionarse los valores 

que aparecen en la figura 3.3. En la misma se muestra la correlación de orden cero que 

no es más que la correlación entre el predictor transformado y la respuesta 

transformada. En nuestro modelo el valor más alto corresponde a la variable X2 aunque 

la variable X1 también posee un valor alto. 

Figura 3.3 Correlación de orden cero 

 
El resultado del análisis de varianza resultó significativo lo que indica que el modelo es 

válido (figura 3.4). 


Capítulo 3 

 
66 

 
Figura 3.4 Tabla de Análisis de Varianza (ANOVA) 

 
La Figura 3.5 muestra el resultado de aplicar el estadístico Durbin Watson. El valor del 

mismo es 2.2689 indicando que no hay autocorrelación y por tanto existe 

homogeneidad de varianza. 

Figura 3.5 Estadístico Durbin Watson 

 
El valor resultante de la prueba de normalidad de Kolmogorov Smirnov aplicada a los 

residuales es igual a 0.807524 > 0.05 por lo que se acepta la hipótesis fundamental, ver 

Figura 3.6. 

Figura 3.6 Prueba de normalidad Kolmogorov-Smirnov 

 
Las demás pruebas que se implementaron en el paquete RegCatNum dan resultados 

elevados también siendo 0.683 el valor de Shapiro Wilk, 0.72 el valor de Anderson-

Darling y 0.51 el valor de Jarque-Bera por lo que los residuales están distribuidos 

normalmente. 

Utilizando la función RegresionLineal los resultados son parecidos obteniéndose un 

buen modelo de regresión, ver Anexo 1. 


Capítulo 3 

 
67 

 
3.3.2 Estudio de la Hipertensión Arterial 

La hipertensión arterial (HTA) es la elevación de la presión arterial por encima de un 

límite que se considera normal (140/90 mmHg). Es la principal enfermedad crónica 

degenerativa y la más común causa de muerte, afecta aproximadamente al 20% de la 

población mundial (Navarro 2008). 

Se cree que tanto los factores ambientales como los genéticos son causas de la 

hipertensión. La tensión arterial tiende a elevarse con la edad. Es también más 

frecuente que aparezca si la persona es obesa, tiene una dieta rica en sal y pobre en 

potasio, bebe elevadas cantidades de alcohol, no tiene actividad física y sufre de un 

elevado estrés psicológico. Aunque está claro que la tendencia a la hipertensión puede 

ser heredada, se desconocen en gran medida los factores genéticos responsables de 

la misma (Encarta 2006). El conocimiento actual de este problema de salud pública a 

nivel mundial, obliga a buscar estrategias certeras de detección, control y tratamiento. 

En este trabajo se presenta un estudio realizado con los 849 individuos de cinco 

policlínicos de la ciudad de Santa Clara. Cada caso fue inicialmente clasificado como 

normotenso, hiperreactivo (prehipertenso) o hipertenso por un comité de expertos 

altamente calificado (Navarro 2008). Este estudio tuvo lugar previamente en el 

desarrollo de la tesis de maestría del MSc. Juan Manuel Navarro. La tabla 3.1 muestra 

las variables que formaron parte de este estudio: 

Tabla 3.1 Variables consideradas en el análisis 

No. Variable Etiqueta Valores 

1.  TASistB Presión sistólica basal Baja, Media, Alta 

2.  TADiastB Presión diastólica basal Baja, Media, Alta 

3.  
TASistB1 Presión sistólica basal al primer minuto Baja, Media, Alta 

4.  
TADiastB1 Presión diastólica basal al primer 

minuto 

Baja, Media, Alta 

5.  
TASistB2 Presión sistólica basal al segundo 

minuto 

Baja, Media, Alta 


Capítulo 3 

 
68 

 
En este epígrafe se pretende encontrar un modelo de regresión que permita 

caracterizar el padecimiento de la HTA en pacientes de cinco policlínicos del municipio 

de Santa Clara. El problema que se presenta en este trabajo no puede tratarse 

adecuadamente por una regresión lineal múltiple, pues la variable dependiente 

(DiagExp) es ordinal y todas las predictoras son categóricas (Ver Tabla 3.1). Se decide 

entonces aplicar la regresión categórica programada en el paquete RegCatNum del  

Mathematica. En la corrida se consideraron todas las variables mostradas en la Tabla 

3.1 aplicándole a cada una de ellas el nivel de escalamiento numérico. 

El valor del coeficiente de determinación R2 obtenido fue aproximadamente igual a 

0.9174 lo cual indica que el 91.74% de la variable diagnóstico está explicado en el 

modelo. 

Figura 3.7 Resumen del modelo 

 
El resultado del análisis de varianza resultó significativo ya que la Significación fue igual 

a 0 < 0.05 como se puede observar en la Figura 3.8 reflejando la validez del modelo. 

6.  
TADiastB2 Presión diastólica basal al segundo 

minuto 

Baja, Media, Alta 

7.  TAPam Presión arterial  media Baja, Media, Alta 

8.  Col_Tot Colesterol total Bajo, Medio, Alto 

9.  Col_Ldl Colesterol LDL Bajo, Medio, Alto 

10.  OImc Índice de masa corporal Bajo, Normal, Elevado 

11.  Sexo Sexo del paciente Masculino, Femenino 

12.  Fuma  Hábito de fumar Sí, No 

13.  Bebe Hábito de tomar Sí, No 

14.  DiagExp Diagnóstico de HTA 
Normotenso, Hiperreactivo, 

Hiperte