Análisis de componentes principales y análisis de regresión para datos categóricos. Aplicación en HTA

Fecha

2008-06-26

Autores

Navarro Céspedes, Juan Manuel

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Central “Marta Abreu” de Las Villas

Resumen

En la presente investigación, se presentan los métodos más importantes para el análisis de datos categóricos. Nuestra contribución está basada en la aplicación de dos nuevos métodos estadísticos categóricos: Análisis Regresión y Análisis de Componentes Principales, ambos categóricos, en un problema médico. La primera técnica aplica la metodología de escalamiento óptimo para cuantificar las variables categóricas, incluyendo la variables respuesta en el análisis de regresión, simultáneando la optimización del coeficiente de regresión múltiple. Los niveles de escalamiento que pueden ser aplicados son nominal, spline no monótono, ordinal, spline monótono o numérico. La segunda técnica es la equivalente no lineal del Análisis de Componentes Principales (ACP). Las ventajas más importantes del no lineal sobre el ACP lineal están dadas por el hecho que incorpora variables nominales u ordinales, y además posibilita la manipulación y descripción de relaciones no lineales entre las variables. Se presenta un problema de predicción de la hipertensión en el municipio de Santa Clara. Se obtuvo un modelo con buenos resultados con todas las variables predictoras. Se utilizó el ACP Categórico como un procedimiento exploratorio y como técnica de selección. Con las variables seleccionadas, se obtuvo un nuevo modelo de regresión categórica. Se verificaron los supuestos en todos los modelos. Finalmente, con el objetivo de resolver un problema de clasificación, se utilizó la regresión categórica como método discriminante.
In this research, the most important methods for categorical statistical analysis are presented. Our contribution is based on the application in a medical problem of two new categorical statistical methods: Regression Analysis and Principal Component Analysis, both categorical. The first technique applies optimal scaling methodology to quantify categorical variables, including the response variable in regression analysis, simultaneously optimizing the multiple regression coefficients. The scaling levels that can be applied are nominal, nonmonotonic spline, ordinal, monotonic spline or numerical. The second technique is the nonlinear equivalent of the standard Principal Component Analysis (PCA). The most important advantages of nonlinear over linear PCA are given by the fact that it incorporates nominal and ordinal variables, and also because is possible to handle and discover nonlinear relationships between variables. An hypertension prediction problem in Santa Clara is presented. A model with all predictive variables was obtained with good results. Categorical PCA are used as exploratory procedure and as feature selection technique. With the selected variables, a new categorical regression model was obtained. Assumptions are verified in all models. Finally, in order to solve the classification problem, categorical regression was used as discriminant method.

Descripción

Palabras clave

Análisis de Componentes Principales (ACP), Análisis de Regresión, Datos Categóricos, Hipertensión Arterial

Citación