Monografias.com > Administración y Finanzas > Desarrollo Organizacional
Descargar Imprimir Comentar Ver trabajos relacionados

Regresión logística



  1. Conceptos Básicos
  2. Función logística
  3. Modelo
  4. Desviación (deviance)
  5. Caso de var. resp. binomial, variables explicativas numéricas

La regresión logística (RL) es una técnica que permite clasificar cualquier elemento, en función de sus medidas, en alguno de los grupos previamente definidos. (La clasificación se realiza apoyándose en los datos de la muestra).

Conceptos Básicos

Variable respuesta ó dependiente: Es la variable (cualitativa) cuyos valores definen cada uno de los grupos. Cuando la var. respuesta asume sólo dos valores, se dice que es una variable respuesta binomial, y los valores que asume los podemos denotar arbitrariamente como 0 y 1. Si los valores que asume son 3 ó más, se dice que es una variable respuesta multinomial.

Variables explicativas ó predictoras: Son las variables (cualitativas ó numéricas) que se utilizan para clasificar el elemento en cualquiera de los grupos.

Función logística

La función logística (cuando la var. repuesta es binomial) tiene la estructura:

Monografias.com donde B1, B2, … son constantes que se estimarán en los denominados modelos, x1, x2,…son las variables predictoras y pi es la probabilidad de que la variable respuesta asuma el valor de 1, (lo que implica que la probabilidad de que la var. respuesta asuma el valor de 0 es 1-pi )

Modelo

Con los datos de la muestra (*Ver nota) la computadora obtiene los denominados modelos. Los modelos se obtienen cuando la computadora estima los valores de los Bi de la función logística. La computadora puede, hallar más de un modelo. (Pues cuando añadimos una variable explicativa ó quitamos una, entonces obtenemos un modelo distinto. Similarmente, cada vez que ampliamos la muestra podemos obtener un modelo distinto).

Los modelos se utilizan para clasificar los elementos. Los elementos se clasifican al sustituir en el modelo los valores de x1, x2,…etc. por las medidas del elemento, el valor obtenido de p será la probabilidad de que el elemento pertenezca al grupo 1.

(* Nota: los datos de la muestra contendrán las medidas de las variables explicativas y la variable respuesta de los elementos de la muestra).

Desviación (deviance)

Es una medida de la precisión para clasificar de un modelo cualquiera. Es también una medida del ajuste del modelo a los datos de la muestra. Si un modelo tiene deviance menor que otro modelo significa que el primer modelo es más aproximado a los datos que el segundo modelo. Un modelo con menor desviación es más preciso para clasificar que otro con mayor desviación. Así pues, hay conveniencia para escoger el modelo con menor desviación de entre el conjunto de modelos hallados. Por otro lado, un modelo con menor desviación que otro puede tener más variables explicativas y muestra mayor. Entonces existe el inconveniente de que al escoger el modelo con menor desviación es posible que sea un modelo con muchas variables explicativas y muestra mayor. Por tanto, algunos preferirán escoger y trabajar con un modelo que aunque tenga mayor desviación, tenga pocas variables y una muestra pequeña. ( muchos optan por la simplicidad, trabajar con pocas variables explicativas, porque se realizan menos operaciones al clasificar, y porque es menor la labor de obtener las medidas de pocas variables en los elementos de la muestra, y es menor la labor de obtener una muestra pequeña). La decisión final en cuanto a la elección del modelo recae en el investigador.

Monografias.com

Desarrollaremos nuestro estudio de la RL considerando cada uno de los siguientes casos:

1). Caso de var. resp. binomial, variables explicativas numéricas.

2). Caso de var. resp. multinomial, , variables explicativas numéricas.

3) Con variables explicativas nominales.

Caso de var. resp. binomial, variables explicativas numéricas

Iniciemos nuestro estudio con un ejemplo:

La siguiente tabla presenta las medidas de 3 variables de 28 estudiantes españoles muestreados. Las variables son: género ( 0- mujer, 1-hombre). dcr (diámetro del cráneo, en cm.),lrt ( longitud entre la rodilla y el tibillo, en cm.). A partir de la información contenida en la tabla, identifique el género de un estudiante español cuyos restos tiene medidas de: dcr=55 , lrt=40

Monografias.com

Solución:

La tabla de datos se dispone previamente es Statistica de la siguiente forma:

Monografias.com

Vale decir que Statistica puede admitir los valores la variable numérica "sexo" con palabras de "caracteres", esto quiere decir que pudimos también haber vaciado los datos de ésa variable como se presentan a continuación:

Monografias.com

Haga clic en Statistics, luego elija Advanced Linear/Nonlinear Models y luego Generalized Linear/Nonlinear Models, según la siguiente imagen:

Monografias.com

En el siguiente cuadro haga clic en la pestaña advanced, entonces el cuadro tendrá la siguiente apariencia, especifique las opciones de General custom designes en Type of analysis, Binomial en Distribución y Logit en Link functions, presione luego el botón OK:

Monografias.com

En el siguiente cuadro (previamente presione la pestaña Quick del mismo) presione Variables:

Monografias.com

Elija las variables que se muestran en el cuadro y presione OK:

Monografias.com

En el siguiente cuadro presione OK:

Monografias.com

Verá:

: Monografias.com

Cuadro 1 Si en el Cuadro 1 presiona Estimates, verá:

Monografias.com

Las estimaciones de los coeficientes Bi para los datos de la muestra han sido estimados, entonces la función logística

Monografias.com determina el modelo

Monografias.com (**) (Es importante notar que en el cuadro anterior se despliegan los valores de –B1, -B2, … y no de B1, B2, ….) Estamos en condiciones de contestar una de las preguntas del problema original, nos referimos el hallar el sexo más probable de una persona con medidas de dcr=55 y lrt=40. Para ello simplemente sustituya estos valores en la ecuación (**), se tendrá que:

Monografias.com

Monografias.com pi=0.002496 En vista de que en nuestro planteamiento, la categoría de 0 representa a la mujer y la de 1 representa el hombre, pi=0.002496 está mucho más cerca de 0 que de 1, entonces es muy probable que esa persona sea de sexo femenino. En específico, según estas inferencias, es (0.002496)(100%)= 0.2496 % probable de que sea hombre y es (1- 0.002496)(100%)= 99.7504% probable de que sea mujer.

La gráfica de (** ) tiene una apariencia que es característica de las funciones de RL:

Monografias.com

El valor máximo que asume la variable respuesta es 1 y el mínimo es 0. En las siguientes imágenes aparece la misma gráfica vista desde distintos ángulos, y además se añaden puntos ploteados que representan, cada uno, las medidas de los 27 jóvenes muestreados:

Monografias.com

Monografias.com

Monografias.com

Uno de los objetivos de cualquier tipo de regresión es hacer que la superficie de regresión (que corresponde al valor de z en la ecuación (**) y que en las imágenes se muestra como una superficie de varios colores) se aproxime a los puntos ploteados.

En la última tabla (estimate) se presentan además, la significancia (representada por p) de las estimaciones de los parámetros. Cuando ese valor es menor que alpha ( y por tanto aparece en rojo) entonces se concluye que el parámetro estimado correspondiente es significativo. En nuestro caso tenemos que el parámetro B2 (el coeficiente de lrt ) tiene un valor p=0.027656 y por tanto ese parámetro es significativo. Podrá concluir también que B0 y B1 no son significativos. Decir que un parámetro es significativo significa, entre otras cosas, que el parámetro es de gran valor para los modelos de regresión, en otras palabras, que la variable asociado a ese parámetro es una variable predictiva de gran valor, que no se debe de descartar. En contraste, un parámetro no significativo podría descartarse ó removerse y su ausencia implicaría una muy poca pérdida de capacidad de pronóstico del modelo. Por ejemplo, hallamos que B1 (el coeficiente de dcr ) es el menos significativo; si se desea podemos desechar este parámetro para un nuevo modelo logístico ( lo que significa que se haga B1 = 0 ) y entonces el modelo:

Monografias.comfórmula A) Se sustituirá por otro, del tipo:

Monografias.com

Más adelante realizaremos el análisis correspondiente para ese modelo .

Si en el Cuadro 1 presiona Conf. Intervalos verá:

Monografias.com

donde aparecen los extremos de los intervalos de confianza del 95 % para las estimaciones de los parámetros B0, B1 y B2 para todos los elementos de la población. Es interesante distinguir que el 0 es un valor que cae dentro del intervalo para B1, lo cual es coherente con la propuesta anterior en el sentido de hacer B1 igual a 0.

La interpretación del intervalo (digamos, el que corresponde a dcr) es:

Existen 95% de probabilidades de que el valor de B1 ( para todos los elementos de la población de donde se extrajo la muestra de 28 estudiantes) esté entre –0.99986 y 0.7989.

Si en el Cuadro 1 presiona Goodness of fit verá:

Monografias.com

El valor de Deviance (desviación del modelo) es una medida del ajuste del modelo a los datos. A medida de que mayor es su valor, es menor el ajuste del modelo a los datos. Si n es el tamaño de la muestra y p es el número de parámetros en la prueba, entonces la desviación del modelo (que representaremos por ?(ß) ) da lugar a las siguientes conclusiones:

Si ?(ß) = ?2 1-a, n-p el modelo es adecuado Si ?(ß) > ?2 1-a, n-p el modelo no es adecuado Que el modelo sea adecuado significa que la fórmula A es una buena aproximación de los datos de la muestra, y que por tanto, con ese modelo podemos hacer buenas clasificaciones e indagar más acerca de la relación entre la variable respuesta y las vars. explicativas.

En nuestro caso, n = 27, p =número de parámetros =3 (los parámetros son las constantes que se estimaron: B0, B1 y B2 ) entonces n-p= 24, tomando a =0.05 se tiene que ?2 0.95, 24 g. l. = 36.42. y por tanto:

13.52142 = 36.42 y concluimos que el modelo es adecuado.

Recuerde que antes propusimos un modelo donde estuviese descartada la variable dcr, es decir , un modelo de la forma:

Monografias.com Indaguemos más acerca de éste modelo. Para ello, en la ruta trazada anteriormente para la RL usando Statistica, elija en su momento las variables señaladas en el siguiente cuadro de diálogo:

Monografias.com

luego en el cuadro:

Monografias.com

Cuadro 2 Presione Goodness of fit y verá:

Monografias.com

presione Estimates, verá:

Monografias.com

Por los valores de p concluimos que las estimaciones de los parámetros son significativas. El modelo, para los datos de la muestra, viene a ser:

Monografias.com cuya gráfica es:

Monografias.com

La forma de la gráfica de una letra S ó de una S invertida en otros casos, es la forma ordinaria de la ecuación de la regresión logística cuando se maneja sólo una variable explicativa. En la siguiente gráfica se observa además el ploteo de puntos determinado por el sexo de los alumnos muestreados. Observe el ajuste de la gráfica a los puntos ploteados.

Monografias.com

Las demás conclusiones que deriven de éste nuevo modelo que contiene sólo una variable explicativa, siguen el mismo patrón que el que siguió en su momento cuando se consideraron dos variables explicativas.

Hasta el momento hemos considerado dos modelos, uno contempla dos variables explicativas y otro sólo una variable explicativa. Es intuitivo suponer que el modelos con más variables explicativas deben determinar mejores ajustes a los datos que los modelos con menos variables explicativas, dicha suposición es cierta. Por otro lado, alguien preferiría utilizar un modelo con menos variables explicativas que otro con más variables explicativas por razones de simplicidad si es que el modelo con más variables se ajustara poco mejor (casi nada mejor ) que el modelo con menos variables. Dicha decisión suele ser convincente para muchos. Una prueba que determina si un modelo con más variables explicativas es significativamente ( o no significativamente) mejor que otro con menos variables explicativas es la siguiente:

(Suponemos la misma muestra para ambos modelos)

  • 1) Reste las desviaciones (deviance) de los modelos. Sea ? esa resta.

Para nuestros modelos: ?= 13.56920-13.52142 = 0.04778

  • 2) Observe con cuántas variables explicativas supera el modelo con más variables que el modelo con menos variables. Sea s ese número,

en nuestro ejemplo: s = 2 (variables explicativas) – 1(variable explicativa)= 1.

3) Si ? = ?2 1-a, s no hay diferencia significativa entre los modelos Si ? > ?2 1-a, s hay diferencia significativa entre los modelos.

Nosotros tenemos que ?2 1-a, s = ?2 0.95,1 =3.8414 y 0.04778 = 3.8414 y concluimos que el modelo con 2 variables explicativas no es significativamente mejor que el modelo con una variable explicativa. Así pues, algunos preferirán trabajar solamente con la variable lrt en lugar de trabajar con las variables lrt y dcr para explicar el sexo.

REGRESIÓN LOGÍSTICA "NO A LA CULTURA DEL SECRETO, SI A LA LIBERTAD DE INFORMACION"®

www.monografias.com/usuario/perfiles/ing_lic_yunior_andra_s_castillo_s/monografias

Correo: yuniorcastillo@yahoo.com

Santiago de los Caballeros, República Dominicana, 2015.

"DIOS, JUAN PABLO DUARTE Y JUAN BOSCH – POR SIEMPRE"®

 

 

Autor:

Ing.+Lic. Yunior Andrés Castillo S.

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter