Transformaciones a una linea recta (página 2)

Enviado por Ing.+ Licdo. Yunior Andrés Castillo Silverio

Partes: 1, 2, 3

Var(b) = C = (X’X) ?
La covarianza del elemento bi y bj de b esCovar(cij) ? cij? .
Y(x) ? x' p b
Var(Y(x)) ?Var(xpb) ? x' p (X'X)?1xp? 2
ru ?Yu ?Y(xu),u ?1,2,…,N
ˆ
Y ? Xb ? X(X'X)?1X'Y ? Hy
(3.5)
Donde la matriz H [n x n]
se denomina la “matriz sombrero” ya que mapea el vector de valores
observados dentro del vector de valores ajustados o predichos.
Como principales características de los estimadores b se tienen:

La matriz de varianza y covarianza de el vector de estimados b es:
-1
2
(3.6)
El elemento (ii) de esta matriz
cii? 2 ?Var(bi) es la varianza del elemento i de b.
El error estándar de bi es la raíz cuadrada positiva de la varianza de bi o sea:

se.bi ? cii? 2
(3.7)
2
(3.8)
Si los errores están normalmente distribuidos, entonces b se dice que está distribuido como:

b ? N(?,(X'X)?1? 2)

Sea x’p un vector (1 x p) vector cuyos elementos corresponden a una fila de la matriz X, p = k + 1,
entonces en la región experimental el valor de predicción de la respuesta es:
ˆ
^

Una medida de la precisión de la predicción Y(X) se puede expresar como:

^
(3.9)

(3.10)
RESIDUOS
Los residuos se definen como la diferencia entre los valores reales observados y los valores predichos
para estos valores de respuesta usando el modelo de ajuste y predicción, o sea:
ˆ
^

Si se obtienen valores para los N intentos entonces en forma matricial:
r ?Y ? Xb ?Y ?HY ?(1?H)Y
(3.11)

(3.12)
ˆ
los residuos tienen las propiedades siguientes:

1. 1’r = 0, donde 1’ es un vector (1 x n) de 1’s.
2. Y(X)'r ? 0
3. X’r = 0

ESTIMACIÓN DE ?
Para un modelo con p parámetros y teniendo N observaciones (N > p), la varianza se estima como
sigue:

Monografias.com

La suma de cuadros de los residuos es:

i?1
Como e = Y – X b, se tiene:

SSE ? (Y ? Xb)'(Y ? Xb) ?Y'Y ?b'X'Y ?Y'Xb?b'X'Xb ?Y'Y ?2b'X'Y ?b'X'Xb (3.13)

Como X’Xb = X’Y, se transforma en:
SSE ?Y'Y ?b'X'Y
(3.14)
La suma residual de cuadrados tiene n-p grados de libertad asociado con el ya que se estiman p
parámetros en el modelo de regresión. El cuadrado medio de los residuos es:
SSE
N ? p
s2 ? MSE ?
(3.15)
3.3 Intervalos de confianza para los coeficientes de la regresión
Asumiendo que los errores son independientes y distribuidos normalmente con media cero y
2
distribuidas. Cada uno de los estadísticos:
,…j ? 0,1,…,k
bj ? ? j
S 2C jj
(3.16)
2
ecuación (3.15). Por tanto un intervalo de confianza 100(1 – ? )% para el coeficiente de regresión ?j,
para j = 0, 1, …., k es:
bj ?t? /2,n?pse(bj) ? ? j ?bj ?t? /2,n?pse(b j)

Donde se(bj) es el error estándar del coeficiente de regresión bj.
se(bj) ? S 2C jj
(3.17)

(3.18)
Siendo Cjj el j-ésimo elemento de la matriz (X’X
)-1
.
? ?
3.3.1 Intervalos de confianza para la respuesta media en un punto en particular
Se puede construir un intervalo de confianza en la respuesta media de un punto en particular, tal
como X01, X02, X03,…….., X0K. Definiendo el vector X0 como:
?1 ?
?
? 01 ?
X 0 ? ?X 02 ?
? ?
?….. ?
?X 0K ?

El valor ajustado en este punto es:

Monografias.com

SST ??(Yu ?Y)2
^
SSR ??(Y(xu)?Y)2 con p (parámetros) – 1 grados de libertad
ˆ
??
ˆ ˆ
Y0 ? X'0b

Con varianza:

Var(Y0) ? S2X'0 (X'X)?1X0

Por tanto el intervalo de confianza para el 100( 1 – ? ) % es:

Y0 ?t? /2,n?p S2X'0 (X'X)?1X0 ?Y0 ?Y0 ?t? /2,n?p S2X'0 (X'X)?1X0
(3.19)

(3.20)

(3.21)
3.4 Prueba de Hipótesis en Regresión múltiple
Entre las pruebas importantes a realizar se encuentra la prueba de siginificancia de la regresión, la
prueba de coeficientes individuales de la regresión y otras pruebas especiales. A continuación se
analiza cada una de ellas.

3.6.1 Prueba de significancia para la regresión
La prueba de significancia de la regresión es probar para determinar si hay una relación lineal entre la
respuesta Y y cualquiera de las variables regresoras Xi’s, la hipótesis apropiada es:
H0 :?1 ? ?2 ?….? ?k ?0
(3.22)
H0 😕 j ?0…….para.al.menos.una.j

El rechazo de H0 implica que al menos alguno de los regresores contribuye significativamente al
modelo. El método es una generalización del utilizado en la regresión lineal. La suma total de
cuadrados Syy se divide en suma de cuadrados debidos a la regresión y la suma de cuadrados de los
residuos, o sea:

SYY ? SST ? SSR?SSE

Para la prueba de la hipótesis se utiliza el estadístico F0 como sigue:
MSR
MSE
?
SSR/k
SSE/(n?k ?1)
F0 ?
con k = No. de variables regresoras
(3.23)
La suma de cuadrados totales es:
N __

u?1
con N-1 grados de libertad
(3.24)
(3.25)
La suma de cuadrados debidos a la regresión es:

N __

u?1

La suma de cuadrados del error o de los residuos es:

Monografias.com

^
SSE ??(Yu ?Y(xu))2 con (N-1) – (p –1) grados de libertad
(3.26)
N

u?1

En forma matricial se tiene:
(1'Y)2
N
SST ?Y'Y ?
(3.27)
(1'Y)2
N
SSR ? b'X'Y ?
(3.28)
(3.29)
SSE ?Y'Y ?b'X'Y

La tabla de ANOVA para la significancia de la regresión queda como:

Fuente de
variación
SS
df
MS
F0
.
MSR
MSE
MSR/MSE
.
Regresión
Residuos
Total
SSR
SSE
SST
K
n – k-1
n – 1
Para probar la hipótesis de existencia del modelo, se tiene:

H0 :?1 ? ?2 ?…? ?k ?0

Ha :??i ?0,i ?1,2,…,k

Se calcula el estadístico F0 como:
MSR
MSE
SSR/(p?1)
SSE/(N ? p)
?
F0 ?
(3.30)
Se compara el valor de F con el de tablas para F?,p-1,N-p el cual es la parte superior de la distribución
F, si F calculada excede a F de tablas se infiere que la variación explicada por el modelo es
significativa.

2
de la media Y explicada por el modelo de ajuste. Se expresa en porcentaje.
SSR
SST
R2 ?
(3.31)
3.4.2 Prueba de los coeficientes individuales de la regresión
Con frecuencia estamos interesados en probar hipótesis sobre los coeficientes de regresión
individuales. Por ejemplo el modelo podría ser más efectivo con la inclusión de regresores adicionales
o con la eliminación de una o más variables regresoras presentes en el modelo.

Monografias.com

??1,?1,?1,?1?
??1,?1,?1,?1?
??1,?1,?1,?1?
??1,?1,?1,?1?
Al agregar una variable al modelo, siempre incrementa la suma de cuadrados de la regresión y
decrementa la suma de cuadrados de los residuos, sin embargo también incrementa la varianza de
los valores estimados Yest., de tal forma que se debe tener cuidado en incluir sólo los regresores que
mejor expliquen la respuesta. Por otra parte, al agregar un regresor no importante puede incrementar
el cuadrado medio de los residuos, lo que decrementa la utilidad del modelo.
La hipótesis para probar la significancia de cualquier coeficiente individual de la regresión ?j es:
H0 😕 j ? 0
(3.32)
H1 😕 j ? 0

Si no se rechaza H0, indica que el regresor Xj puede ser excluido del modelo. El estadístico de prueba
para esta hipótesis es:
bj
se(bj)
t0 ?
(3.33)
La hipótesis nula es rechazada si
t0 ?t? /2,n?k?1.
Esta es una prueba parcial o marginal de la
contribución de Xj dados los otros regresores en el modelo.

3.4.3 Caso especial de columnas ortogonales en X
Si dentro de la matriz X si las columnas de X1 son ortogonales a las columnas en X2, se tiene que
X1’X2 = X2’ X1 = 0. Entonces los estimadores de mínimos cuadrados b1 y b2 no dependen si está o no
está en el modelo alguno de los otros regresores, cumpliéndose:
SSR(?2) ? SSR(?1)?SSR(?2)
(3.34)
3

Y ? ?0 ??1X1 ??2X2 ??3X3 ??

Donde la matriz X es la siguiente:
??1,?1,?1,?1?
? ?
??1,?1,?1,?1?
? ?
??1,?1,?1,?1?
? ?
??1,?1,?1,?1?
? ?
X ?
En este caso, SSR(?j), j = 1, 2, 3, mide la contribución del regresor Xj al modelo, independientemente
de cualquier otro regresor esté incluido en el modelo de ajuste.

Ejemplos:
Ejemplo 3.1 Un embotellador está analizando las rutas de servicio de máquinas dispensadoras, está
interesado en predecir la cantidad de tiempo requerida por el chofer para surtir las máquinas en el
local (Y). La actividad de servicio incluye llenar la máquina con refrescos y un mantenimiento menor.

Monografias.com

Se tienen como variables el número de envases con que llena la máquina (X1) y la distancia que tiene
que caminar (X2). Se colectaron los datos siguientes, y se procesaron con el paquete Minitab:
De manera matricial:
X

Monografias.com

La transpuesta de X es (Copiar con pegado especial Transponer):
X'
ˆ
Con la función de Excel de multiplicación de matrices MMULT :
Seleccionar el rango de celdas de resultados y al final teclear (Ctrl-Shif-Enter). final)
X'X

X'y
560
7,375
337,072
El vector estimador de los coeficientes Betas es :

? ?(X'X)?1X'y

Con la función de Excel MINVERSA
(X'X)
-1
Matrix B = INV(X'X) X'Y

Betas est,
2.341231145
1.615907211
0.014384826

The regression equation is

Monografias.com

Cov(?) = ? (X’X)
? =
Y-TENT = 2.34 + 1.62 X1-ENV + 0.0144 X2-DIST

Estadísticas de la regresión
ANÁLISIS DE VARIANZA
Grados de
Suma de
Promedio
de
F
Valor
Coeficientes
Error típico
Estad. t
Probab.
Inferior
95%
Superior
95%
Inferior
95.0%
Superior
95.0%
Cálculo de la estimación de la varianza:
2
-1
Si C = (X’X)
-1
2 2
Y’_tiempo 16.68
13.5
11.5
19.75
12.03
24
14.88
29
13.75
15.35
18.11
19
8
9.5
17.83
35.1
79.24
17.9
21.5
52.32
40.33
18.75
21
19.83
10.75
La matriz y’y es:

y'y
18,310.63
?’
2.3412 1.6159
0.0144
X'y
559.6
7375.44
337072
?’X’y
18,076.90
SSE =
233.73
2
=233.73/(25-3) =10.6239
SSE = y’y – ?’ X’ y

Monografias.com

?8 ?
2

Matrix Y'Y = 18310.6

Matrix b' = [ 2.34123 1.61591 0.01438 ]

Matrix b'X'Y = 18076.9

Matrix SSe = Y'Y – b'X'Y = 233.732
?10.624
233.732
25?3
?
S 2 ?
SSE
N ? p
Cálculo del error estándar de los coeficientes y del intervalo de confianza para ? = 0.05

De ecuación 3.17 se tiene:
se(bj) ? S 2C jj
)-1
.
Siendo Cjj el j-ésimo elemento de la matriz (X’X

-1
M8 = (X'X)
, ,
b1 ?t.02522se(b1)? ?1 ?b1 ?t.02522se(b1)

1.61591?(2.074) (10.6239)(0.00274378) ? ?1 ?1.6191?(2.074)(0.17073)

Por tanto el intervalo de confianza para el 95% es:

1.26181 ? ?1 ? 1.97001

Cálculo del intervalo de confianza para la respuesta media
El embotellador desea construir un intervalo de confianza sobre el tiempo medio de entrega para un
local requiriendo
X1 = 8 envases y cuya distancia es X2 = 275 pies. Por tanto:
? ?
?1 ?
? ?
?275?
X 0 ?
? ?
El valor de respuesta estimada por la ecuación de ajuste es:

?2.34123?
? ?
?0.01438?

Monografias.com

La varianza de
ˆ
Y0
es estimada por (tomando M8=inv(X’X) anterior):
? ?
?1 ?
2 ?1
?
?275?

Por tanto el intervalo al 95% de nivel de confianza es:

19.22?2.074 0.56794 ?Y0 ?19.22?2.074 0.56794

Que se reduce a:

17.66 ? Y0 ? 20.78

Analysis of Variance
De ecuaciones 3.26 a 3.29
SST = 18,310.629 –

SSR = 18,076.930 –
(559.6)2
25
(559.6)2
25
= 5784.5426

= 5,550.8166
SSE = SST – SSR = 233.7260
2775.4083
10.6239
? 261.24
?
MSR
MSE
F0 ?
F0.05,2,22 ? 3.44

Como la F calculada es mayor que la F de tablas, se concluye que existe el modelo con alguno de sus
coeficientes diferente de cero.
Con el paquete Minitab se obtuvo lo siguiente:
Regression Analysis: Y_tiempo versus X1_envases, X2_Distancia

The regression equation is
Y_tiempo = 2.34 + 1.62 X1_envases + 0.0144 X2_Distancia

Predictor Coef SE Coef T P
Constant 2.341 1.097 2.13 0.044
X1_envases 1.6159 0.1707 9.46 0.000
X2_Distancia 0.014385 0.003613 3.98 0.001

S = 3.25947 R-Sq = 96.0% R-Sq(adj) = 95.6%

Analysis of Variance

Source DF SS MS F P
Regression 2 5550.8 2775.4 261.24 0.000
Residual Error 22 233.7 10.6
Total 24 5784.5

Monografias.com

Percent
Source DF Seq SS
X1_envases 1 5382.4
X2_Distancia 1 168.4

Unusual Observations

Obs X1_envases Y_tiempo Fit SE Fit Residual St Resid
9 30.0 79.240 71.820 2.301 7.420 3.21RX
22 26.0 52.320 56.007 2.040
-3.687
-1.45 X
4
3
2
1
0
-1
-2
-3
1
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large influence.

Predicted Values for New Observations

New
Obs Fit SE Fit 95% CI 95% PI
1 19.224 0.757 ( 17.654, 20.795) (12.285, 26.164)

Values of Predictors for New Observations

New
Obs X1_envases X2_Distancia
1 8.00 275

Normal Probability Plot of the Residuals
(response is Y_tiempo)
99

95
90
80
70
60
50
40
30
20
10
5
Standardized Residual

Prueba de la significancia de los coeficientes particulares
Probando la contribución del regresor X2 (distancia) dado que la variable regresora de casos está en
el modelo. Las hipótesis son:

H0 :?2 ?0
H1 :?2 ? 0

Monografias.com

?8 ?
-1
que el estadístico t es:
0.01438
(10.6239)(0.00000123)
? 3.98
?
b2
S 2C22
t0 ?
Como
,
t0.02522 ? 2.074, se rechaza la hipótesis H0, concluyendo que el regresor de distancia X2
ˆ ˆ
ˆ ˆ
(distancia), contribuye significativamente al modelo dado que “casos” X1 también está en el modelo.

3.5 Predicción de nuevas observaciones
El modelo de regresión puede ser usado para predecir observaciones futuras en y correspondientes a
valores particulares en las variables regresoras, por ejemplo X01, X02, ….., X0k. Si
x'0 ?[1,×01,x02,x013,…….,x01k ]
Entonces una observación futura y0 en este punto es:
y0 ? x'0 ?
Un intervalo de de predicción con un nivel de confianza del 100(1-alfa) porciento para una
observación futura es:
y0 ?t? /2,n?p ? 2(1? x'0 (X'X)?1×0 ? y0 ? y0 ?t? /2,n?p ? 2(1? x'0 (X'X)?1×0
Es una generalización del modelo de regresión lineal simple.
Para el caso del ejemplo del embotellador:
El embotellador desea construir un intervalo de predicción sobre el tiempo de entrega para un local
requiriendo
X1 = 8 envases y cuya distancia es X2 = 275 pies. Por tanto:
? ?
?1 ?
? ?
?275?
X 0 ?
Xo’ = [1, 8, 275]
ˆ
? ?
El valor de respuesta estimada por la ecuación de ajuste es:

?2.34123?
Y0 ? X'0 b ??1, 8, 275? ?1.61591? ?19.22minutos
?0.01438?

X'0 (X'X)?1X0 ? 0.05346

Por tanto el intervalo de predicción al 95% de nivel de confianza es:

19.22?2.074 10.6239(1?0.05346) ?Y0 ?19.22?2.074 10.6239(1?0.05346)
Que se reduce al intervalo de predicción de:
12.28 ? Y0 ? 26.16

3.6 Extrapolación oculta
AL predecir la respuesta promedio en un punto X0, se debe tener cuidado de no extrapolar más allá
de la región que contiene las observaciones originales, ya que el ajuste puede no ser adecuado en
esas regiones.

Monografias.com

Para un procedimiento formal, se define el conjunto convexo más pequeño que contiene todos los n
puntos originales (Xi1, Xi2, ….., Xik), i=1, 2, 3, ….,n, como la variable regresora envolvente o cáscara
(Regressor Variable Hull – RVH). Si un punto X0’ = [X01, X02, …, X0k ] se encuentra fuera de la
variable RHV entonces se requiere extrapolación. El lugar de ese punto en relación con la RVH se
refleja mediante:
-1

Los puntos h00 > hmax están fuera del elipsoide que encierra la RVH y son puntos de extrapolación.
-1
extrapolación oculta. En general el punto que tiene el mayor valor de hii o hmax se encuentra en la
frontera de la RVH. El conjunto de puntos X que satisfacen el modelo:

-1
es un elipsoide que engloba todos los puntos dentro de la variable RVH.
Para el caso del ejemplo del embotellador se tiene:
x’
Etc..
(X'X)
-1
-1
X1’(X’X)
primero
–
0.0352184 0.0120421 0.0003
Segundo
–
0.0814614 0.0067458
4E-05
-1

La tabla completa se muestra a continuación:
hmax

Monografias.com

X1_envases
1600
1400
1200
1000
800
600
400
200
0
Los puntos para los cuales hoo sea mayor a hmax, se encuentran fuera del elipsoide, generalmente
entre menor sea el valor de hoo es más probable que se encuentre en el elipsoide.

En la tabla la observación 9 tiene el valor mayor de hii. Como el problema solo tiene dos regresores se
puede examinar en un diagrama de dispersión como sigue:
Scatterplot of X1_envases vs X2_Distancia
30

0
X2_Distancia

Se confirma que el punto 9 es el mayor valor de hii en la frontera de la RHV.
Ahora supongamos que se desea considerar la predicción o estimación para los puntos siguientes:
Todos los puntos se encuentran dentro del rango de los regresores X1 y X2. El punto a es de
interpolación puesto que hoo < = hmax (0.05346 < 0.49829) todos los demás son puntos de
extrapolación ya que exceden a hmax, lo que se confirma en la gráfica de dispersión.

Inferencia simultanea en la regresión múltiple
Indica que se pueden hacer inferencias en forma simultanea

Monografias.com

ˆ
3.6 Evaluación de la adecuación del modelo
Como se comentó anteriormente, los residuos ei del modelo de regresión múltiple, juegan un papel
importante en la evaluación de la adecuación del modelo, de forma similar que en la regresión lineal
simple. Es conveniente graficar los residuos siguientes:

1. Residuos en papel de probabilidad normal.
2. Residuos contra cada uno de los regresores X’s.
3. Residuos contra cada Yi,i ?1,2,…,k
4. Residuos en secuencia de tiempo ( si se conoce)

Estas gráficas se usan para identificar comportamientos anormales, outliers, varianza desigual, y la
especificación funcional equivocada para un regresor. Se pueden graficar los residuos sin
escalamiento o con un escalamiento apropiado.

Existen algunas técnicas adicionales de análisis de residuos útiles en el análisis de la regresión
múltiple, como se describen a continuación.

Gráficas de residuos contra regresores omitidos en el modelo
Estas gráficas podrían revelar cualquier dependencia de la variable de respuesta Y contra los factores
omitidos, se esta forma se puede analizar si su incorporación mejora la explicación del modelo.

Gráficas de residuos parciales
Estas gráficas están diseñadas para revelar en forma más precisa la relación entre los residuos y la
variable regresora Xj. Se define el residuo parcial i-ésimo para el regresor Xj como sigue:
*
eij ? ei ?bjXij,i ?1,2,….,n
(3.35)
La gráfica de
*
eij
contra
X ij se denomina Gráfica de residuo parcial. Esta gráfica sirve para detectar
Outliers y desigualdad de varianza, dado que muestra la relación entre Y y el regresor Xj después de
haber removido el efecto de los otros regresores Xi (I< >j), es el equivalente de la gráfica de Y contra Xj
en regresión múltiple.

Gráficas de regresión parcial
Son gráficas de residuos de los cuales se ha removido la dependencia lineal de Y sobre todos los
regresores diferentes de Xj, así como su dependencia lineal de otros regresores. En forma matricial se
eY|X( j),eX j|X( j)
pueden escribir estas cantidades como
regresor j-ésimo removido.

del modelo general en forma matricial:

Y ? X? ?? ? X( j)? ? X j? j ??
donde X(j) es la matriz original X con el

(3.36)
Premultiplicando por [ I
?H( j) ] y notando que (1?H( j))X( j) ?0 se tiene:
eY|X( j) ? ? jeX j|X( j) ?(1?H( j))?
(3.37)
Algunos programas como SAS generan gráficas de regresión parcial. Gráficas de regresores Xi versus
Xj.

Estas gráficas pueden ser útiles para el análisis de la relación entre los regresores y la disposición de
los datos en el espacio X, donde pueden descubrirse puntos remotos del resto de los datos y que

Monografias.com

Yi* ? i
tienen influencia en el modelo. Si se encuentra que las variables regresoras están altamente
correlacionadas, puede no ser necesario incluirlas ambas en el modelo. Si dos o más regresores
están altamente correlacionados, se dice que hay multicolinealidad en los datos, esto distorsiona al
modelo.

**
** * *
** *
**
** *
**
***

Xj
Fig. 3.1 Gráfica de Xi versus Xj

Método de escalamiento de residuos
Es difícil hacer comparaciones directas entre los coeficientes de la regresión debido a que la magnitud
de bj refleja las unidades de medición del regresor Xj. Por ejemplo:
ˆ
Y ?5? X1 ?1000X 2
(3.38)
Donde Y esta medida en litros, X1 en mililitros y X2 en litros. Note que a pesar de que b2 es mucho
mayor que b1, su efecto en la variable de respuesta es idéntico. Por lo anterior algunas veces es
importante trabajar con regresores y variables de respuesta con escala cambiada, de tal forma que
produzcan coeficientes de regresión sin dimensiones.

Existen dos técnicas para esto. La primera se denomina escala unitaria normal,
X ij ? X j
S j
Zij ?
Con i = 1, 2, ……., n;
j = 1, 2, ………, k
(3.39)
Y ?Y
Sy
Con i = 1, 2, ……., n
(3.40)
De esta forma el modelo de regresión se transforma en:
Yi* ?b1Zi1 ?b2Zi2 ?b3Zi3 ?………?bkZik ??i
i = 1, 2, …….., n(3.41)
(3.42)
En este modelo b0 = 0 y el estimador de mínimos cuadrados para b es:

b ?(Z'Z)?1Z'Y *

El otro método de escalamiento es el escalamiento de longitud unitaria,
X ij
S jj
Wij ?
,
i = 1, 2, ……, n; j = 1, 2, …….., k
(3.43)

Monografias.com

Yi0 ? i
S jj ??(X ij ? X j)2
?(Wij ?Wj)2 ?1
?r 1,r ……r ?
W'W ? ? 2k ?
?(X
__
Y ?Y
SYY
,
i = 1, 2, ……….., n
(3.44)
__
(3.45)
Esta última es la suma de cuadrados corregida para el regresor Xj. En este caso cada regresor Wj
tiene media cero y longitud uno.

__
W j ? 0
(3.46)
n

i?1

En términos de las variables de regresión, el modelo queda como:
Yi0 ?b1Wi1 ?b2Wi2 ?……..?bkWik ??i,
i = 1, 2, ……, n
(3.47)
(3.48)
El vector de mínimos cuadrados de los coeficientes es:

b ?(W'W)?1W'Y 0

La matriz de correlación W’W en la escala unitaria tiene la forma:

?1,r 12,r 13……r 1k?

12, 23
?……………… ?
? ?
?r 1k,r2k,r3k….1?

Donde rijes la correlación simple entre Xi y Xj.
Sij
SiiS jj
?
rij ?
n

u?1
__ __
ui ? X i)(X uj ? X j)

SiiS jj
(3.49)
De forma similar

?r 1Y ?
W'Y 0 ? ? 2Y ?
?…. ?
? ?
?rKY ?

Monografias.com

?(X uj ? X j)(Yu ?Y)
b0 ? Y ??bj X
Donde rjy es la correlación simple entre el regresor Xj y la respuesta Y:
S jY
S jjSYY
SiiSYY
?
rjy ?
n __ __

u?1
(3.50)
Si se utiliza la escala normal unitaria, la matriz Z’Z está relacionada con W’W como sigue:
Z’Z = (n – 1) W ’W
(3.51)
Por lo que no importa que método se utilice para escalamiento, ambos métodos producen el mismo
conjunto de coeficientes de regresión sin dimensiones b.

La relación entre los coeficientes originales y los estandarizados es:
SYY
SJJ
ˆ
bj ? bj
j = 1, 2, ….., k
(3.52)
y
j
___ k ___

j?1
(3.53)
Si las variables originales difieren mucho en magnitud, los errores de redondeo al calcular X’X pueden
ser muy grandes aún utilizando computadora, es por esto que los programas muestran tanto los
valores originales como coeficientes de regresión estandarizados (coeficientes Beta). Por tanto se
debe tener cuidado de usar éstos últimos para medir la importancia relativa del regresor Xj.

Ejemplo 3.5
Calculando los coeficientes de correlación entre las diferentes variables, se tiene:
Con Minitab:

Stat > Basic statistics > Correlation
Variables Y_tiempo, X1_envases, X2_Distancia
OK

Correlations: Y_tiempo, X1_envases, X2_Distancia

Y_tiempo X1_envases
X1_envases 0.965
0.000

X2_Distancia 0.892 0.824
0.000 0.000

r12 = 0.824215
r1y = 0.964615
r2y = 0.891670

La matriz de correlación para este problema W’W es:

Monografias.com

? ?
ˆ
ˆ
ˆ
ˆ
?1.000000, 0.824215?
?

Las ecuaciones normales en términos de los coeficientes de la regresión estandarizados son:
?1.000000, 0.824215??b1? ?0.964615?
?0.824215, 1.000000??b2? ? ?

Por tanto:

?b1? ?3.11841, ?2.57023??0.964615? ?0.716267?
?b2? ??2.57023, 3.11841?? ? ? ?

El modelo ajustado es:

Y 0 ? 0.716267W 1 ?0.301311W2

De esta forma incrementando el valor estandarizado de envases W1 en una unidad incrementa la
unidad estandarizada de tiempo en 0.7162. Además incrementando el valor estandarizado de la
distancia W2 en una unidad, incrementa la respuesta en 0.3013 unidades. Por lo tanto parece ser que
el volumen de producto surtido es más relevante que la distancia, con ciertas precauciones dado que
los coeficientes b’s son sólo coeficientes parciales de regresión.

2
SSR
SST
5550.816
5784.5426
? 0.9596
R2 ?

R2 ?
Por lo anterior el 96% de la variabilidad en tiempo de entrega es explicada por los dos regresores
cantidad de surtimiento X1 y distancia X2. El índice R2 siempre se incrementa cuando se agrega una
nueva variable al modelo de regresión, aunque sea innecesaria.

__
2
innecesarias en el modelo. Se calcula como sigue:
(1? R2)
N ?1
N ? p
?1?
SSE/(N ? p)
SST /(N ?1)
__2
R ?1?
Para el ejemplo se tiene:
(1?0.9596) ? 0.9559
25 ? 1
25?3
__2
R ?1?
Residuos estandarizados y estudentizados
Los residuos se estandarizan como sigue:

Monografias.com

,
ei
MSE
di ?
i = 1, 2, ………., n
(3.54)
Para los residuos estudentizados, utilizamos el vector de residuos:

e = (I – H ) Y
(3.55)
donde

-1

Esta matriz tiene las propiedades siguientes:
1. Es simétrica, es decir H’ = H.
2. Es idempotente, es decir H H = H.
3. En forma similar la matriz I – H es simétrica e idempotente.

Por tanto se tiene:

e ?(I ?H)(X? ??) ? X? ?HX? ?(I ?H)? ? X? ? X(X'X)?1X'X? ?(I ?H)?
e = (I – H) ?
(3.55)
De esta forma los residuos tienen la misma transformación lineal para las observaciones Y y para los
errores ?.

La varianza de los residuos es:
Var(e) ?? 2(I ? H)
(3.56)
Como la matriz I – H no es diagonal, los residuos tienen diferentes varianzas y están correlacionados.
La varianza del residuo i-ésimo es:
V(ei) ?? 2(1?hii)
(3.57)
Donde hii es el elemento diagonal i-ésimo de H.

Tomando esta desigualdad de varianza en cuenta, varios autores recomiendan para escalamiento de
los residuos, graficar los residuos “estudentizados” siguientes en lugar de ei (o di):
,
i
ei
MSE(1?hii)
r ?
i = 1, 2, ………., n
(3.58)
Los residuos estudentizados tienen varianza constante = 1, independientemente de la localización de
Xi, cuando la forma del modelo es correcto. A pesar de que los residuos estandarizados y los
estudentizados proporcionan casi la misma información, como cualquier punto con residuo y hii
grande tiene una influencia potencial en el ajuste de mínimos cuadrados, se recomienda el análisis de
los residuos estudentizados.

La covarianza entre ei y ej es:
Cov(ei,ej) ? ?? 2hij
(3.59)

Monografias.com

PRESS ??e( 2 i) ???Yi ?Y ˆ(i)?
? ei
PRESS = ?? ?
? ?
De tal forma que otra forma de escalamiento de residuos es transformar los residuos n dependientes
en n-p funciones ortogonales de los errores ?.

Residuos PRESS – Suma de cuadrados del error de predicción

La suma de cuadrados del error de predicción (PRESS) propuesto por Allen (1971) proporciona un
escalamiento útil para los residuos. Para calcular PRESS, seleccione una observación, por ejemplo (i),
Ajuste el modelo de regresión a las observaciones remanentes (N – 1), usando la ecuación para
predecir la observación retenida (Yi). Denotando el error de predicción como:
ˆ
e(i) ?Yi ?Y(i)
(3.60)
El error de predicción es normalmente denominado el residuo i-ésimo PRESS, el procedimiento se
repite para cada una de las observaciones i = 1, 2, ….., N, produciendo los residuos PRESS
correspondientes. Así el estadístico PRESS se define como la suma de cuadrados de los N residuos
PRESS, como:
2
N

i?1
(3.61)
Así PRESS utiliza cada uno de los posibles subconjuntos de N – 1 observaciones como el conjunto de
datos de estimación, y cada observación en turno es usada para formar el conjunto de datos de
predicción.

Como:
ei
1?hii
e(i) ?
(3.62)
Entonces:
?
?
2
N
i?1 ?1?hii
(3.63)
De esta forma se observa que los residuos asociados con valores altos de hiiserán puntos de alta
influencia, donde si se excluyen mostrarán un ajuste pobre del modelo.

La varizanza del residuo i-ésimo PRESS es:
Var(e(i)) ?
? 2
1?hii
(3.64)
Y el residuo PRESS estandarizado es:
e(i)
V(e(i) )
?
ei
? 2(1?hii)
(3.65)
2
discutido previamente.

R- STUDENT

Monografias.com

Otro método para diagnosticar la presencia de outliers o puntos de alta influencia es el residuo
estudentizado R – Student donde la estimación de la varianza se hace excluyendo la j-ésima
observación, como sigue:
S 2) ?
(N ? p)MSE ?e2 /(1?hii)
n? p ?1
i
(i
i = 1, 2, ……….., n
(3.66)
y el residuo estudentizado externamente R – Student, está dado por:
,
(i
e(i)
S 2)(1?hii)
ti ?
i = 1, 2, ……….., n
(3.67)
En muchas situaciones este residuo puede diferir del residuo estudentizado ri . Si la observación i-
ésima tiene influencia, entonces
S2) ? MSE
(i
y el estadístico R-student será más sensible a este
punto. También ofrece una prueba más formal de prueba de hipótesis de outliers, ya que se puede
comparar todos los n valores de |ti |.versus.t(? /2n),n?p?1.

2
PRESS
SYY
2
RPredicción ?1?
(3.68)
Para el ejemplo de las bebidas se tiene:
2
457.4
5784.5426
2
? 0.9209
RPredicción ?1?
Por lo que esperaríamos que este modelo explicara aproximadamente el 92% de la variabilidad al
predecir nuevas observaciones, que se compara con el 95.96% de la variabilidad en los datos
originales explicados por el ajuste de mínimos cuadrados.

Tabla de residuos
R Student
2
Montgomery, Douglas C., Peck, Elizabeth A., Introduction to Linear Regression Analysis, 2º edition,
John Wiley and Sons, Nueva York, 1991, p. 176

Monografias.com

?bj(X ij ? X i' j)?
D ???
?
j?1?
?
MSE
0.07824
0.04111
0.16594
0.05943
0.09626
0.09645
0.10169
0.16528
0.39158
0.04126
0.12061
0.06664
19.75
24
29
15.35
19
9.5
35.1
17.9
52.32
18.75
19.83
10.75
18.6825
23.3288
29.6629
14.9136
15.5514
7.7068
40.8880
20.5142
56.0065
23.3576
24.4029
10.9626
1.0675
0.6712
-0.6629
0.4364
3.4486
1.7932
-5.7880
-2.6142
-3.6865
-4.6076
-4.5729
-0.2126
0.3275
0.2059
-0.2034
0.1339
1.0580
0.5501
-1.7757
-0.8020
-1.1310
-1.4136
-1.4029
-0.0652
0.3411
0.2103
-0.2227
0.1380
1.1130
0.5788
-1.8736
-0.8778
-1.4500
-1.4437
-1.4961
-0.0675
1.1581
0.7000
-0.7948
0.4639
3.8159
1.9846
-6.4432
-3.1318
-6.0592
-4.8059
-5.2000
-0.2278
11.0712
11.1077
11.1050
11.1204
10.5034
10.9606
9.3542
10.7402
10.0664
10.0756
9.9977
11.1278
1.3413
0.4900
0.6317
0.2152
14.5614
3.9387
41.5145
9.8082
36.7137
23.0963
27.0403
0.0519
0.3625
0.2145
-0.2612
0.1434
1.2386
0.6306
-2.2227
-1.0460
-2.4484
-1.5463
-1.7537
-0.0707
PRESS
459.03907
3.7 Estimación del error puro a partir de vecinos cercanos
Para la regresión lineal, la suma de cuadrados del error puro SSPE se calcula utilizando respuestas
replicadas en el mismo nivel de X. La suma de cuadrados del error o residual se parte en un
componente debido al error “puro” y un componente debido a la falta de ajuste o sea:
SSE = SSPE + SSLOF

Esto mismo podría extenderse a la regresión múltiple, donde el cálculo de SSPE requiere
observaciones replicadas en Y con el mismo nivel de las variables regresoras X1, X2, ……, Xk, o sea
que algunas de las filas de la matriz X deben ser las mismas. Sin embargo estas condiciones
repetidas no son comunes y este método es poco usado.

Daniel y Wood han sugerido un método para obtener un estimado del error independiente del modelo
donde no hay puntos repetidos exactos. El procedimiento busca puntos en el espacio X que son
“vecinos cercanos” es decir observaciones que se han tomado con niveles cercanos de Xi1, Xi2, …, Xik.
Las respuestas Yi de tales “vecinos cercanos” pueden ser consideradas como réplicas a usar para el
cálculo del error puro. Como una medida de la distancia entre dos puntos Xi1, Xi2, …, Xik y Xj1, Xj2, …,
Xjkproponen el estadístico de suma de cuadrados ponderados de la distancia como:
2
k
2
ii
(3.69)
Los pares de puntos que tienen esta distancia pequeña son vecinos cercanos sobre los cuales se
puede calcular el error puro, y los que generan
2
Dii ??1 están ampliamente separados en el espacio
X.

El estimado del error puro se obtiene del rango de los residuos en el punto i e i’, como sigue:
Ei ?|ei ?ei' |
(3.70)
Hay una relación entre el el rango de una muestra de una distribución normal y la desviación estándar
de la población. Para muestras de tamaño 2, la relación es:
E
1.128
ˆ
R
d2
? 0.886E
?
? ?
Esta desviación estándar corresponde al error puro.

Monografias.com

? ? u 1Eu
Un algoritmo para calcular la desviación estándar estimada es como sigue:

1. Arreglar los conjuntos de datos de puntos X’s en orden ascendente de Yi-est.
2. Calcular los valores de
2
Dii , para todos los N-1 pares de puntos con valores adyacentes de Y-est.
Repetir el procedimiento para los pares de puntos separados por uno, dos o tres valores intermedios
de Y-est. Lo cual producirá (4 N – 10) valores de
2
Dii .
4. Arreglar los (4 N –10) valores de
2
Dii en orden ascendente. Sea Eu, u = 1, 2,…, 4N-10, sea el
rango de los residuos en esos puntos.
5. Para los primeros m valores de Eu, calcular un estimado de la desviación estándar del error puro
como:
0.886 m
m
ˆ
? ?
No se deben incluir Eu para los cuales la suma de las distancias cuadradas ponderadas sea muy
grande.
Ejemplo 3.6 La tabla 4.9 muestra el cálculo de
2 ˆ
Dii para pares de puntos que en términos de Y son
adyacentes, en uno, dos y tres puntos. Las columnas R en la tabla identifican a los 15 valores más
pequeños de
2
Dii .

Monografias.com

Los 15 pares de puntos se usan para estimar ? = 1.969. Sin embargo de una tabla anterior se había
calcualdo
MSE ? 10.6239 ?3.259. Por otro lado no se observa falta de ajuste y esperaríamos
ˆ
ˆ
haber encontrado que ? ? MSE. Sin embargo en este caso MSE es sólo del 65% mayor que
? , indicando una cierta falta de ajuste, lo cual puede ser debido a el efecto de regresores no
presentes en el modelo o la presencia de uno o más outliers.

Determinación de la Desviación estándar

Monografias.com

?h
? i
Desviación estándar
Diagnóstico de influyentes
A veces un pequeño grupo de puntos ejerce una influencia desproporcionada en el modelo de
regresión, se deben revisar con cuidado, si son valores “mal” tomados, se deben eliminar, de otra
forma se debe estudiar el porqué de su ocurrencia.

Puntos influyentes
Son observaciones remotas que tienen un apalancamiento desproporcionado potencial en los
parámetros estimados, valores de predicción, y estadísticas en general.

Hoaglin y Welsch discuten el papel de la matriz sombrero H donde sus elementos de la diagonal
principal (hij) puede ser interpretado como la cantidad de influencia ejercida por Yj en
ˆ
Yi .
Así,
enfocando
la
atención
en
los
elementos
de
la
diagonal
de
la
matriz
H,
como
ii
n

i?1
? rango(H) ? rango(X) ? p , el tamaño medio de un elemento en la diagonal principal es
p/n. Por tanto si un elemento de la diagonal principal
hii ? 2p/n, la observación (i) es un punto con
apalancamiento alto.

Medidas de influencia: la D de Cook
Cook sugirió un diagnóstico de eliminación, es decir, mide la infuencia de la pésima observación si
se eliminara de la muestra. Sugiere medir la distancia cuadrada entre el estimado de mínimos
cuadrados basado en todos los n puntos b y el estimado obtenido al borrar el i-ésimo punto b(i) , esta
distancia se expresa como:
,i ?1,2,……,n
(b(i) ?b)'M(b(i) ?b)
c
Di(M,c) ?
(3.71)
Donde M = X’X y c = pMSe, obteniéndose:
,i ?1,2,……,n
(b(i) ? b)'X'X(b(i) ? b)
pMSe
Di(M,c) ?
(3.72)
.
Los puntos con valores grandes de Di tienen una influencia considerable en los estimadores de
mínimos cuadrados b. La magnitud de Di puede evaluarse comparándola con F?,p,n?p. Si
Di ? F5,p,n?p, entonces al borrar el punto i moverá a b al límite del intervalo de confianza del 50%
para ? con base en el conjunto de datos completo. Como
.
F5,p,n?p ?1 normalmente se considera que
los puntos donde
Di ?1
tendrán influencia. Idealmente cada
b(i)deberá permanecer dentro de la
banda del 10 a 20% de la región de confianza.

Otra forma de escribir el estadístico Di es:
i ˆ
r2 V(Yi)
p V(ei)
,???i ?1,2,……,n
r2 hii
p (1?hii)
Di ?
(3.73)

Monografias.com

DFFITSi ? ? ?
? ?
Así Di está formado por un componente que refleja que tan bien se ajusta el modelo a la i-ésima
observación Yi y un componente que mide que tan lejos se encuentra el punto del resto de los datos.
Uno o ambos componentes pueden contribuir a un valor grande de Di .

Por ejemplo para el caso de tiempos de entrega para la primera observación se tiene:
? 0.10009
0.1018
(1?0.1018)
?1.62772
3
?
i
r2 hii
p (1?hii)
Di ?
En la tabla mostrada abajo el valor máximo de Di = D9 = 3.41835, indicando que el punto 9 tiene una
alta influencia en el estimado de los coeficientes Beta, se consideran como influyentes los puntos
mayores a 1. También es la distancia euclidiana al cuadrado que se mueve el vector de los valores
estimados cuando elimina la i-ésima observación.

Influencia en los valores estimados (DFFITS) y en los parámetros estimados (DFBETAS)
También se puede investigar la influencia de la observación i-ésima en la predicción de un valor. Un
diagnóstico razonable es:
ˆ ˆ
(i
,i ?1,2,………,n
Yi ?Y(i)
S 2)hii
DFFITSi ?
(3.74)
Donde
ˆ
Y(i) es el valor estimado de Yi obtenido sin el uso de la iésima observación, el denominador
es una estandartización, por tanto DFFITS es el número de desviaciones estándar que el valor
estimado
Yi
ˆ
cambia si la observación i-ésima es removida. Computacionalmente se tiene:
ti
1/2
?
?
? hii
?1?hii
(3.75)
Donde ti es la R-student.

Por lo general merece atención cualquier observación donde
n
DFFITSi ? 2 p
(3.76)
Para el caso de DFBETAS, indica cuánto cambia el coeficiente de regresión Beta(j) en unidades de
desviación estándar, si se omitiera la i-ésima observación.
(i
ˆ ˆ
? j ?? j(i)
S 2)C jj
DFBETAS j,i ?
C jj es el j-ésimo elemento diagonal de la matriz (X’X)-1
? j
ˆ
es el j-ésimo coeficiente de regresión, calculado sin usar la i-ésima observación. Un valor grande
de DFBETAS indica que la i-ésima observación tiene grana influencia sobre el j-ésimo coeficiente de
regresión.

Monografias.com

-1
observaciones de la muestra tienen sobre Beta. Si r’j es el j-ésimo renglón de R, se tiene:
ti
1?hii
rj,i
rj'rj
DFBETAS j,i ?
n elementos
Ejemplo de cálculo:
Renglón R = (X'X)-1X'
j=1

j=2
j=3
1
2
3
4
5
6
7
8
9
10
1
12
13
14
15
16
17
18
19
20
21
22
23
R'

Monografias.com

? i
DFFITSi ? ? ?
? ?
C
Atender Di > 1
Atender DFFITS > 2*raiz(p/n)
0.69282032
Atneder DFBETAS > 2/raiz(n)
0.4
-1.991908828
i ˆ
r2 V(Yi)
p V(ei)
,???i ?1,2,……,n
r2 hii
p (1?hii)
Di ?
ti
1/2
?
?
? hii
?1?hii
ti
1?hii
rj,i
rjrj
DFBETAS j,i ?
0.035217
0.3364746
-1.8878

0.9477341
Calculo de
Bo,i
r(0,1) =
raiz(Cjj)
t1 =
raiz(1-h11)
=
–
0.20848235
Tabla 6.1 Esatdísticas para detectar observaciones influyentes
MSE =

Monografias.com

(a)
R
Student
(b)
(c )
(d)
(e )
(f)
De acuerdo a los puntos de corte de DFFITS de 0.69, los puntos 9 y 22 excend este valor por lo que
se consideran influyentes.
Con base en el punto de corte de DFBETAS de 0.4, los puntos 9 y 22 tienen efectos grandes sobre
los tres parámetros. La eliminación del punto 9 da como resultado que la respuesta estimada se
desplace en en más de cuatro desviaciones estándar.

Medida de desempeño del modelo
Como medida escalar de la precisión general de la estimación, se usa el determinante de la matriz de
covarianza, denominada varianza generalizada, para expresar el papel de la i-ésima observación en la

Monografias.com

(S(2 i)) p ? 1 ?
MSRe p s ? ?hii ? ?
estimación de la precisión de la estimación, se define la relación de covarianzas (COVRATIOi) como
sigue:
? ?
COVRATIO?
'
(X(i)X(i))?1 /(X ' X)?1 , por lo que un punto de alto balanceo
Notar que [1/(1-hii)] es la relación de
hará que COVRATIOi, sea grande.
Si
COVRATIOi ?1?3p/n o
COVRATIOi ?1?3p/n
se debería considerar el i-ésimo punto como influyente.
Ejemplo:
En el caso de los refrescos: el corte para COVRATIOi es 1+-3*3/25 o sea (0.64, 1.66), se puede
observar de la tabla que se salen los puntos 9 y apenas el 22.

Multicolinealidad
La multicolinealidad implica una dependencia cercana entre regresores (columnas de la matriz X ), de
tal forma que si hay una dependencia lineal exacta hará que la matriz X’X se singular. La presencia de
dependencias cercanamente lineales impactan dramáticamente en la habilidad para estimar los
coeficientes de regresión.

La varianza de los coeficientes de la regresión son inflados debido a la multicolinealidad. Esta es
evidente por los valores diferentes de cero que no estan en la diagonal principal de X’X. Los cuales se
denominan correlaciones simples entre los regresores. La multicolinealidad puede afectar seriamente
la precisión con la cual los coeficientes de regresión son estimados.

Entre las fuentes de colinealidad se encuantran:
? El método de recolección de datos empleado.
? Restricciones en el modelo o en la población.
? Especificación del modelo.
? Un modelo sobredefinido.

Los elementos de la diagonal principal de la matriz X’X se denominan Factores de inflación de
varianza (VIFs) y se usan como un diagnóstico importante de multicolinealidad. El factor para el
coeficiente j-ésimo coeficiente de regresión es:
j
1
1? R2
VIFj ?
(3.77)
j
R2es el coeficiente de determinación múltiple obtenido al hacer una regresión de Xj con con todos los
demás regresores. Si Xj es casi linealmente dependiente de algunos de los otros regresores, entonces
2
que si es mayor a 10 implica que se tienen serios problemas de multicolinealidad.

Los modelos de regresión que tienen presente multicolinealidad muestran ecuaciones de predicción
pobres y los coeficientes de regresión son muy sensibles a los datos en la muestra colectada en
particular. En comparación con el caso de regresores ortogonales que son muy estables (imaginar un
plano encima).
Y
Y

Monografias.com

X'X ? ?
? ? (X'X)
?
W'W ? ?
?0.824215,1.00000?
(W'W)?1 ? ?
??2.57023,3.11841?
?
X1
X2
X1
X2
a) Datos con multicolinealidad b) Regresores ortogonales
(muy inestable)
(muy estable)
Fig. 3.2 Efectos de la colinealidad en la estabilidad
del sistema
En la figura anterior, un sistema ortogonal se obtiene de los datos siguientes:
X1
X2
5
10
5
10
5
10
5
10
20
20
30
30
20
20
30
30
Asumiendo que se utiliza el escalamiento unitario para los coeficientes de regresión, se obtiene:
?1
?1,0?
?0,1?
Las varianzas de los coeficientes estandarizados de regresión b1,b2 son:
?1
?
V(b2)
? 2
V(b1)
2
Y un sistema con colinealidad es:

?1.00000,0.824215?
?
donde
?3.11841,?2.57023?
?
Las varianzas de los coeficientes estandarizados de regresión b1,b2 son:
? 3.11841
?
V(b2)
? 2
V(b1)
2
Se observa que están infladas debido a la multicolinealidad.

4. MODELOS DE REGRESIÓN POLINOMIAL
4.1Introducción
El modelo de regresión lineal en forma matricial Y ? ?X ?? es un modelo general para estimar
cualquier relación que sea lineal en los parámetros desconocidos ?. Esto incluye a los modelos de
regresión polinomial de segundo orden en una variable y en dos variables. Los cuales son

Monografias.com

2
ampliamante utilizados en situaciones donde la respuesta es curvilinea o muy compleja, pero que
puede ser modelada por polinomios en una región con pequeños rangos en las X’s.

Y ? ?0 ??1X1 ??2X2 ??11X1 ??22X2 ??12X1X 2 ??
4.2.
Modelos polinomiales en una variable
El modelo denominado cuadrático es el siguiente:

Y ? ?0 ??1X ??2X 2 ??

Normalmente se denomina a ?1 el parámetro del efecto lineal y ?2 el parámetro del efecto
cuadrático. Como regla general el uso de polinomios de más alto orden debe evitarse a menos que no
haya otra alternativa.

5. REGRESIÓN MÚLTIPLE POR PASOS (Stepwise)
Introducción
El análisis de regresión es usado para investigar y modelar las relaciones entre una variable de
respuesta y uno o más predictores. Minitab proporciona mínimos cuadrados, mínimos cuadrados
parciales, y procedimientos de regresión logística.

? Usar mínimos cuadrados cuando la variable de respuesta sea continua.

? Usar procedimientos de mínimos cuadrados cuando los predictores sean altamente
correlacionados o excedan al número de observaciones.

? Usar regresión logística cuando la variable de respuesta sea categórica.

Tanto el método de regresión por mínimos cuadrados como la regresión logística estiman parámetros
en el modelo de manera que se optimice su ajuste.

La regresión por mínimos cuadrados, minimiza la suma de cuadrados de los errores para obtener los
parámetros estimados, mientras que la regresión logística obtiene estimados de los parámetros con la
máxima verosimilitud.

La regresión de cuadrados parciales (PLS) extrae combinaciones lineales de los predictores para
minimizar el error de predicción.
Usar…
Para…
Tipo de
Método de
respuesta estimación
Regression Realizar regression simple, multiple o
regression polynomial por mínimos
cuadrados.
continua
Mínimos
cuadrados
Stepwise
Realizar regresión por pasos, selección de
variables hacia adelante, o eliminación de
variables hacia atrás para identificar un
conjunto útil de predictores.
continua
Mínimos
cuadrados
Best
Subsets
Identificar subconjuntos de los predictores
con base en el criterio R máximo.
continua
Mínimos
cuadrados
Plot
Fitted Line Realizar regresión lineal y polinomial con un
predictor simple y graficar una línea de
regresión a través de los datos.
continua
Mínimos
cuadrados

Monografias.com

PLS
Realizar regression con datos mal
condicionados (ver explicación abajo).
continua
biased, non-
least
Binary
Logistic

Ordinal
Logistic

Nominal
Logistic
Realizar regresión logística sobre una
respuesta que solo tiene dos valores
posibles, tal como presencia o ausencia.
Realizar regresión logística en una
respuesta que con tres o más valores
posibles que tienen un orden natural, tal
como: ninguno, medio o severo.
Realizar regresión logística en una
respuesta con tres o más valores posibles
squares
categórica máxima
verosimilitud

categórica máxima
verosimilitud

categórica máxima
verosimilitud
que no tienen un orden natural, tal como:
dulce, salado, o ácido.

Datos mal condicionados
Los datos mal condicionados se refieren a problemas en las variables predoctoras, las cuales pueden
causar dificultades computacionales y estadísticas. Se presentan dos tipos de problemas:
multicolinealidad y un pequeño coeficiente de variación.

Multicolinearidad
La multicolinealidad significa que ambos predictores estan correlacionados con otros predictores. Si la
correlación es alta, se pueden calcular los valores estimados y los residuos, pero el error estándar de
los coeficientes será grande y su exactitud numérica puede ser afectada. Se recomienda eliminar una
de las variables correlacionadas.

Para identificar los predictores que están altamente correlacionados, se puede examinar la estructura
de las variables predoctoras y hacer una regresión con cada uno de los predictores sospechosos y los
otros predictores. Se puede también revisar el factor de inflación VIF, que mide cuanto de la varianza
de un coeficiente de regresión se incrementa, si los predictores están correlacionados. Si el VIF < 1,
no hay colinealidad, pero si VIF > 1, los predictores pueden estar correlacionados. Montogomery
sugiere que si se sobrepasa el límite de 5 a 10, los coeficientes tienen una estimación deficiente.
Algunas soluciones al problema de multicolinealidad son:
2
? Cambiar los predictores formando una combinación lineal con ellos usando la regresión parcial de
mínimos cuadrados o análisis de componentes principales.
? Si se usan plinomios, restar un valor cercano a la media de un predictor antes de elevarlo al
cuadrado.
Coeficientes de variación pequeños
Los predictores con coeficientes de variación pequeños (porcentaje de la desviación estándar de la
media) y que casi son constantes, pueden causar problemas numéricos. Por ejemplo, la variable Año
con valores de 1970 a 1975 tiene un pequeño coeficiente de variación, las diferencias numéricas se
encuentran en el cuarto dígito. El problema se complica se Año es elevado al cuadrado. Se pude
restar una constante de los datos, reemplazando Año con Año_desde_1970 con valores de 0 a 5.

Regresión por pasos (Stepwise regression)

Stat > Regression > Stepwise
La regresión por pasos remueve y agrega variables al modelo de regresión con el propósito de
identificar un subconjunto útil de predictores. La regresión por pasos remueve y agrega variables; la
selección hacia delante agrega variables y la selección hacia atrás remueve variables.
? En este método de regresión por pasos, se puede iniciar con un conjunto de variables predoctoras
en Predictors in initial model. Estas variables se remueven si sus valores p son mayores que el
valor de Alpha to enter. Si se quieren conservar las variables en el modelo independientemente de su
valor p, seleccionarlas en Predictors to include in every model en la ventana principal de diálogo.

Monografias.com

? Cuando se selecciona el método de selección por pasos o hacia delante (forward), se puede poner
un valor de alfa para una nueva variables en Alpha to enter.
? Cuando se selecciona el método de eliminación hacia atrás, se puede establecer el valor de alfa
para remover una variable del modelo en Alpha to remove.
Entre los problemas que se presentan con el método automático de selección se tienen los siguientes:
? Como el procedimiento automáticamente “encuentra” el mejor de muchos modelos, puede ajustar
los datos demasiado bien, pero solo por azar.
? Los tres procedimientos automáticos son algoritmos heurísticos, que frecuentemente trabajan bien,
pero pueden no seleccionar el modelo con la R2 más alta (para un cierto número de predictores).
? Los procedimientos automáticos no pueden tomar en cuenta el conocimiento especial que le
analista puede tener sobre los datos. Por tanto, el modelo seleccionado puede no ser el mejor desde
el punto de vista práctico.
Ejemplo:
Los estudiantes de un curso introductorio de estadística participan en un experimento simple. Cada
estudiante registra su altura, peso, género, preferencia en fumar, nivel de actividad normal, y puso en
reposo. Todos lanzan una moneda, y aquellos que les salga sol, corren durante un minuto. Después
de esto el grupo coimpleto registra su pulso en reposo una vez más. Se desea encontrar los mejores
predictores para la segunda tasa de pulso.
Los datos se muestran a continuación:
PULSE.MTW

Monografias.com

Corrida en Minitab:
1
2
3
Open worksheet PULSE.MTW.
Presionar [CTRL] + [M] para activar la session de commandos.
Seleccionar Editor > Enable Commands de forma que Minitab despliegue la sesión de
comandos.
4
5
6
7
8
Ejecutar Stat > Regression > Stepwise.
En Response, seleccionar Pulse2.
En Predictors, seleccionar Pulse1 Ran-Weight.
Click Options.
In Number of steps between pauses, anotar 2. Click OK en cada una de las
ventanas de
diálogo.
9
En la ventana de sesión, en el primer More? prompt, contestar Yes.
10 En la ventana de sesión, en el primer More? prompt, contestar No.

Resultados:

Results for: Pulse.MTW
MTB > Stepwise 'Pulso2' 'Pulso1' 'Corrió'-'Peso';
SUBC> AEnter 0.05;
SUBC> ARemove 0.10;
SUBC> Best 0;
SUBC> Steps 2;
SUBC> Constant;
SUBC> Press.

Stepwise Regression: Pulso2 versus Pulso1, Corrió, …

Alpha-to-Enter: 0.05 Alpha-to-Remove: 0.1

Response is Pulso2 on 6 predictors, with N = 92
Step
1
2
Constant

Pulso1
T-Value
P-Value
10.28 44.48

0.957 0.912
7.42 9.74
0.000 0.000

Monografias.com

Corrió
T-Value
P-Value
-19.1
-9.05
0.000
S 13.5 9.82
R-Sq
R-Sq(adj)
37.97 67.71
37.28 66.98
Mallows C-p
103.2 13.5
PRESS 17252.4 9304.69
R-Sq(pred)
35.12 65.01
More? (Yes, No, Subcommand, or Help)

SUBC> Yes
Step
Constant

Pulso1
T-Value
P-Value

Corrió
T-Value
P-Value

Sexo
T-Value
P-Value
3
42.62

0.812
8.88
0.000

-20.1
-10.09
0.000

7.8
3.74
0.000
S 9.18
R-Sq
R-Sq(adj)
72.14
71.19
Mallows C-p
1.9
PRESS 8195.99
R-Sq(pred)
69.18
More? (Yes, No, Subcommand, or Help)

SUBC> No
MTB >

Interpretando los resultados
Este ejemplo usa seis predictores. Se requirío a Minitab intervenir para mostrar los resultados.
La primera “página” de salida proporciona los resultados para los dos primeros pasos. En el paso 1, la
variable Pulso1 entró al modelo; en el paso 2, entró la variable Corrio. No se removío ninguna variable
en ninguno de los dos pasos. En cada uno de los modelos, se mostró el término constante del
modelo, los coeficientes y su valor t de cada variable en el modelo, S (raíz de MSE), y R2.
Como se constestó “Yes” en “MORE?”, el procedimiento automático realizó un paso adicional,
agregando la variable “Sexo”. En este punto, no más variables entraron o salieron de modo que se
terminó el procedimiento automático, y otra vez preguntó por intervención, donde se indicó NO.
La salida por pasos está diseñada para presentar un resumen conciso de un número de modelos
ajustados.

6. REGRESIÓN POR MEJORES SUBCONJUNTOS HALLADOS (Best Subsets)

Monografias.com

La regresión de los mejores subconjuntos idnetifica los modelos de regresión que mejor ajusten los
datos con los predictores especificados. Es una forma eficiente de identificar modelos que logreen las
metas con los menores predictores que sea posible. Los modelos de subconjuntos pueden realmente
estimar los coeficientes de regresión y predecir respuestas futures con varianzas más pequeñas que
el modelo completo que utiliza todos los predictores.

Primero se evalúan los modelos que tienen un predictor, después los de dos predictores, etcetera. En
cada caso se muestra el mejor modelo.
Ejemplo:
El flujo de calor solar se mide ocmop parte de una prueba de energía térmica solar. Se desea ver
como se estima el flujo de calor con base en otras variables: aislamiento, posición de puntos focales
en el este, sur, y norte, y la hora del día. (datos de D.C. Montgomery and E.A. Peck (1982).
Introduction to Linear Regression Analysis. John Wiley & Sons. p. 486).
Los datos son los siguientes (Exh_regr.Mtw):
Instrucciones de Minitab:
1
2
3
4
Open worksheet EXH_REGR.MTW.
Seleccionar Stat > Regression > Best Subsets.
En Response, seleccionar Flujo_de_Calor.
En Free Predictors, seleccionar Aislamiento-Hora Click OK.
Los resultados se muestran a continuación:

Monografias.com

Results for: Exh_regr.MTW

Best Subsets Regression: Flujo_de_calor versus Aislamiento, Este, …

Response is Flujo_de_calor
A
i
s
l
a
m
i N
eE oH
nsSro
Mallows t t u t r
Vars R-Sq R-Sq(adj)
C-p
S oerea
1 72.1 71.0 38.5 12.328 X
1 39.4 37.1 112.7 18.154 X
2 85.9 84.8 9.1 8.9321 X X
2 82.0 80.6 17.8 10.076 X X
3 87.4 85.9 7.6 8.5978 X X X
3 86.5 84.9 9.7 8.9110 X X X
4 89.1 87.3 5.8 8.1698 X X X X
4 88.0 86.0 8.2 8.5550 X X X X
5 89.9 87.7 6.0 8.0390 X X X X X

Interpretando los resultados
Cada línea de la salidad representa un modelo diferente. Vars es el número de variables o predictores
en el modelo, R2 y R2 ajustada se convienten a porcentajes. Los predictores que están presentes se
indican con una X.

En este ejemplo, no es claro que modelo ajusta mejor a los datos.

? El modelo con todas las variables tiene la mayor R2 ajustada (87.7%), un valor bajo de Cp de
Mallows (6.0), y el menor valor de S (8.039).

? El modelo de cuatro predictores con todas las variables excepto la Hora, tiene un valor bajo de Cp
(5.8), la S es ligeramente mayor (8.16) y la R2 ajustada en ligeramente menor (87.3%).

? El mejor modelo de tres predictores incluye Norte, Sur, y Este, con un valor de Cp ligeramente más
alto (7.6) y un valor menor de R2 ajustado.

? El modelo con dos predictores podría ser considerado con el menor ajuste. Se puede observar que
el agregar la variable Este no mejora el ajuste del modelo.

Antes de seleccionar un modelo, se debe verificar si no se viola ninguno de los supuestos de la
regresión por medio de las gráficas de residuos y otras pruebas de diagnóstico, tales como las
siguientes.

Verificación de la adecuación del modelo
Características de un modelo de
regression adecuado
Checar usando…
Posibles soluciones
Relación lineal entre respuesta y
predictores
Prueba de Lack-of-fit (falta de ajuste)
Gráfica de Residuales vs variables
·
Agregar terminos de mayor orden al
modelo
·
Transformar variables.

Monografias.com

Los Residuales tienen varianza
constante.
Los Residuales son independientes
entre sí (no correlacionados).
Gráfica de Residuals vs estimados
(fits)
Estadístico de Durbin-Watson
Gráfica de Residualess vs orden
·
·
·
·
·
Transformar variables.
Mínimos cuadrados ponderados.
Agregar un nuevo predictor.
Usar análisis de series de tiempo.
Agregar variable defasada en
tiempo (lag).
Los Residuales están normalmente
distribuidos.
Histograma de residuales
Gráfica Normal de residuales
Gráfica de Residuales vs estimados
(fits)
Prueba de Normalidad
·
·
Transformar variables.
Checar puntos atípicos.
Observations No usuales, puntos
atípicos o outliers.
Gráficas de Residuales
Influyentes (Leverages)
Distancia de Cook's
DFITS
·
·
Transformar variables.
Eliminar la observación atípica.
Datos mal condicionados (ill
conditioned).
Factor de Inflación de Variance (VIF)
Matriz de correlación de predictores
·
·
Remover predictor.
Regresión de mínimos cuadrados
parciales.
·
Transformar variables.
Si se determina que el modelo no cumple con los criterios listados en la tabla, se debe:
1. Verificar si los datos se introdujeron correctamente, especialemente identificar puntos atípicos.
2. Tratar de determinar las causas del problema. Puedes querer ver que tan sensible es el modelo al
problema. Por ejemplo, si se observa un Outlier, correr el modelo sin esa observación, para ver como
difieren los resultados.
3. Considerar alguna de las soluciones listadas en la tabla.

7. REGRESIÓN POR MÍNIMOS CUADRADOS PARCIALES (PLS)
Usar reegresión de mínimos cuadrados parcial (PLS) para realizar una regresión sesgada, no de
mínimos cuadrados. PLS se utiliza cuando los predictores son muy colineales o se tienen más
predictores que observaciones, y la regresión lineal normal falla o produce coeficientes con altos
errores estándar. La PLS reduce el número de predictores a un conjunto de componentes no
correlacionados y realiza la regresión de mínimos cuadrados en esos componentes.
La PLS ajusta variables de respuesta múltiple en un modelo simple. Dado que los modelos PLS tratan
las respuestas como multivariadas, los resultados pueden diferir de si se tratan individualmente por
separado. El modelo agrupa las respuestas múltiples sólo si estan correlacionadas.
Ejemplo:
Un productor de vino quiere saber como la composición química del vino se relaciona con las pruebas
sensoriales. Se tienen 37 muestras, cada una descrita por 17 concentraciones elementales (Cd, Mo,
Mn, Ni, Cu. Al, Ba, Cr, Sr, B, Mg, Si, Na, Ca, P, K) y una medida del aroma del vino de un panel de
catadores. Se quiere predecir la media del aroma a partir de los 17 elementos y determinar si el
modelo PLS es adecuado, dado que la relaciónde muestras a predictores es baja. Los datos son de
I.E. Frank and B.R. Kowalski (1984). "Prediction of Wine Quality and Geographic Origin from Chemical
Measurements by Partial Least-Squares Regression Modeling," Analytica Chimica Acta, 162,
241 251.
Archivo WineAroma.mtw

Monografias.com

Las instrucciones de Minitab son las siguientes:
1
2
3
4
5
6
7
Open worksheet WINEAROMA.MTW o tomar los datos de la tabla.
Seleccionar Stat > Regression > Partial Least Squares.
En Responses, seleccionar Aroma.
En Predictors, selección las variables Cd-K.
En Maximum number of components, indicar 17.
Click Validation, seleccionar Leave-one-out. Click OK.
Click Graphs, luego seleccionar Model selection plot, Response plot, Std Coefficient plot,
Distance plot, Residual versus leverage plot, y Loading plot. No seleccionar Coefficient plot.
Click OK en cada una de las ventanas de diálogo.

Los resultados se muestran a continuación:
PLS Regression: Aroma versus Cd, Mo, Mn, Ni, Cu, Al, Ba, Cr, …

La primera línea, muestra el número de componentes en el modelo óptimo, el cual es definido como el
2 2
Cd
Mo
Mn
Ni
Cu
Al
Ba
Cr
Sr
Pb
B
Mg
Si
Na
Ca
P
K
Aroma
0.005
0.055
0.056
0.044
0.16
0.146
1.51
1.16
1.1
0.122
0.149
0.088
0.83
0.066
0.643
0.982
1.02
1.29
0.387
0.312
0.308
0.029
0.038
0.035
1.23
0.975
1.14
0.561
0.697
0.73
2.63
6.21
3.05
128
193
127
17.3
19.7
15.8
66.8
53.3
35.4
80.5
75
91
150 1130
118 1010
161 1160
3.3
4.4
3.9
0.063
0.191
0.96
0.38
0.133
1.05
0.165
0.036
0.927
0.796
2.57
112
13.4
27.5
93.6
120
924
3.9
0.011
0.05
0.025
0.024
0.009
0.033
0.039
0.045
0.06
0.363
0.106
0.479
0.234
0.058
0.074
0.071
0.147
0.116
1.38
1.25
1.07
0.91
1.84
1.28
1.19
2.76
1.15
0.16
0.114
0.168
0.466
0.042
0.098
0.043
0.071
0.055
0.051
0.055
0.753
0.102
0.17
0.053
0.163
0.074
0.18
1.32
1.27
0.715
0.811
1.8
1.35
0.971
0.483
0.912
0.38
0.275
0.164
0.271
0.225
0.329
0.105
0.301
0.166
0.059
0.019
0.062
0.044
0.022
0.03
0.028
0.087
0.041
1.13
1.05
0.823
0.963
1.13
1.07
0.491
2.14
0.578
1.73
0.491
2.06
1.09
0.048
0.552
0.31
0.546
0.518
3.07
6.56
4.57
3.18
6.13
3.3
6.56
3.5
6.43
138
172
179
145
113
140
103
199
111
16.7
18.7
17.8
14.3
13
16.3
9.47
9.18
11.1
76.6
15.7
98.5
10.5
54.4
70.5
45.3
80.4
59.7
84.6
112
122
91.9
70.2
74.7
67.9
66.3
83.8
164 1090
137 1290
184 1170
187 1020
158 1240
159 1100
133 1090
212 1470
139 1120
5.6
4.6
4.8
5.3
4.3
4.3
5.1
3.3
5.9
0.067
0.077
0.064
0.025
0.02
0.166
0.261
0.191
0.009
0.027
1.53
1.65
1.78
1.57
1.74
0.041
0.073
0.067
0.041
0.046
0.043
0.285
0.552
0.081
0.153
0.512
0.596
0.633
0.655
1.15
0.132
0.078
0.085
0.072
0.094
0.026
0.063
0.063
0.021
0.021
0.229
0.156
0.192
0.172
0.358
0.699
1.02
0.777
0.232
0.025
7.27
5.04
5.56
3.79
4.24
107
94.6
110
75.9
80.9
6
6.34
6.96
6.4
7.92
55.2
10.4
13.6
11.6
38.9
44.9
54.9
64.1
48.1
57.6
148
132
167
132
136
854
899
976
995
876
7.7
7.1
5.5
6.3
5
0.034
0.05
1.15
0.058
0.058
1.35
0.294
0.006
1.12
0.206
2.71
120
14.7
68.1
64.8
133 1050
4.6
0.043
0.061
0.268
0.245
2.32
1.61
0.066
0.07
0.314
0.172
0.627
2.07
0.099
0.071
0.045
0.053
0.36
0.186
1.28
1.19
5.68
4.42
98.4
87.6
9.11
7.62
19.5
11.6
64.3
70.6
176
156
945
820
6.4
5.5
0.047
0.048
0.049
0.042
0.058
0.065
0.065
0.068
0.067
0.084
0.161
0.146
0.155
0.126
0.184
0.211
0.129
0.166
0.199
0.266
1.47
1.85
1.73
1.7
1.28
1.65
1.56
3.14
1.65
1.28
0.154
0.092
0.051
0.112
0.095
0.102
0.166
0.104
0.119
0.087
0.082
0.09
0.158
0.21
0.058
0.055
0.151
0.053
0.163
0.071
0.546
0.889
0.653
0.508
1.3
0.308
0.373
0.368
0.447
1.14
0.181
0.328
0.081
0.299
0.346
0.206
0.281
0.292
0.292
0.158
0.06
0.1
0.037
0.054
0.037
0.028
0.034
0.039
0.058
0.049
0.898
1.32
0.164
0.995
1.17
0.72
0.889
1.11
0.927
0.794
0.747
0.604
0.767
0.686
1.28
1.02
0.638
0.831
1.02
1.3
8.11
6.42
4.91
6.94
3.29
6.12
7.28
4.71
6.97
3.77
160
134
86.5
129
145
99.3
139
125
131
143
19.3
19.3
6.46
43.6
16.7
27.1
22.2
17.6
38.3
19.7
12.5
125
11.5
45
65.8
20.5
13.3
13.9
42.9
39.1
82.1
83.2
53.9
85.9
72.8
95.2
84.2
59.5
85.9
128
218 1220
173 1810
172 1020
165 1330
175 1140
194 1260
164 1200
141 1030
164 1390
146 1230
4.7
4.1
6
4.3
3.9
5.1
3.9
4.5
5.2
4.2
0.069
0.087
0.183
0.208
1.94
1.76
0.07
0.061
0.095
0.099
0.465
0.683
0.225
0.087
0.037
0.042
1.19
0.168
0.915
1.33
2
5.04
123
92.9
4.57
6.96
7.51
12
69.4
56.3
123
157
943
949
3.3
6.8
0.074
0.084
0.142
0.171
2.44
1.85
0.051
0.088
0.052
0.038
0.737
1.21
0.408
0.263
0.022
0.072
1.16
1.35
0.745
0.899
3.94
2.38
143
130
6.75
6.18
36.8
101
67.6 81.9 1170
64.4 98.6 1070
5
3.5
0.106
0.102
0.307
0.342
1.15
4.08
0.063
0.065
0.051
0.077
0.643
0.752
0.29
0.366
0.031
0.048
0.885
1.08
1.61
1.77
4.4
3.37
151
145
17.4
5.33
7.25
33.1
103
58.3
177 1100
117 1010
4.3
5.2

Monografias.com

2
2 2
2 2
2
modelos dado que es calculada con observaciones no incluidas en el cálculo del modelo.
2
Su valor se encuentra entre 0 y 1, y se calcula a partir del estadístico PRESS. Valores altos de R
Predictora sugieren modelos de mayor capacidad de predicción o estimación.

Como se tiene el mimso número de componentes que predictors (17), se pueden comparar los
estadísticos de bondad de ajuste y de bondad de predicción para el modelo PLS y la solución de
mínimos cuadrados.
Number of components selected by cross-validation: 2
Number of observations left out per group: 1
Number of components cross-validated: 17

El ANOVA muestra que el valor p para Aroma es 0.000 menor a 0.05, proporcionando suficiente
evidencia de que el modelo es significativo.

Analysis of Variance for Aroma
Source DF SS MS F P
Regression 2 28.8989 14.4494 39.93 0.000
Residual Error 34 12.3044 0.3619
Total
36 41.2032
Usar la tabla de Selección y Validación del Modelo para seleccionar el número óptimo de
componentes para el modelo. Dependiendo de los datos o campo de estudio, se puede determinar
que un modelo diferente del seleccionado por validación cruzada es más apropiado.

Model Selection and Validation for Aroma
Components X Variance Error SS R-Sq
PRESS R-Sq (pred)
1 0.225149 16.5403 0.598569 22.3904 0.456585
2 0.366697 12.3044 0.701374 22.1163
0.463238
3 8.9938 0.781720 23.3055 0.434377
4 8.2761 0.799139 22.2610 0.459726
5 7.8763 0.808843 24.1976 0.412726
6 7.4542 0.819087 28.5973 0.305945
7 7.2448 0.824168 31.0924 0.245389
8 7.1581 0.826274 30.9149 0.249699
9 6.9711 0.830811 32.1611 0.219451
10 6.8324 0.834178 31.3590 0.238920
11 6.7488 0.836207 32.1908 0.218732
12 6.6955 0.837501 34.0891 0.172660
13 6.6612 0.838333 34.7985 0.155442
14 6.6435 0.838764 34.5011 0.162660
15 6.6335 0.839005 34.0829 0.172811
16 6.6296 0.839100 34.0143 0.174476
17 6.6289 0.839117 33.8365 0.178789

2
2 2
2
2 2
de mínimos cuadrados de 17 componentes, se puede ver que el modelo PLS predice los datos mucho

Monografias.com

R-Sq
Calculated Response
2
mientreas que el de 17 componentes es de solo 18%.
–
La varianza de X indica la cantidad de varianza en los predictores que es explicada por el modelo.
16
14
12
10
8
6
4
2
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
optimal
Variable
Fitted
Crossval
En este ejemplo, el modelo de dos componentes explica el 36.7% de la varianza en los predictores.
–

Esta gráfica muestra la tabla de “Model Selection and Validation. La línea vertical indica que le modelo
óptimo tiene dos componentes. Se puede observar que la habilidad predictiva de todos los modelos
con más de cuatro componentes, se reduce significativamente, incluyendo el de 17 componententes
con sólo 18%.

PLS Model Selection Plot
(response is Aroma)
8
7
6
5
4
3
8

3
Variable
Fitted
Crossval
Components

Como los puntos muestran un patrón de línea recta, de abajo hacia arriba, la gráfica de respuesta
indica que el modelo ajusta los datos adecuadamente. A pesar de haber diferencias entre las
respuestas estimadas (fitted) y las de validación cruzada (cross-validated indica que tan bien el
modelo estima los datos, de modo que se puedan omitir), ninguno es suficientemente severo para
indicar puntos influyentes extremos.

PLS Response Plot
(response is Aroma)
2 components
Actual Response

La gráfica de coeficientes muestra los coeficientes estandarizados para los predictores. Se usa para
interpretar la magnitud y signo de los coeficientes. Los elementos Sr, B, Mg, Pb y Ca tienen los

Monografias.com

Standardized Coefficients
Component 2
16
14
12
10
8
6
4
2
coeficientes más altos y el mayor impacto en Aroma. Los elementos Mo, Cr, Pb, y B están
positivamente realcionados con Aroma, mientras que Cd, Ni, Cu, Al, BA y Sr están realcionados
negativamente.

PLS Std Coefficient Plot
(response is Aroma)
2 components
0.3

0.2

0.1

0.0

-0.1

-0.2

-0.3
0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
0.5
0.4
0.3
0.2
0.1
0.0
-0.1
-0.2
-0.3
K
P
Ca
Na
Si
Mg
B
Sr
Cr
Ba
Al
Cu
Ni
Mn
Mo
Pb
Cd
Predictors

La gráfica de carga compara la influencia relativa de los predictors en la respuesta. El Cu y el Mn
tienen líneas muy cortas, indicando que tienen carga baja en X y no se realcionan con Aroma. Los
elementos Sr, Mg, y Ba tienen líneas largas, indicando que tienen una carga mayor y se están más
relacionadas con Aroma.

PLS Loading Plot
0.6
Component 1

La gráfica de distancia y la gráfica de residuales versus influyentes, muestran los puntos atípicos e
influyentes. Brushing la gráfica de distancia, pueden observarse comparados con el resto de datos. La
observación 14 y 32 tienen una mayor distancia en el eje Y y las observaciones de los renglones 7,
12, y 23 tienen una mayor distancia en el eje X.

Monografias.com

Distance FromY
Standardized Residual
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
9
8
7
6
5
4
3
2
1
0
PLS Distance Plot
2 components
Distance FromX

La gráfica de residuos versus influyentes confirma estos hallazgos, indicando que:
–
Las observaciones 14 y 32 son puntos atípicos, ya que salen de las líneas de referencia
horizontales.
–
Las observaciones 7, 12 y 23 tienen valores influyentes extremos, dado que están a la derecha de
Leverages
1.0
0.8
0.6
0.4
0.2
0.0
la línea vertical de referencia.

PLS Residual Versus Leverage
(response is Aroma)
2 components
0.108
2

-1

-2
8. REGRESIÓN LOGÍSTICA BINARIA
3
Tanto la regression logística como la regresión por mínimos cuadrados, investigan la relación entre
una variable de respuesta y uno o más predictores. Una diferencia práctica entre ellas es que las
técnicas de regresión logística se utilizan con variabnles de respuesta categóricas, y las técnicas de
regresión lineal son usadas con variables de respuesta comtinuas.

Hay tres procedimientos de regresión logística que se pueden utilizar para evaluar las relaciones entre
uno o más vareiables predoctoras y una respuesta categórica de los tipos siguientes:
3
Hair., Joseph Jr., Et. Al., Multivariate Data Analysis, Prentice Hall Internacional, Nueva Jersey, 1984,
pp. 279- 325

Monografias.com

Tipo de
Variable Número de
categorias
Características
Ejemplos
Binary
2
Dos niveles
Éxito, falla
Si, No
Ordinal
3 o más
Orden natural de niveles
Nada, moderado, severo
Nominal 3 o más
Niveles sin orden natural
Fino, medio, grueso
Azul negro, rojo, amarillo
Soleado, lluvioso, nublado

Tanto los métodos de regression logísticos como los métodos de mínimos cuadrados, estiman los
parámetros en el modelo de manera que el ajuste es optimizado. El de mínimos cuadrados minimiza
la suma de cuadrados de los errores para estimar los parámetros, mientras que la regresión logística
obtiene la máxima verosimilitud de los parámetros usando un algoritmo iterativo de mínimos
cuadrados reponderados.

La regresión logística predice directamente la probabilidad de que un evento ocurra, la respuesta tiene
un rango entre cero y uno con una forma de S.

Su término de error es el de una variable discreta, que no sigue la distribución normal sino la binomial;
la varianza de una variable dicotómica no es contante, creando situaciones de heteroestacidad.

Su relación única entre las variables independientes y dependiente requiere un método diferente para
estimar, evaluar bondad de ajuste e interpretar los coeficientes.

P(y) = 1
P(y) = 0
Bajo
Alto
Para la estimación de sus coeficientes dada su naturaleza no lineal, se utiliza el método de máxima
verosimilitud, buscando el mayor valor de verosimilitud (likelihood value) de que un evento ocurra, en
vez de la mínima suma de cuadrados como en la regresión múltiple.

En el siguiente ejemplo se muestran ejemplos de cuando el modelo puede adecuado y cuando no.

Monografias.com

A. Relación con ajuste pobre
Hay valores de X que tienen respuesta Y de eventos y no eventos.
B. Relación con ajuste bien definido

Los valores de X sólo tienen una respuesta en Y de eventos o no eventos.

El nombre de regresión logística deriva de la transformación utilizada en su variable dependiente. El
procedimiento para calcular los coeficientes logísticos, comparan la probabilidad de que un evento
ocurra con la probabilidad de que no ocurra. Esta razón de posibilidades se expresa como:
P(evento)
P(no evento)
? eB0 ? B1X1 ? B2X2 ?….? BnXn
Los coeficientes estimados (B0, B1, … Bn) son medidas reales de las posibilidades en la relación de
probabilidades. Como se expresan en logaritmos, al final se deben regresar con las funciones de
antilogaritmo de modo que se pueda el efecto en las probabilidades de manera más fácil.

Cuando los coeficientes son positivos, su transformación será mayor a uno, en la razón de
posibilidades se incrementa y viceversa en caso contrario.

Monografias.com

Rlogit ?
La medición global de que tan bien ajusta el modelo, similar a la menor suma de cuadrados en la
regresión múltiple, se da por el valor de verosimilitud (que es realmente menos 2 veces el logaritmo
del valor de verosimilitud = -2LL). Un modelo ideal tendrá una verosimilitud de 1 y un -2LL de cero.
Para determinar un “pseudos R2” de la regresión logística se puede calcular como:
2
?2LLnull ?(?2LLmodel)
?2LLnull
Para probar la significancia de los coeficientes se usa el estadístico de Wald, utilizado de manera
similar a la regresión múltiple para probar significancia.

Ejemplo de Minitab
Un investigador está interesado en comprender el efecto de fumar y el peso en la tasa de pulso en
reposo. Dado que se ha categorizado la tasa de respuesta del puso en baja y alta, el análisis de
regresión logística es adecuado para comprender los efectos de fumar y peso en la tasa de pulso.

Monografias.com

Corrida en Minitab:
1
2
3
Abrir la hoja de trabajo EXH_REGR.MTW o tomar datos de esta tabla.
Seleccionar Stat > Regression > Binary Logistic Regression.
En Response, seleccionar RestingPulse. En Model, seleccionar Smokes Weight. En Factors
(optional), seleccionar Smokes.
4
Click Graphs. Seleccionar Delta chi-square vs probability y Delta chi-square vs leverage. Click
OK.
5
Click Results. Seleccionar In addition, list of factor level values, tests for terms with more
than 1 degree of freedom, and 2 additional goodness-of-fit tests. Click OK en cada uno de las
ventanas de diálogo.
Model: Especificar los términos a ser incluidos en el modelo.
Factors (optional): Especificar cuales de los predictores son factores, Minitab asume que todas las
variables en el modelo con covariados a menos que se especifique cuales predictors son factores. Los
predoctores continuos deben ser modelados como covariados; y los predictores categóricos deben ser
modelados como factores.

Los resultados se muestran a continuación:

Results for: Exh_regr.MTW

Binary Logistic Regression: RestingPulse versus Smokes, Weight

Link Function: Logit

Información de la respuesta: – muestra el número de valores no considerados y el número de
observaciones que caen dentro de cada una de las dos categorías de respuesta. El valor de la
respuesta que se ha designado como el evento de referencia es la primera entrada en Valor y se
etiqueta como evento. En este caso, el evento de referencia es tasa de pulso baja.
Response Information
Variable
Value Count
Pulso en reposo Bajo 70 (Event)
Alto 22
Total 92

Información de los factores: muestra todos los factores del modelo, el número de niveles para cada
factor, y los valores de nivel de los factores. El nivel del factor que se ha designado como nivel de
referencia es la primera entrada en Values, el sujeto no fuma.
Factor Information
Factor Levels Values
Fuma 2 No, Si

Monografias.com

Tabla de regression logística – muestra los coeficientes estimados, error estándar de los
coeficientes, su valor Z y p. Cuando se usa la función de enlace logia, se puede también obtener la
tasa de posibilidades y un intervalo de confianza del 95% para esta tasa.
? De la salida, se puede ver que los coeficientes estimados para ambos Fuma (z=-2.16, p =0.031) y
Peso (z= 2.04, p = 0.041), tienen valores p menores a 0.05 indicando que hay suficiente evidencia de
que los coeficientes no sean cero utilizando un alfa de 0.05.
? El coeficiente estimado de -1.193 para Fuma, representa el cambio en el logaritmo de P(pulso
bajo/P(pulso alto) cuando el sujeto fuma comparado a cuando no lo hace, con el covariado peso
mantenido constante.
? El coeficiente estimado de 0.025 para Peso representa el cambio en el logaritmo de P(pulso
bajo/P(pulso alto) con un incremento en peso de 1 libra, con el factor Fuma mantenido constante.
? A pesar de que hay evidencia de que el coeficiente estimado para el peso no es cero, la tasa de
posibilidades es cercana a uno (1.03), indicando que un incremento de una libra en peso afecta de
forma mínima a la tasa de pulso en reposo de la persona. Se puede observar una diferencia más
significativa si se comparan sujetos con una diferencia más grande en peso, (por ejemplo, si la unidad
de peso es de 10 libras, la tasa de posibilidades pasa a ser 1.28, indicando que las posibilidades de
un sujeto para que tenga un pulso bajo se incrementan 1.28 veces con cada 10 libras de incremento
en peso).
? Para Fuma, el coeficiente negativo de -1.193 y la tasa de posibilidades de 0.30, indica que quien
fuma, tiende a tener una tasa de pulso más alta que los sujetos que no fuman. Si los sujetos tienen el
mismo peso, la tasa de posibilidades se puede interpretar como las posibilidades de que los
fumadores en la muestra tengan un pulso bajo sea sólo del 30% de las posibilidades de que los no
fumadores tengan un pulso bajo.
Logistic Regression Table
Odds 95% CI
Predictor Coef SE Coef Z
P Ratio Lower Upper
-1.98717
1.67930 -1.18 0.237
Constant
Fuma
Si
-1.19297 0.552980 -2.16 0.031 0.30 0.10 0.90
Peso 0.0250226 0.0122551 2.04 0.041 1.03 1.00 1.05

Se muestra el último valor de verosimilitud logarítmica de las iteraciones de máxima verosimilitud,
junto con el estadístico G. Este estadístico prueba la hipótesis nula de que todos los coeficientes
asociados con los predictores son iguales a cero versus que sean diferentes de cero. En este caso, G
= 7.54, con un valor P de 0.023, indica que suficiente evidencia de uno de los coeficientes es diferente
de cero, para alfa de 0.05.

Log-Likelihood = -46.820
Test that all slopes are zero: G = 7.574, DF = 2, P-Value = 0.023

Las pruebas de bondad de ajuste muestran las pruebas de – Pearson, desviación, y Hosmer-
Lemeshow. Como se seleccionó el enlace a la función Logia y las opciones en la ventana de
resultados, además se muestran las pruebas de Brown de alternativa general y simétrica. Las pruebas
de bondad de ajuste, con valor p de 0.312 y 0.724, indican que no hay suficiente evidencia para
afirmar que el modelo no ajusta los datos adecuadamente, si los valores p fueran menores a alfa, el
modelo no ajustaría a los datos.

Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 40.8477 47 0.724
Deviance 51.2008 47 0.312
Hosmer-Lemeshow
4.7451 8 0.784
Brown:
General Alternative 0.9051 2 0.636

Monografias.com

Symmetric Alternative
0.4627 1 0.496
La tabla de valores observados y frecuencias esperadas – permite ver que tan bien el modelo
ajusta los datos, al comparar las frecuencias observadas y esperadas. Hay evidencia insuficiente de
que el modelo no ajuste a los datos bien, ya que ambas frecuencias son similares. Esto soporta las
conclusiones hechas en las pruebas de bondad de ajuste.

Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Group
Value 1 2 3 4 5 6 7 8 9 10 Total
Bajo
Obs 4 6 6 8 8 6 8 12 10 2 70
Exp 4.4 6.4 6.3 6.6 6.9 7.2 8.3 12.9 9.1 1.9
Alto
Obs 5 4 3 1
1 3 2 3 0 0 22
Exp 4.6 3.6 2.7 2.4 2.1 1.8 1.7 2.1 0.9 0.1
Total 9 10 9 9 9 9 10 15 10 2 92

Medidas de asociación – muestran una tabla del número y porcentaje de pares de datos
concordantes, discordantes y apareados, así como las estadísticas de correlaciones comunes de
rangos. Estos valores miden la asociación entre las respuestas observadas y las probabilidades
estimadas.

? La tabla de pares de datos concordantes, discordantes y apareados se calcula con valores de
respuesta diferentes. En este caso, se tienen 70 individuos con pulso bajo y 22 con pulso alto,
resultando en 70*22 = 1540 pares con diferentes valores de respuesta. Con base en el modelo, un par
es concordante si el individuo con pulso bajo tiene una probabilidad más alta de tener un pulso bajo;
es discordante si ocurre lo opuesto; y pareado si las probabilidades son iguales.
? En este ejemplo, el 67.9% es concordante y 29.9% son discordantes. Se pueden usar
estos
valores como una medición comparativa de predicción, por ejemplo al comparar valores estimados
con diferentes conjuntos de predictores o con diferentes funciones de enlace.

? Se presentan resúmenes pares concordantes y discordantes de Sommers, Goodman-Krsukal
Gamma y Kendall Tau-a. Estas medidas tienden a encontrarse entre 0 y 1, donde los valores más
grandes indican que le modelo tien una mejor habilidad predictiva. En este ejemplo, el rango de
medición de 0.14 a 0.39 implica una predictibilidad menor a la deseable.

Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures
Concordant 1045 67.9 Somers' D 0.38
Discordant 461 29.9 Goodman-Kruskal Gamma 0.39
Ties 34 2.2 Kendall's Tau-a
0.14
Total 1540 100.0

Gráficas: – En el ejemplo, se sele

Partes: 1, 2, 3

Página anterior

Volver al principio del trabajo

Página siguiente