ei ?Yi ?Y i,i ?1,2,3…,n
?(e
?e
MSE?1?? ? ?
? ??
ADECUACIÓN DEL MODELO DE REGRESIÓN LINEAL,POR DR. PRIMITIVO REYES AGUILAR
2.1 Introducción
Los principales supuestos que se hacen en el análisis de regresión lineal son los siguientes:
1. La relación entre las variables Y y X es lineal, o al menos bien aproximada por una línea recta.
2. El término de error ? tiene media cero.
2
4. Los errores no están correlacionados.
5. Los errores están normalmente distribuidos.
Los supuestos 4 y 5 implican que los errores son variables aleatorias independientes y el supuesto 5
se requiere para pruebas de hipótesis y estimación de parámetros.
Se analizarán varios métodos para diagnosticar y tratar violaciones sobre los supuestos básicos de la
regresión no sólo lineal sino también la múltiple.
2.2 Análisis de los residuos
2.2.1 Definición de los residuos
Los residuos están definidos como las n diferencias,
^
(2.1)
donde Yi son las observaciones reales y Y-gorro los valores estimados con la recta de regresión.
Como los residuos son las diferencias entre las observaciones reales y las predichas o estimadas, son
una medida de la variabilidad no explicada por el modelo de regresión, e el valor observado de los
errores. Así, cualquier desviación anormal de los supuestos acerca de los errores, será mostrada por
los residuos. Su análisis es un método efectivo para descubrir varios tipos de deficiencias del modelo.
Los residuos tienen varias propiedades importantes. Su media es cero y su varianza aproximada es:
? MSE
?
?
SSE
n?2
n
2
i
i?1
n?2
i?1
n __ 2
i ? e)
n?2
(2.2)
En algunos casos es mejor trabajar con residuos estandarizados, que tienen media cero y varianza
unitaria aproximada.
ei
MSE
,….1?1,2,…..,n
di ?
(2.3)
Para el caso de n pequeña, donde se pueden tener diferencias apreciables en las varianzas de los
residuos, un método más apropiado de escalamiento es el de los residuos estudentizados , donde se
toma en cuenta la varianza de cada uno en lugar de un promedio de las varianzas como en los
residuos estandarizados. Para n grande, ambos residuos son muy parecidos.
Los residuos estudentizados se definen como:
,
? ?1
i
(X i ? X)2 ??
SXX ??
? ?n
ei
r ?
i = 1, 2, …….., n
(2.4)
Por lo anterior los residuos representan los errores observados si el modelo es correcto.
Los residuos pueden ser graficados para:
1. Checar normalidad.
2. Checar el efecto del tiempo si su orden es conocido en los datos.
3. Checar la constancia de la varianza y la posible necesidad de transformar los datos en Y.
4. Checar la curvatura de más alto orden que ajusta en las Xs.
A continuación con Minitab se calculan los residuos con los datos del ejemplo 1.1 y a partir de la recta
de ajuste.
Observaciónes
2.2.2 Gráfica de probabilidad normal
Se utiliza la gráfica de probabilidad normal para identificar si algunos residuos sesgan la respuesta de
la normal. Normalmente se requieren 20 puntos para checar normalidad.
Normplot of Residuals for C1
La gráfica de residuos contra los valores estimados
Residuals vs Fits for C1
Se sugiere utilizar los residuos estandarizados, ya que son útiles para evaluar normalidad, es decir
que habrá normalidad si el 68% de los mismos se encuentran entre 1 y +1 y el 95% entre 2 y +2, de
otra forma habrá una violación de la normalidad.
^
yi
puede identificar patrones anormales o no
lineales, indicando que tal vez se requiera agregar otra variable regresora al modelo, o se requiera
transformar las variables regresora o de respuesta. También puede revelar outliers potenciales, si
ocurren en los extremos, indican que la varianza no es constante o que no hay relación lineal entre
variables.
Para el caso del ejemplo 1.2 con los datos X y Y se tienen los residuos estandarizados y
estudentizados son:
Utilizando Minitab se tiene:
Regression Analysis: Y versus X
The regression equation is
Y = 2628 – 37.2 X
Predictor Coef SE Coef T P
Constant 2627.82 44.18 59.47 0.000
X
-37.154
2.889 -12.86 0.000
S = 96.1061 R-Sq = 90.2% R-Sq(adj) = 89.6%
Analysis of Variance
Source
DF SS MS F P
Regression 1 1527483 1527483 165.38 0.000
Residual Error 18 166255
9236
Total 19 1693738
No replicates.
Cannot do pure error test.
Unusual Observations
Obs X Y Fit SE Fit Residual St Resid
5 5.5 2207.5 2423.5 31.3
6 19.0 1708.3 1921.9 27.0
-216.0
-213.6
-2.38R
-2.32R
La tabla de valores estimados Fits, Residuos, Residuos estandarizados, Residuos estudentizados
borrados y Residuos estudentizados simples se muestra a continuación:
Para el cálculo de los residuos estudentizados se utilizó la tabla siguiente:
MSE =
Raiz MSE
(Xi-
Xmedia)^2
9236
96.10411021
1/20 +
(Xi-
Y
2158.70
1678.15
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
2654.20
1753.70
X
15.50
23.75
8.00
17.00
5.50
19.00
24.00
2.50
7.50
11.00
13.00
3.75
25.00
9.75
22.00
18.00
6.00
12.50
2.00
21.50
FITS1
2051.94
1745.42
2330.59
1996.21
2423.48
1921.9
1736.14
2534.94
2349.17
2219.13
2144.83
2488.5
1698.98
2265.57
1810.44
1959.06
2404.9
2163.4
2553.52
1829.02
RESI1
106.7580
-67.2750
-14.5940
65.0890
-215.9780
-213.6040
48.5640
40.0620
8.7300
37.5670
20.3740
-88.9460
80.8170
71.1750
-45.1430
94.4420
9.4990
37.0980
100.6850
-75.3200
ResEstan1
1.11086
-0.70002
-0.15186
0.67728
-2.24733
-2.22263
0.50533
0.41686
0.09084
0.39090
0.21200
-0.92552
0.84093
0.74060
-0.46973
0.98271
0.09884
0.38602
1.04767
-0.78373
Sxx
4.56891
107.90016
28.75641
13.23141
61.81891
31.78141
113.15641
117.99391
34.36891
5.58141
0.13141
92.40016
135.43141
13.05016
74.60641
21.50641
54.20641
0.74391
129.10641
66.21891
Xmedia)^2/Sxx
0.05413
0.14751
0.07599
0.06196
0.10587
0.07872
0.15226
0.15663
0.08106
0.05504
0.05012
0.13350
0.17239
0.06179
0.11742
0.06944
0.09899
0.05067
0.16667
0.10984
Ri
1.14220
-0.75817
-0.15798
0.69929
-2.37666
-2.31564
0.54883
0.45392
0.09476
0.40212
0.21752
-0.99426
0.92437
0.76460
-0.50000
1.01871
0.10413
0.39619
1.14767
-0.83068
Las gráficas de los residuos normales son las siguientes:
Residual
Percent
Frequency
Residual
Percent
200
100
0
-100
-200
99
90
50
10
1
2600
2400
2200
2000
1800
100
0
-100
-200
Residual
100
50
0
-50
-100
-150
-200
6.0
4.5
3.0
1.5
0.0
Observation Order
20
18
16
14
12
10
8
6
4
2
100
0
-100
-200
Normal Probability Plot of the Residuals
Residuals Versus the Fitted Values
Residual
Histogram of the Residuals
Fitted Value
Residuals Versus the Order of the Data
Residual Plots for Y
Standardized Residual
3
2
1
0
-1
-2
-3
1
Tomado los residuos estandarizados vs fits se tiene:
Normal Probability Plot of the Residuals
(response is Y)
99
95
90
80
70
60
50
40
30
20
10
5
Standardized Residual
Deleted Residual
2600
2500
2400
2300
2200
2100
2000
1900
1800
1700
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
Residuals Versus the Fitted Values
(response is Y)
Fitted Value
2600
2500
2400
2300
2200
2100
2000
1900
1800
1700
Fitted Value
Y para los residuos estudentizados se tiene:
Residuals Versus the Fitted Values
(response is Y)
1
0
-1
-2
-3
Como se puede observar los puntos 5 y 6 exceden el límite de dos sigmas.
2.2.3 Gráfica de residuos vs Yestimada
La gráfica de residuos normales, estandarizados o estudentizados vs los valores estimados de Y es
útil para identificar no adecuaciones del modelo.
Standardized Residual
Standardized Residual
25
20
15
10
5
0
Patrones de variación de los residuos
a) Aleatorio; b) Cono (aumenta la varianza); c) Rombo; d) No lineal
2.2.4 Gráfica de residuos vs Xi
Los patrones generados a veces son similares a los de la figura anterior, por ejemplo para el caso del
ejemplo 1.2, se tiene:
En Minitab (Graphs seleccionar Residual vs Fits y Residuals vs Variables X)
Residuals Versus X
(response is Y)
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
20
18
16
14
12
10
8
6
4
2
X
En este caso los residuos para los puntos 5 y 6 exceden de dos sigmas sin embargo no muestran
indicios de violación del modelo.
2.2.5 Otras gráficas de residuos
Se pueden obtener gráficas de los residuales vs el tiempo de ocurrencia u orden:
Residuals Versus the Order of the Data
(response is Y)
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
Observation Order
En este caso se puede identificar si existe autocorrelación positiva o negativa de los residuos como
sigue:
Residuos vs tiempo: Autocorrelación positiva –
Autocorrelación negativa
2.2.6 Pruebas estadísticas en los residuos
Las pruebas estadísticas en los residuos son menos prácticas que la observación de su
comportamiento donde se obtiene más información.
2.3 DETECCIÓN Y TRATAMIENTO DE OUTLIERS
Un Outilier es una observación extrema, donde el residuo es considerablemente grande, por decir con
tres o cuatro desviaciones estándar de la media. Estos puntos no son puntos típicos de los datos y
pueden ocasionar defectos severos en el modelo de regresión. Las gráficas de Y estimada vs
residuos ya sea estandarizados o estudentizados permiten identificar Outliers (puntos aberrantes).
Los outliers deben ser investigados para ver si se puede hallar la razón de su comportamiento
anormal (medición incorrecta, equipo dañado, error de anotación). Si se encuentra que se debe a un
error se debe descartar de los datos. En otros casos donde se encuentra una razón se debe mantener
en la estimación del modelo.
En general se espera que la ecuación de regresión encontrada sea insensible a algunos puntos
particulares, para que sea un modelo robusto. Puede no ser aceptable que un pequeño porcentaje de
los datos tenga un efecto significativo en el modelo.
Con los datos del ejemplo 1.2 si omitimos los puntos 5 y 6 que indican Outliers y compramos nuevo
modelo con el modelo anterior se tiene:
Con el modelo original:
The regression equation is
Y = 2628 – 37.2 X
Predictor Coef SE Coef T P
Constant 2627.82 44.18 59.47 0.000
X
-37.154
2.889 -12.86 0.000
S = 96.1061 R-Sq = 90.2% R-Sq(adj) = 89.6%
Y con el modelo donde se excluyen los puntos 5 y 6 se tiene:
The regression equation is
Y_1 = 2659 – 37.7 X_1
Predictor Coef SE Coef T P
Constant 2658.97 30.53 87.08 0.000
X_1
-37.694
1.979 -19.05 0.000
S = 62.9653 R-Sq = 95.8% R-Sq(adj) = 95.5%
Percent
Standardized Residual
3
2
1
0
-1
-2
-3
99
95
90
80
70
60
50
40
30
20
10
5
1
Normal Probability Plot of the Residuals
(response is Y_1)
2600
2400
2200
2000
1800
1600
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
Standardized Residual
Residuals Versus the Fitted Values
(response is Y_1)
Fitted Value
Casi no hubo efecto en la estimación de los coeficientes de la regresión. La MSE se redujo mucho, se
incrementó R^2 en 5% y se redujo en 30% el error estándar de ?1.
En General a pesar de que los puntos 5 y 6 no afectan la estimación y aplicación del modelo, y el
quitarlos mejoraría el error de estimación aunque no hay una razón de peso.
2.4 PRUEBA DE FALTA DE AJUSTE
Falta de ajuste y el error puro
Se asume que se cumplen los requerimientos de normalidad, independencia y varianza constante y
que sólo se tiene en duda si la relación entre las variables es de primer orden o sea una línea recta.
Para el cálculo del error puro se requiere hacer réplicas verdaderas, por ejemplo medir el coeficiente
de inteligencia de dos personas con la misma estatura en vez de hacer dos mediciones repetidas de
la misma persona, o realizar dos experimentos en diferente tiempo con la misma X y registrando el
valor de la respuesta.
Suponiendo que se tienen m valores diferentes de Xj, con j=1,2….m, por tanto:
? ? u 1
(Y1u ?Y) ??Y ?
??Y1u ?
SS.error.puro??
?(Yju ?Yj)2
ne ??n j ?m
?(Y
1
Y11, Y12,…..,Y1n1 son n1 observaciones repetidas en X1;
Y21, Y22,……,Y2n2son n2 observaciones repetidas en X2;
………..
Yju es la observación u-ésima (u=1,2,….,nj) en Xj;
Ym1, Ym2,…..,Ymn1 son n observaciones repetidas en Xm.
La suma de cuadrados del error puro de las n1 observaciones en X1 es la suma de cuadrados interna
de la Y1u con respecto a su media Y1, o sea:
2
2 2
n1
__ n1
u?1
1u
1 ? n1 ?
n1? i?1 ?
(2.5)
Reuniendo las sumas internas de cuadrados de todos los lugares donde se tomaron réplicas se tiene
el error puro total SS como:
n1 __
u?1
m
j?1
(2.6)
(2.7)
Con grados de libertad:
m
j?1
Para el caso de nj= 2 se tiene:
ju
__
?Y j)2 ? (Yj1 ?Yj2)2
2
2
u?1
(2.8)
e
El cuadrado medio del error puro es:
s2 ? SS.error.puro/ne
(2.9)
De esta forma la suma de cuadrados del error residual se divide en suma de cuadrados de falta de
ajuste y error puro.
(2.10)
(2.11)
Donde
SSE(residual) ? SSPE(error.puro)?SSLOF( falta.de.ajsute)
El residuo (ij-ésimo) es:
__
^ __ ^
Yij ?Y i ? (Yij ?Y i)?(Yi ?Yi)
__
Y i es el promedio de las ni observaciones en Xi.
La suma de cuadrados del error puro es:
SSPE ??? (Yij ?Y i)2
i?1 j?1
^
SSLOF ??ni(Y i?Y i)2
(2.12)
(2.13)
m ni __
i
La suma de cuadrados de la falta de ajuste:
m __
i?1
El estadístico Fo para la falta de ajuste es:
MSLOF
MSPE
?
SSLOF /(m?2 )
SSPE /n?m)
F0 ?
(2.14)
El valor esperado de
MSPE ?? 2
(2.15)
Ejemplo 2.4.1: Tomando un nuevo grupo de datos en los cuales hay algunas réplicas por ejemplo se
tomaron 2 valores para X = 1.3, 2.0, 3.3, 3.7, 4.7 y 6.0 y se tomaron 3 valores para X =4,5.3. La tabla
de datos completa se muestra a continuación:
La recta de ajuste estimada con Minitab es la siguiente:
Regression Analysis: Y versus X (Pure Error)
The regression equation is
Página siguiente |