Y ? ?0X
?1
TRANSFORMACIONES A UNA LINEA RECTA,POR DR. PRIMITIVO REYES AGUILAR
A veces se detecta no linealidades a través de la prueba de falta de ajuste descrita en la sección
anterior o de diagramas de dispersión y gráficas de los residuos. En algunos casos los datos se
pueden transformar para que representen una relación más lineal.
1
funciones no lineales, transformaciones y formas lineales resultantes se muestran en la tabla 2.1.
Dependiendo de la curvatura del comportamiento de la relación entre las variables X y Y, se puede
localizar una gráfica parecida en la figura 3.13 y usar su transformación.
Tabla 2.1 Funciones linealizables y su forma lineal correspondiente.
Figura 2.13 Función
a,b
Transformación
Y'? logY,X'? log X
Forma lineal
Y'?log?0 ??1X'
c,d
e,f
Y ? ?0e?1X
Y ? ?0 ??1logX
Y'? logY
X'? log X
Y'?ln?0 ??1X
Y'? ?0 ??1X'
g,h
X
?0X ??1
Y ?
1
X
1
Y
,X'?
Y'?
Y'? ?0 ??1X'
Por ejemplo la función:
Y ? ?0e?1X?
(2.19)
Puede ser transformada de acuerdo a la tabla 2.1 en:
lnY ?ln?0 ??1X ?ln?
ó
Y'? ?0'??1X ??'
Se requiere que la transformada del término de error sea normal e independientemente distribuida con
2
Varios tipos de transformaciones recíprocas pueden ser útiles. Por ejemplo:
? 1 ?
? X ?
Puede ser linealizada usando la transformación recíproca X = 1/X, quedando como:
Y ? ?0 ??1X'??
Ejemplo 2.3 Un investigador desea determinar la relación entre la salida de Corriente Directa (Y) de
un generador de molino de viento y la velocidad del viento (X), para ello colecta 25 pares de datos
para ambas variables, utilizando el Minitab para su proceso. Los datos colectados son los siguientes:
1
Montgomerey, Douglas C., Introduction to Linear Regression Analysis, John Wiley and Sons, Nueva
York, 1992, pp. 90-91
R denotes an observation with a large standardized residual
Durbin-Watson statistic = 1.21
El valor del estadístico indica que no podemos llegar a conclusiones:
Regression Analysis: Y versus X
The regression equation is
Y = 0.131 + 0.241 X
Predictor Coef SE Coef T P
Constant 0.1309 0.1260 1.04 0.310
X 0.24115 0.01905 12.66 0.000
S = 0.2361
R-Sq = 87.4%
R-Sq(adj) = 86.9%
Ajustando el modelo con una recta se tiene:
Y
Residual
11
10
9
8
7
6
5
4
3
2
2.5
2.0
1.5
1.0
0.5
0.0
S
R-Sq
R-Sq(adj)
0.237095
87.3%
86.8%
Fitted Line Plot
Y = 0.1269 +0.2412 X
2.5
2.0
1.5
1.0
0.5
0.4
0.2
0.0
-0.2
-0.4
-0.6
X
Residuals Versus the Fitted Values
(response is Y)
Fitted Value
The regression equation is
Y = 0.1269 + 0.2412 X
S = 0.237095 R-Sq = 87.3% R-Sq(adj) = 86.8%
Analysis of Variance
Source DF SS MS F P
Regression 1 8.9183 8.91827 158.65 0.000
Error 23 1.2929 0.05621
Total 24 10.2112
El tratar de ajustar los datos, una recta no fue la mejor opción, por lo que se intenta
un modelo cuadrático, el cual se muestra a continuación.
Y
Residual
11
10
9
8
7
6
5
4
3
2
2.5
2.0
1.5
1.0
0.5
0.0
S
R-Sq
R-Sq(adj)
0.127171
96.5%
96.2%
Fitted Line Plot
Y = – 1.166 +0.7236 X
– 0.03808 X**2
2.5
2.0
1.5
1.0
0.5
0.2
0.1
0.0
-0.1
-0.2
-0.3
X
Residuals Versus the Fitted Values
(response is Y)
Fitted Value
Polynomial Regression Analysis: Y versus X
The regression equation is
Y = – 1.166 + 0.7236 X – 0.03808 X**2
S = 0.127171 R-Sq = 96.5% R-Sq(adj) = 96.2%
Analysis of Variance
Source DF SS MS F P
Regression 2 9.8554 4.92770 304.70 0.000
Error 22 0.3558 0.01617
Total 24 10.2112
Sequential Analysis of Variance
Source DF SS F P
Linear 1 8.91827 158.65 0.000
Quadratic 1 0.93713 57.95 0.000
2
será necesario transformar la variable X. Se observa que los residuos no siguen una distribución
normal por lo que es necesario transformar la variable regresora:
Y
Transformando la variable X = 1/X se tiene, utilizando Minitab:
El modelo queda como:
0.40
0.35
0.30
0.25
0.20
0.15
0.10
2.5
2.0
1.5
1.0
0.5
0.0
S
R-Sq
R-Sq(adj)
97.7%
Regression
95% CI
95% PI
0.0993273
97.8%
Fitted Line Plot
Y = 2.987 – 7.005 1/X
1/X
Regression Analysis: Y versus 1/X
The regression equation is
Y = 2.99 – 7.00 1/X
Percent
Residual
Predictor Coef SE Coef
T P
Constant 2.98664 0.04763 62.71 0.000
1/X
-7.0046 0.2202 -31.81 0.000
S = 0.0993273 R-Sq = 97.8% R-Sq(adj) = 97.7%
Analysis of Variance
Source DF SS MS F P
Regression 1 9.9843 9.9843 1012.00 0.000
Residual Error 23 0.2269 0.0099
Total 24 10.2112
Unusual Observations
Obs 1/X Y Fit SE Fit Residual St Resid
20 0.182 1.5010 1.7131 0.0201 -0.2121
25 0.400 0.1230 0.1848 0.0490 -0.0618
-2.18R
-0.72 X
0.2
0.1
0.0
-0.1
-0.2
1
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large influence.
Durbin-Watson statistic = 1.52151
Como se observa ahora los residuos muestran un comportamiento normal, indicando que el modelo
es adecuado.
Normal Probability Plot of the Residuals
(response is Y)
99
95
90
80
70
60
50
40
30
20
10
5
Fitted Value
2.5 TRANSFORMACIONES PARA ESTABILIZAR LA VARIANZA
2.5
2.0
1.5
1.0
0.5
0.0
0.15
0.10
0.05
0.00
-0.05
-0.10
-0.15
-0.20
-0.25
Residual
Residuals Versus the Fitted Values
(response is Y)
Relación de ? a E(Y)
? ?? ?E(Y)?1?E(Y)?…………….Y'? sin
Y
La suposición de varianza constante es un requerimiento básico del análisis de regresión, una razón
común de violación a de este supuesto es cuando la variable de respuesta Y sigue una distribución de
probabilidad en la cual la varianza esta relacionada con la media. Para estos casos se utiliza
transformaciones estabilizadoras de la varianza.
Si la distribución de Y es de Poisson, podemos relacionar Y'?
Y contra X ya que la varianza de Y
es independiente de la media. Si la variable de respuesta Y es una proporción con valores entre [0,1]
y la gráfica de residuos tiene el patrón de doble cresta, entonces se usa la transformación
Y'? sin?1 Y .
Otras transformaciones se muestran abajo en la tabla 2.2:
Tabla 2.2 Relaciones para transformar la varianza
2
Transformación
Datos de Poisson
Proporciones binomiales
? 2 ?? ?constante…………………………Y'?Y
? 2 ?? ?E(Y)……………………………Y'? Y
2 ?1
? 2 ?? ??E(Y)?2…………………………Y'?ln(Y)
? 2 ?? ??E(Y)?3………………………Y'?Y ?1/2
La magnitud de la transformación, depende del grado de curvatura que induce.
La selección de la transformación se hace en base a la experiencia o de forma empírica. A
continuación se presenta un ejemplo para este análisis.
Ejemplo 2.4 Se hizo un estudio entre la demanda (Y) y la energía eléctrica utilizada (X) durante un
cierto periodo de tiempo, procesando los datos con Minitab se obtuvo lo siguiente:
Y
X
2000
1500
1000
500
10
8
6
4
2
0
S
R-Sq
R-Sq(adj)
1.46163
66.4%
64.9%
The regression equation is
Y = – 0.7038 + 0.003464 X
S = 1.46163 R-Sq = 66.4% R-Sq(adj) = 64.9%
Analysis of Variance
Source DF SS MS F P
Regression 1 97.094 97.0943 45.45 0.000
Error 23 49.136 2.1364
Total 24 146.231
Unusual Observations
Obs X Y Fit SE Fit Residual St Resid
8 2189 9.500 6.880 0.651 2.620 2.00R
R denotes an observation with a large standardized residual.
Durbin-Watson statistic = 1.49454
Fitted Line: Y versus X
Fitted Line Plot
Y = – 0.7038 +0.003464 X
Percent
Standardized Residual
3
2
1
0
-1
-2
-3
99
95
90
80
70
60
50
40
30
20
10
5
1
Normal Probability Plot of the Residuals
(response is Y)
7
6
5
4
3
2
1
0
2
1
0
-1
-2
Standardized Residual
Residuals Versus the Fitted Values
(response is Y)
Fitted Value
Notar que y es la cuenta de kilowatts utilizados por un cliente en cierta hora, se observa que la
varianza aumenta conforme aumenta la media de los datos indicando que sigue el modelo de
Poisson, por tanto se puede transformar con la raiz cuadrada de Y. como sigue:
Raiz(Y)
X
2000
1500
1000
500
S
R-Sq
R-Sq(adj)
0.454426
64.3%
62.7%
Regression Analysis: Raiz(Y) versus X
The regression equation is
Raiz(Y) = 0.4717 + 0.001027 X
S = 0.454426 R-Sq = 64.3% R-Sq(adj) = 62.7%
Durbin-Watson statistic = 1.65249
Fitted Line Plot
Raiz(Y) = 0.4717 +0.001027 X
3.0
2.5
2.0
1.5
1.0
0.5
Percent
Residual
1.0
0.5
0.0
-0.5
-1.0
99
95
90
80
70
60
50
40
30
20
10
5
1
Normal Probability Plot of the Residuals
(response is Raiz(Y))
3.0
2.5
2.0
1.5
1.0
1.0
0.5
0.0
-0.5
Residual
Residuals Versus the Fitted Values
(response is Raiz(Y))
Fitted Value
Se observa una mejor distribución normal de los residuos por lo que el modelo es adecuado. A
continuación se muestra el análisis de varianza para el modelo:
Analysis of Variance
Source DF SS MS F P
Regression 1 8.5401 8.54008 41.36 0.000
Error 23 4.7496 0.20650
Total 24 13.2897
3. REGRESIÓN LINEAL MÚLTIPLE
3.1 Modelos de Regresión Múltiple
Asumiendo que N observaciones de la respuesta se puedan expresar por medio de un modelo de
primer orden
Yu ? ?0 ??1Xu1 ??2Xu2 ?…….??kXuk ??u
(3.1)
En la ecuación 3.1 Yu denota la respuesta observada en el intento u; Xui representa el nivel del factor
i en el intento u; las betas son parámetros desconocidos y ?u representa el error aleatorio en Yu. Se
asume que los errores ?u tienen las características siguientes:
2
2. Son estadísticamente independientes.
3. Están distribuidos en forma normal.
3.2 Estimación de los parámetros del modelo
El método de mínimos cuadrados selecciona como estimados para los parámetros desconocidos beta,
los valores b0, b1, …., bk respectivamente, los cuales minimizan la cantidad:
N
u?1
Y son las soluciones a un conjunto de (k +1) ecuaciones normales.
Sobre N observaciones el modelo de primer orden puede expresarse en forma matricial como:
Y = X ? + ? = [1 : D] ? + ?
(3.2)
Y es un vector N x 1.
X es una matriz de orden N x (k + 1), donde la primera columna es de 1s.
? es un vector de orden (k + 1) x 1.
? es un vector de orden N x 1.
D es la matriz de Xij con i = 1, 2, …, N; j = 1, 2, ……, k
Deseamos encontrar el vector de estimadores de mínimos cuadrados b que minimicen:
n
i?1
Que puede ser expresada como:
S(?) ?Y'Y ??'X'Y ?Y'X? ??'X'X?
Como ?'X'Y es una matriz 1×1 o un escalar y su transpuesta (?'X'Y)'?Y'X? es el mismo
escalar, se tiene:
(3.3)
S(?) ?Y'Y ?2?'X'Y ??'X'X'?
Los estimadores de mínimos cuadrados deben satisfacer:
? ?2X'Y ?2X'Xb ? 0
b
?S
??
(3.4)
Que se simplifica a las ecuaciones normales de mínimos cuadrados:
XX b = X Y
Los estimadores de mínimos cuadrados b de los elementos ? son:
b = (XX)
-1
XY
(3.5)
El vector de valores ajustados
Y ? Xbse puede expresar como:
Página siguiente |