Monografías Plus      Agregar a favoritos      Ayuda      Português      Ingles     

Adecuación del modelo de regresión lineal




Partes: 1, 2



Monografias.com
ei ?Yi ?Y i,i ?1,2,3...,n ?(e ?e MSE?1?? ? ? ? ?? ADECUACIÓN DEL MODELO DE REGRESIÓN LINEAL,POR DR. PRIMITIVO REYES AGUILAR 2.1 Introducción Los principales supuestos que se hacen en el análisis de regresión lineal son los siguientes: 1. La relación entre las variables Y y X es lineal, o al menos bien aproximada por una línea recta. 2. El término de error ? tiene media cero. 2 4. Los errores no están correlacionados. 5. Los errores están normalmente distribuidos. Los supuestos 4 y 5 implican que los errores son variables aleatorias independientes y el supuesto 5 se requiere para pruebas de hipótesis y estimación de parámetros. Se analizarán varios métodos para diagnosticar y tratar violaciones sobre los supuestos básicos de la regresión no sólo lineal sino también la múltiple. 2.2 Análisis de los residuos 2.2.1 Definición de los residuos Los residuos están definidos como las n diferencias, ^ (2.1) donde Yi son las observaciones reales y Y-gorro los valores estimados con la recta de regresión. Como los residuos son las diferencias entre las observaciones reales y las predichas o estimadas, son una medida de la variabilidad no explicada por el modelo de regresión, e el valor observado de los errores. Así, cualquier desviación anormal de los supuestos acerca de los errores, será mostrada por los residuos. Su análisis es un método efectivo para descubrir varios tipos de deficiencias del modelo. Los residuos tienen varias propiedades importantes. Su media es cero y su varianza aproximada es: ? MSE ? ? SSE n?2 n 2 i i?1 n?2 i?1 n __ 2 i ? e) n?2 (2.2) En algunos casos es mejor trabajar con residuos estandarizados, que tienen media cero y varianza unitaria aproximada. ei MSE ,....1?1,2,.....,n di ? (2.3) Para el caso de n pequeña, donde se pueden tener diferencias apreciables en las varianzas de los residuos, un método más apropiado de escalamiento es el de los residuos estudentizados , donde se toma en cuenta la varianza de cada uno en lugar de un promedio de las varianzas como en los residuos estandarizados. Para n grande, ambos residuos son muy parecidos. Los residuos estudentizados se definen como: , ? ?1 i (X i ? X)2 ?? SXX ?? ? ?n ei r ? i = 1, 2, ........, n (2.4) Por lo anterior los residuos representan los errores observados si el modelo es correcto.

Monografias.com
Los residuos pueden ser graficados para: 1. Checar normalidad. 2. Checar el efecto del tiempo si su orden es conocido en los datos. 3. Checar la constancia de la varianza y la posible necesidad de transformar los datos en Y. 4. Checar la curvatura de más alto orden que ajusta en las X’s. A continuación con Minitab se calculan los residuos con los datos del ejemplo 1.1 y a partir de la recta de ajuste. Observaciónes 2.2.2 Gráfica de probabilidad normal Se utiliza la gráfica de probabilidad normal para identificar si algunos residuos sesgan la respuesta de la normal. Normalmente se requieren 20 puntos para checar normalidad. Normplot of Residuals for C1

Monografias.com
La gráfica de residuos contra los valores estimados Residuals vs Fits for C1 Se sugiere utilizar los residuos estandarizados, ya que son útiles para evaluar normalidad, es decir que habrá normalidad si el 68% de los mismos se encuentran entre –1 y +1 y el 95% entre –2 y +2, de otra forma habrá una violación de la normalidad. ^ yi puede identificar patrones anormales o no lineales, indicando que tal vez se requiera agregar otra variable regresora al modelo, o se requiera transformar las variables regresora o de respuesta. También puede revelar outliers potenciales, si ocurren en los extremos, indican que la varianza no es constante o que no hay relación lineal entre variables. Para el caso del ejemplo 1.2 con los datos X y Y se tienen los residuos estandarizados y estudentizados son:

Monografias.com
Utilizando Minitab se tiene: Regression Analysis: Y versus X The regression equation is Y = 2628 - 37.2 X Predictor Coef SE Coef T P Constant 2627.82 44.18 59.47 0.000 X -37.154 2.889 -12.86 0.000 S = 96.1061 R-Sq = 90.2% R-Sq(adj) = 89.6% Analysis of Variance Source DF SS MS F P Regression 1 1527483 1527483 165.38 0.000 Residual Error 18 166255 9236 Total 19 1693738 No replicates. Cannot do pure error test. Unusual Observations Obs X Y Fit SE Fit Residual St Resid 5 5.5 2207.5 2423.5 31.3 6 19.0 1708.3 1921.9 27.0 -216.0 -213.6 -2.38R -2.32R La tabla de valores estimados Fits, Residuos, Residuos estandarizados, Residuos estudentizados borrados y Residuos estudentizados simples se muestra a continuación:

Monografias.com
Para el cálculo de los residuos estudentizados se utilizó la tabla siguiente: MSE = Raiz MSE (Xi- Xmedia)^2 9236 96.10411021 1/20 + (Xi- Y 2158.70 1678.15 2316.00 2061.30 2207.50 1708.30 1784.70 2575.00 2357.90 2256.70 2165.20 2399.55 1779.80 2336.75 1765.30 2053.50 2414.40 2200.50 2654.20 1753.70 X 15.50 23.75 8.00 17.00 5.50 19.00 24.00 2.50 7.50 11.00 13.00 3.75 25.00 9.75 22.00 18.00 6.00 12.50 2.00 21.50 FITS1 2051.94 1745.42 2330.59 1996.21 2423.48 1921.9 1736.14 2534.94 2349.17 2219.13 2144.83 2488.5 1698.98 2265.57 1810.44 1959.06 2404.9 2163.4 2553.52 1829.02 RESI1 106.7580 -67.2750 -14.5940 65.0890 -215.9780 -213.6040 48.5640 40.0620 8.7300 37.5670 20.3740 -88.9460 80.8170 71.1750 -45.1430 94.4420 9.4990 37.0980 100.6850 -75.3200 ResEstan1 1.11086 -0.70002 -0.15186 0.67728 -2.24733 -2.22263 0.50533 0.41686 0.09084 0.39090 0.21200 -0.92552 0.84093 0.74060 -0.46973 0.98271 0.09884 0.38602 1.04767 -0.78373 Sxx 4.56891 107.90016 28.75641 13.23141 61.81891 31.78141 113.15641 117.99391 34.36891 5.58141 0.13141 92.40016 135.43141 13.05016 74.60641 21.50641 54.20641 0.74391 129.10641 66.21891 Xmedia)^2/Sxx 0.05413 0.14751 0.07599 0.06196 0.10587 0.07872 0.15226 0.15663 0.08106 0.05504 0.05012 0.13350 0.17239 0.06179 0.11742 0.06944 0.09899 0.05067 0.16667 0.10984 Ri 1.14220 -0.75817 -0.15798 0.69929 -2.37666 -2.31564 0.54883 0.45392 0.09476 0.40212 0.21752 -0.99426 0.92437 0.76460 -0.50000 1.01871 0.10413 0.39619 1.14767 -0.83068 Las gráficas de los residuos normales son las siguientes:

Monografias.com
Residual Percent Frequency Residual Percent 200 100 0 -100 -200 99 90 50 10 1 2600 2400 2200 2000 1800 100 0 -100 -200 Residual 100 50 0 -50 -100 -150 -200 6.0 4.5 3.0 1.5 0.0 Observation Order 20 18 16 14 12 10 8 6 4 2 100 0 -100 -200 Normal Probability Plot of the Residuals Residuals Versus the Fitted Values Residual Histogram of the Residuals Fitted Value Residuals Versus the Order of the Data Residual Plots for Y Standardized Residual 3 2 1 0 -1 -2 -3 1 Tomado los residuos estandarizados vs fits se tiene: Normal Probability Plot of the Residuals (response is Y) 99 95 90 80 70 60 50 40 30 20 10 5

Monografias.com
Standardized Residual Deleted Residual 2600 2500 2400 2300 2200 2100 2000 1900 1800 1700 1.0 0.5 0.0 -0.5 -1.0 -1.5 -2.0 -2.5 Residuals Versus the Fitted Values (response is Y) Fitted Value 2600 2500 2400 2300 2200 2100 2000 1900 1800 1700 Fitted Value Y para los residuos estudentizados se tiene: Residuals Versus the Fitted Values (response is Y) 1 0 -1 -2 -3 Como se puede observar los puntos 5 y 6 exceden el límite de dos sigmas. 2.2.3 Gráfica de residuos vs Yestimada La gráfica de residuos normales, estandarizados o estudentizados vs los valores estimados de Y es útil para identificar no adecuaciones del modelo.

Monografias.com
Standardized Residual Standardized Residual 25 20 15 10 5 0 Patrones de variación de los residuos a) Aleatorio; b) Cono (aumenta la varianza); c) Rombo; d) No lineal 2.2.4 Gráfica de residuos vs Xi Los patrones generados a veces son similares a los de la figura anterior, por ejemplo para el caso del ejemplo 1.2, se tiene: En Minitab (Graphs seleccionar Residual vs Fits y Residuals vs Variables X) Residuals Versus X (response is Y) 1.0 0.5 0.0 -0.5 -1.0 -1.5 -2.0 -2.5 20 18 16 14 12 10 8 6 4 2 X En este caso los residuos para los puntos 5 y 6 exceden de dos sigmas sin embargo no muestran indicios de violación del modelo. 2.2.5 Otras gráficas de residuos Se pueden obtener gráficas de los residuales vs el tiempo de ocurrencia u orden: Residuals Versus the Order of the Data (response is Y) 1.0 0.5 0.0 -0.5 -1.0 -1.5 -2.0 -2.5 Observation Order En este caso se puede identificar si existe autocorrelación positiva o negativa de los residuos como sigue:

Monografias.com
Residuos vs tiempo: Autocorrelación positiva - Autocorrelación negativa 2.2.6 Pruebas estadísticas en los residuos Las pruebas estadísticas en los residuos son menos prácticas que la observación de su comportamiento donde se obtiene más información. 2.3 DETECCIÓN Y TRATAMIENTO DE OUTLIERS Un Outilier es una observación extrema, donde el residuo es considerablemente grande, por decir con tres o cuatro desviaciones estándar de la media. Estos puntos no son puntos típicos de los datos y pueden ocasionar defectos severos en el modelo de regresión. Las gráficas de Y estimada vs residuos ya sea estandarizados o estudentizados permiten identificar Outliers (puntos aberrantes). Los outliers deben ser investigados para ver si se puede hallar la razón de su comportamiento anormal (medición incorrecta, equipo dañado, error de anotación). Si se encuentra que se debe a un error se debe descartar de los datos. En otros casos donde se encuentra una razón se debe mantener en la estimación del modelo. En general se espera que la ecuación de regresión encontrada sea insensible a algunos puntos particulares, para que sea un modelo robusto. Puede no ser aceptable que un pequeño porcentaje de los datos tenga un efecto significativo en el modelo. Con los datos del ejemplo 1.2 si omitimos los puntos 5 y 6 que indican Outliers y compramos nuevo modelo con el modelo anterior se tiene: Con el modelo original: The regression equation is Y = 2628 - 37.2 X Predictor Coef SE Coef T P Constant 2627.82 44.18 59.47 0.000 X -37.154 2.889 -12.86 0.000 S = 96.1061 R-Sq = 90.2% R-Sq(adj) = 89.6% Y con el modelo donde se excluyen los puntos 5 y 6 se tiene: The regression equation is Y_1 = 2659 - 37.7 X_1 Predictor Coef SE Coef T P Constant 2658.97 30.53 87.08 0.000 X_1 -37.694 1.979 -19.05 0.000 S = 62.9653 R-Sq = 95.8% R-Sq(adj) = 95.5%

Monografias.com
Percent Standardized Residual 3 2 1 0 -1 -2 -3 99 95 90 80 70 60 50 40 30 20 10 5 1 Normal Probability Plot of the Residuals (response is Y_1) 2600 2400 2200 2000 1800 1600 1.5 1.0 0.5 0.0 -0.5 -1.0 -1.5 -2.0 Standardized Residual Residuals Versus the Fitted Values (response is Y_1) Fitted Value Casi no hubo efecto en la estimación de los coeficientes de la regresión. La MSE se redujo mucho, se incrementó R^2 en 5% y se redujo en 30% el error estándar de ?1. En General a pesar de que los puntos 5 y 6 no afectan la estimación y aplicación del modelo, y el quitarlos mejoraría el error de estimación aunque no hay una razón de peso. 2.4 PRUEBA DE FALTA DE AJUSTE Falta de ajuste y el error puro Se asume que se cumplen los requerimientos de normalidad, independencia y varianza constante y que sólo se tiene en duda si la relación entre las variables es de primer orden o sea una línea recta. Para el cálculo del error puro se requiere hacer réplicas verdaderas, por ejemplo medir el coeficiente de inteligencia de dos personas con la misma estatura en vez de hacer dos mediciones repetidas de la misma persona, o realizar dos experimentos en diferente tiempo con la misma X y registrando el valor de la respuesta. Suponiendo que se tienen m valores diferentes de Xj, con j=1,2....m, por tanto:

Monografias.com
? ? u 1 (Y1u ?Y) ??Y ? ??Y1u ? SS.error.puro?? ?(Yju ?Yj)2 ne ??n j ?m ?(Y 1 Y11, Y12,.....,Y1n1 son n1 observaciones repetidas en X1; Y21, Y22,......,Y2n2son n2 observaciones repetidas en X2; ........... Yju es la observación u-ésima (u=1,2,....,nj) en Xj; Ym1, Ym2,.....,Ymn1 son n observaciones repetidas en Xm. La suma de cuadrados del error puro de las n1 observaciones en X1 es la suma de cuadrados interna de la Y1u con respecto a su media Y1, o sea: 2 2 2 n1 __ n1 u?1 1u 1 ? n1 ? n1? i?1 ? (2.5) Reuniendo las sumas internas de cuadrados de todos los lugares donde se tomaron réplicas se tiene el error puro total SS como: n1 __ u?1 m j?1 (2.6) (2.7) Con grados de libertad: m j?1 Para el caso de nj= 2 se tiene: ju __ ?Y j)2 ? (Yj1 ?Yj2)2 2 2 u?1 (2.8) e El cuadrado medio del error puro es: s2 ? SS.error.puro/ne (2.9) De esta forma la suma de cuadrados del error residual se divide en suma de cuadrados de “falta de ajuste” y “error puro”. (2.10) (2.11) Donde SSE(residual) ? SSPE(error.puro)?SSLOF( falta.de.ajsute) El residuo (ij-ésimo) es: __ ^ __ ^ Yij ?Y i ? (Yij ?Y i)?(Yi ?Yi) __ Y i es el promedio de las ni observaciones en Xi. La suma de cuadrados del error puro es:

Monografias.com
SSPE ??? (Yij ?Y i)2 i?1 j?1 ^ SSLOF ??ni(Y i?Y i)2 (2.12) (2.13) m ni __ i La suma de cuadrados de la falta de ajuste: m __ i?1 El estadístico Fo para la falta de ajuste es: MSLOF MSPE ? SSLOF /(m?2 ) SSPE /n?m) F0 ? (2.14) El valor esperado de MSPE ?? 2 (2.15) Ejemplo 2.4.1: Tomando un nuevo grupo de datos en los cuales hay algunas réplicas por ejemplo se tomaron 2 valores para X = 1.3, 2.0, 3.3, 3.7, 4.7 y 6.0 y se tomaron 3 valores para X =4,5.3. La tabla de datos completa se muestra a continuación: La recta de ajuste estimada con Minitab es la siguiente: Regression Analysis: Y versus X (Pure Error) The regression equation is

Partes: 1, 2

Página siguiente 

Comentarios


Trabajos relacionados

  • Distribución Normal

    Distribución Normal. Función de densidad. La distribución binomial. Esta distribución es frecuentemente utilizada en l...

  • Estructura y funcionamiento del Programa Raíces

    Carlos alberto PérezEl programa esta compuesto por la función principal raices y 9 subfunciones: Raices (principal; Cuad...

  • El poder del Solver

    Ejemplo de cómo usar "SOLVER". En estos tiempos donde se habla de la tecnología, información, sociedad del conocimient...

Ver mas trabajos de Matematicas

 
 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.


Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Iniciar sesión

Ingrese el e-mail y contraseña con el que está registrado en Monografias.com

   
 

Regístrese gratis

¿Olvidó su contraseña?

Ayuda