Monografias.com > Matemáticas
Descargar Imprimir Comentar Ver trabajos relacionados

Adecuación del modelo de regresión lineal



Partes: 1, 2

    Monografias.com

    ei ?Yi ?Y i,i ?1,2,3…,n
    ?(e
    ?e
    MSE?1?? ? ?
    ? ??
    ADECUACIÓN DEL MODELO DE REGRESIÓN LINEAL,POR DR. PRIMITIVO REYES AGUILAR
    2.1 Introducción
    Los principales supuestos que se hacen en el análisis de regresión lineal son los siguientes:
    1. La relación entre las variables Y y X es lineal, o al menos bien aproximada por una línea recta.
    2. El término de error ? tiene media cero.
    2
    4. Los errores no están correlacionados.
    5. Los errores están normalmente distribuidos.

    Los supuestos 4 y 5 implican que los errores son variables aleatorias independientes y el supuesto 5
    se requiere para pruebas de hipótesis y estimación de parámetros.

    Se analizarán varios métodos para diagnosticar y tratar violaciones sobre los supuestos básicos de la
    regresión no sólo lineal sino también la múltiple.

    2.2 Análisis de los residuos
    2.2.1 Definición de los residuos
    Los residuos están definidos como las n diferencias,
    ^
    (2.1)
    donde Yi son las observaciones reales y Y-gorro los valores estimados con la recta de regresión.

    Como los residuos son las diferencias entre las observaciones reales y las predichas o estimadas, son
    una medida de la variabilidad no explicada por el modelo de regresión, e el valor observado de los
    errores. Así, cualquier desviación anormal de los supuestos acerca de los errores, será mostrada por
    los residuos. Su análisis es un método efectivo para descubrir varios tipos de deficiencias del modelo.

    Los residuos tienen varias propiedades importantes. Su media es cero y su varianza aproximada es:
    ? MSE
    ?
    ?
    SSE
    n?2
    n
    2
    i
    i?1
    n?2
    i?1
    n __ 2
    i ? e)
    n?2
    (2.2)
    En algunos casos es mejor trabajar con residuos estandarizados, que tienen media cero y varianza
    unitaria aproximada.
    ei
    MSE
    ,….1?1,2,…..,n
    di ?
    (2.3)
    Para el caso de n pequeña, donde se pueden tener diferencias apreciables en las varianzas de los
    residuos, un método más apropiado de escalamiento es el de los residuos estudentizados , donde se
    toma en cuenta la varianza de cada uno en lugar de un promedio de las varianzas como en los
    residuos estandarizados. Para n grande, ambos residuos son muy parecidos.

    Los residuos estudentizados se definen como:
    ,
    ? ?1
    i
    (X i ? X)2 ??
    SXX ??
    ? ?n
    ei
    r ?
    i = 1, 2, …….., n
    (2.4)
    Por lo anterior los residuos representan los errores observados si el modelo es correcto.

    Monografias.com

    Los residuos pueden ser graficados para:
    1. Checar normalidad.
    2. Checar el efecto del tiempo si su orden es conocido en los datos.
    3. Checar la constancia de la varianza y la posible necesidad de transformar los datos en Y.
    4. Checar la curvatura de más alto orden que ajusta en las X’s.

    A continuación con Minitab se calculan los residuos con los datos del ejemplo 1.1 y a partir de la recta
    de ajuste.

    Observaciónes
    2.2.2 Gráfica de probabilidad normal
    Se utiliza la gráfica de probabilidad normal para identificar si algunos residuos sesgan la respuesta de
    la normal. Normalmente se requieren 20 puntos para checar normalidad.
    Normplot of Residuals for C1

    Monografias.com

    La gráfica de residuos contra los valores estimados
    Residuals vs Fits for C1
    Se sugiere utilizar los residuos estandarizados, ya que son útiles para evaluar normalidad, es decir
    que habrá normalidad si el 68% de los mismos se encuentran entre –1 y +1 y el 95% entre –2 y +2, de
    otra forma habrá una violación de la normalidad.
    ^
    yi
    puede identificar patrones anormales o no
    lineales, indicando que tal vez se requiera agregar otra variable regresora al modelo, o se requiera
    transformar las variables regresora o de respuesta. También puede revelar outliers potenciales, si
    ocurren en los extremos, indican que la varianza no es constante o que no hay relación lineal entre
    variables.

    Para el caso del ejemplo 1.2 con los datos X y Y se tienen los residuos estandarizados y
    estudentizados son:

    Monografias.com

    Utilizando Minitab se tiene:
    Regression Analysis: Y versus X
    The regression equation is
    Y = 2628 – 37.2 X
    Predictor Coef SE Coef T P
    Constant 2627.82 44.18 59.47 0.000
    X
    -37.154
    2.889 -12.86 0.000
    S = 96.1061 R-Sq = 90.2% R-Sq(adj) = 89.6%

    Analysis of Variance
    Source
    DF SS MS F P
    Regression 1 1527483 1527483 165.38 0.000
    Residual Error 18 166255
    9236
    Total 19 1693738

    No replicates.
    Cannot do pure error test.

    Unusual Observations
    Obs X Y Fit SE Fit Residual St Resid
    5 5.5 2207.5 2423.5 31.3
    6 19.0 1708.3 1921.9 27.0
    -216.0
    -213.6
    -2.38R
    -2.32R
    La tabla de valores estimados Fits, Residuos, Residuos estandarizados, Residuos estudentizados
    borrados y Residuos estudentizados simples se muestra a continuación:

    Monografias.com

    Para el cálculo de los residuos estudentizados se utilizó la tabla siguiente:
    MSE =
    Raiz MSE
    (Xi-
    Xmedia)^2
    9236
    96.10411021

    1/20 +
    (Xi-
    Y
    2158.70
    1678.15
    2316.00
    2061.30
    2207.50
    1708.30
    1784.70
    2575.00
    2357.90
    2256.70
    2165.20
    2399.55
    1779.80
    2336.75
    1765.30
    2053.50
    2414.40
    2200.50
    2654.20
    1753.70
    X
    15.50
    23.75
    8.00
    17.00
    5.50
    19.00
    24.00
    2.50
    7.50
    11.00
    13.00
    3.75
    25.00
    9.75
    22.00
    18.00
    6.00
    12.50
    2.00
    21.50
    FITS1
    2051.94
    1745.42
    2330.59
    1996.21
    2423.48
    1921.9
    1736.14
    2534.94
    2349.17
    2219.13
    2144.83
    2488.5
    1698.98
    2265.57
    1810.44
    1959.06
    2404.9
    2163.4
    2553.52
    1829.02
    RESI1
    106.7580
    -67.2750
    -14.5940
    65.0890
    -215.9780
    -213.6040
    48.5640
    40.0620
    8.7300
    37.5670
    20.3740
    -88.9460
    80.8170
    71.1750
    -45.1430
    94.4420
    9.4990
    37.0980
    100.6850
    -75.3200
    ResEstan1
    1.11086
    -0.70002
    -0.15186
    0.67728
    -2.24733
    -2.22263
    0.50533
    0.41686
    0.09084
    0.39090
    0.21200
    -0.92552
    0.84093
    0.74060
    -0.46973
    0.98271
    0.09884
    0.38602
    1.04767
    -0.78373
    Sxx
    4.56891
    107.90016
    28.75641
    13.23141
    61.81891
    31.78141
    113.15641
    117.99391
    34.36891
    5.58141
    0.13141
    92.40016
    135.43141
    13.05016
    74.60641
    21.50641
    54.20641
    0.74391
    129.10641
    66.21891
    Xmedia)^2/Sxx
    0.05413
    0.14751
    0.07599
    0.06196
    0.10587
    0.07872
    0.15226
    0.15663
    0.08106
    0.05504
    0.05012
    0.13350
    0.17239
    0.06179
    0.11742
    0.06944
    0.09899
    0.05067
    0.16667
    0.10984
    Ri
    1.14220
    -0.75817
    -0.15798
    0.69929
    -2.37666
    -2.31564
    0.54883
    0.45392
    0.09476
    0.40212
    0.21752
    -0.99426
    0.92437
    0.76460
    -0.50000
    1.01871
    0.10413
    0.39619
    1.14767
    -0.83068
    Las gráficas de los residuos normales son las siguientes:

    Monografias.com

    Residual
    Percent
    Frequency
    Residual
    Percent
    200
    100
    0
    -100
    -200
    99
    90
    50

    10
    1
    2600
    2400
    2200
    2000
    1800
    100

    0
    -100
    -200
    Residual
    100
    50
    0
    -50
    -100
    -150
    -200
    6.0
    4.5
    3.0
    1.5
    0.0
    Observation Order
    20
    18
    16
    14
    12
    10
    8
    6
    4
    2
    100

    0

    -100
    -200
    Normal Probability Plot of the Residuals
    Residuals Versus the Fitted Values
    Residual
    Histogram of the Residuals
    Fitted Value
    Residuals Versus the Order of the Data
    Residual Plots for Y
    Standardized Residual
    3
    2
    1
    0
    -1
    -2
    -3
    1
    Tomado los residuos estandarizados vs fits se tiene:

    Normal Probability Plot of the Residuals
    (response is Y)
    99

    95
    90
    80
    70
    60
    50
    40
    30
    20
    10
    5

    Monografias.com

    Standardized Residual
    Deleted Residual
    2600
    2500
    2400
    2300
    2200
    2100
    2000
    1900
    1800
    1700
    1.0

    0.5

    0.0

    -0.5

    -1.0

    -1.5

    -2.0

    -2.5
    Residuals Versus the Fitted Values
    (response is Y)
    Fitted Value
    2600
    2500
    2400
    2300
    2200
    2100
    2000
    1900
    1800
    1700
    Fitted Value

    Y para los residuos estudentizados se tiene:

    Residuals Versus the Fitted Values
    (response is Y)

    1

    0

    -1

    -2

    -3
    Como se puede observar los puntos 5 y 6 exceden el límite de dos sigmas.

    2.2.3 Gráfica de residuos vs Yestimada
    La gráfica de residuos normales, estandarizados o estudentizados vs los valores estimados de Y es
    útil para identificar no adecuaciones del modelo.

    Monografias.com

    Standardized Residual
    Standardized Residual
    25
    20
    15
    10
    5
    0
    Patrones de variación de los residuos
    a) Aleatorio; b) Cono (aumenta la varianza); c) Rombo; d) No lineal

    2.2.4 Gráfica de residuos vs Xi
    Los patrones generados a veces son similares a los de la figura anterior, por ejemplo para el caso del
    ejemplo 1.2, se tiene:
    En Minitab (Graphs seleccionar Residual vs Fits y Residuals vs Variables X)
    Residuals Versus X
    (response is Y)

    1.0
    0.5
    0.0
    -0.5
    -1.0
    -1.5
    -2.0
    -2.5
    20
    18
    16
    14
    12
    10
    8
    6
    4
    2
    X

    En este caso los residuos para los puntos 5 y 6 exceden de dos sigmas sin embargo no muestran
    indicios de violación del modelo.

    2.2.5 Otras gráficas de residuos
    Se pueden obtener gráficas de los residuales vs el tiempo de ocurrencia u orden:
    Residuals Versus the Order of the Data
    (response is Y)

    1.0
    0.5
    0.0
    -0.5
    -1.0
    -1.5
    -2.0
    -2.5
    Observation Order

    En este caso se puede identificar si existe autocorrelación positiva o negativa de los residuos como
    sigue:

    Monografias.com

    Residuos vs tiempo: Autocorrelación positiva –
    Autocorrelación negativa
    2.2.6 Pruebas estadísticas en los residuos
    Las pruebas estadísticas en los residuos son menos prácticas que la observación de su
    comportamiento donde se obtiene más información.

    2.3 DETECCIÓN Y TRATAMIENTO DE OUTLIERS
    Un Outilier es una observación extrema, donde el residuo es considerablemente grande, por decir con
    tres o cuatro desviaciones estándar de la media. Estos puntos no son puntos típicos de los datos y
    pueden ocasionar defectos severos en el modelo de regresión. Las gráficas de Y estimada vs
    residuos ya sea estandarizados o estudentizados permiten identificar Outliers (puntos aberrantes).

    Los outliers deben ser investigados para ver si se puede hallar la razón de su comportamiento
    anormal (medición incorrecta, equipo dañado, error de anotación). Si se encuentra que se debe a un
    error se debe descartar de los datos. En otros casos donde se encuentra una razón se debe mantener
    en la estimación del modelo.

    En general se espera que la ecuación de regresión encontrada sea insensible a algunos puntos
    particulares, para que sea un modelo robusto. Puede no ser aceptable que un pequeño porcentaje de
    los datos tenga un efecto significativo en el modelo.
    Con los datos del ejemplo 1.2 si omitimos los puntos 5 y 6 que indican Outliers y compramos nuevo
    modelo con el modelo anterior se tiene:

    Con el modelo original:
    The regression equation is
    Y = 2628 – 37.2 X

    Predictor Coef SE Coef T P
    Constant 2627.82 44.18 59.47 0.000
    X
    -37.154
    2.889 -12.86 0.000
    S = 96.1061 R-Sq = 90.2% R-Sq(adj) = 89.6%

    Y con el modelo donde se excluyen los puntos 5 y 6 se tiene:
    The regression equation is
    Y_1 = 2659 – 37.7 X_1

    Predictor Coef SE Coef T P
    Constant 2658.97 30.53 87.08 0.000
    X_1
    -37.694
    1.979 -19.05 0.000
    S = 62.9653 R-Sq = 95.8% R-Sq(adj) = 95.5%

    Monografias.com

    Percent
    Standardized Residual
    3
    2
    1
    0
    -1
    -2
    -3
    99

    95
    90
    80
    70
    60
    50
    40
    30
    20
    10
    5
    1
    Normal Probability Plot of the Residuals
    (response is Y_1)
    2600
    2400
    2200
    2000
    1800
    1600
    1.5
    1.0
    0.5

    0.0
    -0.5
    -1.0
    -1.5
    -2.0
    Standardized Residual

    Residuals Versus the Fitted Values
    (response is Y_1)
    Fitted Value

    Casi no hubo efecto en la estimación de los coeficientes de la regresión. La MSE se redujo mucho, se
    incrementó R^2 en 5% y se redujo en 30% el error estándar de ?1.
    En General a pesar de que los puntos 5 y 6 no afectan la estimación y aplicación del modelo, y el
    quitarlos mejoraría el error de estimación aunque no hay una razón de peso.

    2.4 PRUEBA DE FALTA DE AJUSTE

    Falta de ajuste y el error puro
    Se asume que se cumplen los requerimientos de normalidad, independencia y varianza constante y
    que sólo se tiene en duda si la relación entre las variables es de primer orden o sea una línea recta.

    Para el cálculo del error puro se requiere hacer réplicas verdaderas, por ejemplo medir el coeficiente
    de inteligencia de dos personas con la misma estatura en vez de hacer dos mediciones repetidas de
    la misma persona, o realizar dos experimentos en diferente tiempo con la misma X y registrando el
    valor de la respuesta.

    Suponiendo que se tienen m valores diferentes de Xj, con j=1,2….m, por tanto:

    Monografias.com

    ? ? u 1
    (Y1u ?Y) ??Y ?
    ??Y1u ?
    SS.error.puro??
    ?(Yju ?Yj)2
    ne ??n j ?m
    ?(Y
    1
    Y11, Y12,…..,Y1n1 son n1 observaciones repetidas en X1;
    Y21, Y22,……,Y2n2son n2 observaciones repetidas en X2;
    ………..
    Yju es la observación u-ésima (u=1,2,….,nj) en Xj;
    Ym1, Ym2,…..,Ymn1 son n observaciones repetidas en Xm.

    La suma de cuadrados del error puro de las n1 observaciones en X1 es la suma de cuadrados interna
    de la Y1u con respecto a su media Y1, o sea:
    2
    2 2
    n1
    __ n1

    u?1
    1u
    1 ? n1 ?
    n1? i?1 ?
    (2.5)
    Reuniendo las sumas internas de cuadrados de todos los lugares donde se tomaron réplicas se tiene
    el error puro total SS como:
    n1 __

    u?1
    m

    j?1
    (2.6)
    (2.7)
    Con grados de libertad:

    m

    j?1

    Para el caso de nj= 2 se tiene:
    ju
    __
    ?Y j)2 ? (Yj1 ?Yj2)2
    2
    2

    u?1
    (2.8)
    e
    El cuadrado medio del error puro es:

    s2 ? SS.error.puro/ne
    (2.9)
    De esta forma la suma de cuadrados del error residual se divide en suma de cuadrados de “falta de
    ajuste” y “error puro”.
    (2.10)

    (2.11)
    Donde
    SSE(residual) ? SSPE(error.puro)?SSLOF( falta.de.ajsute)

    El residuo (ij-ésimo) es:

    __
    ^ __ ^
    Yij ?Y i ? (Yij ?Y i)?(Yi ?Yi)
    __
    Y i es el promedio de las ni observaciones en Xi.
    La suma de cuadrados del error puro es:

    Monografias.com

    SSPE ??? (Yij ?Y i)2
    i?1 j?1
    ^
    SSLOF ??ni(Y i?Y i)2
    (2.12)

    (2.13)
    m ni __

    i

    La suma de cuadrados de la falta de ajuste:

    m __

    i?1

    El estadístico Fo para la falta de ajuste es:
    MSLOF
    MSPE
    ?
    SSLOF /(m?2 )
    SSPE /n?m)
    F0 ?
    (2.14)
    El valor esperado de
    MSPE ?? 2
    (2.15)
    Ejemplo 2.4.1: Tomando un nuevo grupo de datos en los cuales hay algunas réplicas por ejemplo se
    tomaron 2 valores para X = 1.3, 2.0, 3.3, 3.7, 4.7 y 6.0 y se tomaron 3 valores para X =4,5.3. La tabla
    de datos completa se muestra a continuación:
    La recta de ajuste estimada con Minitab es la siguiente:

    Regression Analysis: Y versus X (Pure Error)

    The regression equation is

    Partes: 1, 2

    Página siguiente 

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter