Monografias.com > Matemáticas
Descargar Imprimir Comentar Ver trabajos relacionados

Análisis de regresión



Partes: 1, 2

    Monografias.com

    Análisis de regresión

    CONTENIDO

    1. REGRESIÓN LINEAL SIMPLE
    1.1Introducción
    1.2El modelo de regresión lineal simple
    1.3Usos y abusos de la regresión

    2. ADECUACIÓN DEL MODELO DE REGRESIÓN LINEAL
    2.1Introducción
    2.2Prueba de falta de ajuste
    2.3Análisis de los residuos
    2.4Transformaciones de los datos
    2.5Propuesta de estrategia de ajuste del modelo

    3. REGRESIÓN LINELA MÚLTIPLE
    3.1El modelo de regresión
    3.2Análisis de los residuos
    3.3Análisis de cada observación
    3.4Propuesta de estrategia de ajuste del modelo

    4. TÓPICOS ADICIONALES
    4.1 Calibración
    4.2 Variables independientes cualitativas
    4.3 Autocorrelación
    4.4 Algunos usos interesantes de la regresión

    1. REGRESIÓN LINEAL SIMPLE
    Ajuste de una línea recta por mínimos cuadrados

    1.1 Introducción
    Parece que Sir Francis Galton (1822-1911) un antropólogo y metereológo británico fue responsable de
    la introducción de la palabra “regresión”, mostró que si Y = “estatura de los niños” y X = “estatura de
    ^ __ __
    los padres”, una ecuación de ajuste adecuada era Y ?Y? (X ? X). El artículo de Galton es
    3
    fascinante como se cuenta en The Story of the Statistics1, el método de mínimos cuadrados
    aparentemente fue descubierto por Carl Frederick Gauss (1777-1855)2.

    El método de análisis llamado análisis de regresión, investiga y modela la relación entre una variable
    Y dependiente o de respuesta en función de otras variables de predicción X’s, a través del método de
    mínimos cuadrados.

    Como ejemplo supóngase que un ingeniero industrial de una embotelladora está analizando la
    entrega de producto y el servicio requerido por un operador de ruta para surtir y dar mantenimiento a
    maquinas dispensadoras. El ingeniero visita 25 locales al azar con máquinas dispensadoras,
    observando el tiempo de entrega en minutos y el volumen de producto surtido en cada uno. Las
    observaciones se grafican en un diagrama de dispersión (Fig. 1.1), donde claramente se observa que
    hay una relación entre el tiempo de entrega y el volumen surtido; los puntos casi se encuentran sobre
    una línea recta, con un pequeño error de ajuste.
    En general los modelos de regresión tienen varios propósitos como son:
    1 Stigler,
    S.M., The Story of the Statistics, Belknap Press, Harvard University, 1986, pp. 294-299
    2
    Placket, R.L., “Studies in the history of the probability and Statistics XXIX. The discovery of the method of
    least squares,”, Bometrika, 59, 1972, pp. 239-251.

    Monografias.com

    ?
    ?
    ?
    ?
    Descripción de datos a través de ecuaciones
    Estimación de parámetros para obtener una ecuación modelo
    Predicción y estimación.
    Control.
    1.2
    El modelo de regresión lineal simple
    Al tomar observaciones de ambas variables Y respuesta y X predicción o regresor, se puede
    representar cada punto en un diagrama de dispersión.

    Y
    *
    *
    *
    *** *
    *** **
    ***
    X

    Fig. 1.1 Diagrama de dispersión y recta de ajuste

    El modelo de ajuste o modelo de regresión lineal es:

    Y ? ?0 ??1X ??
    (1.1)
    Donde los coeficientes ?0 y ?1 son parámetros del modelo denominados coeficientes de regresión, son
    constantes, a pesar de que no podemos determinarlos exactamente sin examinar todas las posibles
    ocurrencias de X y Y, podemos usar la información proporcionada por una muestra para hallar sus
    estimados
    b0,b1.
    El error es difícil de determinar puesto que cambia con cada observación Y. Se
    asume que los errores tienen media cero, varianza desconocida ?2 y no están correlacionados (el
    valor de uno no depende del valor de otro). Por esto mismo las respuestas tampoco están
    correlacionadas.

    Conviene ver al regresor o predictor X como la variable controlada por el analista y evaluada con el
    mínimo error, mientras que la variable de respuesta Y es una variable aleatoria, es decir que existe
    una distribución de Y con cada valor de X.

    La media de esta distribución es:
    E(y| x) ? ?0 ??1x

    y su varianza es:

    V(y | x) ?V(?0 ??1x??) ?? 2
    (1.1 a)

    (1.1b)
    De esta forma la media de Y es una función lineal de X a pesar de que la varianza de Y no dependa
    de los valores de X.

    1.2.1 Estimación de los parámetros por mínimos cuadrados

    Monografias.com

    ? ?2?(yi ??0 ? ?1xi) ? 0
    ? ?2?(yi ??0 ? ?1xi)xi ? 0
    ??xi ??? yi ?
    ? ? i 1 yixi ? ? i?1 ? n ? i?1 ?
    ? n
    ?
    ? ? i 1 x2i ? ? i?1n ?
    ? yi
    ?xi
    ˆ ˆ
    El método de mínimos cuadrados se usa para estimar ?0 y ?1 se estimará ?0 y ?1 de manera que la
    suma de cuadrados de las diferencias entre la observaciones yi y la línea recta sea mínima. Los
    parámetros ?0 y ?1 son desconocidos y deben ser estimados usando datos de una muestra.
    Supongamos que se tienen n pares de datos (y1, x1), (y1, x1), (y2, x2),….., (yn, xn) de un experimento o
    por historia.

    De la ecuación modelo de regresión de la población
    Y ? ?0 ??1X ??

    Usando los pares de datos se puede establecer el criterio de mínimos cuadrados como:

    n

    i?1
    Los estimadores de mínimos cuadrados de ?0 y ?1 por decir ?0,?1debe satisfacer es:
    ˆ ˆ
    ˆ ˆ
    n

    i?1

    n

    i?1
    ?S
    ??0
    y
    ?S
    ??1
    ?0,?1

    ?0,?1
    ˆ ˆ
    Simplificando estas dos ecuaciones se obtienen las ecuaciones de mínimos cuadrados:
    n n

    i?1 i?1
    n n n

    i?1 i?1 i?1

    La solución a las ecuaciones normales anteriores:
    ?0 ? y ??1x
    n
    n
    ? n ?? n ?

    ??xi ?
    2
    ˆ
    ?1 ?
    Donde los promedios para X y para Y son los siguientes::
    y ?
    1 n
    n i?1
    x ?
    1 n
    n i?1
    ˆ
    ˆ
    Aplicando el método de mínimos cuadrados del error, se obtiene el modelo que nos da un valor
    estimado Y en función de X, denominado ecuación de predicción o de regresión lineal, como sigue:

    b0 ? ?0
    b1 ? ?1

    Monografias.com

    Y ? b0 ?b1X
    ?X Y
    ?X
    (1.2)
    ^

    Donde:
    ?
    Sxy
    Sxx
    i i

    2
    i
    __ __
    ?n X Y

    __ 2
    ?n X
    n

    i?1
    n

    i?1
    b1 ?
    (1.3)
    __ __
    b0 ?Y?b1 X

    por tanto:

    ^ __ __
    Y ?Y?b1(X ? X)
    (1.4)

    (1.5)
    __ __ __
    Cuando X ? X se tiene el punto (X,Y) que se encuentra en la línea ajustada y representa el
    centro de gravedad de los datos.

    Ejemplo 1.1 Se realizaron 25 observaciones de la variable Y y X como sigue:

    Monografias.com

    Y ?13.6?0.0798X
    11.08
    28.6
    Haciendo cálculos con el paquete Minitab con X en la columna C2 y Y en la columna C1 se tiene:

    Regression Analysis: C1 versus C2
    The regression equation is
    C1 = 13.6 – 0.0798 C2

    Predictor Coef SE Coef T P
    Constant
    13.6230 0.5815 23.43 0.000
    C2
    -0.07983
    0.01052
    -7.59
    0.000
    S = 0.8901
    R-Sq = 71.4%
    R-Sq(adj) = 70.2%
    (1.6)
    Por lo anterior la ecuación de regresión obtenida es:
    ^

    Después de obtener esta ecuación, surgen algunas preguntas:



    ¿qué tan bien ajusta los datos esta ecuación?
    ¿el útil el modelo para hacer predicciones?
    ¿se viola alguna condición como varianza constante y no correlación en los errores, de ser así que
    tan seria es?
    Todo esto debe ser aclarado antes de usar el modelo.

    Monografias.com

    ? YY
    ??Yi ?
    ??Yi2 ? ? i?1
    ?
    SXY ??X iYi ?
    ?X i?Yi
    ei ?Yi ?Y i es el residuo que expresa la diferencia entre el valor observado y el valor
    Y ? b0 ?b1x
    1.2.2 Análisis de Varianza

    El análisis de varianza es una herramienta que sirve para probar la adecuación del modelo de
    regresión, para lo cual es necesario calcular las sumas de cuadrados correspondientes.

    La desviación estándar S corresponde a la raíz cuadrada del valor de MSE o cuadrado medio
    residual.
    S
    S 2 ?
    ?b1SXY
    n?2
    SSE
    n?2
    (1.7)
    Donde:
    n
    SYY
    2
    ? n ?
    i?1 n
    (1.8)
    n
    n n

    i?1 i?1
    n

    i?1
    (1.9)
    La expresión
    ^
    (1.10)
    estimado por la ecuación de predicción.

    Donde:

    ^ __ ^ __
    Yi ?Y i ?Yi ?Y?(Y i?Y)

    Y

    Yi
    __
    Yi ?Y
    ^

    Yi
    _
    Y
    ei

    línea ajustada
    ^
    X
    Xi

    Fig. 1.2 Errores involucrados en la recta de ajuste

    Monografias.com

    ?Y)2 ??(Y i?Y)2 ??(Yi ?Y i)2
    SXY ? (?(Xi ? X)Yi)2
    SXX ??(Xi ? X)2 ??Xi2 ?n X
    La cantidad
    __
    (Yi ?Y) es la desviación de la observación i-ésima respecto a la media. Por otra parte:
    __ ^ __ ^
    ?(Yi
    (1.11)
    Suma de cuadrados = Suma de cuadrados + Suma de cuadrados
    respecto a la media
    de la regresión
    del error o residuos
    De tal forma que la tabla de análisis de varianza queda como:

    Tabla de Análisis de Varianza
    .
    Fuente
    df
    SS
    MS = SS/df
    Fc
    Regresión
    1
    SSR ?b1SXY
    MSREG
    MSreg/s2 =MSreg/MSE
    Residual
    n-2
    SSE ? SSYY ?b1SXY
    S2=MSE=SSE/n-2
    __________________________________________________________.
    SYY
    Total corregido n-1

    donde:
    __ __ 2
    (1.12)

    (1.13)
    __
    2

    Obteniéndose con el Minitab
    MS F P
    45.592 57.54 0.000
    0.792
    Source DF
    Regression 1
    Residual Error 23
    Total corrected 24
    SS
    45.592
    18.223
    63.816
    El estadístico F se calcula como F = MSEREG / S2 y se compara con la F de tablas con (1, n-2) grados
    de libertad y área en 100(1-?)%, para determinar si el parámetro ?1 es significativo que es el caso de
    Fcalc. > Ftablas.

    En este caso Fc = 45.5924 / 0.7923 = 57.24 y F de tablas F(1, 23, 0.95) es igual a 4.28, por tanto se
    rechaza H0 aceptando que existe una ecuación de regresión.

    El área de la cola de Fc está descrita por el valor de p que debe ser menor o igual al valor de ?, en
    este caso es casi cero.
    1.2.3 Intervalos de confianza para
    ?0,?1
    En base al error estándar para los parámetros se tiene:

    Monografias.com

    ?1
    ?
    ?
    ?
    ?X i2
    ? ?
    ? 2 ?
    ? ?n?(X i ? X) ? ?
    ?0?ta/2,n?2
    ?1
    ?
    X ?
    ?
    b0 ?t(n ?2,1? ?)
    ?X i2
    ? 2 ?
    ? ?n?(X i ? X) ? ?
    ?1?ta/2,n?2
    t(n?2,1? ?).S
    ?
    S
    1/2
    __
    ?
    ? ?
    ?
    ?
    ?
    __ 2
    X
    SXX

    S
    SXX
    ?
    se(b0) ? MSE? ?
    ?n

    MSE
    se(b1) ?
    ?
    SXX
    (1.14)

    (1.15)
    Del ejemplo, como s = 0.7963 y SXX = 7154.42
    0.792
    7154.42
    ? 0.0105
    se(b1) ?
    ?0,?1, considerando que las observaciones y los errores
    El intervalo de confianza 100 (1 – ?)% para
    siguen un comportamiento normal, es:

    Y Para el coeficiente ?o se tiene:
    ?
    MSE? ?
    ?n
    __ 2 ?
    ?
    SXX ?
    ^
    (1.16)
    S
    1/2
    __
    1
    2
    ? ?
    ? ?
    (1.16a)
    Para el caso del coeficiente Beta 1:

    El error estándar es:
    ˆ
    MSE
    SXX
    MSE
    SXX
    se(?1) ?

    ^
    (1.17ª)
    b1 ?
    1
    2
    __
    (X i ? X)2
    (1.17)
    Suponiendo ? = 0.05, t(23,0.975) = 2.069, los límites de confianza para el parámetro
    ?1
    son:
    -0.798 ? (2.069)(0.0105) o sea -0.798 ? 0.0217
    y ?1 se encuentra en el intervalo (-0.1015, -0.0581).

    Para el caso de sigma, si los errores están distribuidos normalmente y son independientes, la
    distribución del estadístico,

    Monografias.com

    P??1 2 ?? /2,n?2 ?
    ?
    ? ?? 2/2,n?2? ?1??
    ?? /2,n?2
    E(Y | X0) ?Y0 ? b0 ?b1X 0
    Y0?ta/2,n?2
    ? ? ?
    ? ?
    V(?) ?? ?1?
    ?
    (n?2)MSE/? 2

    es Chi-cuadrada con n – 2 grados de libertad y de esta forma:
    ?
    ?
    ?
    ?
    (n?2 )MSE
    2
    Por consecuencia un intervalo de confianza 100 (1 – ? ) % en ?2 es:
    2
    (n?2 )MSE
    2
    (n?2 )MSE
    ?1?? /2,n?2
    ?? 2 ?
    (1.18)
    1.2.4 Estimación del intervalo para la media de la respuesta

    Una aplicación mayor del análisis de regresión es la estimación de la media de la respuesta E(Y) para
    un valor particular de la variable regresora X. El valor esperado de la respuesta Y media para un cierto
    valor de X = X0 es:
    ^
    (1.19)
    Para obtener un intervalo de confianza con 100(1 – ? )% para el coeficiente ?1 se aplica la fórmula
    siguiente:
    ^
    (x0 ? x)2 ?
    Sxx ?
    MSE ?1
    SXX ?n
    (1.20b)
    Ver gráfica anterior del ejemplo.

    1.2.5 Predicción de nuevas observaciones
    Esta es otra de las aplicaciones del modelo de regresión, predecir nuevas observaciones Y
    correspondientes a un nivel específico de la variable regresora X. La banda de predicción es más
    ancha dado que depende tanto del error del modelo de ajuste y el error asociado con observaciones
    futuras
    ˆ
    (Y0 ?Y0).
    El intervalo es mínimo en
    __
    X 0 ? X y se amplia conforme se incrementa la
    diferencia entre
    __
    X 0 ? X .
    ˆ
    La variable aleatoria,

    ? ?Y0 ?Y0

    Está normalmente distribuida con media cero y varianza:
    ?
    ?
    ?
    ?
    2
    __
    (X 0 ? X)2 ?
    SXX ?
    ?
    1
    n

    Monografias.com

    ?
    ?Y0 ?Y ˆ0 ?t? /2,n?2 MSE?1?
    ?
    MSE?
    ?
    ?Y0 ?Y ˆ0 ?t? /2,n?2 MSE?
    ?
    t ?
    ?
    Si se usa
    ˆ
    Y0
    para predecir a
    Y0
    entonces el error estándar de ? =
    ˆ
    Y0 – Y0, es el estadístico
    apropiado para establecer un intervalo de predicción probabilístico, en el caso de un intervalo 100 (1 –
    ? ) % sobre una observación futura en
    X 0
    se tiene:
    ?
    ?
    ?
    ?
    ?
    __
    (X 0 ? X)2 ?
    SXX ?
    ?
    1
    n
    __
    (X 0 ? X)2 ?
    SXX ?
    ?
    1
    n
    ?
    MSE?1?
    ?
    ?
    ˆ
    Y0 ?t? /2,n?2
    (1.21
    Se puede generalizar para encontrar un intervalo de predicción del 100(1-?) porciento para la media
    de m observaciones futuras en X = Xo. Sea Ymedia la media de las observaciones futuras en X = Xo.
    El intervalo de predicción estimado es:
    ?
    ?
    ?
    ?
    __
    (X0 ? X)2 ?
    SXX ?
    ?
    1
    n
    ?
    1
    ?m
    ?
    __
    (X0 ? X)2 ?
    SXX ?
    ?
    1
    n
    ?
    1
    ?m
    ?
    ˆ
    Y0 ?t? /2,n?2
    1.2.6 Pruebas de hipótesis para la pendiente e intersección

    Prueba de Hipótesis para Ho:?0 = ?10 contra H1:?0 ? ?10
    Calculando el estadístico t, considerando que ?10 = 0, se tiene:
    b0
    se(b0)
    t ?
    (1.22)
    Probar la hipótesis para b0 no tiene interés práctico.
    Ahora para probar la significancia de b1 se tiene:
    SXX
    b1
    MSE
    t0 ?
    para (? /2,n?2) grados de libertad
    (1.23)
    Si
    t0 ? t? /2,n?2 se rechaza la hipótesis nula, indicando que ?1 es significativo y se tiene regresión
    ? ?7.60
    ? 0.798
    0.0105
    lineal.

    Del ejemplo:
    b1
    se(b1)
    Como
    t ? 7.60 excede el valor crítico de t = 2.069, se rechaza Ho (o sea el valor de p < < 0.05) .Por
    tanto este coeficiente es significativo.

    Es importante notar que el valor de F = t2.

    La salida del Minitab es como sigue:
    Predictor Coef SE Coef
    Constant = b0 13.6230 0.5815
    T P
    23.43 0.000

    Monografias.com

    n(? ˆ0 ? ?0)2 ? 2?xi(? ˆ0 ? ?0)(? ˆ1 ? ?1)??x2i(? ˆ1 ? ?1)
    ?1
    E(Y Xi) ?YXi? ? MSE? ? ?
    ? ?
    ?
    yxi ?YXi? ? MSE? ?1?
    ? ?
    C2 = b1
    -0.07983
    0.01052
    -7.59
    0.000
    1.2.7 Inferencia simultanea para los parámetros del modelo

    Para una estimación conjunta de Beta0 y Beta1 en una región donde estemos seguros con 100(1-alfa)
    porciento de que ambos estimados son correctos es:
    n n

    i?1 i?1
    2MSE
    ? F?,2,n?2
    ,
    1.2.8 Estimación simultanea de la respuesta media
    La estimación simultanea de la respuesta media es:
    Es posible construir m-intervalos de confianza de la respuesta media de un conjunto de m-valores
    específicos X, vgr. X1, X2, …., Xm, que tengan un coeficiente de confianza conjunta de la menos
    100(1-alfa) porciento.

    Se puede utilizar el módulo t de Scheffé:
    ? ? u?,2,n?2
    Donde u?,2,n?2 es el punto de la cola superior alfa de la distribución del valor máximo absoluto de dos
    variables aleatorias t-student cada una basada en n-2 grados de libertad. Estos dan intervalos más
    cortos. Para el caso de alfa = 0.10, m=2,n=18 se tiene de tablas (A.8):
    t?/(2m),n?2 ?t0.02518 ? 2.101
    u?,m,n ?u0.10,2,18 ? 2.082
    La Delta de Boferroni como sigue:
    ? ?(2F ?,2,n?2)1/2 ?(2F0.10,2,18)1/2 ?(6.02)1/2 ? 2.454
    ?n
    ^
    (xi ? x)2 ?
    Sxx ?
    Note que los intervalos del máximo módulo t son más angostos que los de Bonferroni. Sin embargo
    cuando m > 2 los intervalos de máximo módulo t se siguen ampliando mientras que los de Bonferroni
    no dependen de m.

    1.2.9 Predicción de nuevas observaciones
    El conjunto de intervalos de predicción para m nuevas observaciones en los niveles X1, X2,…, Xm
    que tienen un nivel de confianza de al menos (1-alfa) es:
    ?
    ?
    ^
    (xi ? x)2 ?
    Sxx ?
    1
    n

    Monografias.com

    ? ?? y ?? ?2 ? x ??2 ? ??
    ? x??2 ?
    ? y ??1 ?
    ?? ?
    ? ? ?? ?
    ? ? ?2p? ?
    ? ? ?? ?
    ? ? ??
    exp??
    ?? 2(1? p ) ?? ?1 ? ? ? 2 ? ? ?1 ? ? ? 2 ? ???
    exp?? ? ?
    ? ? ?
    ? ? 2?
    ? ? ?
    ?1
    ?1 ? ?
    b1 ? ? ? YY
    ? ?
    ?(Y?Y)
    ?(Y ?Y)
    1.2.10 Correlación

    Las discusiones anteriores de análisis de regresión han asumido que X es una variable controlable
    medida con un error despreciable y que Y es una variable aleatoria. Muchas aplicaciones de análisis
    de regresión involucran situaciones donde tanto X como Y son variables aleatorias y los niveles de X
    no pueden ser controlados. En este caso se asume que las observaciones (Xi, Yi), i=1, 2,…,n son
    variables aleatorias distribuidas conjuntamente. Por ejemplo suponiendo que se desea establecer la
    relación entre los refrescos vendidos y la temperatura del día. Se asume que la distribución conjunta
    de Y y X es la distribución normal divariada, que es:
    2 2 2
    2
    1 1
    1
    2??1? 2
    f (x, y) ?
    Donde ?1 y ?12 corresponden a la media y la varianza de Y, y ?2 y ?22 corresponden a la media y la
    varianza de X y
    ?12
    ?1? 2
    ?
    ? ?
    E(y ??1)(x??2)
    ?1? 2
    Es el coeficiente de correlación entre Y y X. ?12 es la covarianzade Y y X.
    La distribución condicional de Y para un valor de X es:
    1
    2??12
    ? 1? y ? ?0 ? ?1x?2?
    ?12
    f (y x) ?
    ?1
    ? 2
    Donde:
    ?0 ? ?1 ??2?

    ? 2
    2
    ? 212 ??1 (1??2)
    La correlación es el grado de asociación que existe las variables X y Y, se indica por el estadístico ?
    cuyo estimador es el coeficiente de correlación de la muestra r ó rxy. Donde:
    SXY
    SXX SYY
    r ?
    (1.24)
    r
    1/2
    ?
    ?
    ? S
    ? SXX
    (1.25)
    Un estadístico útil es el valor del ajuste de la regresión R2, coeficiente de determinación que se define
    como:
    r = rxy = (signo de b1)R
    (1.26)
    i
    SSE
    SYY
    SSR
    Syy
    ?
    ?
    ?1?
    2

    2
    ^ __

    __
    (SS.de.la.regresión.por.b0)
    (SSTotal.corregido.para.la.media)
    R2 ?
    (1.27)

    Partes: 1, 2

    Página siguiente 

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter