Monografias.com > Economía
Descargar Imprimir Comentar Ver trabajos relacionados

PROYECCIÓN DE PASAJEROS PARA LAN CHILE EN LA RUTA SANTIAGO ISLA DE PASCUA A TRAVÉS DE UN MODELO ARIMA




Enviado por gabrielcornejo



    1. Modelos
    2. Sobreajuste del
      Modelo
    3. Validación del
      Modelo
    4. Incorrelación de los
      errores
    5. Datos Modelo con todos los
      datos

    En esta oportunidad trataremos de pronosticar la
    cantidad de pasajeros transportados por la Empresa Lan
    Chile, en la ruta Santiago – Isla de Pascua a través
    de un modelo ARIMA. Para lo anterior contamos con una serie de
    tiempo que
    parte en el mes de enero de 1990 y termina en junio de 2001, es
    decir 138 observaciones.

    Dejaremos los últimos datos de la serie
    como periodo de validación, es decir el último
    semestre quedará reservado para efectos de
    comprobación de la capacidad predictiva del
    modelo.

    A continuación se entrega un cuadro con las
    estadísticas básicas
    correspondientes a 132 observaciones.

    Podemos ver que mensualmente, en promedio se han
    transportado 1.752 pasajeros (ida y vuelta) en la ruta bajo
    estudio. También, la cantidad más baja de pasajeros
    corresponde a 431 en junio de 1992 y la más alta a 4.612
    en febrero de 2000. Por otro lado, el 50% de las observaciones se
    encuentra sobre los 1.559 pasajeros transportados.

    Para analizar la serie temporal de pasajeros
    transportados se utilizará la metodología Box-Jenkins que es un procedimiento de
    análisis estadístico para ajustar a
    una serie un tipo especial de modelos,
    denominados ARIMA (Autorregresive Integrated Moving Average)
    Dicho análisis consta de las siguientes fases o
    etapas:

    • Identificación de la estructura
      del modelo: decidir qué transformación aplicar a
      la serie observada para convertir el proceso
      subyacente en estacionario y determinar la estructura del
      proceso estacionario resultante. Se debe resaltar que algunas
      series de tiempo son estacionarias y no es necesario hacer
      transformación alguna.
    • Estimación de los parámetros del modelo
      para el proceso estacionario.
    • Diagnosis del modelo: Comprobar si se satisface la
      hipótesis de que los residuos obtenidos
      son una realización de un proceso de ruido
      blanco.

    La primera etapa en el proceso de modelamiento o
    identificación del modelo univariante de una serie
    temporal, consiste en comprobar si esta es estacionaria en media
    y en varianza. Si además los datos de la serie
    están recogidos con una periodicidad inferior a un
    año (en el caso de la cantidad de pasajeros se trata de
    datos mensuales) tendremos que comprobar también si es
    estacionaria estacionalmente. En el caso que la serie no sea
    estacionaria, ya sea en varianza o en media, habrá que
    aplicarle las transformaciones necesarias para que lo
    sea.

    En el gráfico de secuencia de la página
    anterior se puede observar que al parecer la serie no es
    estacionaria en varianza. Se puede ver que en los inicios de la
    serie hay un tipo de dispersión, en cambio a
    medida que se avanza en el tiempo, más o menos en la mitad
    y sobre todo al final de la serie, la dispersión de los
    datos es mucho mayor, lo que muestra indicios
    de no estacionariedad en varianza. Para detectar si la varianza
    de la serie es constante, es decir si no cambia con el tiempo,
    agruparemos las observaciones por años y aplicaremos la
    prueba de Levene para la homogeneidad de varianzas. Dado que el
    periodo de ajuste comprende desde 1900 hasta 2000, ambos
    años inclusive, dispondremos de 10 grupos con 12
    observaciones cada uno. La prueba de Levene permitirá
    contrastar la hipótesis nula de
    que no existen diferencias significativas entre las varianzas de
    la serie pasajeros en los 10 grupos definidos. A
    continuación se muestra una tabla con los resultados y
    después un Box Plot o gráfico de cajas.

    Utilizando la Prueba de Homogeneidad de Varianza de
    Levene, llegamos a la conclusión que no se puede aceptar
    al 5% la hipótesis nula de que las varianzas son las
    mismas a lo largo de los años. A la misma
    conclusión se llega observando el gráfico de caja.
    Uno se estaría preguntando, ¿si se llega a la misma
    conclusión, por qué no sólo hacer el
    gráfico? La respuesta es sencilla, el gráfico
    sólo nos da una referencia de lo que puede estar pasando,
    pero la respuesta definitiva la da la Prueba de
    Levene.

    En el gráfico anterior, de nivel y
    dispersión nos podemos dar cuenta que a medida que pasa el
    tiempo, la varianza va aumentando, incluso la pendiente de la
    recta de regresión para la nube de puntos representada es
    0,4. En todo caso, vuelvo a repetir, la confirmación de la
    falta de estabilidad de la varianza nos la proporciona el
    p-valor asociado
    a la prueba de Levene

    Se vuelve a hacer la prueba pero ahora se le pide que
    transforme los datos aplicando logaritmo natural. Ahora es
    posible aceptar la hipótesis nula. En otras palabras,
    aplicando logaritmo natural, el problema de la falta de
    estabilidad de la varianza desaparece. Por lo que de ahora en
    adelante, se utilizará en la modelización el
    logaritmo natural de la cantidad de pasajeros.

    La serie de datos también tiene que ser
    estacionaria en media, para comprobar lo anterior veremos algunos
    gráficos.

    Se observa una clara tendencia alcista en los datos, lo
    que es el principal síntoma de no estacionariedad en
    media. Por otro lado, fíjense que hay algunos valores por
    debajo de la media y otros por sobre la media, lo que
    también indica no estacionariedad en media. La media es la
    línea negra.

    El gráfico anterior nos muestra el correlograma
    de la serie, específicamente la función de
    autocorrelación. Nótese como los picos van
    descendiendo paulatinamente a cero, al memos los primeros 4
    rezagos de la serie están fuera de los límites de
    confianza, otra evidencia de que la serie no es estacionaria en
    media.

    También al observar el estadístico de
    Ljung-Box (LB) para los primeros 36 rezagos se concluye que la
    serie no es estacionaria en media, todos los p-valores
    correspondientes a los rezagos mayores a 1 hasta el 36 son
    cero.

    Seguramente el lector se debe estar cuestionando el
    hecho de que descienden lentamente a cero y si ya ha estudiado o
    visto otros modelos ARIMA, en éste no es tan patente como
    aquellos, porque tiene una pequeña particularidad que se
    verá más adelante y que tiende a hacer no tan
    patente la visualización de la falta de estacionariedad y
    es que presenta una falta de estacionariedad también
    estacionalmente.

    Para lograr la estacionariedad en media se
    procederá a diferenciar una vez la serie.

    Ahora se observa que la serie ya no se va reduciendo
    paulatinamente a cero. Pero sí se observa más
    claramente la comentada falta de estacionariedad estacional.
    Fíjense como los rezagos 12, 24 y 36 se van reduciendo
    paulatinamente a cero, lo que estaría señalando que
    al parecer la serie tampoco es estacionaria
    estacionalmente.

    Para estar más seguro de lo
    anterior se hará un correlograma de la función de
    autocorrelación mostrando sólo los rezagos
    múltiplos de 12.

    Ahora sí se aprecia claramente que la serie no es
    estacionaria estacionalmente, por lo tanto será necesaria
    hacer también una diferenciación
    estacional.

    Esperamos que después de todas estas
    transformaciones, llámese aplicación de logaritmos
    naturales y diferenciaciones, se muestre la estructura o la caja
    negra que genera la serie.

    Se recuerda que la serie para hacerla estacionaria en
    varianza y en media, fue necesaria aplicarle logaritmo natural,
    hacerle una diferenciación a la parte no estacional y una
    diferenciación a la parte estacional. Esa es la serie que
    se seguirá aplicando desde ahora y para la cual buscaremos
    su identificación.

    Para lograr lo anterior necesitamos 2 tipos de
    gráficos, la función de autocorrelación de
    nos muestra la presencia o no de las medias móviles del
    modelo (MA) y la función de autocorrelación
    parcial, que nos muestra la posible presencia de
    autocorrelaciones (AR)

    Función de Autocorrelación

    Función de Autocorrelación
    Parcial

    Observando los gráficos anteriores se aprecia que
    la función de autocorrelación parcial desciende
    paulatinamente a cero y que la función de
    autocorrelación, después del primer rezago se cae
    abruptamente a cero, lo que podría estar señalando
    un proceso de generación MA1.

    Por otra parte, observando la parte estacional de la
    serie, en el gráfico de autocorrelación parcial, se
    aprecia que los rezagos caen paulatinamente a cero, al menos se
    observa eso en los rezagos 12 y 24, en cambio en la
    función de autocorrelación el único rezago
    que cae fuera de los límites de confianza es el
    número 12 y después siempre sus múltiplos se
    encuentran dentro de los límites de confianza. Lo anterior
    nos dice que el proceso más apropiado es un MA1 para la
    parte estacional de la serie.

    Modelos

    ARIMA (0,1,1) x (0,1,1) s

    La nomenclatura
    anterior es una de las maneras de identificación de
    modelos ARIMA. El primer paréntesis señala la
    estructura no estacional de la serie, en particular señala
    que a la serie se le ha efectuado una diferenciación o se
    ha integrado, para hacerla estacionaria (de ahí viene la I
    de ARIMA) y que el modelo tiene un regresor de media móvil
    de primer orden MA1.

    En el segundo paréntesis se denota la parte
    estacional de la serie. Se debe señalar que no todos los
    modelos arima tienen un segundo paréntesis, este lo tiene
    por que utiliza datos menores al año y por que
    éstos, al parecer, son parte de la caja negra que genera
    la serie y que estamos interesados en identificar. Volviendo a
    nuestra descripción, la parte estacional
    originalmente era no estacionaria, por eso se tuvo que
    diferenciar una vez y también el regresor del modelo es
    MA1, específicamente SMA1 (la S es por
    estacionalidad)

    Datos

    Error estándar : 0,18428

    Log Likelihood : 27,9600

    AIC : -51,9201

    SBC : -46,3618

    Regresores

    B

    SE B

    T – RATIO

    PROB.

    MA1

    0,6192

    0,07169

    8,6376

    0,0000000

    SMA1

    0,7551

    0,09133

    8,2681

    0,0000000

    El cuadro anterior muestra los estadísticos
    más importantes del modelo, lo que nos interesa en estos
    modelos es que sus regresores sean estadísticamente
    significativos, y eso nos lo señala la última
    columna. Los p-valores asociados a cada uno de los regresores es
    cero, en otras palabras a un 5% nivel de significancia se puede
    rechazar la hipótesis nula de que son cero.

    Sobreajuste del
    Modelo

    El hecho de que el modelo identificado sea adecuado no
    debe hacer descartar la posibilidad de que otro modelo algo
    más complejo pueda ajustarse mejor a la serie observada.
    Para comprobar si algún modelo se ajusta mejor conviene
    utilizar la técnica del sobreajuste. El sobreajuste
    consiste en estimar cada uno de los modelos obtenidos al aumentar
    en una unidad cada uno de los órdenes p, q, P y
    Q

    Por lo tanto, si el modelo candidato recién
    calculado es

    ARIMA (0,1,1) x (0,1,1)s

    Los sobreajustes serán:

    1) ARIMA (1,1,1) x (0,1,1)s

    2) ARIMA (0,1,2) x (0,1,1)s

    3) ARIMA (0,1,1) x (1,1,1)s

    4) ARIMA (0,1,1) x (0,1,2)s

    Después de hacer los cálculos, se
    concluye:

    El regresor AR1 del modelo 1 no era
    significativo

    El regresor del modelo 2 no era significativo

    Los regresores SMA1 y SMA2 del modelo 4 no eran
    significativos

    Por lo tanto los modelo 1,2 y 4 fueron rechazados. El
    modelo 3 sí tuvo un buen resultado.

    Datos Modelo 3 ARIMA (0,1,1) x (1,1,1)s

    Error estándar : 0,18077

    Log Likelihood : 29,3181

    AIC : -52,6362

    SBC : -44,2988

    Regresores

    B

    SE B

    T – RATIO

    PROB.

    MA1

    0,6374

    0,07036

    9,0590

    0,00000

    SAR1

    0,2817

    0,15143

    1,8605

    0,06534

    SMA1

    0,8995

    0,24349

    3,6944

    0,00000

    El único detalle que tiene este modelo es con
    relación al regresor de autocorrelación de primer
    orden de la parte estacional, el cual no es significativo al 5%
    pero sí al 10%.

    Ya tenemos 2 modelos candidatos, ahora veremos cual de
    los 2 es mejor. Para saberlo nos fijaremos en cómo los
    modelos se ajustan a los datos al periodo de ajuste (enero de
    1990 a diciembre de 2000) y al periodo de validación
    (enero 2001 a junio 2001)

    Se utilizarán los errores de cada uno de los
    modelos para generar el estadístico RMS (Desviación
    típica de los errores), cuanto menor sea la RMS mejor se
    ajustará el modelo correspondiente.

    ERR Mod_1

    ERR Mod_2

    RMS

    P. Ajuste

    0,1933

    0,1918

    P. Validación

    0,1507

    0,1571

    Si uno sólo se fija en el periodo de ajuste el
    segundo modelo, éste presenta un mejor ajuste, sin embargo
    al comparar el periodo de validación el primer modelo
    presenta un ajuste mucho mejor. Por lo tanto, tomando el
    principio de parsimonia, se tomará como modelo definitivo
    al primero. Por otro lado, debemos recordar que el segundo modelo
    contenía un regresor que no era estadísticamente
    significativo al 5% nivel de significancia.

    Validación del
    Modelo

    Hemos supuesto que la serie histórica de
    pasajeros tiene memoria, hemos
    tratado de descubrir cuál es la caja negra que genera la
    serie bajo análisis. Si el modelo que se ha desarrollado
    es la caja negra, los residuos del modelo deberían
    cumplir una serie de características.

    Estas características o la validación
    consistirá en comprobar que la serie errores tiene media
    cero, que es estable en varianzas, que sus observaciones
    están incorrelacionadas y que procede de una distribución normal. En otras palabras que
    sea un ruido blanco.

    En el gráfico anterior se muestra el histograma
    de los residuos del modelo definitivo. Se puede ver que la media
    de los residuos es de 0,03. En el segundo cuadro se muestran
    algunas estadísticas de la misma variable, lo más
    rescatable que si se analiza el intervalo de confianza de la
    media, se aprecia que el mismo incluye el cero. Por lo tanto, se
    estaría cumpliendo con el supuesto de que el residuo del
    modelo presenta media igual a cero.

    En los gráficos anteriores se muestran los
    gráficos de caja para los residuos agrupados por
    años. También se muestra la prueba de Levene, de
    acuerdo a la significancia (última columna) no hay
    suficiente evidencia para rechazar la hipótesis nula de
    homogeneidad de varianzas en los 10 grupos. De acuerdo a lo
    anterior, se estaría cumpliendo con el
    supuesto.

    Incorrelación
    de los errores

    En ambos gráficos se puede apreciar que ninguno
    de los picos queda fuera del intervalo de confianza, por lo tanto
    los errores estarían incorrelacionados unos con otros. El
    estadístico de Ljung-Box hasta el rezago 16 tienen
    p-valores cercanos a la unidad con lo que se estaría
    señalando que no están correlacionados.

    Normalidad

    Para contrastar la Normalidad de los errores se recurre
    a la Prueba No Paramétrica de Kolmogorov-Smirnov.
    Según el p-valor no hay suficiente evidencia para rechazar
    la hipótesis nula de que los errores provienen de una
    distribución normal.

    Ya se tiene el modelo definitivo, el mismo tiene
    residuos que cumplen con todos los supuestos de los Modelos
    ARIMA. Por lo tanto se procederá a hacer una
    proyección. Ahora se tomarán todos los datos, es
    decir los datos del ajuste y los datos de validación, en
    otras palabras la serie comienza en enero de 1990 y termina en
    junio de 2001. De esta manera se podrán comparar los datos
    verdaderos y las proyecciones que hace el modelo.

    Datos Modelo con todos
    los datos

    Error estándar : 0,18351

    Log Likelihood : 30,3807

    AIC : -56,7614

    SBC : -51,1047

    Regresores

    B

    SE B

    T – RATIO

    PROB.

    MA1

    0,6294

    0,06933

    9,0785

    0,0000000

    SMA1

    0,7425

    0,08624

    8,6098

    0,0000000

    Ahora que se han incluido todos los datos disponibles se
    aprecia que los regresores son muy parecidos a los del modelo que
    sólo incluían los del periodo de
    validación.

    Por otra parte, los errores estándares de estos
    regresores son menores que el otro modelo, lo que señala
    que el hecho de haber incluido todos los datos no ha deteriorado
    la capacidad predictiva del modelo.

    En las páginas siguientes se muestran cuadros con
    las proyecciones hechas por el modelo ARIMA, como asimismo un
    gráfico, los datos verdaderos, con las proyecciones y sus
    respectivos intervalos de confianza al 95%.

    En los 3 últimos gráficos se han mostrado
    las proyecciones de pasajeros que viajarán en la ruta
    entre Santiago e Isla de Pascua para todo el año
    2001.

    Nótese en el gráfico la cercanía de
    las proyecciones con los datos reales para el primer semestre del
    año 2001.

    Por último se incluyen los intervalos de
    confianza al 95% para las proyecciones del segundo semestre del
    año.

    Bibliografía

    Pérez, César (2001). Técnicas
    Estadísticas con SPSS
    . Prentice Hall

    Visauta, B. (1997). Análisis
    Estadístico con SPSS para Windows
    . McGraw
    Hill

    Pindyck, R & Rubinfeld, R. (2001).
    Econometría modelos y pronósticos. McGraw
    Hill

    Holton, J & Barry Keating. (1996). Previsiones en
    los negocios
    . Irwin

    Gujarati, Damodar. (1997). Econometría. Mc
    Graw Hill

    Marín, G., Labeaga, J.& Mochón, F.
    (1997) Introducción a la Econometría.
    Prentice Hall

    Ferrán Aranaz, Magdalena (2001) SPSS para
    Windows
    Análisis Estadístico
    . Prentice may

    Pérez Amaral, Amorós
    González & Relloso Pereda (1995) Ejercicios de
    Econometría Empresarial
    . McGraw Hill

    Hanke J & Reitsch A (1996) Pronósticos en
    los Negocios.

    Prentice Hall

     

     

    Material Preparado por

    Gabriel Cornejo

    Ingeniero Comercial

     

     

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter