PROYECCIÓN DE PASAJEROS PARA LAN CHILE EN LA RUTA SANTIAGO ISLA DE PASCUA A TRAVÉS DE UN MODELO ARIMA
- Modelos
- Sobreajuste del
Modelo - Validación del
Modelo - Incorrelación de los
errores - Datos Modelo con todos los
datos
En esta oportunidad trataremos de pronosticar la
cantidad de pasajeros transportados por la Empresa Lan
Chile, en la ruta Santiago – Isla de Pascua a través
de un modelo ARIMA. Para lo anterior contamos con una serie de
tiempo que
parte en el mes de enero de 1990 y termina en junio de 2001, es
decir 138 observaciones.
Dejaremos los últimos datos de la serie
como periodo de validación, es decir el último
semestre quedará reservado para efectos de
comprobación de la capacidad predictiva del
modelo.
A continuación se entrega un cuadro con las
estadísticas básicas
correspondientes a 132 observaciones.
Podemos ver que mensualmente, en promedio se han
transportado 1.752 pasajeros (ida y vuelta) en la ruta bajo
estudio. También, la cantidad más baja de pasajeros
corresponde a 431 en junio de 1992 y la más alta a 4.612
en febrero de 2000. Por otro lado, el 50% de las observaciones se
encuentra sobre los 1.559 pasajeros transportados.
Para analizar la serie temporal de pasajeros
transportados se utilizará la metodología Box-Jenkins que es un procedimiento de
análisis estadístico para ajustar a
una serie un tipo especial de modelos,
denominados ARIMA (Autorregresive Integrated Moving Average)
Dicho análisis consta de las siguientes fases o
etapas:
- Identificación de la estructura
del modelo: decidir qué transformación aplicar a
la serie observada para convertir el proceso
subyacente en estacionario y determinar la estructura del
proceso estacionario resultante. Se debe resaltar que algunas
series de tiempo son estacionarias y no es necesario hacer
transformación alguna. - Estimación de los parámetros del modelo
para el proceso estacionario. - Diagnosis del modelo: Comprobar si se satisface la
hipótesis de que los residuos obtenidos
son una realización de un proceso de ruido
blanco.
La primera etapa en el proceso de modelamiento o
identificación del modelo univariante de una serie
temporal, consiste en comprobar si esta es estacionaria en media
y en varianza. Si además los datos de la serie
están recogidos con una periodicidad inferior a un
año (en el caso de la cantidad de pasajeros se trata de
datos mensuales) tendremos que comprobar también si es
estacionaria estacionalmente. En el caso que la serie no sea
estacionaria, ya sea en varianza o en media, habrá que
aplicarle las transformaciones necesarias para que lo
sea.
En el gráfico de secuencia de la página
anterior se puede observar que al parecer la serie no es
estacionaria en varianza. Se puede ver que en los inicios de la
serie hay un tipo de dispersión, en cambio a
medida que se avanza en el tiempo, más o menos en la mitad
y sobre todo al final de la serie, la dispersión de los
datos es mucho mayor, lo que muestra indicios
de no estacionariedad en varianza. Para detectar si la varianza
de la serie es constante, es decir si no cambia con el tiempo,
agruparemos las observaciones por años y aplicaremos la
prueba de Levene para la homogeneidad de varianzas. Dado que el
periodo de ajuste comprende desde 1900 hasta 2000, ambos
años inclusive, dispondremos de 10 grupos con 12
observaciones cada uno. La prueba de Levene permitirá
contrastar la hipótesis nula de
que no existen diferencias significativas entre las varianzas de
la serie pasajeros en los 10 grupos definidos. A
continuación se muestra una tabla con los resultados y
después un Box Plot o gráfico de cajas.
Utilizando la Prueba de Homogeneidad de Varianza de
Levene, llegamos a la conclusión que no se puede aceptar
al 5% la hipótesis nula de que las varianzas son las
mismas a lo largo de los años. A la misma
conclusión se llega observando el gráfico de caja.
Uno se estaría preguntando, ¿si se llega a la misma
conclusión, por qué no sólo hacer el
gráfico? La respuesta es sencilla, el gráfico
sólo nos da una referencia de lo que puede estar pasando,
pero la respuesta definitiva la da la Prueba de
Levene.
En el gráfico anterior, de nivel y
dispersión nos podemos dar cuenta que a medida que pasa el
tiempo, la varianza va aumentando, incluso la pendiente de la
recta de regresión para la nube de puntos representada es
0,4. En todo caso, vuelvo a repetir, la confirmación de la
falta de estabilidad de la varianza nos la proporciona el
p-valor asociado
a la prueba de Levene
Se vuelve a hacer la prueba pero ahora se le pide que
transforme los datos aplicando logaritmo natural. Ahora es
posible aceptar la hipótesis nula. En otras palabras,
aplicando logaritmo natural, el problema de la falta de
estabilidad de la varianza desaparece. Por lo que de ahora en
adelante, se utilizará en la modelización el
logaritmo natural de la cantidad de pasajeros.
La serie de datos también tiene que ser
estacionaria en media, para comprobar lo anterior veremos algunos
gráficos.
Se observa una clara tendencia alcista en los datos, lo
que es el principal síntoma de no estacionariedad en
media. Por otro lado, fíjense que hay algunos valores por
debajo de la media y otros por sobre la media, lo que
también indica no estacionariedad en media. La media es la
línea negra.
El gráfico anterior nos muestra el correlograma
de la serie, específicamente la función de
autocorrelación. Nótese como los picos van
descendiendo paulatinamente a cero, al memos los primeros 4
rezagos de la serie están fuera de los límites de
confianza, otra evidencia de que la serie no es estacionaria en
media.
También al observar el estadístico de
Ljung-Box (LB) para los primeros 36 rezagos se concluye que la
serie no es estacionaria en media, todos los p-valores
correspondientes a los rezagos mayores a 1 hasta el 36 son
cero.
Seguramente el lector se debe estar cuestionando el
hecho de que descienden lentamente a cero y si ya ha estudiado o
visto otros modelos ARIMA, en éste no es tan patente como
aquellos, porque tiene una pequeña particularidad que se
verá más adelante y que tiende a hacer no tan
patente la visualización de la falta de estacionariedad y
es que presenta una falta de estacionariedad también
estacionalmente.
Para lograr la estacionariedad en media se
procederá a diferenciar una vez la serie.
Ahora se observa que la serie ya no se va reduciendo
paulatinamente a cero. Pero sí se observa más
claramente la comentada falta de estacionariedad estacional.
Fíjense como los rezagos 12, 24 y 36 se van reduciendo
paulatinamente a cero, lo que estaría señalando que
al parecer la serie tampoco es estacionaria
estacionalmente.
Para estar más seguro de lo
anterior se hará un correlograma de la función de
autocorrelación mostrando sólo los rezagos
múltiplos de 12.
Ahora sí se aprecia claramente que la serie no es
estacionaria estacionalmente, por lo tanto será necesaria
hacer también una diferenciación
estacional.
Esperamos que después de todas estas
transformaciones, llámese aplicación de logaritmos
naturales y diferenciaciones, se muestre la estructura o la caja
negra que genera la serie.
Se recuerda que la serie para hacerla estacionaria en
varianza y en media, fue necesaria aplicarle logaritmo natural,
hacerle una diferenciación a la parte no estacional y una
diferenciación a la parte estacional. Esa es la serie que
se seguirá aplicando desde ahora y para la cual buscaremos
su identificación.
Para lograr lo anterior necesitamos 2 tipos de
gráficos, la función de autocorrelación de
nos muestra la presencia o no de las medias móviles del
modelo (MA) y la función de autocorrelación
parcial, que nos muestra la posible presencia de
autocorrelaciones (AR)
Función de Autocorrelación
Función de Autocorrelación
Parcial
Observando los gráficos anteriores se aprecia que
la función de autocorrelación parcial desciende
paulatinamente a cero y que la función de
autocorrelación, después del primer rezago se cae
abruptamente a cero, lo que podría estar señalando
un proceso de generación MA1.
Por otra parte, observando la parte estacional de la
serie, en el gráfico de autocorrelación parcial, se
aprecia que los rezagos caen paulatinamente a cero, al menos se
observa eso en los rezagos 12 y 24, en cambio en la
función de autocorrelación el único rezago
que cae fuera de los límites de confianza es el
número 12 y después siempre sus múltiplos se
encuentran dentro de los límites de confianza. Lo anterior
nos dice que el proceso más apropiado es un MA1 para la
parte estacional de la serie.
ARIMA (0,1,1) x (0,1,1) s
La nomenclatura
anterior es una de las maneras de identificación de
modelos ARIMA. El primer paréntesis señala la
estructura no estacional de la serie, en particular señala
que a la serie se le ha efectuado una diferenciación o se
ha integrado, para hacerla estacionaria (de ahí viene la I
de ARIMA) y que el modelo tiene un regresor de media móvil
de primer orden MA1.
En el segundo paréntesis se denota la parte
estacional de la serie. Se debe señalar que no todos los
modelos arima tienen un segundo paréntesis, este lo tiene
por que utiliza datos menores al año y por que
éstos, al parecer, son parte de la caja negra que genera
la serie y que estamos interesados en identificar. Volviendo a
nuestra descripción, la parte estacional
originalmente era no estacionaria, por eso se tuvo que
diferenciar una vez y también el regresor del modelo es
MA1, específicamente SMA1 (la S es por
estacionalidad)
Datos
Error estándar : 0,18428
Log Likelihood : 27,9600
AIC : -51,9201
SBC : -46,3618
Regresores | B | SE B | T – RATIO | PROB. |
MA1 | 0,6192 | 0,07169 | 8,6376 | 0,0000000 |
SMA1 | 0,7551 | 0,09133 | 8,2681 | 0,0000000 |
El cuadro anterior muestra los estadísticos
más importantes del modelo, lo que nos interesa en estos
modelos es que sus regresores sean estadísticamente
significativos, y eso nos lo señala la última
columna. Los p-valores asociados a cada uno de los regresores es
cero, en otras palabras a un 5% nivel de significancia se puede
rechazar la hipótesis nula de que son cero.
El hecho de que el modelo identificado sea adecuado no
debe hacer descartar la posibilidad de que otro modelo algo
más complejo pueda ajustarse mejor a la serie observada.
Para comprobar si algún modelo se ajusta mejor conviene
utilizar la técnica del sobreajuste. El sobreajuste
consiste en estimar cada uno de los modelos obtenidos al aumentar
en una unidad cada uno de los órdenes p, q, P y
Q
Por lo tanto, si el modelo candidato recién
calculado es
ARIMA (0,1,1) x (0,1,1)s
Los sobreajustes serán:
1) ARIMA (1,1,1) x (0,1,1)s
2) ARIMA (0,1,2) x (0,1,1)s
3) ARIMA (0,1,1) x (1,1,1)s
4) ARIMA (0,1,1) x (0,1,2)s
Después de hacer los cálculos, se
concluye:
El regresor AR1 del modelo 1 no era
significativo
El regresor del modelo 2 no era significativo
Los regresores SMA1 y SMA2 del modelo 4 no eran
significativos
Por lo tanto los modelo 1,2 y 4 fueron rechazados. El
modelo 3 sí tuvo un buen resultado.
Datos Modelo 3 ARIMA (0,1,1) x (1,1,1)s
Error estándar : 0,18077
Log Likelihood : 29,3181
AIC : -52,6362
SBC : -44,2988
Regresores | B | SE B | T – RATIO | PROB. |
MA1 | 0,6374 | 0,07036 | 9,0590 | 0,00000 |
SAR1 | 0,2817 | 0,15143 | 1,8605 | 0,06534 |
SMA1 | 0,8995 | 0,24349 | 3,6944 | 0,00000 |
El único detalle que tiene este modelo es con
relación al regresor de autocorrelación de primer
orden de la parte estacional, el cual no es significativo al 5%
pero sí al 10%.
Ya tenemos 2 modelos candidatos, ahora veremos cual de
los 2 es mejor. Para saberlo nos fijaremos en cómo los
modelos se ajustan a los datos al periodo de ajuste (enero de
1990 a diciembre de 2000) y al periodo de validación
(enero 2001 a junio 2001)
Se utilizarán los errores de cada uno de los
modelos para generar el estadístico RMS (Desviación
típica de los errores), cuanto menor sea la RMS mejor se
ajustará el modelo correspondiente.
ERR Mod_1 | ERR Mod_2 | ||
RMS | P. Ajuste | 0,1933 | 0,1918 |
P. Validación | 0,1507 | 0,1571 |
Si uno sólo se fija en el periodo de ajuste el
segundo modelo, éste presenta un mejor ajuste, sin embargo
al comparar el periodo de validación el primer modelo
presenta un ajuste mucho mejor. Por lo tanto, tomando el
principio de parsimonia, se tomará como modelo definitivo
al primero. Por otro lado, debemos recordar que el segundo modelo
contenía un regresor que no era estadísticamente
significativo al 5% nivel de significancia.
Hemos supuesto que la serie histórica de
pasajeros tiene memoria, hemos
tratado de descubrir cuál es la caja negra que genera la
serie bajo análisis. Si el modelo que se ha desarrollado
es la caja negra, los residuos del modelo deberían
cumplir una serie de características.
Estas características o la validación
consistirá en comprobar que la serie errores tiene media
cero, que es estable en varianzas, que sus observaciones
están incorrelacionadas y que procede de una distribución normal. En otras palabras que
sea un ruido blanco.
En el gráfico anterior se muestra el histograma
de los residuos del modelo definitivo. Se puede ver que la media
de los residuos es de 0,03. En el segundo cuadro se muestran
algunas estadísticas de la misma variable, lo más
rescatable que si se analiza el intervalo de confianza de la
media, se aprecia que el mismo incluye el cero. Por lo tanto, se
estaría cumpliendo con el supuesto de que el residuo del
modelo presenta media igual a cero.
En los gráficos anteriores se muestran los
gráficos de caja para los residuos agrupados por
años. También se muestra la prueba de Levene, de
acuerdo a la significancia (última columna) no hay
suficiente evidencia para rechazar la hipótesis nula de
homogeneidad de varianzas en los 10 grupos. De acuerdo a lo
anterior, se estaría cumpliendo con el
supuesto.
En ambos gráficos se puede apreciar que ninguno
de los picos queda fuera del intervalo de confianza, por lo tanto
los errores estarían incorrelacionados unos con otros. El
estadístico de Ljung-Box hasta el rezago 16 tienen
p-valores cercanos a la unidad con lo que se estaría
señalando que no están correlacionados.
Normalidad
Para contrastar la Normalidad de los errores se recurre
a la Prueba No Paramétrica de Kolmogorov-Smirnov.
Según el p-valor no hay suficiente evidencia para rechazar
la hipótesis nula de que los errores provienen de una
distribución normal.
Ya se tiene el modelo definitivo, el mismo tiene
residuos que cumplen con todos los supuestos de los Modelos
ARIMA. Por lo tanto se procederá a hacer una
proyección. Ahora se tomarán todos los datos, es
decir los datos del ajuste y los datos de validación, en
otras palabras la serie comienza en enero de 1990 y termina en
junio de 2001. De esta manera se podrán comparar los datos
verdaderos y las proyecciones que hace el modelo.
Datos Modelo con todos
los datos
Error estándar : 0,18351
Log Likelihood : 30,3807
AIC : -56,7614
SBC : -51,1047
Regresores | B | SE B | T – RATIO | PROB. |
MA1 | 0,6294 | 0,06933 | 9,0785 | 0,0000000 |
SMA1 | 0,7425 | 0,08624 | 8,6098 | 0,0000000 |
Ahora que se han incluido todos los datos disponibles se
aprecia que los regresores son muy parecidos a los del modelo que
sólo incluían los del periodo de
validación.
Por otra parte, los errores estándares de estos
regresores son menores que el otro modelo, lo que señala
que el hecho de haber incluido todos los datos no ha deteriorado
la capacidad predictiva del modelo.
En las páginas siguientes se muestran cuadros con
las proyecciones hechas por el modelo ARIMA, como asimismo un
gráfico, los datos verdaderos, con las proyecciones y sus
respectivos intervalos de confianza al 95%.
En los 3 últimos gráficos se han mostrado
las proyecciones de pasajeros que viajarán en la ruta
entre Santiago e Isla de Pascua para todo el año
2001.
Nótese en el gráfico la cercanía de
las proyecciones con los datos reales para el primer semestre del
año 2001.
Por último se incluyen los intervalos de
confianza al 95% para las proyecciones del segundo semestre del
año.
Pérez, César (2001). Técnicas
Estadísticas con SPSS. Prentice Hall
Visauta, B. (1997). Análisis
Estadístico con SPSS para Windows. McGraw
Hill
Pindyck, R & Rubinfeld, R. (2001).
Econometría modelos y pronósticos. McGraw
Hill
Holton, J & Barry Keating. (1996). Previsiones en
los negocios. Irwin
Gujarati, Damodar. (1997). Econometría. Mc
Graw Hill
Marín, G., Labeaga, J.& Mochón, F.
(1997) Introducción a la Econometría.
Prentice Hall
Ferrán Aranaz, Magdalena (2001) SPSS para
Windows
Análisis Estadístico. Prentice may
Pérez Amaral, Amorós
González & Relloso Pereda (1995) Ejercicios de
Econometría Empresarial. McGraw Hill
Hanke J & Reitsch A (1996) Pronósticos en
los Negocios.
Prentice Hall
Material Preparado por
Gabriel Cornejo
Ingeniero Comercial