Análisis de regresión mediante la parábola de los mínimos cuadrados
Introducción
Los primeros y más importantes estudios al
respecto se deben a los científicos Francis Galton
(1822-1911) y Karl Pearson (1857-1936). Fue Galton quien
utilizó por primera vez el término regresión
para indicar que, aunque influida por la estatura de sus padres,
la estatura de los hijos "regresaba" a la media
general.
La regresión examina la relación entre dos
variables, pero restringiendo una de ellas con el objeto de
estudiar las variaciones de una variable cuando la otra permanece
constante. En otras palabras, la regresión es un
método que se emplea para predecir el valor de una
variable en función de valores dados a la otra variable.
En estadística la palabra predecir no se utiliza en el
sentido empleado por los astrólogos, futurólogos y
mentalistas, sino mas bien en un sentido lógico como es el
de utilizar el conocimiento del comportamiento de una variable
para obtener información sobre otra variable. Por ejemplo,
puede predecirse el resultado que obtendrá un estudiante
en su examen final, basados en el conocimiento de las
calificaciones promedio de sus exámenes parciales, o
predecir la preferencia de los estudiantes por profesiones
científicas, conociendo los promedios de sus
calificaciones en los estudios escolares.
En todos los casos de regresión existe una
dependencia funcional entre las variables. En el caso de dos
variables, siendo una de ellas (X) variable independiente y la
otra (Y) la dependiente, se habla de regresión de Y sobre
X; Por ejemplo, los ingenieros forestales utilizan la
regresión de la altura de los árboles sobre su
diámetro, lo cual significa que midiendo el
diámetro (variable independiente) y reemplazando su valor
en una relación definida según la clase de
árbol se obtiene la altura, y aun sin necesidad de
cálculos aprecian la altura utilizando gráficas de
la función de dependencia, altura = función del
diámetro.
La
parábola de los mínimos cuadrados
La parábola de mínimos cuadrados que
aproxima el conjunto de puntos (X1,Y1) , (X2,Y2),
(X3,Y3),…..(XN,YN) tiene ecuación dada por
Y=a0+a1X+a2X2, donde las constantes a0, a1 y a2 se determinan al
resolver simultáneamente el sistema de ecuaciones que se
forma al multiplicar la ecuación Y=a0+a1X+a2X2por 1, X, Y
sucesivamente, y sumando después.
EJEMPLO ILUSTRATIVO
La siguiente tabla muestra la población de un
país en los años 1960-2010 en intervalos de 5
años.
Año | 1960 | 1965 | 1970 | 1975 | 1980 | 1985 | 1990 | 1995 | 2000 | 2005 | 2010 | |||
Población | 4,52 | 5,18 | 6,25 | 7,42 | 8,16 | 9,12 | 10,92 | 11,62 | 12,68 | 13,12 | 13,97 |
1) Ajustar una parábola de mínimos
cuadrados de la forma Y=a0+a1X+a2X2
2) Calcular los valores de tendencia para los
años dados.
3) Estimar la población para los años 2015
y 2020.
4) Calcular el coeficiente de
determinación.
5) Elaborar un diagrama de dispersión, y en el
mismo diagrama graficar la parábola de los mínimos
cuadrados.
Nota: Se recomienda codificar o cambiar la
numeración de los años, eligiendo X de modo que el
año central, 1985, corresponda a X= 0, para que se hagan
más fáciles los cálculos.
Solución:
1) Para ajustar una parábola de mínimos
cuadrados se llena la siguiente tabla:
Se reemplaza valores en el sistema y se
obtiene:
Resolviendo el sistema empleando determinantes (regla de
Cramer) se obtiene:
a0=22175524,8+0+0-12349986-0-02369180+0+0-1331000-0-0=9825538,81038180=9,464
a1=23577549,48+0+0-1324466-0-01038180=2357549,481038180=0,995
a2=1234998,6+0+0-1245816-0-01038180=-10817,41038180=-0,01
El sistema resuelto en Excel se muestra
en la siguiente figura:
Reemplazando los valores encontrados se obtiene la
ecuación de la parábola de mínimos
cuadrados:
Y=a0+a1X+a2X2?? Y = 9,464 + 0,995X –
0,01X2
2) Los valores de tendencia se obtienen al reemplazar
los valores de X en la ecuación de la parábola de
mínimos cuadrados, los cuales se presenta en la siguiente
tabla:
Año | X | Y | Valores de tendencia Y = 9,464 + 0,995X – 0,01X2 | |||||||||
1960 | -5 | 4,52 | 4,24 | |||||||||
1965 | -4 | 5,18 | 5,32 | |||||||||
1970 | -3 | 6,25 | 6,39 | |||||||||
1975 | -2 | 7,42 | 7,43 | |||||||||
1980 | -1 | 8,16 | 8,46 | |||||||||
1985 | 0 | 9,12 | 9,46 | |||||||||
1990 | 1 | 10,92 | 10,45 | |||||||||
1995 | 2 | 11,62 | 11,41 | |||||||||
2000 | 3 | 12,68 | 12,36 | |||||||||
2005 | 4 | 13,12 | 13,28 | |||||||||
2010 | 5 | 13,97 | 14,19 |
3) Para estimar la población de los años
2015 y 2020 se transforma estos años a X siguiendo la
secuencia de la tabla anterior, siendo X = 6 para el año
2015 y X= 7 para el 2020
Entonces para el 2015 se tiene:
Y = 9,464 + 0,995X – 0,01X2 =9,464 + 0,995(6) – 0,01(6)2
= 9,464 + 5,97-0,36 =15,074
Para el 2020 se tiene:
Y = 9,464 + 0,995X – 0,01X2 =9,464 + 0,995(7) – 0,01(7)2
= 9,464 + 6,965-0,49 =15,939
4) Se llena la siguiente tabla y se aplica la
ecuación para calcular el coeficiente de
Pearson
Año | X | Y | X2 | XY | Y2 |
1960 | -5 | 4,52 | 25 | -22,6 | 20,430 |
1965 | -4 | 5,18 | 16 | -20,72 | 26,832 |
1970 | -3 | 6,25 | 9 | -18,75 | 39,063 |
1975 | -2 | 7,42 | 4 | -14,84 | 55,056 |
1980 | -1 | 8,16 | 1 | -8,16 | 66,586 |
1985 | 0 | 9,12 | 0 | 0 | 83,174 |
1990 | 1 | 10,92 | 1 | 10,92 | 119,246 |
1995 | 2 | 11,62 | 4 | 23,24 | 135,024 |
2000 | 3 | 12,68 | 9 | 38,04 | 160,782 |
2005 | 4 | 13,12 | 16 | 52,48 | 172,134 |
2010 | 5 | 13,97 | 25 | 69,85 | 195,161 |
S | 0 | 102,96 | 110 | 109,46 | 1073,490 |
r=NXY-XYNX2-X2NY2-Y2=11·109,46-0·102,9611·110-0211·1073,490-102,962
r=0,996
Elevando al cuadrado coeficiente de Pearson queda
calculado el coeficiente de determinación.
Coeficiente de determinación =
r2=0,9962=0,992
El coeficiente de determinación calculado en
Excel se muestra en la siguiente figura:
5) El diagrama de dispersión y la
parábola de los mínimos cuadrados mediante el
programa Graph se muestra en la siguiente figura:
Referencias
bibliográficas
SPIEGEL, Murray, (2000),
Estadística, Serie de Compendios Schaum, Ed. McGraw-Hill,
México.
SUÁREZ, Mario, (2011), Interaprendizaje de
Estadística Básica,
TAPIA , Fausto Ibarra, Ecuador.
SUÁREZ, Mario, (2004), Interaprendizaje
Holístico de Matemática, Ed. Gráficas
Planeta, Ibarra,
Ecuador.
Autor:
Mario OrlandoSuárez
Ibujes