Prueba de
Hipótesis
La prueba de hipótesis es un procedimiento
estadístico que comienza con una suposición Que se
hace con respecto a un parámetro de población,
luego se recolectan datos de muestra, se producen
estadísticas de muestra y se usa esta información
para decidir qué tan probable es que sean correctas
nuestras suposiciones acerca del parámetro de
población en estudio.
Ejemplos de hipótesis pueden ser: Se
desea
a) Probar si las ventas diaria de un abasto son 1 Mio de
bolívares o no
b) Probar si la proporción de individuos que
compran algún artículo en una tienda es o no mayor
del 0.3.
1.1.- Objetivo de la prueba de
hipótesis.
Decidir, basado en una muestra de una población,
cuál de dos hipótesis complementarias es
cierta.
Las dos hipótesis complementarias se denominan
hipótesis nula e hipótesis alternativa.
1.2.- Conceptos Básicos.
Hipótesis Nula (H0): Representa la
hipótesis que mantendremos cierta a no ser que los
datos indiquen su falsedad. Esta hipótesis nunca se
considera aceptada, en realidad lo que se quiere decir es que
no hay suficiente evidencia estadística para
rechazarla por lo que aceptar H0 no garantiza que H0 sea
cierta.Hipótesis Alternativa (H1):
Hipótesis que se acepta cuando los datos no respaldan
la hipótesis nula.
1.3.- Tipos de pruebas.
a) Pruebas de hipótesis de 2 extremos
o bilaterales: Es una prueba en la que H0 se rechaza si
el valor de la muestra es significativamente mayor o menor
que el valor hipotetizado del parámetro de
población. Esta prueba involucra dos regiones de
rechazo.b) Pruebas de hipótesis de 1 extremo
o unilaterales: Es una prueba en la que sólo hay
una región de rechazo, es decir, sólo nos
interesa si el valor observado se desvía del valor
hipotetizado en una dirección. Pueden ser:
Prueba de extremo inferior
Es una prueba en la que si hay un valor de muestra que
se encuentra Significativamente por debajo del valor de la
población hipotetizado, nos llevará a rechazar la
hipótesis nula. Gráficamente:
Prueba de extremo superior
Es una prueba en la que si hay un valor de muestra que
se encuentra Significativamente por encima del valor de la
población hipotetizado, nos llevará a rechazar la
hipótesis nula. Gráficamente:
1.4.- Metodología.
La lógica de una prueba de hipótesis es
similar a la de un juicio penal, donde debe decidirse si el
acusado es inocente o culpable y el juicio consiste en aportar
evidencia para rechazar la hipótesis de inocencia
más allá de cualquier duda razonable. Por su parte
una prueba de hipótesis analiza si los datos observados
permitan rechazar la hipótesis nula, comprobando si
éstos tienen una probabilidad de aparecer lo
suficientemente pequeña cuando es cierta la
hipótesis nula.
Las etapas de una prueba de hipótesis
son:
Definir la hipótesis nula a
contrastar.Definir una medida de discrepancia entre los datos
muéstrales y la hipótesis Ho.
Supongamos que el parámetro de interés es
la media de una población y que a partir de una muestra
hemos obtenido su estimador x, entonces debemos medir de
alguna manera la discrepancia entre ambos, que denotaremos como
d (m, x).
Decidir qué discrepancia consideramos
inadmisibles con Ho, es decir, a partir de que valor de d, la
discrepancia es muy grande como para atribuirse al azar y
considerar que Ho pueda ser cierta. Para ello debemos
entonces:Tomar la muestra
Calcular el estimador del parámetro, en
nuestro ejemplo xCalcular la medida de discrepancia
d.Tomar la decisión: Si d es
"pequeña", aceptar Ho, si es lo "suficientemente
"grande, rechazarla y aceptar H1.
Es por ello que necesitamos establecer una Regla de
Decisión mediante la cual sea especificada:
a) La medida de discrepancia.
b) Un criterio que nos permita juzgar qué
discrepancia son "demasiado grandes".
1.5.- Nivel de Significancia.
Para realizar una prueba de hipótesis dividiremos
el rango de discrepancias que puede Observarse cuando Ho es
cierta en dos regiones: una región de aceptación de
Ho y otra de rechazo.
Se consideran discrepancias "demasiado grandes", las que
tienen una probabilidad Pequeña a de ocurrir si Ho es
cierta. A este valor lo llamamos nivel de significación:
Generalmente tomamos valores de 0.1, 0.05, 0.01 o
0,005.
El nivel de significación a puede interpretarse
también como la probabilidad que Estamos dispuestos a
asumir de rechazar Ho cuando esta es cierta.
Cabe destacar que mientras más alto sea el nivel
de significancia que se utiliza para Probar una hipótesis,
mayor será la probabilidad de rechazar una
hipótesis nula cuando es cierta.
En la siguiente figura se muestran tres niveles de
significancia distintos:
1.6.- Tipos de errores.
Cuando se decide sobre el rechazo de una
hipótesis se pueden cometer dos
Equivocaciones.
1. Al rechazo de la hipótesis nula
cuando esta es verdadera se le conoce como error tipo 1; la
probabilidad de cometer un error de este tipo se de nota por
medio del alfa (a).2. La aceptación de hipótesis
nula cuando ésta es falsa recibe el nombre de error
tipo 2; la probabilidad de cometer un error de este tipo se
representa con beta (ß).
Existe un equilibrio entre los dos tipos de errores, la
probabilidad de cometer un tipo de error puede reducirse
sólo si deseamos incrementar la probabilidad de cometer el
otro.
Regresión
y correlación
2.1.- Concepto de regresión:
La regresión es una
técnica estadística utilizada para
simular la relación existente entre dos o más
variables. Por lo tanto se puede emplear para construir un modelo
que permita predecir el comportamiento de una variable dada.La
regresión es muy utilizada para interpretar situaciones
reales, pero comúnmente se hace de mala forma, por lo cual
es necesario realizar una selección adecuada de las
variables que van a construir las ecuaciones de la
regresión, ya que tomar variables que no tengan
relación en la práctica, nos arrojará un
modelo carente de sentido, es decir ilógico.
2.2.- Coeficiente de regresión.
Indica el número de unidades en que se modifica
la variable dependiente "Y" por efecto del cambio de la
variable independiente "X" o viceversa en una unidad de
medida.
Clases de coeficiente de
Regresión:
El coeficiente de regresión puede ser: Positivo,
Negativo y Nulo.
Es positivo cuando las variaciones de la variable
independiente X son directamente proporcionales a las variaciones
de la variable dependiente "Y"
Es negativo, cuando las variaciones de la variable
independiente "X" son inversamente proporcionales a las
variaciones de las variables dependientes "Y"
Es nulo o cero, cuando entre las variables dependientes
"Y" e independientes "X" no existen relación
alguna.
2.3.- Análisis de
regresión.
El análisis de regresión es una
herramienta estadística que permite analizar y predecir o
estimar observaciones futuras de dos o más variables
relacionadas entre sí, es decir una herramienta
útil para la planeación.
2.4.- Tipos de regresión.
Podemos clasificar los tipos de regresión
según diversos criterios.
En primer lugar, en función del número de
variables independientes:
Regresión simple: Cuando la
variable Y depende únicamente de una
única variable X.Regresión múltiple: Cuando
la variable Y depende de varias variables
(X1, X2, …, Xr)
En segundo lugar, en función del tipo de
función f(X):
Regresión lineal: Cuando f(X) es
una función lineal.Regresión no lineal: Cuando f(X)
no es una función lineal.
En tercer lugar, en función de la naturaleza de
la relación que exista entre las dos variables:
La variable X puede ser la causa del valor
de la variable Y.
Por ejemplo, en toxicología,
si X = Dosis de la droga e Y =
Mortalidad, la mortalidad se atribuye a la dosis administrada y
no a otras causas.
Puede haber simplemente relación entre las
dos variables.
Por ejemplo, en un estudio de medicina en que se
estudian las variables X = Peso e Y = Altura
de un grupo de individuos, puede haber relación entre las
dos, aunque difícilmente una pueda considerarse causa de
la otra.
En este tema se tratará únicamente de
la Regresión lineal simple.
2.5.- Análisis de la
regresión-lineal.
El análisis de regresión lineal es una
técnica estadística utilizada para estudiar la
relación entre variables. Se adapta a una amplia variedad
de situaciones. En la investigación social, el
análisis de regresión se utiliza para predecir un
amplio rango de fenómenos, desde medidas económicas
hasta diferentes aspectos del comportamiento humano. En el
contexto de la investigación de mercados puede utilizarse
para determinar en cuál de diferentes medios de
comunicación puede resultar más eficaz invertir; o
para predecir el número de ventas de un determinado
producto. En física se utiliza para caracterizar la
relación entre variables o para calibrar medidas.
Etc.
2.6.- Concepto de correlación.
La correlación trata de establecer la
relación o dependencia que existe entre las dos variables
que intervienen en una distribución bidimensional. Es
decir, determinar si los cambios en una de las variables influyen
en los cambios de la otra. En caso de que suceda, diremos que las
variables están correlacionadas o que hay
correlación entre ellas.
2.7.- Tipo de correlación.
Correlación directa
La correlación directa se da cuando al aumentar
una de las variables la otra aumenta.
La recta correspondiente a la nube de puntos de la
distribución es una recta creciente.
Correlación inversa
La correlación inversa se da cuando al aumentar
una de las variables la otra disminuye.
La recta correspondiente a la nube de puntos de la
distribución es una recta decreciente.
Correlación nula
La correlación nula se da cuando no hay
dependencia de ningún tipo entre las variables.
En este caso se dice que las variables son incorreladas
y la nube de puntos tiene una forma redondeada.
2.8.- Grado de correlación.
El grado de correlación indica
la proximidad que hay entre los puntos de la nube de puntos. Se
pueden dar tres tipos:
Correlación fuerte
La correlación será fuerte cuanto
más cerca esté los puntos de la recta.
Correlación débil
La correlación será débil cuanto
más separados estén los puntos de la
recta.
El coeficiente de correlación
lineal es el cociente entre
la covarianza y el producto de
las desviaciones típicas de ambas
variables.
El coeficiente de correlación
lineal se expresa mediante la
letra r.
2.9.- Propiedades del coeficiente de
correlación.
Es decir, si expresamos la altura en metros o en
centímetros el coeficiente de correlación no
varía.
2. El signo del coeficiente de
correlación es el mismo que el de
la covarianza.
Si la covarianza es positiva, la correlación es
directa.
Si la covarianza es negativa, la correlación es
inversa.
Si la covarianza es nula, no existe
correlación.
3. El coeficiente de correlación
lineal es un número real comprendido entre -1
y 1. -1 = r = 14. Si el coeficiente de
correlación lineal toma valores cercanos a -1
la correlación es fuerte e inversa, y
será tanto más fuerte cuanto más se
aproxime r a -1.5. Si el coeficiente de
correlación lineal toma valores cercanos a 1
la correlación es fuerte y directa, y
será tanto más fuerte cuanto más se
aproxime r a 1.6. Si el coeficiente de
correlación lineal toma valores cercanos a 0,
la correlación es débil.7. Si r = 1 ó -1, los puntos de la nube
están sobre la recta creciente o decreciente. Entre
ambas variables hay dependencia funcional.
2.10.- Como se calcula la
correlación.
El coeficiente de correlación
lineal se calcula aplicando la siguiente
fórmula:
Es decir:
Numerador: Se
denomina covarianza y se calcula de la siguiente
manera: en cada par de valores (x, y) se multiplica la "x" menos
su media, por la "y" menos su media. Se suma el resultado
obtenido de todos los pares de valores y este resultado se divide
por el tamaño de la muestra.
Denominador Se calcula el producto de las
varianzas de "x" y de "y", y a este producto se le calcula la
raíz cuadrada.
Los valores que puede tomar el coeficiente de
correlación "r" son: -1 < r < 1
Si "r" > 0, la correlación lineal es
positiva (si sube el valor de una variable sube el de la otra).
La correlación es tanto más fuerte cuanto
más se aproxime a 1.
Por ejemplo: altura y peso: los alumnos más altos
suelen pesar más.
Si "r" < 0, la correlación lineal es
negativa (si sube el valor de una variable disminuye el de la
otra). La correlación negativa es tanto más fuerte
cuanto más se aproxime a -1.
Por ejemplo: peso y velocidad: los alumnos más
gordos suelen correr menos.
Si "r" = 0, no existe correlación lineal
entre las variables. Aunque podría existir otro tipo de
correlación (parabólica, exponencial,
etc.)
De todos modos, aunque el valor de "r" fuera
próximo a 1 o -1, tampoco esto quiere decir
obligatoriamente que existe una relación de causa-efecto
entre las dos variables, ya que este resultado podría
haberse debido al puro azar
Autor:
Amaranta Dutti
República Bolivariana de
Venezuela
Ministerio del Poder Popular para la
Educación Superior
Universidad Nacional Experimental
Politécnica de la Fuerza Armada
Unefa – Zulia
03-CBM-001
Maracaibo – Edo. Zulia.