Introducción al muestreo.
Algunas veces es posible y práctico examinar a cada persona o elemento de la población que deseamos describir. A esto lo llamamos enumeración completa o censo. Utilizamos el muestreo cuando no es posible contar o medir todos los elementos de la población.
Los estadísticos usan la palabra población para referirse no sólo a personas sino a todos los elementos que han sido elegidos para un estudio, y emplean la palabra muestra para describir una porción elegida de la población.
Condiciones que debe reunir una muestra:
Matemáticamente, podemos describir muestras y poblaciones al emplear mediciones como la media, la mediana, la oda y la desviación estándar. Cuando estos términos describen las características de una población, se llaman parámetros. Cuando describen las características de la muestra, se llaman estadísticos. Una estadística es una característica de una muestra y un parámetro es una característica de la población.
Se emplean letras latinas minúsculas para denotar estadísticas de muestra y letras griegas o latinas mayúsculas para representar parámetros de población.
|
Población |
Muestra |
|
|
Definición |
Colección de elementos considerados |
Parte o porción de la población seleccionada para su estudio |
|
Características |
Parámetros |
Estadísticas |
|
Símbolos |
Tamaño de la población: N Media de la población: Desviación estándar: |
Tamaño de la muestra: n Media de la muestra: x Desviación estándar: s |
Una población queda caracterizada a través de ciertos valores denominados parámetros, que describen las principales propiedades del conjunto.
Un parámetro es un valor fijo (no aleatorio) que caracteriza a una población en particular. En general, una parámetro es una cantidad desconocida y rara vez se puede determinar exactamente su valor, por la dificultad práctica de observar todas las unidades de una población. Por este motivo, tratamos de estimar el valor de los parámetros desconocidos a través del empleo de muestras. Las cantidades usadas para describir una muestra se denominan estimadores o estadísticos muestrales.
Ahora bien, es razonable pensar que si tomamos diferentes muestras de la misma población y calculamos los diferentes estadísticos de cada una, esos valores van a diferir de muestra a muestra. Por lo tanto, un estadístico no es un valor fijo, sino que presenta las siguientes características:
Estas son las condiciones que definen a una variable aleatoria. Un estadístico, entonces, es una variable aleatoria, función de las observaciones muestrales.
A los estadísticos muestrales se los designa con las letras latinas (x, s2), o letras griegas "con sombrero" ( ^, ^2).
Si un estadístico es una variable aleatoria, entonces es posible determinar su distribución de probabilidades y calcular sus principales propiedades.
Muestreo aleatorio simple.
Selecciona muestras mediante métodos que permiten que cada posible muestra tenga igual probabilidad de ser seleccionada y que cada elemento de la población total tenga una oportunidad igual de ser incluido en la muestra.
Una población infinita es aquella en la que es teóricamente imposible observar todos los elementos. Aunque muchas poblaciones parecen ser excesivamente grandes, no existe una población realmente infinita de objetos físicos. Con recursos y tiempo ilimitados, podríamos enumerar cualquier población finita. Como cuestión práctica, entonces, utilizamos el término población infinita cuando hablamos acerca de una población que no podría enumerarse en un intervalo razonable.
Cómo hacer un muestreo aleatorio.
La forma más fácil de seleccionar una muestra de manera aleatoria es mediante el uso de números aleatorios. Estos números pueden generarse ya sea con una computadora programada para resolver números o mediante una tabla de números aleatorios (tabla de dígitos aleatorios).
Muestreo sistemático.
En el muestreo sistemático, los elementos son seleccionados de la población dentro de un intervalo uniforme que se mide con respecto al tiempo, al orden o al espacio.
El muestreo sistemático difiere del aleatorio simple en que cada elemento tiene igual probabilidad de ser seleccionado, pero cada muestra no tiene una posibilidad igual de ser seleccionada (Por ejemplo: tomar cada elemento de 10 en 10: el Nª 1, 11, 21...)
En este tipo de muestreo, existe el problema de introducir un error en el proceso de muestreo.
Aún cuando este tipo de muestreo puede ser inapropiado cuando los elementos entran en un patrón secuencial, este método puede requerir menos tiempo y algunas veces tiene como resultado un costo menor que el método aleatorio simple.
Muestreo estratificado.
Dividimos la población en grupos relativamente homogéneos, llamados estratos. Después, se utiliza uno de estos planteamientos:
Con cualquiera de estos planteamientos, el muestreo estratificado garantiza que cada elemento de la población tenga posibilidad de ser seleccionado.
Este método resulta apropiado cuando la población ya está dividida en grupos de diferentes tamaños y deseamos tomar en cuenta este hecho (por ejemplo: categorías profesionales de la población).
La ventaja de las muestras estratificadas es que, cuando se diseñan adecuadamente, reflejan de manera más precisa las características de la población de la cual fueron elegidas.
Muestreo de racimo.
Dividimos la población en grupos, o racimos, y luego seleccionamos una muestra aleatoria de estos racimos. Suponemos que estos racimos individualmente son representativos de la población como un todo (Por ejemplo: las cuadras o barrios de un pueblo). Un procedimiento de racimo bien diseñado puede producir una muestra más precisa a un costo considerablemente menor que el de un muestreo aleatorio simple.
Tanto en el muestreo estratificado como en el de racimo, la población se divide en grupos bien definidos. Usamos el muestreo estratificado cuando cada grupo tiene una pequeña variación dentro de sí mismo, pero hay una amplia variación dentro de los grupos. Usamos el muestreo de racimo en el caso opuesto, cuando hay una variación considerable dentro de cada grupo, pero los grupos son esencialmente similares entre sí.
Base de la inferencia estadística: muestreo aleatorio simple.
El muestreo sistemático, estratificado y el de racimo intentan aproximarse al muestreo aleatorio simple. Todos son métodos que han sido desarrollados por su precisión, economía o facilidad física.
Los principios del muestreo aleatorio simple son la base de la inferencia estadística, el proceso de hacer inferencias acerca de poblaciones a partir de información contenida en muestras.
SUGERENCIAS:
Introducción a las distribuciones de muestreo.
Si tomamos varias muestras de una población, las estadísticas que calcularíamos para cada muestra no necesariamente serían iguales, y lo más probable es que variaran de una muestra a otra.
Una distribución de probabilidad de todas las medias posibles de las muestras es una distribución de las medias de las muestras. Los estadísticos la conocen como distribución de muestreo de la media.
También podríamos tener una distribución de muestreo de una porción. Si trazamos una distribución de probabilidad de porciones posibles de un evento en todas las muestras, obtendríamos una distribución de las porciones de las muestras. A esto se lo conoce como distribución de la porción.
Descripción de las distribuciones de muestreo.
Cualquier distribución de probabilidad (y, por tanto, cualquier distribución de muestreo) puede ser descripta parcialmente por su media y su desviación estándar.
En vez de decir "la desviación estándar de la distribución de las medias de la muestra" para describir una distribución de medias de la muestra, los estadísticos se refieren al error estándar de la media. De manera similar, la "desviación estándar de la distribución de las proporciones de la muestra" se abrevia como error estándar de la proporción. El término error estándar se utiliza porque da a entender un significado específico.
La variabilidad en las estadísticas de muestras proviene de un error de muestreo debido al azar; es decir, hay diferencias entre cada muestra y la población, y entre las diversas muestras, debido únicamente a los elementos que decidimos escoger para las muestras.
La desviación estándar de la distribución de las medias de las muestras mide el grado hasta el que esperamos que varíen las medias de las diferentes muestras debido a este error fortuito cometido en el proceso de muestreo. Por tanto, la desviación estándar de la distribución de una estadística de muestra se conoce como el error estándar de la estadística.
El error estándar indica no sólo el tamaño del error de azar que se ha cometido, sino también la probable precisión que obtendremos si utilizamos una estadística de muestra para estimar un parámetro de población. Una distribución de medias de muestra que está menos extendida (y que tiene un error estándar pequeño) es un mejor estimador de la media de la población que una distribución de medias de muestra que está ampliamente dispersa y que tiene un error estándar más grande.
Uso del error estándar.
Siempre que usamos pruebas, tenemos que tratar con el error estándar. Específicamente, necesitamos cierta medición de la precisión del instrumento de prueba, generalmente representado por el error estándar.
SUGERENCIA:
El conocimiento de la distribución de muestreo permite a los estadísticos planear muestras de tal forma que los resultados sean significativos. Debido a que resulta caro recabar y analizar muestras grandes, los administradores siempre procuran obtener la muestra más pequeña que proporcione un resultado confiable.
Base conceptual para muestrear distribuciones.
En la terminología estadística, la distribución de muestreo que obtendríamos al tomar todas las muestras de un tamaño dado constituye una distribución teórica de muestreo. En casi todos los casos, los responsables de las decisiones sólo toman una muestra de la población, calculan estadísticas para esa muestra y de esas estadísticas infieren algo sobre los parámetros de toda la población.
Muestreo de poblaciones normales.
Si extraemos muestras de una población normalmente distribuida y calculamos sus medias, debido a que estamos promediando para obtener cada media de muestra, se promediarían hacia abajo valores muy grandes de la muestra y hacia arriba valores muy pequeños. El razonamiento consistiría en que nos estaríamos extendiendo menos entre las medias de muestra que entre los elementos individuales de la población original. Esto es lo mismo que afirmar que error estándar de la media, o la desviación estándar de la distribución de muestreo, sería menor que la desviación estándar de los elementos individuales en la población.
El error estándar de la media obtenido para situaciones en las que la población es infinita es:
x = / n
Para convertir cualquier variable aleatoria normal en una variable aleatoria normal estándar, debemos sustraer la media de la variable que se está estandarizando y dividir el resultado entre el error estándar (la desviación estándar de dicha variable). En este caso particular:

Muestreo de poblaciones no normales.
Cuando una población está distribuida normalmente, la distribución de muestreo de la media también es normal.
Incluso en el caso en el que una población no está normalmente distribuida, x, la media de la distribución de muestreo, sigue siendo igual a la media de la población, . Es decir, la distribución de muestreo de la media se acerca a la normalidad, sin importar la forma de la distribución de la población.
El teorema del límite central.
Esta relación entre la forma de la distribución de la población y la forma de la distribución de muestreo se denomina teorema del límite central, que es tal vez el más importante de toda la inferencia estadística. Nos asegura que la distribución de muestreo de la media se aproxima a la normal al incrementarse el tamaño de la muestra.
Hay situaciones teóricas en las que el teorema del límite central no se cumple, pero casi nunca se encuentran en la toma de decisiones práctica. Una muestra no tiene que ser muy grande para que la distribución de muestreo de la media se acerque a la normal. Los estadísticos utilizan la distribución normal como una aproximación a la distribución de muestreo siempre que el tamaño de la muestra sea al menos de 30, pero la distribución de muestreo de la media puede ser casi normal con muestras incluso de la mitad de ese tamaño.
La importancia del teorema del límite central es que nos permite usar estadísticas de muestra para hacer inferencias con respecto a los parámetros de población sin saber nada sobre la forma de la distribución de frecuencias de esa población más que lo que podamos obtener de la muestra.
SUGERENCIA:
El teorema del límite central nos permite utilizar las propiedades de la distribución normal en muchos casos en los que los datos subyacentes no están normalmente distribuidos. El hecho de que la distribución de muestreo sea aproximadamente normal es la base de una amplia variedad de pruebas estadísticas diferentes.
Relación entre el tamaño de la muestra y el error estándar.
El error estándar es una medición de la dispersión de las medias de muestras alrededor de la media de la población. Si la dispersión disminuye (si x se hace más pequeña), entonces los valores tomados por la media de la muestra tienden a agruparse más cercanamente alrededor de . Y a la inversa, si la dispersión se incrementa (si x se agranda), los valores tomados por la media de la muestra tienden a agruparse menos cercanamente alrededor de .
Al disminuir el error estándar, el valor de cualquier media de muestra probablemente se acercará al valor de la media de la población. Los estadísticos describen este fenómeno diciendo: al disminuir el error estándar, se incrementa la precisión con que se puede usar la media de muestra para estimar la media de población.
Debido al hecho de que x varía inversamente con la raíz cuadrada de n, hay una utilidad decreciente en el muestreo.
Es cierto que al muestrear más elementos disminuye el error estándar, pero este beneficio puede no valer el costo. El aumento de precisión puede no valer el costo del muestreo adicional.
Sea X una variable aleatoria con distribución normal, con parámetros , 2. Si sacamos muestras de tamaño n, y calculamos la media aritmética, se demuestra que bajo ciertas condiciones, X también es una variable aleatoria con distribución normal, con parámetros , 2/n. Es decir:
Si X - N ( , 2), entonces X - N ( , 2/n)
Las dos distribuciones tienen la misma media, pero la dispersión de la media aritmética es menor, tanto más pequeña cuando mayor sea el tamaño de la muestra.
Como en un proceso de inferencia es un parámetro desconocido, al extraer una muestra en particular y calcular x, no podemos determinar exactamente qué tan cerca estuvo esa estimación del valor verdadero del parámetro.
De lo único que podemos estar seguros es que, al aumentar el tamaño de la muestra, la distribución de la media aritmética tiende a concentrarse más y más alrededor de la media poblacional y, por tanto, las estimaciones van a estar más próximas al valor del parámetro (desconocido).
Lo más relevante de la media aritmética es que, aún cuando la variable en estudio no tenga distribución normal, o su distribución sea desconocida, si el número de elementos de la muestra es suficientemente grande, por aplicación del Teorema del Límite Central, la media aritmética igualmente va a tener aproximadamente distribución normal.
Por último, es interesante remarcar la idea de que la media aritmética es conceptualmente una variable aleatoria hasta el instante previo a calcular efectivamente su valor. Después de efectuar ese cálculo, tenemos un valor fijo (no aleatorio), y por lo tanto, deja de tener sentido hablar de la "probabilidad de la media aritmética".
El cálculo de probabilidades con la media aritmética tiene entonces validez en términos teóricos, es decir, representa "lo que se espera" que ocurra con dicha variable antes de tomar una muestra y calcular efectivamente su valor.
El multiplicador de la población finita.
Para calcular el error estándar de la media, utilizamos la ecuación:
x = / n
esta ecuación está diseñada para situaciones en las que la población es infinita, o en las que tomamos muestras de una población infinita con reemplazo.
La fórmula diseñada para encontrar el error estándar de la media cuando la población es finita y el muestreo se hace sin reemplazo es:
x = / n x (N - n) / (N - 1)
donde:
N = tamaño de la población
n = tamaño de la muestra
Este nuevo factor que aparece en la ecuación y se multiplica al error estándar original se conoce como multiplicador de la población finita.
Cuando muestreamos una pequeña fracción de la población entera (es decir, cuando el tamaño de la población N es muy grande en relación con el tamaño de la muestra n), el multiplicador de la población finita toma un valor cercano a 1.
Los estadísticos se refieren a la fracción n/N como la fracción de muestreo, porque es la fracción de la población N contenida en la muestra.
Cuando la fracción de muestreo es pequeña, el error estándar de la media para poblaciones finitas es tan cercano a la media para poblaciones infinitas, que bien podríamos utilizar la misma fórmula para ambas desviaciones.
La regla generalmente aceptada es: si la fracción de muestreo es menor a 0,05, no se necesita usar el multiplicar para la población finita.
Cuando utilizamos la ecuación para poblaciones infinitas, es constante y, por tanto, la medida de la precisión de muestreo, x, depende solamente del tamaño de la muestra n y no de la fracción de población muestreada. Es decir, para hacer x más pequeña sólo es necesario agrandar n. En consecuencia, resulta que el tamaño absoluto de la muestra es el que determina la precisión del muestreo, no la fracción de la población muestreada.
SUGERENCIAS:
El material sobre teoría de la probabilidad constituye la base de la inferencia estadística, rama de la estadística que tiene que ver con el uso de los conceptos de la probabilidad para tratar con la toma de decisiones en condiciones de incertidumbre. La inferencia estadística está basada en la estimación y en la prueba de hipótesis.
Tipos de estimación.
Podemos hacer dos tipos de estimaciones concernientes a una población:
Estimador y estimaciones.
Un estimador es una estadística de muestra utilizada para estimar un parámetro de población. La media de la muestra puede ser un estimador de la media de la población, y la porción de la muestra se puede utilizar como estimador de la porción de la población. También podemos utilizar el alcance de la muestra como un estimador del alcance de la población.
Cuando hemos observado un valor numérico específico de nuestro estimador, nos referimos a ese valor como una estimación. Una estimación es un valor específico observado de una estadística. Hacemos una estimación si tomamos una muestra y calculamos el valor que toma nuestro estimador en esa muestra.
Criterios para seleccionar un buen estimador.
Una estadística de muestra dada no siempre es el mejor estimador de su parámetro de población correspondiente. Considere una población distribuida simétricamente, en la que los valores de la mediana y de la media coinciden. En este caso, la media de la muestra sería un estimador imparcial de la mediana de la población debido a que asumiría valores que en promedio serían iguales a la mediana de la población. También, la media de la muestra sería un estimador consistente de la mediana de la población, puesto que, conforme aumenta el tamaño de la muestra, el valor de la media de la muestra tenderá a acercarse bastante a la mediana de la población. Y la media de la muestra sería un estimador más eficiente de la mediana de la población que la mediana misma, ya que en muestras grandes, la media de la muestra tiene una desviación estándar menor que la mediana de la muestra.
Al mismo tiempo, la mediana de la muestra de una distribución distribuida simétricamente sería un estimador imparcial y consistente de la media de la población, pero no el más eficiente estimador, porque en muestras grandes su error estándar es mayor que el de la media de la muestra.
La media de la muestra es el mejor estimador de la media de la población. Es imparcial, coherente, el estimador más eficiente y, siempre y cuando la muestra sea la suficientemente grande, su distribución de muestreo puede ser aproximada por la distribución normal.
Si conocemos la distribución de muestreo de la media, podemos llegar a conclusiones con respecto a cualquier estimación que podamos hacer a partir de la información de muestreo.
Estimación puntual de la varianza y de la desviación estándar de la población.
El estimador utilizado con más frecuencia para hacer la estimación de la desviación estándar de la población, es la desviación estándar de la muestra:
s2 = (x - x)2 / (n - 1)
Al utilizar un divisor n - 1, nos da un estimador imparcial de 2.
Estimación puntual de la porción de la población.
La porción de unidades de una población dada que posee una característica particular se representa mediante el símbolo p. Si conocemos la porción de unidades de una muestra que tiene la misma característica, podemos utilizar esa p como estimador de p. Se puede mostrar que p tiene todas las características deseables: es imparcial (no sesgado), coherente, eficiente y suficiente.
SUGERENCIA:
Incluso cuando estamos utilizando el mejor estimador de un parámetro de población, aceptamos que puede estar implicado algo de error. Afirmamos que la estimación puntual y la medida de la varianza proporcionan información útil para las decisiones.
El propósito de tomar muestras es para conocer más acerca de una población. Podemos calcular esa información a partir de las muestras como estimaciones puntuales, o como estimaciones de intervalo. Una estimación de intervalo describe un intervalo de valores dentro del cual es posible que esté un parámetro de población.
Si seleccionamos y representamos gráficamente un gran número de medias de muestras de una población, la distribución de tales medias se aproximará a la curva normal. Además, la media de las medias de muestra será la misma media de la población.
Probabilidad de que el verdadero parámetro de la población esté dentro de la estimación de intervalo.
En lo que concierne a cualquier intervalo particular, éste contiene a la media de la población o no la contiene, pues la media de la población es un parámetro fijo, y no varía.
Cuando las organizaciones informan la precisión de encuestas de opinión como "estos resultados son precisos en más menos tres puntos", por lo general no establecen el nivel de confianza que están utilizando para hacer la estimación de intervalo. Una afirmación más completa tendría la forma. "existe un 95% de probabilidad de que la verdadera opinión de la población caiga dentro del intervalo comprendido entre ..... y ........"
Estimaciones de intervalo e intervalos de confianza.
La probabilidad que asociamos con una estimación de intervalo se conoce como nivel de confianza. Esta probabilidad indica qué tanta confianza tenemos de que la estimación de intervalo incluya al parámetro de población. Una probabilidad más alta indica más confianza.
El intervalo de confianza es el alcance de la estimación que estamos haciendo. Expresaremos el intervalo de confianza en términos de errores estándar, más que con valores numéricos. Los límites de confianza son los límites superior e inferior del intervalo de confianza
Relación entre el nivel de confianza e intervalo de confianza.
Podría pensarse que deberíamos utilizar un nivel alto de confianza en todos los problemas sobre estimaciones. En la práctica, sin embargo, altos niveles de confianza producen intervalos de confianza grandes, y éstos no son precisos, dan estimaciones bastante imprecisas.
Uso del muestreo y de la estimación de intervalos de confianza.
A menudo resulta difícil o caro tomar más de una muestra de una población. Basados en solamente una muestra estimamos el parámetro de población.
El intervalo de confianza quiere decir que si seleccionamos muchas muestras aleatorias del mismo tamaño y si calculamos un intervalo de confianza para cada una de las muestras, tendremos un porcentaje de confianza determino de que en todos los casos la media de la población caerá dentro del intervalo.
Por otro lado, existe un cierto equilibrio entre la certidumbre de la estimación y el ancho de un intervalo de confianza.
Cálculo de estimaciones de intervalo de la media a partir de muestras grandes.
Se calcula el error estándar de la media para una población infinita:
x = / n
Posteriormente, se establecen los límites de confianza superior e inferior, considerando el porcentaje de confianza requerido.
Cuando no se conoce la desviación estándar.
Cuando no se conoce la desviación estándar de la población, utilizamos la desviación estándar de la muestra para estimar la desviación estándar de la población:
s2 = [(x - x)2 / (n - 1)]
La fórmula para derivar el error estándar de la media de poblaciones finitas es:
x = { / n} x (N - n) / N - 1)
A partir de esto, podemos calcular el error estándar de la media mediante la desviación estándar de la población:
´x = { ´x/ n} x (N - n) / N - 1)
SUGERENCIA:
Cuando tenemos muestras grandes, utilizamos el Teorema del Límite Central, nuestro conocimiento de la curva normal y nuestra habilidad para hacer correcciones para poblaciones finitas.
Determinación del tamaño de la muestra.
Siempre que tomamos una muestra, perdemos algo de información útil con respecto a la población. El error de muestre se puede controlar si seleccionamos una muestra cuyo tamaño sea el adecuado. En general, cuanta más precisión se quiera, más grande será el tamaño de la muestra necesaria.
Para calcular el tamaño de muestra, podemos utilizar la fórmula del error estándar de la media:
x = / n
Si no conocemos la desviación estándar de la población, podemos utilizar el alcance de la población para obtener una estimación burda pero manejable de la desviación estándar. Sabemos que más menos tres desviaciones estándar incluyen 99,7% del área total bajo la curva normal, esto es, más tres desviaciones estándar y menos tres desviaciones estándar de la media incluyen casi toda el área de la distribución.
SUGERENCIAS:
Conceptos.
PRUEBAS DE HIPÓTESIS.
Una hipótesis es una afirmación acerca de algo. En estadística, puede ser una suposición acerca del valor de un parámetro desconocido.
Pasos en la prueba de hipótesis:
Generalmente, se habla de "no rechazar" una hipótesis en lugar de "aceptar", ya que las pruebas no son concluyentes.
Introducción.
La prueba de hipótesis comienza con una suposición, llamada hipótesis, que hacemos con respecto a un parámetro de población. Después recolectamos datos de muestra, producimos estadísticas de muestra y usamos esta información para decidir qué tan probable es que sea correcto nuestro parámetro de población acerca del cual hicimos la hipótesis.
Debemos establecer el valor supuesto o hipotetizado del parámetro de población antes de comenzar a tomar la muestra. La suposición que deseamos probar se conoce como hipótesis nula, y se simboliza H0.
Siempre que rechazamos la hipótesis, la conclusión que sí aceptamos se llama hipótesis alternativa y se simboliza H1.
Interpretación del nivel de significancia.
El propósito de la prueba de hipótesis no es cuestionar el valor calculado de la estadística de muestra, sino hacer un juicio respecto a la diferencia entre esa estadística de muestra y un parámetro de población hipotetizado. El siguiente paso después de establecer la hipótesis nula alternativa consiste en decidir qué criterio utilizar para decidir si aceptar o rechazar la hipótesis nula.
Si suponemos que la hipótesis es correcta, entonces el nivel de significancia indicará el porcentaje de medias de muestra que está fuera de ciertos límites.
Siempre que afirmemos que aceptamos la hipótesis nula, en realidad lo que queremos decir es que no hay suficiente evidencia estadística para rechazarla. El empleo del término aceptar, en lugar de rechazar, se ha vuelto de uso común. Significa simplemente que cuando los datos de la muestra n hacen que rechacemos una hipótesis nula, nos comportamos como si fuera cierta.
Selección del nivel de significancia.
Nuestra elección del estándar mínimo para una probabilidad aceptable, o el nivel de significancia, es también el riesgo que asumimos al rechazar una hipótesis nula cuando es cierta. Mientras más alto sea el nivel de significancia que utilizamos para probar una hipótesis, mayor será la probabilidad de rechazar una hipótesis nula cuando es cierta.
Errores tipo I y tipo II.
El rechazo de una hipótesis nula cuando es cierta se denomina error de tipo I, y su probabilidad (que es también el nivel de significancia) se simboliza como . El hecho de aceptar una hipótesis nula cuando es falsa se denomina error de tipo II, y su probabilidad se simboliza como . La probabilidad de cometer un tipo de error puede reducirse sólo si deseamos incrementar la probabilidad de cometer el otro tipo de error. Con el propósito de obtener una baja, tendremos que tolerar una alta. Los responsables de la toma de decisiones deciden el nivel de significancia adecuado, al examinar los costos o desventajas vinculadas con ambos tipos de errores.
Pruebas de hipótesis de dos extremos y de un extremo.
Una prueba de dos extremos de una hipótesis, rechazará la hipótesis nula si la media de muestra es significativamente mayor o menor que la media de la población hipotetizada. Existen dos regiones de rechazo.
Hay situaciones en las que no es apropiada una prueba de dos extremos, por lo que debemos usar una prueba de un extremo, que pueden ser de extremo izquierdo (o inferior) o extremo derecho (o superior).
La única forma de probar una hipótesis nula es conociendo el parámetro de población, y eso no es posible al tomar una muestra. Por consiguiente, aceptamos la hipótesis nula y nos comportamos como si fuera cierta, simplemente porque no podemos encontrar evidencia para rechazarla.
Medición de la potencia de una prueba de hipótesis.
Idealmente, tanto como (las probabilidades de los errores tipo I y II deben ser pequeñas. Una vez que decidimos el nivel de significancia, no hay nada que podamos hacer con respecto a .
Cuando la hipótesis nula es falsa, (la media de la población cierta) no es igual a la media hipotetizada.
Puesto que rechazar una hipótesis nula cuando es falsa es exactamente lo que debe hacer una buena prueba, un valor alto de 1 - significa que la prueba está trabajando bastante bien (está rechazando la hipótesis nula cuando es falsa. Puesto que 1 - es la medida de qué tan bien trabaja la prueba, se la conoce como la potencia de la prueba. Si representamos gráficamente los valores 1 - por cada valor de para el que la hipótesis alternativa es cierta, la curva resultante se conoce como curva de potencia.
SUGERENCIAS:
Conceptos:
INTRODUCCIÓN A LA ESTADÍSTICA NO PARAMÉTRICA.
Las pruebas de hipótesis hacen inferencias respecto a los parámetros de la población, como la media. Estas pruebas paramétricas utilizan la estadística paramétrica de muestras que provinieron de la población que se está probando. Para formular estas pruebas, hicimos suposiciones restrictivas sobre las poblaciones de las que extraíamos las muestras. Por ejemplo: suponíamos que las muestras eran grandes o que provenían de poblaciones normalmente distribuidas. Pero las poblaciones no siempre son normales.
Los estadísticos han desarrollado técnicas útiles que no hacen suposiciones restrictivas respecto a la forma de las distribuciones de las poblaciones. Éstas se conocen como pruebas sin distribución, o pruebas no paramétricas. Las hipótesis de una probabilidad no paramétrica se refieren a algo distinto del valor de un parámetro de población
Ventajas de los métodos no paramétricos.
Desventajas de los métodos no paramétricos.
Se trata de un método no paramétrico sencillo para probar si existe una diferencia significativa entre una distribución de frecuencia observada y otra frecuencia teórica. Es otra medida de la bondad de ajuste de una distribución de frecuencia teórica.
Se basa en la comparación de distribuciones acumuladas: la distribución acumulada de los datos observados y la distribución acumulada teórica correspondiente al modelo elegido.
Tiene varias ventajas: es una prueba poderosa y fácil de utilizar, puesto que no requiere que los datos se agrupen de determinada manera.
Es particularmente útil para juzgar qué tan cerca está la distribución de frecuencias observada de la distribución de frecuencias esperada, porque la distribución de probabilidad Dn depende del tamaño de muestra n, pero es independiente de la distribución de frecuencia esperada (Dn es una estadística de distribución libre).
Para calcular la estadística K-S, simplemente se elige Dn (la desviación absoluta máxima entre las frecuencias observadas y teóricas).
Una prueba K-S siempre debe ser una prueba de un extremo.
Luego se busca el valor crítico en la tabla, para las n observaciones, considerando el nivel de significancia adoptado.
Si el valor de la tabla es mayor que el valor de Dn, entonces aceptaremos la hipótesis nula.
SUGERENCIAS:
Conceptos:
Cristina Fevola
Trabajos relacionados
Ver mas trabajos de Estadistica |
|
Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo en formato DOC desde el menú superior.