Estadísticas, estimadores y estimadores
puntuales
3. Cálculo del
tamaño de la muestra
En la
estadística tiene un papel
destacado la noción de MUESTRA
ALEATORIA.
Una
muestra aleatoria de tamaño n es:
·
Una colección de n variables
aleatorias.
·
Todas con la misma distribución.
·
Todas independientes.
Esta
definición idealiza la operación de repetir n
veces la observación de la misma variable aleatoria,
siendo las repeticiones independientes una de otra.
La
colección de donde extraemos la muestra aleatoria, se
denomina POBLACIÓN. Nuestra intención al tomar
una muestra, es la de hacer INFERENCIA. Este término lo
usamos en estadística para denotar al procedimiento
con el que hacemos afirmaciones acerca de valores
generales de la población mediante los números
que observamos en la muestra.
Quizá un ejemplo aclare las ideas. Suponga que
observamos el proceso de
fabricación de las “bolitas'' que se le ponen al envase
de los desodorantes “roll on''. No todas las bolitas van a
tener el mismo diámetro, si escogemos, al azar una
bolita, tendremos un valor para
el diámetro que es una variable aleatoria. Podemos
suponer que los diámetros tienen la distribución
normal, debido a nuestra experiencia con el proceso, conocemos
que la desviación estándar de la población
es de 4 mm (aproximadamente). Pero, también por
experiencia, sabemos que el diámetro promedio puede
variar por desajuste de la maquinaria productora. De modo que
tenemos:
·
Una POBLACIÓN, que son todas las bolitas que se
producen.
·
Un PARÁMETRO de la población conocido (o
casi) que es la desviación estándar.
·
Otro PARÁMETRO cuyo valor es desconocido: la media
.
Para
tratar de conocer el valor del parámetro que
desconocemos, tomamos una MUESTRA de la bolitas. Supongamos que
son 100 bolitas en la muestra. Con un instrumento de
precisión, y con mucho cuidado, medimos los
diámetros de las 100 bolitas de la muestra y calculamos
su promedio.
¿Qué nos dice el valor de la media de la
muestra respecto a la media de la población?
·
por una lado, definitivamente la media de la muestra NO
va a ser igual a la de la población.
·
por otra parte, no tenemos mejor información
respecto a la media de la población que la que
extraigamos de la muestra. Cualquier otra información no
pasa de chisme.
·
por último, sería muy extraño que si
la población de bolitas tiene, por decir algo, un
diámetro promedio de 45 mm, nos tocaran 100 bolitas en
la muestra con un promedio de, digamos, 32 mm. Fíjese
que no decimos imposible sino raro o extraño.
·
además, si alguien nos preguntara ¿como
cuánto es el diámetro promedio de la
población de bolitas? Le contestaríamos diciendo
el valor que hayamos visto en la muestra.
·
a nuestra contestación debíamos agregarle
alguna advertencia como: "mas o menos'', o
“aproximadamente''.
A un
valor calculado con los datos de una
muestra lo llamamos ESTADÍSTICA. Cuando usamos una
estadística para jugar el papel de decir,
aproximadamente, el valor de un parámetro de la
población, le llamamos ESTIMADOR. Cuando andamos un poco
pedantes le llamamos ESTIMADOR PUNTUAL (al decir “puntual''
queremos decir que para estimar el parámetro estamos
usando un valor único).
Regresando a las bolitas del “Roll on''. Si la muestra
de 100 bolitas arroja un valor del promedio de 43.5 mm,
diríamos que ESTIMAMOS el promedio de la
población en 43.5 mm.
Constrúyase Ud. mismo un ejemplo como el de las
bolitas. En su ejemplo, describa
·
una población.
·
un parámetro para la población.
·
una muestra.
·
una estadística que le sirva como
estimador.
Características probabilísticas de un
estimador
Cuando se
tiene una fórmula para estimar y se aplica a una muestra
aleatoria, el resultado es aleatorio, es decir los estimadores
son variables aleatorias.
Por
ejemplo si se recibe un embarque de objetos que
pueden
·
estar listos para usarse ó
·
defectuosos.
Podemos
seleccionar, al azar, algunos de ellos para darnos una idea de
la proporción de defectuosos en el embarque. El
parámetro de interés es la proporción de
defectuosos en toda la población, pero lo que observamos
es la proporción de defectuosos en la muestra. El valor
de la proporción en la muestra es una variable aleatoria
cuya distribución está emparentada directamente
con la binomial (si se tratara del número de
defectuosos, sería binomial).
Como
cualquier variable aleatoria, el estimador tiene
·
distribución de probabilidad.
·
valor esperado.
·
desviación estándar / varianza.
Valor
esperado de un estimador y sesgo
El valor
esperado de un estimador nos da un valor alrededor del cual es
muy probable que se encuentre el valor del estimador. Para
poner un ejemplo, si supieramos que el valor esperado de una
estadística es 4, esto significaría que al tomar
una muestra:
·
No creemos que el valor de la estadística vaya a
ser 4.
·
Pero tampoco creemos que el valor de la
estadística vaya a estar lejos de 4.
Ya que es
muy probable que el valor del estimador esté cerca de su
valor esperado, una propiedad
muy deseable es que ese valor esperado del estimador coincida
con el del parámetro que se pretende estimar. Al menos,
quisiéramos que el valor esperado no difiera mucho del
parámetro estimado.
Por esa
razón es importante la cantidad que, técnicamente
llamamos sesgo. El sesgo es la diferencia entre el valor
esperado del estimador y el parámetro que
estima.
Si el
sesgo 0, se dice que el estimador es instigado y ésta es
una característica buena para un estimador. Un estimador
que es instigado tiene una alta probabilidad de tomar un valor
cercano al valor del parámetro.
Varianza
de un estimador
Otra
propiedad importante de un estimador es su varianza (o su
raíz cuadrada, la desviación
estándar).
La
importancia de la desviación estándar es que nos
permite darle un sentido numérico a la cercanía
del valor del estimador a su valor esperado.
Entre
menor sea la desviación estándar (o la varianza)
de un estimador, será más probable que su valor
en una muestra específica se encuentre mas cerca del
valor esperado. Para aclarar esto, considere dos estimadores T1
y T2, suponga que ambos son instigados y suponga que la
varianza de T1 es menor que la de T2 ¿Qué quiere
decir esto? Simplemente que en un entorno fijo del valor del
parámetro, los valores
de T1 son más probables que los de T2. O sea que vamos a
encontrar a T1 más cerca del valor del parámetro
que a T2. Esto hace que nuestras preferencias estén con
T1.
Cuando un
estimador tiene una varianza menor que otro decimos que el
estimador es más eficiente.
En el
pizarrón vemos algunos estimadores
instigados:
·
la proporción muestra como estimador de la
proporción poblaciones.
·
la media muestra como estimador del valor esperado
poblaciones.
·
la varianza de la muestra como estimador de la varianza
de la población.
La
distribución de probabilidad de una
estadística
Quizá el resultado mas importante para la
estadística es el Teorema del Límite Central.
Este resultado nos indica que, para la estadística
promedio de la muestra
·
el valor esperado es la media de la
población.
·
la varianza es igual a la de la población dividida
por el número de elementos de la muestra.
·
la distribución de probabilidad es la
normal.
Este
teorema es muy importante porque permite calcular
probabilidades acerca de dónde se encuentra el valor del
promedio muestra. Es sólo cuestión de usar la
tabla normal teniendo cuidado al estandarizar de usar la
desviación estándar adecuada que es la de la
población dividida por la raíz cuadrada del
número de elementos de la muestra.
En el
salón hacemos en forma detallada, ejemplos de estos
cálculos.
Estimación del error de una medida
directa
La
estimación del error de una medida tiene siempre una
componente subjetiva. En efecto, nadie mejor que un observador
experimentado para saber con buena aproximación
cuál es el grado de confianza que le merece la medida
que acaba de tomar. No existe un conjunto de reglas bien
fundadas e inalterables que permitan determinar el error de una
medida en todos los casos imaginables. Muchas veces es tan
importante consignar cómo se ha obtenido un error como
su propio valor.
Sin
embargo, la aplicación de algunos métodos
estadísticos permite objetivar en gran medida la
estimación de errores aleatorios. La estadística
permite obtener los parámetros de una población
(en este caso el conjunto de todas las medidas que es posible
tomar de una magnitud), a partir de una muestra (el
número limitado de medidas que podemos
tomar).
Mejor
valor de un conjunto de medidas
Supongamos que medimos una magnitud un número n de
veces. Debido a la existencia de errores aleatorios, las n
medidas serán en general diferentes
El
método más razonable para determinar el mejor
valor de estas medidas es tomar el valor medio. En efecto, si
los errores son debidos al azar, tan probable es que ocurran
por defecto como por exceso, y al hacer la media se
compensarán, por lo menos parcialmente. El valor medio
se define por:
Para ver el grafico seleccione la
opción ¨Bajar
trabajo¨ del menú superior
y este es
el valor que deberá darse como resultado de las
medidas.
2. Tipos de estimación
estadística
Estimación de parámetros:
Un
problema importante de la inferencia estadística es la
estimación de parámetros de la población,
brevemente parámetros (tales como la media y la
variación de la población), de los
correspondientes estadísticos muéstrales, o
simplemente estadísticos(tales como la media y la
variación de la muestra).
Estimaciones sin sesgo:
Si la media de las
dispersiones de muestreo con un
estadístico es igual que la del correspondiente
parámetro de la población, el estadístico
se llamara estimador sin sesgo, del parámetro; si no, si
no se llama estimador sesgado. Los correspondientes valores de
tal estadístico se llaman estimación sin sesgo, y
estimación con sesgo respectivamente.
Ejemplo
1: la media de las distribuciones de muestreo de
medias e, media de la población. Por lo
tanto, la media muestral es una estimación sin sesgo de
la media de la población.
Ejemplo
2. Las medias de las distribuciones de muestreo de las
variables es:
Para ver el grafico
seleccione la opción ¨Bajar trabajo¨ del
menú superior
Encontramos, de
manera que es una estimación sin sesgo de. Sin
embargo, s es una estimación sesgada de. En
términos de esperanza podríamos decir que un
estadístico es instigado porque Para ver el grafico seleccione la opción
¨Bajar trabajo¨ del menú
superior
Estimación Eficiente:
Si las
distribuciones de muestreo de dos estadísticos
tienen la misma media(o esperanza), el de menor varianza se
llama un estimador eficiente de la media, mientras que el otro
se llama un estimador ineficiente, respectivamente.
Si consideramos
todos los posibles estadísticos cuyas distribuciones de
muestreo tiene la misma media, aquel de varianza mínima
se llama aveces, el estimador de máxima eficiencia,
ósea el mejor estimador.
Ejemplo:
Las
distribuciones de muestreo de media y mediana tienen ambas la
misma media, a saber, la media de la población. Sin
embargo, la varianza de la distribución de
muestreo de medias es menor que la varianza de la
distribución de muestreo de medianas. Por tanto, la
media muestral da una estimación eficiente de la media
de la población, mientras la mediana de la muestra da
una estimación ineficiente de ella.
De todos
los estadísticos que estiman la media de la
población, la media muestral proporciona la mejor( la
más eficiente) estimación.
En la
practica, estimaciones ineficientes se usan con frecuencia a
causa de la relativa sencillez con que se obtienen algunas de
ellas.
Estimaciones de punto y
estimaciones de intervalo, su fiabilidad:
Una
estimación de un parámetro de la población
dada por un solo numero se llama una estimación de punto
del parámetro. Una estimación de un
parámetro de la población dada por dos puntos,
entre los cuales se pueden considerar encajado al
parámetro, se llama una estimación del intervalo
del parámetro.
Las
estimaciones de intervalo que indican la precisión de
una estimación y son por tanto preferibles a las
estimaciones de punto
Ejemplo:
Si
decimos que una distancia sé a medido como 5.28 metros
(m), estamos dando una estimación de punto. Por otra
parte, si decimos que la distancia es 5.28
± 0.03 m, (ósea, que esta
entre 5.25 y 5.31 m), estamos dando una estimación de
intervalo
El margen
de error o la percepción de una estimación nos
informa su fiabilidad.
Estimaciones De Intervalos De Confianza Para
Parámetros De Población:
Sean
y la media y la desviación
típica (error típico) de la distribución
de muestreo de un estadístico S. Entonces, si la
distribución de muestreo de s es aproximadamente normal
(que como hemos visto es cierto para muchos estadísticos
si el tamaño de la muestra es
N³30),
podemos esperar hallar un estadisco muestral real S
que este en los intervalos alrededor del 68.27 %, 95.45%
y 99.7 % del tiempo
restante, respectivamente.
La tabla
1. Corresponde a los niveles de confianza usados en la
practica. Para niveles de confianza que no aparecen en la
tabla, los valores Zc se pueden encontrar gracias a
las tablas de áreas bajo la curva normal.
Nivel | 99.7 |
Zc |
3.00 |
Intervalos de confianza para la media:
Si el
estadístico s de la media de la muestra, entonces los
limites de confianza respectivamente. Mas en general los
limites de confianza para estimar la media de la
población m viene dado por
usando los valores de
Si el
muestreo de la población es infinita por lo tanto viene
dado por:
Para ver el grafico
seleccione la opción ¨Bajar trabajo¨ del
menú superior
Si el
muestro es sin reposición de una población de
tamaño Np.
Ejemplo
Halar
laos limites de confianza de 98% y 90%.para los
diámetros de una bolsa
Solución:
Sea Z =Zc
tal que al área bajo la curva normal a la derecha sea 1%
. Entonces , por simetría el área del lado
izquierdo de Z=-Zc . como el área total bajo la
curva es 1, Zc= 0.49 por lo tanto, Zc=2.33. luego el
limite de confianza es 98% son X=
±2.33s¤ÖN=0.824±
2.33(0.042/
Ö200)=0.824
±0.069 cm.
Generalmente, la desviación típica de la
población no es conocida. Así pues , para obtener
los limites usamos la estimación s o S es satisfactorio
si N>=30, si a aproximación es pobre y debe de
empleare la teoría de pequeñas
muestras.
3.Cálculo
del tamaño de la muestra
A la hora
de determinar el tamaño que debe alcanzar una muestra
hay que tomar en cuenta varios factores: el tipo de muestreo,
el parámetro a estimar, el error muestral admisible, la
varianza poblacional y el nivel de confianza. Por ello antes de
presentar algunos casos sencillos de cálculo del
tamaño muestral delimitemos estos factores.
Parámetro. Son las medidas o datos que se obtienen
sobre la población.
Estadístico. Los datos o medidas que se obtienen
sobre una muestra y por lo tanto una estimación de los
parámetros.
Error
Muestral, de estimación o standard. Es la diferencia
entre un estadístico y su parámetro
correspondiente. Es una medida de la variabilidad de las
estimaciones de muestras repetidas en torno al valor
de la población, nos da una noción clara de hasta
dónde y con qué probabilidad una
estimación basada en una muestra se aleja del valor que
se hubiera obtenido por medio de un censo completo. Siempre se
comete un error, pero la naturaleza de
la investigación nos indicará hasta qué
medida podemos cometerlo (los resultados se someten a error
muestral e intervalos de confianza que varían muestra a
muestra). Varía según se calcule al principio o
al final. Un estadístico será más preciso
en cuanto y tanto su error es más pequeño.
Podríamos decir que es la desviación de la
distribución muestral de un estadístico y su
fiabilidad.
Nivel de
Confianza. Probabilidad de que la estimación efectuada
se ajuste a la realidad. Cualquier información que
queremos recoger está distribuida según una
ley de
probabilidad (Gauss o Student), así llamamos nivel de
confianza a la probabilidad de que el intervalo construido en
torno a un estadístico capte el verdadero valor del
parámetro.
Varianza
Poblacional. Cuando una población es más
homogénea la varianza es menor y el número de
entrevistas
necesarias para construir un modelo
reducido del universo, o de
la población, será más pequeño.
Generalmente es un valor desconocido y hay que estimarlo a
partir de datos de estudios previos.
Tamaño de muestra para estimar la media de la
población
Veamos los pasos
necesarios para determinar el tamaño de una muestra
empleando el muestreo aleatorio simple. Para ello es necesario
partir de dos supuestos: en primer lugar el nivel de confianza
al que queremos trabajar; en segundo lugar, cual es el error
máximo que estamos dispuestos a admitir en nuestra
estimación. Así pues los pasos a seguir
son:
Veamos
los pasos necesarios para determinar el tamaño de una
muestra empleando el muestreo aleatorio simple. Para ello es
necesario partir de dos supuestos: en primer lugar el nivel de
confianza al que queremos trabajar; en segundo lugar, cual es
el error máximo que estamos dispuestos a admitir en
nuestra estimación. Así pues los pasos a seguir
son:
1.- Obtener el tamaño muestral imaginando que
N->a
Para ver el grafico seleccione la
opción ¨Bajar trabajo¨ del menú
superior
Donde:
Para ver el grafico
seleccione la opción ¨Bajar trabajo¨ del
menú superior:
z
correspondiente al nivel de confianza elegido
Para ver el grafico seleccione
la opción ¨Bajar trabajo¨ del menú
superior
:
varianza poblacional
e: error máximo
2.-
Comprobar si se cumple
Para ver el grafico
seleccione la opción ¨Bajar trabajo¨ del
menú superior
Si esta
condición se cumple el proceso termina aquí, y
ese es el tamaño adecuado que debemos
muestrear.
Si no se
cumple, pasamos a una tercera fase:
3.- Obtener el tamaño de la muestra según
la siguie
n
te fórmula:
Para ver el grafico seleccione la
opción ¨Bajar trabajo¨ del menú
superior
Veamos un
ejemplo: La Consejería de Trabajo planea un estudio con
el interés de conocer el promedio de horas semanales
trabajadas por las mujeres del servicio
doméstico. La muestra será extraída de una
población de 10000 mujeres que figuran en los registros de la
Seguridad
Social y de las cuales se conoce a través de un estudio
piloto que su varianza es de 9.648. Trabajando con un nivel de
confianza de 0.95 y estando dispuestos a admitir un error
máximo de 0,1, ¿cuál debe ser el
tamaño muestral que Empleemos?.
Buscamos
en las tablas de la curva normal el valor de que corresponde
con el nivel de confianza elegido: = ±1.96 y
seguimos los pasos propuestos arriba.
Para ver el grafico seleccione la
opción ¨Bajar trabajo¨ del menú
superior
3.-
Para ver el grafico seleccione
la opción ¨Bajar trabajo¨ del menú
superior
Tamaño de muestra para estimar la
proporción de la población
Para
calcular el tamaño de muestra para la estimación
de proporciones poblaciones hemos de tener en cuenta los mismos
factores que en el caso de la media. La fórmula que nos
permitirá determinar el tamaño muestral es la
siguiente:
Para ver el grafico seleccione la
opción ¨Bajar trabajo¨ del menú
superior
: z correspondiente al nivel de confianza elegido
P: proporción de una categoría de la variable
e: error máximo
N: tamaño de la población
Siguiendo
con el estudio planteado en el punto anterior, supongamos que
tratamos de estimar la proporción de mujeres que
trabajan diariamente 10 horas o más. De un estudio
piloto se dedujo que P=0.30, fijamos el nivel de confianza en
0.95 y el error máximo 0.02.
Para ver el grafico seleccione la
opción ¨Bajar trabajo¨ del menú
superior
Trabajo
enviado por:
Lida
Burbano