Indice
1.
Resumen Capítulo 1 del Libro
2. Resumen Capítulo 2 del
Libro
3. Resumen Capítulo 3 del
Libro
4. Resumen Capítulo 4 del
Libro
5. Resumen Capítulo 5 del
Libro
6. Capitulo 6 del
libro
7. Capítulo 7 del
libro
8. Capítulo 8 del
libro
9. Capitulo 9 del libro
10. Capitulo 10 del
libro
11. Hipótesis nula y
alternativa
12. Capitulo 12 del
libro
13. Capítulo 13 del
libro
14. Capitulo 14 del
libro
15. Capítulo 15 del
libro
16. Aplicaciones estadísticas en
administración de la calidad y
productividad
1. Resumen Capítulo 1 del Libro
Para aclara este concepto se necesitan de las siguientes definiciones:
Podemos encontrar dos tipos de estudios estadísticos que se emprenden: los estudios enumerativos y los estudios analíticos.
Los estudios enumerativos involucran la toma de
decisiones respecto a una población y/o sus
características.
Los estudios analíticos involucran realizar alguna
actividad sobre un proceso para
mejorar el desempeño en el futuro. La atención de un estudio analítico
está puesta sobre la predicción del comportamiento
futuro de un proceso y sobre la comprensión y
perfeccionamiento de ese proceso. En un estudio analítico
no existe un universo
identificable, como sucede en un estudio enumerativo y en
consecuencia tampoco hay un marco.
2. Resumen Capítulo 2 del Libro
Recolección de Datos
La necesidad de datos: los datos se necesitan para:
¿Que es un dato?
Los datos pueden concebirse como información numérica necesaria para
ayudarnos a tomar una decisión con más bases en una
situación particular.
¿Cómo obtenemos los datos?
Existen muchos métodos mediante los cuales podemos obtener
los datos necesarios. Primero, podemos buscar datos ya publicados
por fuentes
gubernamentales, industriales o individuales. Segundo, podemos
diseñar un experimento. En tercer lugar, podemos conducir
un estudio. Cuarto, podemos hacer observaciones del
comportamiento, actitudes u
opiniones de los individuos en los que estamos
interesados.
Utilización de fuentes de datos publicadas
Sin importar la fuente utilizada, se hace una distinción entre el recolector original de los datos y la organización o individuos que compilan éstos en tablas y diagramas. El recolector de datos es la fuente primaria; el compilador de los datos es la fuente secundaria.
Diseño de un experimento
En un experimento se ejerce control sobre el
tratamiento de los dado a los participantes.
Conducción de una encuesta
Aquí no se ejerce ningún control sobre el
comportamiento de la gente encuestada. Simplemente se formulan
preguntas respecto a sus opiniones, actitudes, comportamiento y
otras características.
Realización de un estudio observacional
El investigador observa el comportamiento de interés
directamente, por lo común en su entorno natural.
La importancia de obtener buenos datos: GIGO
GIGO: Entra Basura, sale
basura. No importa el método
utilizado para obtener los datos, si un estudio ha de ser
útil, si el desempeño debe controlarse
apropiadamente o si el proceso de la toma de decisiones debe
ampliarse, los datos recabados deben ser válidos: es
decir, las respuestas correctas deben valorarse de manera que se
obtengan mediciones significativas.
Obtención de datos mediante investigación
de encuesta
Tipos de
datos
Existen básicamente dos tipos de variables
aleatorias que producen dos tipos de datos: categóricas y
numéricas. Las variables aleatorias categóricas
producen respuestas categóricas, mientras que las
variables numéricas producen respuestas numéricas.
Las variables numéricas pueden considerarse como discretas
o continuas. Los datos discretos son respuestas numéricas
que surgen de un proceso de conteo, mientras que los datos
continuos son respuestas numéricas que surgen de un
proceso de medición.
La necesidad de definiciones operacionales. Una definición
operacional proporciona un significado a un concepto o variable
que puede comunicarse a otros individuos. Es algo que tiene el
mismo significado ayer, hoy y mañana para todos los
individuos.
Diseño del cuestionario
El objetivo de un
cuestionario
es permitirnos recabar información significativa que nos
ayude en el proceso de toma de decisiones.
Los amplios temas de los cuestionarios deben enumerarse. Mientras más largo sea el cuestionario, menor será el cociente de respuesta. Por tanto, se deben evaluar cuidadosamente las preguntas. Las preguntas deben ser lo más cortos posibles.
Existen tres modos mediante los cuales se realiza el trabajo de encuesta: la entrevista persona, telefónica y por medio del correo. La personal es la que tiene una tasa de respuesta mayor, pero es más costosa.
Cada pregunta debe presentarse claramente en el menor número de palabras y cada pregunta debe considerarse esencial para la encuesta. Además, deben ser libres de ambigüedades.
Una vez analizadas los pros y contras de cada pregunta se debe realizar una prueba piloto de manera que puedan examinarse en cuanto a claridad y longitud.
Elección del tamaño de muestra para la
encuesta
Existen tres razones para extraer una muestra. Antes que todo,
por lo general lleva demasiado tiempo realizar
un censo completo. En segundo lugar, es demasiado costoso hacer
un censo completo. Tercero, es demasiado molesto e ineficiente
obtener un conteo completo de la población
objeto
Selección de los sujetos respondientes: tipos de
muestras
Existen básicamente dos tipos de muestras: las muestra no
probabilística y la muestra de probabilidad.
Una muestra de probabilidad es aquella en la que los sujetos de
la muestra se eligen sobre la base de probabilidades
conocidas.
En una muestra aleatoria simple cada individuo o elemento tiene
la misma oportunidad de selección
que cualquier otro, y la selección de un individuo o
elemento particular no afecta la probabilidad de que se elija
cualquier otro.
Extracción de la muestra aleatoria simple
La clave de la selección de muestras apropiada es obtener
y mantener una lista actualizada de todos los individuos o
elementos de los cuales se extraerá la muestra. Tal lista
se conoce como el marco de la población. Este listado de
población servirá como la población
objetivo, de tal manera que si se extrajeran muchas muestrasde
probabilidades diferentes de tal lista, en el mejor de los casos
cada muestra sería una representación de la
población.
- Muestreo con o
sin reemplazo de poblaciones finitas
Para seleccionar la muestra pueden usarse dos métodos
básicos: con reemplazo o sin reemplazo. Digamos que N
representa la población y n la muestra. Al extraer con
reemplazo la probabilidad de cualquier miembro de la
población de ser seleccionado en la primera
extracción es 1/N. La probabilidad de ser seleccionado en
otra extracción sigue siendo 1/N debido a que una vez
registrado el dato, el individuo seguirá formando parte de
la población.
Sin embargo, al muestrear poblaciones humanas generalmente se
considera más apropiado tener una muestra de persona
diferentes que permitir mediciones repetidas de la misma persona.
La probabilidad en este caso es 1/N en la primera
extracción. La probabilidad de que cualquier individuo no
seleccionado previamente sea seleccionado en la segunda
extracción es 1/N-1.
La encuesta de la muestra
El primer pasa para evaluar una encuesta es determinar si se
basó en una muestra de probabilidad o en una no
probabilístico.
Aun cuando las encuestas
emplean métodos de muestreo de probabilidad aleatorios,
están sujetas a errores potenciales. Existen cuatro tipo
de errores de encuesta:
1 - Error de cobertura o sesgo de selección. Este error
resulta de la exclusión de ciertos sujetos del listado de
población, de tal manera que no tienen oportunidad de ser
seleccionados en la muestra. El error de cobertura provoca el
sesgo de selección.
2- Error de no-respuesta o sesgo de no-respuesta. El error de
no-respuesta resulta del fracaso de recolectar datos sobre todos
los sujetos de la muestra. Y el error de no-respuesta da como
resultado el sesgo de no-respuesta.
3- Error de Muestreo. Este error refleja la heterogeneidad o las
diferencias de oportunidad de muestra a muestra basándose
en la probabilidad de los sujetos que están siendo
seleccionados en las muestras particulares. El error de muestreo
puede reducirse tomando tamaños de muestra mayores, aunque
esto incrementará el costo de
aplicación de la encuesta.
4- Error de Medición. Este error se refiere a
inexactitudes en las respuestas registradas que ocurren debido a
una mala formulación de las preguntas, el efecto de un
entrevistados sobre el encuestado o el esfuerzo hecho por el
encuestado.
Organización y Resumen de Datos
Organizacion, Resumen Y Presentacion De Datos Estadisticos
Conceptos que deben reforzarse
POBLACION: es el conjunto formado por todas las unidades
elementales que proporcionarán las mediciones de
interés. Pueden ser personas, cosas, objetos
abstractos.
CENSO: Cuando se estudia la totalidad de las unidades elementales
que componen la población.
Desventaja: errores de observación. Ej.: omisiones, duplicaciones,
no-ubicación (no medibles) del encuestado, volumen de
información
MUESTRA: se estudia una parte representativa de la
población
Desventaja: errores de observación (no medibles) errores
de estimación (medible, cuantificable)
LOS DATOS ESTADISTICOS SON VARIABLES, SU RESULTADO VARIA DE UNA
MEDICION A OTRA.
Debido a ello a los datos estadísticos los denominamos
VARIABLES.
Según se vio, las Variables se clasifican en:
Categóricas Ordinales o Nominales Y Numéricas
Discretas o Contínuas.
Caso Sr. Juárez
Para Cada hipótesis se debe tomar una variable a analizar.
N= Tamaño de la población.
n= Tamaño de la muestra.
Yi = Variable a analizar
El tamaño de muestra es independiente del tamaño de la población.
fi: frecuencia absoluta.
Fi: frecuencia absoluta acumulada.
hi: frecuencia relativa ( cociente entre frecuencia absoluta y la
muestra/población ).
Hi: frecuencia relativa acumulada.
El 21,7 % de los clientes del local A pagan el día 20. En
el local minorista hay pocos que pagan los primeros días y
pocos los que pagan el último día.
Para comparar se trabaja con frecuencias relativas
(cuando los tamaños de muestra son distintos).
23/03/01
Práctico
Ejercicio 2.35 - Página 49
n = 1425
Objetivo: " Medir el grado de satisfacción de los clientes
que compraron una videograbadora en los últimos 12
meses.
- Excelente.
- Muy Bueno.
- Bueno.
- Malo.
- Si.
- No.
Preguntas Cuantitativas.
Ejercicio 3.8 - Pagina 61
b) Diagrama de Tallo y Hoja SPSS lo hace en forma automática.
Yi= Segundos que tarda un automóvil de llegar de 0 a 60 Mph.
Autos Alemanes
Tallo |
Hoja |
||||||
4 |
9 |
||||||
5 |
5 |
4 |
1 |
||||
6 |
4 |
9 |
4 |
7 |
0 |
9 |
|
7 |
9 |
1 |
5 |
||||
8 |
6 |
7 |
3 |
5 |
5 |
8 |
9 |
9 |
|||||||
10 |
0 |
9 |
27/03/01
Construcción de Gráficos
Ejercicio 3.70 - Pagina 95
Yi |
fi |
hi |
Fi |
Hi |
1,00 |
1 |
0,03 |
1 |
0,03 |
1,50 |
2 |
0,07 |
3 |
0,10 |
2,00 |
3 |
0,10 |
6 |
0,20 |
2,50 |
2 |
0,07 |
8 |
0,27 |
3,00 |
6 |
0,20 |
14 |
0,47 |
3,50 |
5 |
0,17 |
19 |
0,63 |
4,00 |
2 |
0,07 |
21 |
0,70 |
4,50 |
2 |
0,07 |
23 |
0,77 |
5,00 |
3 |
0,10 |
26 |
0,87 |
5,50 |
1 |
0,03 |
27 |
0,90 |
6,00 |
1 |
0,03 |
28 |
0,93 |
6,50 |
1 |
0,03 |
29 |
0,97 |
7,00 |
1 |
0,03 |
30 |
1,00 |
30 |
1,00 |
Yi = $ de cada manómetro.
fi = cantidad de veces que se repite la variable.
En este caso se supone que la variable es discreta.
Construcción de Intervalos
Intervalos sirve en especial para variables
continuas
Ry = Y max - Y min = Recorrido = Amplitud = Rango
Ry = 7.5 - 1 = 6.5
Cantidad de intervalos 4
C= Amplitud del intervalo = Ry / Cantidad de intervalos = 6.5/4 =
1.625
C = Valor entero =
2
Ry* = c x cantidad de intervalos = 2 x 4 = 8
Yi-1 - Yi |
Yi |
fi |
hi |
1 - 3 |
2 |
8 |
0.27 |
3 - 5 |
4 |
15 |
0.50 |
5 - 7 |
6 |
6 |
0.20 |
7 -9 |
8 |
1 |
0.03 |
30 |
1 |
Construcción del intervalo del Caso
Juárez.
R = 38 - 14 = 24
Cantidad de Intervalos = 7
Amplitud = Ry / c = 3.43 = 4
3. Resumen Capítulo 3 del Libro
Presentación de datos numéricos en tablas
y diagramas
Una distribución de frecuencia es una tabla de
resumen en la que los datos se disponen en agrupamientos o
categorías convenientemente establecidas de clases
ordenadas numéricamente.
En esta forma las características más importantes
de los datos se aproximan muy fácilmente, compensando
así el hecho de que cuando los datos se agrupan de ese
modo, la información inicial referente a las observaciones
individuales de que antes se disponía se pierde a
través del proceso de agrupamiento o
condensación.
Al construir la tabla de frecuencia-distribución, debe ponerse atención a:
Selección del Número de Clases
La distribución de frecuencia debe tener al menos cinco
agrupamiento de clase, pero no más de 15. Si no hay
suficientes agrupamientos de clase o si hay demasiados, se
obtendrá poca información.
Obtención de los intervalos de clase
Ancho del intervalo Rango
número de agrupamientos de clase deseado
La principal ventaja de usar una de estas tablas de
resumen es que las principales características de los
datos se hacen evidentes inmediatamente para el lector.
La principal desventaja de tal tabla de resumen es que no podemos
saber como se distribuyen los valores
individuales dentro de un intervalo de clase particular sin tener
acceso a los datos originales. El punto medio de la clase, sin
embargo, es el valor usado para representar todos los datos
resumidos en un intervalo particular.
El punto medio de una clase (o marca de clase) es el punto a la
mitad de los límites de cada clase y es representativo de
los datos de esa clase.
Tabulación de datos numéricos: la
distribución de frecuencia relativa y distribución
de porcentaje
La distribución relativa de frecuencia se forma dividiendo
las frecuencias de cada clase de distribución de
frecuencia entre el número total de observaciones.
Entonces puede formarse una distribución de porcentaje
multiplicando cada frecuencia relativa o proporción entre
100.
La distribución de frecuencia relativa o la
distribución de porcentaje se vuelve esencial siempre que
una serie de datos se compara con otra seria de datos,
especialmente si difiere el número de observaciones en
cada serie de datos.
Graficación de datos numéricos: el
histograma y el polígono
Histogramas
Los histogramas son diagramas de barras verticales en los que se
construyen barras rectangulares en los límites de cada
clase. La variable aleatoria o fenómeno de interés
se despliega a lo largo del eje horizontal; el eje vertical
representa el número, proporción o porcentaje de
observaciones por intervalo de clase, dependiendo de si el
histograma particular, es un histograma de frecuencia, un
histograma de frecuencia relativa o histograma de
porcentaje
Al comparar dos o más series de datos, ni los diagramas de tallo y hoja ni los histogramas pueden construirse en la misma gráfica. Con respecto a estos últimos, la sobreposición de barras verticales de uno en el otro ocasionaría dificultades de interpretación; en estos casos se usan los polígonos.
Polígonos
El polígono de porcentaje se forma permitiendo que el
punto medio de cada clase represente los datos de esa clase y
luego conectando la sucesión de puntos medios con sus
respectivos porcentajes de clase.
Distribuciones acumulativas y polígonos
acumulativos
Una tabla de distribución de porcentaje acumulativo se
construye registrando primero los límites inferiores de
cada clase a partir de la distribución de porcentaje y
luego insertando un límite extra al final.
Polígono de porcentaje acumulativo
Para construir un polígono de porcentaje acumulativo
(también llamado ojiva), el fenómeno se grafica en
el eje horizontal, mientras que los porcentajes acumulativos se
grafican en el eje vertical.
4. Resumen Capítulo 4 del Libro
Resumen y descripción de los datos
numéricos
Propiedades de los datos numéricos.
Las tres mejores propiedades que describe una serie
numérica de datos son:
Si estas mediciones se calculan a partir de una muestra, se denominan estadísticas, si se calculan a partir de los datos de una población se denominan parámetros.
Mediciones de tendencia Central
La media actúa como punto de equilibrio de tal forma que las observaciones menores compensan a las observaciones que son mayores.
La media aritmética se ve afectada en gran medida por valores extremos.
El cálculo del valor de la media se ve afectado por el número de observaciones, no por la magnitud de cualquier extremo.
Mediciones de la Variación
La variación es la cantidad de dispersión o
propagación en los datos.
El coeficiente de variación es útil al comparar la variabilidad de dos o más series de datos que se expresan en distintas unidades de medición.
Forma
Para describir la forma sólo necesitamos comparar la media
y la mediana. Si estas dos mediciones son iguales, por lo general
podemos considerar que los datos son simétricos. Si la
media excede a la mediana, los datos pueden describirse de sesgo
positivo o sesgadas a la derecha. Si la media es excedida por la
mediana, estos datos pueden llamarse de sesgo negativo o sesgadas
a la izquierda. El sesgo positivo surge cuando la media se
incrementa en algunos valores inusualmente altos, el sesgo
negativo ocurre cuando la media se reduce en algunos valores
extremadamente bajos.
Cálculo de mediciones descriptivas de resumen de
una población
Las mediciones de tendencia central para una población se
calculan igual que en la muestra simplemente reemplazamos n por
N.
El rango y el rango intercuartil para una población de
tamaño N se obtienen como si fuera una muestra
reemplazando n por N. La varianza se calcula reemplazando el ( n
- 1 ) del denominador por N.
Uso de la Desviación Estándar: La regla
Empírica
En series de datos simétricos, donde la mediana y la media
son iguales, las observaciones tienden a distribuirse igualmente
alrededor de estas mediciones de tendencia central. Cuando el
sesgado extremo no se presenta y tal agrupamiento se observa en
una serie de datos, podemos usar la denominada regla
empírica para examinar la propiedad de
variabilidad de datos y obtener una mejor idea de lo que la
desviación estándar está
midiendo.
La regla empírica establece que en la mayoría de las series de datos encontraremos que aproximadamente dos de cada tres observaciones (es decir, el 67%), están contenidas en una distancia de una desviación estándar alrededor de la media y aproximadamente 90% a 95% de las observaciones están contenidas a una distancia de 2 desviaciones estándar alrededor de la media.
Uso de la desviación estándar: La regla de Bienaymé Chebyshev
No importa como se distribuyen los datos. el porcentaje de las distribuciones están contenidas dentro de las dsitancias de k desviaciones estándar alrededor de la media debe ser al menos
1 - 1 / k2
Al menos 75% de las observaciones deben estar contenidas dentro de distancias de +/-2 desviaciones estándar alrededor de la media. Al menos 88,89% de las observaciones deben estar contenidas dentro de una distancia de +/-3 desviaciones estándar alrededor de la media. Al menos 93.75% de las observaciones deben estar contenidas dentro de distancias de +/-4 desviaciones estándar alrededor de la media.
5. Resumen Capítulo 5 del Libro
Presentación de datos categóricos en tablas y diagramas
Graficación de datos categóricos: de barras, de pastel y de punto
En la gráfica de barras, cada categoría se describe mediante una barra, cuya longitud representa la frecuencia o porcentaje de observaciones que caen en una categoría. Para construir una gráfica de barras se hacen las siguientes sugerencias:
Graficación de datos categóricos: el
Diagrama de Pareto.
El diagrama de Pareto es un tipo especial de gráfica de
barras verticales en la que las respuestas categórizadas
se grafican en el orden de rango descendiente de sus frecuencias
y se combinan con un polígono acumulativo en la misma
escala. El
principio básico detrás de este dispositivo
gráfico es su capacidad de distinguir los "pocos vitales"
de los "muchos triviales".
Tabulación de datos categóricos: Tabla de
contingencias y supertablas.
Las tablas de contingencia se usan para examinar las respuestas a
dos variables categóricas simultáneamente.
Supertablas. Una supertabla es esencialmente una colección
de tablas de contingencia, cada una con las mismas variables y
categorías de columna. Sin embargo, se incluyen tantas
variables de fila como se deseen para comparaciones frente a la
variable de columna.
Tipos de Gráficos
Medidas Estadísticas.
Medidas Estadísticas descriptivas.
Probabilidad Básica
La probabilidad es la posibilidad u oportunidad de que suceda un
evento particular. La probabilidad involucrada es una
porción o fracción cuyo valor varía entre
cero y uno exclusivamente. Observamos un evento que no tiene
posibilidad de ocurrir (es decir, el evento nulo), tiene una
probabilidad de cero, mientras que un evento que seguramente
ocurrirá (es decir, el evento cierto), tiene una
probabilidad de uno. Ejemplo:
Cada uno de los ejemplos anteriores se refiere a uno de
los tres planteamientos del tema de la probabilidad. El primero a
menudo se denominacom el planteamiento de la probabilidad
clásica a priori. Aquí la probabilidad de
éxito se basa en el
conocimiento nterior del proceso involucrado. En el caso
más simple, cuando cada resultado es igualmente posible.
Esta posibilidad puede definirse de la siguiente manera:
En el segundo ejemplo; llamado probabilidad clásica
empírica, aunque la probabilidad se sigue definiendo como
la proporción entre el número de resultados
favorables y el número total de resultados, estos
resultados se basan en datos observados, no en el conocimiento
anterior a un proceso.
El tercer planteamiento de probabilidad se denomina el enfoque de probabilidad subjetiva. Mientras que en los dos anteriores enfoques la probabilidad de un evento favorable se calculaba objetivamente, ya fuera de un conocimiento previo o de datos reales, la probabilidad subjetiva se refiere a la posibilidad de ocurrencia asignada a un evento por un individuo particular. La probabilidad subjetiva es especialmetne útil para la toma de decisiones en aquellas situaciones en que la probabilidad de diversos eventos no puede determinarse empíricamente.
Conceptos de probabilidad básica
Espacios de muestra y eventos
Los elementos básicos de la teoría
de probabilidades son los resultados del proceso o
fenómeno bajo estudio. Cada tipo posible de ocurrencia se
denomina un evento.
Un evento simple puede puede describirse mediante una
característica sencilla. la compilación de todos
los eventos posibles se llama el espacio muestral.
La manera en que se subdivide el espacioi muestral depende de los
tipos de probabilidades que se han de determinar. Tomando esto en
cuenta, resulta de interés definir tanto el complemento de
un evento como un evento conjunto de la siguiente manera:
La complemento del evento A incluye todos los elementos que no
son parte del evento A. Esta dado por el símbolo
A´.
Un evento conjunto es un evento que tiene dos o más
características.
Tablas de Contingencias y diagramas de Venn
Existen varias formas en las que puede verse un espacio muestral particular. El primer método implica asignar los eventos apropiados a una tabla de clasificaciones cruzadas. Tal tabla también se denomina tabla de contingencia.
Roja |
Negro |
Totales |
|
As |
2 |
2 |
4 |
No As |
24 |
24 |
48 |
Totales |
26 |
26 |
52 |
La segunda forma de presentar el espacio muestral es usando un diagrama de Venn. Este diagrama se representa gráficamente los diversos eventos como "uniones" e "intersecciones" de círculos.
El área contenida dentro del círculo A y de círculo B (área central) es la intersección de de Ay B (y se escribe A Ç B) , puesto que esta área es parte de A y tambien parte de B. El área total de los dos círculos es la unión de A y B (y se escribe A È B ) y contiene todos los resultados que son parte del evento A, parte del evento B o parte de ambos A y B. El área fuera del diagrama fuera de A È B contiene aquelloos resultados que no sonparte de A ni son parte de B.
Probabilidad ( marginal ) simple
La regla mas evidente para las probabilidades es que deben variar en valor de 0 a 1. Un evento imposible tiene una probabilidad cero de ocurrir, y un evento cierto tiene una probabilidad uno de ocurrir. La probabilidad simple se refiere a la probabilidad de ocurrencia de un evento simple.
Ejemplo:
La probabilidad simple se denomina probabilidad marginal puesto que el número total de éxitos puede obtenerse del márgen apropiado de la table de contingencias.
Probabilidad Conjunta
La probabilidad conjunta se refiere a fenómenos que contienen dos o mas eventos, como la probabilidad de un as negro, una reina roja o un empleado que este satisfecho con el trabajo y haya progresado dentro de la organización.
P (A)= P ( A y B1 ) + P ( A y B2 ) + .....+ P ( A y Bk )
donde B1, B2, ... Bk son eventos mutuamente excluyentes y colectivamente exhaustivos.
Dos eventos son mutuamente excluyentes si ambos eventos no pueden ocurrir al mismo tiempo.
Dos eventos son colectivamente exhaustivos si uno de los eventos debe ocurrir.
Por ejemplo, ser hombre y ser mujer son eventos mutuamente excluyentes y colectivamente exhaustivos. Nadie es ambos ( son mutuamente excluyentes ) y todos son uno u otro ( son colectivamente exhaustivos ).
Regla de la adición
La regla de la adición se usa para encontrar la probabilidad del evento A o B. Esta regla para obtener la probabilidad de la unión de A y B considera la ocurrencia del evento A o del evento B o de ambos, A y B.
El cálculo de P ( A È B ), la probabilidad del evento A o B, puede expresarse en la siguiente regla de la adición general:
P ( A È B ) = P ( A o B ) = P ( A ) + P ( B ) – P ( A y B )
Eventos mutuamente excluyentes
En ciertas circunstancias, sin embargo, la probabilidad conjunta no necesita restarse porque es igual a cero. Tales circunstancias cuando no existen resultados para un evento particular. Por ejemplo, suponga que deseamos saber la probabilidad de escoger un corazon o una espada si estuviéramos seleccionando sólo una carta de una baraja estándar de 52 cartas de juego. Usando la regla de la adición, tenemos lo siguiente:
P ( corazón o espada ) = P ( corazón ) + P ( espada ) – P ( corazón y espada )
P = 13/52 + 13/52 – 0/52 = 26/52
La intersección en este caso no existe ( llamado el conjunto nulo ) porque no contiene resultados, puesto que una carta no puede ser corazón y espada simultáneamente.
Siempre que la probabilidad conjunta no contenga ningún resultado, los eventos involucrados se consideran mutuamente excluyentes. Asi la regla general para eventos mutuamente excluyentes se reduce a:
P ( A o B ) = P ( A ) + P ( B )
Eventos colectivamente exhaustivos
Consideremos la probabilidad de seleccionar una carta negra o rojo. Puesto que son mutuamente excluyentes al usar la ecuación: 26/52 + 26/52 = 1
La probabilidad de rojo o negro suma uno. Dado que uno de los eventos debe ocurrir se consideran mutuamente excluyentes.
Probabilidad Condicional.
Cuando estamos calculando la probabilidad de un evento particular A, dada información sobre la ocurrencia de otro evento B, esta probabilidad se denomina probabilidad condicional, P ( A \ B ). La probabilidad condicional P ( A \ B ) puede definirse de la siguiente manera:
P ( A \ B ) = P ( A y B )
P ( B )
P ( A \ B ) = P ( A )
Regla de multiplicación
La fórmula para la probabilidad condicional puede manipularse algebraicamente de forma tal que la probabilidad conjunta P ( A y B ) puede determinarse a partir de la probabilidad condicional de un evento.
La regla de multiplicación para eventos independientes puede expresarse de la siguiente manera sustituyendo P ( A ) por P ( A \ B ):
P ( A y B ) = P ( A ) * P ( B )
Si esta regla se cumple para dos eventos, A y B entonces A y B son estadísticamente independientes. Por tanto, hay dos formas de determinar la independencia estadística:.
Teorema de Bayes
La probabilidad condicional toma en cuenta información
respecto a la ocurrencia de un evento para encontrar la
probabilidad de otro evento. Este concepto puede ampliarse para
revisar probabilidaddes basadas en nueva información y,
así determinar la probabilidad que un efecto particular se
deba a una causa específica. El procedimiento
para revisar estas probabilidades se conoce como teorema de
Bayes.
El teorema de Bayes puede definirse a partir de las definiciones de probabilidad condicional y probabilidad marginal, asi el teorema de Bayes es:
P ( Bi \ A ) = P ( A \ Bi ) P ( Bi )
P ( A \ B1 ) P ( B1 ) + P ( A \ B2 ) P ( B2 )
Algunas distribuciones importantes de probabilidad discreta
Una distribución de probabilidad para una variable aleatoria discreta es un listado mutuamente excluyente de todos los resultadosposibles para esa variable aleatoria, tal que una probabilidad particular de ocurrencia esté asociada con cada resultado.
Esperanza Matemática
La media de una distribución de probabilidad es el valor
esperado de su variable aleatoria.
El valor esperado de una variable aleatoria discreta puede
considerarse como su promedio pesadoo sobre todos los resultados
posibles, siendo los pesos la probabilidad asociada con cada uno
de los resultados.
Esta medición de resumen puede puede obtenerse
multiplicando cada resultado posible Xi, por su probabilidad
correspondiente P (Xi) y luego sumando los productos resultantes.
Por tanto, el valor esperado de la variable aleatoria discreta X,
simbolizado como E (X), puede expresarse de la siguiente
manera:
E(X)= ∑ Xi * P ( Xi)
Varianza y desviación estándar de una
variable aleatoria discreta
La varianza de una variable aleatoria discreta puede definirse
como el promedio pesado de las diferencias cuadradas entre cada
resultado posible y su media, siendo los pesos las probabilidades
de cada uno de los resultados respectivos.
Esta medición de resumen puede obtenerse multiplicando cada diferencia cuadrada posible ( Xi – μ )2 por su probabilidad correspondiente P (Xi) y luego sumando los productos restantes. Por lo tanto la varianza de la variable aleatoria discreta X puede expresarse de la siguiente manera:
( Xi – μ )2 * P (Xi)
Funciones de distribución de probabilidad
discreta
La distribución de probabilidad para una variable
aleatoria discreta puede ser:
Un modelo se considera una representación en miniatura de algún fenómeno subyacente. En particular, un modelo matemático es una expresión matemática que representa cierto fenómeno subyacente. Para variables aleatorias discretas, esta expresión matemática se conoce como función de distribución de probabilidad.
La característica escencial de la distribución uniforme es que es igualmente posible que ocurran todos los resultados de la variable aleatoria.
Distribución Binomial
La distribución binomial es una distribución de probabilidad discreta que es extremadamente útil para describir muchos fenómenos.
La distribución binomial posee cuatro propiedades esenciales:
Modelo matemático
P( X= x \ n, p ) = n ! px ( 1 – p ) n-x
X ! ( n – x ) !
La primera parte de la fórmula nos dice cuántas secuencias de arreglos de los x éxitos de n observaciones son posibles. La segunda parte nos dice la probabilidad de obtener exactamente x éxitos de n observaciones en una secuencia particular.
Características de la distribución binomial
Distribución de Poisson.
La distribución de Poisson es otra función de distribución de probabilidad que tiene muchas aplicaciones prácticas importantres. Un proceso Poisson no sólo representa numerosos fenómenos discretos, sino que el modelo Poisson también se usa para proporcionar aproximaciones a la distribución binomial.
Se dice que un proceso de Poisson existe si podemos observar eventos discretos en un área de oportunidad, un intervalo continuo, de tal manera que si acotamos el área de oportunidad o intervalo de manera suficiente:
Características
Uso de la distribución de Poisson para aproximar la distribución binomial
Para aquellas situaciones en las que n es grande ( mayor o igual a 20 ) y p es muy pequeña ( menor a 0.05 , la distribución de Poisson puede usarse para aproximar la distribución binomial.
La variable aleatoria de Poisson puede variar teóricamente de 0 a ∞ . Sin emabrgo, cuando se usa como una aproximación a la distribución binomial, la variable aleatoria de Poisson, el número de éxitos de n observaciones, claramente no puede exceder el tamaño de la muestra n.
Características
μ=λ = n * p
La distribución Normal
La probabilidad exacta de un valor particular de una distribución continua es cero. A fin de eliminar la necesidad de realizar laboriosos cálculos matemáticos se ha desarrolladola distribución gaussiana o normal.
La distribución normal es de vital importancia en estadística por tres razones principales:
Para la distribuciónnormal, el modelo usado para obtener las probabilidades deseadas es:
Examinemos los componentes de la función: puesto que e y ∏ son constantes matemáticas, las probabilidades de la variable aleatoria X dependen sólo de dos parámetros de la distribución normal, la media de la población y de la desviación estándar de la población. Cada vez que especificamos una combinación particular se generará una distribución de probabilidad diferente.
Afortunadamente, al estandarizar los datos, solo necesitamos una fórmula:
Al usar
la fórmula de transformación cualquier variable
aleatoria normal X se convierte en una variable aleatoria normal
estandarizada Z. Mientras los datos originales para la variable
aleatoria X tenían una media y una desviación
estandar, la variable aleatoria estandarizada Z siempre
tendrá una media = 0 y una desviación =
1.
La tabla de normal representa las probabilidades o áreas bajo la curva normal calculadas desde la media hasta los valores particulares de interés X. Sólo se enumeran en la tabla entradas positivas de Z, puesto que para una distribución simétrica de este tipo con una media de cero, el área que va desde la media hasta +Z debe ser idéntica al área que va desde la media hasta –Z. Al usar la tabla de normal se puede observar que todos los valores de Z deben registrarse primero con hasta dos lugares decimales.
Para encontrar un valor particular asociado con una probabilidad conocida,debemos adoptar los siguientes pasos:
Aproximación de la distribución
binomial
Mientras más cerca esté p de 0,50 y mientras
más grande sea el número de observaciones de la
muestra n, más simétrica se vuelve la
distribución. Siempre que el tamño de muestra sea
grande, puede usarse la distribución normal para aproximar
las probabilidades exactas de éxito que de otra manera se
tendrían que haber obtenido mediante laboriosos
cálculos.
Como regla general, esta aproximación normal puede usars
siempre que n * p y n * ( 1- p ) sean al menos 5. Entonces la
nueva Z sera la que se presenta a continuación:
Aproximación de la distribución de
Poisson
La distribución normal también puede usarse para
aproximar el modelo de poisson siempre que el parámetro
Lambda sea igual o mayor que cinco. Entonces la formula de Z
será la siguiente:
Distribuciones de muestreo
Con el fin de poder usar la
estadística de muestra para estimar el parámetro de
población, deberíamos examinar cada muestra posible
que pudiera ocurrir. Si esta selección de todas las
muestras posibles realmente se tuviera que hacer, la
distribución de todos los resultados se denominaría
distribución de muestreo. El proceso de generalizar estos
resultados de muestra para la población se refiere como
una inferencia estadística.
Distribución de muestreo de la media
Entre varias propiedades matemáticas importantes de la media aritmética para una distribución normal están:
La imparcialidad, implica el hecho de que el promedio de
todas las medias de muestras posibles será igual a la
media de la población. Tomemos como ejemplo una
población de N=4 con tamaños de muestra de 2. Si
seleccionamos dos muestras con reemplazo, podríamos
obtener 16 muestras posibles. El promedio de cada una de las
muestras es igual a la media de la población. Por lo tanto
hemos demostrado que la media aritmética de muestra es un
estimador imparcial de la media de la población. Esto nos
dice que aún cuando no sepamos qué tan cerca
esté el promedio de cualquier muestra particular
seleccionada a la media de la población, al menos estamos
seguros que el
promedio de todas las medias de muestra que se podrían
haber seleccionado será igual a la media de la
población.
La eficiencia, se
refiere a la precisión de la muestra estadística
como un estimador del parámetro de población. La
media de muestra se acercará más estable que otras
mediciones de tendencia central. La media de muestra se
acercará más a la media de la población que
cualquier otro estimador.
La consistencia, se refiere al efecto del tamaño de
muestra, sobre la utilidad de un
estimador. Al incrementarse el tamaño de muestra, la
variación de la media de muestra de la media de la
población se hace más pequeña, de manera que
la media aritmética de muestra se vuelve una mejor
estimación de la media de la población.
Error estándar de la media
El hecho de que las medias de muestra son menos variables que los
datos de población se desprende directamente de la
ley de los
grandes números. Una media de muestra particular promedia
conjuntamente todos los valores de la muestra. Una
población puede consistir en resultados individuales que
pueden tener un amplio radio de valores,
de extremadamente pequeños a extremadamente grandes. Sin
embargo, si un valor extremo cae en la muestra, aunque
tendrá un efecto en la media, el efecto se reducirá
pues se promediará con todos los demás valores de
la muestra. Además, al incrementarse el tamaño de
la muestra, el efecto de un valor extremo se hace cada vez menor,
puesto que se está promediando con más
observaciones. Al muestrearse con reemplazo, el error
estándar de la media es igual a la desviación
estándar de la población dividida entre la
raíz cuadrada del tamaño de muestra.
Muestreo de poblaciones normales
Puede demostrarse que si muestreamos con reemplazo de una
población con distribución normal, la
distribución de muestreo de la media también
tendrá una distribución normal para cualquier
tamaño de muestra y tendrá una desviación
estándar como la que se mostró más arriba.
Al incrementarse el tamaño de muestra el error
estándar de la media disminuye, de forma tal que una mayor
proporción de medias de muestra están más
cercanas a la media de la población.
Muestro de poblaciones no normales
En muchos casos no sabremos si la población se distribuye normalmente. Por lo tanto, necesitamos examinar la distribución de muestreo de la media para poblaciones que no están normalmente distribuidas.
Teorema del límite central. Al hacerse lo bastante grande el tamaño de muestra, la distribución de muestreo de la media puede aproximarse mediante la distribución normal. Esto es cierto no importando la forma de la distribución de los valores individuales de la población. ¿Qué tamaño de muestra? Una gran parte de las investigaciones demuestran que una muestra adecuada de por la menos 30, hace que la distribución de muestreo se aproxime a la normal.
Distribución de muestreo de la
proporción
Cuando trabajamos con variables categóricas cada
característica puede clasificarse con 1 o 0 para
representar la presencia o ausencia de la característica.
Al tratar con datos categóricos puede definirse
como:
La
proporción tiene la propiedad especial de estar entre 0 y
1. El error estándar de la proporción
es:
La distribución de muestreo de la proporción sigue una distribución binomial. Sin embargo, cuando n*p y n*(1-p) son cada uno al menos 5 puede usarse la distribución normal.
Muestreo de poblaciones finitas
En casi
todas las investigaciones el muestreo es conducido sin reemplazo,
por esto debe usarse un factor de corrección de
población finita (fpc) en la definición tanto del
error estándar de la media como del error estándar
de la proporción. El factor de corrección puede
expresarse como:
Estimación
Introducción
La inferencia estadística es el proceso que consiste en
utilizar los resultados de una muestra para llegar a conclusiones
acerca de las características de una
población.
Existen dos tipos de estimaciones: estimaciones puntuales y estimaciones de intervalo. Una estimación puntual consiste en una sola estadística de muestra que se utiliza para estimar el valor verdadero de un parámetro de población. Puesto que la estadística de prueba varía de una muestra a otra necesitamos considerar este hecho con el fin de proporcionar una estimación más significativa y característica de la población. Para lograr esto, debemos desarrollar una estimación de intervalo de la media de población verdadera, tomando en consideración la distribución de muestreo de la media. El intervalo que construimos tendrá una confianza o probabilidad específica de estimar correctamente el valor verdadero del parámetro de población.
Estimación de intervalo de confianza de la media
(desvío de la población conocido):
En la inferencia estadística debemos tomar los resultados
de una sola muestra y llegar a conclusiones acerca de la
población. En la práctica, la media de la
población es la cantidad desconocida que se va a
determinar. Para algunas muestras la estimación de
intervalo de la media de la población será correcta
y para otras no. Tenemos que recordar que para el cálculo
del intervalo trabajamos con una estimación de intervalo
de confianza de 95, por ejemplo, esto puede interpretarse como si
se tomaran todas las muestras posibles del mismo tamaño,
n, 95% de ellas incluirían la media de población
verdadera en alguna parte del intervalo alrededor de sus medias
de muestra, y solamente 5% de ellas no estarían incluidas.
En general el nivel de confianza se simboliza como
(1-α ) x 100%, en donde α es la
porciσn que se encuentra en los extremos de la
distribuciσn que está fuera del
intervalo de confianza. Por consiguiente para obtener la
estimación del intervalo tenemos:
Z es el valor correspondiente a un área de (1-α )/2 desde el centro de una distribución normal estandarizada. El valor Z elegido para construir tal intervalo de confianza se conoce como el valor crítico.
Cualquier aumento en el nivel de confianza se logra ampliando simultáneamente el intervalo de confianza obtenido (haciéndolo menos preciso y menos útil).
Estimación de intervalo de confianza de la media
(desvío desconocido)
Del mismo modo en que la media de la población se
desconoce, es probable que la desviación estándar
real de la población tampoco sea conocida. Por lo tanto,
necesitamos obtener una estimación de intervalo de
confianza utilizando las estadísticas de muestra "X" y
"S". Para ello, utilizamos la distribución t-student.
De este modo, el intervalo de confianza se establecerá a
partir de la siguiente fórmula:
Estimado del intervalo de confianza de la
porción
Podemos
establecer la siguiente estimación de intervalo de
confianza (1-α) para la porciσn de la
poblaciσn:
Determinación del tamaño de muestra para la media:
El error de muestreo "e" se puede definir como:
Por consiguiente para determinar el tamaño de la muestra, deben conocerse tres factores:
Determinación del tamaño de muestra para una porción:
Al determinar el tamaño de muestra para estimar una porción se deben definir tres incógnitas:
Estimación y determinación del
tamaño de muestra para poblaciones finitas.
Estimación de la media
Estimación de la porción
Determinación del tamaño de muestra
11. Hipótesis nula y alternativa
La prueba de hipótesis empieza con algo de
teoría, afirmación o negación con respecto a
un parámetro particular de una población. La
hipótesis de que el parámetro de la
población es igual a la especificación de la
compañía se conoce como hipótesis nula. Una
hipótesis nula es siempre una de status quo o de no
diferencia. Se simboliza con el símbolo Ho.
Siempre que especificamos una hipótesis nula,
también debemos especificar una hipótesis
alternativa, o una que debe ser verdadera si se encuentra que la
hipótesis nula es falsa. La hipótesis alternativa
se simboliza H1. La hipótesis alternativa representa la
conclusión a la que se llegaría si hubiera
suficiente evidencia de la información de la muestra para
decidir que es improbable que la hipótesis nula sea
verdadera, y por tanto rechazarla. El hecho de no rechazar la
hipótesis nula no es una prueba de que ésta sea
verdadera. Nunca podemos probar que tal hipótesis sea
correcta porque estamos basando nuestra decisión
únicamente en la información de la muestra, no en
la población entera.
Resumen:
Regiones de rechazo y de no rechazo
La distribución de muestreo de la
estadística de prueba se divide en dos regiones, una
región de rechazo (conocida como región
crítica) y una región de no rechazo. Si la
estadística de prueba cae dentro de la región de no
rechazo, no se puede rechazar la hipótesis nula.
La región de rechazo puede considerarse como el conjunto
de valores de la estadística de prueba que no tienen
posibilidad de presentarse si la hipótesis nula es
verdadera. Por otro lado, estos valores no son tan improbables de
presentarse si la hipótesis nula es falsa. El valor
crítico separa la región de no rechazo de la de
rechazo.
Riesgos en la
toma de decisiones al utilizar la metodología de prueba de
hipótesis.
Se pueden presentar dos tipos diferentes de errores:
Nivel de Significación. La probabilidad de cometer un error tipo I denotada con la letra griega alfa, se conoce como nivel de significación de la prueba estadística. Está bajo el control directo del individuo que lleva a cabo la prueba. Ya que se ha especificado el valor de alfa, se conoce el tamaño de la región de rechazo, puesto que alfa es la probabilidad de un rechazo de la hipótesis nula.
Coeficiente de confianza. EL complemento ( 1-a ) de la probabilidad de cometer un error de tipo I se conoce como coeficiente de confianza.
El coeficiente de confianza es la probabilidad de que la hipótesis nula no sea rechazada cuando de hecho es verdadera y debería ser aceptada.
Riesgo b . La probabilidad de cometer un error de tipo II se conoce como nivel de riesgo del consumidor. A diferencia del error tipo I, en el cual las pruebas estadísticas nos permiten controlar nuestra elección de a , la probabilidad de cometer un error del tipo II depende de la diferencia entre los valores supuesto y real del parámetro de población. Como es más fácil encontrar diferencias grandes, si la diferencia entre la estadística de muestra y el correspondiente parámetro de población es grande, b la probabilidad de cometer un error del tipo II, probablemente sea pequeña.
Potencia de una prueba. El complemento
(1-b ) de la
probabilidad de cometer un error del tipo II se conoce como
potencia de una
prueba estadística.
La potencia de una prueba es ña probabilidad de rechazar
la hipótesis nula cuando de hecho esta es falsa y
debería ser rechazada.
Una manera en que podemos controlar la probabilidad de cometer un
error del tipo II en un estudio, consiste en aumentar el
tamaño de la muestra. Tamaños más grandes de
muestra, nos permitirán detectar diferencias incluso muy
pequeñas entre las estadísticas de muestra y los
parámetros de la población. Cuando se
disminuye a
, b
aumentará de modo que una reducción en el
riesgo de cometer un error de tipo I tendrá como resultado
un aumento en el riesgo de cometer un error tipo II.
Prueba de hipótesis Z para la media (desvío de la población conocido)
El estadístico de prueba a utilizar es:
La Potencia de una prueba
β representa la probabilidad de que la hipσtesis nula no sea rechazada cuando de hecho es falsa y debería rechazársele. La potencia de prueba 1-β representa la sensibilidad de la prueba estadística para detectar cambios que se presentan al medir la probabilidad de rechazar la hipótesis nula cuando de hecho es falsa y debería ser rechazada. La potencia de prueba estadística depende de qué tan diferente en realidad es la media verdadera de la población del valor supuesto.
Una prueba de un extremo es más poderosa que una de dos extremos, y se debería utilizar siempre que sea adecuado especificar la dirección de la hipótesis alternativa.
Puesto que la probabilidad de cometer un error tipo I y
la probabilidad de cometer un error tipo II tienen una
relación inversa y esta última es el complemento de
la potencia de prueba (1-β), entonces α y
la potencia de la prueba varνan en
proporciσn directa. Un aumento en el valor del
nivel de significación escogido, tendría como
resultado un aumento en la potencia y una disminución en
α tendría como resultado una disminución en
la potencia.
Un aumento en el tamaño de la muestra escogida
tendría como resultado un aumento en la potencia de la
prueba, una disminución en el tamaño de la muestra
seleccionada tendría como resultado una disminución
en la potencia.
Pruebas de una muestra con datos numéricos
Elección del procedimiento de prueba apropiada
Procedimientos
paramétricos
Todos los procedimientos paramétricos tienen tres
características distintivas: Los procedimientos de prueba
paramétricos pueden definirse como aquellos 1)que
requieren que el nivel de medición obtenido con los datos
recolectados esté en forma de una escala de intervalo o de
una escala de cociente; 2)implican la prueba de hipótesis
de valores de parámetros especificados 3) y por
último requieren un conjunto limitante de
suposiciones.
Procedimientos sin distribución y no
paramétricos
Los procedimientos de prueba sin distribución pueden
definirse ampliamente como 1) aquellos cuya estadística de
prueba no depende de la forma de la distribución de la
población subyacente de la cual se tomó la muestra
de datos o como 2) aquellos para los cuales los datos no tienen
fuerza
suficiente para garantizar operaciones
aritméticas significativas.
Los procedimientos no paramétricos pueden definirse como aquellos que no tienen que ver con los parámetros de una población.
Prueba t de hipótesis para la media (δ2 desconocida)
En
ocasiones se desconoce la desviación estándar de la
población. Sin embargo, se la puede estimar con el
cálculo de S, la desviación estándar de la
muestra. Recordemos de muestreo de la media seguirá una
distribución t con n-1 grado de libertad.
Aproximación del valor p
Suposiciones de la prueba t de una muestra
La prueba t está considerada como un procedimiento
paramétrico clásico. Supuestos: los datos
numéricos obtenidos son tomados de manera independiente y
representan una muestra aleatoria de la población que
está distribuida normalmente.
Prueba de hipótesis χ2 para la varianza (o
desviación estándar)
Al intentar llegar a conclusiones con respecto a la variabilidad
de la población, primero debemos determinar que
estadística de prueba puede utilizarse para representar la
distribución de la variabilidad de los datos de la
muestra. Si la variable se supone que está distribuida
normalmente, entonces la estadística de prueba para probar
si la varianza de la población es igual o no a un valor
especificado es:
Una
distribución chi-cuadrado es una distribución
sesgada cuya forma depende exclusivamente del número de
grados de libertad. Conforma este aumenta, la distribución
se vuelve más simétrica.
Pruebas de dos muestras con datos numéricos
Prueba t de varianza conjunta para diferencias entre dos
medias
Supongamos que consideramos dos poblaciones
independientes, cada una con una media y una desviación
estándar. La estadística de prueba utilizada para
determinar la diferencia entre las medias de las poblaciones
está basada en la diferencia entre las medias de las
muestras (X1 – X2). Debido al teorema del límite
central esta estadística seguirá la
distribución normal. La estadística de prueba Z
es:
En donde X es la media de la muestra correspondiente a cada una de las dos muestras, n es el tamaño de la muestra y por último tenemos la varianza de la muestra.
Si suponemos que las varianzas son iguales y que las muestras fueron tomadas de manera aleatoria e independiente se puede utilizar una prueba t de varianza conjunta para determinar si existe alguna diferencia significativa entre las medias de las poblaciones. Si puede calcular la siguiente estadística de prueba t de varianza conjunta:
Donde:
La estadística de prueba t de varianza conjunta sigue una distribución t con n-2 grados de libertad.
Prueba t`de varianza separada para diferencias entre dos medias
Si
suponemos que las varianzas no son iguales como en el caso
anterior debemos replantear el estadístico a
utilizar.
La estadística de prueba t`puede ser aproximada
con la fórmula de v, mostrada anteriormente.
Prueba t para la diferencia de medias
Con el propósito de determinar cualquier diferencia que
exista entre dos grupos
relacionados, deben obtenerse las diferencias en los valores
individuales de cada grupo. Cuando
la desviación estándar de la poblacion de la
diferencia es conocida y el tamaño de muestra es lo
suficientemente grande. La estadística de prueba Z
es:
Sin embargo, en la mayoría de los casos no
conocemos la desviación estándar real de la
población. La única información que se puede
obtener son las estadísticas sumarias como la media y la
desviación estándar de muestra. Si se supone que la
muestra de resultados es tomada de manera aleatoria e
independiente se puede realizar una prueba t para determinar si
existe una diferencia media de población significativa. La
estadística seguirá una distribución t con
n-1 grados de libertad.
Ho= µd = 0 donde µd= µ1-µ2
H1= µd ≠ 0
Se puede calcular el siguiente estadístico de prueba:
Prueba de hipótesis con datos
categóricos
Prueba Z de una muestra para la proporción
Para evaluar la magnitud de la diferencia entre la porción
de la muestra y la porción de la población supuesta
la estadística de prueba está dada por la
ecuación siguiente:
La estadística de prueba Z está distribuida de manera aproximadamente normal.
Prueba Z para diferencias entre dos porciones (muestras
independientes)
Cuando se evalúan diferencias entre dos porciones
basándose en muestras independientes se puede emplear una
prueba Z. La estadística de prueba es:
Se supone que las dos porciones de población son
iguales.
Ho= p1=p2
H1= p1 ≠ p2
Prueba X2 de independencia
Sirve para evaluar diferencias potenciales entre la
porción de éxitos en cualquier número de
poblaciones. Para una tabla de contingencias que tiene r
renglones y c columnas, la prueba mencionada puede generalizarse
como una prueba de independencia.
Como prueba de hipótesis las hipótesis nula y
alternativa son:
H0= Las dos variables categóricas son independientes.
H1= Las dos variables categóricas están
relacionadas.
La estadísitica de prueba es la siguiente:
La regla de decisión consiste en rechazar ña hipótesis nula a un nivel de significación si el valor calculado de la estadística de prueba es mayor que el valor crítico de extremo superior de una distribución chi-cuadrada que posee (r-1)*(c-1) grados de libertad.
Regresión lineal simple y correlación
El análisis de regresión se utiliza principalmente
con el propósito de hacer predicciones.
El análisis de correlación se utiliza para medir la
intensidad de la asociación entre las variables
numéricas.
Diagrama de dispersión: cada valor es graficado en sus
coordenadas particulares X, Y.
Tipos de modelos de
regresión. El modelo de línea recta puede
representarse como:
El primer termino (B0), es la intersección Y para la población; B1 es la pendiente de la población y E es el error aleatorio en Y para la observación i. En este modelo, la pendiente de la recta B1 representa el cambio esperado en Y por unidad de cambio en X; esto es, representa la cantidad que cambia la variable Y con respecto a una unidad de cambio particular en X. B0 representa el valor promedio de Y cuando X es igual a cero. El modelo matemático está influenciado por la distribución de los valores X y Y en el diagrama de dispersión.
Determinación de la ecuación de regresión lineal simple. El método de mínimos cuadrados.
A b0 y b1 se los puede considerar como estimaciones de B0 y B1. Por consiguiente, la ecuación de regresión de muestra sería:
Yi es el
valor predicho de Y para la observación i, y Xi es el
valor de X para la observación i.
El análisis de regresión lineal simple tiene que ver con la búsqueda de la línea recta que mejor se ajusta a los datos. El mejor ajuste significa que deseamos encontrar la línea recta para la cual las diferencias entre los valores reales (Yi) y los valores que serían predichos a partir de la línea ajustada de regresión (Yi estimada) sean lo más pequeñas posibles. Debido a que tales diferencias serán positivas y negativas para las diferentes observaciones, minimizamos matemáticamente la expresión:
Una técnica
matemática utilizada para determinar los valores de bo y
b1 que mejor se ajusten a los datos observados se conoce como
método de mínimos cuadrados. Al utilizar este
método surgen dos ecuaciones
normales:
I.
II.
El error estándar de estimación.
El error
estándar de la estimación, representado como Syx se
define como:
Mediciones de variación en regresión y correlación. Con el fin de examinar que tan bien una variable independiente predice a la variable dependiente, necesitamos desarrollar algunas medidas de variación. La primera: la suma total de cuadrados, esta puede dividirse en dos partes: la variación explicada o suma de cuadrados debida a la regresión (SSR) y la variación no explicada o suma de cuadrados de error (SSE). La suma de cuadrados debida a la regresión. La SSR representa la diferencia entre el valor promedio de Y y el valor promedio de Y que sería predicho a partir de la relación de regresión).La SSE representa aquella parte de la variación de Y que noo es explicada por la regresión.
SST = SSR + SSE
En la que SST =
Podemos ahora definir el coeficiente de determinación r2: mide la porción de variación que es explicada por la variable independiente del modelo de regresión:
Algunos
investigadores sugieren que se calcule un coeficiente r2 ajustado
para reflejar tanto el número de variables explicatorias
del modelo como el tamaño de la muestra. El coeficiente r2
ajustado se calcula de la siguiente manera:
Correlación: medición de la intensidad de
la asociación
En el análisis de correlación estamos interesados
en medir el grado de asociación entre dos variables. La
intensidad de la
relación se mide mediante el coeficiente de
correlación r
, cuyos valores van de –1 a +1. El coeficiente de
correlación en casos de regresión lineal simple
toma el signo de b1.
Suposiciones de regresión y correlación.
Las cuatro principales suposiciones acerca de la regresión
son: 1.Normalidad. 2. Homoscedasticidad. 3. Independencia de
error. 4. Linealidad.
La primera suposición, normalidad, requiere que los
valores de Y estén distribuidos normalmente en cada valor
de X. Siempre y cuando la distribución de los valores de
Yi alrededor de cada nivel de X no sea extremadamente diferente
de una distribución normal, las inferencias acerca de la
línea de regresión y de los coeficientes de
regresión no se verán seriamente afectadas. La
segunda suposición, homoscedasticidad, requiere que la
variación alrededor de la línea de regresión
sea constante para todos los valores de X. La tercera
suposición, independencia de error, requiere que el error
sea independiente de cada valor de X. Por último, la
linealidad establece que la relación entre las variables
es lineal.
Estimación del intervalo de confianza para predecir m yx.
Intervalo de predicción para una respuesta individual Yi
Inferencias respecto a los parámetros de población en regresión y correlación
Ho= β1=0 (No hay relaciσn)
H1= β1 ≠ 0 (Hay relaciσn)
Y la estadístida de prueba para probar la hipótesis está dada por:
La estadística de prueba sigue una distribución t con n-2 grados de libertad.
Un segundo método equivalente para probar la existencia de una relación lineal entre las variables consiste en establecer una estimación de intervalo de confianza de β1 y determinar si el valor supuesto está incluido en el intervalo. La estimación del intervalo de confianza se obtendría de la siguiente manera:
Un tercer método para examinar la existencia de una relación lineal entre dos variables implica al coeficiente de correlación de la muestra, r. Para ello se realiza lo siguiente:
Ho: ρ = 0 ( No hay relación)
H1: ρ ≠ 0 (Hay relaciσn)
La estadística de prueba para determinar la existencia de una correlación esta dada por:
La estadística de prueba sigue una distribución t con n-2 grados de libertad.
Dificultades de la regresión y cuestiones
éticas
Las dificultades que surgen con frecuencia son:
16. Aplicaciones estadísticas en administración de la calidad y productividad
Calidad y productividad: Una perspectiva histórica. Al tema de calidad y productividad lo podemos dividir en cuatro fases históricas: 1. Podemos pensar en una administración de primera generación como administración mediante la acción, el tipo administración practicada por las sociedades cazadoras-recolectoras primitivas en que los individuos producían algo para sí mismos o para su unidad tribal, siempre que el producto fuera necesario. 2. Luego encontramos la administración por dirección. Es la época del surgimiento de los gremios en Europa (Edad Media). Los gremios administraban el entrenamiento de aprendices y trabajadores y determinaban las normas de calidad y fabricación de los productos hechos por el gremio. 3. La administración por control, surge aproximadamente con Henry Ford, en el cual los trabajadores estaban divididos entre aquellos que en realidad hacían el trabajo y aquellos que planeaban y supervisaban el trabajo. Esto le quitó responsabilidad al trabajador individual con respecto al tema calidad y dejó el tema en manos de inspectores. El estilo de administración por control contenía una estructura jerárquica que ponía énfasis en la responsabilidad individual por la obtención de un conjunto de objetivos predeterminados. 4. Por último encontramos la administración por proceso. Llamada a menudo TQM o Administración de Calidad Total. Una de las características principales de este planteamiento consiste en centrar la atención en una continua mejora de los procesos. Se le da importancia al trabajo en equipo, atención al cliente y rápida reacción a los cambios. Tiene fuerte fundamentación estadística.
La teoría de los diagramas de control. El diagrama de control es un medio para revisar la variación de la característica de un producto o servicio mediante 1. la consideración de la dimensión temporal en la cual el sistema fabrica productos y 2. el estudio de la naturaleza de la variabilidad del sistema. El diagrama de control puede utilizarse para estudiar desempeños pasados o evaluar las condiciones presentes o ambas cosas. Los diagramas de control pueden utilizarse para diferentes tipos de variables: para las variables categóricas y para las variables discretas. La atención principal del diagrama de control se enfoca en el intento de separar las causas especiales o asignables de la variación de las causas comunes o debidas al azar.
Las causas especiales se consideran aquellas que no forman parte de un proceso y son susceptibles de corregir; mientras que las causas comunes pueden reducirse solo cambiando el sistema. Existen dos tipos de errores que los diagramas de control ayudan a prevenir. El primer tipo de error implica la creencia de que un valor observado representa una causa especial de la variación cuando de hecho se debe a una causa común de variación del sistema. El segundo error implica tratar a una causa especial como si fuera una causa común y no tomar medidas correctivas cuando son necesarias.
La forma más típica de un diagrama de control establece límites de control que se encuentran dentro de +/-3 desviaciones estándar de la medida de estadística de interés. En general puede establecerse como:
Algunas herramientas para estudiar un proceso: diagrama de esqueleto de pescado (Ishikawa) y de flujo de procesos. Un proceso es una secuencia de pasos que describen una actividad desde el inicio hasta su terminación.
Los catorce puntos de Deming: una teoría de la administración por proceso. Deming desarrollo su enfoque basándose en los siguientes catorce puntos:
Diagramas de control para la proporción y el número de elementos que no se ajustan:. Los diagramas p y np.
Cualquier valor negativo del límite de control inferior significará que el límite de control inferior no existe.
El diagrama R: Un diagrama de control para la dispersión. Los límites de este diagrama de control los obtenemos de la siguiente manera:
Diagrama X. El diagrama de control para X utiliza subgrupos de tamaño n que se obtienen sobre k secuencias consecutivas o periodos. Los límites de control se obtienen de la siguiente manera:
Resumen
Pronóstico de series de tiempo.
Tipos de métodos de predicción: Existen dos
planteamientos para la predicción: cualitativa y
cuantitativa. Los métodos de predicción cualitativa
son especialmente importantes cuando no se dispone de datos
históricos. Se consideran altamente subjetivos. Los
métodos de predicción cuantitativa hacen uso de los
datos históricos.
Introducción al análisis de series de
tiempo.
Una serie de tiempo es un conjunto de datos numéricos que
se obtienen en períodos regulares a través del
tiempo. El principal objetivo de una serie de tiempo consiste en
identificar y aislar tales factores de influencia con
propósitos de hacer predicciones, así como para
efectuar una planeación y un control
administrativo.
Factores componentes del modelo multiplicativo de series
temporales.
Tendencia: impresión a largo plazo.
Componente cíclico: representa la oscilación o los
movimientos a la baja y a la alta que se dan a lo largo de la
serie. Los movimientos cíclicos varían en longitud,
por lo general de dos a 10 años.
Componente irregular aleatorio: cualquier componente que no sigue
la curva de tendencia modificada por el componente
cíclico.
Cuando los datos se registran mensual o trimestralmente
además de la tendencia cíclica y los componentes
irregulares debemos tomar en cuenta el factor estacional.
El modelo multiplicativo clásico de las series
temporales.
Cuando los datos se obtienen anualmente una observación Yi
puede expresarse como:
Yi=Ti*Ci*Ii; en la que Ti es el valor del componente tendencia,
Ci= valor del componente cíclico; Ii es el valor del
componente irregular.
Por otra parte cuando los datos se obtienen de manera trimestral
o mensual una observación Yi puede estar dada por:
Yi=Ti*Si*Ci*Ii, en la que Si es el valor del componente
estacional.
El primer paso de una serie de tiempo consiste en graficar los datos y observar su tendencia a través del tiempo. Primero debemos determinar si parece haber un movimiento a largo plazo hacia arriba o hacia abajo en la serie. ( es decir una tendencia), o si la serie parece oscilar alrededor de una línea horizontal a través del tiempo. Si este último parece ser el caso entonces debe emplearse el método de promedios móviles o el suavizado exponencial, para suavizar la serie y proporcionarnos una impresión global a largo plazo.
Suavizado de las series temporales anuales:. promedios
móviles y suavizado exponencial.
Promedios móviles. Este método es altamente
subjetivo y dependiente de la longitud del período elegido
para la construcción de los promedios. Para eliminar las
fluctuaciones cíclicas, el período escogido debe
ser un valor entero que corresponda a la duración promedio
estimada de un ciclo.
Los promedios móviles para un período elegido de
longitud L consisten en una serie de medias aritméticas
calculadas en el tiempo de tal modo que cada media se calcula
para una secuencia de valores observados que tienen esa longitud
particular, L.
El promedio móvil puede calcularse de la
siguiente manera:
Cuanto más largo sea el período, menor será
el número de valores promedio móvil que se pueden
calcular y graficar. Por consiguiente, la selección de
promedios móviles con períodos de longitud mayores
a siete años es, por lo general, no deseable puesto que
habrá demasiados puntos de datos que faltan al inicio y al
final de la serie, haciendo que sea más difícil de
obtener una impresión global de la serie
completa.
Suavizado Exponencial.
El suavizado exponencial puede utilizarse para obtener
predicciones a corto plazo. Su nombre deriva del hecho de que nos
proporciona un promedio móvil pesado o ponderado
exponencialmente a través de la serie de tiempo, esto es,
a lo largo de la serie cada cálculo de suavizado o
predicción depende de todos los valores observados
anteriormente. Esta es una ventaja con respecto al otro
método. Con este método los pesos asignados a los
valores observados disminuyen con el tiempo, de modo que cuando
se hace el cálculo, el valor observado más reciente
recibe el mayor peso.
Para suavizar una serie de tiempo en cualquier periodo i tenemos la siguiente expresión:.
Ei= valor de la serie suavizada exponencialmente que se calcula
en el período i.
Ei-1= valor de la serie suavizada exponencialmente calculado en
el período i-1
Yi= valor observado de la serie en el período i
W= peso o coeficiente de suavizado que se asigna de manera
subjetiva.
W==2/(L+1)
Si deseamos suavizar una serie mediante la eliminación de las variaciones cíclicas e irregular no deseadas, debemos seleccionar un pequeño valor de W. Si, nuestro objetivo es hacer predicciones debiésemos seleccionar el valor más grande de W (cercano a uno).
Análisis de series de datos anuales: ajuste de tendencia de mínimos cuadrados y pronóstico.
El modelo lineal:
El modelo cuadrático:
El
modelo exponencial:
Elección de un modelo de predicción apropiado
Autor:
Trabajos relacionados
Ver mas trabajos de Estadistica |
|
Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.
Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.