- Variable
Aleatoria - Tratamiento de Variables
Aleatorias - Tipos de pruebas
estadísticas de hipótesis - Chi-cuadrado
- Pruebas no
paramétricas - Distribuciones de
Probabilidad - Distribución de
probabilidad continua - Conclusiones
- Bibliografía
- Anexos
Una variable aleatoria es un valor
numérico que corresponde al resultado de un experimento
aleatorio, como el número de caras que se obtienen al
lanzar 4 veces una moneda, el número de lanzamientos de un
dado hasta que aparece el seis, el número de llamadas que
se reciben en un teléfono en una hora, el tiempo de
espera a que llegue un autobús.
Las variables
aleatorias, como las estadísticas, pueden ser discretas o
continuas.
Las variables aleatorias permiten definir la probabilidad como
una función
numérica (de variable real) en lugar de como una
función de un conjunto dado.
Se dice que una variable aleatoria sigue una distribución uniforme si la función
de densidad es
constante en el intervalo en el que se encuentran todos los valores de
la variable. La función de densidad o ley de
probabilidad viene dada por:
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
Las distribuciones de probabilidad están
relacionadas con las distribuciones de frecuencias. Una
distribución de frecuencias teórica es una
distribución de probabilidades que describe la forma en
que se espera que varíen los resultados. Debido a que
estas distribuciones tratan sobre expectativas de que algo
suceda, resultan ser modelos
útiles para hacer inferencias y para tomar decisiones en
condiciones de incertidumbre.
Una distribución de frecuencias es un listado de
las frecuencias observadas de todos los resultados de un
experimento que se presentaron realmente cuando se efectuó
el experimento, mientras que una distribución de
probabilidad es un listado de las probabilidades de todos los
posibles resultados que podrían obtenerse si el
experimento se lleva a cabo.
Las distribuciones de probabilidad pueden basarse en
consideraciones teóricas o en una estimación
subjetiva de la posibilidad. Se pueden basar también en la
experiencia.
A continuación trataremos mas extensamente los
conceptos de Variable Aleatoria, Valor Esperado, Pruebas
Paramétricas y No-Paramétricas, Distribuciones de
Probabilidad, Distribuciones Discretas y Continuas y
Distribuciones Simétricas y Distribuciones
Sesgadas.
Se denomina variable aleatoria, a una variable X que
puede tomar un conjunto de valores
{x0, x1, x2, …
xn-1}, con probabilidades {p0,
p1, p2, … pn-1}. Por ejemplo,
en la experiencia de lanzar monedas, los posibles resultados son
{cara, cruz}, y sus probabilidades son {1/2, 1/2}. En la
experiencia de lanzar dados, los resultados posibles son {1, 2,
3, 4, 5, 6} y sus probabilidades respectivas son {1/6, 1/6, 1/6,
1/6, 1/6, 1/6}.
Realicemos ahora la experiencia de hacer girar una
ruleta y apuntar el número del sector que coincide con la
flecha. En la ruleta de la izquierda de la figura los resultados
posibles son {0, 1, 2, 3, 4, 5, 6, 7}, y la probabilidad de cada
resultado es 1/8. En la ruleta de la derecha de la figura los
posibles resultados son {0, 1, 2, 3}, y las probabilidades
respectivas {1/4, 1/2, 1/8, 1/8}, proporcionales al ángulo
del sector.
Para ver la
fórmula seleccione la opción "Descargar" del
menú superior
En los tres primeros ejemplos, la variable aleatoria
X se dice que está uniformemente distribuida, ya
que todos los resultados tienen la misma probabilidad. Sin
embargo, en el último ejemplo, la variable aleatoria
X, no está uniformemente distribuida.
El problema crucial de la aplicación de los
métodos de
Montecarlo es hallar los valores de una variable aleatoria
(discreta o continua) con una distribución de probabilidad
dada por la función p(x) a partir de los valores de
una variable aleatoria uniformemente distribuida en el intervalo
[0, 1), proporcionada por el ordenador o por una rutina
incorporada al programa.
Para simular un proceso
físico, o hallar la solución de un problema
matemático es necesario usar gran cantidad de
números aleatorios. El método
mecánico de la ruleta sería muy lento,
además cualquier aparato físico real genera
variables aleatorias cuyas distribuciones difieren, al menos
ligeramente de la distribución uniforme ideal.
También, se puede hacer uso de tablas de cifras aleatorias
uniformemente distribuidas, comprobadas minuciosamente en base a
pruebas estadísticas especiales. Se emplean solamente
cuando los cálculos correspondientes a la
aplicación del método de Montecarlo se realiza a
mano, lo que en estos tiempos resulta inimaginable. En la
práctica, resulta más conveniente emplear los
denominados números pseudoaleatorios, se trata de
números que se obtienen a partir de un número
denominado semilla, y la aplicación reiterada de una
fórmula, obteniéndose una secuencia
{x0, x1, x2, …
xn} de números que imitan los valores de
una variable uniformemente distribuida en el intervalo [0,
1).
Se dice que una función
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
es una variable aleatoria si la "suerte" de
realización de sus posibles valores puede establecerse con
ayuda de los resultados de la experiencia aleatoria en estudio,
cuyo espacio muestral es Ω . Se trata, en
definitiva, de una funciσn que asigna un valor
numιrico a cada uno de los resultados de una
experiencia aleatoria.
En estadística y teoría
de probabilidad una variable aleatoria se define como el
resultado numérico de un experimento aleatorio.
Matemático es una mapa
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
que da un valor numérico a cada suceso en el
espacio Ω de los resultados posibles del
experimento.
Se distinguen entre:
- variables aleatorias discretas y
- variables aleatorias continuas.
Dado una variable aleatoria X se pueden calcular
estimadores estadísticos diferentes como la media
(Media
aritmética,
Media geométrica,
Media ponderada) y
valor esperado y varianza
de la
distribución de probabilidad de
X.
Se puede pensar en una variable aleatoria como un valor
o una magnitud que cambia de una presentación a otra, sin
seguir una secuencia predecible. Los valores de una variable
aleatoria son los valores numéricos correspondientes a
cada posible resultado de un experimento aleatorio.
La distribución de probabilidad de una variable
aleatoria proporciona una probabilidad para cada valor posible, y
estas probabilidades deben sumar 1.
Valor esperado de una variable
aleatoria
El valor esperado es una idea fundamental en el estudio
de las distribuciones de probabilidad.
Para obtener el valor esperado de una variable aleatoria
discreta, se multiplica cada valor que la variable puede tomar
por la probabilidad de presentación de ese valor y luego
se suman esos productos. Es
un promedio pesado de los resultados que se esperan en el futuro.
El valor esperado pesa cada resultado posible con respecto
a la frecuencia con que se espera se que presente. En
consecuencia, las presentaciones más comunes tienen
asignadas un peso mayor que las menos comunes.
El valor esperado también puede ser obtenido a
partir de estimaciones subjetivas. En ese caso, el valor esperado
no es más que la representación de las convicciones
personales acerca del resultado posible.
En muchas situaciones, encontraremos que es más
conveniente, en términos de los cálculos que se
deben hacer, representar la distribución de probabilidad
de una variable aleatoria de una manera algebraica. Al hacer
esto, podemos llevar a cabo cálculos de probabilidad
mediante la sustitución de valores numéricos
directamente en una fórmula algebraica.
Sugerencia:
El valor esperado de una variable aleatoria discreta es
un promedio pesado del valor de cada resultado posible
multiplicado por la probabilidad de dicho resultado. Aunque
existen muchos valores diferentes posibles que la variable
aleatoria puede tomar, el valor esperado es sólo un
número.
Tratamiento de
Variables Aleatorias
Variables aleatorias discretas.
Variable que toma un número finito o infinito de
valores numerables. Variable aleatoria que puede tomar
sólo un número limitado de valores sean x1, x2, x3,
… xn los distintos valores que puede tomar la variable
aleatoria.
Y p(x1), p(x2),… p(xn) su probabilidad.
Los pares de valores (xj, p(xj)) constituyen la
distribución de probabilidades de la variable
aleatoria.
p(x) se denomina función de probabilidad, y debe
cumplir con las siguientes propiedades:
0 < p(xj) < 1 (p(x) es una
probabilidad, y por lo tanto debe tomar valores entre 0 y
1).
å p(xj) = 1 (la suma de probabilidades repartidas
entre todos los valores de la variable debe ser igual a
1).
De la misma manera que calculamos frecuencias
acumuladas, podemos acumular probabilidades, obteniendo la
función de distribución de
probabilidades:
F(x) = å p(xj)
Esta función representa la probabilidad de que la
variable aleatoria sea menor o igual que un determinado
valor:
F(xj) = P (X < xj)
Gráficamente, la función aumenta de "a
saltos", ya que entre dos valores consecutivos de una variable
discreta, no puede tomar valores intermedios.
Para simular la ruleta situada a la derecha de la
figura, se procede del siguiente modo: se hallan las
probabilidades de cada resultado, proporcionales al ángulo
de cada sector y se apuntan en la segunda columna, la suma total
debe de dar la unidad. En la tercera columna, se escriben las
probabilidades acumuladas.
Resultado | Probabilidad | P. acumulada |
0 | 0.25 | 0.25 |
1 | 0.5 | 0.75 |
2 | 0.125 | 0.875 |
3 | 0.125 | 1 |
Se sortea un número aleatorio g uniformemente
distribuido en el intervalo [0, 1), el resultado del sorteo se
muestra en la
figura. En el eje X se sitúan los distintos resultados que
hemos nombrado x0, x1, x2,
x3. En el eje vertical las probabilidades en forma
de segmentos verticales de longitud igual a la probabilidad
pi de cada uno de los resultados, dichos
segmentos se ponen unos a continuación de los otros,
encima su respectivo resultado xi. Se obtiene
así una función escalonada. Cuando se sortea una
variable aleatoria g, se traza una recta horizontal cuya ordenada
sea g. Se busca el resultado cuya abscisa sea la
intersección de dicha recta horizontal y del segmento
vertical, tal como se señala con flechas en la figura. Si
el número aleatorio g está comprendido entre 0.25 y
0.75 se obtiene el resultado denominado
x1.
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
La tabla describe el sorteo de una variable discreta,
siendo g una variable aleatoria uniformemente distribuida en el
intervalo [0,1).
Condición | Resultado |
0<=g<0.25 | 0 |
0.25<=g<0.75 | 1 |
0.75<=g<0.875 | 2 |
0.875<=g<1 | 3 |
Una vez visto un caso particular, el problema general
puede formularse del siguiente modo:
Si X es una variable aleatoria discreta cuyos
posible resultados son {x0, x1,
x2 , … xn-1}
y sean {p0, p1, p2, …
pn} sus respectivas
probabilidades. Al sortear un número aleatorio g,
uniformemente distribuido en el intervalo [0, 1), se obtiene el
resultado xi, si se verifica la siguiente
condición
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
Variables aleatorias continuas
Variable que toma un valor infinito de valores no
numerables. Variable aleatoria que puede tomar cualquier valor
dentro de un intervalo dado de valores.
En este caso, en lugar de trabajar con la probabilidad
de valores particulares de la variable, resulta más
apropiado calcular probabilidades asociadas a intervalos. Para
distribuir propiedades se usa una función que mide
"concentración" de probabilidades alrededor de un punto,
que se denomina función de densidad de probabilidad (fdp)
y se denota como f(x).
Una función de densidad de probabilidad debe
cumplir con las siguientes propiedades:
- F(x) > 0 (la función es no negativa
para cualquier valor de x, f(x) no es una probabilidad, y puede
valer más de 1). - ò f(x) dx = 1 (la acumulada para todos los
valores de la variable suma 1, el área bajo la curva de
la función vale 1).
La función de distribución para una
variable aleatoria continua se calcula:
F(a) = P(X < a) = ò f(x)
dx
La probabilidad de que la variable esté dentro de
un intervalo [a – b] se calcula:
P (a< x < b) = F(b) –
F(a)
La probabilidad de que la variable tome un valor
particular se puede expresar como:
F(c) – F(c) = 0
Esto explica la idea de que para el caso de una variable
aleatoria continua no tiene sentido trabajar con la probabilidad
de un valor particular.
Comprendido el concepto de
transformación de una variable discreta, y el procedimiento
para obtener un resultado cuando se efectúa el sorteo de
una variable aleatoria uniformemente distribuida, no reviste
dificultad el estudio de la variable continua. Si X es una
variable aleatoria continua, y p(x) es la probabilidad de
cada resultado x, construimos la función que se
representa en la figura.
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
El resultado del sorteo de una variable g uniformemente
distribuida en el intervalo [0 ,1) se obtiene a partir de la
ecuación.
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
Gráficamente, se obtiene trazando una recta
horizontal de ordenada g. La abscisa x del punto de corte
con la función es el resultado obtenido. En la figura se
señala mediante flechas.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Un ejemplo sencillo es la transformación de una
variable aleatoria que está uniformemente distribuida en
el intervalo [a, b) si
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
Integrando (2) obtenemos la función
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
Características de las variables
aleatorias
Una variable aleatoria se caracteriza además de
las funciones de
probabilidad, ó de densidad y distribución por una
serie de medidas que ayudan a describir la tendencia,
dispersión, asimetría y apuntamiento de sus
valores, tales pueden ser el valor esperado, la desviación
estándar, los cuantiles, coeficientes de variación,
asimetría y apuntamiento.
Valor Esperado
Se entiende por valor esperado al medio
aritmético probabilístico el cual puede ser
calculado con la siguiente fórmula: XE =
å n
XK . PK
Donde:
XE = Valor esperado.
XK = Valor del resultado K.
PK = Probabilidad del resultado K.
n = Número total de resultados.
Los promedios son parte de nuestro diario vivir.
Nosotros escuchamos el promedio de lluvia en una ciudad en un
año, el promedio de temperatura en
Agosto, el promedio de edad de los trabajadores de una empresa,
entre otros. El objetivo de
esta sección es mostrar algunas características
numéricas de una distribución poblacional. El
más común promedio utilizado en estadística
es la media o valor esperado o esperanza matemática.
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
Valor esperado o esperanza
matemática
Sea X una variable aleatoria discreta.
Se denomina esperanza matemática de X o valor
esperado, y se denota bien
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
o bien
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
, a la cantidad que se expresa como:
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
Donde
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
es el conjunto numerable de índices de los
valores que puede tomar la variable (por ejemplo
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
para un número finito de valores de la
variable aleatoria o bien
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
para una cantidad infinita numerable de los
mismos.
Si X es una variable aleatoria continua,
se define su esperanza a partir de la función de densidad
como sigue:
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
Observación:
Recordamos que si
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
y por tanto tiene sentido calcular su esperanza
matemática:
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
Por las analogías existente entre la
definición de media aritmética y esperanza
matemática, las propiedades de linealidad de la primera se
trasladan a la segunda, como es inmediato comprobar:
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
¿Qué es una distribución de
probabilidad, una variable aleatoria y un valor
esperado?
Distribución de Probabilidad
Una distribución de probabilidad la podemos
concebir como una distribución teórica de
frecuencia, es decir, es una distribución que describe
como se espera que varíen los resultados. Dado que esta
clase de
distribuciones se ocupan de las expectativas son modelos de gran
utilidad para
hacer inferencias y tomar decisiones en condiciones de
incertidumbre.
Variable Aleatoria
Es aquella que asume diferentes valores a consecuencia
de los resultados de un experimento aleatorio.
Estas variables pueden ser discretas o continuas. Si se
permite que una variable aleatoria adopte sólo un
número limitado de valores, se le llama variable aleatoria
discreta. Por el contrario, si se le permite asumir cualquier
valor dentro de determinados límites,
recibe el nombre de variable aleatoria continua.
El Valor Esperado
El valor esperado es un concepto fundamental en el
estudio de las distribuciones de probabilidad. Desde hace muchos
años este concepto ha sido aplicado ampliamente en el
negocio de seguros y en los
últimos veinte años ha sido aplicado por otros
profesionales que casi siempre toman decisiones en condiciones de
incertidumbre.
Para obtener el valor esperado de una variable aleatoria
discreta, multiplicamos cada valor que ésta puede asumir
por la probabilidad de ocurrencia de ese valor y luego sumamos
los productos. Es un promedio ponderado de los resultados que se
esperan en el futuro.
Tipos de pruebas
estadísticas de hipótesis
Uno de los aspectos más importantes de las
estadísticas en la investigación es comprender que para
poder utilizar
una prueba estadística el experimento tiene que cumplir
con los supuestos que exige la prueba.
Las pruebas de hipótesis pueden ser paramétricas,
libres de distribución y
no-paramétricas.
- Pruebas paramétricas
Requieren
- variables medidas en la escala de
razón o intervalar - análisis de un parámetro de la población y otros requisitos que dependen
de la prueba en específico.
La robustez en las pruebas
paramétricas
Una prueba paramétrica es robusta si a pesar de
no cumplir cabalmente con todos los requisitos se puede emplear
sin que deforme mucho las conclusiones. Cuando la prueba no es
robusta es necesario utilizar otra prueba libre de
distribución o no paramétrica.
- Pruebas libres de
distribución
- La prueba estadística no depende de la forma de
la distribución de la población- Pruebas no paramétricas
- Los datos
están en escala nominal u ordinal
No tienen que ver con los parámetros de la
población
¿Por qué se llaman pruebas
paramétricas?
Porque comparan los grupos a
través de una medida de tendencia central
(parámetro): la media aritmética. Como vemos, este
valor adquiere una vital importancia.
¿En qué condiciones la media es realmente
un valor representativo de una serie de datos? Como sabemos,
existen otras medidas de tendencia central que, según la
distribución de los datos, pueden llegar a ser más
representativas. Cuando los datos siguen una distribución
normal la media actúa como una buena medida resumen.
Recordemos algunas de las características de esta
distribución:
Viene determinada por dos parámetros, la media
(µ) y la desviación típica (*). Es acampanada
y simétrica alrededor de la media.
Recordemos que, por ejemplo, si se cumplen los supuestos
de normalidad (fig. 1.):
El valor de la µ ± 1* incluirá
aproximadamente el 68,3% central de las observaciones.
El valor de la µ ± 2* incluirá
aproximadamente el 95,3% central de las observaciones.
El valor de la µ ± 3* incluirá
prácticamente todas las observaciones, el
99,7%.
Conocidas la µ y la *, se puede reconstruir la
distribución de las observaciones.
La igualdad de
variancias es el otro gran obstáculo que deberemos salvar.
Dos distribuciones pueden tener el mismo valor en el
parámetro media, mostrando la primera valores cercanos a
la media (poca dispersión, variancia pequeña) y la
segunda valores alejados de dicho parámetro (más
dispersión, gran variancia). Como vemos estas dos
variables siguen diferentes patrones, aunque tienen en
común el mismo valor de la media (fig. 2).
¿Por qué tienen estas asunciones? Las
pruebas paramétricas asumen que los datos de las variables
a comparar se distribuyen de igual forma, pero que entre ellos
existe un desplazamiento fijo; es decir, para cada valor de una
muestra hay un valor igual pero incrementado en un valor
constante (K), al que podríamos llamar desplazamiento
(fig. 3). Si este valor constante se acerca al valor 0, no
habría diferencias entre los grupos, ya que
existiría un solapamiento entre los valores a comparar.
Cuanto más se aleje del valor 0,
mayores serán las diferencias.
Obsérvese la importancia de asumir que este valor
de desplazamiento de una muestra a la otra es constante. Si
estamos comparando dos diferentes tratamientos, por ejemplo un
placebo y un principio activo, en dos muestras que son
homogéneas basalmente, este valor K será el efecto
que podremos imputar al principio activo en cada caso: la
diferencia entre medias representa, no el efecto promedio, sino
el efecto del tratamiento en cada caso. Si por el contrario este
efecto no fuera constante, ya no se cumplirían los
supuestos de estas pruebas.
Fig. 1
Fig. 2
Fig. 3
Para ver los gráficos seleccione la opción
"Descargar" del menú superior
Dentro de las pruebas paramétricas, se tienen
para muestras grandes y para muestras pequeñas. Un
supuesto que se aplica a ambas es que la muestra que se toma debe
haber sido seleccionada en forma aleatoria o
probabilística. En las pruebas paramétricas de
muestra pequeña, se requiere el supuesto de que las
muestras fueron extraídas de una población con
distribución normal y cuando se trata de dos o más
muestras también se requiere una prueba de igualdad de
varianzas. Existen pruebas estadísticas por medio de las
cuales se podría comprobar esto, sin embargo suele no
dársele importancia a esto y se pasa por alto. El análisis de varianza, también se
basa en el supuesto de normalidad de las poblaciones y en el de
que sus varianzas son iguales.
En las pruebas en las que se tienen menos supuestos, es
en las de muestra grande, las cuales se pueden aplicar sin saber
o comprobar si la población o poblaciones eran normales,
estas pruebas se dice que son robustas, porque no es necesario
que se cumpla dicho supuesto. Cuando la prueba que se requiere no
es robusta, no es necesario correr el riesgo de estar
equivocados en las conclusiones, en ellos. En cambio, se
dispone de muchas pruebas estadísticas no
paramétricas que tienen una aplicación semejante a
las paramétricas de muestra pequeña en las que se
tienen menos supuestos.
El llamado Test de
Chi-cuadrado Es muy usual la necesidad de hacer una
comparación global de grupos de frecuencias. Para este
problema el método es diferente, pues el test que se
utiliza se denomina Chi-Cuadrado de Pearson, y con ese test lo
que queremos determinar es si la frecuencia observada de un
fenómeno es significativamente igual a la frecuencia
teórica prevista, o sí, por el contrario, estas dos
frecuencias acusan una diferencia significativa para, por
ejemplo, un nivel de significación del 5%. Las posibles
aplicaciones son muchas: elección de un cartel
turístico publicitario presentado a grupos de clientes;
comparar la rentabilidad
de un proyecto hotelero
en dos espacios turísticos; determinar las preferencias o
gustos de los turistas por determinados espacios
geográficos, o por determinados servicios
hoteleros, etc. El método que se sigue es el siguiente: 1)
Se designan las frecuencias observadas con letras
minúsculas y con letras mayúsculas las frecuencias
esperadas o teóricas. 2) Las frecuencias se presentan en
cuadros o tablas con un cierto número de columnas y de
filas. Pueden ser tablas de 1 x 2, o de 2 x 2 etc. Aplicaremos el
método con una tabla 1 x 2; y después con una tabla
2 x 2. Supongamos que se ha comprobado fallas leves ( atributos)
en dos proyectos
turísticos que no han satisfecho plenamente a la
clientela. Estas fallas han ocurrido en los sitios
turísticos A y B. O sea, de un total de 102 fallas, 59 han
tenido lugar en el sitio A y 43 fallas en el sitio B. Formulamos
la hipótesis nula que
no existe relación entre el número de fallas y el
hecho de que hayan ocurrido en los sitios A y B. Si la
hipótesis nula no se rechaza, quiere decir que cada sitios
es independiente del hecho y entonces no existe razón para
suponer que por ejemplo A es menos predispuesto a fallas que B.
Si se rechaza la hipótesis nula, entonces alguno de los
dos sitios si está propenso a mayor número de
fallas. Para este análisis se aplica el test Chi-cuadrado
de Pearson. Vamos a observar los datos empíricos (59 y 43=
102) y los datos esperados o sea una repartición por igual
de las fallas entre el proyecto A y el B (51 y 51 = 102). a = 59
b = 43 A = 51 B = 51 La fórmula que permite obtener el
Chi-cuadrado incluye una corrección igual a O,50 por ser
muestras pequeñas y su valor estimado con la
fórmula es 2,206. Al ir a la tabla del encontramos que
para un grado de libertad, el
valor del Chi-cuadrado debe ser igual o mayor que 3,841 para un
nivel de significación del 5%. Dado que el valor
encontrado en el anterior cálculo es
igual a : 2,206, podemos admitir que la hipótesis nula es
correcta, pues no existe razón para suponer que se
produzcan más fallas en el espacio turístico A que
en el espacio B. Si la tabla es de 2 x 2 De nuevo el fin del test
es comparar las frecuencias observadas empíricamente de
dos muestras, con las frecuencias esperadas o teóricas.
Dos procedimientos de
refrigeración ("x" e "y") se han ensayado
en el Dpto. de Alimentos y
Bebidas de un Hotel con el fin
de aumentar la duración de las materias primas
perecederas. Los resultados son según atributos
cualitativos los siguientes: Primero veremos las frecuencias
empíricas u observadas: Refrigeración X : fracasos
=77; éxitos =63 y el total 140. Y para la
Refrigeración Y: fracasos = 54; éxitos = 66 y el
total 120. Los totales de las tres columnas son: 131,129 y 260.
En seguida veremos las frecuencias teóricas o esperadas:
Refrigeración X : fracasos = 70,54; éxitos=69,46 y
el total 140. Refrigeración Y : fracasos =60,46;
éxitos = 59,54 y el total 120. Todos los totales de las
tres columnas son; 131,129 y 260. Las frecuencias teóricas
fueron estimadas de esta manera:a1 = 131 x 140 / 260 = 70,54; b1
= 129 x 140 / 260 = 69,46; a2 = 131 x 120 / 260 = 60,46; b2 = 129
x 120 / 260 = 59,54. Cuando las muestras son pequeñas se
aplica en la fórmula una corrección igual a 0,50. Y
al aplicar la fórmula del Chi-cuadrado obtenemos el valor
de: 2,200. De nuevo se compara el resultado 2,20 con el de la
tabla para un grado de libertad y para el nivel de
significación del 5% con un valor de 3,841. La diferencia
entre las dos muestras no es significativa y no se puede llegar a
ninguna conclusión razonada sobre los dos procedimientos
de refrigeración.
Distribución Chi-cuadrado de
Pearson
Tabla de la función de
distribución:
P(
n≤ z) = p
z: valor tabulado
p: probabilidad acumulada
n: grados de libertad
Para ver el cuadro seleccione la
opción "Descargar" del menú superior
Se denominan pruebas no paramétricas aquellas que
no presuponen una distribución de probabilidad para los
datos, por ello se conocen también como de
distribución libre (distribution free). En la mayor parte
de ellas los resultados estadísticos se derivan
únicamente a partir de procedimientos de ordenación
y recuento, por lo que su base lógica
es de fácil comprensión. Cuando trabajamos con
muestras pequeñas (n < 10) en las que se desconoce si
es válido suponer la normalidad de los datos, conviene
utilizar pruebas no paramétricas, al menos para corroborar
los resultados obtenidos a partir de la utilización de la
teoría basada en la normal.
En estos casos se emplea como parámetro de
centralización la mediana, que es aquel
punto para el que el valor de X está el 50% de las veces
por debajo y el 50% por encima.
- Prueba de Wilcoxon de los rangos con
signo
Esta prueba nos permite comparar nuestros datos con una
mediana teórica (por ejemplo un valor publicado en un
artículo).
Llamemos M0 a la mediana frente a la que
vamos a contrastar nuestros datos, y sea X1, X2 .. Xn los valores
observados. Se calcula las diferencias X1-M0,
X2-M0, …, Xn-M0. Si la hipótesis
nula fuera cierta estas diferencias se distribuirían de
forma simétrica en torno a
cero.
Para efectuar esta prueba se calculan las diferencias en
valor absoluto |Xi-M0| y se ordenan de menor a mayor,
asignándoles su rango (número de orden). Si hubiera
dos o más diferencias con igual valor (empates), se les
asigna el rango medio (es decir que si tenemos un empate en las
posiciones 2 y 3 se les asigna el valor 2.5 a ambas). Ahora
calculamos R+ la suma de todos los rangos de las diferencias
positivas, aquellas en las que Xi es mayor que M0 y R-
la suma de todos los rangos correspondientes a las diferencias
negativas. Si la hipótesis nula es cierta ambos
estadísticos deberán ser parecidos, mientras que si
nuestros datos tienen a ser más altos que la mediana
M0, se reflejará en un valor mayor de R+, y al
contrario si son más bajos. Se trata de contrastar si la
menor de las sumas de rangos es excesivamente pequeña para
ser atribuida al azar, o, lo que es equivalente, si la mayor de
las dos sumas de rangos es excesivamente grande.
- Prueba de Wilcoxon para contrastar datos
pareados
El mismo razonamiento lo podemos aplicar cuando tenemos
una muestra de parejas de valores, por ejemplo antes y
después del tratamiento, que podemos denominar (X1,Y1),
(X2,Y2), … ,(Xn,Yn). De la misma forma, ahora calcularemos las
diferencias X1-Y1, X2-Y2, … , Xn-Yn y las ordenaremos en valor
absoluto, asignándoles el rango correspondiente.
Calculamos R+ la suma de rangos positivos (cuando Xi es mayor que
Yi), y la suma de rangos negativos R-. Ahora la hipótesis
nula es que esas diferencias proceden de una distribución
simétrica en torno a cero y si fuera cierta los valores de
R+ y R- serán parecidos.
- Prueba de Mann-Whitney para muestras
independientes
Si tenemos dos series de valores de una variable
continua obtenidas en dos muestras independientes: X1, X2, … ,
Xn, Y1, Y2, … , Ym, procederemos a ordenar conjuntamente todos
los valores en sentido creciente, asignándoles su rango,
corrigiendo con el rango medio los empates. Calculamos luego la
suma de rangos para las observaciones de la primera muestra Sx, y
la suma de rangos de la segunda muestra Sy. Si los valores de la
población de la que se extrajo la muestra aleatoria de X
se localizan por debajo de los valores de Y, entonces la muestra
de X tendrá probablemente rangos más bajos, lo que
se reflejará en un valor menor de Sx del
teóricamente probable. Si la menor de las sumas de rangos
es excesivamente baja, muy improbable en el caso de que fuera
cierta la hipótesis nula, ésta será
rechazada.
Existen más pruebas no paramétricas de
entre las cuales tenemos:
- Prueba de Kruskal-Wallis para comparar K
muestras - Prueba de Friedman para comparar K muestras
pareadas (bloques) - Coeficiente de correlación de Spearman para
rangos - Prueba de rachas de Wald-Wolfowitz
Distribuciones de Probabilidad
Toda distribución de probabilidad es generada por
una variable aleatoria x, la que puede ser de dos
tipos:
- Variable aleatoria discreta (x). Se le denomina
variable porque puede tomar diferentes valores, aleatoria,
porque el valor tomado es totalmente al azar y discreta
porque solo puede tomar valores enteros y un número
finito de ellos.
Ejemplos:
- x® Variable que nos
define el número de burbujas por envase de vidrio que
son generadas en un proceso dado. - x® 0, 1, 2, 3, 4, 5,
etc, etc. burbujas por envase - x® Variable que nos
define el número de productos defectuosos en un lote
de 25 productos. - x® 0, 1, 2,
3,….,25 productos defectuosos en el lote - x® Variable que nos
define el número de alumnos aprobados en la materia de
probabilidad en un grupo de
40 alumnos. - x® 0, 1, 2, 3, 4,
5,….,40 alumnos aprobados en probabilidad
Con los ejemplos anteriores nos damos cuenta claramente
que los valores de la variable x siempre serán enteros,
nunca fraccionarios.
- Variable aleatoria continua (x). Se le denomina
variable porque puede tomar diferentes valores, aleatoria,
porque los valores que toma son totalmente al azar y continua
porque puede tomar tanto valores enteros como fraccionarios y
un número infinito de ellos.
Ejemplos:
- x® Variable que nos
define el diámetro de un engrane en
pulgadas - x® 5.0", 4.99, 4.98,
5.0, 5.01, 5.0, 4.96 - x® Variable que nos
define la longitud de un cable o circuito utilizado en un
arnés de auto - x® 20.5 cm, 20.1,
20.0, 19.8, 20,6, 20.0, 20.0 - x® Variable que nos
define la concentración en gramos de plata de algunas
muestras de mineral - x® 14.8gramos, 12.0,
10.0, 42.3, 15.0, 18.4, 19.0, 21.0, 20.8
Como se observa en los ejemplos anteriores, una variable
continua puede tomar cualquier valor, entero o fraccionario, una
forma de distinguir cuando se trata de una variable continua es
que esta variable nos permite medirla o evaluarla, mientras que
una variable discreta no es medible, es una variable de tipo
atributo, cuando se inspecciona un producto este
puede ser defectuoso o no, blanco o negro, cumple con las
especificaciones o no cumple, etc, etc.
Las variables descritas anteriormente nos generan una
distribución de probabilidad, las que pueden
ser.
- Distribución de probabilidad
discreta. - Distribución de probabilidad
continua.
Las características de cada una de las
distribuciones anteriores se mencionarán a
continuación:
Distribución de probabilidad
discreta
Características:
- Es generada por una variable discreta
(x).
x® Variable que solo toma
valores enteros
x® 0, 1, 2, 3, 4, 5, 6,
7, 8, … etc,etc.
- p(xi)³ 0 Las
probabilidades asociadas a cada uno de los valores que toma x
deben ser mayores o iguales a cero. - S p(xi) = 1 La sumatoria
de las probabilidades asociadas a cada uno de los valores que
toma x debe ser igual a 1.
Cálculo de media y desviación estandar
para una distribución discreta
Donde:
m = media de la
distribuciónE(x) = valor esperado de x
xi = valores que toma la
variablep(xi) = probabilidad asociada a cada uno
de los valores de la variable x- Media o valor esperado de x.- Para determinar la
media de la distribución discreta se utiliza la
siguiente fórmula: - Desviación estándar. Para
determinar la desviación estándar de la
distribución discreta se utiliza la siguiente
fórmula:
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
Donde:
s = desviación
estándar
m = media o valor esperado de
x
xi = valores que toma la variable
x
p(xi) = probabilidad asociada a cada uno de
los valores que toma x
Ejemplos:
Solución:
Haciendo uso de un diagrama de árbol, usando las
literales siguientes, se obtiene el espacio muestral
d como se muestra a
continuación;N = no sufre de algún desperfecto en el
motor los primeros 12 meses de usoS = sufre de algún desperfecto en el
motor los primeros 12 meses de usoPara ver el
gráfico seleccione la opción "Descargar"
del menú superiord = { NNN, NNS, NSN, NSS, SNN, SNS, SSN,
SSS}x = variable que nos define el
número de autos que no sufre de algún
desperfecto en el motor durante los primeros 12 meses de
usox = 0, 1, 2 o 3 autos que no sufren
algún desperfecto en el motor en los primeros 12
meses de usop(x=0)=p(SSS)=(0.02)(0.02)(0.02)=0.000008
p(x=1)=p(NSS,SNS,
SSN)=(0.98)(0.02)(0.02)+(0.02)(0.98)(0.02)+(0.02)(0.02)
(0.98)==0.001176
p(x=2)=p(NNS,NSN,SNN)=(0.98)(0.98)(0.02)+(0.98)(0.02)(0.98)+
(0.02)(0.98)(0.98)==0.057624p(NNN) = (0.98)(0.98)(0.98) =0.941192
Por tanto la media o valor esperado se determina
de la siguiente manera:m =E(x) = (0)(0.000008)+(1)(0.001176)+(2)(0.057624)+(3)(0.94119)=
=0.0+0.001176+0.115248+2.823576=2.94@ 3 autos que no sufren algún
desperfecto en el motor en los primeros 12 meses de
usoLa interpretación de la media o valor
esperado es; se espera que los 3 autos probados no sufran
de algún desperfecto en el motor en los primeros
12 meses de uso.s ==
=±
0.2497@ ± 0.0autos que no sufren algún desperfecto en
su motor en los primeros 12 meses de uso.Interpretación:
En este experimento se espera que los 3 autos
probados no sufran de algún desperfecto en su
motor en los primeros 12 meses de uso y la variabilidad
de este experimento es de cero.Nota:
La media y la desviación estándar
se redondean a un valor entero ya que son la media y
desviación de una distribución de
probabilidad discreta.- Según estadísticas la probabilidad de
que el motor
de un auto nuevo, de cierto modelo, y marca
sufra de algún desperfecto en los primeros 12
meses de uso es de 0.02, si se prueban tres
automóviles de esta marca y modelo, encuentre el
número esperado de autos
que no sufren de algún desperfecto en los primeros
doce meses de uso y su desviación
estándar.Solución:
También haciendo uso de in diagrama de
árbol, se obtiene el espacio muestral da)
D = objeto defectuoso
N = objeto no defectuoso
d ={ DDD, DDN, DND, DNN, NDD, NDN, NND,
NNN}Este espacio muestral ha sido obtenido haciendo
uso de un diagrama de árbol,x = Variable que nos define el número de
objetos defectuosos encontradosx = 0, 1, 2 o 3 objetos defectuosos
p(x=0)=p(NNN)=(0.9)(0.9(0.9)=0.729
p(x=1)=p(DNN, NDN,
NND)=(0.1)(0.9)(0.9)+(0.9)(0.1)(0.9)+(0.9)(0.9)(0.1)=0.243p(x=2)=p(DDN, DND,
NDD)=(0.1)(0.1)(0.9)+(0.1)(0.9)(0.1)+(0.9)(0.1)(0.1)=0.027p(x=3)=p(DDD)=(0.1)(0.1)(0.1)=0.001
Distribución de
probabilidad - Se ha detectado en una línea de producción que 1 de cada 10
artículos fabricados es defectuoso; se toman de esa
línea tres artículos uno tras otro, a)
obtenga la distribución de probabilidad del
experimento, b) encuentre el número esperado de
artículos defectuosos en esa muestra y su
desviación estándar.
x
0
1
2
3
P(x)
0.729
0.243
0.027
0.001
b) (0)(0.729)+(1)(0.243)+(2)(0.027)+(3)(0.001)=
= 0.0 + 0.243 + 0.054 + 0.003 = 0.3 @ 0 productos defectuosos
Interpretación:
Se espera que ninguno de los productos
inspeccionados sea defectuoso.=± 0.6
=± 1 producto
defectuosoInterpretación:
En este experimento se espera que ninguno de los
productos inspeccionados sea defectuoso, pero los resultados
de este experimento pueden variar en ± 1 producto defectuoso, por lo que al
inspeccionar los 3 productos el numero de productos
defectuosos puede variar desde –1 producto defectuoso,
hasta 1 producto defectuoso, pero, ¿es posible obtener
–1 producto defectuoso?, claro que esto no puede
ocurrir, luego el número de productos defectuosos en
el experimento variará de 0 a 1 producto defectuoso
solamente.Solución:
Se obtiene el espacio muestral d , de la misma forma que se ha hecho en los
ejemplos anteriores;B = se puede el pozo que se perfora
N = no se puede beneficiar el pozo que se
perforad = { BBB, BBN, BNB, BNN, NBB, NBN, NNB,
NNN}x = variable que nos define el número de
pozos que se pueden beneficiarx = 0, 1, 2 o 3 pozos que se pueden
beneficiarp’(x = 0) = p(NNN) = (0.7)(0.7)(0.7)=
0.343p(x = 1) = p(BNN, NBN, NNB) =
(0.3)(0.7)(0.7)(3)=0.441p(x = 2) = p(BBN, BNB, NBB) =
(0.3)(0.3)(0.7)(3)=0.189p(x = 3) = p(BBB) =(0.3)(0.3)(0.3)= 0.027
@ 1 pozo
beneficiadoInterpretación:
Se espera que solo 1 de los tres pozos perforados
sea el que pueda ser beneficiado.Interpretación:
La cantidad esperada de pozos que se pueden
beneficiar puede variar en 1 ± 1 pozo, esto es la cantidad de pozos
que se pueden beneficiar puede variar de 0 a 2
pozos.- Según estadísticas, la probabilidad de
que un pozo petrolero que se perfore en cierta región
pueda ser beneficiado es de 0.30. Se perforan tres pozos en esa
región, encuentre el número esperado de pozos que
pueden ser beneficiados y su desviación
estándar. - La distribución de probabilidad de x
, el número de defectos por cada 10 metros de una tela
sintética en rollos continuos de ancho uniforme ,
es
x | 0 | 1 | 2 | 3 | 4 |
p(x) | 0.41 | 0.37 | 0.16 | 0.05 | 0.01 |
- Determine la distribución de probabilidad
acumulada de x; P(x). - Determine el número esperado de defectos por
cada 10 metros de tela sintética en rollos continuos de
ancho uniforme y la desviación estándar del
número de defectos por cada 10 metros de tela
….. - Determine la probabilidad de que en 10 metros de tela
sintética se encuentren como máximo 2
defectos. - Determine la probabilidad de que en 10 metros de tela
sintética se encuentren por lo menos 2
defectos.
Solución:
a)
X | 0 | 1 | 2 | 3 | 4 |
p(x) | 0.41 | 0.37 | 0.16 | 0.05 | 0.01 |
P(x) | 0.41 | 0.78 | 0.94 | 0.99 | 1.0 |
b)
@ 1 defecto
Interpretación:0.16, 0.05 ,0.01
Se espera que por cada 10 metros de tela se encuentre un
defecto.
Interpretación:
El número de defectos esperado puede variar en
± 1 defecto, es decir que el
número de defectos esperado por cada 10 metros de tela
puede variar de 0 a 2.
c) p(x £ 2)= p(x=0) +
p(x=1) + p(x=2) = 0.41+0.37+0.16 = 0.94
d) p(x ³ 2) = p(x=2) +
p(x=3) + p(x=4) = 0.16 + 0.05 + 0.01= 0.22
Ejemplo: Consideremos a la variable aleatoria
X como la cantidad de águilas observadas cuando se
lanzan dos volados. El espacio muestral es el conjunto
{AA, AS, SA, SS} y se puede ver que
la variable X puede tomar como valores 0, 1 y
2.
Calculando las probabilidades tenemos:
P(de no | = | P(SS) | = | P(X=0) | = | ¼ |
P(de observar | = | P(SA | = | P(X=1) | = | 2/4 |
P(de observar | = | P(AA) | = | P(X=2) | = | ¼ |
Si ahora se organizan estos resultados con el siguiente
formato
X | P(X=x) |
0 | ¼ |
1 | 2/4 |
2 | ¼ |
se podrá explicar por qué se usa el nombre
"distribución de probabilidad". E, incluso, con esta
información se puede construir una
gráfica de barras o un histograma como el que
sigue:
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Las propiedades de las distribuciones de variables
discretas son dos, y que posteriormente, al hablar de las
distribuciones de variables continuas, se repetirán de
manera muy similar:
- 0 P(X=x)
1. - P(X=x) = 1, o que es lo
mismo: la suma de todas las probabilidades de los eventos
posibles de una variable aleatoria es igual a la
unidad.
Hay que hacer notar que estas propiedades se enuncian
suponiendo que conocemos el valor de la probabilidad, pero
en la realidad ésto no ocurre, es decir que no
sabemos la probabilidad y lo que se hace es trabajar con
estimaciones. Precisamente esto nos lleva a modelos
teóricos que estiman los resultados, los
principales son los que a continuación se
presentan.
Modelos de distribuciones de probabilidad de
variables discretas
- Uniforme. Es la distribución donde
todos los eventos elementales tienen la misma probabilidad. Por
ejemplo: tirar un dado, donde la función
P(X=x)=1/6 para
valores de x=1,2,3,4,5,6. - Binomial. Es la que maneja la
distribución de la probabilidad de obtener cierta
cantidad de éxitos al realizar una cantidad de experimentos
con probabilidad de éxito
constante y con ensayos
independientes. - Geométrica. Es la distribución
de la probabilidad de realizar cierto número de
experimentos antes de obtener un éxito. - Hipergeométrica. Es similar a la
binomial, pero con un tamaño de muestra grande en
relación al tamaño de la población. La
función de Excel que proporciona sus valores
es
DISTR.HIPERGEOM
De Poisson. Es la distribución de la
probabilidad de que ocurra un evento raro en un periodo de
tiempo, un espacio o un lugar. La función de Excel
que da los valores de la distribución es
POISSON
Distribución de probabilidad
continua
Características:
x® Es una variable
que puede tomar tanto valores enteros como
fraccionarios.x® 1.0, 3.7, 4.0,
4.6, 7.9, 8.0, 8.3, 11.5, …..,¥- Es generada por una variable continua
(x). - f(x)³ 0 Las
probabilidades asociadas a cada uno de los valores que toma x
deben ser mayores o iguales a cero. Dicho de otra forma, la
función de densidad de probabilidad deberá tomar
solo valores mayores o iguales a cero. La función de
densidad de probabilidad sólo puede estar definida en
los cuadrantes I y II. - La sumatoria de las probabilidades asociadas a cada
uno de los valores que toma x debe ser igual a 1. El
área definida bajo la función de densidad de
probabilidad deberá ser de 1.
Hasta el momento se han considerado las distribuciones
de probabilidad para variables discretas, donde se podía
asignar el valor que toma la función de probabilidad
cuando la variable aleatoria tomaba un valor en concreto. Sin
embargo, al considerar las variables continuas se encuentra uno
el problema de que, lo más probable, los datos que se
puedan recabar no sean completamente exactos, o dos o más
de ellos no coincidan, por lo que se tienen que trabajar en
intervalos y, en ese momento, modelar una función se
convierte en un problema serio.
Sin embargo, se pueden realizar aproximaciones y
describir la probabilidad a través de modelos
teóricos de probabilidad cuya gráfica es una
línea continua, a diferencia de las variables discretas
que le corresponde un histograma.
Para clarificar cómo se realiza esta
aproximación al modelo teórico consideremos el
siguiente caso:
Se han registrado los tiempos que le tomó a una
empresa de
mensajería entregar 190 paquetes con destinatarios
diferentes dentro de una misma ciudad. Los datos se han agrupado
en una distribución de frecuencias considerando intervalos
de cinco días como sigue:
Para ver el cuadro seleccione la
opción "Descargar" del menú superior
Supongamos que un posible cliente,
conociendo esta información, quisiera saber qué
probabilidad tiene de que su paquete sea entregado en dos
días. El problema es que al manejar intervalos de cinco
días estamos suponiendo que dentro de cada intervalo los
datos se distribuyen uniformemente, cosa que no es
real.
Podríamos aumentar la muestra y seguir recogiendo
información para hacer una distribución de
frecuencias similar a la anterior, pero se tendría el
mismo problema: dentro de cada intervalo se está
presuponiendo que los datos se distribuyen
uniformemente.
Otra posible solución es reducir la amplitud de
los intervalos, de tal suerte que podríamos tomar una
amplitud de tres días por intervalo y hacer la siguiente
distribución de frecuencias:
Para ver el cuadro seleccione la
opción "Descargar" del menú superior
Al seguir reduciendo la amplitud a dos días se
obtiene la distribución:
Para ver el cuadro seleccione la
opción "Descargar" del menú superior
Y al reducirla a intervalos de un día se tiene la
distribución:
Para ver el cuadro seleccione la
opción "Descargar" del menú superior
Ahora, veamos. Lo que le interesa al futuro cliente es
la probabilidad de que se haga una entrega en un cierto tiempo,
por lo que habría que considerar las frecuencias relativas
y, como antes, reducir la amplitud de los intervalos. Con esto se
obtendrían las siguientes distribuciones de
frecuencias:
Para ver los cuadros seleccione la
opción "Descargar" del menú superior
Intervalos de dos
días
Intervalos de un
día
Y podríamos graficar tal información en
histogramas para poder ver cómo se aproximan, si es que
ocurre, los valores a una curva continua:
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
donde las barras rosas (y la
línea roja) corresponden a los intervalos de cinco
días; las barras y línea azules, a los intervalos
de tres días; las barras y línea amarillas, a los
intervalos de dos días; y las barras y líneas
verdes, a los intervalos de un día.
Se han incluido de una vez las líneas que unen
los puntos medios de las
barras del histograma porque se puede ver que las barras de las
frecuencias relativas se "achaparran" y las líneas
graficadas están tan separadas del lado izquierdo (en este
caso) que no se puede hablar de una aproximación continua
a una sóla línea.
Una posible solución es utilizando la densidad
del intervalo, que se va a definir como el cociente de la
frecuencia relativa entre la amplitud del intervalo:
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
(De hecho, existe la
función de densidad de una
distribución de probabilidad, de donde se deriva esta
definición de densidad del intervalo.)
De esta manera, a las distribuciones de frecuencias
anteriores se les puede añadir la columna correspondiente
a la densidad:
Intervalos de cinco días
Intervalos de tres días
Intervalos de dos días
Intervalos de un día
Para ver los cuadros seleccione la
opción "Descargar" del menú superior
y realizar los histogramas correspondientes, que quedan
como sigue:
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
donde las barras rosas, y la línea roja,
corresponden a los intervalos de cinco días; las barras y
línea verdes, a los intervalos de tres días; las
barra y línea amarillas, a los intervalos de dos
días; y las barras y línea azules, a los intervalos
de un día.
Igual que en el caso anterior, se han graficado
simultáneamente las barras y las líneas que unen
los puntos medios de éstas para observar que con la
densidad sí se aproximan los histogramas a una
línea continua (que la mejor aproximación
presentada es la línea azul) cuando los intervalos se
reducen continuamente.
El resultado es una línea continua que es la
gráfica de una cierta función denominada
función de densidad de la distribución
probabilística.
Ahora, considerando la manera en que se definió
la
densidad de un intervalo como:
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
y recordando que la frecuencia relativa es la
probabilidad de un evento (en el ejemplo de la mensajería
sería la probabilidad de entregar un paquete dentro de un
intervalo dado de tiempo):
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Entonces, despejando en el primer cociente la frecuencia
relativa e igualando con esta segunda expresión obtenemos
que
probabilidad del evento = (densidad del
intervalo)· (amplitud del intervalo)
Es decir, que la probabilidad de que ocurra un evento
corresponde al área de las barras del histograma hecho
tomando en cuenta la densidad de los intervalos; y que cuando
tales intervalos tienen una amplitud que tiende a cero, y la
gráfica se convierte en la curva continua de la
función de densidad, entonces la probabillidad de que un
evento ocurra en un intervalo (a,b) es el
área bajo la curva de la función en ese
intervalo:
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
y, por tanto, el cálculo de tal probabilidad se
realiza utilizando cálculo integral:
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
donde f(x) es la función de
densidad de la distribución probabilística
correspondiente.
Hay que estar conscientes de que en el caso de las
variables continuas sólo se puede calcular la probabilidad
de que un evento caiga dentro de un intervalo, debido a que la
exactitud de los instrumentos de
medición siempre es relativa y muy lejana a la
"exactitud" de los cálculos matemáticos.
Por esto, la probabilidad de que la variable aleatoria
tome un valor exacto es nula:
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Esto se puede explicar de la siguiente manera: si, como
ya dijimos, la probabilidad (frecuencia relativa) es igual a la
densidad del intervalo por la amplitud del intervalo, entonces no
importa qué tan grande sea la densidad de tal intervalo
porque, como ya también se dijo, por ser variable continua
la amplitud del intervalo tiende a cero y, por tanto, la
probabilidad es igual a cero.
Modelos de distribución de probabilidad de
variables continuas
Al igual que en el caso de las distribuciones de
probabilidad de variables discreta, en el caso de las
distribuciones de probabilidad de variables continuas se tienen
varios modelos teóricos que en seguida
presentamos.
A la derecha de cada modelo aparece la
función de densidad correspondiente
a cada modelo.
- Uniforme. Es la distribución en donde todos
los eventos tienen la misma probabilidad.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
- Exponencial. Se utiliza para estudiar el tiempo entre
dos sucesos. La función de Excel que le
corresponde es
DISTR.EXP.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
- Beta. Sirve para el estudio de variaciones, a
través de varias muestras, de un porcentaje que
representa algún fenómeno. La
función
DISTR.BETA del Excel sirve para
obtener sus valores; y la función
DISTR.BETA.INV proporciona los valores
inversos de la función, es decir, se utiliza como
parámetro la imagen de la
función y regresa la variabla independiente.
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
- Gamma. Se utiliza para estudiar variables cuya
distribución puede ser asimétrica. La
función de Excel que le corresponde es
DISTR.GAMMA; y la función
DISTR.GAMMA.INV es la inversa de la
anterior.
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
- ji cuadrada (c²). Es una distribución
asociada a la prueba c², y se usa para comparar los
valores observados con los esperados. La función
DISTR.CHI de Excel sirve para
este
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
- Normal. Es la distribución más
utilizada porque la mayoría de las variables utilizadas
en fenómenos sociales se distribuyen aproximadamente
siguiendo este modelo. Es la que tocaremos a
continuación y se le llama comúnmente
distribución normal.
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
Calculo de media y desviación estándar
para una distribución continua
Para ver la fórmula
seleccione la opción "Descargar" del menú
superiorDonde:
m = E(x) = media o valor
esperado de la distribuciónx = variable aleatoria continua
f(x) = función de densidad de la
distribución de probabilidad- Media o valor esperado de x.- Para calcular la media
de una distribución de probabilidad continua se utiliza
la siguiente fórmula: - Desviación estándar.- La fórmula
para determinar la desviación estándar de una
distribución continua es;
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
luego:
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
Ejemplo:
cuando 0£ x £ 3, f(x) = 0 para cualquier otro
valor- Diga si esta función nos define una
distribución de probabilidad. - Si la función define una
distribución de probabilidad, entonces, determine
su media y desviación estándar. - Determine la probabilidad de que 1£ x <
2.
- Diga si esta función nos define una
- Para la siguiente función,
Solución:
- x ® sí
es una variable continua porque puede tomar cualquier
valor entre 0 y 3 - f(x)³ 0, lo
que se comprueba si damos diferentes valores a x para
ver que valores toma f(x), dándonos cuenta de
que efectivamente f(x) solo toma valores mayores o
iguales a cero.
x
f(x)
0
0.0
0.5
0.02778
1.0
0.11111
1.4
0.21778
2.1
0.49
2.7
0.81
3.0
1.0
- x ® sí
- Para comprobar que la sumatoria de las
probabilidades que toma cada valor de x es de 1, se integra
la función de 0 a 3 como se muestra a
continuación:
Para ver la fórmula
seleccione la opción "Descargar" del menú
superiorA= área bajo la función
Con las operaciones
anteriores comprobamos que la función sí nos define
una distribución de probabilidad continua.- Para verificar que la función nos define una
distribución de probabilidad, es necesario que cumpla
con las características que se habían
mencionado. - Cálculo de media y desviación
estándar.
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
Las barrasnos indican la evaluación
de la integral entre 0 y 3.
c) Para ver la
fórmula seleccione la opción "Descargar" del
menú superior
La barra nos indica la evaluación de la integral
de 1 a 2.
Con las operaciones anteriores nos damos cuenta que para
evaluar probabilidades para variables de tipo continuo, es
necesario evaluar la función de densidad de probabilidad
en el rango de valores que se desea; que vendría siendo el
área que se encuentra entre f(x) y el eje de las x y entre
el rango de valores definidos por la variable x.
, para -1< x < 2 y f(x)= 0 en cualquier otro
caso- Verifique la tercera condición de la
definición de una distribución de
probabilidad continua. - Determine la media o valor esperado de la
distribución de probabilidad. - Encuentre la probabilidad de que 0< x £
1.
- Verifique la tercera condición de la
- Suponga que el error en la temperatura de
reacción, en oC, para un experimento
controlado de laboratorio
es una variable aleatoria continua x, que tiene la
función de densidad de probabilidad:
Solución:
- Como la tercera condición es que la sumatoria
de las probabilidades asociadas a cada uno de los valores que
toma x debe de ser 1, esto se comprueba de la siguiente
manera:
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
Distribuciones simétricas y distribuciones
sesgadas
Se dice que la distribución es simétrica
si se puede dividir en dos mitades que parecen ser la imagen una
de la otra. En estos casos las frecuencias en los extremos de la
distribución son idénticas. La gráfica puede
tener diferentes formas. Una de estas formas es la de
campana.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Otra forma es la rectangular
Si la distribución tiene algunos valores extremos
muy bajos, entonces en la gráfica se nota una cola larga y
fina hacia la izquierda de la distribución y se dice que
la distribución está sesgada negativamente o que
tiene un sesgo a la izquierda.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Si la distribución tiene algunos valores extremos
altos, entonces en la gráfica se nota una cola larga y
fina hacia la derecha de la distribución y se dice que la
distribución está sesgada positivamente o que tiene
un sesgo a la derecha.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
La relación entre la gráfica de la
distribución y las medidas de tendencia central y
dispersión
En distribuciones unimodales cuando la media, la
moda y la mediana coinciden la distribución es
simétrica.Para ver el gráfico
seleccione la opción "Descargar" del menú
superiorEjemplo
La media, mediana y moda coinciden en la
distribución- Distribuciones unimodales cuando la media, la
moda y la
mediana coinciden - Distribuciones unimodales cuando la media, la moda
y la mediana no coinciden
En distribuciones unimodales cuando la media, la moda y
la mediana no coinciden la distribución es
sesgada.
Si la media es mayor que la mediana (la media a la
derecha de la mediana) entonces la distribución
está sesgada a la derecha (positivamente)
Ejemplo
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Si la media es menor que la mediana (la media a la
izquierda de la mediana) entonces la distribución
está sesgada a la izquierda (negativamente)
Ejemplo
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Nota
En estos casos la media siempre está más
cerca del sesgo que la mediana.
Relación entre las gráficas de dos distribuciones con medidas
de tendencia central y dispersión iguales o
diferentes
Si dos distribuciones tienen la misma
desviación estándar, pero medias diferentes;
entonces van a tener la misma forma. La diferencia consiste
en que se encuentran desplazadas a lo largo del eje de
x.Para ver el gráfico
seleccione la opción "Descargar" del menú
superior- Dos distribuciones con desviación
estándar igual, pero medias diferentes - Dos distribuciones con medias iguales pero
desviación estándar diferentes
Si dos distribuciones tienen la misma media, pero sus
desviaciones estándar son diferentes; entonces se
diferencian en que la que tiene la desviación
estándar más pequeña tiene los valores
más concentrados alrededor de la media y por lo tanto es
más "alta".
Ejercicio
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
La relación entre la gráfica de la
distribución y la gráfica de caja y
bigote.
Para ver el gráfico
seleccione la opción "Descargar" del menú
superior- Si ambas partes de la caja son iguales (la mediana en
el medio de la caja) y los dos bigotes también son
iguales, aunque algo más largos que las partes de la
caja entonces la distribución tiene tipo de campana
(bell shaped distribution)Para ver el gráfico
seleccione la opción "Descargar" del menú
superior- Si los bigotes y las partes de la caja son
todos del mismo largo, entonces la distribución es
rectangular o uniforme. Tiene la misma frecuencia en cada
uno de sus valores. - Si los bigotes son cortos y la caja muy larga
la distribución tiene forma de U, con mucha
concentración de valores en los
extremos.
- Si los bigotes y las partes de la caja son
- Si los bigotes son diferentes y la mediana no se
encuentra en el medio de caja entonces la distribución
está sesgada. Negativamente, si el bigote y la parte
de la caja largos se encuentran a la izquierda.
Positivamente, si el bigote y la parte de la caja largos se
encuentran a la derecha.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Una
distribución de frecuencia es una tabla
de resumen en la que los datos se disponen en agrupamientos o
categorías convenientemente establecidas de clases
ordenadas numéricamente.
En esta forma las características más
importantes de los datos se aproximan muy fácilmente,
compensando así el hecho de que cuando los datos se
agrupan de ese modo, la información inicial referente a
las observaciones individuales de que antes se disponía se
pierde a través del proceso de agrupamiento o
condensación.
La principal ventaja de usar una de estas tablas de
resumen es que las principales características de los
datos se hacen evidentes inmediatamente para el lector.
La principal desventaja de tal tabla de resumen es que no podemos
saber como se distribuyen
los valores individuales dentro de un
intervalo de clase particular sin tener acceso a los datos
originales. El punto medio de la clase, sin embargo, es el valor
usado para representar todos los datos resumidos en un intervalo
particular.
El punto medio de una clase (o marca de clase) es el
punto a la mitad de los límites de cada clase y es
representativo de los datos de esa clase.
La probabilidad es la posibilidad u oportunidad de que
suceda un evento particular. La probabilidad involucrada es una
porción o fracción cuyo valor varía entre
cero y uno exclusivamente. Observamos un evento que no tiene
posibilidad de ocurrir (es decir, el evento nulo), tiene una
probabilidad de cero, mientras que un evento que seguramente
ocurrirá (es decir, el evento cierto), tiene una
probabilidad de uno.
La regla mas evidente para las probabilidades es que
deben variar en valor de 0 a 1. Un evento imposible tiene una
probabilidad cero de ocurrir, y un evento cierto tiene una
probabilidad uno de ocurrir. La probabilidad simple se refiere a
la probabilidad de ocurrencia de un evento simple.
Una distribución de probabilidad para una
variable aleatoria discreta es un listado mutuamente excluyente
de todos los resultadosposibles para esa variable aleatoria, tal
que una probabilidad particular de ocurrencia esté
asociada con cada resultado.
Esperanza Matemática
La media de una distribución de probabilidad es
el valor esperado de su variable aleatoria.
El valor esperado de una variable aleatoria discreta puede
considerarse como su promedio pesadoo sobre todos los resultados
posibles, siendo los pesos la probabilidad asociada con cada uno
de los resultados.
Todos los procedimientos paramétricos tienen tres
características distintivas: Los procedimientos de prueba
paramétricos pueden definirse como aquellos 1)que
requieren que el nivel de medición obtenido con los datos
recolectados esté en forma de una escala de intervalo o de
una escala de cociente; 2)implican la prueba de hipótesis
de valores de parámetros especificados 3) y por
último requieren un conjunto limitante de
suposiciones.
Procedimientos sin distribución y no
paramétricos
Los procedimientos de prueba sin
distribución pueden definirse ampliamente como 1) aquellos
cuya estadística de prueba no depende de la forma de la
distribución de la población subyacente de la cual
se tomó la muestra de datos o como 2) aquellos para los
cuales los datos no tienen
fuerza suficiente para garantizar
operaciones aritméticas
significativas.
Una distribución chi-cuadrado es una
distribución sesgada cuya forma depende exclusivamente del
número de grados de libertad. Conforma este aumenta, la
distribución se vuelve más
simétrica.
http://64.233.161.104/search?q=cache:kVRhh2rdptMJ:www.bio.puc.cl/cursos/bio242a/Aleat.doc+valor+esperado&hl=es&ie=UTF-8
http://centros.edu.xunta.es/iesaslagoas/metodosesta/estatistica/Distrivariable.htm
http://descartes.cnice.mecd.es/Bach_HCS_2/distribuciones_probabilidad/index_discont.htm- http://enciclopedia.us.es/index.php/Variable_aleatoria
- http://es.geocities.com/riotorto/nopa/nopa.htm
- http://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_probabilidad
- http://es.wikipedia.org/wiki/Valor_esperado
- http://es.wikipedia.org/wiki/Variable_aleatoria
http://e-stadistica.bio.ucm.es/glosario/var_aleatoria.html
http://estio.ujaen.es/Asignaturas/FacSoc/estadI2/relacion6.pdf- http://ftp.medprev.uma.es/libro/node61.htm
- http://ftp.medprev.uma.es/libro/node68.htm
http://metodosestadisticos.unizar.es/asignaturas/15909/ficheros/Tema9.pdf
http://nutriserver.com/Cursos/Bioestadistica/Distribuciones_Discretas.html
http://personal5.iddeo.es/ztt/Tem/t18_variable_aleatoria_discreta.htm- http://rrpac.upr.clu.edu:9090/~amanend/pr206390.htm
- http://rrpac.upr.clu.edu:9090/~amenend/conf146390.htm#_Toc6537271
- http://rrpac.upr.clu.edu:9090/~amenend/conf76390.htm
- http://rrpac.upr.clu.edu:9090/~amenend/conf76390.htm#_Toc5503471
- http://sapiens.ya.com/matagus/unidad6.htm
http://server2.southlink.com.ar/vap/VARIABLE%20ALEATORIA.htm
http://thales.cica.es/rd/Recursos/rd99/ed99-0191-03/valoresp.htm
http://www.atheneum.doyma.es/Socios/sala_l/lec03est.htm
http://www.aulafacil.com/CursoEstadistica/CursoEstadistica.htm
http://www.cnice.mecd.es/Descartes/Bach_HCS_2/Distribuciones_probabilidad_continuas/normal.htm
http://www.cnice.mecd.es/Descartes/Bach_HCS_2/Distribuciones_probabilidad_continuas/dist_continuas.htm
http://www.cnice.mecd.es/Descartes/Bach_HCS_2/Distribuciones_probabilidad_continuas/distribuciones_probabilidad.htm- http://www.diariomedico.com/infecciosas/n171199c.html
http://www.e-biometria.com/ebiometria/conceptos_basicos/manejando_la_informacion.htm- http://www.fvet.edu.uy/estadis/distribuprobab.htm#función
de distribución - http://www.fvet.edu.uy/estadis/varaleat.htm#aleatorias
http://www.gestiopolis.com/canales/financiera/articulos/36/estapro.htm
http://www.gestiopolis.com/recursos/experto/catsexp/pagans/eco/45/probabeco.htm- http://www.hrc.es/bioest/estadis_21.html
http://www.itch.edu.mx/academic/industrial/sabaticorita/_private/04Distribuciones%20de%20Probabilidad.htm- http://www.medal.org.ar/stadhelp/Std00012.htm
http://www.sc.ehu.es/sbweb/fisica/cursoJava/numerico/montecarlo/aleatoria/aleatoria.htm- http://www.seh-lelha.org/noparame.htm
http://www.terra.es/personal2/jpb00000/tvariablealeatoria.htm
http://www.tsc.uvigo.es/BIO/Docencia/CSA/Problemas/TablatChi.pdf- http://www.uaq.mx/matematicas/estadisticas/xu4-5.html#t9
- http://www.uv.mx/iiesca/revista2/bety1.html
http://www.virtual.unal.edu.co/cursos/ciencias/2001065/lecciones_html/un2/2_5_4.html
http://www.virtual.unal.edu.co/cursos/sedes/manizales/4030011/lecciones/cap2/cap_2_pag_7.html- http://zip.rincondelvago.com/?00018796
- http://zip.rincondelvago.com/?00020483
Para ver los anexos seleccione la
opción "Descargar" del menú superior
Integrantes:
LAREZ, Liliana
MARÍN, Mayuris
ORTIZ, Lilibeth
PARRA, Isaac
SANTAELLA, Yscar
ZORZINI, Pier Angeli
El Tigre, marzo de 2005
República Bolivariana de Venezuela
Ministerio de Educación
Superior – Instituto Universitario de
Tecnología
"José Antonio Anzoátegui"
El Tigre – Edo. Anzoátegui