- Modelos de distribución
de probabilidad de variables continuas - Cálculo de media y
desviación estándar para una distribución
continua - Bibliografía
x® Es una variable
que puede tomar tanto valores
enteros como fraccionarios.x® 1.0, 3.7, 4.0,
4.6, 7.9, 8.0, 8.3, 11.5, …..,¥- Es generada por una variable continua
(x). - f(x)³ 0 Las
probabilidades asociadas a cada uno de los valores
que toma x deben ser mayores o iguales a cero. Dicho de otra
forma, la función
de densidad de
probabilidad deberá tomar solo valores mayores o iguales
a cero. La función de densidad de probabilidad
sólo puede estar definida en los cuadrantes I y
II. - La sumatoria de las probabilidades asociadas a cada
uno de los valores que toma x debe ser igual a 1. El
área definida bajo la función de densidad de
probabilidad deberá ser de 1.
Hasta el momento se han considerado las distribuciones
de probabilidad para variables
discretas, donde se podía asignar el valor que toma
la función de probabilidad cuando la variable aleatoria
tomaba un valor en concreto. Sin
embargo, al considerar las variables continuas se encuentra uno
el problema de que, lo más probable, los datos que se
puedan recabar no sean completamente exactos, o dos o más
de ellos no coincidan, por lo que se tienen que trabajar en
intervalos y, en ese momento, modelar una función se
convierte en un problema serio.
Sin embargo, se pueden realizar aproximaciones y
describir la probabilidad a través de modelos
teóricos de probabilidad cuya gráfica es una
línea continua, a diferencia de las variables discretas
que le corresponde un histograma.
Para clarificar cómo se realiza esta
aproximación al modelo
teórico consideremos el siguiente caso:
Se han registrado los tiempos que le tomó a
una empresa de
mensajería entregar 190 paquetes con destinatarios
diferentes dentro de una misma ciudad. Los datos se han agrupado
en una distribución de frecuencias considerando
intervalos de cinco días como sigue:
Tiempo de entrega | No. de |
[0,5) | 115 |
[5,10) | 31 |
[10,15) | 17 |
[15,20) | 12 |
[20,25) | 10 |
[25,30) | 5 |
Supongamos que un posible cliente,
conociendo esta información, quisiera saber qué
probabilidad tiene de que su paquete sea entregado en dos
días. El problema es que al manejar intervalos de cinco
días estamos suponiendo que dentro de cada intervalo los
datos se distribuyen uniformemente, cosa que no es
real.
Podríamos aumentar la muestra y seguir
recogiendo información para hacer una distribución
de frecuencias similar a la anterior, pero se tendría el
mismo problema: dentro de cada intervalo se está
presuponiendo que los datos se distribuyen
uniformemente.
Otra posible solución es reducir la amplitud de
los intervalos, de tal suerte que podríamos tomar una
amplitud de tres días por intervalo y hacer la siguiente
distribución de frecuencias:
Tiempo de entrega | No. de |
[0,3) | 93 |
[3,6) | 30 |
[6,9) | 18 |
[9,12) | 13 |
[12,15) | 9 |
[15,18) | 8 |
[18,21) | 6 |
[21,24) | 6 |
[24,27) | 4 |
[27,30) | 3 |
Al seguir reduciendo la amplitud a dos días se
obtiene la distribución:
Tiempo de entrega | No. de |
[0,2) | 76 |
[2,4) | 29 |
[4,6) | 18 |
[6,8) | 13 |
[8,10) | 10 |
[10,12) | 8 |
[12,14) | 6 |
[14,16) | 6 |
[16,18) | 5 |
[18,20) | 4 |
[20,22) | 4 |
[22,24) | 4 |
[24,26) | 3 |
[26,28) | 2 |
[28,30) | 2 |
Y al reducirla a intervalos de un día se tiene la
distribución:
Tiempo de entrega | No. de |
[0,1) | 51 |
[1,2) | 25 |
[2,3) | 17 |
[3,4) | 12 |
[4,5) | 10 |
[5,6) | 8 |
[6,7) | 7 |
[7,8) | 6 |
[8,9) | 5 |
[9,10) | 5 |
[10,11) | 4 |
[11,12) | 4 |
[12,13) | 3 |
[13,14) | 3 |
[14,15) | 3 |
[15,16) | 3 |
[16,17) | 3 |
[17,18) | 2 |
[18,19) | 2 |
[19,20) | 2 |
[20,21) | 2 |
[21,22) | 2 |
[22,23) | 2 |
[23,24) | 2 |
[24,25) | 2 |
[25,26) | 1 |
[26,27) | 1 |
[27,28) | 1 |
[28,29) | 1 |
[29,30) | 1 |
Ahora, veamos. Lo que le interesa al futuro cliente es
la probabilidad de que se haga una entrega en un cierto tiempo, por lo
que habría que considerar las frecuencias relativas y,
como antes, reducir la amplitud de los intervalos. Con esto se
obtendrían las siguientes distribuciones de
frecuencias:
Intervalos de dos
días
Intervalos de un
día
Y podríamos graficar tal información en
histogramas para poder ver
cómo se aproximan, si es que ocurre, los valores a una
curva continua:
donde las barras rosas (y la
línea roja) corresponden a los intervalos de cinco
días; las barras y línea azules, a los intervalos
de tres días; las barras y línea amarillas, a los
intervalos de dos días; y las barras y líneas
verdes, a los intervalos de un día.
Se han incluido de una vez las líneas que unen
los puntos medios de las
barras del histograma porque se puede ver que las barras de las
frecuencias relativas se "achaparran" y las líneas
graficadas están tan separadas del lado izquierdo (en este
caso) que no se puede hablar de una aproximación continua
a una sóla línea.
Una posible solución es utilizando la densidad
del intervalo, que se va a definir como el cociente de la
frecuencia relativa entre la amplitud del intervalo:
(De hecho, existe la
función de densidad de una
distribución de probabilidad, de donde se deriva esta
definición de densidad del intervalo.)
De esta manera, a las distribuciones de frecuencias
anteriores se les puede añadir la columna correspondiente
a la densidad:
Intervalos de cinco días
Intervalo | frec. | frec. rel. | densidad |
[0,5) | 115 | 0.605 | 0.121 |
[5,10) | 31 | 0.163 | 0.033 |
[10,15) | 17 | 0.089 | 0.018 |
[15,20) | 12 | 0.063 | 0.013 |
[20,25) | 10 | 0.053 | 0.011 |
[25,30) | 5 | 0.026 | 0.005 |
Intervalos de tres días
Intervalo | frec. | frec. rel. | densidad |
[0,3) | 93 | 0.489 | 0.163 |
[3,6) | 30 | 0.158 | 0.053 |
[6,9) | 18 | 0.095 | 0.032 |
[9,12) | 13 | 0.068 | 0.023 |
[12,15) | 9 | 0.047 | 0.016 |
[15,18) | 8 | 0.042 | 0.014 |
[18,21) | 6 | 0.032 | 0.011 |
[21,24) | 6 | 0.032 | 0.011 |
[24,27) | 4 | 0.021 | 0.007 |
[27,30) | 3 | 0.016 | 0.005 |
Intervalos de dos días
Intervalos de un día
Intervalo | frec. | frec. rel. | densidad |
[20,21) | 2 | 0.011 | 0.011 |
[21,22) | 2 | 0.011 | 0.011 |
[22,23) | 2 | 0.011 | 0.011 |
[23,24) | 2 | 0.011 | 0.011 |
[24,25) | 2 | 0.011 | 0.011 |
[25,26) | 1 | 0.005 | 0.005 |
[26,27) | 1 | 0.005 | 0.005 |
[27,28) | 1 | 0.005 | 0.005 |
[28,29) | 1 | 0.005 | 0.005 |
[29,30) | 1 | 0.005 | 0.005 |
y realizar los histogramas correspondientes, que quedan
como sigue:
donde las barras rosas, y la línea roja,
corresponden a los intervalos de cinco días; las barras y
línea verdes, a los intervalos de tres días; las
barra y línea amarillas, a los intervalos de dos
días; y las barras y línea azules, a los intervalos
de un día.
Igual que en el caso anterior, se han graficado
simultáneamente las barras y las líneas que unen
los puntos medios de éstas para observar que con la
densidad sí se aproximan los histogramas a una
línea continua (que la mejor aproximación
presentada es la línea azul) cuando los intervalos se
reducen continuamente.
El resultado es una línea continua que es la
gráfica de una cierta función denominada
función de densidad de la distribución
probabilística.
Ahora, considerando la manera en que se definió
la densidad de un intervalo como:
y recordando que la frecuencia relativa es la
probabilidad de un evento (en el ejemplo de la mensajería
sería la probabilidad de entregar un paquete dentro de un
intervalo dado de tiempo):
Entonces, despejando en el primer cociente la frecuencia
relativa e igualando con esta segunda expresión obtenemos
que
probabilidad del evento = (densidad del
intervalo)· (amplitud del intervalo)
Es decir, que la probabilidad de que ocurra un evento
corresponde al área de las barras del histograma hecho
tomando en cuenta la densidad de los intervalos; y que cuando
tales intervalos tienen una amplitud que tiende a cero, y la
gráfica se convierte en la curva continua de la
función de densidad, entonces la probabillidad de que un
evento ocurra en un intervalo (a,b) es el
área bajo la curva de la función en ese
intervalo:
y, por tanto, el cálculo de
tal probabilidad se realiza utilizando cálculo
integral:
donde f(x) es la función de
densidad de la distribución probabilística
correspondiente.
Hay que estar conscientes de que en el caso de las
variables continuas sólo se puede calcular la probabilidad
de que un evento caiga dentro de un intervalo, debido a que la
exactitud de los instrumentos de
medición siempre es relativa y muy lejana a la
"exactitud" de los cálculos matemáticos.
Por esto, la probabilidad de que la variable aleatoria
tome un valor exacto es nula:
Esto se puede explicar de la siguiente manera: si, como
ya dijimos, la probabilidad (frecuencia relativa) es igual a la
densidad del intervalo por la amplitud del intervalo, entonces no
importa qué tan grande sea la densidad de tal intervalo
porque, como ya también se dijo, por ser variable continua
la amplitud del intervalo tiende a cero y, por tanto, la
probabilidad es igual a cero.
Modelos de
distribución de probabilidad de variables
continuas
Al igual que en el caso de las distribuciones de
probabilidad de variables discreta, en el caso de las
distribuciones de probabilidad de variables continuas se tienen
varios modelos
teóricos que en seguida presentamos.
A la derecha de cada modelo aparece la
función de densidad correspondiente
a cada modelo.
- Uniforme. Es la distribución en donde todos
los eventos tienen
la misma probabilidad.
- Exponencial. Se utiliza para estudiar el tiempo entre
dos sucesos. La función de Excel que le
corresponde es
DISTR.EXP.
- Beta. Sirve para el estudio de variaciones, a
través de varias muestras, de un porcentaje que
representa algún fenómeno. La
función
DISTR.BETA del Excel sirve para
obtener sus valores; y la función
DISTR.BETA.INV proporciona los valores
inversos de la función, es decir, se utiliza como
parámetro la imagen de la
función y regresa la variabla independiente.
- Gamma. Se utiliza para estudiar variables cuya
distribución puede ser asimétrica. La
función de Excel que le corresponde es
DISTR.GAMMA; y la función
DISTR.GAMMA.INV es la inversa de la
anterior.
- ji cuadrada (c²). Es una distribución
asociada a la prueba c², y se usa para comparar los
valores observados con los esperados. La función
DISTR.CHI de Excel sirve para
este
- Normal. Es la distribución más
utilizada porque la mayoría de las variables utilizadas
en fenómenos sociales se distribuyen aproximadamente
siguiendo este modelo. Es la que tocaremos a
continuación y se le llama comúnmente
distribución normal.
Cálculo de
media y desviación estándar para una
distribución continua
- Media o valor esperado de x.- Para calcular la media
de una distribución de probabilidad continua se utiliza
la siguiente fórmula: Donde:
m = E(x) = media o valor
esperado de la distribuciónx = variable aleatoria continua
f(x) = función de densidad de la
distribución de probabilidad- Desviación estándar.- La fórmula
para determinar la desviación estándar de una
distribución continua es;
luego:
Ejemplo:
cuando 0£ x £ 3, f(x) = 0 para cualquier otro
valor- Diga si esta función nos define una
distribución de probabilidad. - Si la función define una
distribución de probabilidad, entonces, determine
su media y desviación estándar. - Determine la probabilidad de que 1£ x <
2.
- Diga si esta función nos define una
- Para la siguiente función,
Solución:
- x ® sí es
una variable continua porque puede tomar cualquier valor
entre 0 y 3 - f(x)³ 0, lo que se
comprueba si damos diferentes valores a x para ver que
valores toma f(x), dándonos cuenta de que
efectivamente f(x) solo toma valores mayores o iguales a
cero.x
f(x)
0
0.0
0.5
0.02778
1.0
0.11111
1.4
0.21778
2.1
0.49
2.7
0.81
3.0
1.0
- Para comprobar que la sumatoria de las
probabilidades que toma cada valor de x es de 1, se integra
la función de 0 a 3 como se muestra a
continuación:
A= área bajo la función
Con las operaciones
anteriores comprobamos que la función sí nos define
una distribución de probabilidad continua.- x ® sí es
- Para verificar que la función nos define una
distribución de probabilidad, es necesario que cumpla
con las características que se habían
mencionado. - Cálculo de media y desviación
estándar.
Las barras nos indican la evaluación
de la integral entre 0 y 3.
c)
La barra nos indica la evaluación de la integral
de 1 a 2.
Con las operaciones anteriores nos damos cuenta que para
evaluar probabilidades para variables de tipo continuo, es
necesario evaluar la función de densidad de probabilidad
en el rango de valores que se desea; que vendría siendo el
área que se encuentra entre f(x) y el eje de las x y entre
el rango de valores definidos por la variable x.
, para -1< x < 2 y f(x)= 0 en cualquier otro
caso- Verifique la tercera condición de la
definición de una distribución de
probabilidad continua. - Determine la media o valor esperado de la
distribución de probabilidad. - Encuentre la probabilidad de que 0< x £
1.
- Verifique la tercera condición de la
- Suponga que el error en la temperatura
de reacción, en oC, para un experimento
controlado de laboratorio
es una variable aleatoria continua x, que tiene la
función de densidad de probabilidad:
Solución:
- Como la tercera condición es que la sumatoria de
las probabilidades asociadas a cada uno de los valores que
toma x debe de ser 1, esto se comprueba de la siguiente
manera:
http://.cince.med.es/Descartes/Bach_HCS_2/Distribuciones_probabilidad_continua_normal_htm
Patricia Rondon Guanilo
Maestrista en Salud
Pública con mención en Salud
Reproductiva
Lima – Perú