- Historia de la
probabilidad - Conceptos básicos sobre
probabilidad - Distribuciones condicionadas.
Caso de independencia estadística - Independencia
estadística - Covarianza. Caso de
independencia - Ejemplo de
Aplicación - Bibliografía
Existe una variedad de procedimiento
para el procesamiento y análisis estadístico de datos, una vez
recogidos los datos, procesados y convertidos en información valiosa para el estudio que se
realiza, pueden utilizarse varias técnicas
que permitan sacar el máximo provecho de la
información disponible, sin embargo, la utilización
de técnicas de Estadística No Parametricas son poco
utilizada, a pesar de la potencia y
certeza de sus resultados, y que por lo general no se dispone de
información suficiente sobre la población de la cual se extrajeron los
datos que den soporte la realización de inferencia con
base en la muestra
observada.
En esta investigación se desarrollan algunas
técnicas de análisis estadístico no
paramétrico tales como la prueba de independencia,
la corrección de Yates en tablas de contingencia de 2×2,
las pruebas de
homogeneidad y se hace un estudio sobre el análisis de
varianza por medio de la tabla ANOVA, analizando la rutina
general de este tipo de análisis, para terminar con
comentarios sobre la importancia del software en este tipo de
análisis.
Historia de la
probabilidad.
Jacob Berooulli (1654 – 1705), Abraham de Moivre
(1667 – 1754), el reverendo Thomas Bayes (1702 – 1761) y Joseph
Lagrange (1736 – 1813) desarrollaron fórmulas y
técnicas para el cálculo de
la probabilidad. En el siglo XIX, Pierre Simon, marqués de
Laplace (1749
– 1827), unificó todas estas primeras ideas y
compiló la primera teoróa general de la
probabilidad.
La teoría
de la probabilidad fue aplicada con éxito
en las mesas de juego y, lo
que es más importante, en problemas
sociales y económicos. La industria de
seguros
requería un conocimiento
preciso acerca de los riesgos de
pérdida. Muchos centros de aprendizaje
estudiaron la probabilidad como una herramienta para el
entendimiento de los fenómenos sociales.
Nuestra necesidad de tratar con total incertidumbre nos
lleva a estudiar y utilizar la teoría de la probabilidad.
Al organizar la información y considerarla de manera
sistemática, seremos capaces de reconocer nuestras
suposiciones, comunicar nuestro razonamiento a otras personas y
tomar una decisión más
sólida.
Conceptos
básicos sobre probabilidad.
La probabilidad es la posibilidad de que algo pase. Las
probabilidades se expresan como fracciones o como decimales que
están entre uno y cero. Tener una probabilidad de cero
significa que algo nuca va a suceder; una probabilidad de uno
indica que algo va a suceder siempre.
En la teoría de la probabilidad, un evento
es uno o más de los posibles resultados de hacer
algo.
La actividad que origine uno de dichos eventos se conoce
como experimento aleatorio.
Al conjunto de todos los resultados posibles de un
experimento se le llama espacio muestral del
experimento
.Se dice que dos eventos son mutuamente
excluyentes si uno y sólo uno de ellos puede tener
lugar a un tiempo.
Cuando en una lista de los posibles eventos que pueden
resultar de un experimento se incluyen todos los resultados
posibles, se dice que la lista es colectivamente
exhaustiva. En una lista colectivamente exhaustiva se
presentan todos los resultados posibles.
Distribuciones
condicionadas. Caso de independencia
estadística
Al poner una restricción o condición a una
de las dos variables,
tenemos las distribuciones condicionadas.
Se las suele representar como:
X/Y , indica que el valor de X
viene condicionado por Y
Y/X indica que el valor de Y viene condicionado por
X
Se dice que dos variables X e Y son independientes
estadísticamente cuando la frecuencia relativa conjunta es
igual al producto de
las frecuencias relativas marginales en todos los casos, es
decir:
Para todo i, j
Si esto no se cumple para todos los valores
se dice que hay dependencia
estadística.
Covarianza. Caso de
independencia
En el estudio conjunto de dos variables, lo que nos
interesa principalmente es saber si existe algún tipo de
relación entre ellas. Esto se ve gráficamente con
el diagrama de
dispersión. Veremos ahora una medida descriptiva que sirve
para medir o cuantificar esta relación:
Si Sxy >0 hay dependencia directa (positiva), es
decir a grandes valores de x
corresponden grandes valores de y.
Si Sxy = 0 las variables están incorreladas, es
decir no hay relación lineal.
Si Sxy < 0 hay dependencia inversa o negativa, es
decir a grandes valores de x corresponden grandes valores de
y.
PROPIEDADES DE LA COVARIANZA:
1.- Si a todos los valores de la variable x, les
sumamos una constante k y a todos los valores de la variable y
les sumamos una constante k’, la covarianza no
varía.
2.- Si a todos los valores de una variable x los
multiplicamos por una constante k y a todos los valores de la
variable y los multiplicamos por una constante k’, su
covarianza queda multiplicada por el producto de las
constantes.
3.- A partir de las anteriores: si tenemos dos
variables x, y con la covarianza Sxy, y
transformaciones lineales de las variables de la forma z=ax+b,
y t=cy+d, la nueva covarianza se relaciona con la anterior de
la forma: Szt=acSxy.
4.- Otra forma de calcular la Covarianza sería:
. Será
la que utilizaremos en la práctica.
NOTA: El inconveniente de la covarianza, como medida de
asociación es su dependencia de las unidades. Habrá
que definir una nueva medida, que no está afectada por los
cambios en las unidades de medida. Esta medida será el
coeficiente de correlación lineal
rxy, con la siguiente
expresión:
siendo Sx y Sy las desviaciones
típicas de x e y. Este coeficiente es adimensional y
siempre estará entre –1 y 1.
- Si hay relación lineal positiva,
rxy>0 y próximo a 1. - Si hay relación lineal negativa
rxy<0 y próximo a –1. - Si no hay relación lineal rxy
será próximo a 0.
Nota: Cuando las variables x e y son
independientes, Sxy =0, y por tanto
rxy=0. Es decir, si dos variables son independientes
su covarianza vale cero. No podemos asegurar lo mismo en
sentido contrario. Si dos variables tienen covarianza cero, no
podemos decir que son independientes. Sabemos que linealmente
no tienen relación, pero podrían tener otro tipo
de relación y no ser independientes.
Ejemplo: A partir de los siguientes datos,
vamos a calcular la Covarianza y el coeficiente de
correlación:
Altura | 175 | 180 | 162 | 157 | 180 | 173 | 171 | 168 | 165 | 165 |
Peso | 80 | 82 | 57 | 63 | 78 | 65 | 66 | 67 | 62 | 58 |
Los cálculos que necesitamos:
Ahora se puede calcular el coeficiente de
correlación lineal rxy y el de
determinación lineal R2
que nos indica que las variables están
relacionadas.
Para estudiar la dependencia entre la práctica de
algún deporte y la
depresión, se seleccionó una
muestra aleatoria simple de 100 jóvenes, con los
siguientes resultados:
Sin depresión | Con depresión | ||
Deportista | 38 | 9 | 47 |
No deportista | 31 | 22 | 53 |
69 | 31 | 100 |
L = (38 – 32,43)2/32,43 + (31 –
36,57)2/36,57 + (9 – 14,57)2/14,57 +
(22 – 16,43)2/16,43
= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227
El valor que alcanza el
estadístico L es 5,8227. Buscando en la tabla
teórica de Chi Cuadrado para 1 grado de libertad se
aprecia Lt = 3,84146 < 5,8227 lo que permite
rechazar la hipótesis de independencia de caracteres
con un nivel de significación del 5%, admitiendo por tanto
que la práctica deportiva disminuye el riesgo de
depresión.
CORRECCIÓN DE
YATES PARA TABLAS DE CONTINGENCIA DE 2X2
Un caso especial de pruebas de
independencia es aquel que emplea una tabla de contingencia de
2×2. Si se utiliza una tabla cuádruple puede aplicarse una
fórmula simplificada para calcular el Valor L, por
χ2.
Supóngase que las frecuencias observadas en una
tabla de contingencia de 2×2 sean a, b, c y d de la siguiente
forma:
A | B | Total | |
X | a | b | a + b |
Y | c | d | c + d |
Total | a + c | b + d | n |
El valor Xχ2
puede calcularse entonces con la fórmula
siguiente:
que tiene (2 – 1)(2 – 1) = 1 grado de
libertad
Con frecuencia se aplica la Corrección de
Continuidad de Yates, similar a la corrección de
continuidad de la aproximación normal a la binomial, para
mejorar la aproximación a la
probabilidad exacta. El valor
χ2 corregido se calcula
a partir de la siguiente fórmula:
En un estudio para determinar si existe relación
entre el
sexo y el propósito
de elegir una carrera técnica se entrevistaron a 120
aspirantes a la
universidad. Los resultados se observan en la
siguiente tabla de contingencia:
Sexo | |||
Si | No | ||
Masculino | 40 | 30 | 70 |
Femenino | 10 | 40 | 50 |
Total | 50 | 50 | 120 |
Se aplicará la fórmula para encontrar
χ2
χ2
= (120(40×40 – 10×30)2)/70x50x50x70 =
16,56
De la tabla teórica de Chi Cuadrado se tiene que
para un grado de libertad el valor de χ2 que
separa 0,1% superior es 10,828. Por lo tanto, la
hipótesis
según la cual existe independencia entre el
sexo y el propósito
de elegir una carrera técnica debe ser
rechazada.
Si se tiene en cuanta la corrección por
continuidad de Yates se obtiene:
χ2
= (120(|40×40 – 10×30| –
0,5(120))2)/70x50x50x70 = 15,06
Que es ligeramente inferior al valor antes obtenido,
pero aun así, la hipótesis
de independencia debe ser rechazada.
Análisis estadístico con SPSS, de
Magdalena Ferran Aranez, 2001, Editorial Osborne –
McGraw-Hill
Análisis Multivariante, de Hair
– Anderson – Tatham – Black. 1999, Prentice-
Hall
ROSMERY MANCILLA MENDOZA
POST GRADO SALUD PUBLICA
UNFV