- Resumen
- Introducción
- Estudio de las dependencias entre variables por
medio de los coeficientes de correlaciones - Tablas
y coeficientes de contingencias - Coeficiente de correlación de
Pearson - Recomendaciones
- Bibliografía
- Anexos
Resumen
Una forma de estudiar la posible dependencia entre
variables es por medio de los coeficientes de correlaciones. El
coeficiente de correlación establece una medida del
posible nexo existente entre las variables consideradas. En el
trabajo se examina la clasificación de las variables de
acuerdo a la escala de medida utilizada. Se enumeran los
principales coeficientes de correlaciones y en particular se
detallan los coeficientes de contingencias y correlaciones de
Pearson.
Se determinan fórmulas de tamaño de
muestra para estimar probabilidades de contingencias, realizar
análisis de residuos, construir intervalos de confianza y
docimar hipótesis sobre la significación del
coeficiente de correlaciones de Pearson.
Los cálculos de tamaños de muestras se
hacen a partir de las distribuciones muestrales, las cuales de
una manera asintótica convergen a distribuciones
clásicas de la estadística.
En los intervalos de confianza se requiere prefijar la
longitud del intervalo así como la probabilidad de
confianza. En el caso de las Dócimas establecer las
probabilidades de errores del tipo I y del tipo II.
Para ilustrar el cálculo de las fórmulas
se presentan ejemplos cuyo único interés es mostrar
los procedimientos de cálculo.
Introducción
Desde el surgimiento de la raza humana, el hombre se ha
preocupado por conocer y entender el mundo que le rodea,
descubrir las relaciones y leyes que lo rigen, para de esta
manera, orientarse hacia el futuro en busca de una vida
mejor.
Esta es la razón por la cual estudia los
diferentes fenómenos observables, buscando en ellos nexos
y relaciones que permitan explicar causas y efectos.
En el estudio de las dependencias entre causas y
efectos, es importante analizar diferentes características
involucradas en ellos. Briones (1987), ayuda en este sentido
definiendo el concepto de variable como una propiedad,
característica o atributo que puede darse en ciertos
objetos o sujetos.
Los grados o modalidades diferentes de las variables
permiten la clasificación de los individuos en
categorías o clases y son susceptibles de
identificación y medición.
Las variables pueden clasificarse de diferentes maneras.
Se tiene la costumbre de llamar variables respuestas a las
asociadas con los efectos ocurridos en el fenómeno y
variables explicativas las asociadas con las causas o procesos
del fenómeno estudiado.
En la búsqueda de los vínculos entre
variables respuestas y variables explicativas puede hacerse uso
de diferentes métodos matemáticos, entre ellos,
tiene especial importancia el análisis de
correlaciones.
Una forma de estudiar la posible dependencia entre
variables es por medio de los coeficientes de correlaciones. El
coeficiente de correlación establece una medida del
posible nexo existente entre las variables consideradas. Para el
estudio de población se estudia el coeficiente de
correlación poblacional, en cambio para estimaciones de
los parámetros correlaciónales desde una muestra,
se examina el coeficiente de correlación
muestral.
Un estudio de correlaciones necesita de una matriz
muestral de datos, donde cada fila representa un elemento de la
muestra y cada columna las observaciones de la variable
correspondiente a ella. A partir de esta matriz se determina el
coeficiente de correlación muestral. Se denota
generalmente por "r". Surge la pregunta: ¿El número
de observaciones y las formas de obtenerlas garantizan tener un
coeficiente de correlación muestral capaz de representar
el verdadero nexo entre las variables estudiadas?
La respuesta a esta pregunta requiere un análisis
cuidadoso. Desde el coeficiente de correlación muestral
"r" se desea estimar el coeficiente de correlación
poblacional "?", que es un parámetro fijo de la
población estudiada. Para diferentes muestras se obtienen
diferentes coeficientes de correlaciones muestrales, es por ello
que "r" es una variable aleatoria. La tarea es encontrar un
tamaño de muestra que origine un intervalo con alta
probabilidad de confianza y una longitud lo más
pequeña posible.
Además de lo anterior, se tienen variables con
diferentes clasificaciones: variables cualitativas que pueden ser
ordinales o nominales. Variables cuantitativas que pueden ser
discretas o continuas. Esto origina la necesidad de definir
diferentes coeficientes de correlaciones, usados de acuerdo a los
tipos de medidas usadas en cada una de las variables.
Son varios los coeficientes de correlaciones:
Contingencia, Biserial del Punto, Tetracórico, Spearman,
Kendall, Pearson, entre otros.
En el presente documento, en el primer capítulo
se hace un panorama de los diferentes coeficientes de
correlaciones. En el siguiente capítulo se selecciona para
su estudio las tablas de contingencias. Estas a su vez se dividen
en cuatro partes: cálculo de las probabilidades de
contingencias, dócimas de independencia entre dos
variables, análisis de los residuos y los coeficientes de
correlaciones asociados a la contingencia. El tercer
capítulo se dedica al coeficiente de correlación de
Pearson. Estimación puntual, distribuciones muestrales,
dócima de significación y fórmulas para su
tamaño de muestra son los objetos tratados.
Capítulo 1:
Estudio de las
dependencias entre variables por medio de los coeficientes de
correlaciones
En las investigaciones empíricas desarrolladas
para conocer sobre diferentes fenómenos, es importante
definir características (constructos o variables) capaces
de estudiar las dependencias entre los factores y los efectos que
tienen lugar en los mismos.
Constructos y
variables
Asociados a las características estudiadas se
definen constructos hipotéticos. La Torre y otros (1996),
presentan los constructos como entidades abstractas, bien
definidas y articuladas. Ejemplos de constructos son la
inteligencia, la motivación, la capacidad de aprendizaje
en una investigación pedagógica.
Para estudiar los constructos se hace necesario analizar
magnitudes observables que funcionan como indicadoras del
constructo en cuestión. Estas magnitudes reciben el nombre
de variables.
Las variables y los constructos están
estrechamente ligados, de tal forma que constituyen, en cierta
forma, las dos caras de una misma moneda. Los constructos
hipotéticos se consideran como variables latentes, no
observables directamente, en cambio las variables se pueden
definir de forma operativa, es decir, describiendo las
operaciones o actividades que han de realizarse para medir o
manipular el objeto estudiado. El investigador ha de traducir las
variables a definiciones observables, cuantificables y
medibles.
Por ejemplo, del constructo «inteligencia»
(aptitud para enfrentarse a situaciones nuevas con rapidez y
éxito) se puede pasar a la variable
«inteligencia» como puntuación obtenida en un
test; del constructo «capacidad de aprendizaje» a la
variable «rendimiento escolar» expresado en las
calificaciones escolares.
Las operaciones o actividad que realiza el investigador
para pasar del campo teórico, los constructos, al campo de
la realidad observable, variable operativa, se designa como
operativización de la variable. Consiste en encontrar
variables más concretas, que sean representativas de
aquéllas asociadas a los constructos.
En la operativización, se enuncian o definen las
variables, se deducen sus dimensiones o aspectos principales y se
buscan indicadores o circunstancias empíricas concretas de
cada dimensión. Hay que tener en cuenta que una misma
variable puede ser operativizada de diversas formas.
Para medir la intensidad de la acción explicada
por ellas se han establecidos diferentes sistemas y escalas de
medidas. Estas escalas de acuerdo al comportamiento de la
propiedad estudiada, pueden ser nominal, ordinal, de intervalo o
de razón.
Escalas de medidas
Siegel (1956), señala cuatro niveles de medida;
cada uno posee sus propias características. En cada uno de
ellos, están o no permitidas determinadas operaciones
aritméticas. El tipo de escala depende de las operaciones
empíricas que permite efectuar. En orden de
precisión creciente, las cuatro escalas o niveles de
medida son: la nominal, la ordinal, la de intervalos y la de
razón.
Escala nominal: En esta escala la medición se da
en un nivel elemental, los números u otros símbolos
se usan para la clasificación de objetos, personas o
características. Cuando se usan con el fin de distinguir
entre sí los grupos a que pertenecen varios objetos, los
números o símbolos constituyen una escala nominal o
clasificatoria. La operación de escalamiento consiste en
partir de una clase dada y formar un conjunto de subclases que se
excluyen mutuamente. La única relación implicada es
la de equivalencia, es decir los miembros de cualquier subclase
deben ser equivalentes en la propiedad medida.
Escala ordinal: Puede suceder que los objetos de una
categoría de la escala no sean precisamente diferentes a
los objetos de otra categoría de la escala, sino que
están relacionados entre sí. Relaciones
típicas entre clases son las que comparan alturas,
preferencia, dificultad, perturbación, madurez, etc. Tales
relaciones pueden formularse con el signo ">", que significa
mayor que. En cuanto a escalas particulares, ">" puede usarse
para designar es preferible a, es más alto que, es
más difícil que, etc. Su significado
específico depende de la naturaleza de la relación
que define la escala. En un grupo dado de clases equivalentes si
la relación ">" se sostiene entre algunos pares de
clases, tenemos una escala parcialmente ordenada. Si la
relación ">" se sostiene en todos los pares de clases
de tal modo que surja un rango ordenado completo, tenemos una
escala ordinal.
Escala de intervalo: Cuando una escala tiene todas las
características de una escala ordinal y además
conocemos la distancia entre dos números cualesquiera,
tenemos una medición considerablemente más fuerte
que la ordinal. En tal caso, la medición se ha ejecutado
en el sentido de una escala de intervalo. La misma está
caracterizada por una unidad de medida común y constante
que asigna un número real a todos los pares de objetos en
un conjunto ordenado. La proporción de dos intervalos
cualesquiera es independiente de la unidad de medida y del punto
cero.
Escala de razón: Cuando una escala tiene todas
las características de una escala de intervalo y
además tiene un punto cero real en su origen, es llamada
escala de proporción o de razón. La
proporción de un punto a otro cualquiera de la escala es
independiente de la unidad. Cualquier prueba estadística
puede usarse cuando se ha logrado la medida de
proporción.
1.2.2 Clasificación de las
variables según la escala de
medición
En la Enciclopedia Wikipedia (2007) se encuentra la
siguiente clasificación de las variables:
Variables cualitativas: Son las variables que expresan
distintas cualidades, características o modalidad. Cada
modalidad que se presenta se denomina atributo o categoría
y la medición consiste en una clasificación de
dichos atributos. Las variables cualitativas pueden ser ordinales
o nominales. Las variables cualitativas pueden ser
dicotómicas cuando sólo pueden tomar dos valores
posibles: "sí y no", o son politómicas cuando
pueden adquirir tres o más valores. Dentro de ellas
podemos distinguir:
Variable cualitativa ordinal: La variable puede tomar
distintos valores ordenados siguiendo una escala establecida,
aunque no es necesario que el intervalo entre mediciones sea
uniforme, por ejemplo: "leve, moderado, grave"
Variable cualitativa nominal: En esta variable los
valores no pueden ser sometidos a un criterio de orden como por
ejemplo: "colores", "lugar de residencia".
Variables cuantitativas: Son las variables que se
expresan mediante cantidades numéricas. Las variables
cuantitativas además pueden ser:
Variable discreta: Es la variable que presenta
separaciones o interrupciones en la escala de valores que puede
tomar. Estas separaciones o interrupciones indican la ausencia de
valores entre los distintos valores específicos que la
variable pueda asumir. Ejemplo: "número de
hijos".
Variable continua: Es la variable que puede adquirir
cualquier valor dentro de un intervalo especificado de valores.
Ejemplos: "peso", "altura". Está limitada por la
precisión del aparato medidor, en teoría permiten
que siempre existe un valor entre dos cualesquiera.
La covarianza como medida de
dependencia entre dos variables aleatorias.
Para estudiar las asociaciones entre variables se puede
usar el concepto de covarianza como medida de dependencia entre
variables aleatorias.
En la teoría de probabilidades se estudia una
condición necesaria y suficiente para que dos variables
aleatorias sean independientes. Sean X, Y variables aleatorias
con función de densidad conjunta f(x, y) y funciones de
densidades marginales f(x) y f(y). Si se cumple f(x, y) =
f(x)(f(y), las variables aleatorias X y Y son independientes.
Para usar este resultado, se necesita tener las funciones de
densidades marginales y conjuntas de las variables. Sin embargo
en muchos casos no se conocen dichas densidades, es por ello que
se acude a características numéricas capaces de
reflejar los niveles de dependencias entre ambas
variables
Un indicador importante de dependencia entre variables
aleatorias es la covarianza entre ellas. Se define
así:
C(X, Y) = E(X(Y) – E(X)(E(Y)
Si las variables aleatorias son independientes se cumple
C(X, Y) = 0, es decir:
E(X(Y) = E(X)(E(Y)
Cuando se incrementa la diferencia entre E(X(Y) y
E(X)(E(Y), aumenta el valor de la covarianza, indicando una mayor
dependencia entre las variables X e Y.
Coeficientes de
correlaciones
Una forma de explicar la dependencia entre
dos variables aleatorias, eliminando las influencias de las
dimensiones en los sistemas de medidas originalmente usados, es
el coeficiente de correlación. Stanton J. (2001) explica
que es Sir Francis Galton (1889), quien tiene el mérito de
ser el primero en utilizar la correlación, aunque es su
discípulo Karl Pearson (1857-1936) quien estudia con
profundidad sus propiedades.
La selección de un determinado coeficiente de
correlación está en dependencia de la escala de
medidas usadas, el tipo de problema a resolver y los objetivos
propuestos.
Los coeficientes de correlaciones deben ser
fácilmente interpretables y deben estar acotados de manera
que los factores indiquen asociación perfecta o falta de
asociación. Suelen estar normalizados tomando valores
entre 0 y 1 ó entre -1 y 1, lo cual permite las
comparaciones entre muestras o poblaciones de diferentes
tamaños.
Gibbons (1971), expresa que una buena medida de
asociación debe tener las siguientes
propiedades:
En el caso de tener una concordancia perfecta, es
decir, para cualquier par de observaciones (Xi, Yi) y (Xj,
Yj), se tiene Xi,< Xj si Yi,< Yj, ó Xi,> Xj
si Yi,> Yj la medida de asociación tiene el valor
+1.En el caso de tener una disconcordancia perfecta, es
decir, para cualquier par de observaciones (Xi, Yi) y (Xj,
Yj), se tiene Xi,< Xj si Yi,> Yj, ó Xi,> Xj
si Yi,< Yj la medida de asociación tiene el valor
-1.Si los criterios 1 y 2 no son verdaderos para todos
los pares, la medida tiene un valor en el intervalo [-1,
+1].La medida de asociación es cero cuando las
variables X e Y son independientes.La medida para X e Y es la misma medida para Y y X,
ó -X y -Y ó -Y y -X.El signo de la medida de -X e Y ó -Y y X es
opuesto al signo de la medida de X e Y.La medida debe ser invariante a transformaciones de
X e Y para los cuales el orden de las magnitudes sea
preservado.
Coeficiente de correlación de
Pearson
Pearson (1896), define una medida de asociación
lineal entre dos variables cuantitativas (discretas ó
continuas): X e Y. El coeficiente de correlación entre las
variables aleatorias X e Y se escribe así:
Si X e Y son variables aleatorias independientes, su
coeficiente de correlación es cero. Aunque en general no
es verdad que una correlación cero indique independencia,
este coeficiente es una buena medida de la asociación
entre las dos variables.
Las variables del fenómeno bajo estudio tienen un
coeficiente de correlación poblacional. Ese coeficiente es
generalmente desconocido. Para conocer sobre él se
realizan las observaciones del fenómeno,
constituyéndose así una muestra: M. Con el conjunto
de observaciones muestrales es posible estimar el valor del
coeficiente de correlación poblacional.
1.4.2 Coeficientes asociados a una tabla
de contingencias
Una medida de asociación entre variables
cualitativas nominales es el estadístico Ji cuadrado. Para
su cálculo, se construye una tabla de contingencias donde
las f filas se corresponden con los niveles de la primera
variable y las c columnas con los niveles de la segunda
variable.
Para una muestra de n observaciones se determina el
número de observaciones de la muestra con las
categorías correspondiente a la fila i y columna j. Este
valor recibe el nombre de frecuencia observada y se representa
por nij. Se determina también la frecuencia esperada bajo
el supuesto de variables independientes. Se representa por eij.
Pearson (1900) define el estadístico Ji cuadrado
así:
Varios coeficientes de correlaciones asociados a las
tablas de contingencias son estudiados en epígrafes del
capítulo 2:
1.4.3 Coeficiente de correlación
tetracórica.
Cuando se estudia la asociación entre dos
variables cuantitativas, cada una particionada en dos clases, se
usa el coeficiente de correlación tetracórica. Se
representa por rt. Las clases de cada variable son denotadas por
0 y 1. La disposición para su cálculo se muestra en
la siguiente tabla de contingencia 2×2:
El cálculo de la correlación
tetracórica es obtenido por iteración a partir de
una serie infinita en rt, que viene dada (Amón, 1978) por
medio de:
1.4.4 Coeficiente biserial del
punto.
Cuando se desea estudiar la asociación entre una
variable cuantitativa con una variable cualitativa nominal
dicotómica, se puede usar el coeficiente biserial del
punto. Palmer, A. y otros (2000).
Se codifica la variable dicotómica
así:
Sea X = 0 cuando la variable cualitativa nominal
adquiere la categoría designada por A
X = 1 cuando la variable cualitativa nominal adquiere la
categoría designada por B
Sea p la proporción de elementos de la muestra
donde X = 0.
Sea q la proporción de elementos de la muestra
donde X = 1.
El coeficiente de correlación biserial del punto
se define así:
1.4.5 Coeficiente de correlación
muestral por ranking de Spearman.
Cuando las dos variables son cualitativas ordinales, es
posible estudiar el nexo entre ellas usando el coeficiente de
correlación por ranking de Spearman. Palmer, A., y otros
(2000).
Sea n el número de elementos de la muestra. A
cada elemento de la muestra se le asignan los ranking
correspondientes de las variables X y Y. Sea x(1), …, x(n)
los ranking de la primera variable y y(1), …, y(n) los
ranking de la segunda variable. Para cada elemento se calcula la
diferencia di = x(i) – y(i), como una indicación de la
disparidad entre los dos conjuntos de rangos en esa
observación. Cuanto mayor sean las di, tanto menos
perfecta es la asociación entre las dos
variables.
El cálculo del coeficiente de correlación
sería afectado por el uso directo de las di: las di
negativas cancelarían las positivas cuando se trata de
determinar la magnitud de la discrepancia. Se emplea di2 en lugar
de di para eliminar esta dificultad.
Como las variables X e Y son cualitativas, es posible
usar el ranking del valor original, en este caso X e Y toman como
valores los ranking correspondientes. El coeficiente de
correlación de las medidas originales se transforma en el
coeficiente de correlación por ranking de Spearman a nivel
poblacional y se escribe (s.
La suma de todos los valores de la variable x(i)
corresponde a la suma de los n enteros:
1,…, n es:
Las distribuciones muestrales del coeficiente de
correlaciones por ranking de Spearman se estudian para dos
alternativas: 1) tamaño de muestra pequeño,
(muestras inferiores a 100 unidades) y 2) tamaño de
muestra que se incrementa indefinidamente, originando la
distribución asintótica de este
coeficiente.
Por esta razón el diseño de la muestra
para estudiar correlaciones por ranking de Spearman debe
ajustarse a las variantes anteriores.
Palmer, A., Jiménez, R. y Montaño, J. J
(2001) usan la distribución muestral asintótica del
coeficiente de correlación de Spearman:
1.4.6 Coeficiente de correlación
muestral por ranking de Kendall.
Cuando de las dos variables, al menos una es cualitativa
ordinal, se puede usar el coeficiente de correlación de
ranking de Kendall, designado por rk. Es una medida de
correlación conveniente para datos que se puedan ordenar.
Palmer, A., y otros (2000).
En cada una de las variables se sustituye cada valor por
sus respectivos rankings. Los rankings de la primera variable X
se colocan en su orden natural:
La suma de esas diferencias tiene la siguiente
propiedad, si la suma es igual a las V(n -2), eso quiere decir
que no hubo discrepancias entre los ranking de X y de Y, por lo
tanto la concordancia es perfecta, por ello las variables X e Y
están correlacionadas de forma perfecta.
1.4.7 Coeficiente G Gamma de Goodman-
Kruskal
Nagpaul P. S. (2001), expresa que cuando los valores de
las dos variables se pueden ordenar según sus rankings, el
posible nexo entre dichas variables debe ser estudiado usando el
coeficiente G Gamma de Goodman Kruskal.
En este caso los n elementos de la muestra son ordenados
de la misma manera que en el coeficiente de correlación de
Kendall.
Cuando las variables X e Y son independientes, el
número de pares concordantes es igual al número de
pares discordantes, el coeficiente gamma toma el valor
cero.
Si todos los pares son concordantes, la relación
entre X e Y es directa y perfecta. En este caso el coeficiente
gamma toma el valor +1.
Cuando todos los pares son discordantes, la
relación entre X e Y es inversa y perfecta. En este caso
el coeficiente gamma tiene el valor -1.
El coeficiente gamma se diferencia del coeficiente de
Kendall en el sentido que no considera los pares donde los
rankings están empatados.
Capítulo 2:
Tablas y
coeficientes de contingencias
2.1 Probabilidades de
contingencias
En esta población se investiga la posible
asociación entre dos variables cualitativas X e Y. Para
ello se necesita estudiar un coeficiente de correlación
que cumpla con las propiedades definidas en el Capítulo 1.
Uno de esos coeficientes es el de contingencias.
El coeficiente de contingencias es calculado desde una
tabla de contingencias. En esta tabla las f filas representan las
f categorías de la primera variable X: A1, A2,…,
Ai,…, Af y las c columnas representan las c categorías:
B1, B2,…, Bj,…, Bc de la segunda variable Y.
Las f ( c celdas de la tabla de contingencias contienen
las frecuencias de elementos de ? que tienen las
categorías correspondientes a cada celda. En cada celda
(i, j) existen Nij elementos poblacionales, son aquellos donde X
alcanza la categoría Ai mientras que Y alcanza la
categoría Bj.
En la tabla de contingencias anterior se pueden definir
las probabilidades asociadas a cada una de las celdas. Se trata
de la probabilidad que tiene un elemento poblacional de
pertenecer a una celda particular. Esta probabilidad para la
celda (i, j) está dada por
Tabla 2.2 Tabla de probabilidades de
contingencias.
2.1.1 Estimación de probabilidades
de contingencias
Una muestra simple aleatoria de tamaño n fijo se
clasifica de acuerdo con las categorías de dos variables
aleatorias cualitativas. La distribución a priori de las
frecuencias observadas por casillas usadas en este tipo de
muestreo tiene distribución multinomial, la cual es
determinada por el tamaño de la muestra n y las f(c
probabilidades pij
Sea vij la variable aleatoria cuyos valores es la
cantidad de observaciones obtenidas con categorías Ai y
Bj, El valor obtenido se llama frecuencia observada y se escribe
nij. Las probabilidades de ocurrencias de una tabla de
contingencias es:
Se estima a continuación la probabilidad del
evento que consiste en que una observación caiga en una
determinada celda (i, j) en el esquema multinomial.
Para la muestra aleatoria simple se tiene la
función de verosimilitud:
Aplicando logaritmo natural:
Derivando respecto al parámetro pij se
tiene:
De forma análoga se puede hacer con cada uno de
los f (c parámetros pij. O sea el posible estimador de
máxima verosimilitud para la probabilidad pij
es:
2.1.2 Determinación del
tamaño de la muestra para estimar probabilidades de
contingencias de una población por medio de la cota
superior del error de muestreo.
El estimador de máxima verosimilitud calculado
para pij es:
En cada casilla (i-j), usando el teorema central del
límite se tiene:
La diferencia entre la probabilidad de contingencia
muestral y la probabilidad de contingencia poblacional se llama
error de muestreo.
Se exponen dos variantes:
1. Por medio de la acotación del
producto de probabilidades binomiales.2. Por medio de un muestreo
secuencial.
1) Por medio de la acotación del producto
de probabilidades binomiales.
El máximo valor posible del producto de las
probabilidades de la distribución Binomial es 0.25. Es
decir:
2) Por medio de un muestreo
secuencial.
Con este valor se calcula el tamaño de muestra
del paso siguiente:
2.1.3 Aplicaciones de las probabilidades de
contingencias.
Ejemplo 2.1.3 Sobre el uso de las probabilidades de
contingencias.
Con la base de datos del proyecto Mercury de la UFMT
(1997), se seleccionan las variables:
X: Poblado de residencia.
Y: Niveles de contaminación de Mercurio en
cabello.
Se desea estimar en cada una de las poblaciones de la
bajada cuiabana, al sur de Barão de Melgaço la
probabilidad de contaminación por Mercurio que tienen sus
pobladores.
Las seis poblaciones estudiadas son:
Barra de Arica
Piuva y Rancheria
Estirom Cumplido
Puerto Brandom
Cuiaba Mirim
Boca de Conchas
Para obtener las tablas con las probabilidades de
incidencias en cada uno de los poblados, se usa una probabilidad
de confianza 0.95 y una cota superior del error de muestreo igual
a 0.10 con las cuales se pueden determinan los tamaños de
muestras necesarios del procedimiento secuencial.
Para este propósito, el punto de partida es una
muestra inicial M0, cuyo tamaño es fijado en n0 =
30.
A las 30 personas seleccionadas para M0, se les toma una
pequeña muestra de cabellos, los que son analizados en los
laboratorios de la UFMT. El análisis proporciona los
valores de ppm de Hg contenidos en ellos. De acuerdo a los
valores alcanzados, las personas se clasifican
así:
no contaminada
normal bajo exposición
contaminada
Los resultados obtenidos aparecen en la tabla
2.3.
Para obtener el tamaño de la muestra M1, se
mantiene la misma probabilidad de confianza y cota superior de
error de muestreo y sustituyendo en la fórmula (2.12) por
la mayor probabilidad de contingencia se obtiene el valor n1 =
62.
Tabla 2.3 Resultados de
M0
Para formar la muestra M1, a las 30 personas de la
muestra M0, se le adicionan 32 nuevos individuos, con ellos se
completa el tamaño calculado de 62 personas.
Los cálculos correspondientes a la muestra M1
aparecen en la tabla 2.4.
Tabla 2.4 Resultados de
M1
Con la misma probabilidad de confianza y cota superior
de error de muestreo y sustituyendo en la fórmula (2.13)
por la mayor probabilidad de contingencia se obtiene el valor n2
= 61. Como n2 < n1 se detiene el proceso. Por lo tanto M1 se
convierte en la muestra recomendada para la determinación
de las probabilidades de contingencias.
En base a las estimaciones de probabilidades realizadas
en M1, la población con mayor probabilidad, respecto al
total, de tener personas contaminadas es Puerto Brandom con un
valor de 0.048.
2.2 Dócima de hipótesis sobre
la independencia de variables en una tabla de
contingencias.
Un importante uso de las tablas de contingencias es
cuando se desea conocer si las variables X e Y son
independientes.
Frente a esta hipótesis se plantea la
hipótesis alternativa:
Caso contrario, no se rechaza la posible independencia
entre estas variables.
Una corrección para continuidad debida a Yates es
usada en determinadas situaciones. Se trata que el
estadístico ?2 construido desde variables aleatorias con
distribuciones discretas tenga distribución límite
Ji cuadrado que es continua. Frank Yates (1934) sugiere una
corrección para continuidad la cual ajusta la
dócima Ji cuadrado de Pearson sustrayendo 0.5 desde la
diferencia en módulo existente entre frecuencia observada
y frecuencia esperada para tablas de contingencias 2(2. Esta
corrección es conveniente para cuando se tienen
células con frecuencias esperadas menor que 5. Su
expresión es:
2.2.1 Procedimiento para la dócima
de hipótesis sobre independencia de variables por medio de
una tabla de contingencias.
1. Determinar las dos variables cuya posible
dependencia se desea encontrar.2. Plantear la hipótesis inicial de
independencia entre las variables.3. Plantear la hipótesis alternativa de
asociación entre esas variables.4. Fijar la probabilidad de rechazar la
hipótesis inicial cuando esta es cierta. Se representa
por a y se le llama probabilidad de cometer un error de tipo
I o también nivel de significación.5. Asociar una variable a las filas de la tabla
de contingencias y la otra a sus columnas.6. Definir los niveles de cada una de las
variables.
2.2.2 Aplicaciones de la dócima para
determinar dependencias entre variables aleatorias.
En la dócima sobre independencia entre las
variables se deben tener presentes un conjunto de circunstancias:
una de las principales se refiere al número de
categorías a usar. No debe ser tan pequeño que no
se pueda estudiar la posible asociación entre las
variables ni tan grande que incremente de forma desproporcionada
el número de celdas, en este caso disminuye tanto la
frecuencia absoluta observada como la frecuencia absoluta
esperada, distorsionando los estadísticos
utilizados.
Ejemplo 2.2.2 Sobre la dócima de independencia
entre variables.
Se desea conocer si en personas hipertensas existe
asociación o no entre los antecedentes de Accidente
Cardiovascular y el nivel de Stress. Siguiendo el procedimiento
explicado se desarrollan los siguientes pasos:
1. Las dos variables cuya posible
asociación se desea docimar son:
X: Antecedentes de accidente cardiovascular.
Y: Stress.
2. Se plantea la hipótesis inicial
equivalente a la afirmación de que ambas variables son
independientes.3. Se escribe la hipótesis alternativa:
Los antecedentes de ACV están asociados a los niveles
de Stress.4. La probabilidad de rechazar la
hipótesis inicial cuando ella es cierta se fija en
0.05.5. Para realizar esta dócima se asocia
la variable ACV a las filas y los niveles de Stress a las
columnas.6. Los niveles de la primera variables ACV
son:
"no" para los hipertensos sin antecedentes
cardiovasculares."si" para los hipertensos con antecedentes de
accidentes cardiovasculares.
En la segunda variable se estudia el nivel de Stress por
medio de pruebas que califican a los hipertensos en Stress Bajo,
Stress Medio ó en Stress alto.
7. Se seleccionan 30 casos de hipertensos con
accidentes cardiovasculares y otros 30 casos de hipertensos
sin accidentes de este tipo. En cada uno por medio de su
historia clínica y las pruebas correspondientes se
construye la tabla de contingencias de frecuencias
observadas
Antecedentes de ACV vs
Stress
2.3 Análisis de los residuos en una
tabla de contingencias.
Después de rechazar la hipótesis inicial
H0 de variables aleatorias independientes, en una dócima
de hipótesis sobre asociación de variables en una
tabla de contingencias, resulta conveniente realizar un
análisis de todos los residuos.
Los residuos estandarizados se definen
así:
Bajo el supuesto de independencia, o sea, si la
hipótesis nula es cierta, se tiene entonces:
2.3.1 Tamaño de muestra para el
análisis de residuos cuando se usan los "residuos
ajustados" de todas las celdas.
La suma de todos los "residuos ajustados" dij converge
también en ley a la distribución normal, la
esperanza matemática de esta suma sigue siendo cero, pero
su varianza es fc.
En el caso de los promedios de los "residuos ajustados"
se tiene:
Observación: Mientras más aumenten las
categorías de las variables X e Y mayor será el
tamaño de muestra requerido.
2.3.2 Aplicación del análisis
de residuos
Ejemplo 2.3.2 Sobre el uso del análisis de
residuos.
En el Plano director participativo de la ciudad de
Tabatinga, interior del estado de Amazonas, Brasil, se desarrolla
una investigación para diagnosticar los principales
problemas de esa ciudad. Entre otras variables, se desea conocer
si existe asociación entre el estar enfermo o no con el
tipo de agua usada en sus casas: acueducto o pozo.
La probabilidad de confianza es fijada en 0.95 y el
límite superior para el promedio de los "residuos
ajustados" sin significación se fija en 0.1
Sustituyendo en la fórmula (2.15) y redondeando
el resultado obtenido a un múltiplo de 10 se tiene n =
1540.
La muestra es constituida por 1540 personas. Ellas son
visitadas y después de ser entrevistadas, se tiene la
siguiente tabla de frecuencias observadas:
Se usa el procedimiento tabla de contingencias para
docimar las hipótesis. Los resultados del análisis
de contingencias se muestran en las tablas 2.5 y 2.6.
Tabla 2.5 Tabla de contingencia del
ejemplo 2.3.2
Valores | grados de libertad | Significación | ||
Estadístico Ji | 13.839(b) | 1 | 000 | |
Corrección de | 12.934 | 1 | 000 | |
Razón de | 13.702 | 1 | 000 | |
Número de casos | 1540 |
Tabla 2.6 Resultados del ejemplo
2.3.2
Por medio del estadístico Ji cuadrado se obtiene
una asociación significativa entre las dos variables. Esta
significación es ratificada con la corrección de
continuidad y la razón de verosimilitud.
Haciendo el análisis de los residuos en cada una
de las celdas de la tabla de contingencias se observa
significación en los cuatro residuales ajustados, por lo
tanto, todos los residuos son significativos.
Por lo tanto el tipo de agua: Acueducto o Pozo artesano
influye en el hecho de estar enfermo o no.
2.4 Coeficientes de correlaciones asociados
a las tablas de contingencias.
Cuando es rechazada la hipótesis inicial sobre la
independencia de las variables estudiadas surgen las preguntas:
¿Cuál es la intensidad de la asociación
entre esas variables? ¿Cuál es la dirección
en que se produce la asociación?
Son varios los coeficientes de correlaciones usados para
estos fines. Entre ellos se pueden citar los coeficientes:
contingencia, V de Cramer y phi.
2.4.1 Coeficiente de
contingencia
Página siguiente |