Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Muestreo para correlaciones por contingencias y de Pearson (página 2)



Partes: 1, 2

El valor máximo que puede alcanzar el coeficiente
de contingencia depende del número de categorías de
las variables estudiadas. En el caso de una tabla 2(2 el
máximo valor de C es 0.7071, en cambio para una tabla 3(3
es 0.8165. Esto origina otra desventaja, dos coeficientes de
contingencias no son comparables, a menos que ellos sean
calculados de tablas de contingencias del mismo
tamaño.

En el ejemplo 2.3.2 el coeficiente de contingencia C =
.048 con probabilidad de significación 0.007. Es
interesante observar lo siguiente: Aunque el valor del
coeficiente es pequeño, sin embargo es significativamente
diferente de cero, lo cual ratifica la no independencia entre las
variables.

2.4.2 Coeficiente V de Cramer

Monografias.com

Una ventaja de este coeficiente consiste en la
posibilidad de calcular su distribución muestral y
así poder determinar su error típico de
estimación.

En el ejemplo 2.3.2 el coeficiente V de Cramer tiene el
siguiente valor V = .048 con probabilidad de significación
0.007. Se observa la coincidencia entre la contingencia y el
coeficiente V de Cramer en este ejemplo.

2.4.3

Monografias.com

Capítulo 3:

Coeficiente de
correlación de Pearson

En este capítulo se examina uno de los
principales coeficientes de correlaciones para variables medidas
en escalas por intervalos o de razón. Es el coeficiente de
correlación de Pearson. Se define el coeficiente para una
población y se hacen cálculos para obtener
tamaños de muestras necesarios para hacer estimaciones por
intervalos de confianza de este coeficiente a nivel poblacional,
con un bajo nivel de errores y una alta precisión. De
igual forma se determina el tamaño de muestra necesario
para hacer dócimas de hipótesis sobre la
significación del coeficiente. Con el propósito de
ilustrar estos aspectos, se presentan aplicaciones usando el
coeficiente de correlaciones muestral de Pearson.

3.1 Coeficiente de correlación de
Pearson para una población.

Cuando en el fenómeno estudiado las dos variables
son cuantitativas se usa el coeficiente de correlaciones de
Pearson. Es llamado así en homenaje a Karl Pearson. Las
dos variables son designadas por X e Y.

El coeficiente de correlación poblacional de
Pearson para las variables X e Y se define así:

Monografias.com

Este coeficiente es una medida de la relación
lineal entre las dos variables. El valor de ( está dentro
del intervalo [-1, +1]. El valor -1 representa una perfecta
correlación negativa mientras que el valor +1 representa
una perfecta correlación positiva. El valor 0 representa
falta de correlación. Cuando las variables X e Y son
independientes, el numerador se anula y el coeficiente de
correlación poblacional tiene el valor cero. En cambio una
correlación nula no implica la independencia de
variables.

3.1.1 Interpretación
geométrica de (

Monografias.com

Monografias.com

Figura 3.1

Monografias.com

Figura 3.2

Monografias.com

Figura 3.3

3.2 Estimación puntual del
coeficiente de correlación poblacional de Pearson por
medio de una muestra aleatoria simple

En el fenómeno estudiado se realizan
observaciones con el propósito de tener una muestra M. Sea
n el número de elementos muestrales.

Monografias.com

El subíndice i cuenta las observaciones
muestrales, en este caso i = 1, 2,…, n.

Al estimador r se le denomina coeficiente de
correlación muestral de Pearson. Como el valor de r es
función de los valores muestrales obtenidos, el estimador
es una variable aleatoria. Es decir, para cada selección
muestral de la misma población, r toma un valor
diferente.

Una tarea es conocer la distribución del
coeficiente de correlación muestral.

3.2.1 Distribuciones muestrales asociadas
al coeficiente de correlaciones de Pearson

Para el caso de variables aleatorias con
distribución normal bivariada, Fisher [1] encontró
para una muestra de tamaño n, la distribución
muestral de r. Este estimador tiene función de
densidad:

Monografias.com

Esta función de densidad es similar a la
función de densidad de la distribución t de
Student. Por medio de la siguiente transformación se puede
obtener.

Monografias.com

3.3 Estimación por intervalo del
coeficiente de correlaciones poblacional de Pearson

Ya se ha examinado la estimación puntual de este
coeficiente, pero eso no es suficiente, se necesita conocer el
error originado por el muestreo, así como la probabilidad
de tener el verdadero valor de ? próximo al valor
obtenido. Para estos casos se usa una estimación por
intervalo de confianza.

Un intervalo de confianza, es aquel intervalo donde se
encuentra el valor del parámetro desconocido con una
probabilidad de confianza ?. Se denota por L la longitud del
intervalo de confianza.

Para estimar el coeficiente de correlación de
Pearson por medio de un intervalo de confianza se usan las
distribuciones muestrales de r.

Monografias.com

Monografias.com

3.3.1 Tamaño de muestra necesario,
para estimar por un intervalo de confianza, el coeficiente de
correlaciones poblacional de Pearson

Cuando se fija la longitud del intervalo de confianza
para el coeficiente de correlación poblacional (, es
posible determinar el valor de n, o sea el tamaño de la
muestra con el cual se garantiza un límite del error de
muestreo menor que la semi-amplitud del intervalo de
confianza.

Monografias.com

Usando (3.10) se tiene en (3.9):

Monografias.com

Efectuando:

Monografias.com

De esta forma el tamaño de muestra para estimar
el coeficiente de correlación de Pearson por medio de un
intervalo de confianza de longitud L es:

Monografias.com

Observaciones:

1. En la misma medida que el valor del coeficiente de
correlación pre-muestral se hace menor, aumenta el valor
del tamaño de muestra.

2. Una reducción de la probabilidad de confianza
afecta en poca medida el tamaño de la muestra.

3. El elemento de la fórmula (3.14) que influye
más decisivamente en el valor de n es la longitud del
intervalo de confianza. Compare en la Tabla 3.1 los valores de n
para l = 0.2 con los valores de n para l = 0.1

3.3.2 Implementación del
muestreo

Para implementar el muestreo en primer término se
debe seleccionar el tamaño del intervalo y la probabilidad
de confianza. Por medio de una muestra inicial tener un primer
valor del coeficiente de correlación muestral de Pearson.
Con esos datos, ir a la fórmula (3.14) y calcular el
tamaño de muestra.

Ejemplo 3.3.2 Sobre el tamaño de muestra
necesario para obtener un intervalo de confianza del coeficiente
de correlación.

Se supone que se desea calcular un intervalo de
confianza de longitud 0.2 y probabilidad 0.95 para estimar el
coeficiente de correlación de Pearson. Desde una muestra
inicial se obtiene un coeficiente de correlación muestral
0.4. ¿Cuál debe ser el tamaño de la muestra
definitiva?

Aquí r = 0.4 L = 0.2 ? = 0.95 lo cual implica zq
= 1.96, Sustituyendo se tiene el tamaño de muestra
273.

Una tabla de valores de n para ? = 0.95, con valores de
L = 0.1 ó 0.2 y diferentes valores de r aparece en la
tabla A.1 del anexo A.

Una vez calculado el tamaño de muestra, es decir,
el valor de n, por un procedimiento aleatorio, se selecciona un
número n de unidades de la población. Es importante
garantizar que todas las unidades poblacionales tengan la misma
probabilidad de pertenecer a la muestra.

Una vez realizado el muestreo y hecho el cálculo
del nuevo coeficiente de correlación muestral, este valor
debe ser comparado con el valor obtenido en la premuestra. Si la
discrepancia es acentuada, debe ser calculado un nuevo
tamaño de muestra n1, y realizar n – n1 observaciones
adicionales. Este proceso se debe continuar hasta que las
diferencias entre los valores de r converjan a cero.

Ya estabilizadas las correlaciones muestrales, la
estimación puntual del coeficiente de correlación
poblacional es usada para construir el intervalo de confianza
para el coeficiente de correlación poblacional.

3.3.3 Aplicaciones de la estimación
por intervalo de confianza del coeficiente de correlación
de Pearson.

Ejemplo 3.3.3 Sobre la estimación de un
intervalo de confianza para el coeficiente de correlación
de Pearson.

En la estación meteorológica de Benjamin
Constant en el estado de Amazonas, Brasil se desea estimar el
valor del coeficiente de correlación entre la temperatura
del aire a la 1pm y la humedad relativa también a la 1pm.
Esta estimación se desea hacer con un error del muestreo
en el coeficiente de correlación muestral menor de 0.1. La
probabilidad de confianza está fijada en 0.95.

Se toma el mes de Junio 2000 como premuestra, para esos
30 días se obtiene un coeficiente de correlación de
Pearson igual a – 0.6084. Sustituyendo este valor en la
fórmula (3.14), se obtiene el tamaño de muestra
necesario para este tipo de estimación, en este caso, n =
156.

Para la estimación del coeficiente de
correlación poblacional se usa en definitiva una muestra
de 184 observaciones formada por los datos meteorológicos
de Mayo, Junio y Julio del 2000 más los datos
meteorológicos de Mayo, Junio y Julio del 2001.

Con estas 184 observaciones se obtiene un coeficiente de
correlación muestral: – 0.5281.

Es decir

r = – 0.5281

Monografias.com

Esto es, el coeficiente de correlación entre la
temperatura al aire 1PM y la humedad relativa 1PM en la
estación meteorológica de Benjamín Constant,
Amazonas, Brasil, está entre – 0.625 y –
0.4152.

3.4 Dócimas de hipótesis
sobre el coeficiente de correlación de Pearson.

Si el propósito es realizar una dócima
sobre la significación del coeficiente de
correlación de Pearson, la determinación del
número de unidades muestrales es necesario hacerlo de
manera diferente.

3.4.1 Determinación del
tamaño de la muestra.

Si se quiere llevar a cabo un estudio con el fin de
determinar si existe o no una relación significativa entre
dos variables numéricas X e Y. Para llevar a cabo la
investigación, se recoge una muestra de individuos en
donde de cada uno de ellos se determina el valor que toma cada
una de las dos variables. A continuación se muestra
cómo calcular el tamaño de muestra necesario para
contrastar la hipótesis inicial

Monografias.com

Como se dijo anteriormente, la distribución
muestral del coeficiente de Pearson no es normal, pero bajo la
suposición de que las dos variables de estudio presentan
una distribución normal bivariada, el coeficiente de
correlación de Pearson puede transformarse para conseguir
un valor de z que sigue una distribución
normal.

Monografias.com

Utilizando esta aproximación, se obtiene
fácilmente una fórmula para el cálculo del
número de unidades a muestrear. Se precisa
conocer:

Monografias.com

Las fórmulas anteriores pueden modificarse con el
fin de ajustar el tamaño muestral previsto para el estudio
a posibles pérdidas de información que se pueden
producir durante el desarrollo del mismo.

Monografias.com

3.4.2 Aplicaciones del diseño
muestral a las dócimas de hipótesis sobre el
coeficiente de correlación de Pearson.

Ejemplo 3.4.2 Sobre las dócimas asociadas al
coeficiente de correlación de Pearson.

Se desea estudiar las correlaciones entre las tensiones
arteriales "máximas y mínimas", y la edad. Usando
la base de datos Mercury de la UFMT. Se seleccionan 224 personas
cuya distribución por edades aparece en el siguiente
gráfico:

Monografias.com

Gráfico 1

Los coeficientes de correlaciones entre las variables
estudiadas aparecen en la tabla:

Tensión arterial
máxima

Tensión arterial
mínima

Frecuencia cardiaca

Edad

Tensión arterial
máxima

Correlación de
Pearson

1

,794(**)

-,082

,579(**)

Significación
bilateral

,000

,221

,000

n

224

224

224

224

Tensión arterial
mínima

Correlación de
Pearson

,794(**)

1

-,114

,605(**)

Significación
bilateral

,000

,088

,000

n

224

224

224

224

Frecuencia cardiaca

Correlación de
Pearson

-,082

-,114

1

-,074

Significación
bilateral

,221

,088

,272

n

224

224

224

224

Edad

Correlación de
Pearson

,579(**)

,605(**)

-,074

1

Significación
bilateral

,000

,000

,272

N

224

224

224

224

Tabla 3.1 Matriz de correlaciones del
ejemplo 3.4.2

Como el máximo interés es determinar si
existe correlación significativa a = P(I) = 0.05 con
ß = P(II) = 0.10 entre las tensiones arteriales y la edad
se usa el valor de r = 0.6 para determinar el tamaño de
muestra necesario. Usando la tabla A.3 del Anexo 3 se encuentra n
= 25, por ello se mantiene como válida la muestra de 224
personas.

Se puede observar en la muestra estudiada un coeficiente
de correlación positivo entre tensión arterial
máxima y mínima con valor 0.7944 altamente
significativo.

La edad tiene correlación positiva altamente
significativa con la tensión arterial máxima y la
tensión arterial mínima. En cambio no correlaciona
con la frecuencia cardiaca, aunque su signo es
negativo.

Conclusiones:

  • 1. El coeficiente de correlación debe
    ser seleccionado en base a las escalas de medidas usadas en
    cada una de las variables.

  • 2. La determinación del tamaño de
    muestra en las de tablas de contingencias varia según
    sea el objetivo:

  • a) Determinar probabilidades de
    incidencias.

  • b) Docimar independencias entres dos
    variables.

  • c) Analizar la asociación entre las
    variables.

  • 3. El tamaño de muestra para construir
    intervalo de confianza para el coeficiente de
    correlación poblacional de Pearson es función
    de la longitud del intervalo, de la probabilidad de confianza
    y del coeficiente de correlación muestral. Por esta
    razón se sugiere un procedimiento secuencial para este
    propósito.

  • 4. El tamaño de muestra para docimar la
    significación del coeficiente de correlación
    poblacional de Pearson es función de las
    probabilidades de cometer errores del tipo I y del tipo II y
    del valor del coeficiente de correlación muestral. Por
    esta razón se sugiere un procedimiento secuencial para
    esta dócima.

Recomendaciones

  • 1. Estudiar procedimientos de muestreos para
    los coeficientes de correlaciones de Spearman, Kendall,
    Gamma, …

  • 2. Continuar profundizando sobre las
    propiedades asintóticas de los tamaños de
    muestras.

  • 3. Extender los estudios de muestreos para los
    análisis de correlaciones con más de dos
    variables.

Bibliografía

Amon, J. (1978), Estadística para
psicólogos 1. Estadística descriptiva
, Ed.
Pirámide. Madrid.

Anderson, T.W., (1958), An Introduction to
Multivariate Statistical York
, Ed. John Wiley and Sons, Inc.
New York.

Briones (1987), Métodos y técnicas de
investigación social.
Editorial Trillas.
México.

Cué J.L., E. Castell y J. M. Hernández,
(1987), Estadística II, Ministerio de
Educación Superior. Ediciones UH. Ciudad Habana.
Cuba

Daniel, W., (1990), Applied
nonparametric statistics
, 2ª ed. Boston:
PWS-KENT.

Fisher, R.A. (1915), Frequency distribution of the
values of the correlation coefficient in samples from an
indefinitely large population
, Biometrika, 10,
507-521.

Fisher, R.A. (1924), The distribution of the partial
correlation coefficient
, Metron 3, 329-332.

Fisz M. (1963), Probability Theory and Mathematical
Statistics
, Ed. John Wiley and Sons, Inc. New
York.

Galton, F. (1889), Natural Inheritance, Ed.
Macmillan and Co. London.

Gibbons, J.D., (1971), Nonparametric Statistical
Inference
, McGraw-Hill Book Company. New York.

Hoel, P. G., (1962), Introducción a la
Estadistica Matemática
, Ed. John Wiley and Sons, Inc.
New York.

Latorre, A., Del Rincón, I y Arnal, A. (1996),
Bases metodológicas de la investigación
educativa
, Yordi Hurtado Mampeó- Editor Barcelona,
España.

Linares, G., (1990), Análisis de Datos,
Ministerio de Educación Superior. Ediciones UH. Ciudad
Habana. Cuba

Nagpaul, P. S. (2001), Guide to
Advanced Data Analysis using IDAMS Software
,
http://www.unesco.org/webworld/idams/advguide/TOC.htm

Neyman, J. y E. S. Pearson (1928), On the use and
interpretation of certain test criteria for purpose of
statistical inference
, Biometrika 20A, 175-240 y
263-294.

Palmer, A.; Jiménez, R. y J. J. Montaño,
(2000), Tutorial sobre el coeficiente de correlación
con una ó dos variables categóricas
, Revista
Electrónica De Psicología Vol. 4, número 2
ISSN 1137-8492.

http://www.psiquiatria.com/psicologia/revista/50/2830

Palmer, A.; Jiménez, R. y J. J. Montaño,
(2001), Tutorial sobre el coeficiente de correlación
lineal de Pearson
, Revista Electrónica De
Psicología Vol. 5, número 1 ISSN 1137-8492
http://www.psiquiatria.com/psicologia/revista/51/2815

Pearson, K. (1896), Mathematical Contributions to
the Theory of Evolution. III. Regression, Heredity and
Panmixia
, Philosophical Transactions of the Royal Society of
London, 187, 253-318.

Pearson, K. (1900), On a criterion that a given
system of deviations from the probable in the case of a
correlated system of variables is such that it can reasonably
supposed to have arisen from random sampling
, Philos. Mag.,
Ser. 5, 50, 157-175.

Rao, C. R. (1973), Linear Statistical inference and
its Applications
, 2nd Edition. Editorial John Wiley and
Sons, Inc. New York.

Siegel, S., (1956), Non-parametric Statistics for
the Behavioral Sciences
, McGraw-Hill Book Company. New
York.

Stanton J. M. (2001), Galton, Pearson, and the Peas:
A Brief History of Linear Regression for Statistics
Instructors
, Journal of Statistics Education Volume 9,
Number 3

Quantitative Methods in Public Administration Phi,
the contingency coefficient, Tschuprow"s T, y Cramer"s
V.

"http://www2.chass.ncsu.edu/garson/pa765/assocnominal.htm"

Wikipedia, la enciclopedia libre (2007), Variable
estadística
, Wikipedia Foundation , Inc
"http://es.wikipedia.org/wiki/Variable_estadÃstica"

Wilks S. S., (1962), Mathematical Statistics,
Editorial John Wiley and Sons, Inc. New York.

Yates, F (1934). Contingency table involving small
numbers and the ?2 test
. Journal of the Royal Statistical
Society (Supplement) 1: 217-235.

Anexos

Anexo 1 Selección de los
coeficientes de correlaciones de acuerdo a las escalas de medidas
usadas en las variables.

Monografias.com

Tabla A.1 Escalas de medidas de las
variables y coeficientes de correlaciones usados.

Nota: Los tamaños de muestras en las
líneas sombreadas no son confiables, por ser calculados
con procedimientos asintóticos, validos sólo cuando
n es grande.

Anexo 2 Tamaños de muestras para
construir intervalos de confianza para el coeficiente de
correlación de Pearson.

Monografias.com

Nota: Los tamaños de muestras en las
líneas sombreadas no son confiables, por ser calculados
con procedimientos asintóticos, validos sólo cuando
n es grande.

Anexo 3 Tamaños de muestras para
docimar la significación del coeficiente de
correlación de Pearson.

Monografias.com

 

 

Autor:

Gustavo Vicente Rojas
García

Uvedel Bernabé Del Pino
Paz

María Milena Rodríguez
Fernández

 

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter