- CONCEPTOS
BÁSICOS - ESTADÍSTICA.
- POBLACIÓN
- MUESTRA.
- MUESTREO
- DATO
- VARIABLE
- CONSTANTE
- PROBLEMA
- HIPÓTESIS
- ESCALAS DE
MEDICIÓN - ORGANIZAR DATOS EN
INTERVALOS DE CLASE - MEDIDAS DE TENDENCIA
CENTRAL - MEDIDAS DE
DISPERSIÓN - DISTRIBUCION
PROBABILISTICA - COEFICIENTES DE
CORRELACIÓN - ANALISIS DE REGRESION
LINEAL SIMPLE - EJERCICIOS
El objetivo del
presente trabajo es
desarrollar algunos instrumentos estadísticos que permitan
valorar, evaluar cuando dos factores, propiedades o
características (variables) de
un proceso u
objeto de estudio, se encuentran significativamente asociados.
Hay veces en que la expresión "todo está
relacionado con todo", o "nada se relaciona con nada", es una
buena expresión del desconocimiento de la realidad y la
desesperación que se tiene al no tener claridad a
qué y por dónde comenzar a aplicar una medida.
¿Qué va con qué ? es la pregunta a
responder.
Probar que dos variables no son independientes una de
otra, es decir, que exite una determinada relación de
asociación entre ellas, constituye el paso previo a dar
antes de entrar a tomar algunas decisiones que implicaran con
seguridad
invertir expectativas, energía, tiempo y
recursos en
alguna solución al problema que investigamos.
Por ejemplo, en la escuela
básica "La Rochela" los rendimientos de alumnos en
matemática
no han sido satisfactorios segun lo determinado por el
Comité Académico al término de un periodo
escolar.
El director del establecimiento pregunta,
¿Qué factores explican el resultado ?. Algunas
respuestas pueden ser:
No hay motivación
en alumnos.
Falta de perfeccionamiento y actualización
docente.
El bajo nivel socioeconómico de los
alumnos.
Como puede constatar son varias las rutas posibles para que la
dirección de la escuela pueda tomar la
decisión mas adecuada. La estadística es una de las herramientas
que nos permite evitar tomar decisiones sujetivas o de
simplemente "creencias" sin fundamentación
científica razonable.
Por lo tanto para comprender bien la estadística
debemos saber algo acerca de las diversas escalas que se usan
para medir, notaciones estadísticas básicas, medidas de
tendencia central, dispersión y correlaciones.
Adicionalmente en este trabajo se pretende:
Proporcionar herramientas útiles en el proceso de
investigación, consideranndo que hay
conceptos básicos que resultan de vital importancia para
la toma de
decisiones con respecto a los datos obtenidos
en el proceso.
Resaltar y dar énfasis que en todo proceso
investigativo, mas aun cuando de recopilar muchos datos se trata,
es necesario recurrir a herramientas necesarias de procesamiento
electrónico, que nos permitan agilizar la
ordenación sistematica y poder
además tener seguridad y confiabilidad en el momento de
realizar el respectivo proceso con los mismos.
Considerando lo anteriormente expuesto, se podrá
notar que los ejemplos dados son bastante sencillos desde el
punto de vista de los cálculos matemáticos, los
cuales pueden desarrollarse con pequeñas calculadoras o
sin ellas. Sin embargo, cuando los cálculos se vuelven
complejos o los datos a procesar son cientos de ellos, la parte
manual se
complica, y es alli donde es necesario, casi que indispensable,
hacer uso de los aparatos de cálculo
electrónico, en otras palabras, debemos recurrir al uso de
los modernos computadores y su respectivo software (programa) para
comodidad, seguridad y rapidez en el proceso. Ideal que para el
seguimiento de los respectivos ejemplos se haga uso de una hoja
electrónica, tal como Excel.
Antes de entrar a describir y ejemplarizar algunas de
las herramientas bases del presente trabajo, recordemos algunos
conceptos básicos requeridos en el proceso de
investigación y la estadística.
Estadística viene de la palabara italiana
"Statista" que significa "expresión" y fue introducida por
primera vez a Inglaterra en el
siglo XVIII.
Estadística es la técnica utilizada en una
investigación para la recolección
de datos, ordenación, presentación y análisis.
El término "Estadística" es usado en casos
como por ejemplo: la estadística de los estudiantes que
ingresaron el año pasado en los colegios de la ciudad de
Cali.
La estadística de los estudiantes universitarios
que trabajan. La estadística de los analfabetas en
Colombia.
etc.
Su campo de aplicación es bastante amplio, asi
por ejemplo, en la mayoría de los campos de
investigación donde se tenga que realizar pruebas,
recolectar datos, se hace presente el uso de la
estadística, para citar algunos:
El análisis de los resultados académicos
de los estudiantes.
Resultados de las pruebas del ICFES.
Un investigador requiere demostrar la hipótesis: "Los niños
bien alimentados desarrollan mayor habilidad en el aprendizaje
que los mal alimentados".
Se desea verificar el experimento: "a las personas les
tomará menos tiempo entender un texto con
ilustraciones, que entender el mismo texto sin
ilustraciones".
En el proceso de la planeación, es indispensable tener información cuantitativa y cualitativa del
pasado para tomar decisiones en el presente que tendrán
implicaciones en el futuro.
Grupo entero de datos, objetos tales como alturas y
pesos de los estudiantes de una universidad o
número de cerrojos defectuosos y no defectuosos producidos
por una fábrica en un día determinado.
Es una parte tomada de la población, seleccionada de acuerdo con una
regla o plan.
Es la selección
de una muestra representativa entre toda una población. El
análisis de la muestra ofrece información acerca de
toda la población.
Es el registro de una
información, o agrupación de cualquier
número de observaciones relacionados. Para que los datos
sean útiles, las observaciones necesitan estar organizadas
en tal forma que se puedan identificar tendencias y llegar a
conclusiones lógicas.
Antes de confiar en cualquier interpretación de datos, es necesario
probar los datos, haciéndose estas preguntas:
¿De dónde vienen los datos ? ¿Es
probable que haya algún interés en
suministrar datos que lleven a una conclusión en lugar de
otra ? (las controvertidas polémicas por las
estadísticas que arrojan en las encuestas de
gaseosas y otros productos.
Caso de las tendencias políticas,
etc). ¿Cuántas observaciones tenemos ?¿Ellos
representan todos los elementos del grupo que
deseamos estudiar ?
Por ello un dato es confiable o seguro cuando
aplicado repetidamente a un mismo individuo o
grupo, o al mismo tiempo por investigadores diferentes
proporciona resultados iguales o parecidos.
Es un símbolo tal como X, Y, H que puede tomar un
valor
cualquiera de un conjunto determinado de ellos, llamado dominio de la
variable. Variable se define tambien como los elementos o
propiedades que se estudian: Sexo, ingresos,
educación,
clase social,
etc. Las variables pueden clasificarse en dos tipos, Cualitativas
o Cuantitativas.
Es una variable que no puede expresarse
numéricamente sino que tiene naturaleza de
categoría, es decir, que genera datos expresados con
palabras denotando cualidades o atributos. Si la
información de la variable que vamos a organizar
corresponde a una variable cualitativa y si los datos generados
no implican orden al enunciarlos, dicha información se
reagrupa en categorías.
2.6.1.1 Variable cualitativa no
ordenable.
Cuando los sucesos elementales se reagrupan en
categorías, pero no requieren un orden determinado, pero
si tiene un límite definido excluyentes unas de otras.
Ejemplo:
Estado civil Soltero, casado, viudo, unión
libre
Religiosidad Católico, protestante, budista,
etc
Sexo Femenino, masculino
Nacionalidad Colombiano, peruano, etc
Rendimiento académico Excelente, Bueno, Regular,
Deficiente
Nivel Socio-económico Alto, Medio,
Bajo
Ejemplo.
En una encuesta
realizada sobre el uso de los medios de
comunicación, se dieron los siguientes datos:
Variable: Medios de
comunicación
Categorías Resultado
encuesta
Periódico 40
Revistas 20
Televisión 52
Radio 35
Correo 10
Otros 5
El orden de las categorías no implica para su
ubicación.
2.6.1.2 Variable
cualitativa ordinal.
Cuando los datos se reagrupan en rangos y estan
definidos por cualidades o atributos. Ejemplo. En una evaluación
de lectura
(variable) sus rangos son: Eficiente, bueno, aceptable,
deficiente (orden decreciente)
2.6.2 Variable cuantitativa
ordinal.
Cuando los datos se reagrupan en rangos y estan
definidos por números, se pueden jerarquizar pero no se
conoce la intensidad de los rangos, es decir, quien es mayor o
menor. Ejemplo
Chiqui, Pianola y Cortizona pertenecen al estrato
socio-economico 5, pero esto no indica que los tres tengan la
misma "intensidad" socio-económica.
2.6.3. Variable
cuantitativa continua.
Cuando la variable puede tomar cualquier valor entre dos
valores dados
consecutivos.
Ejemplo: la altura en centímetros de un grupo de
chicas, es posible encontrar chicas que midan entre 165 cms y
169.5 cms o entre 166 y 170 cms.
2.6.4 Variable cuantitativa
discreta.
Cuando los sucesos o datos son números enteros.
Ejemplo,
Cortizona tiene 3 hijos, Lastenia tiene 2 hijos. Pero no
se puede determinar que Lastenia por ejemplo, tiene entre 2 y 3
hijos.
Cuando la variable solamente puede tomar un valor o
permanece fijo durante un proceso o cálculo.
Es una oración o aseveración interrogativa
en la cual se pregunta: Qué relación existe entre
dos o mas variables ?. La respuesta se busca a traves de la
investigación.
2.9 HIPÓTESIS.
Es una afirmación en forma de conjetura de las
relaciones entre dos o mas variables. Las hipótesis son
siempre planteadas en forma de oraciones declarativas y
relacionan variables con variables sea en forma general o
específica.
Existen varios métodos
para ordenar datos. En la mayoría de los casos, las
técnicas de medición se pueden reducir a cuatro tipos
de escalas: nominal, ordinal, de intervalos y de razón.
Una escala es un
sistema para
asignar valores numéricos a ciertas características
o rasgos mensurables.
3.1 ESCALAS DE MEDICIÓN
NOMINAL.
En una escala nominal, acada cosa que se está
midiendo se le asigna un número o nombre distinto, por
ejemplo, un número, letra o número romano. Ejemplo,
la asignación de números a un grupo de jugadores de
beisbol. Estos no tienen nungún significado ni utilidad, excepto
la de identificar a cada jugador. Otro ejemplo, Sexo: hombre,
mujer
Una variable corresponde a una escala nominal cuando los
sucesos elementales se usan para clasificar personas,
características u objetos en categorías que no
admiten jerarquización ni cuantificación de los
datos.
3.2 ESCALAS DE MEDICIÓN
ORDINALES.
En éstas, la variable bajo medición se
ordena o jerarquiza, sea cual fuere la diferencia de magnitud
entre puntajes. Ejemplo, la jerarquización de personas o
puntajes segun alguna medida particular, como el lugar que ocupan
en la clase, del primero al último o del más alto
al más bajo. Una escala ordinal dirá, por ejmplo,
quien fue primero, segundo o tercero. Otro ejemplo: nivel
socioeconómico: alto, medio, bajo.
3.3 ESCALAS DE MEDICIÓN DE
INTERVALO.
En una escala de intervalos se obtiene una unidad
especifíca de medición, que es de tal naturaleza,
que la distancia o diferencia entre cualesquier dos
números adyacentes es idéntica a la de cualesquier
otros dos números. Las mediciones ocupan un lugar en una
escala de puntajes de intervalo constante. Ejemplo, el logro
académico se mide usualmente en escalas porcentuales o
calificaciones de 1 a 10.
3.4 ESCALA DE MEDICIÓN DE
RAZÓN.
Son variables cuyos sucesos elementales, además
de ordenarlos jerárquicamente, permiten hacer
comparaciones entre un par de valores, pero esta vez afirmando
cuantas veces es mayor o menor un valor que otro, es decir existe
un cero absoluto.
Ejemplo: Juan tiene en ahorros 15000, su hermana Rosa
posee 30000, en cambio su
amigo Pedro 0 ahorros. Lo que indica que Rosa tiene el doble de
ahorros que Juan.
1) Determine en cada caso qué tipo de escala
(nominal, ordinal de intervalo o de razón) usaría
para clasificar las siguientes variables:
a) Filiación política
b) Edad en años cumplidos de un grupo de
personas
c) Grados de escolaridad de un grupo de
personas
d) Posición de estudios en un curso de acuerdo a
su rendimiento académico
2) Para las siguientes variables determine
cuáles podrían ser las categorías que nos
permitirán medir la variable.
a) Nivel académico
b) Ocupación de un padre de familia
c) Puntaje del ICFES de estudiantes del colegio
X
d) Motivación hacia la
matemática
e) Nivel de religiosidad
4. ORGANIZAR DATOS EN
INTERVALOS DE CLASE.
Considere que tiene los siguientes datos, ordenados,
obtenidos de una muestra al azar sobre la estatura en
centímetros, de niños en una escuela:
107 111 111 112 112 113 113 113 114 114 115 115 116 116
116 117 117 117 117 118 118 118 118 119 119 119 119 120 120 120
120 121 121 121 121 121 122 122 122 122 123 123 123 123 124 124
124 124 125 125 125 126 126 126 127 127 128 128 129 129 130 130
133 135
Otra forma de organizar los datos.
Tabla 1
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Rango = 135 – 107 = 28
- Rango: Es la diferencia entre el valor mayor de los
datos y el menor.Se establecen de 5 a 15 o 5 a 20 clases (esto
depende de la cantidad de datos). Tenga en cuenta que entre
menos clases se definan se pierde detalle o si se establecen
muchas se puede hacer dificil extraer informacion
util.Por lo general siempre se definin clases de igual
amplitud, los intervalos desiguales tienden a distorsionar
las comparaciones. Se forman siempre clases que no se
superpongan para eliminar toda posible ambigüedad en
cuanto a que clase pertenece una observacion. Los intervalos
de clase se eligen tambien de forma que las marcas de
clase o puntos medios coincidan con datos realmente
observados. Esto tiende a aminorar el llamado error de
agrupamiento.Otra forma de encontrar el intervalo de clase ( K ),
es haciendo uso de fórmula de sturges.K = 1 + 3.3 x log N N = Número de
datos N=64K = 1 + 3.3 (log 64) = 6.96
K = 7 (se redondea por defecto o por
exceso) - Intervalo de clase (K), se puede proceder teniengo en
cuenta algunas reglas.El ancho de clase debe estar en un rango no menor de
5 y no mayor de 15 o 20.C = 28/7 C= 5 (se ajusta)
Límites extremos inferior y superior de los
intervalosNuevo rango = (número de intervalos) x (ancho
de clase)Nuevo rango = 7 x 5 = 35
Ahora se tiene: rango nuevo – rango original : 35 –
28 = 7 (diferencia)Cuando los datos son enteros, a la diferencia se le
resta 1Diferencia -1 = 6 se resta 1, para justificar en el
paso 3.Este numero 6 se reparte entre el rango inferior
(restando) y el superior (sumando), teniendo en cuenta si es
par o impar, asi:Rango inicial: superior = 135 inferior =
107Diferencia -1 Rango inferior Rango
superior0 107 135
1 106 (resta 1) 135
2 106 (resta 1) 136 (suma 1)
3 105 (resta 2) 136 (suma 1)
4 105 (resta 2) 137 (suma 2)
5 104 (resta 3) 137 (suma 2)
6 104 (resta 3) 138 (suma 3)
y así sucesivamente.
- Ancho de clase ( C ). Este se define como : C =
Rango/K. - Marca de clase. Es el punto medio del intervalo de
clase y se obtiene sumando los limites inferior y superior de
la clase y dividiendo por 2. - Limites reales de clase. Se obtienen sumando al
limite superior de un intervalo de clase el limite inferior del
intervalo de clase contiguo superior y dividiendo por
2.
Ejemplo. De acuerdo al ejemplo citado, encontremos cada
uno de estos conceptos.
- Rango: 135 – 107 = 28
- Intervalo de clase: Si utilizamos (al azar) 5
intervalos de clase, el tamaño de cada uno será:
28/5 = 6 aproximadamente. Si utilizamos 15 intervalos de clase,
el tamaño de cada uno será: 28/15 = 2
aproximadamente. - Ancho de clase: Considerando tomar como intervalo de
clase 6. entonces el ancho sera: 28/6 = 5
aproximadamente
Tomando 6 intervalos de clase y ancho 5, los datos
estarán distribuidos:
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
- Para ver el gráfico seleccione
la opción "Descargar" del menú superior - Marca de clase: (107+111)/2 = 109. Si consideramos,
por ejemplo, tomar como marca de clase
108, 113, 118, … los datos se pueden agrupar: - Límite reales de clase: (105+106)/2 = 105.5 ,
(110+111)/2 = 110.5, y asi sucesivamente. Los limetes reales de
clase estaran dados como:
Intervalo Frecuencia
105.5 – 110.5
110.5 – 115.5
..
Estos rangos no seran lo mas representativos, dado a que
no coinciden exactamente con los datos observados.
5. MEDIDAS DE TENDENCIA CENTRAL.
Las medidas de tendencia central son valores que
generalmente tienden a ubicarse hacia el centro de una distribución. Las tres medidas más
frecuentes de tendencia central son media, mediana y moda.
Es un valor que tiende a situarse en el centro del
conjunto de datos ordenados segun su magnitud. Es equivalente a
dividir la suma de todos los puntajes, entre el número
total de éstos, en la distribución.
Para el ejemplo: X = å (107+111+111+….) = 7724/64 =
120.69
Realizar estas operaciones,
haciendo uso de papel y lápiz o de una calculadora normal,
sería bastante dispendioso. Haga uso de la hoja
electronica Excel, digite estos mismos datos en una columna
cualquiera, por ejemplo a partir de la celda A1.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
En la celda A65 haga uso de la funcion PROMEDIO.
Obtendrá el resultado esperado.
Para datos agrupados: (haga uso de la hoja
electronica)
m o X
= å
mifi/ N en donde
mi = marca de clase de la i-esima
clase
fi = frecuencia de la i-esima
clase
Tabla 2
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Metodo abreviado. m o X = A + å difi/ N
Otra forma de obtener la media, cuando los intervalos de
clase son iguales. Se toma una media supuesta (A) aquella marca
de clase que tenga mayor numero de frecuencias (aunque se puede
tomar cualquiera), luego se toman las diferencias de cada marca
con respecto a esta (A).
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
m o X
= å
mifi/ N = 119 + 1.72 =
120.72
Es el valor medio o la media artimética de
los valores
ordenados en orden de magnitud. Un 50% de los puntajes quedan
encima de la mediana, y 50% por debajo. Si los puntajes suman un
número par, la mediana es el promedio de los dos puntajes
centrales, y por lo tanto ninguno puede atribuirsela. Si embargo
si la suma de los puntajes es impar, la mediana sólo es el
puntaje central.
Ejemplo:
3,4,4,5,6,8,8,8,10 la mediana es 6 ( Número de
datos impares)
5,5,7,9,11,12,15,18 la mediana es igual a 1/2(9+11) = 10
(Número de datos pares)
Para nuestro ejemplo modelo:
107,111,111,112,…….. 135 (hay 64 datos) (121 +121)/2 =
121
Para datos agrupados la fórmula viene dada
por:
Mediana =
L1 = Límite real inferior de la clase
mediana (clase que contiene la mediana)
N = Número de datos (frecuencia total)
(å
f)1 = Suma de las frecuencias de todas las
clases por debajo de la clase mediana
f = Frecuencia de la clase mediana
C = Tamaño del intervalo de la clase
mediana
Ejemplo:
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
L1 = (116+117)/2 = 116.5
N = 64
(å
f)1 = (3 +12) = 15
f = 21
C = 5
Mediana = 116.5 + [(64/2 – 15)/21](5) =
120.5
Es el valor que se presenta con la mayor frecuencia en
una distribución.
2,2,5,9,9,9,10,10,12,18 la moda es 9 (equivalente al
30%)
3,5,8,10,12,15,16 no tiene moda
2,3,4,4,4,5,5,7,7,7 la moda es 4 y 7 (bimodal) (30%
cada uno)
Para datos agrupados la fórmula viene dada
por:
Lmo = Límite real inferior de la clase
modal
d1 = Diferencia (sin considerar signo) entre
la frecuencia de la clase modal y la frecuencia de la clase
precedente
d2 =Diferencia (sin considerar signo) entre
la frecuencia de la clase modal y la frecuencia de la clase
siguiente.
W = Amplitud de la clase modal (intervalo de la
clase)
Existen otras fórmulas para la variable continua,
cuando la amplitud es constante.
Para nuestro ejemplo:
Lmo = 116.5 (21 es la frecuencia
mayor)
d1 = [21 – 12] = 9
d2 = [21 – 18] = 3
W = 5
Moda = 116.5 + 9/(9+3)* 5 = 120.25
5.4 CUARTILES,
DECILES, PERCENTILES.
Cuando la distribución contiene un numero alto de
intervalos o de marcas de clase y se requiere obtener un promedio
de una parte de ella, se puede dividir la distribución en
cuatro, diez o en cien partes. En el primer caso se habla de
Cuartiles, en el segundo Deciles y en el último Centiles o
Percentiles.
Asi por ejemplo, si una serie de datos se colocan en
orden de magnitud, el valor medio que divide al conjunto de datos
en dos partes iguales es la mediana. Aquellos valores que dividen
a los datos en cuat ro partes iguales representados por
Q1, Q2 y Q3 se llaman primero,
segundo y tercer cuartil. En igual forma, los valores que dividen
los datos en diez partes iguales se llaman deciles
(D1, D2, ….D9) y los que
dividen en cien partes iguales se llaman percentiles
(P1, P2,…P99)
El primer cuartil (Q1) se define como el
valor de la variable que supera al 25% de las observaciones y es
superado por el 75% de las observaciones.
Ejemplo: tomando los datos ejemplo de la Tabla
1
Primer Cuartil (Q1) = N/4 64/4 = 16 es tomado
para los casos comenzando desde el más bajo, en este caso
no aparece, el más cercano por defecto es 15
(Nj-1), por lo tanto Nj sera 19. Por lo
tanto Q1 = 117
Tercer Cuartil (Q3) = 3N/4 = 3(64)/4 = 48, en
este caso si existe, o sea Nj-1= 48 y Nj =
51, por lo tanto Q3 = (Yj-1 +
Yj)/2 = (124+125)/2 = 124.5
Percentil 80 P80 = 80N/100 = 80(64)/100 =
51.20 en este caso no aparece, el mas cercano por defecto es 51
(Nj-1), por lo tanto Nj sera 54. Por lo
tanto P80 = 126
Para datos agrupados. Ver Tabla 2
Primer Cuartil
Q1 = Yj-1 + C [(f/4 –
Nj-1)/ fj] para Nj-1 <
f/4
64/4 = 16, por lo tnato Nj-1 = 15 y Nj =
36
Q1 = 116 + 5 [(16-15)/21] = 116.2
Sexto Decil. D6
6(64)/10 = 38.4, por lo tnato Nj-1 = 36 y Nj
= 54
D6 = 121 + 5 [(38.4 – 36)/18] =
121.6
Ejercicios
4.94 5.06 4.96 4.96 5.01 5.04 4.95 4.99 4.98 5.01 5.00 4.96 5.01
5.02 4.97 5.00 5.01 5.00 5.02 4.98 5.04 5.95 4.97 4.99 5.00 5.00
4.98 5.03 5.00 5.02 4.99 4.97 5.01 5.04 5.02 4.98 5.01 5.03 4.98
5.00 5.03 5.01 5.02 5.01 4.99
Ordendando los datos de menor a mayor:
4.94 4.95 4.95 4.96 4.96 4.96 4.97 4.97 4.97 4.98 4.98 4.98
4.98 4.98 4.99 4.99 4.99 4.99 5.00 5.00 5.00 5.00 5.00 5.00
5.00 5.01 5.01 5.01 5.01 5.01 5.01 5.01 5.01 5.02 5.02 5.02
5.02 5.02 5.03 5.03 5.03 5.04 5.04 5.04 5.06
Los valores cuantitativos van de 4.94 (rango inferior) a
5.06 (rango superior). Los intervalos de clase son de igual
amplitud y no se superponen.
Datos no agrupados:
Media o Promedio m = å xi/ N = 224.94/45 =
4.9986
Mediana= 5.0 (Observacion central)
Moda= 5.01 (Mayor frecuencia)
Datos agrupados:
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Promedio m
= å
mifi/ N = 224.95/45 =
4.9992
Mediana =
L1 = (4.99 + 5.00)/2 = 4.995
N = 45
(å
f)1= (3 + 6 + 9) = 18
f = 15
C = 2
Mediana = 4.995 + [( 22.5 – 18)/15 ] 2 =
5.595
Moda = Lmo + W [ d1 /(d1 +
d2)]
Lmo = 4.995
d1 = (15 – 9) = 6
d2 =(15 – 8) = 7
W = 2
Moda = 4.995 + [6/(6+7)](2) = 5.918
1) Las calificaciones de un estudiante en seis pruebas
fueron: 5.4, 4.0, 3.6, 4.5, 3.5, 4.0. Cuál es la
calificación media ?.
2) Cuatro grupos de
estudiantes, formados por 15, 20, 10 y 18 individuos registran
una media de peso de 162, 148, 153 y 140 libras,
respectivamente. Hallar el peso medio de todos los
estudiantes.
3) Hallar la mediana de las calificaciones del punto
1.
4) Teniendo en cuenta la tabla anterior (de los pesos
en Kgs).
a) Hallar el deciles D2, D5
b) Hallar el percentil P3, P35, P60
5) Si clasificamos 220 municipios en grandes, medianos
y pequeños de acuerdo con el número de habitantes
de forma que tenemos 49 grandes, 63 medianos y 108
pequeños, cómo los representaría en un
histograma de frecuencias ?
Las medidas de dispersión son utilizadas para
indicar el grado de uniformidad (homogeneidad) entre los datos de
la variable en estudio. Permiten determinar el grado de
desviación (dispersión) que tienen los datos con
respecto a la media o a la mediana. Las dos más comunes
son varianza y desviación estándar.
Es una medida de variabilidad o dispersión de un
grupo de puntajes. Es una forma estadística de expresar la
cantidad de dispersión en un grupo de puntajes; la
magnitud de la dispersión está en relación
directa con la varianza. Las siguientes fórmulas para
datos no agrupados llegan a los mismos resultados.
x = Media
aritmética n= muestra total. Puede obtenerse
tambien
S2 = å (Xi – x )2
ni /n
S2 = å f(Xi – x )2
/n
6.2 DESVIACIÓN TIPICA (S). o
(DT)
Es otra medida del grado en que los puntajes se apartan
de la media. Se define como la raiz cuadrada de la
varianza.
La interpretación de la S es especialmente clara
cuando se aplica a una curva de distribución normal o que
se aproxima a la normal. En una distribución de este tipo
existe una relación exacta entre la S y la
proporción de casos (ver figura de la curva
normal).
Ejemplo: Tomando como modelo nuestro ejercicio
base:
107 111 111 112 112 113 113 113 114 114 115 115 116 116
116 117 117 117 117 …..
Haga uso de la hoja electronica Excel, tal que le
permita facilmente realizar los calculos y pueda aplicar la
fórmula siguiente:
S2 = å (Xi – x
)2/n
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
La celda B67, por ejemplo, obtendría el promedio
el cual será: =PROMEDIO(B2:B65)
La celda C2, tendría el siguiente cálculo:
=B2-$B$67
La celda D2 sería: =C2*C2, finalmente D67
tendría el promedio: =PROMEDIO(D2:D65), el cual
corresponde a la varianza. Según la fórmula arriba
indicada.
Luego obtener la raiz cuadrada de este valor,
proporciona la Desviación Estándar.
=RAIZ(D67)
Para datos Agrupados.
Teniendo en cuenta la fórmula S2 =
å f(Xi –
x )2 /n, y
haciendo uso de la hoja electronica Excel.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Ejercicio.
La siguiente tabla muestra las puntuaciones obtenidas
por 10 estudiantes en un test de aprendizaje. En
la misma tabla se presenta la diferencia de cada valor con
respecto a la media. Determine si el procedimiento
realizado para calcular la varianza y desviacion tipica es
correcta para este tipo de datos.
Tabla-3
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
å X =
400 å
x2 = 244 N = 10
M = å
X/N = 400/10 = 40
Varianza (s
2) = å
x2 /N = 244/10 = 24.4
Desviacion estándar (DS)= å x2 /N = 24.4 =
4.9
La segunda columna indica cuánto se aleja cada
puntuación, por encima o por debajo, de la media que es
40.
7. DISTRIBUCION PROBABILISTICA.
Para el buen manejo y entenidimiento de este parte, se
debe tener los conceptos básicos de probabilidades, pues
juega un papel importante cuando se trata de elección de
un modelo que permita la descripción del comportamiento
de los datos. El término modelo, corresponde a una
expresión empleada para estudiar los resultados de un
experimento, como a su vez, ver el comportamiento en futuras
repeticiones. Algunos conceptos a tener en cuenta:
7.1.1 Distribución de probabilidad.
Son todos los posibles valores que resultan de un
experimento aleatorio, junto con la probabilidad asociada a cada
valor.
Corresponde a una caracterización cualitativa de
los resultados que constituyen un espacio muestral. Cada cantidad
o valor es el resultado de un experimento aleatorio y, como tal,
puede tomar distintos valores. Las variables aleatorias se
clasifican en discreta y continua.
Variable aleatoria discreta, cuando los valores que
asume se pueden contar y si estos pueden organizarse en una
secuencia al igual que los numeros enteros positivos. Solo puede
asumir un numero finito de valores.
Variable aleatoria continua. Cuando puede asumir
cualquier valor dentro de un intervalo o en una union de
intervalos. Admiten fracciones.
Dentro de los modelos de
probabilidad, correspondiente a variables aleatorias discretas,
con mayor aplicación se tienen: Bernoulli,
Binomial, Poisson, Exponencial, Multinomial e
Hipergeométrico y en cuanto a la variable aleatoria
continua se considera el modelo normal estandarizado. En este
apartado tratare la Normal.
Corresponde a un adistribución de variable
aleatoria continua, que se extiende sobre un campo de
variabilidad infinito y está determinada:
n= Numero de datos. = Desviación estandar de la distribucion
binomial . e =Base
de los logaritmos naturales = 2.71828 = 3.141592… () = media de la
distribución binomial = np.
Se le denomina tambien, Gaussiana, Laplaciana,
Distribución de Laplace-Gauss
o de Gauss-Laplace o bien la segunda ley de Laplace.
Aparentemente fue descubierta por De Moivre(1756) como forma
límite de la Distribución Binomial.
La curva normal es el tipo de distribución
más comun. Una característica importante de la
curva normal es que dice con exactitud la cantidad de casos que
caen entre dos puntos cualesquiera de la misma.
La simetría de la curva indica que la mitad del
área está a la izquierda del vértice y la
otra mitad a la derecha, así que la mitad de las
probabilidades están asociadas con los valores a la
izquierda del vértice y la otra mitad a los valores de la
derecha del mismo. Debido a esta simetría, las
desviaciones positivas y negativas respecto del valor x, donde
está situado el vértice, tienen igual peso y por lo
tanto se compensan entre sí, lo cual permite apreciar que
el vértice ocurre para x = u. Adviértase tambien
que la figura muestra el procentaje de casos que caen dentro de
una, dos, y tres desviaciones estándar por encima y debajo
de la media. Un 34% de los casos cae dentro de +1 DS (o -1 DS).
Al alejarse de la media, el número disminuye. Asi las
áreas cubiertas desde +1 DS hasta +2 DS, desde -1 DS hasta
-2 DS representan cada una casi 14% de los casos. Entre 2 y 3 DS
de la media existen menos casos aún, alrededor de 2% de la
distribución.
En el eje horizontal de esta curva se han marcado las
distancias que representan una, dos y tres desviaciones
típicas, por encima y por debajo de la media. Así,
en el ejemplo que se da, la media corresponde a una
puntuación de 40 y un DS de 4.9. Por lo tanto, + 1 DS
estará a 44.9 (40+4.9); +2 DS, a 49.8 (40+2×4.9) y asi
sucesivamente. El porcentaje de casos que en una curva normal
figuran entre la media y +1 DS es 34.13%. Como la curva es
simétrica, tambien se encuentra el 34.13% de los casos
entre la media y -1 DS
Las puntuaciones típicas expresan la distancia
del individuo a la media en función de
la desviación típica de la
distribución.
Las puntuaciones típicas lineales pueden
obtenerse por transformaciones, lineales o no de las puntuaciones
directas originales. Todos los cálculos que se puedan
realizar con las puntuaciones directas originales pueden tambien
efectuarse con las puntuaciones típicas lineales, sin
ninguna distorsión de los resultados.
Las puntuaciones típicas deducidas linealmente se
designan a menudo simplemente como puntuaciones típicas o
puntuaciones z. Se dice tambien que es variable normalizada ya
que mide la desviación de la media en unidades de
desviación típica.
z =
Ejemplo,
Calcular la probabilidad de obtener 4, 5, 6 caras en 9
lanzamientos de una moneda.
Mediante la aproximación binomial se
tiene:
n = 9, p= ½ , q = ½ u= np = 9(1/2) =
4.5
p(3.5<x<6.5) = ? ( Se tiene que x=3.5
corresponde al límite inferior de 4 y x=6.5 es el
límite superior de 6.
Se quiere buscar el área a partir de la media
hasta el límite inferior, dado que el área de cada
lado vale 50%; la suma total será igual a uno. Se tiene
que
z = Ahora, haciendo uso de la tabla para valores z
(distribución normal que viene como anexo en los libros de
estadística). Tenemos que el area es igual a 0.2486 (este
valor se encuentra de la siguiente manera: en dicha tabla se va
hacia abajo por la columna encabezada por z, hasta alcanzar el
valor 0.6. Sobre esta misma fila hacia la derecha hasta la
columna encabezada por 0.07, la intercepción da el
valor).
z =
Ahora se desea obtener el área comprendida entre
z=-0.67 y z=1.33. Para ello sumamos los valores 0.2486 + 0.4082 =
0.6568. Por lo tanto la probabilidad de que aparezcan 4, 5 y 6
caras es de 65.68%
1. Determinar el área bajo la curva normal a la
izquierda de z = -1.78
P(z<-1.78) = ? P= 0.5000 – 0.4625 =
0.0375
P = 3.75%
(La suma de las partes es igual a 1. Por ello a 0.5000
se le resta el valor dado). Como z es menor a este valor,
quiere decir que el area está al lado izquierdo de la
curva.
2. Encontrar el valor de z si el area a la derecha de z
es igual a 0.2266.
0.5000 – 0.2266 = 02734
A(0.2734) por lo tanto z = 0.75 (debe buscarse en la
tabla)
3. Hallar z si el area bajo la curva normal entre 0 y z
es 0.4515
A(0.4515), por lo tanto z= 1.66
Determinar el área bajo la curva
normal.
- A la derecha de z = 0.56
- A la dercha de z= -1.45
- Correspondiente a z < 2.16
- Correspondiente a -0.80 < z < 1.53
Encontrar el valor de z:
- El area a la izquierda de z es 0.0314
- El area entre –0.23 y z es igual a
0.5722 - El area entre 1.15 y z es 0.0730
- A la derecha de z es 0.8023
- Entre –z y z es 0.7436
7.3 EL TEST CHI-CUADRADO
(X2).
Test estadístico para evaluar la
asociación o independencia
entre dos variables. Trabaja con variables categóricas o
discretas.
Algunos interrogantes que se pueden resolver con
chi-cuadrado. Está el rendimiento académico
asociado al sexo del alumno?. Está el talento deportivo
asociado a la nacionalidad
de las personas?
Para realizar el cálculo del Chi-cuadrado es
preciso construir una tabla de contingencia. La tabla de
Contingencia es una estructura de
filas y columnas que sirven para mostrar el resultado(cifra,
número) de clasificar el total de casos(datos). Se pueden
construir tablas de contingencia de 2×2, 2×3, 3×3, etc. No
está limitado por el número de categorías.
El Chi-cuadrado si está limitado fuertemente el que exista
una o mas celdas con una frecuencia menor de 5 casos(datos), ya
que la distorsión de los resultados es muy grande
generando una falsa interpretación.
Para aplicar la prueba se deben definir frecuencias
observadas y esperadas. Supongamos que se ha medido a 180 alumnos
de la escuela "La Rochela", que cursan el 6° año de
bachillerato. Previamente se ha definido una escala de
rendimiento con un rango de 1 a 7, donde el puntaje 4 significa
aprobación mínima de la asignatura y 7 es
sobresaliente y menos de 4 es reprobación. De los 180
estudiantes encontramos 75 con una calificación de alto
rendimiento. El grupo restante (105) se encuentra de bajo
rendimiento.
En cuanto a la
motivación, recurriendo a un test específico,
se ha medido a los mismos 180 alumnos y encontramos que hay 60
estudiantes con alta motivación y otro grupo de 120 con
baja motivación. Estos puntajes corresponden a los
obtenidos en la realidad, es decir son el producto de la
evaluación mediante la aplicación de los
intrumentos respectivos. Estas cifras se encuentran en los
extremos del cuadro por lo tanto corresponde a las frencuencias
observadas. Ademas se observaron los siguientes
resultados:
a) Rendimiento alto y alta motivación: 50
estudiantes
b) Rendimiento alto y baja motivación: 25
estudiantes
c) Rendimiento bajo y alta motiviación: 10
estudiantes
d) Rendimiento bajo y baja motivación: 95
estudiantes
Con estos datos se construye la tabla de Frecuencias
observadas. (Haga uso de la hoja
electrónica)
Para ver el
gráfico seleccione la opción "Descargar" del
menú superior
Para determinar las frecuencias esperadas a partir de
los datos observados, resulta de multiplicar los respectivos
marginales y dividir por el gran total.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Porqué se presenta este resultado? Si estamos
preguntándonos si existe relación entre dos sucesos
o eventos, hemos de
considerar que lo esperado es que los dos sucesos sean
independientes. Por ejemplo, en el caso que nos ocupa, la celda
superior izquierda relaciona los individuos de Alta
Motivación y de Alto Rendimiento. Los alumnos de alta
motivación son 60 de 180, es decir 60/180. Los alumnos de
alto rendimiento son 75 de 180, es decir, 75/180
Cuántos individuos (X) de los 180 se espera que
sean al mismo tiempo de alta motivación y de alto
rendimiento?. Segun las leyes
probabílisticas, se espera que la probabilidad de que dos
eventos independientes se den en el mismo estudiante, es igual al
producto de las probabilidades individuales, es decir, 60(75)/180
= X X= 25
A través de Chi-cuadrado se probará de
forma afirmativa o negativa que la distribución de las
frecuencias observadas difiere significativamente en
relación a la distribución de la frecuencias que
deberiamos esperar.
O= Frecuencia Observada
E= Frecuencia Esperada
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
X2 = 64.2
Qué nos dice este valor ?
a) Se requiere para ello constatar el valor obtenido
(64.2) con el Chi-cuadrado crítico de la tabla de
valores criticos que viene como anexo en los libros de
estadistica.
Nota: Normalmente todos los libros de
estadística traen como anexo, tablas con sus
respectivos valores críticos.
b) Si X2 observado es mayor que el X2 crítico
entonces, podemos afirmar que existe una asociación,
estadísticamente significativa entre las variables
estudiadas.
c) Para encontrar X2 crítico se requiere
comprender dos conceptos:
Grados de libertad y
Nivel de significación
Grados de libertad(GL): Se define como (Número de
columnas -1)(Número de filas -1). Para el ejemplo
sería: Tabla de 2×2 , entonces, GL = (2-1)(2-1) =
1
Nivel de significación (P): Denominado nivel de
confianza, se refiere a la probabilidad de que los resultados
observados se deban al azar. Este valor es fijado por el
investigador, usualmente es el 5% o 10%. Lo que indica que si se
toma P=0.05, se está significando que solo en un 5% de las
veces en que se realice la medición, el resultado obtenido
podría deberse al azar. De lo contrario sería decir
que existe un nivel de confianza del 95% que el resultado es real
y no debido a la casualidad. Considerando P=0.05 y GL=1, se tiene
que X2 crítico es igual a 3.84. Se observa que X2
calculado (64.2) es mayor a X2 critico (3.84).
Luego podemos afirmar que el rendimiento en la
matemática está asociado a la motivación de
los alumnos por dicha asignatura.
Finalmente, mediante una tabla de 2×2 se muestran los
resultados principales obtenidos al cruzar las dos variables:
rendimiento y motivación.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Como se puede observar, los estudiantes de más
alto logro(rendimiento), en matemáticas, son aquellos que tienen una
mas alta motivación, del mismo modo, los que evidencian un
menor logro muestran tambien una mas baja
motivación.
Aplicando la prueba de asociación
estadística Chi-cuadrado y los procedimientos de
cálculo apropiados, se demuestra que ambas variables se
encuentran estadísticamente asociadas con un nivel de
confiabilidad del 95% (X2=64.2, GL=1 y P=0.05)
La principal consecuencia que se deriva del estudio, es
la necesidad de implementar un conjunto de acciones y
actividades pedagógicas y recreativas con el fin de
evaluar la motivación de los alumnos por la
matemática, lo cual se espera demuestre efectos positivos
en sus rendimientos en dicha asignatura.
Ejercicios:
1) Determine si puede o no realizar la prueba
Chi-cuadrado, y porque.
- Se desea determinar la relación que existe
entre la ubicación del estudiante en el aula de clase
y su nivel de atención. Se han escogido las
categorías por la ubicación en el aula de:
alumno adelante y alumno atrás. Por el nivel de
atención de: bajo, medio-bajo y bajo-bajo. - Se desea determinar la relación que existe
entre consumo de
cigarrillos y rendimiento en el trabajo
en una oficina de 10
empleados. Se categoriza a los fumadores en altamente
fumadores, poco fumadores y no fumadores y el rendimiento en
alto y bajo.
2) Qué margen de error se puede permitir el
programa espacial para el acoplamiento de naves que circundan
la tierra
?
3) Tres grupos de alumnos de una Universidad
respondieron a la Escala E de Dogmatismo de Milton Rokcach. Los
resultados fueron:
Para ver el gráfico seleccione
la opción "Descargar" del menú
superior
Son iguales los tres grupos en la variable de personalidad
medida?. Explique la respuesta.
8. COEFICIENTES DE
CORRELACIÓN.
Un coeficiente de correlación expresa el grado de
relación entre variables. Su valor o magnitud fluctua de
+1 (perfecta correlación positiva) a -1 (Perfecta
correlación negativa). Si X e Y denotan las dos variables
que se consideran, un diagrama de
dispersión muestra la localización de los puntos
(X,Y) en un sistema de coordenadas rectangulares. Si todos los
puntos en este diagrama de dispersión parecen encontrarse
cerca de una recta, como en (a) y (b) la correlación se
dice lineal. Si Y tiende a incrementarse cuando se incrementa X,
como en (a) la correlación se dice positiva o
correlación directa. Si Y tiende a disminuir cuando se
incrementa X, como en (b) la correlación se dice negativa
o correlación inversa.
Si todos los puntos parecen estar cerca de una curva, la
correlación se dice no lineal y una ecuación no
lineal es la apropiada para la regresión o
estimación, una correlación no lineal puede ser a
veces positiva o negativa. Si no hay ninguna relación
entre las variables (c) se dice que no hay correlación
entre ellas, es decir no estan correlacionadas.
Asi por
ejemplo, la correlación que existe entre inteligencia y
rendimiento es positiva, dado a que los alumnos más
inteligentes tienden a obtener altos rendimientos
académicos.
Es importante recordar que mientras mas fuerte sea la
correlación entre dos variables mayor el poder predictivo
existente entre ellas. El término "correlación", se
utiliza cuando las variables involucradas en la relación
son de tipo interval(proporcional), es decir cuantitativas en
sentido estricto, pero además la "correlación",
busca mediante la medida de co-variación de variables,
predecir a prtir del conocimiento
de una de ellas el comportamiento de la otra variable. Ver Anexo,
Tabla de Interpretación de Coeficientes.
El que una correlación sea
estadísticamente significativa quiere decir que conocemos
la probabilidad de error cuando sabemos que X e Y correlacionan.
Es decir, conocemos el márgen de error en el sentido de
que la relación entre X e Y se deba simplemente a una
casualidad o al azar y no a factores causales estructurales que
asocian a las variables.
Cuando decimos que hay una correlación
estadísticamente significativa entre las expectativas que
el maestro se hace sobre el rendimiento del estudiante y el
rendimiento que este efectivamente logra(por ejemplo r=0.68) las
implicaciones educativas que se derivan son importantes. El
significado o valor pedagógico relevante de este dato
comienza por reconocer que: si el profesor tiene
un nivel de expectativas mas bien bajo sobre lo que su grupo
escolar puede lograr en su aprendizaje, los resultados del
proceso de enseñanza-aprendizaje tenderan a mostrar
resultados bajos.
Para seleccionar adecuadamente el coeficiente de
correlación a calcular, es preciso considerar la escala en
la que se ha medido cada variable.
La siguiente tabla es una guía para seleccionar
el coeficiente apropiado, segun las variables que
intervienen.
Para ver el gráfico seleccione
la opción "Descargar" del menú
superior
La selección del coeficiente se puede hacer
formulando las siguientes preguntas:
1. Son las dos variables de tipo categórico?.
Si la respuesta es afirmativa pero hay mas de dos
categorías en la expresión de cada variable, no
se puede calcular coeficiente de correlación. Se aplica
Chi-cuadrado. Si las variables son ambas categóricas y
dicotómicas, se aplica el coeficiente O (Phi). Si una es
dicotómica y la otra es ordinal se aplica
correlación biserial por rangos. Si una es
dicotómica y la otra está medida en una escala de
intervalo se aplica la correlación punto
biserial
2. Son las variables ordinales? si la respuesta es
afirmativa, corresponde aplicar la correlación por
rangos de Spearman. Si una variable es ordinal y la otra
dicotómica, se aplica correlación biserial por
rangos. Si una es ordinal y la otra intervalar, se aplica
correlación por rangos de Spearman.
3. Se encuentran las dos variables medidas en una
escala de intervalo?. Si tal es el caso se aplica el
coeficiente de correlación de Pearson. Si una variable
es de intervalo y la otra ordinal se aplica correlación
por rangos de Spearman
Ejercicios.
Para los siguientes pares de variables escoja el tipo de
coeficiente de correlación que usaría:
a) El sexo de las personas vs si son religiosas o no lo
son
b) El estado
civil soltero o casado vs su estrato
socio-económico
c) El coeficiente intelectual vs rendimiento
académico calificado en notas de 1 a 10
d) El coeficiente intelectual vs interes por el
conocimiento evaluado con B,A,R,D
Un colegio desde hace dos años mantiene un
programa piloto de apoyo al aprendizaje de los alumnos de 7
grado, que significa contar con padres que les colaboran con sus
tareas escolares. La participación es voluntaria y el
programa se implementó pensando en aquellos alumnos que
presentaban algunos problemas,
tales como bajo nivel de logro, escasa motivación,
desinteres y depresión,
dificultad para la comprensión
lectora, rechazo a la matemática. Cumplido los dos
años de funcionamiento, se decide hacer una
evaluación para decidir si el programa debe
institucionalizarse y ofrecerse como talleres.
A través de una tabla de contingencia se
confeccionó el número de casos correspondiente a
cada una de las siguientes combinaciones:
a) Participó en el programa y no tiene
problemas
b) Partició en el programa y si tiene
problemas
c) No participó en el programa y no tiene
problemas
d) No participó en el programa y si tiene
problemas
De acuerdos a los resultados se obtuvo el siguiente
cuadro resumen:
Para ver el gráfico seleccione
la opción "Descargar" del menú
superior
De acuerdo a la tabla de intervalos del coeficiente, se
oberva que un valor de 0.26 es una débil
correlación positiva. Lo cual concluye que existe una
débil correlación positiva entre presentar hoy
problemas en 8 grado y el haber parcipado en el programa de apoyo
al aprendizaje el año anterior. El programa sería
efectivo si la participación en él condujese a no
tener problemas de rendimiento.
8.2
CORRELACIÓN PUNTO BISERIAL (RPB).
Esta correlación es la prueba estadística
que se aplica cuando se quiere medir la relación que
existe entre una variable dicotómica y otra expresada en
una escala de intervalo.
Xa = Promedio aritmético del grupo
A
Xb = Promedio artimético del grupo
B
DS = Desviación estandar de todos los puntajes
(DS= å
X2-(å X)2/N )
Na = Número de datos en el grupo
A
Nb = Número de datos en el grupo
B
N = Número total de datos (Na +
Nb)
Ejemplo:
El Director del Instituo Nacional desea saber si el
estilo del docente está relacionado con el rendimiento de
los alumnos. Para el efecto se tomaron al azar cinco cursos en
los cuales el profesor fue caracterizado como participativo y
otros cinco cursos con profesores autoritarios (variable
dicotómica). Para el rendimiento como variable intervalar
se determinó el promedio aritmético de las
calificaciones alcanzadas por los alumnos en cada
curso.
Para ver el gráfico seleccione
la opción "Descargar" del menú
superior
=
Xa = (6.3+5.4+6.1+6.0+5.8)/5 =
5.92
Xb = (6.0+5.2+5.1+5.4+5.9)/5 =
5.34
DS= å
X2-(å X)2/N = 1.941
Na = 5
Nb = 5
Reemplazando estos valores en la fórmula
anterior, encontramos Rpb = 0.02
Existe una relación entre estilo del profesor y
las calificaciones que obtienen los alumnos?
Qué puede sugerir del resultado
encontrado?
8.3 CORRELACIÓN BISERIAL POR RANGOS
(RBR).
Se calcula cuando tenemos una variable dicotómica
y otra ordinal
N = Número total de casos ordenados por
rangos
R1= Rango (medio aritmético) de los
rangos de aquellos individuos en la categoría 1
R0 = Media aritmética de los rangos de
aquellos individuos en la categoría 0
Es posible aplicar la correlación biserial por
rangos siempre que no haya empates entre un mismo rango en la
escala. O sea cuando existen dos o mas individuos con un mismo
valor o puntaje.
Ejemplo:
La Secretaría de Educación Departamental
está considerando la posibilidad de recomendar una
inversion significativa para mejorar la enseñanza de las
ciencias en
las escuelas municipales de la región. De hecho, en
algunas escuelas han funcionado talleres de ciencia,
además, por tercer año consecutivo las escuelas han
participado en la expoferia juvenil de Proyectos
Científicos. El jurado de la Expoferia Juvenil, con el
objeto de premiar aquellos trabajos más destacados por su
originalidad y espiritu investigativo ordena todos los proyectos
en un "ranking". Segun la tabla.
Para ver el gráfico seleccione la opción
"Descargar" del menú superior
R1 = (71/10) = 7.1
R0 = (139/10)= 13.9
N= 10 + 10 = 20
Rbr = (2/20)|7.1-13.9| = 0.1(6.8) =
0.68
Hay una correlación fuerte, significativa, que
permite tomar la decisión de recomendar la inversión, por parte de la
Secretaría de Educación, en el mejoramiento de la
enseñanza de las ciencias, a través de los talleres
y academias científicas escolares.
8.4
CORRELACIÓN POR RANGOS DE SPEARMAN
(RS).
Se utiliza para medir el grado de correlación
entre las variables ordinales, cuyos valores indican rangos
(puestos) en cada una de ellas.
d = La diferencia de rangos en las dos
variables
n = Número de casos
Ejemplo:
En un instituto pedagógico admitieron el
año pasado 20 niños de Jardin Infantil. Promediados
y debidamente ponderados los test que cada niño
debió responder, se asignó a cada uno un puntaje
final. Estos puntajes fueron ordenados de mayor a menor. Los
veinte puntajes mas altos determinaron que niños fueron
admitidos.
Para efectos de evaluar la validez predictiva de los
test de admisión se decide el siguiente criterio: los test
tendrán valor predictivo si existe una correlación
mayor que 0.80 entre la posición que ocuparon los
niños en la lista de postulantes admitidos y la
posición que ocuparon al finalizar el año
escolar.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
= 0.79
Si observamos este valor en la Tabla Anexa de
interpretacion de Coeficientes, existe perfecta
correlación. Lo que significa que los test de
admisión que emplea el Instituto tiene muy buena validez
predictiva.
Ahora, para comprender la consistencia y confiabilidad
de esta conclusión puede buscarse el valor crítico
de Rs en la Tabla Anexa de
Valores Críticos de la Correlación de Spearman. En
este caso trabajando con un nivel de confianza(o
significación estadística) de 0.01 (1%), para 20
casos, el valor crítico es de 0.53, que al ser muy
inferior por el valor calculado (Rs = 0.90), no cabe
duda sobre la significación de la
correlación.
8. 5 COEFICIENTE DE CORRELACIÓN DE PEARSON
(RP).
Es el coeficiente de mayor utilización en
análisis de la información cuantitativa. Se aplica
cuando se trata de averiguar la correlación de dos
variables en escala de intervalo, es decir, variables
cuantitativas.
=
Desviaciones de los puntajes de las variables con
relación a sus respectivos medios
aritméticos.
Sx . Sy = Las desviaciones
standard delas respectivas variables
N = Número de casos
Otra forma de obtener el cálculo sería
haciendo uso de la siguiente fórmula
En caso de probar una hipótesis, los grados de
libertad se definen como N-2 con un nivel de confianza que puede
ser de 5% o 10%.
Ejemplo:
El comité académico del Colegio
Departamental pudo constatar, con no poca desazon, que los
puntajes obtenidos por los alumnos era mas bajos de los
esperados, considerando que las pruebas formativas habían
demostrado que tenían un buen dominio conceptual y de la
operatoria matemática. Plantearon la pregunta: Será
que el nivel de comprensión de lectura está
interfiriendo? Si no se comprende el problema al leerlo, mal se
podrá plantear una estrategia
apropiada para su resolución.
Consideremos una muestra aleatoria de 10 alumnos cuyos
puntajes se presentan.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
0.69
Rp= 0.69
Fijando P=0.05 y N-2 (10-2) grados de libertad, tenemos
un valor crítico de 0.63 (Ver tabla anexa de valores
críticos de la correlación de Pearson). Como el
coeficiente calculado es de 0.68 excede al valor crítico.
Lo que permite concluir que el desempeño que los alumnos alcanzan en
matemática, está correlacionado significativamente
con su nivel de lectura; lo que permite predecir (con un 95% de
confianza) que si se posee un nivel aceptable de lectura
comprensiva, se tendrá un buen resultado en
matemática.
Un elemento adicional que se calcula con el coeficiente
de correlación de Pearson es el denominado coeficiente de
determinación, el cual expresa la variación de la
variable dependiente.
El coeficiente de determinación es igual al
cuadrado del coeficiente de Pearson (r2). En el
ejemplo anterior si consideramos que la variable independiente es
la comprensión lectora, y la dependiente el rendimiento en
matematica, el r2 =(0.69)2 = 0.46, lo que
quiere decir que el 46% de la variacion en el rendimiento en
matemática es explicado por la variación de la
comprensión lectora.
El test -t conocido tambien como "t de student" es una
prueba estadística que se aplica para establecer la
significación de una diferencia al comparar dos grupos.
Establecer diferencias entre grupos es relevante pero no es
suficiente. Es preciso, ademas, determinar si la diferencia es
significativa y en consecuencia debe tomarse en cuenta, o por el
contrario es insignificante y no tiene mayor trascendencia para
comparar grupos y por tanto es descartable. Algunos
casos:
La innovación curricular introducida en una
escuela produce, significativamente mejores resultados de
aprendizaje con la metodología tradicional?
Son los resultados de un grupo experimental expuesto a
un programa de desarrollo del
pensamiento
reflexivo y creador, mayores que los del grupo de control?
Cual es la efectividad alcanzada por una
compañía de prevención del SIDA en la ciudad
de Cali?
Responder estos interrogantes implica en cada una de
ellas establecer y juzgar una diferencia.
El test es una herramienta que ayuda al investigador
establecer las significatividad estadística de una
diferencia observada entre dos grupos. El cálculo del
valor de t de student requiere en términos de la
medición de los grupos, conocer la media
aritmética, la desviación standard y el
número de casos considerados. Obtenido este valor debe
calcularse los grados de libertad el cual viene dado como: GL =
(Na + Nb) – 2.
Encontrar el valor crítico de t (para ello se
recurre a la tabla de valores críticos) teniendo en cuenta
el nivel de significación, por ejemplo 5%, 10%. El valor
critico se confronta con el valor calculado.
Para la interpretación se acostumbra sostener que
existen dos hipótesis posibles.
La hipótesis nula (Po) que
señala la igualdad de
los dos grupos. Es decir la no existencia de diferencia
estadística significativa
La hipótesis alternativa (P1) que
señala la existencia de una diferencia
estadísticamente significativa al comparar los
grupos.
La la teoría
estadística, se establece que si el valor observado es
mayor que el valor critico, entonces se rechaza la
hipótesis nula y se acepta la hipótesis
alternativa.
Xa = Media aritmética del grupo
A
Xb = Media aritmética del grupo
B
Dst= Desviación estándar total
con respecto al grupo A y B
Ejemplo:
En una escuela de educación básica, que
atiende niños en condiciones de pobreza. Los
profesores han enfrentado para la enseñanza de la
lecto-escritura
serias limitaciones de disponibilidad de texto o la
inadecuación de los materiales de
lectura que han podido disponer alguna vez. Preocupados por tal
situación, decidieron la elaboración del texto de
lectura por los propios alumnos, lo que garantizaría que
cada niño disponga de su propio texto y que las
temáticas abordadas tengan mayor significado para
ellos.
Después de un año de aplicar el proceso en
algunos cursos a través de un programa piloto, se escoge
el primer año básico A, grupo escolar que ha
experimentado el aprendizaje de lecto-escritura, elaborando sus
propios materiales y el primer año básico B que ha
trabajado del modo tradicional. Se aplica un test de lectura a
ambos cursos, notándose que los resultados del curso A,
son mejores. Luego se trata de comprobar si la diferencia es
atribuible al azar o se trata de una diferencia
significativa.
La siguiente tabla muestra los resultados obtenidos
despues de obtener la media, y desviación standar para
ambos grupos.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Xa = 36 Na = 15 Xb =
30 Nb = 12 DSa= 4 DSb =
6
Aplicando las respectivas fórmulas, encontramos
que:
t = 3.11 (ignore el signo si el valor es
negativo)
Para encontrar el valor crítico:
GL = Na + Nb – 2 = 27-2 =
25
Nivel de significación: P= 0.05
Al buscar en la tabla de valores críticos, se
encuentra que t, para P=0.05 y 25 GL es igual a 2.06.
Teniendo en cuenta la teoría de la
hipótesis nula (Po) y la hipótesis
alternativa (P1), en la teoría
estadística, se establece que si el valor observado es
mayor que el valor crítico, se rechaza la hipótesis
nula y se acepta la alternativa.
Para el ejemplo, valor t calculado (3.11) es mayor que
el t crítico (2.06). Por lo tanto es posible concluir que
existe una diferencia estadísticamente significativa entre
los resultados exhibidos por el grupo experimental y el de
control, con nivel de confianza del 95%. Luego el método
innovador de lectura ha probado ser más efectivo que el
método tradicional. Los 6 puntos de diferencia son
bastante significativo.
9. ANALISIS DE REGRESION LINEAL
SIMPLE
El gerente de un
Banco desea
tomar la decisión de crear una nueva sucursal en un sector
de la ciudad. Para ello sabe que el Banco tiene por política el que todas
las sucursales deben tener igual número de funcionarios y
que los edificios deben ser del mismo costo
aproximadamente. Que la rentabilidad
de las sucursales depende de los depósitos totales. Se ha
averiguado que si el total de los depósitos de una
sucursal es igual o superior a los $2.5 millones ésta
podrá dar utilidades. Considera que los depósitos
están relacionados con la riqueza del vecindario, por lo
tanto determina tomar como medida valida el avalúo
catastral como relación directa para los depósitos.
Por consiguiente se necesita saber ahora cual es la
relación entre estas dos variables (Depósitos vs
avalúo catastral). Para saber dicha medida toma como base
la información de las sucursales ya existentes. La tabla
siguiente muestra la información obtenida.
Para ver el gráfico seleccione
la opción "Descargar" del menú
superior
La representación de los datos en un
gráfico de dispersión, estaría dando la
relación o no de los datos, en la cual fácilmente
se observa que puede existir una relación
lineal.
La ecuación de una recta esta dada como: y = a +
bx
Donde a= la intersección con el eje y
b = la pendiente
Para lo que se propone hacer, la fórmula de la
recta ajustada a los datos muestrales será denotada
así:
ŷ (estimada) = b0 +
b1x donde
b0 = la intersección con el eje
y
b1 = la pendiente
ŷ = el punto sobre la recta ajustada que
corresponde a un valor x dado
La distancia vertical(desviación) entre la
i-ésima observación de y y la recta ajustada
sería entonces yi – ŷi.
Una buena recta sería la que minimizara la suma de las
distancias verticales de los datos muestrales, que es
å (yi
– ŷi)
Pero toda recta que pase por el punto de coordenadas
(x media, y
media)) dará una suma de desviaciones igual a cero. Pero
puede eludirse este problema elevando al cuadrado las
desviaciones antes de hacer la suma. Es decir, habría que
hallar la ecuación de la recta que haga mínima
å
(yi –
ŷi)2
Esto es precisamente lo que se logra con el
método de mínimos cuadrados.
9.2 METODO DE MINIMOS CUADRADOS
Recuérdese que (yi –
ŷi) es el error o desviación del valor
observado yi, respecto de su valor predicho
ŷi. Luego se buscan los valores de b0
y b1 que minimizan la SCE(Suma de cuadrados de
errores) para un conjunto dado de observaciones.
Ahora se puede utilizar la ecuación de
regresión(la recta ajustada) para predecir los
depósitos totales de la sucursal propuesta. Para efectuar
esto se necesita el valor de x, es decir, el avalúo
catastral total de las unidades residenciales en el área
propuesta. Supóngase que sea de $28 millones. La siguiente
tabla muestra los cálculos necesarios.
=
730,7/15 = 48,71
48,70/15 = 3,25
=
0,03
b0 = 3,25 – (0,03)(48,71) =
1,79
Por lo tanto la ecuación de la recta
es:
ŷ (estimada) = b0 + b1
x
ŷ (estimada) = 1,79 +0,03 x
La estimación calculada es que al crecer x en 1
unidad, y aumenta en 0,03 unidades. O para un aumento de $1
millón en el avalúo catastral total de las unidades
residenciales de un área dada, los depósitos
totales aumentan en promedio (0,03)($1.000.000) =
$30.000.
Ahora bien, sabiendo que el avalúo catastral
total de las unidades residenciales del área propuesta es
x = $28 millones, la predicción calculada del total de
depósitos y es: ŷ (estimada) = 1,79 + (0,03)(28) =
$2,63 millones.
Finalmente: Si los depósitos totales en la
sucursal propuesta, fueran iguales o mayores que $2,5 millones,
el banco seguiría adelante con la sucursal. La
estimación o predicción calculada es que la
sucursal atraerá depósitos totales por $2,63
millones. Pero que tan seguros puede
estarse de que los depósitos totales igualaran o pasaran
de los $2,5 millones? Lo que se tiene es una estimación
puntual basada en una relación lineal estimada, que a su
vez se basa en observaciones muestrales. La "bondad" de la
estimación puntual depende: 1) de si x y y están o
no relacionadas linealmente, 2) si están relacionadas,
dependen de la intensidad de la relación lineal, y 3) del
tamaño de la muestra.
Para algunos de los siguientes ejercicios, dada la
magnitud de los datos, es recomendable hacer uso de una hoja
electrónica o programas de
computador
especiales para tal efecto.
Accion A Accion B Accion C
90 94 94 97 98 96
100 102 97 106 93 105
110 101 112 94 115 94
105 106 96 97 112 101
98 98 106 99 82 102
97 99 113 110 103 105
98 97 92 96 101 98
103 102 95 96 100 105
Calcular la media, varianza y desviación
típica para cada acciónQue seria recomendable hacer?
- Se pide a una persona
recientemente formada en administracion financiera que
analice la variabilidad de los precios de
tres acciones diferentes para ayudar al gerente de un banco a
hacer una inversion para un fondo fiduciario. Las tres
compañias estan en la misma industria
y se han visto afectadas por una reciente modificacion de las
reglamentaciones oficiales. Por tal razon, solo las 16
semanas anteriores son indicativas de la marcha futura. Las
acciones han pagado dividendos parecidos hasta ahora, y ese
es le criterio principal del gerente. Para evitar la
especulacion, el gerente prefiere tambien acciones que no
fluctuen mucho de precio. La
siguiente es la informacion de precios semanales al cierre de
las tres acciones en las 16 semanas anteriores.Para ver el gráfico
seleccione la opción "Descargar" del menú
superiorCalcule el coeficiente por rangos de Spearman. Saque
sus propias conclusiones. - A un grupo de 10 niños se le asignan rangos
segun la rapidez en lectura y el tiempo que utilizan para
resolver un cierto número de ejercicios de
artimética. Se desea saber si existe
correlación entre las dos variables.Para ver el gráfico seleccione
la opción "Descargar" del menú
superiorHallar la correlación de Pearson y determinar
si se trata de un valor significativo para P=0.05
yN-2 grados de libertad.
Calcular el coeficiente de determinación y
que indica este resultado. - En un estudio preparado para investigar la
relación que existe entre la creatividad y otras variables, un equipo de
psicólogos administró a una muestra de 20
estudiantes de 10° grado, una prueba para medir el nivel
de creatividad. Al mismo tiempo los investigadores
solicitaron a cada estudiante que memorizara un poema
corto.Para ver el gráfico
seleccione la opción "Descargar" del menú
superiorDeterminar la eficacia del
metodo A con respecto al método B. Obtenga sus propias
conclusiones. - Supongamos que un investigador está interesado
en las eficacias relativas de dos métodos de
enseñanza, A1 y A2. Selecciona 10 estudiantes como
muestra, los divide en dos grupos al azar y asigna los
tratamientos experimentales a ambos. Despues de un plazo
conveniente mide el aprendizaje de los estudiantes de ambos
grupos sobre una medida de rendimiento. Los resultados, junto
con cierto cálculo, se dan en el siguiente
cuadro.Para ver el gráfico
seleccione la opción "Descargar" del menú
superior - Una universidad aplicó un test de aptitudes a
sus aspirantes a medicina y
los clasificó en tres grupos: aptos, dudosos y no aptos.
Un año despues clasificó el éxito
o el fracaso del alumno. La universidad desea saber si es
útil la prueba de selección para determinar el
éxito o el fracaso posterior. - Los siguientes son los valores de dos variables
(Estatura y Peso), en un grupo de 19 estudiantes. Saque las
conclusiones que permitan los datos, despues de emplear la
prueba estadística apropiada.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
ANEXOS
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
BIBLIOGRAFIA
BRAVO Salinas, Nestor y Ramirez Gonzalez, Alberto.
Experiencias de Investigación Educativa y Modelos
Estadísticos Computarizados. FAMDI, 1986
SPIEGUEL, Murray. Estadística. Edit. McGraw-Hill.
México,
1980
MARTINEZ Bencardino, Ciro. Estadística y
Muestreo. Edit.Impreandes. Bogotá, 1998
RICHARDS, Larry E. y LaCaba Jerry. Estadística en
los Negocios.
Edit. McGraw-Hill. Mexico, 1978
Trabajo realizado por
Orlando Ospina López
Ingeniero de Sistemas,
Postgrado en Desarrollo Intelectual. Docente actual de la
Universidad Santiago de Cali, Colombia.
Este trabajo fue realizado durante la
especialización. El objetivo, más que todo, era de
llevarlo como material de consulta para los estudiantes de la
universidad. Sin embargo por factores no mencionables acá,
ha sido puesto a disposición únicamente de mis
alumnos que han mostrado algún interés por esta
área.