Estadistica – Metodo empirico (página 2)

Partes: 1, 2

Rangos este tipo de gráficos la extensión máxima y mínima de las barras indica los rangos superior e inferior de validez de los datos considerados.

Hictograma de frecuencia

Es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.

Utilización

Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos.
son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso.

Tipos

Diagramas de barras simples representa la frecuencia simple mediante la

Altura de la barra

Diagramas de barras compuesta representa la información de una tabla de doble entrada o sea a partir de dos variables las cuales se representan la altura de la barra representa la frecuencia simple de las categorías de la variable y esta altura es proporcional a la frecuencia simple de cada modalidad.

Diagramas de barras agrupadas representar la información de una tabla de doble entrada o sea a partir de dos variables, el cual es representado mediante un conjunto de barras como se clasifican respecto a las diferentes modalidades.

Polígono de frecuencia

Un polígono de frecuencias se forma uniendo los extremos de las barras de un diagrama de barras mediante segmentos.

También se puede realizar trazando los puntos que representan las frecuencias y uniéndolos mediante segmentos.

Ejercicio; las temperaturas en un día de otoño de una ciudad han sufrido las siguientes variaciones:

Características de los polígonos de frecuencias

No muestran frecuencias acumuladas.
Se prefiere para el tratamiento de datos cuantitativos.
El punto con mayor altura representa la mayor frecuencia.
Suelen utilizarse para representar tablas tipo B.
El área bajo la curva representa el 100% de los datos. El polígono de frecuencia esta diseñado para mantener la misma área de las columnas.

Tipos

Polígonos agrupados para el polígono de frecuencia se toma la marca de clase que coincide con el punto medio de cada rectángulo de un histograma.

Ejercicio: Peso de 65 personas adultas viene dado por la siguiente tabla:

Polígono acumuladas se representan las frecuencias acumuladas de una tabla de datos agrupados se obtiene el histograma de frecuencias acumuladas o su correspondiente polígono.

Gráfico de sector

Se consideran una figura geométrica en que la distribución de frecuencias se reparte dentro de la figura como puede ser una dona, pastel, círculo o anillo, en el que cada porción dentro de la figura representa la información porcentual del total de datos.

Para comprender mejor estos conceptos, presentamos algunos ejercicios que incluyan las diferentes propiedades del cuadro. En el primer gráfico vamos a describir las categorías de la variable Clase social; para lograrlo debemos ubicar la variable en la lista e ingresarla en la casilla Sectores Por y a su vez elegimos la opción de color; sucesivamente en la pestaña Gráfico de sectores seleccionamos las opciones de etiqueta Recuento y Porcentaje, así como la ubicación Todo dentro. Después de ingresar la variable y seleccionar las opciones de etiqueta, hacemos clic en Aceptar con lo cual el gráfico es creado en el visor de resultados.

Si nos fijamos en los resultados del gráfico notaremos que cada uno de los sectores (categorías) cuenta con un color distinto y a su vez se anexa un cuadro con las respectivas leyendas representativas. La verdadera utilidad de un gráfico de sectores radica en la facilidad de interpretar el comportamiento de los datos de cada categoría y la contribución de cada una de ellas a la composición de la variable.

En los gráficos de sectores al igual que en los de barras y áreas, entre menor sea el número de categorías de la variable más sencillo es el gráfico y mayor cantidad de etiquetas se pueden incluir; si el número de categorías o estados es elevado, lo es más apropiado es incluir sólo aquellas etiquetas que son bastante representativas, como el recuento o el porcentaje.

Para el segundo ejercicio, vamos a generar un gráfico que describa la relación existente entre la condición de salud y el estado civil. Para crear el gráfico debemos volver al cuadro de diálogo Crear gráfico de sectores, empleando alguno de los métodos anteriormente mencionados.

Una vez en él, ubicamos la variable Condición de salud y la ingresamos en la casilla sectores y a continuación ingresamos la variable Estado civil en la casilla de panel. Después de ingresar las variables seleccionamos la pestaña Grafico de sectores y desactivamos la opción Recuento; para finalizar hacemos clic en Aceptar con lo cual el gráfico se crea en el visor de resultados.

Cuando se ingresa una variable en la casilla del panel, el programa crea un gráfico para cada una de las categorías de dicha variable. Encontramos cinco diferentes gráficos cada uno de ellos nos enseña el estado de salud de los diferentes estados civiles. Si nos fijamos en el primero de los gráficos (Soltero), notaremos que el 59.64% de los encuestados cuentan con una Excelente o Buena salud.

Desde luego la suma de las frecuencias de todos los gráficos debe ser igual a la frecuencia de la variable Condición de salud; dado que para este caso las variables cuentan con un elevado número de categorías, fue necesario suprimir la leyenda del recuento o de lo contrario sobre cargaríamos de información el gráfico dificultando su interpretación.

Características de los gráficos de sectores

No muestran frecuencias acumuladas.
Se prefiere para el tratamiento de datos cualitativos o casi cualitativos.
La mayor área (o porción de la figura) representa la mayor frecuencia.
Son muy fáciles de elaborar.
Suelen utilizarse para representar tablas tipo A.
La figura completa equivale al 100% de los datos (360º)

Curva de frecuencia o normal

El conjunto de datos puede considerarse normalmente como perteneciente a una muestra extraída de una población grande. A causa de las muchas observaciones que podemos realizar en la población es posible teóricamente (para datos continuos) elegir los intervalos de clase muy pequeños y todavía tener un número adecuado de observaciones dentro de cada clase.

Tipos

Las curvas de frecuencias simétricas o sesgadas se caracterizan por el hecho de que las observaciones que equidistan del máximo central tienen la misma frecuencia. Un ejemplo importante es la curva normal.
En las curvas de frecuencia moderadamente asimétricas la cola de la curva a un lado del máximo central es mayor que al otro lado. Si la cola mayor se presenta a la derecha de la curva se dice que ésta está sesgada a la derecha o que tiene sesgo positivo, mientras que si ocurre lo contrario se dice que la curva está sesgada a la izquierda o que tiene un sesgo negativo.
En las curvas en forma de J o de J invertida el máximo se presenta en un extremo.
Las curvas de frecuencias en forma de U tienen el máximo en ambos extremos.
Una curva de frecuencias bimodal tiene dos máximos
Una curva de frecuencias multimodal tiene más de dos máximos.

Método de Esturge

Es una comparación de los resultados obtenidos a través de las fórmulas propuestas para determinar el número de clases en datos agrupados.

m=1+3.332 Log n en donde M es numero de intervalos, la incógnita y n es el numero de datos.Ejercicio

Tenemos 30 datos, necesitamos determinar el número de intervalo, necesario para agruparlos y hacer análisis estadísticos.m=1+3.332 Log 30m=1+3.332 (1.477)m=1+4.9213m=5.9213Puede este valor aproximarse por exceso a 6Este valor, representa el numero de datos agrupados que se tendrá para el análisis estadístico.

Medida de dispersión

Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución.

Las medidas de dispersión son:

Rango o recorrido diferencia entre el mayor y el menor de
los datos de una distribución estadística.
La desviación respecto a la media es la diferencia
entre cada valor de la variable estadística y la media aritmética.
Di = x – x
La desviación media es la media aritmética de
los valores absolutos de las desviaciones respecto a la media.

Ejercicio; calcular la desviación media de la distribución:

9, 3, 8, 8, 9, 8, 9, 18

Desviación media para datos agrupados Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es

Varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.

Las propiedades de la varianza son:

– La varianza es siempre positiva o cero.

– La varianza de una constante es cero.

– La varianza de la suma o diferencia de una variable y una constante es igual a la varianza de la variable.

– La varianza de un producto de una constante por una variable es igual al cuadrado de la constante por la varianza de la variable.

Desviación típica es la raíz cuadrada de la varianza. Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación.

Las propiedades de la desviación típica son:

La desviación típica es siempre positiva o cero.
La desviación típica de una constante es cero.
La desviación típica de una constante por una variable es igual a la constante por la desviación típica de la variable.
La desviación típica de la suma o diferencia de una variable y una constante es igual a la desviación típica de la variable

Distribución simétrica y asimétrica

Distribución Simétrica Se caracteriza porque cada una de las observaciones equidistantes al máximo central, tienen aproximadamente la misma frecuencia. Es típico de la mayoría de los procesos industriales.

Distribución Asimétrica s típica de datos económicos, y de forma general en distribuciones de renta, consumo de electricidad, población, tamaño de empresas.

Coeficiente Pearson

El coeficiente de correlación de Pearson es un índice que mide la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.

El coeficiente de correlación entre dos variables aleatorias X e Y es el cociente

Probabilidad concepto

La probabilidad constituye un importante parámetro en la determinación de las diversas casualidades obtenidas tras una serie de eventos esperados dentro de un rango estadístico.

Existen diversas formas como método abstracto, como la teoría Dempster-Shafer y la numérica, esta última con un alto grado de aceptación si se toma en cuenta que disminuye considerablemente las posibilidades hasta un nivel mínimo ya que somete a todas las antiguas reglas a una simple ley de relatividad

La probabilidad de un evento se denota con la letra p y se expresa en términos de una fracción y no en porcentajes, por lo que el valor de p cae entre 0 y 1. Por otra parte, la probabilidad de que un evento "no ocurra" equivale a 1 menos el valor de p y se denota con la letra q:

Los tres métodos para calcular las probabilidades son la regla
de la adición, la regla de la multiplicación y la distribución
binomial.

Regla de la adición

La regla de la adición o regla de la suma establece que la provalidad de ocurrencia de cualquier evento en particular es igual a la suma de las probabilidades individuales, si es que los eventos son mutuamente excluyentes, es decir, que dos no pueden ocurrir al mismo tiempo.

Regla de la multiplicación

La regla de la multiplicación establece que la probabilidad de ocurrencia de dos o más eventos estadísticamente independientes ocurran todas es igual al producto de sus probabilidades individuales.

Distribución binomial

La probabilidad de ocurrencia de una combinación específica de eventos independientes y mutuamente excluyentes se determina con la distribución binomial, que es aquella donde hay solo dos posibilidades, tales como masculino/femenino o si/no.

VARIABLE ALEATORIA

En gran número de experimentos aleatorios es necesario, para su tratamiento matemático, cuantificar los resultados de modo que se asigne un número real a cada uno de los resultados posibles del experimento. De este modo se establece una relación funcional entre elementos del espacio muestral asociado al experimento y números reales.

Podemos asignar entonces a cada suceso elemental del experimento el número de caras obtenidas. De este modo se definiría la variable aleatoria X como la función

Tipos de variables aleatorias

Para comprender de una manera más amplia y rigurosa los tipos de variables, es necesario conocer la definición de conjunto discreto. Un conjunto es discreto si está formado por un número finito de elementos, o si sus elementos se pueden enumerar en secuencia de modo que haya un primer elemento, un segundo elemento, un tercer elemento, y así sucesivamente.

Variable aleatoria discreta: una v.a. es discreta si su recorrido es un conjunto discreto. La variable del ejemplo anterior es discreta. Sus probabilidades se recogen en la función de cuantía (véanse las distribuciones de variable discreta).
Variable aleatoria continua: una v.a. es continua si su recorrido no es un conjunto numerable. Intuitivamente esto significa que el conjunto de posibles valores de la variable abarca todo un intervalo de números reales. Por ejemplo, la variable que asigna la estatura a una persona extraída de una determinada población es una variable continua ya que, teóricamente, todo valor entre, pongamos por caso, 0 y 2,50 m, es posible. (véanse las distribuciones de variable continua)
Variable aleatoria independiente: Supongamos que "X" y "Y" son variables aleatorias discretas. Si los eventos X = x / Y = y son variables aleatorias independientes. En tal caso: P(X = x, Y = y) = P(X = x) P (Y = y).

De manera equivalente: f(x,y) = f1(x).f2(y).

Inversamente, si para todo "x" e "y" la función de probabilidad conjunta f(x,y) no puede expresarse sólo como el producto de una función de "x" por una función de "y" (denominadas funciones de probabilidad marginal de "X" e "Y" ), entonces "X" e "Y" son dependientes.

Si "X" e "Y" son variables aleatorias continuas, decimos que son variables aleatorias independientes si los eventos "X = x", e "Y = y" y son eventos independientes para todo "x" e "y" .

De manera equivalente: F(x,y) = F1(x).F2(y), donde F1(x) y F2(y) son las funciones de distribución (marginal) de "X" e "Y" respectivamente.

Inversamente, "X" e "Y" son variables aleatorias dependientes si para todo "x" e "y" su función de distribución conjunta F(x, y) no puede expresarse como el producto de las funciones de distribución marginales de "X" e "Y".

Para variables aleatorias independientes continuas, también es cierto que la función de densidad conjunta f(x,y)es el producto de las funciones densidad de probabilidad marginales de "X", f1(x), y de "Y", f2(y).

Distribución de probabilidad de una v.a.

La distribución de probabilidad de una v.a. describe teóricamente la forma en que varían los resultados de un experimento aleatorio. Intuitivamente se trataría de una lista de los resultados posibles de un experimento con las probabilidades que se esperarían ver asociadas con cada resultado.

Función de densidad de una v.a. continua

La función de densidad de probabilidad (FDP) o, simplemente, función de densidad, representada comúnmente como f(x), se utiliza con el propósito de conocer cómo se distribuyen las probabilidades de un suceso o evento, en relación al resultado del suceso.

La FDP es la derivada (ordinaria o en el sentido de las distribuciones) de la función de distribución de probabilidad F(x), o de manera inversa, la función de distribución es la integral de la función de densidad:

La función de densidad de una v.a. determina la concentración de probabilidad alrededor de los valores de una variable aleatoria continua.

Parámetros de una v.a.

La función de densidad o la distribución de probabilidad de una v.a. contienen exhaustivamente toda la información sobre la variable. Sin embargo resulta conveniente resumir sus características principales con unos cuantos valores numéricos. Estos son, fundamentalmente la esperanza y la varianza.

Varianza

Espacio muestral

En la teoría de probabilidades se llama espacio muestral o espacio de muestreo al conjunto de todos los posibles resultados individuales de un experimento aleatorio.

Por ejemplo, si el experimento consiste en lanzar dos monedas, el espacio de muestreo es el conjunto {(cara, cara), (cara, cruz), (cruz, cara) y (cruz, cruz)}. Un evento o suceso es cualquier subconjunto del espacio muestral, llamándose a los sucesos que contengan un único elemento sucesos elementales. En el ejemplo, el suceso "sacar cara en el primer lanzamiento", o {(cara, cara), (cara, cruz)}, estaría formado por los sucesos elementales {(cara, cara)} y {(cara, cruz)}.

Para algunos tipos de experimento puede haber dos o más espacios de muestreo posibles. Por ejemplo, cuando se toma una carta de un mazo normal de 52 cartas, una posibilidad del espacio de muestreo podría ser el número (del as al rey), mientras que otra posibilidad sería el palo (diamantes, tréboles, corazones y picas). Una descripción completa de los resultados, sin embargo, especificaría ambos valores, número y palo, y se podría construir un espacio de muestreo que describiese cada carta individual como el producto cartesiano de los dos espacios de muestreo descritos.

Los espacios de muestreo aparecen de forma natural en una aproximación elemental a la probabilidad, pero son también importantes en espacios de probabilidad. Un espacio de probabilidad (O, F, P) incorpora un espacio de muestreo de resultados, O, pero define un conjunto de sucesos de interés, la s-álgebra F, por la cuál se define la medida de probabilidad P.

Tipos de espacio muestral

Podemos diferenciar entre dos tipos de espacios muéstrales: discretos y continuos.

Discretos

Son aquellos espacios donde el número de sucesos elementales es finito o infinito numerable.

Espacio Probabilística discreto

Es aquel cuyo espacio muestral es discreto. Podemos diferenciar varios tipos de espacio probabilística discreto:

Espacio Probabilística Discreto Equiprobable

Espacio Probabilística Finito

Su espacio muestral es discreto finito.
Hay al menos 2 sucesos elementales que cumplen.

Procesos Estocásticos Finitos Y Diagramas de Árbol

Un proceso estocástico es una sucesión finita de experimentos aleatorios, cada uno de ellos con un nº finito de resultados posibles. Se representan con diagrama de árbol.

Ejercicio; Imaginemos que se lanzan una moneda y un dado

Espacio Probabilística Infinito Contable

Aquel cuyo espacio muestral es discreto infinito contable. Por ejemplo

Continuos

Son aquellos espacios donde el número de sucesos elementales es infinito incontable.

Espacio probabilística continuo

-Habitualmente cuando trabajamos con magnitudes físicas.

Particiones

Es posible definir particiones sobre el espacio muestral. Formalmente hablando, una partición sobre O se define como un conjunto numerable:

Ejercicio; en el caso del experimento aleatorio "lanzar un
dado", el espacio muestral del experimento sería:

La elección del espacio muestral es un factor determinante
para realizar el cálculo de la probabilidad de un suceso.

Distribución de probabilidad

La distribución Normal suele conocerse como la "campana
de gauss".

En teoría de la probabilidad y estadística, la distribución
de probabilidad de una variable aleatoria es una función que asigna
a cada suceso definido sobre la variable aleatoria la probabilidad de que
dicho suceso ocurra. La distribución de probabilidad está definida
sobre el conjunto de todos los eventos rango de valores de la variable aleatoria.

Cuando la variable aleatoria toma valores en el conjunto de los números
reales, la distribución de probabilidad está completamente especificada
por la función de distribución, cuyo valor en cada real
x es la probabilidad de que la variable aleatoria sea menor o igual
que x.

Definición de función de distribución

Propiedades

Como consecuencia casi inmediata de la definición, la función
de distribución:

Es una función continua por la derecha.
Es una función monótona no decreciente.

Además, cumple

Por lo tanto una vez conocida la función de distribución
F(x) para todos los valores de la variable aleatoria x
conoceremos completamente la distribución de probabilidad de la
variable.

Para realizar cálculos es más cómodo conocer la
distribución de probabilidad, y sin embargo para ver una representación
gráfica de la probabilidad es más práctico el uso de
la función de densidad.

DISTRIBUCIONES DE VARIABLE DISCRETA

Distribución binomial.

Se denomina distribución de variable discreta a aquella cuya
función de probabilidad sólo toma valores positivos en un conjunto
de valores de X finito o infinito numerable. A dicha función
se le llama función de masa de probabilidad. En este caso la distribución
de probabilidad es el sumatorio de la función de masa, por lo que tenemos
entonces que:

Distribuciones de variable discreta más importantes

Las distribuciones de variable discreta más importantes
son las siguientes:

• Distribución binomial

• Distribución binomial negativa

• Distribución Poisson

• Distribución geométrica

• Distribución hipergeométrica

• Distribución de Bernoulli

• Distribución Rademacher, que toma el valor
1 con probabilidad 1 / 2 y el valor -1 con probabilidad 1 / 2.

• Distribución uniforme discreta, donde todos
los elementos de un conjunto finito son equiprobables.

DISTRIBUCIONES DE VARIABLE CONTINUA

Distribución normal.

Se denomina variable continua a aquella que puede tomar cualquiera
de los infinitos valores existentes dentro de un intervalo. En el caso de
variable continua la distribución de probabilidad es la integral de
la función de densidad, por lo que tenemos entonces que:

Distribuciones de variable continua más importantes

Las distribuciones de variable continua más importantes
son las siguientes:

• Distribución ji cuadrado

• Distribución exponencial

• Distribución t de Student

• Distribución normal

• Distribución Gamma

• Distribución Beta

• Distribución F

• Distribución uniforme (continua)

Esperanza matemática

Cuando la variable aleatoria es discreta, la esperanza es igual a la
suma de la probabilidad de cada posible suceso aleatorio multiplicado por
el valor de dicho suceso. Por lo tanto, representa la cantidad media que se
"espera" como resultado de un experimento aleatorio cuando la probabilidad
de cada suceso se mantiene constante y el experimento se repite un elevado
número de veces. Cabe decir que el valor que toma la esperanza matemática
en algunos casos puede no ser "esperado" en el sentido más
general de la palabra – el valor de la esperanza puede ser improbable o incluso
imposible.

Por ejemplo, el valor esperado cuando tiramos un dado equilibrado de
6 caras es 3,5. Podemos hacer el cálculo

Y cabe destacar que 3,5 no es un valor posible al rodar el dado. En
este caso, en el que todos los sucesos son de igual probabilidad, la esperanza
es igual a la media aritmética.

Una aplicación común de la esperanza matemática
es en las apuestas o los juegos de azar. Por ejemplo, la ruleta americana
tiene 38 casillas equiprobables. La ganancia para acertar una apuesta a un
solo número paga de 35 a 1 (es decir, cobramos 35 veces lo que hemos
apostado y recuperamos la apuesta, así que recibimos 36 veces lo que
hemos apostado). Por tanto, considerando los 38 posibles resultados, la esperanza
matemática del beneficio para apostar a un solo número es:

Que es -0,0526 aproximadamente. Por lo tanto uno esperaría,
en media, perder unos 5 céntimos por cada euro que apuesta, y el valor
esperado para apostar 1 euro son 0.9474 euros. En el mundo de las apuestas,
un juego donde el beneficio esperado es cero (no ganamos ni perdemos) se llama
un "juego justo".

Nota: El primer paréntesis es la "esperanza" de perder
tu apuesta de $1, por eso es negativo el valor. El segundo paréntesis
es la esperanza matemática de ganar los $35. La esperanza matemática
del beneficio es el valor esperado a ganar menos el valor esperado a perder.

Definición

Distribucion normal

La distribución normal fue reconocida por primera vez por el
francés Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich
Gauss (1777-1855) elaboró desarrollos más profundos y formuló
la ecuación de la curva; de ahí que también se la conozca,
más comúnmente, como la "campana de Gauss".
La distribución de una variable normal está completamente determinada
por dos parámetros, su media y su desviación estándar,
denotadas generalmente por y
Con esta notación, la
densidad de la normal viene dada por la ecuación:

Al igual que ocurría con un histograma, en el que el área
de cada rectángulo es proporcional al número de datos en el
rango de valores correspondiente si, tal y como se muestra en la Figura 2,
en el eje horizontal se levantan perpendiculares en dos puntos a y
b, el área bajo la curva delimitada por esas líneas
indica la probabilidad de que la variable de interés, X, tome
un valor cualquiera en ese intervalo. Puesto que la curva alcanza su mayor
altura en torno a la media, mientras que sus "ramas" se extienden
asintóticamente hacia los ejes, cuando una variable siga una distribución
normal, será mucho más probable observar un dato cercano al
valor medio que uno que se encuentre muy alejado de éste.

Propiedades de la distribución normal:

La distribución normal posee ciertas propiedades importantes
que conviene destacar:

Como se deduce de este último apartado, no existe una única
distribución normal, sino una familia de distribuciones con una forma
común, diferenciadas por los valores de su media y su varianza. De
entre todas ellas, la más utilizada es la distribución normal
estándar, que corresponde a una distribución de media 0
y varianza 1. Así, la expresión que define su densidad se puede
obtener de la Ecuación 1, resultando:

Consideremos, por ejemplo, el siguiente problema: supongamos que se
sabe que el peso de los sujetos de una determinada población sigue
una distribución aproximadamente normal, con una media de 80 Kg y una
desviación estándar de 10 Kg. ¿Podremos saber cuál
es la probabilidad de que una persona, elegida al azar, tenga un peso superior
a 100 Kg?

Denotando por X a la variable que representa el peso de los
individuos en esa población, ésta sigue una distribución
Si su distribución fuese
la de una normal estándar podríamos utilizar la Tabla 1 para
calcular la probabilidad que nos interesa. Como éste no es el caso,
resultará entonces útil transformar esta característica
según la Ecuación 2, y obtener la variable:

Finalmente, la probabilidad buscada de que una persona elegida al azar
tenga un peso entre 60 y 100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente
de un 95%. Resulta interesante comprobar que se obtendría la misma
conclusión recurriendo a la propiedad (iii)
de la distribución normal.

No obstante, es fácil observar que este tipo de situaciones
no corresponde a lo que habitualmente nos encontramos en la práctica.
Generalmente no se dispone de información acerca de la distribución
teórica de la población, sino que más bien el problema
se plantea a la inversa: a partir de una muestra extraída al azar de
la población que se desea estudiar, se realizan una serie de mediciones
y se desea extrapolar los resultados obtenidos a la población de origen.

Aunque la teoría estadística subyacente es
mucho más compleja, en líneas generales éste es el modo
de construir un intervalo de confianza para la media de una población.

Contraste de normalidad

La verificación de la hipótesis de normalidad resulta
esencial para poder aplicar muchos de los procedimientos estadísticos
que habitualmente se manejan. Tal y como ya se apuntaba antes, la simple
exploración visual de los datos observados mediante, por ejemplo, un
histograma o un diagrama de cajas, podrá ayudarnos a decidir si es
razonable o no el considerar que proceden de una característica de
distribución normal. Como ejemplo, consideremos los histogramas que
se muestran en la Figura 4a, correspondientes a una muestra de 100 mujeres
de las que se determinó su peso y edad. Para el caso del peso, la
distribución se asemeja bastante a la de una normal. P ara la edad,
sin embargo, es claramente asimétrica y diferente de la gaussiana.

Resulta obvio que este tipo de estudio no puede llevarnos sino a obtener
una opinión meramente subjetiva acerca de la posible distribución
de nuestros datos, y que es necesario disponer de otros métodos más
rigurosos para contrastar este tipo de hipótesis. En primer lugar,
deberemos plantearnos el saber si los datos se distribuyen de una forma simétrica
con respecto a su media o presentan algún grado de asimetría,
pues es ésta una de las características fundamentales de la
distribución de Gauss. Aunque la simetría de la distribución
pueda valorarse, de modo simple, atendiendo a algunas medidas descriptivas
de la variable en cuestión8 (comparando, por ejemplo, los valores de
media, mediana y moda), resultará útil disponer de algún
índice que nos permita cuantificar cualquier desviación.

Los gráficos de probabilidad normal constituyen otra
importante herramienta gráfica para comprobar si un conjunto de datos
puede considerarse o no procedente de una distribución normal. La
idea básica consiste en enfrentar, en un mismo gráfico, los
datos que han sido observados frente a los datos teóricos que se obtendrían
de una distribución gaussiana. Si la distribución de la variable
coincide con la normal, los puntos se concentrarán en torno a una línea
recta, aunque conviene tener en cuenta que siempre tenderá a observarse
mayor variabilidad en los extremos (Figura 4a, datos del peso). En los gráficos
P-P se confrontan las proporciones acumuladas de una variable con las
de una distribución normal. Los gráficos Q-Q se obtienen
de modo análogo, esta vez representando los cuantiles respecto a los
cuantiles de la distribución normal. Además de permitir valorar
la desviación de la normalidad, los gráficos de probabilidad
permiten conocer la causa de esa desviación. Una curva en forma de
"U" o con alguna curvatura, como en el caso de la edad en la Figura
4b, significa que la distribución es asimétrica con respecto
a la gaussiana, mientras que un gráfico en forma de "S" significará
que la distribución tiene colas mayores o menores que la normal, esto
es, que existen pocas o demasiadas observaciones en las colas de la distribución.

Parece lógico que cada uno de estos métodos se complemente
con procedimientos de análisis que cuantifiquen de un modo más
exacto las desviaciones de la distribución normal. Existen distintos
tests estadísticos que podemos utilizar para este propósito.
El test de Kolmogorov-Smirnov es el más extendido en la práctica.
Se basa en la idea de comparar la función de distribución acumulada
de los datos observados con la de una distribución normal, midiendo
la máxima distancia entre ambas curvas. Como en cualquier test de
hipótesis, la hipótesis nula se rechaza cuando el valor del
estadístico supera un cierto valor crítico que se obtiene de
una tabla de probabilidad. Dado que en la mayoría de los paquetes
estadísticos, como el SPSS, aparece programado dicho procedimiento,
y proporciona tanto el valor del test como el p-valor correspondiente, no
nos detendremos más en explicar su cálculo. Existen modificaciones
de este test, como el de Anderson-Darling que también pueden ser utilizados.
Otro procedimiento muy extendido es también el test chi-cuadrado de
bondad de ajuste. No obstante, este tipo de procedimientos deben ser utilizados
con precaución. Cuando se dispone de un número suficiente de
datos, cualquier test será capaz de detectar diferencias pequeñas
aún cuando estas no sean relevantes para la mayor parte de los propósitos.
El test de Kolmogorov-Smirnov, en este sentido, otorga un peso menor a las
observaciones extremas y por la tanto es menos sensible a las desviaciones
que normalmente se producen en estos tramos.

Para acabar, observemos el resultado de aplicar el test de Kolmogorov-Smirnov
a los datos de la Figura 4. Para el caso del peso, el valor del estadístico
proporcionado por dicho test fue de 0.705, con un p-valor correspondiente
de p=0.702 que, al no ser significativo, indica que podemos asumir una distribución
normal. Por otra parte, para el caso de la edad, en el que la distribución
muestral era mucho más asimétrica, el mismo test proporcionó
un valor de 1.498, con p=0.022, lo que obligaría a rechazar en este
caso la hipótesis de una distribución gaussiana.

Figura 2. Gráfica de una distribución
normal y significado del área bajo la curva.

TIPOS DE VARIABLES

VARIABLE INDEPENDIENTE

Una variable independiente es aquella cuyo valor
no depende del de otra variable.

La variable independiente en una función se
suele representar por x.

La variable independiente se representa en el eje
de abscisas.

VARIABLE DEPENDIENTE

Una variable dependiente es aquella cuyos valores
dependen de los que tomen otra variable.

La variable dependiente en una función se
suele representar por y.

La variable dependiente se representa en el eje ordenadas.

La variable y está en función de la
variable x.

VARIABLE INDEPENDIENTE

En investigación, se denomina variable independiente a aquélla
que es manipulada por el investigador en un experimento con el objeto de estudiar
cómo incide sobre la expresión de la variable dependiente. A
la variable independiente también se la conoce como variable explicativa,
y mientras que a la variable dependiente se la conoce como variable explicada.
Esto significa que las variaciones en la variable independiente repercutirán
en variaciones en la variable dependiente.

Por ejemplo, un investigador desea conocer la efectividad de un nuevo
dentífrico contra la caries. Para realizar el experimento se seleccionarán
dos grupos, un grupo principal al que se le aplicará un tratamiento
(el uso de un dentífrico) y otro al que no se le aplicará nada
en absoluto. Para que el experimento tenga validez ambos grupos deben ser
sometidos al mismo régimen de comidas de forma que controlemos que
no aparezcan otras variables intervinientes (por ejemplo, que un grupo se
alimente sólo de dulces y el otro no partiendo del supuesto de que
comer más dulces provoca más caries, elemento que no tenemos
controlado). En este caso la variable independiente corresponde a la aplicación
o no del dentífrico y la dependiente a si aparecen o no caries. Así,
tenemos que la presencia de caries (variable dependiente) es explicada por
el uso o no de dentífrico (variable independiente).

Como se ha señalado, la validez de todo experimento depende
en gran medida de que se controlen esas variables intervinientes. Ésa
es la razón principal por la que los experimentos en Ciencias se hagan
en la medida de lo posible en condiciones de vacío, para poder eliminar
todas las explicaciones alternativas derivadas de las condiciones materiales
del experimento.

VARIABLE DEPENDIENTE

Una variable dependiente es aquella cuyos valores dependen de los que
tome otra variable.

Otros tipos de variables

Variables control: Variable de referencia en una investigación

Por último, existen varias clasificaciones de variables según
sus características:

Variable continua: es cuando la variable continúa
Variables discretas: Son aquellas que establecen categorías
en términos no cuantitativos entre distintos individuos o elementos.
Por ejemplo cuando quiero clasificar a las personas en clases sociales:
alta, media, baja. O cuando quiero calificar un servicio de un hospital:
excelente, bueno, regular, malo.
Variables individuales: Presentan la característica
que distingue a ciertos individuos.
Variables colectivas: Presentan la característica
que distingue a un grupo determinado.
Variables antecedentes: Es una variable que es antecedente
de otra variable.

La recta de regresión es la que mejor se ajusta
a la nube de puntos.

La recta de regresión pasa por el punto

llamado centro de gravedad.

RECTA DE REGRESIÓN DE Y SOBRE X

La recta de regresión de Y sobre X se utiliza para estimar los
valores de la Y a partir de los de la X.

La pendiente de la recta es el cociente entre la covarianza
y la varianza de la variable X.

RECTA DE REGRESIÓN DE X SOBRE Y

La recta de regresión de X sobre Y se utiliza para estimar
los valores de la X a partir de los de la Y.

La pendiente de la recta es el cociente entre la covarianza
y la varianza de la variable Y.

Si la correlación es nula, r = 0, las rectas de regresión
son perpendiculares entre sí, y sus ecuaciones son:

y =

x =

EJERCICIO

Las notas de 12 alumnos de una clase en Matemáticas y Física
son las siguientes:

Matemáticas							2	3	4	4	5	6	6	7	7	8	10		10
Física							1	3	2	4	4	4	6	4	6	7	9		10

Hallar las rectas de regresión y representarlas.

Error estándar de estimación

Error estándar en la estimación

El error estándar de la estimación designado por sYX
mide la disparidad "promedio" entre los valores observados y los
valores estimados de. Se utiliza la siguiente formula.

Debemos entonces calcular los valores de para cada ciudad sustituyendo
en la ecuación los valores de los porcentajes de graduados de cada
ciudad estudiada.

Y X

4.2 7.2 4.6 -0.4 0.16

4.9 6.7 4.5 0.4 0.16

7.0 17.0 6.6 0.4 0.16

6.2 12.5 5.7 0.5 0.25

3.8 6.3 4.4 -0.6 0.36

7.6 23.9 8.0 -0.4 0.16

4.4 6.0 4.4 0.0 0.00

5.4 10.2 5.2 0.2 0.04

1.29

Syx = 0.46 (decenas de miles $)

Como esta medida trata de resumir

La disparidad entre lo observado y lo estimado, es decir, trata de
medir la diferencia promedio entre lo observado y lo estimado ó esperado
de acuerdo al modelo, puede considerarse como un indicador del grado de precisión
con que la ecuación de regresión, describe la relación
entre las dos variables. Este error estándar se ve afectado por las
unidades y sus cambios ya que es una medida absoluta, pues, se da en la misma
unidad de medida que esta dada la variable Y; en el ejemplo 0.46 serán
decenas de miles de pesos, razón por la cual no es posible comparar
con las relaciones de variables dadas en distinta unidad de medida. Es necesario
entonces calcular una medida que interprete o mida mejor el grado de relación
entre las variables.

INTERPOLACIÓN LINEAL

La interpolación lineal es un caso particular de la Interpolación
general de Newton.

Con el polinomio de interpolación de Newton se logra aproximar
un valor de la función f(x) en un valor desconocido de x. El caso particular,
para que una interpolación sea lineal es en el que se utiliza un polinomio
de interpolación de grado 1, y se denota de la siguiente manera:

Interpolación lineal de una variable independiente.

Es igual que hacer integrales cerradas.

En una tabla se representan algunos valores de la función, pero
no todos, en ocasiones nos interesa el valor de la función para un
valor de la variable independiente distinto de los que figuran en la tabla,
en este caso podemos tomar el más próximo al buscado, o aproximarnos
un poco más por interpolación, la interpolación casi
siempre nos dará un pequeño error respecto al valor de la función
verdadero, pero siempre será menor que tomar el valor más próximo
de los que figuran en la tabla, veamos como se calcula al valor de la función
para un valor de la variable independiente que se encuentre entre dos valores
de la tabla por interpolación lineal.

Por la tabla sabemos que:

Queremos, pues, saber:

Siendo:

La interpolación lineal consiste en trazar una recta que pasa
por (x1, y1) y (x2, y2), y = r(x) y calcular los valores intermedios según
esta recta en lugar de la función y = f(x)

COEFICIENTE DE DETERMINACIÓN. COEFICIENTE DE CORRELACIÓN.

Una vez ajustada la recta de regresión a la nube de observaciones
es importante disponer de una medida que mida la bondad del ajuste realizado
y que permita decidir si el ajuste lineal es suficiente o se deben buscar
modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente
de determinación, definido como sigue

(6.15)

o bien

Como scE < scG, se verifica que 0 < R2 < 1.

El coeficiente de determinación mide la proporción de
variabilidad total de la variable dependiente respecto
a su media que es explicada por el modelo de regresión. Es usual expresar
esta medida en tanto por ciento, multiplicándola por cien.

Por otra parte, teniendo en cuenta que i
– = 1se
se obtiene

(6.16)

Para poder interpretar con mayor facilidad el coeficiente de correlación
muestral se exponen varias nubes de observaciones y el ajuste lineal obtenido:

Figura 6.7.