Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Estadistica – Metodo empirico (página 2)




Enviado por oicram evilla



Partes: 1, 2

  • Rangos este tipo de gráficos la extensión máxima y mínima de las barras indica los rangos superior e inferior de validez de los datos considerados.

Es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.

Utilización

  • Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos.

  • son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso.

Tipos

  • Diagramas de barras simples representa la frecuencia simple mediante la

Altura de la barra

  • Diagramas de barras compuesta representa la información de una tabla de doble entrada o sea a partir de dos variables las cuales se representan la altura de la barra representa la frecuencia simple de las categorías de la variable y esta altura es proporcional a la frecuencia simple de cada modalidad.

  • Diagramas de barras agrupadas representar la información de una tabla de doble entrada o sea a partir de dos variables, el cual es representado mediante un conjunto de barras como se clasifican respecto a las diferentes modalidades.

Un polígono de frecuencias se forma uniendo los extremos de las barras de un diagrama de barras mediante segmentos.

También se puede realizar trazando los puntos que representan las frecuencias y uniéndolos mediante segmentos.

  • Ejercicio; las temperaturas en un día de otoño de una ciudad han sufrido las siguientes variaciones:

Características de los polígonos de frecuencias

  • No muestran frecuencias acumuladas.

  • Se prefiere para el tratamiento de datos cuantitativos.

  • El punto con mayor altura representa la mayor frecuencia.

  • Suelen utilizarse para representar tablas tipo B.

  • El área bajo la curva representa el 100% de los datos. El polígono de frecuencia esta diseñado para mantener la misma área de las columnas.

Tipos

Polígonos agrupados para el polígono de frecuencia se toma la marca de clase que coincide con el punto medio de cada rectángulo de un histograma.

  • Ejercicio: Peso de 65 personas adultas viene dado por la siguiente tabla:

Polígono acumuladas se representan las frecuencias acumuladas de una tabla de datos agrupados se obtiene el histograma de frecuencias acumuladas o su correspondiente polígono.

Se consideran una figura geométrica en que la distribución de frecuencias se reparte dentro de la figura como puede ser una dona, pastel, círculo o anillo, en el que cada porción dentro de la figura representa la información porcentual del total de datos.

Para comprender mejor estos conceptos, presentamos algunos ejercicios que incluyan las diferentes propiedades del cuadro. En el primer gráfico vamos a describir las categorías de la variable Clase social; para lograrlo debemos ubicar la variable en la lista e ingresarla en la casilla Sectores Por y a su vez elegimos la opción de color; sucesivamente en la pestaña Gráfico de sectores seleccionamos las opciones de etiqueta Recuento y Porcentaje, así como la ubicación Todo dentro. Después de ingresar la variable y seleccionar las opciones de etiqueta, hacemos clic en Aceptar con lo cual el gráfico es creado en el visor de resultados.

Si nos fijamos en los resultados del gráfico notaremos que cada uno de los sectores (categorías) cuenta con un color distinto y a su vez se anexa un cuadro con las respectivas leyendas representativas. La verdadera utilidad de un gráfico de sectores radica en la facilidad de interpretar el comportamiento de los datos de cada categoría y la contribución de cada una de ellas a la composición de la variable.

  En los gráficos de sectores al igual que en los de barras y áreas, entre menor sea el número de categorías de la variable más sencillo es el gráfico y mayor cantidad de etiquetas se pueden incluir; si el número de categorías o estados es elevado, lo es más apropiado es incluir sólo aquellas etiquetas que son bastante representativas, como el recuento o el porcentaje.

 Para el segundo ejercicio, vamos a generar un gráfico que describa la relación existente entre la condición de salud y el estado civil. Para crear el gráfico debemos volver al cuadro de diálogo Crear gráfico de sectores, empleando alguno de los métodos anteriormente mencionados.

  Una vez en él, ubicamos la variable Condición de salud y la ingresamos en la casilla sectores y a continuación ingresamos la variable Estado civil en la casilla de panel. Después de ingresar las variables seleccionamos la pestaña Grafico de sectores y desactivamos la opción Recuento; para finalizar hacemos clic en Aceptar con lo cual el gráfico se crea en el visor de resultados.

Cuando se ingresa una variable en la casilla del panel, el programa crea un gráfico para cada una de las categorías de dicha variable. Encontramos cinco diferentes gráficos cada uno de ellos nos enseña el estado de salud de los diferentes estados civiles. Si nos fijamos en el primero de los gráficos (Soltero), notaremos que el 59.64% de los encuestados cuentan con una Excelente o Buena salud.  

Desde luego la suma de las frecuencias de todos los gráficos debe ser igual a la frecuencia de la variable Condición de salud; dado que para este caso las variables cuentan con un elevado número de categorías, fue necesario suprimir la leyenda del recuento o de lo contrario sobre cargaríamos de información el gráfico dificultando su interpretación.

Características de los gráficos de sectores

  • No muestran frecuencias acumuladas.

  • Se prefiere para el tratamiento de datos cualitativos o casi cualitativos.

  • La mayor área (o porción de la figura) representa la mayor frecuencia.

  • Son muy fáciles de elaborar.

  • Suelen utilizarse para representar tablas tipo A.

  • La figura completa equivale al 100% de los datos (360º)

El conjunto de datos puede considerarse normalmente como perteneciente a una muestra extraída de una población grande. A causa de las muchas observaciones que podemos realizar en la población es posible teóricamente (para datos continuos) elegir los intervalos de clase muy pequeños y todavía tener un número adecuado de observaciones dentro de cada clase.

Tipos

  • Las curvas de frecuencias simétricas o sesgadas se caracterizan por el hecho de que las observaciones que equidistan del máximo central tienen la misma frecuencia. Un ejemplo importante es la curva normal.

  • En las curvas de frecuencia moderadamente asimétricas la cola de la curva a un lado del máximo central es mayor que al otro lado. Si la cola mayor se presenta a la derecha de la curva se dice que ésta está sesgada a la derecha o que tiene sesgo positivo, mientras que si ocurre lo contrario se dice que la curva está sesgada a la izquierda o que tiene un sesgo negativo.

  • En las curvas en forma de J o de J invertida el máximo se presenta en un extremo.

  • Las curvas de frecuencias en forma de U tienen el máximo en ambos extremos.

  • Una curva de frecuencias bimodal tiene dos máximos

  • Una curva de frecuencias multimodal tiene más de dos máximos.

Es una comparación de los resultados obtenidos a través de las fórmulas propuestas para determinar el número de clases en datos agrupados.

m=1+3.332 Log n en donde M es numero de intervalos, la incógnita y n es el numero de datos.Ejercicio

Tenemos 30 datos, necesitamos determinar el número de intervalo, necesario para agruparlos y hacer análisis estadísticos.m=1+3.332 Log 30m=1+3.332 (1.477)m=1+4.9213m=5.9213Puede este valor aproximarse por exceso a 6Este valor, representa el numero de datos agrupados que se tendrá para el análisis estadístico.

Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución.

Las medidas de dispersión son:

  • Rango o recorrido diferencia entre el mayor y el menor de
    los datos de una distribución estadística.

  • La desviación respecto a la media es la diferencia
    entre cada valor de la variable estadística y la media aritmética.
    Di = x – x

  • La desviación media es la media aritmética de
    los valores absolutos de las desviaciones respecto a la media.

  • Ejercicio; calcular la desviación media de la distribución:

9, 3, 8, 8, 9, 8, 9, 18

Desviación media para datos agrupados Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es

Varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.

Las propiedades de la varianza son:

– La varianza es siempre positiva o cero.

– La varianza de una constante es cero.

– La varianza de la suma o diferencia de una variable y una constante es igual a la varianza de la variable.

– La varianza de un producto de una constante por una variable es igual al cuadrado de la constante por la varianza de la variable.

Desviación típica es la raíz cuadrada de la varianza. Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación.

Las propiedades de la desviación típica son:

  • La desviación típica es siempre positiva o cero.

  • La desviación típica de una constante es cero.

  • La desviación típica de una constante por una variable es igual a la constante por la desviación típica de la variable.

  • La desviación típica de la suma o diferencia de una variable y una constante es igual a la desviación típica de la variable

Distribución Simétrica Se caracteriza porque cada una de las observaciones equidistantes al máximo central, tienen aproximadamente la misma frecuencia. Es típico de la mayoría de los procesos industriales.

Distribución Asimétrica s típica de datos económicos, y de forma general en distribuciones de renta, consumo de electricidad, población, tamaño de empresas.

El coeficiente de correlación de Pearson es un índice que mide la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.

El coeficiente de correlación entre dos variables aleatorias X e Y es el cociente

La probabilidad constituye un importante parámetro en la determinación de las diversas casualidades obtenidas tras una serie de eventos esperados dentro de un rango estadístico.

Existen diversas formas como método abstracto, como la teoría Dempster-Shafer y la numérica, esta última con un alto grado de aceptación si se toma en cuenta que disminuye considerablemente las posibilidades hasta un nivel mínimo ya que somete a todas las antiguas reglas a una simple ley de relatividad

La probabilidad de un evento se denota con la letra p y se expresa en términos de una fracción y no en porcentajes, por lo que el valor de p cae entre 0 y 1. Por otra parte, la probabilidad de que un evento "no ocurra" equivale a 1 menos el valor de p y se denota con la letra q:

Los tres métodos para calcular las probabilidades son la regla
de la adición, la regla de la multiplicación y la distribución
binomial.

Regla de la adición

La regla de la adición o regla de la suma establece que la provalidad de ocurrencia de cualquier evento en particular es igual a la suma de las probabilidades individuales, si es que los eventos son mutuamente excluyentes, es decir, que dos no pueden ocurrir al mismo tiempo.

Regla de la multiplicación

La regla de la multiplicación establece que la probabilidad de ocurrencia de dos o más eventos estadísticamente independientes ocurran todas es igual al producto de sus probabilidades individuales.

Distribución binomial

La probabilidad de ocurrencia de una combinación específica de eventos independientes y mutuamente excluyentes se determina con la distribución binomial, que es aquella donde hay solo dos posibilidades, tales como masculino/femenino o si/no.

VARIABLE ALEATORIA

En gran número de experimentos aleatorios es necesario, para su tratamiento matemático, cuantificar los resultados de modo que se asigne un número real a cada uno de los resultados posibles del experimento. De este modo se establece una relación funcional entre elementos del espacio muestral asociado al experimento y números reales.

Podemos asignar entonces a cada suceso elemental del experimento el número de caras obtenidas. De este modo se definiría la variable aleatoria X como la función

Tipos de variables aleatorias

Para comprender de una manera más amplia y rigurosa los tipos de variables, es necesario conocer la definición de conjunto discreto. Un conjunto es discreto si está formado por un número finito de elementos, o si sus elementos se pueden enumerar en secuencia de modo que haya un primer elemento, un segundo elemento, un tercer elemento, y así sucesivamente.

  • Variable aleatoria discreta: una v.a. es discreta si su recorrido es un conjunto discreto. La variable del ejemplo anterior es discreta. Sus probabilidades se recogen en la función de cuantía (véanse las distribuciones de variable discreta).

  • Variable aleatoria continua: una v.a. es continua si su recorrido no es un conjunto numerable. Intuitivamente esto significa que el conjunto de posibles valores de la variable abarca todo un intervalo de números reales. Por ejemplo, la variable que asigna la estatura a una persona extraída de una determinada población es una variable continua ya que, teóricamente, todo valor entre, pongamos por caso, 0 y 2,50 m, es posible. (véanse las distribuciones de variable continua)

  • Variable aleatoria independiente: Supongamos que "X" y "Y" son variables aleatorias discretas. Si los eventos X = x / Y = y son variables aleatorias independientes. En tal caso: P(X = x, Y = y) = P(X = x) P (Y = y).

De manera equivalente: f(x,y) = f1(x).f2(y).

Inversamente, si para todo "x" e "y" la función de probabilidad conjunta f(x,y) no puede expresarse sólo como el producto de una función de "x" por una función de "y" (denominadas funciones de probabilidad marginal de "X" e "Y" ), entonces "X" e "Y" son dependientes.

Si "X" e "Y" son variables aleatorias continuas, decimos que son variables aleatorias independientes si los eventos "X = x", e "Y = y" y son eventos independientes para todo "x" e "y" .

De manera equivalente: F(x,y) = F1(x).F2(y), donde F1(x) y F2(y) son las funciones de distribución (marginal) de "X" e "Y" respectivamente.

Inversamente, "X" e "Y" son variables aleatorias dependientes si para todo "x" e "y" su función de distribución conjunta F(x, y) no puede expresarse como el producto de las funciones de distribución marginales de "X" e "Y".

Para variables aleatorias independientes continuas, también es cierto que la función de densidad conjunta f(x,y)es el producto de las funciones densidad de probabilidad marginales de "X", f1(x), y de "Y", f2(y).

Distribución de probabilidad de una v.a.

La distribución de probabilidad de una v.a. describe teóricamente la forma en que varían los resultados de un experimento aleatorio. Intuitivamente se trataría de una lista de los resultados posibles de un experimento con las probabilidades que se esperarían ver asociadas con cada resultado.

Función de densidad de una v.a. continua

La función de densidad de probabilidad (FDP) o, simplemente, función de densidad, representada comúnmente como f(x), se utiliza con el propósito de conocer cómo se distribuyen las probabilidades de un suceso o evento, en relación al resultado del suceso.

La FDP es la derivada (ordinaria o en el sentido de las distribuciones) de la función de distribución de probabilidad F(x), o de manera inversa, la función de distribución es la integral de la función de densidad:

La función de densidad de una v.a. determina la concentración de probabilidad alrededor de los valores de una variable aleatoria continua.

Parámetros de una v.a.

La función de densidad o la distribución de probabilidad de una v.a. contienen exhaustivamente toda la información sobre la variable. Sin embargo resulta conveniente resumir sus características principales con unos cuantos valores numéricos. Estos son, fundamentalmente la esperanza y la varianza.

Varianza

En la teoría de probabilidades se llama espacio muestral o espacio de muestreo al conjunto de todos los posibles resultados individuales de un experimento aleatorio.

Por ejemplo, si el experimento consiste en lanzar dos monedas, el espacio de muestreo es el conjunto {(cara, cara), (cara, cruz), (cruz, cara) y (cruz, cruz)}. Un evento o suceso es cualquier subconjunto del espacio muestral, llamándose a los sucesos que contengan un único elemento sucesos elementales. En el ejemplo, el suceso "sacar cara en el primer lanzamiento", o {(cara, cara), (cara, cruz)}, estaría formado por los sucesos elementales {(cara, cara)} y {(cara, cruz)}.

Para algunos tipos de experimento puede haber dos o más espacios de muestreo posibles. Por ejemplo, cuando se toma una carta de un mazo normal de 52 cartas, una posibilidad del espacio de muestreo podría ser el número (del as al rey), mientras que otra posibilidad sería el palo (diamantes, tréboles, corazones y picas). Una descripción completa de los resultados, sin embargo, especificaría ambos valores, número y palo, y se podría construir un espacio de muestreo que describiese cada carta individual como el producto cartesiano de los dos espacios de muestreo descritos.

Los espacios de muestreo aparecen de forma natural en una aproximación elemental a la probabilidad, pero son también importantes en espacios de probabilidad. Un espacio de probabilidad (O, F, P) incorpora un espacio de muestreo de resultados, O, pero define un conjunto de sucesos de interés, la s-álgebra F, por la cuál se define la medida de probabilidad P.

Tipos de espacio muestral

Podemos diferenciar entre dos tipos de espacios muéstrales: discretos y continuos.

Discretos

Son aquellos espacios donde el número de sucesos elementales es finito o infinito numerable.

  • Espacio Probabilística discreto

Es aquel cuyo espacio muestral es discreto. Podemos diferenciar varios tipos de espacio probabilística discreto:

  • Espacio Probabilística Discreto Equiprobable

  • Espacio Probabilística Finito
  • Su espacio muestral es discreto finito.

  • Hay al menos 2 sucesos elementales que cumplen.

  • Procesos Estocásticos Finitos Y Diagramas de Árbol
  • Un proceso estocástico es una sucesión finita de experimentos aleatorios, cada uno de ellos con un nº finito de resultados posibles. Se representan con diagrama de árbol.

    • Ejercicio; Imaginemos que se lanzan una moneda y un dado

  • Espacio Probabilística Infinito Contable
  • Aquel cuyo espacio muestral es discreto infinito contable. Por ejemplo

    Continuos

    Son aquellos espacios donde el número de sucesos elementales es infinito incontable.

    • Espacio probabilística continuo

    -Habitualmente cuando trabajamos con magnitudes físicas.

    • Particiones

    Es posible definir particiones sobre el espacio muestral. Formalmente hablando, una partición sobre O se define como un conjunto numerable:

    • Ejercicio; en el caso del experimento aleatorio "lanzar un
      dado", el espacio muestral del experimento sería:
    • La elección del espacio muestral es un factor determinante
      para realizar el cálculo de la probabilidad de un suceso.

      Distribución de probabilidad

      La distribución Normal suele conocerse como la "campana
      de gauss".

      En teoría de la probabilidad y estadística, la distribución
      de probabilidad
      de una variable aleatoria es una función que asigna
      a cada suceso definido sobre la variable aleatoria la probabilidad de que
      dicho suceso ocurra. La distribución de probabilidad está definida
      sobre el conjunto de todos los eventos rango de valores de la variable aleatoria.

      Cuando la variable aleatoria toma valores en el conjunto de los números
      reales, la distribución de probabilidad está completamente especificada
      por la función de distribución, cuyo valor en cada real
      x es la probabilidad de que la variable aleatoria sea menor o igual
      que x.

      Definición de función de distribución

      Propiedades

      Como consecuencia casi inmediata de la definición, la función
      de distribución:

      • Es una función continua por la derecha.

      • Es una función monótona no decreciente.

      Además, cumple

      Por lo tanto una vez conocida la función de distribución
      F(x) para todos los valores de la variable aleatoria x
      conoceremos completamente la distribución de probabilidad de la
      variable.

      Para realizar cálculos es más cómodo conocer la
      distribución de probabilidad, y sin embargo para ver una representación
      gráfica de la probabilidad es más práctico el uso de
      la función de densidad.

      DISTRIBUCIONES DE VARIABLE DISCRETA

      Distribución binomial.

      Se denomina distribución de variable discreta a aquella cuya
      función de probabilidad sólo toma valores positivos en un conjunto
      de valores de X finito o infinito numerable. A dicha función
      se le llama función de masa de probabilidad. En este caso la distribución
      de probabilidad es el sumatorio de la función de masa, por lo que tenemos
      entonces que:

      Distribuciones de variable discreta más importantes

      Las distribuciones de variable discreta más importantes
      son las siguientes:

      • Distribución binomial

      • Distribución binomial negativa

      • Distribución Poisson

      • Distribución geométrica

      • Distribución hipergeométrica

      • Distribución de Bernoulli

      • Distribución Rademacher, que toma el valor
      1 con probabilidad 1 / 2 y el valor -1 con probabilidad 1 / 2.

      • Distribución uniforme discreta, donde todos
      los elementos de un conjunto finito son equiprobables.

      DISTRIBUCIONES DE VARIABLE CONTINUA

      Distribución normal.

      Se denomina variable continua a aquella que puede tomar cualquiera
      de los infinitos valores existentes dentro de un intervalo. En el caso de
      variable continua la distribución de probabilidad es la integral de
      la función de densidad, por lo que tenemos entonces que:

      Distribuciones de variable continua más importantes

      Las distribuciones de variable continua más importantes
      son las siguientes:

      • Distribución ji cuadrado

      • Distribución exponencial

      • Distribución t de Student

      • Distribución normal

      • Distribución Gamma

      • Distribución Beta

      • Distribución F

      • Distribución uniforme (continua)

      Cuando la variable aleatoria es discreta, la esperanza es igual a la
      suma de la probabilidad de cada posible suceso aleatorio multiplicado por
      el valor de dicho suceso. Por lo tanto, representa la cantidad media que se
      "espera" como resultado de un experimento aleatorio cuando la probabilidad
      de cada suceso se mantiene constante y el experimento se repite un elevado
      número de veces. Cabe decir que el valor que toma la esperanza matemática
      en algunos casos puede no ser "esperado" en el sentido más
      general de la palabra – el valor de la esperanza puede ser improbable o incluso
      imposible.

      Por ejemplo, el valor esperado cuando tiramos un dado equilibrado de
      6 caras es 3,5. Podemos hacer el cálculo

      Y cabe destacar que 3,5 no es un valor posible al rodar el dado. En
      este caso, en el que todos los sucesos son de igual probabilidad, la esperanza
      es igual a la media aritmética.

      Una aplicación común de la esperanza matemática
      es en las apuestas o los juegos de azar. Por ejemplo, la ruleta americana
      tiene 38 casillas equiprobables. La ganancia para acertar una apuesta a un
      solo número paga de 35 a 1 (es decir, cobramos 35 veces lo que hemos
      apostado y recuperamos la apuesta, así que recibimos 36 veces lo que
      hemos apostado). Por tanto, considerando los 38 posibles resultados, la esperanza
      matemática del beneficio para apostar a un solo número es:

      Que es -0,0526 aproximadamente. Por lo tanto uno esperaría,
      en media, perder unos 5 céntimos por cada euro que apuesta, y el valor
      esperado para apostar 1 euro son 0.9474 euros. En el mundo de las apuestas,
      un juego donde el beneficio esperado es cero (no ganamos ni perdemos) se llama
      un "juego justo".

      Nota: El primer paréntesis es la "esperanza" de perder
      tu apuesta de $1, por eso es negativo el valor. El segundo paréntesis
      es la esperanza matemática de ganar los $35. La esperanza matemática
      del beneficio es el valor esperado a ganar menos el valor esperado a perder.

      Definición

      La distribución normal fue reconocida por primera vez por el
      francés Abraham de Moivre (1667-1754).  Posteriormente, Carl Friedrich
      Gauss (1777-1855) elaboró desarrollos más profundos y formuló
      la ecuación de la curva; de ahí que también se la conozca,
      más comúnmente, como la "campana de Gauss". 
      La distribución de una variable normal está completamente determinada
      por dos parámetros, su media y su desviación estándar,
      denotadas generalmente por y
      Con esta notación, la
      densidad de la normal viene dada por la ecuación:

      Al igual que ocurría con un histograma, en el que el área
      de cada rectángulo es proporcional al número de datos en el
      rango de valores correspondiente si, tal y como se muestra en la Figura 2,
      en el eje horizontal se levantan perpendiculares en dos puntos a y
      b, el área bajo la curva delimitada por esas líneas
      indica la probabilidad de que la variable de interés, X, tome
      un valor cualquiera en ese intervalo.  Puesto que la curva alcanza su mayor
      altura en torno a la media, mientras que sus "ramas" se extienden
      asintóticamente hacia los ejes, cuando una variable siga una distribución
      normal, será mucho más probable observar un dato cercano al
      valor medio que uno que se encuentre muy alejado de éste.

      Propiedades de la distribución normal:

      La distribución normal posee ciertas propiedades importantes
      que conviene destacar:

      Como se deduce de este último apartado, no existe una única
      distribución normal, sino una familia de distribuciones con una forma
      común, diferenciadas por los valores de su media y su varianza.  De
      entre todas ellas, la más utilizada es la distribución normal
      estándar
      , que corresponde a una distribución de media 0
      y varianza 1.  Así, la expresión que define su densidad se puede
      obtener de la Ecuación 1, resultando:

      Consideremos, por ejemplo, el siguiente problema: supongamos que se
      sabe que el peso de los sujetos de una determinada población sigue
      una distribución aproximadamente normal, con una media de 80 Kg y una
      desviación estándar de 10 Kg.  ¿Podremos saber cuál
      es la probabilidad de que una persona, elegida al azar, tenga un peso superior
      a 100 Kg?

      Denotando por X a la variable que representa el peso de los
      individuos en esa población, ésta sigue una distribución
      Si su distribución fuese
      la de una normal estándar podríamos utilizar la Tabla 1 para
      calcular la probabilidad que nos interesa.  Como éste no es el caso,
      resultará entonces útil transformar esta característica
      según la Ecuación 2, y obtener la variable:

      Finalmente, la probabilidad buscada de que una persona elegida al azar
      tenga un peso entre 60 y 100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente
      de un 95%.  Resulta interesante comprobar que se obtendría la misma
      conclusión recurriendo a la propiedad (iii)
      de la distribución normal.

      No obstante, es fácil observar que este tipo de situaciones
      no corresponde a lo que habitualmente nos encontramos en la práctica. 
      Generalmente no se dispone de información acerca de la distribución
      teórica de la población, sino que más bien el problema
      se plantea a la inversa: a partir de una muestra extraída al azar de
      la población que se desea estudiar, se realizan una serie de mediciones
      y se desea extrapolar los resultados obtenidos a la población de origen. 

      Aunque la teoría estadística subyacente es
      mucho más compleja, en líneas generales éste es el modo
      de construir un intervalo de confianza para la media de una población.

      La verificación de la hipótesis de normalidad resulta
      esencial para poder aplicar muchos de los procedimientos estadísticos
      que habitualmente se manejan.  Tal y como ya se apuntaba antes, la simple
      exploración visual de los datos observados mediante, por ejemplo, un
      histograma o un diagrama de cajas, podrá ayudarnos a decidir si es
      razonable o no el considerar que proceden de una característica de
      distribución normal.  Como ejemplo, consideremos los histogramas que
      se muestran en la Figura 4a, correspondientes a una muestra de 100 mujeres
      de las que se determinó su peso y edad.  Para el caso del peso, la
      distribución se asemeja bastante a la de una normal. P ara la edad,
      sin embargo, es claramente asimétrica y diferente de la gaussiana.

      Resulta obvio que este tipo de estudio no puede llevarnos sino a obtener
      una opinión meramente subjetiva acerca de la posible distribución
      de nuestros datos, y que es necesario disponer de otros métodos más
      rigurosos para contrastar este tipo de hipótesis.  En primer lugar,
      deberemos plantearnos el saber si los datos se distribuyen de una forma simétrica
      con respecto a su media o presentan algún grado de asimetría,
      pues es ésta una de las características fundamentales de la
      distribución de Gauss.  Aunque la simetría de la distribución
      pueda valorarse, de modo simple, atendiendo a algunas medidas descriptivas
      de la variable en cuestión8 (comparando, por ejemplo, los valores de
      media, mediana y moda), resultará útil disponer de algún
      índice que nos permita cuantificar cualquier desviación.

      Los gráficos de probabilidad normal constituyen otra
      importante herramienta gráfica para comprobar si un conjunto de datos
      puede considerarse o no procedente de una distribución normal.  La
      idea básica consiste en enfrentar, en un mismo gráfico, los
      datos que han sido observados frente a los datos teóricos que se obtendrían
      de una distribución gaussiana.  Si la distribución de la variable
      coincide con la normal, los puntos se concentrarán en torno a una línea
      recta, aunque conviene tener en cuenta que siempre tenderá a observarse
      mayor variabilidad en los extremos (Figura 4a, datos del peso).  En los gráficos
      P-P
      se confrontan las proporciones acumuladas de una variable con las
      de una distribución normal.  Los gráficos Q-Q se obtienen
      de modo análogo, esta vez representando los cuantiles respecto a los
      cuantiles de la distribución normal.  Además de permitir valorar
      la desviación de la normalidad, los gráficos de probabilidad
      permiten conocer la causa de esa desviación.  Una curva en forma de
      "U" o con alguna curvatura, como en el caso de la edad en la Figura
      4b, significa que la distribución es asimétrica con respecto
      a la gaussiana, mientras que un gráfico en forma de "S" significará
      que la distribución tiene colas mayores o menores que la normal, esto
      es, que existen pocas o demasiadas observaciones en las colas de la distribución.

      Parece lógico que cada uno de estos métodos se complemente
      con procedimientos de análisis que cuantifiquen de un modo más
      exacto las desviaciones de la distribución normal.  Existen distintos
      tests estadísticos que podemos utilizar para este propósito. 
      El test de Kolmogorov-Smirnov es el más extendido en la práctica. 
      Se basa en la idea de comparar la función de distribución acumulada
      de los datos observados con la de una distribución normal, midiendo
      la máxima distancia entre ambas curvas.  Como en cualquier test de
      hipótesis, la hipótesis nula se rechaza cuando el valor del
      estadístico supera un cierto valor crítico que se obtiene de
      una tabla de probabilidad.  Dado que en la mayoría de los paquetes
      estadísticos, como el SPSS, aparece programado dicho procedimiento,
      y proporciona tanto el valor del test como el p-valor correspondiente, no
      nos detendremos más en explicar su cálculo.  Existen modificaciones
      de este test, como el de Anderson-Darling que también pueden ser utilizados. 
      Otro procedimiento muy extendido es también el test chi-cuadrado de
      bondad de ajuste.  No obstante, este tipo de procedimientos deben ser utilizados
      con precaución.  Cuando se dispone de un número suficiente de
      datos, cualquier test será capaz de detectar diferencias pequeñas
      aún cuando estas no sean relevantes para la mayor parte de los propósitos. 
      El test de Kolmogorov-Smirnov, en este sentido, otorga un peso menor a las
      observaciones extremas y por la tanto es menos sensible a las desviaciones
      que normalmente se producen en estos tramos.

      Para acabar, observemos el resultado de aplicar el test de Kolmogorov-Smirnov
      a los datos de la Figura 4.  Para el caso del peso, el valor del estadístico
      proporcionado por dicho test fue de 0.705, con un p-valor correspondiente
      de p=0.702 que, al no ser significativo, indica que podemos asumir una distribución
      normal.  Por otra parte, para el caso de la edad, en el que la distribución
      muestral era mucho más asimétrica, el mismo test proporcionó
      un valor de 1.498, con p=0.022, lo que obligaría a rechazar en este
      caso la hipótesis de una distribución gaussiana.

      Figura 2. Gráfica de una distribución
      normal y significado del área bajo la curva.

      TIPOS DE VARIABLES

      • VARIABLE INDEPENDIENTE

      Una variable independiente es aquella cuyo valor
      no depende del de otra variable.

      La variable independiente en una función se
      suele representar por x.

      La variable independiente se representa en el eje
      de abscisas.

      • VARIABLE DEPENDIENTE

      Una variable dependiente es aquella cuyos valores
      dependen de los que tomen otra variable.

      La variable dependiente en una función se
      suele representar por y.

      La variable dependiente se representa en el eje ordenadas.

      La variable y está en función de la
      variable x.

      VARIABLE INDEPENDIENTE

      En investigación, se denomina variable independiente a aquélla
      que es manipulada por el investigador en un experimento con el objeto de estudiar
      cómo incide sobre la expresión de la variable dependiente. A
      la variable independiente también se la conoce como variable explicativa,
      y mientras que a la variable dependiente se la conoce como variable explicada.
      Esto significa que las variaciones en la variable independiente repercutirán
      en variaciones en la variable dependiente.

      Por ejemplo, un investigador desea conocer la efectividad de un nuevo
      dentífrico contra la caries. Para realizar el experimento se seleccionarán
      dos grupos, un grupo principal al que se le aplicará un tratamiento
      (el uso de un dentífrico) y otro al que no se le aplicará nada
      en absoluto. Para que el experimento tenga validez ambos grupos deben ser
      sometidos al mismo régimen de comidas de forma que controlemos que
      no aparezcan otras variables intervinientes (por ejemplo, que un grupo se
      alimente sólo de dulces y el otro no partiendo del supuesto de que
      comer más dulces provoca más caries, elemento que no tenemos
      controlado). En este caso la variable independiente corresponde a la aplicación
      o no del dentífrico y la dependiente a si aparecen o no caries. Así,
      tenemos que la presencia de caries (variable dependiente) es explicada por
      el uso o no de dentífrico (variable independiente).

      Como se ha señalado, la validez de todo experimento depende
      en gran medida de que se controlen esas variables intervinientes. Ésa
      es la razón principal por la que los experimentos en Ciencias se hagan
      en la medida de lo posible en condiciones de vacío, para poder eliminar
      todas las explicaciones alternativas derivadas de las condiciones materiales
      del experimento.

      VARIABLE DEPENDIENTE

      Una variable dependiente es aquella cuyos valores dependen de los que
      tome otra variable.

      Otros tipos de variables

      • Variables control: Variable de referencia en una investigación

      Por último, existen varias clasificaciones de variables según
      sus características:

      • Variable continua: es cuando la variable continúa
        Variables discretas: Son aquellas que establecen categorías
        en términos no cuantitativos entre distintos individuos o elementos.
        Por ejemplo cuando quiero clasificar a las personas en clases sociales:
        alta, media, baja. O cuando quiero calificar un servicio de un hospital:
        excelente, bueno, regular, malo.

      • Variables individuales: Presentan la característica
        que distingue a ciertos individuos.

      • Variables colectivas: Presentan la característica
        que distingue a un grupo determinado.

      • Variables antecedentes: Es una variable que es antecedente
        de otra variable.

      La recta de regresión es la que mejor se ajusta
      a la nube de puntos.

      La recta de regresión pasa por el punto

      llamado centro de gravedad.

      RECTA DE REGRESIÓN DE Y SOBRE X

      La recta de regresión de Y sobre X se utiliza para estimar los
      valores de la Y a partir de los de la X.

      La pendiente de la recta es el cociente entre la covarianza
      y la varianza de la variable X.

      RECTA DE REGRESIÓN DE X SOBRE Y

      La recta de regresión de X sobre Y se utiliza para estimar
      los valores de la X a partir de los de la Y.

      La pendiente de la recta es el cociente entre la covarianza
      y la varianza de la variable Y.

      Si la correlación es nula, r = 0, las rectas de regresión
      son perpendiculares entre sí, y sus ecuaciones son:

      y =

      x =

      • EJERCICIO

      Las notas de 12 alumnos de una clase en Matemáticas y Física
      son las siguientes:

      Matemáticas

      2

      3

      4

      4

      5

      6

      6

      7

      7

      8

      10

      10

      Física

      1

      3

      2

      4

      4

      4

      6

      4

      6

      7

      9

      10

      Hallar las rectas de regresión y representarlas.

      Error estándar en la estimación

      El error estándar de la estimación designado por sYX
      mide la disparidad "promedio" entre los valores observados y los
      valores estimados de. Se utiliza la siguiente formula.

      Debemos entonces calcular los valores de para cada ciudad sustituyendo
      en la ecuación los valores de los porcentajes de graduados de cada
      ciudad estudiada.

      Y X

      4.2 7.2 4.6 -0.4 0.16

      4.9 6.7 4.5 0.4 0.16

      7.0 17.0 6.6 0.4 0.16

      6.2 12.5 5.7 0.5 0.25

      3.8 6.3 4.4 -0.6 0.36

      7.6 23.9 8.0 -0.4 0.16

      4.4 6.0 4.4 0.0 0.00

      5.4 10.2 5.2 0.2 0.04

      1.29

      Syx = 0.46 (decenas de miles $)

      Como esta medida trata de resumir

      La disparidad entre lo observado y lo estimado, es decir, trata de
      medir la diferencia promedio entre lo observado y lo estimado ó esperado
      de acuerdo al modelo, puede considerarse como un indicador del grado de precisión
      con que la ecuación de regresión, describe la relación
      entre las dos variables. Este error estándar se ve afectado por las
      unidades y sus cambios ya que es una medida absoluta, pues, se da en la misma
      unidad de medida que esta dada la variable Y; en el ejemplo 0.46 serán
      decenas de miles de pesos, razón por la cual no es posible comparar
      con las relaciones de variables dadas en distinta unidad de medida. Es necesario
      entonces calcular una medida que interprete o mida mejor el grado de relación
      entre las variables.

      INTERPOLACIÓN LINEAL

      La interpolación lineal es un caso particular de la Interpolación
      general de Newton.

      Con el polinomio de interpolación de Newton se logra aproximar
      un valor de la función f(x) en un valor desconocido de x. El caso particular,
      para que una interpolación sea lineal es en el que se utiliza un polinomio
      de interpolación de grado 1, y se denota de la siguiente manera:

      Interpolación lineal de una variable independiente.

      Es igual que hacer integrales cerradas.

      En una tabla se representan algunos valores de la función, pero
      no todos, en ocasiones nos interesa el valor de la función para un
      valor de la variable independiente distinto de los que figuran en la tabla,
      en este caso podemos tomar el más próximo al buscado, o aproximarnos
      un poco más por interpolación, la interpolación casi
      siempre nos dará un pequeño error respecto al valor de la función
      verdadero, pero siempre será menor que tomar el valor más próximo
      de los que figuran en la tabla, veamos como se calcula al valor de la función
      para un valor de la variable independiente que se encuentre entre dos valores
      de la tabla por interpolación lineal.

      Por la tabla sabemos que:

      y

      Queremos, pues, saber:

      Siendo:

      La interpolación lineal consiste en trazar una recta que pasa
      por (x1, y1) y (x2, y2), y = r(x) y calcular los valores intermedios según
      esta recta en lugar de la función y = f(x)

      COEFICIENTE DE DETERMINACIÓN. COEFICIENTE DE CORRELACIÓN.

      Una vez ajustada la recta de regresión a la nube de observaciones
      es importante disponer de una medida que mida la bondad del ajuste realizado
      y que permita decidir si el ajuste lineal es suficiente o se deben buscar
      modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente
      de determinación, definido como sigue

      (6.15)

      o bien

      Como scE < scG, se verifica que 0 < R2 < 1.

      El coeficiente de determinación mide la proporción de
      variabilidad total de la variable dependiente respecto
      a su media que es explicada por el modelo de regresión. Es usual expresar
      esta medida en tanto por ciento, multiplicándola por cien.

      Por otra parte, teniendo en cuenta que i
      – = 1se
      se obtiene

      (6.16)

      Para poder interpretar con mayor facilidad el coeficiente de correlación
      muestral se exponen varias nubes de observaciones y el ajuste lineal obtenido:

      Figura 6.7.

      Figura 6.8.

       

      Figura 6.9.

      Figura 6.10.

      Figura 6.11.

       

       

       

      Autor:

      Marcio Evilla

      marcioevilla[arroba]hotmail.com

      INSTITUTO UNIVERSITARIO DE TECNOLOGIA ALBERTO ADRIANI

      ASIGNATURA: ESTADISTICA

      INFORME FINAL

      ARACAS, 07 DE FEBRERO DEL 2011

    Partes: 1, 2
     Página anterior Volver al principio del trabajoPágina siguiente 

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter