Monografias.com > Estadística > Matemáticas
Descargar Imprimir Comentar Ver trabajos relacionados

Estadística básica



    1. Conceptos básicos,
      presentación de información, medidas de tendencia
      central y dispersión
    2. Fundamentos de
      probabilidad
    3. Distribuciones de
      probabilidad
    4. Tipos de
      muestreo
    5. Análisis de
      regresión

    UNIDAD 1 CONCEPTOS
    BÁSICOS, PRESENTACIÓN DE INFORMACIÓN,
    MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN.

      1. SIGNIFICADO DE
        ESTADÍSTICA
    1. CONCEPTOS BÁSICOS

    La estadística es una rama de las matemáticas que conjunta herramientas
    para recolectar, organizar, presentar y analizar datos
    numéricos u observacionales. Presenta números que
    describen una característica de una muestra. Resulta
    de la manipulación de datos de la muestra según
    ciertos procedimientos
    especificados.

    Procedimiento:

    1. Obtención de datos
    2. Clasificación
    3. Presentación
    4. Interpretación
    5. Descripción
    6. Generalizaciones
    7. Comprobación de hipótesis por su
      aplicación.
    8. Toma de decisiones

    Términos comunes.

    Población: conjunto de todos los
    individuos (personas, objetos, animales, etc.)
    que porten información sobre el fenómeno que se
    estudia. Por ejemplo, si estudiamos la edad de los habitantes en
    una ciudad, la población será el total de los
    habitantes de dicha ciudad.

    Muestra: Subconjunto de la población
    seleccionado de acuerdo con un criterio, y que sea representativo
    de la población. Por ejemplo, elegir 30 personas por cada
    colonia de la ciudad para saber sus edades, y este será
    representativo para la ciudad.

    Individuo: cualquier elemento que porte
    información sobre el fenómeno que se estudia.
    Así, si estudiamos la altura de los niños
    de una clase, cada
    alumno es un individuo; si
    estudiamos la edad de cada habitante, cada habitante es un
    individuo.

    Variable: Fenómeno que puede tomar
    diversos valores. Las
    variables
    pueden ser de dos tipos:

    Variables cualitativas o atributos: no se
    pueden medir numéricamente (por ejemplo: nacionalidad, color de la
    piel,
    sexo).

    Variables cuantitativas: tienen valor
    numérico (edad, precio de un
    producto,
    ingresos
    anuales

    Por su parte, las variables cuantitativas se
    pueden clasificar en discretas y continuas:

    Discretas: sólo pueden tomar valores
    enteros (1, 2, 8, -4, etc.). Por ejemplo: número de
    hermanos (puede ser 1, 2, 3….,etc, pero, por ejemplo, nunca
    podrá ser 3,45).

    Continuas: pueden tomar cualquier valor real
    dentro de un intervalo. Por ejemplo, la velocidad de
    un vehículo puede ser 80,3 km/h, 94,57
    km/h…etc.

    Las variables también se pueden clasificar
    en:

    Variables unidimensionales: sólo recogen
    información sobre una característica (por
    ejemplo: edad de los alunmos de una clase).

    Variables bidimensionales: recogen
    información sobre dos características de la
    población (por ejemplo: edad y altura de los alumnos de
    una clase).

    Variables pluridimensionales: recogen
    información sobre tres o más
    características (por ejemplo: edad, altura y peso de los
    alumnos de una clase).

    1. CONCEPTO Y CLASIFICACIÓN DE
      DATOS

    DATOS

    Características o números que son
    recolectados por observación. No son otra cosa que el
    producto de las observaciones efectuadas en las personas y
    objetos en los cuales se produce el fenómeno que queremos
    estudiar

    Los datos estadísticos pueden ser clasificados en
    cualitativos, cuantitativos, cronológicos y
    geográficos

    Datos Cualitativos: cuando los datos son
    cuantitativos, la diferencia entre ellos es de clase y no de
    cantidad. Ejemplo: Si deseamos clasificar los estudiantes que
    cursan la materia de
    estadística I por su estado civil,
    observamos que pueden existir solteros, casados, divorciados,
    viudos.

    Datos cuantitativos: cuando los valores de
    los datos representan diferentes magnitudes, decimos que son
    datos cuantitativos. Ejemplo: Se clasifican los estudiantes del
    Núcleo San Carlos de la UNESR de acuerdo a sus notas,
    observamos que los valores (nota) representan diferentes
    magnitudes.

    Datos cronológicos: cuando los valores de
    los datos varían en diferentes instantes o períodos
    de tiempo, los
    datos son reconocidos como cronológicos. Ejemplo: Al
    registrar los promedios de notas de los Alumnos del Núcleo
    San Carlos de la UNESR en los diferentes semestres.

    Datos geográficos: cuando los datos
    están referidos a una localidad geográfica se dicen
    que son datos geográficos. Ejemplo: El número de
    estudiantes de educación superior en
    las distintas regiones del país

    1. PRESENTACION DE
      INFORMACIÓN

    1.2.1 DISTRIBUCION DE TABLAS DE
    FRECUENCIAS

    Estadística Descriptiva:

    Tienen por objeto fundamental describir y analizar las
    características de un conjunto de datos,
    obteniéndose de esa manera conclusiones sobre las
    características de dicho conjunto y sobre las relaciones
    existentes con otras poblaciones, a fin de compararlas. No
    obstante puede no solo referirse a la observación de todos
    los elementos de una población (observación
    exhaustiva) sino también a la descripción de los elementos de una muestra
    (observación parcial).

    En relación a la estadística descriptiva,
    Ernesto Rivas Gonzáles dice; "Para el estudio de estas
    muestras, la estadística
    descriptiva nos provee de todos sus medidas; medidas que
    cuando quieran ser aplicadas al universo total,
    no tendrán la misma exactitud que tienen para la muestra,
    es decir al estimarse para el universo
    vendrá dada con cierto margen de error; esto significa que
    el valor de la medida calculada para la muestra, en el
    oscilará dentro de cierto límite de confianza, que
    casi siempre es de un 95 a 99% de los casos.

    Distribución de frecuencias: muestra el
    número de veces que ocurre cada
    observación.

    Ejemplo: Se elaboró una encuesta en un
    jardín de niños y ésta informó que
    las mascotas más comunes que tiene un niño son
    perros, gatos,
    peces,
    hámsteres y pájaros

    perro

    gato

    perro

    hamster

    pájaro

    hamster

    gato

    perro

    hámster

    gato

    pájaro

    gato

    perro

    perro

    hámster

    pájaro

    perro

    perro

    pájaro

    gato

     

    A continuación se muestra la distribución de frecuencias absolutas,
    relativas y porcentuales de las mascotas mas comunes de los
    niños.

    Mascota

    Frecuencia absoluta

    Frecuencia relativa

    Frecuencia acumulada

    Perro

    7

    .35

    35 %

    Pajaro

    4

    .20

    20 %

    Hamster

    4

    .20

    20 %

    gato

    5

    .25

    25 %

    Estos datos se pueden representar en una gráfica
    de barras o en una gráfica de pastel:

    Gráfica de
    barras

    Gráfica de pastel

    NOTA :Para calcular:..

    Frecuencia absoluta: se cuenta la cantidad de veces que
    ocurre el evento, en este caso, las mascotas.

    Frecuencia relativa: se divide la frecuencia absoluta de
    cada evento entre el total de eventos.

    Frecuencia porcentual: se multiplica la frecuencia
    relativa por 100.

    1.2.2 CONSTRUCCION DE TABLAS
    ESTADÍSTICAS

    Distribución agrupada de frecuencias:
    Distribución de frecuencias en la que los valores de la
    variable se han agrupado en clases. Esto se debe principalmente a
    la disposición de gran número de datos. Las razones
    por las que se elaboran este tipo de agrupación de datos
    es por economía, practicidad, y baja frecuencia de
    algunos puntajes.

    Agrupación de datos: para elaborar las tablas
    estadísticas, se debe seguir un
    procedimiento preciso:

    1. Estos son algunos métodos para obtener
      datos:

      Censo: Se entiende por censo aquella
      numeración que se efectúa a todos y cada uno de
      los caracteres componentes de una población. Para
      Levin & Rubin (1996) "Algunas veces es posible y
      práctico examinar a cada persona o
      elemento de la población que deseamos describir. A
      esto lo llamamos una numeración completa o censo.
      Utilizamos el muestre cuando no es posible contar o medir
      todos los elementos de la población. Si es posible
      listar (o enumerar) y observar cada elemento de la
      población, los censos se utilizan rara vez porque a
      menudo su compilación es bastante difícil,
      consume mucho tiempo por lo que resulta demasiado
      costoso.

      Encuesta: Se entiende por

      encuesta las observaciones realizadas
      por muestreo, es
      decir son observaciones parciales. El diseño de encuestas es exclusivo de las
      ciencias
      sociales y parte de la premisa de que si queremos conocer
      algo sobre el comportamiento de las personas, lo mejor,
      más directo y simple es preguntárselo
      directamente a ellas. (Cadenas, 1974). Según Antonio
      Napolitano "La encuesta, es un método mediante el cual se quiere
      averiguar. Se efectúa a través de cuestionarios
      verbales o escritos que son aplicados a un gran número
      de personas".

    2. Toma de datos.- es la obtención de una
      colección de datos por medio de encuestas,
      preguntas, sondeos etc. Que no han sido ordenados
      numéricamente y que dicha información se extrae
      al azar, es decir, de tal forma que cada miembro de la
      población tenga la misma oportunidad de ser elegida o
      seleccionada.
    3. Ordenación de datos: es una
      colocación de los datos numéricos tomados en
      orden creciente a decreciente de magnitud. La diferencia
      entre el mayor y el menor de los números se llama
      rango o recorrido de datos.

      *No. De clases (Regla de Sturges): 1 + 3.332 log
      N

      *Tamaño de clase = Rango / No. De
      clases

    4. Cálculo de tamaño de clase: para
      calcular el tamaño de clase es necesario calcular
      primeramente el número de clases utilizando la regla de
      Sturges y despés se obtiene el tamaño de clase
      dividiendo el rango entre el número de
      clases.
    5. Límites de clase: representan el
      tamaño de cada clase. El límite inferior de la
      primer clase toma el valor de el dato menor de la
      colección de datos, para obtener el límite
      inferior de la clase siguente, se suma al límite
      inferior de la case anterior el tamaño de
      clase.
    6. Límites reales de clase: se obtienen
      sumando al LS de la clase el Lide la clase contigua superior y
      dividiendo entre dos.
    7. Marca de clase: Es el punto medio de la clase
      y se obtiene sumando los LI y LS de la clase y dividiendo entre
      2. La marca de clase
      también se llama punto medio de la clase.

    Ejemplo de tablas
    estadísticas:

    AUTOBUSES FORANEOS

    1) Toma de datos

    Los siguientes datos corresponden a la cantidad de
    asientos vacíos que reportaron 50 autobuses
    foráneos en un domingo.

    12

    11

    4

    6

    6

    11

    3

    10

    12

    4

    10

    1

    1

    2

    4

    5

    2

    4

    4

    8

    8

    7

    8

    4

    10

    4

    2

    6

    2

    9

    5

    6

    6

    4

    12

    8

    1

    12

    1

    7

    7

    6

    8

    4

    6

    9

    3

    7

    7

    5

    2) Ordenación de datos

    1

    2

    4

    4

    5

    6

    7

    8

    9

    11

    1

    2

    4

    4

    5

    6

    7

    8

    10

    12

    1

    2

    4

    4

    6

    6

    7

    8

    10

    12

    1

    3

    4

    4

    6

    6

    7

    8

    10

    12

    2

    3

    4

    5

    6

    7

    8

    9

    11

    12

    Rango = 12-1 = 11

    3) Tamaño de clase

    No de clases = 1 + 3.332log (50) = 6

    Tamaño de clase = 11/6 = 2

    4) Límites de
    clase

    5) Límites reales de clase

    6) Marca de clase

    Clase

    Intervalo

    LRI

    LRS

    Frec. Absoluta

    Frec. Relat

    Frec. Porcentual

    X

    LI

    LS

    1

    1

    2.9

    0.95

    2.95

    8

    .16

    16 %

    1.95

    2

    3

    4.9

    2.95

    4.95

    11

    .22

    22 %

    3.95

    3

    5

    6.9

    4.95

    6.95

    10

    .20

    20 %

    5.95

    4

    7

    8.9

    6.95

    8.95

    10

    .20

    20 %

    7.95

    5

    9

    10.9

    8.95

    10.95

    5

    .10

    10 %

    9.95

    6

    11

    12.9

    10.95

    12.95

    6

    .12

    12 %

    11.95

    total

    50

    1

    100 %

    Representación gráfica de
    datos.

    Se tomará el ejemplo anterior para demostrar el
    uso de diferentes gráficas.

    Histograma: forma gráfica de barras que
    emplea variables con escala de
    intervalos o de proporciones. Para realizarla, se toma en cuenta
    para el eje X, los Límites reales, y para el eje Y, las
    frecuencias absolutas.

    Polígono de frecuencias: Forma
    gráfica que representa una distribución de
    frecuncias en la forma de una línea continua que traza un
    histograma. Para su elaboración, se consideran las
    marcas de
    clase en el eje X y las frecuencias absolutas en el eje
    Y.

     

    Gráfica de barras: la gráfica de
    barras es una forma de gráfica que utiliza barras para
    indicar la frecuencia de ocurrencia de las observaciones. Para
    construirla se constituye el eje y por las frecuencias absolutas
    y el eje X por los límites inferior y superior de cada
    clase, dejando un espacio entre barra y barra.

    1.3 CALCULO DE LA MEDIA MEDIANA Y MODA

    Medidas de tendencia central:

    La tendencia central se refiere al punto medio de una
    distribución. Las medidas de tendencia central se
    conocen como medidas de posición.

    Media

    La media es el punto en una distribución de
    medidas, alrededor del cual las desviaciones sumadas son iguales
    a cero. Es el valor promedio de una muestra o población.
    La media es muy sensible a mediciones extremas que no
    estén balanceadas en ambos lados. Se pueden calcular
    diversos tipos de media, siendo las más
    utilizadas:

    1. Media aritmética: se calcula
      multiplicando cada valor por el número de veces que se
      repite. La suma de todos estos productos se
      divide por el total de datos de la muestra:

    b) Media geométrica: se eleva cada valor
    al número de veces que se ha repetido. Se multiplican
    todo estos resultados y al producto fiinal se le calcula la
    raíz "n" (siendo "n" el total de datos de la
    muestra).

    Según el tipo de datos que se analice
    será más apropiado utilizar la media
    aritmética o la media geométrica.

    La media geométrica se suele utilizar en
    series de datos como tipos de interés anuales, inflación,
    etc., donde el valor de cada año tiene un efecto
    multiplicativo sobre el de los años anteriores. En
    todo caso, la media aritmética es la medida de
    posición central más utilizada.

    Lo más positivo de la media es que en su
    cálculo se utilizan todos los valores
    de la serie, por lo que no se pierde ninguna
    información.

    Sin embargo, presenta el problema de que su valor
    (tanto en el caso de la media aritmética como
    geométrica) se puede ver muy influido por valores
    extremos, que se aparten en exceso del resto de la serie.
    Estos valores anómalos podrían condicionar en
    gran medida el valor de la media, perdiendo ésta
    representatividad.

    Mediana

    Observación u observación potencial en
    un conjunto que divide el conjunto, de modo que el mismo
    número de observaciones estén en cada uno de
    sus lados. Para un número impar de valores, es el
    valor de en medio; para un número par es el promedio
    de los dos medios.
    Para un conjunto con un número par de números,
    la mediana será el promedio aritmético de los
    dos números medios.

    Ejemplo:

    Calcule la mediana para los siguientes
    datos.

    La edad de una muestra de cinco estudiantes es: 21,
    25, 19, 20 y 22.
    Al ordenar los datos de manera ascendente quedan: 19, 20, 21,
    22, 25.

    La mediana es 21.

    La mediana de una muestra de datos organizados en una
    distribución de frecuencias se calcula mediante la
    siguiente fórmula:

    Mediana = LRI + [(n/2 – FA)/f]
    c

    donde L es el límite inferior de la clase que
    contiene a la mediana, FA es la frecuencia acumulada que precede
    a la clase de la mediana, f es la frecuencia de clase de la
    mediana e i es el intervalo de clase de la mediana.

    MODA

    La moda es el valor
    de la observación que aparece con más
    frecuencia.

    Ejemplo:

    las calificaciones de un examen de diez estudiantes
    son:

    81, 93, 84, 75, 68, 87, 81, 75, 81, 87.

    Como la calificación 81 es la que más
    ocurre, la calificación modal es 81

    La moda de los datos agrupados se aproxima por el punto
    medio de la clase que contiene la frecuencia de clase
    mayor.

    Cuando dos valores ocurren una gran cantidad de veces,
    la distribución se llama bimodal, como en dicho
    ejemplo.

    Ejemplo de cálculo de media mediana y moda. Para
    ejemplificar, tomaremos el ejemplo de autobuses foráneos
    de la pagina 6.

    Clase

    Intervalo

    LRI

    LRS

    Frec. Absoluta

    Frec. Relat

    Frec. Porcentual

    X

    fx

    LI

    LS

    1

    1

    2.9

    0.95

    2.95

    8

    .16

    16 %

    1.95

    15.60

    2

    3

    4.9

    2.95

    4.95

    11

    .22

    22 %

    3.95

    43.45

    3

    5

    6.9

    4.95

    6.95

    10

    .20

    20 %

    5.95

    59.50

    4

    7

    8.9

    6.95

    8.95

    10

    .20

    20 %

    7.95

    79.50

    5

    9

    10.9

    8.95

    10.95

    5

    .10

    10 %

    9.95

    49.75

    6

    11

    12.9

    10.95

    12.95

    6

    .12

    12 %

    11.95

    71.70

    total

    50

    1

    100 %

    319.50

     

    1. CÁLCULO DE VARIANZA, DESVIACIÓN
      ESTÁNDAR Y COEFICIENTE DE
      VARIACIÓN.

    Medidas de dispersión: Estudia la
    distribución de los valores de la serie, analizando si
    estos se encuentran más o menos concentrados, o más
    o menos dispersos

    Varianza: Mide la distancia existente entre los
    valores de la serie y la media. Se calcula como sumatorio de las
    diferencias al cuadrado entre cada valor y la media,
    multiplicadas por el número de veces que se ha repetido
    cada valor. El sumatorio obtenido se divide por el tamaño
    de la muestra.

    La varianza siempre será mayor que cero. Mientras
    más se aproxima a cero, más concentrados
    están los valores de la serie alrededor de la media. Por
    el contrario, mientras mayor sea la varianza, más
    dispersos están.

    Desviación estándar: Se calcula
    como raíz cuadrada de la varianza.

    Coeficiente de variación de Pearson: se
    calcula como cociente entre la desviación típica y
    la media de la muestra

    Continuando con el caso de los autobuses
    foráneos, se realizará el ejemplo de medidas de
    dispersión.

    Clase

    Intervalo

    LRI

    LRS

    Frec. Absoluta

    Frec. Relat

    Frec. Porcentual

    X

    fx

    f(x-x)2

    LI

    LS

    1

    1

    2.9

    0.95

    2.95

    8

    .16

    16 %

    1.95

    15.60

    157.71

    2

    3

    4.9

    2.95

    4.95

    11

    .22

    22 %

    3.95

    43.45

    171.63

    3

    5

    6.9

    4.95

    6.95

    10

    .20

    20 %

    5.95

    59.50

    354.03

    4

    7

    8.9

    6.95

    8.95

    10

    .20

    20 %

    7.95

    79.50

    632.03

    5

    9

    10.9

    8.95

    10.95

    5

    .10

    10 %

    9.95

    49.75

    495.01

    6

    11

    12.9

    10.95

    12.95

    6

    .12

    12 %

    11.95

    71.70

    856.82

    total

    50

    1

    100 %

    319.50

    2667.21

     

    UNIDAD II
    FUNDAMENTOS DE PROBABILIDAD

    2.1 CONCEPTOS BÁSICOS

    Probabilidad: valor entre cero y uno, inclusive,
    que describe la posibilidad relativa de que ocurra un
    evento.

    Experimento: proceso que
    conduce a la ocurrencia de una de varias observaciones
    posibles.

    Resultado: lo que resulta en particular de un
    experimento.

    Evento: conjunto de uno o más resultados
    de un experimento.

    Espacio muestral: son todos los posibles
    resultados de un experimento. Cualquier resultado experimental
    particular se llama punto muestral y es un elemento del espacio
    muestral.

    Tipos de sucesos

    • Exhaustivo: se dice que dos o más
      sucesos son exhaustivos si se consideran todos los posibles
      resultados.

    Simbólicamente: p (A o B o…) = 1

    • No exhaustivos: se dice que dos o más
      sucesos son exhaustivos si no cubren todos los posibles
      resultados.
    • Mutuamente excluyentes: sucesos que no pueden
      ocurrir en forma simultánea:

    P(A y B) = 0 y p(A o B) = p(A) + p (B)

    Ejemplo: hombres, mujeres

    • No mutuamente excluyentes: sucesos que pueden
      ocurrir en forma simultánea:

    P (A o B) = p (A) + p (B) – p (A y B
    )

    Ejemplo: hombres, ojos cafés

    • Independientes: Sucesos cuya probabilidad no
      se ve afectada por la ocurrencia o no ocurrencia del otro
      :

    P ( AI B ) = P ( A ); P ( BIA ) = P (B) Y P (A Y B) =
    P(A) P(B)

    Ejemplo: sexo y color de ojos

    • Dependientes: sucesos cuya probabilidad cambia
      dependiendo de la ocurrencia o no ocurrencia del
      otro:

    P ( AI B ) difiere de p (A); P ( BIA ) difiere de
    P(B);

    y P (A Y B)= P ( A ) P ( BIA )= P (B) P ( AI B
    )

    Ejemplo: raza y color de ojos

    Probabilidades conjuntas: probabilidad de que dos
    sucesos o más, ocurran simultáneamente

    Probabilidades marginales: o probabilidades
    incondicionales = suma de probabilidades.

    Enfoques de la probabilidad

    Probabilidad clásica se basa en la
    consideración de que los resultados de un experimento son
    igualmente posibles.

    Utilizando el punto de vista clásico,

    Probabilidad de un evento = no. de resultados
    probables no. De resultados posibles

    Ejemplo

    Considere el experimento de lanzar dos monedas al mismo
    tiempo.

    El espacio muestral S = {HH, HT, TH, TT}

    Considere el evento de una cara.

    Probabilidad de una cara = 2/4 = 1/2.

    Distribución muestral

    El diagrama de
    árbol es muy útil para visualizar las
    probabilidades condicional y conjunta y en particular para el
    análisis de decisiones administrativas
    que involucran varias etapas.

    EJEMPLO: una bolsa contiene 7 fichas rojas
    (R) y 5 azules (B), se escogen 2 fichas, una después de
    la otra sin reemplazo. Construya el diagrama de árbol
    con esta información.

    2.2 AXIOMAS DE PROBABILIDAD

    Primer axioma : La probabilidad de un suceso
    A es un
    número real entre 0 y
    1.

    Segundo axioma :Ocurre un suceso de la muestra de
    todos los sucesos o espacio de sucesos
    Ω con probabilidad 1.

    Tercer axioma Si A1, A2 …
    son sucesos mutuamente excluyentes

    2.3 PROBABILIDAD CONDICIONAL

    Probabilidad condicional es la probabilidad de que
    ocurra un evento en particular, dado que ocurrió otro
    evento.

    Nota: la probabilidad de que ocurra el evento A dado que
    ya ocurrió B se denota como
    P(A|B).

    Reglas básicas de
    probabilidad

    Si los eventos son mutuamente
    excluyentes, la ocurrencia de cualquier evento impide que otro
    eventos ocurra.

    Reglas de adición: si dos eventos A y B
    son mutuamente excluyentes, la regla especial de adición
    indica que la probabilidad de que ocurra A o B es igual a la suma
    de sus probabilidades respectivas:

    P(A o B) = P(A) + P(B)

    Ejemplo

    Llegada

    Frecuencia

    Antes de tiempo

    100

    A tiempo

    800

    Demorado

    75

    Cancelado

    25

    Total

    1000

     

    Aerolíneas Argentinas acaba de proporcionar la
    siguiente información de sus vuelos de Buenos Aires a
    Rosario:

    Ejemplo

    Si A es el evento de que un vuelo llegue antes de
    tiempo, entonces

    P(A) = 100 /1000 = 0.1.

    Si B es el evento de que un vuelo llegue demorado,
    entonces

    P(B) = 75 /1000 = 0.075.

    La probabilidad de que un vuelo llegue antes de tiempo o
    demorado es

    P(A o B) = P(A) + P(B) = .1 + .075 = 0.175.

    UNIDAD III DISTRIBUCIONES DE
    PROBABILIDAD

    3.1 VARIABLES ALEATORIAS

    Las variables aleatorias son una transformación o
    función
    que asignan uny sólo un valor numérico a cada
    resultado de un experimento.

    Variables aleatorias discretas: comprenden reglas
    o modelos de
    probabilidad para asignar o generar sólo valores diversos
    (no mediciones fraccionarias).

    Variables aleatorias continuas:

    3.2 DISTRIBUCION BINOMIAL

    Una distribución de probabilidad ampliamente
    utilizada de una variable aleatoria discreta es la
    distribución binomial. Esta describe varios procesos de
    interés para los administradores.

      Describe datos discretos, resultantes de un
    experimento denominado proceso de Bernoulli en
    honor del matemático suizo Jacob Bernoulli, quien
    vivió en el siglo XVII.

    Empleo del proceso de Bernoulli.

    Podemos servirnos de los resultados de un número
    fijo de lanzamientos de una moneda como ejemplo de un proceso de
    Bernoulli. Este proceso lo describimos así:

    1. Cada ensayo ( cada
    lanzamiento, en nuestro caso) tiene sólo dos resultados
    posibles: lado A o lado B, sí o no, éxito o
    fracaso.

    2. La probabilidad del resultado de cualquier
    ensayo (lanzamiento) permanece fija con el tiempo.
    Tratándose de una moneda la probabilidad de que salga de
    el lado A sigue siendo de 0.5 en cada lanzamiento, cualquiera que
    sea el número de veces que la moneda sea
    arrojada.

    3. Los ensayos son
    estadísticamente independientes, es decir, el resultado de
    un lanzamiento no afecta al de cualquier otro
    lanzamiento.

    Cada proceso de Bernoulli tiene su propia probabilidad
    característica. Pongamos el caso en que siete
    décimas partes de las personas que solicitaron cierto tipo
    de empleo pasaron
    la prueba. Diremos entonces que la probabilidad
    característica fue de 0.7 pero podemos describir los
    resultados de la prueba como un proceso de Bernoulli sólo
    si tenemos la seguridad de que
    la proporción de los que fueron aprobados
    permaneció constante con el tiempo.

    Des de luego, la otra característica del proceso
    de Bernoulli también deberá ser satisfecha. Cada
    prueba deberá arrojar tan sólo dos resultados
    (éxito o fracaso= y los resultados de las pruebas
    habrán de ser estadísticamente
    independientes.

    En un lenguaje
    más formal, el símbolo p representa la
    probabilidad de un éxito y el símbolo q ( 1- p )
    representa la probabilidad de un fracaso. Para representar cierto
    número de éxitos, utilizaremos el símbolo
    r y para simbolizar el número total de ensayos
    emplearemos el símbolo n.

    Entonces tenemos que :

     P

    Probabilidad de éxito.

    Q

    Probabilidad de fracaso.

    r

    Número de éxitos
    deseados.

    n

    Número de ensayos efectuados.

     

    Existe una fórmula binomial:

      Probabilidad de r éxitos en n ensayos es
    :

    N! / R! (N-R)! PR QN-R

    Recordemos que el símbolo factorial! Significa
    por ejemplo que es 3! = 3*2*1 = 6

    Los matemáticos definen 0! = 1.

    3.3 DISTRIBUCION NORMAL

    La Distribución Normal: una distribución
    de una variable aleatoria continua.

    Una muy importante distribución continua de
    probabilidad es la distribución normal. Varios
    matemáticos intervinieron en su desarrollo
    entre ellos figura el astrónomo del siglo XVIII Karl
    Gauss, a veces es llamada en sus honor la distribución de
    Gauss.

    Características de la distribución
    normal de la probabilidad.

    1. La curva tiene un solo pico, por consiguiente
    es unimodal. Presenta una forma de campana.

    2. La media de una población distribuida
    normalmente se encuentra en el centro de su curva
    normal.

    3. A causa de la simetría de la
    distribución normal de probabilidad, la mediana y la moda
    de la distribución también se hallan en el centro,
    por tanto en una curva normal, la media, la mediana y la moda
    poseen el mismo valor.

    4. Las dos colas (extremos) de una
    distribución normal de probabilidad se extienden de manera
    indefinida y nunca tocan el eje horizontal.

    Áreas bajo la curva normal.

    El área total bajo la curva normal será de
    1.00 por lo cual podemos considerar que las áreas bajo la
    curva son probabilidades.

    El valor de Z.

    Z= Número de desviaciones estándar de x
    respecto a la media de esta distribución.

    Z= x-m / s

    X=valor de la variable aleatoria que nos
    interesa.

    m = media de la
    distribución de esta variable aleatoria.

    s = desviación
    estándar de esta distribución.

    Las variables aleatorias distribuidas en forma normal
    asumen muchas unidades diferentes de medición, por lo que hablaremos de forma
    estándar y les daremos el símbolo de Z.

    UNIDAD IV TIPOS DE MUESTREO

    4.1 TIPOS DE MUESTREO

    Los autores proponen diferentes criterios de
    clasificación de los diferentes tipos de muestreo, aunque
    en general pueden dividirse en dos grandes grupos:

    métodos de muestreo probabilísticos y
    métodos de muestreo no probabilísticos.

    Muestreo
    probabilístico

    Los métodos de muestreo probabilísticos
    son aquellos que se basan en el principio de equiprobabilidad. Es
    decir, aquellos en los que todos los individuos tienen la misma
    probabilidad de ser elegidos para formar parte de una muestra y,
    consiguientemente, todas las posibles muestras de tamaño n
    tienen la misma probabilidad de ser elegidas. Sólo estos
    métodos de muestreo probabilísticos nos aseguran la
    representatividad de la muestra extraída y son, por tanto,
    los más recomendables.

    Dentro de los métodos de muestreo
    probabilísticos encontramos los siguientes
    tipos:

    El método otorga una probabilidad conocida de
    integrar la muestra a cada elemento de la población, y
    dicha probabilidad no es nula para ningún
    elemento.

    Los métodos de muestreo no probabilísticos
    no garantizan la representatividad de la muestra y por lo tanto
    no permiten realizar estimaciones inferenciales sobre la
    población.

    (En algunas circunstancias los métodos
    estadísticos y epidemiológicos permiten resolver
    los problemas de
    representatividad aun en situaciones de muestreo no
    probabilistico, por ejemplo los estudios de caso−control, donde
    los casos no son seleccionados aleatoriamente de la
    población.)

    Entre los métodos de muestreo
    probabilísticos más utilizados en investigación encontramos:

    • Muestreo aleatorio simple:

    El procedimiento empleado es el siguiente:

    1. Se asigna un número a cada individuo de la
      población
    2. A través de algún medio
      mecánico (bolas dentro de una bolsa, tablas de
      números aleatorios, números
      aleatorios

    generados con una calculadora u ordenador, etc.) se
    eligen tantos sujetos como sea necesario para completar el
    tamaño de muestra requerido.

    Este procedimiento, atractivo por su simpleza, tiene
    poca o nula utilidad
    práctica cuando la población que estamos
    manejando es muy grande.

    Ejemplo: formar el equipo de fútbol de la
    universidad
    seleccionando 11 boletas de una urna con el nombre de todos los
    alumnos de la universidad.

    • Muestreo aleatorio
      sistemático:

    Este procedimiento exige, como el anterior, numerar
    todos los elementos de la población, pero en lugar de
    extraer n números aleatorios sólo se extrae uno.
    Se parte de ese número aleatorio i, que es un
    número elegido

    al azar, y los elementos que integran la muestra son
    los que ocupa los lugares i, i+k, i+2k,
    i+3k,…,i+(n−1)k, es

    decir se toman los individuos de k en k, siendo k el
    resultado de dividir el tamaño de la población
    entre el tamaño de la muestra: k= N/n. El número
    i que empleamos como punto de partida será un
    número al azar entre 1 y k.

    El riesgo este
    tipo de muestreo está en los casos en que se dan
    periodicidades en la población ya que al elegir a los
    miembros de la muestra con una periodicidad constante (k)
    podemos introducir una homogeneidad que no se da en la
    población.

    Imaginemos que estamos seleccionando una muestra sobre
    listas de 10 individuos en los que los 5 primeros son varones y
    los 5 últimos mujeres, si empleamos un muestreo
    aleatorio sistemático con k=10 siempre
    seleccionaríamos o sólo hombres o sólo
    mujeres, no podría haber una representación de
    los

    dos sexos.

    • Muestreo aleatorio estratificado:

    Trata de obviar las dificultades que presentan los
    anteriores ya que simplifican los procesos y suelen reducir el
    error muestral para un tamaño dado de la muestra.
    Consiste en considerar categorías típicas
    diferentes entre sí (estratos) que poseen gran
    homogeneidad respecto a alguna característica (se puede
    estratificar, por ejemplo, según la profesión, el
    municipio de residencia, el sexo, el estado
    civil, etc.).

    Lo que se pretende con este tipo de muestreo es
    asegurarse de que todos los estratos de interés
    estarán representados adecuadamente en la

    muestra. Cada estrato funciona independientemente,
    pudiendo aplicarse dentro de ellos el muestreo aleatorio simple
    o el estratificado para elegir los elementos concretos que
    formarán parte de la muestra. En ocasiones las
    dificultades que plantean son demasiado grandes, pues exige un
    conocimiento
    detallado de la población.

    (Tamaño geográfico, sexos,
    edades,…).

    La distribución de la muestra en función
    de los diferentes estratos se denomina afijación, y
    puede ser de diferentes tipos:

    Afijación Simple: A cada estrato le
    corresponde igual número de elementos
    muéstrales.

    Afijación Proporcional: La
    distribución se hace de acuerdo con el peso
    (tamaño) de la población en cada
    estrato.

    Afijación Optima: Se tiene en cuenta la
    previsible dispersión de los resultados, de modo que se
    considera la proporción y la desviación
    típica. Tiene poca aplicación ya que no se suele
    conocer la desviación.

    • Muestreo aleatorio por
      conglomerados:

    Los métodos presentados hasta ahora
    están pensados para seleccionar directamente los
    elementos de la población, es decir, que las unidades
    muéstrales son los elementos de la
    población.

    En el muestreo por conglomerados la unidad muestral es
    un grupo de
    elementos de la población que forman una unidad, a la
    que llamamos conglomerado. Las unidades hospitalarias, los
    departamentos universitarios, una caja de determinado producto,
    etc., son conglomerados naturales.

    En otras ocasiones se pueden utilizar conglomerados no
    naturales como, por ejemplo, las urnas electorales. Cuando los
    conglomerados son áreas geográficas suele
    hablarse de "muestreo por áreas".

    El muestreo por conglomerados consiste en seleccionar
    aleatoriamente un cierto numero de conglomerados (el necesario
    para alcanzar el tamaño muestral establecido) y en
    investigar después todos los elementos pertenecientes a
    los conglomerados elegidos.

    Métodos de muestreo no
    probabilísticos

    A veces, para estudios exploratorios, el muestreo
    probabilístico resulta excesivamente costoso y se acude a
    métodos no probabilísticos, aun siendo conscientes
    de que no sirven para realizar generalizaciones, pues no se tiene
    certeza de que la muestra extraída sea representativa, ya
    que no todos los sujetos de la población tienen la misma
    probabilidad de se elegidos.

    En general se seleccionan a los sujetos siguiendo
    determinados criterios procurando que la muestra sea
    representativa.

    Muestreo por cuotas:

    También denominado en ocasiones "accidental". Se
    asienta generalmente sobre la base de un buen

    conocimiento de los estratos de la población y/o
    de los individuos más "representativos" "adecuados" para
    los fines de la investigación. Mantiene, por tanto,
    semejanzas con el muestreo aleatorio estratificado, pero no tiene
    el carácter de aleatoriedad de
    aquél.

    En este tipo de muestreo se fijan unas "cuotas" que
    consisten en un número de individuos que reúnen
    unas determinadas condiciones, por ejemplo: 20 individuos de 25 a
    40 años, de sexo femenino y residentes en Gijón.
    Una vez determinada la cuota se eligen los primeros que se
    encuentren que cumplan esas características. Este
    método se utiliza mucho en las encuestas de
    opinión.

    Muestreo opinático o
    intencional:

    Este tipo de muestreo se caracteriza por un esfuerzo
    deliberado de obtener muestras "representativas" mediante la
    inclusión en la muestra de grupos supuestamente
    típicos. Es muy frecuente su utilización en sondeos
    preelectorales de zonas que en anteriores votaciones han marcado
    tendencias de voto.

    Muestreo casual o incidental:

    Se trata de un proceso en el que el investigador
    selecciona directa e intencionadamente los individuos de la
    población. El caso más frecuente de este
    procedimiento el utilizar como muestra los individuos a los que
    se tiene fácil acceso (los profesores de universidad
    emplean con mucha frecuencia a sus propios alumnos).

    Bola de nieve:

    Se localiza a algunos individuos, los cuales conducen a
    otros, y estos a otros, y así hasta conseguir una muestra
    suficiente. Este tipo se emplea muy frecuentemente cuando se
    hacen estudios con poblaciones

    4.2 ESTIMACIÓN DE
    LÍMITES

    Para una población con media σ
    y variancia  σ
    2, la distribución de
    muestreo de las medias de todas las muestras posibles de
    tamaño n obtenidas de una población tendrá
    una distribución normal aproximada —con la media de
    la distribución de muestreo igual a 
    σ  y la variancia igual a 
    σ 2/ n —si se
    supone que el tamaño de la muestra es suficientemente
    grande.

    4.3 PRUEBA DE HIPÓTESIS PARA UNA
    MEDIA

    Qué es una
    hipótesis?
     

    Hipótesis: enunciado acerca de una
    población elaborada con el propósito de ponerse a
    prueba.
    Ejemplos de hipótesis acerca de un parámetro de
    población son:
    la media mensual de ingresos para analistas de sistemas es
    $3625,
    el 20% de los delincuentes juveniles son capturados y
    sentenciados a prisión.

    CONCEPTO DE PRUEBA DE HIPÓTESIS

    Afirmación acerca de los parámetros de la
    población.

    Etapas Básicas en
    Pruebas de
    Hipótesis.

    Al realizar pruebas de hipótesis, se parte de un
    valor supuesto (hipotético) en parámetro
    poblacional. Después de recolectar una muestra aleatoria,
    se compara la estadística muestral, así como la
    media (x), con el parámetro hipotético, se compara
    con una supuesta media poblacional (). Después se acepta o
    se rechaza el valor hipotético, según proceda. Se
    rechaza el valor hipotético sólo si el resultado
    muestral resulta muy poco probable cuando la hipótesis es
    cierta.

    Etapa 1.- Planear la hipótesis nula y la
    hipótesis alternativa. La hipótesis nula (H0) es el
    valor hipotético del parámetro que se compra con el
    resultado muestral resulta muy poco probable cuando la
    hipótesis es cierta.

    Etapa 2.- Especificar el nivel de significancia
    que se va a utilizar. El nivel de significancia del 5%, entonces
    se rechaza la hipótesis nula solamente si el resultado
    muestral es tan diferente del valor hipotético que una
    diferencia de esa magnitud o mayor, pudiera ocurrir aleatoria
    mente con una probabilidad de 1.05 o menos.

    Etapa 3.- Elegir la estadística de prueba.
    La estadística de prueba puede ser la estadística
    muestral (el estimador no segado del parámetro que se
    prueba) o una versión transformada de esa
    estadística muestral. Por ejemplo, para probar el valor
    hipotético de una media poblacional, se toma la media de
    una muestra aleatoria de esa distribución normal, entonces
    es común que se transforme la media en un valor z el cual,
    a su vez, sirve como estadística de prueba.

    Definiciones

    Hipótesis nula H0: afirmación
    acerca del valor de un parámetro poblacional.

    Hipótesis alterna H1: afirmación
    que se aceptará si los datos muestrales proporcionan
    evidencia de que la hipótesis nula es falsa.

    Nivel de significancia: probabilidad de rechazar
    la hipótesis nula cuando es verdadera.

    Error Tipo I: rechazar la hipótesis nula
    cuando en realidad es verdadera.

    Error Tipo II: aceptar la hipótesis nula
    cuando en realidad es falsa.

    Estadístico de prueba: valor obtenido a
    partir de la información muestral, se utiliza para
    determinar si se rechaza o no la hipótesis.

    Valor crítico: el punto que divide la
    región de aceptación y la región de rechazo
    de la hipótesis nula.

    Valor p en la prueba de
    hipótesis

    Valor p: es la probabilidad de observar un valor muestral tan
    extremo o más que el valor observado, dado que la
    hipótesis nula es verdadera.
    Si el valor p es menor que el nivel de significancia, H0 se
    rechaza.
    Si el valor p es mayor que el nivel de significancia, H0 no se
    rechaza

    UNIDAD V ANÁLISIS DE
    REGRESIÓN

    5.1 CONCEPTOS BÁSICOS DE SERIES DE
    TIEMPO

    Se llama Series de
    Tiempo a un conjunto de mediciones de cierto fenómeno
    o experimento registrado secuencialmente en el tiempo. El primer
    paso para analizar una serie de tiempo es graficarla, esto
    permite: identificar la tendencia, la estacionalidad, las
    variaciones irregulares (componente aleatoria). Un modelo
    clásico para una serie de tiempo, puede ser expresada como
    suma o producto de tres componentes: tendencia, estacional y un
    término de error aleatorio.

    En adelante se estudiará como construir un modelo
    para explicar la estructura y
    prever la evolución de una variable que observamos a
    lo largo del tiempo.

    5.2 METODO DE MINIMOS CUADRADOS

    Modelo de minimos cuadrados ordinarios

    El análisis de regresión trata de la
    dependencia de las variables explicativas, con el objeto de
    estimar y/o predecir la media o valor promedio poblacional de la
    variable dependiente en términos de los valores conocidos
    o fijos de las variables explicativas.

    Se trata de encontrar una método para hallar una
    recta que se ajuste de una manera adecuada a la nube de puntos
    definida por todos los pares de valores muestrales
    (Xi,Yi).

    Este método de estimación se fundamenta en
    una serie de supuestos, los que hacen posible que los

    estimadores poblacionales que se obtienen a partir de
    una muestra, adquieran propiedades que permitan señalar
    que los estimadores obtenidos sean los mejores.

    Pues bien, el método de los mínimos
    cuadrados ordinarios consiste en hacer mínima la suma de
    los cuadrados residuales, es decir lo que tenemos que hacer es
    hallar los estimadores que hagan que esta suma sea lo más
    pequeña posible.

    Los supuestos del método MCO son los que se
    presentan a continuación:

    Supuesto 1

    El modelo de regresión es lineal en los
    parámetros:

    Yi = _ + _*Xi +_i

    La linealidad de los parámetros se refiere a que
    los _´s son elevados solamente a la primera potencia.

    Supuesto 2

    Los valores que toma el regresor X son considerados
    fijos en muestreo repetido. Esto quiere decir que la variable X
    se considera no estocástica. Este supuesto implica que el
    análisis de regresión es un análisis
    condicionado a los valores dados del (los) regresores.

    Supuesto 3

    Dado el valor de X, el valor esperado del término
    aleatorio de perturbación _i es cero.

    E ( _i/Xi ) = 0

    Cada población de Y corresponde a un X dado,
    está distribuida alrededor de los valores de su media con
    algunos valores de Y por encima y otros por debajo de
    ésta. Las distancias por encima y por debajo de los
    valores medios son los errores, y la ecuación antes
    señalada requiere que en promedio estos valores sean
    cero.

    Supuesto 4

    Homoscedasticidad. Dado el valor de X, la varianza de _i
    es la misma para todas las observaciones.

    Var (_i/Xi ) = E (_i − E(_i)/
    Xi)2

    = E (_i2/Xi )

    = _

    Esta ecuación señala que la varianza de
    las perturbaciones para cada Xi es algún número
    positivo igual a _. Homoscedastidad significa igual
    dispersión, en otras palabras significa que las
    poblaciones Y correspondientes a diversos valores de X tienen la
    misma varianza. Por el contrario, se dice que existe
    heteroscedasticidad cuando la varianza poblacional, ya no es la
    misma en cada muestra. El supuesto de homoscedasticidad
    está indicando que todos los valores de Y correspondientes
    a diversos valores de X son igualmente importantes.

    Supuesto 5

    Dados dos valores cualquiera de X, Xi y Xj ( i " j ), la
    correlación entre _i y _j cualquiera ( i " j ) es
    cero.

    Cov ( _i, _j / Xi, Xj ) = E (_i − E(_i)/ Xi)
    (_j − E (_j/Xj ))

    = E (_i/Xi ) (_j/Xj )

    = 0

    Este supuesto indica que las perturbaciones no
    están correlacionadas. Esto significa que los errores no
    siguen patrones sistemáticos. La implicancia del no
    cumplimiento de este supuesto (existencia de
    autocorrelación) implicaría que Yt no depende tan
    sólo de Xt sino también de _t−1, puesto que
    _t−1 determina en cierta forma a _t.

    Supuesto 6

    La covarianza entre _i y Xi es cero,
    formalmente:

    Cov (_i/Xi ) = E (_i − E(_i)) (Xi −
    E(Xi))

    = E (_i (Xi − E(Xi)))

    = E (_i Xi − E(Xi) E(_i))

    = E (_i Xi)

    = 0

    Este supuesto indica que la variable X y las
    perturbaciones no están correlacionadas. Si X y _
    estuvieran relacionadas, no podrían realizarse inferencias
    sobre el comportamiento de la variable endógena ante
    cambios en las variables explicativas.

    Supuesto 7

    El número de observaciones debe ser mayor que el
    número de parámetros a estimar.

    Supuesto 8

    Debe existir variabilidad en los valores de X. No todos
    los valores de una muestra dada deben ser

    iguales.Técnicamente la varianza de X debe ser un
    número finito positivo. Si todos los valores de X son
    idénticos entonces se hace imposible la estimación
    de los parámetros.

    Supuesto 9

    El modelo de regresión debe ser correctamente
    especificado, esto indica que no existe ningún en el
    modelo a estimar. La especificación incorrecta o la
    omisión de variables importantes, harán muy
    cuestionable la validez de la interpretación de la regresión
    estimada.

    Supuesto 10

    No hay relaciones perfectamente lineales entre las
    variables explicativas. No existe multicolinealidad perfecta.
    Aunque todas las variables económicas muestran
    algún grado de relación entre sí, ello no
    produce excesivas dificultades, excepto cuando se llega a una
    situación de dependencia total, que es lo que se
    excluyó al afirmar que las variables explicativas son
    �inealmente dependientes.

    BIBLIOGRAFÍA

    http://www.monografias.com/trabajos15/estadistica/estadistica#MEDICION

    http://www.aulafacil.com/CursoEstadistica/Lecc-3-est.htm

    Carpeta Estadística. Aprenda Fácil. Grupo
    Patria Cultural.

    http://www.gestiopolis.com/recursos/experto/catsexp/pagans/eco/44/distrinormal.htm

    http://server2.southlink.com.ar/vap/MEDIDAS.htm


    http://pdf.rincondelvago.com/metodo-de-minimos-cuadrados-ordinarios.html

     

    LUZ CAROLINA ROMERO TURRUBIATES

    TAMPICO TAMPS. NOVIEMBRE 2005

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter