Monografias.com > Matemáticas
Descargar Imprimir Comentar Ver trabajos relacionados

Análisis de varianza




Enviado por omary2k



    Indice
    1.
    Introducción

    2. Bases del análisis de la
    varianza

    3. Modelos de análisis de la
    varianza

    4. Contrates de hipótesis en un
    análisis de la varianza de dos factores

    5. Bibliografía

    1.
    Introducción

    El análisis de la varianza (o Anova: Analysis
    of variance) es un método
    para comparar dos o más medias, que es necesario porque
    cuando se quiere comparar más de dos medias es incorrecto
    utilizar repetidamente el contraste basado en la t de Student.
    por dos motivos:

    En primer lugar, y como se realizarían
    simultánea e independientemente varios contrastes de
    hipótesis, la probabilidad de
    encontrar alguno significativo por azar aumentaría. En
    cada contraste se rechaza la H0 si la t supera el
    nivel crítico, para lo que, en la hipótesis nula,
    hay una probabilidad
    . Si se realizan m contrastes independientes, la
    probabilidad de que, en la hipótesis nula, ningún
    estadístico supere el valor
    crítico es (1 – )m, por lo tanto, la
    probabilidad de que alguno lo supere es 1 – (1 –
    )m, que para valores de
     próximos a 0 es aproximadamente igual a
    m. Una primera solución, denominada método de
    Bonferroni, consiste en bajar el valor de
    , usando en su lugar /m, aunque resulta un
    método muy conservador.

    Por otro lado, en cada comparación la
    hipótesis nula es
    que las dos muestras provienen de la misma población, por lo tanto, cuando se hayan
    realizado todas las comparaciones, la hipótesis nula es
    que todas las muestras provienen de la misma población y, sin embargo, para cada
    comparación, la estimación de la varianza necesaria
    para el contraste es distinta, pues se ha hecho en base a
    muestras distintas.

    El método que resuelve ambos problemas es
    el anova, aunque es algo más que esto: es un método
    que permite comparar varias medias en diversas situaciones; muy
    ligado, por tanto, al diseño
    de experimentos y,
    de alguna manera, es la base del análisis multivariante.

    2. Bases del
    análisis de la varianza

    Supónganse k muestras aleatorias independientes,
    de tamaño n, extraídas de una única
    población normal. A partir de ellas existen dos maneras
    independientes de estimar la varianza de la población
    2:

    1) Una llamada varianza dentro de los grupos (ya que
    sólo contribuye a ella la varianza dentro de las
    muestras), o varianza de error, o cuadrados medios del
    error, y habitualmente representada por MSE (Mean Square Error) o
    MSW (Mean Square Within) que se calcula como la media de las k
    varianzas muestrales (cada varianza muestral es un estimador
    centrado de2 y la media de k
    estimadores centrados es también un estimador centrado y
    más eficiente que todos ellos). MSE es un cociente: al
    numerador se le llama suma de cuadrados del error y se representa
    por SSE y al denominador grados de libertad por
    ser los términos independientes de la suma de
    cuadrados.

    2) Otra llamada varianza entre grupos
    (sólo contribuye a ella la varianza entre las distintas
    muestras), o varianza de los tratamientos, o cuadrados medios de los
    tratamientos y representada por MSA o MSB (Mean Square Between).
    Se calcula a partir de la varianza de las medias muestrales y es
    también un cociente; al numerador se le llama suma de
    cuadrados de los tratamientos (se le representa por SSA) y al
    denominador (k-1) grados de libertad.

    MSA y MSE, estiman la varianza poblacional en la
    hipótesis de que las k muestras provengan de la misma
    población. La distribución muestral del cociente de dos
    estimaciones independientes de la varianza de una
    población normal es una F con los grados de libertad
    correspondientes al numerador y denominador respectivamente, por
    lo tanto se puede contrastar dicha hipótesis usando esa
    distribución.

    Si en base a este contraste se rechaza la
    hipótesis de que MSE y MSA estimen la misma varianza, se
    puede rechazar la hipótesis de que las k medias provengan
    de una misma población.
    Aceptando que las muestras provengan de poblaciones con la misma
    varianza, este rechazo implica que las medias poblacionales son
    distintas, de modo que con un único contraste se contrasta
    la igualdad de k
    medias.
    Existe una tercera manera de estimar la varianza de la
    población, aunque no es independiente de las anteriores.
    Si se consideran las kn observaciones como una única
    muestra, su
    varianza muestral también es un estimador centrado
    de s
    2:
    Se suele representar por MST, se le denomina varianza total o
    cuadrados medios totales, es también un cociente y al
    numerador se le llama suma de cuadrados total y se representa por
    SST, y el denominador (kn -1) grados de libertad.

    Los resultados de un anova se suelen representar en una
    tabla como la siguiente:

    Fuente de variación

    G.L.

    SS

    MS

    F

    Entre grupos
    Tratamientos

    k-1

    SSA

    SSA/(k-1)

    MSA/MSE

    Dentro
    Error

    (n-1)k

    SSE

    SSE/k(n-1)

     

    Total

    kn-1

    SST

     

     

    Y el cociente F se usa para realizar el contraste de la
    hipótesis de medias iguales. La región
    crítica para dicho contraste es F >
    F(k-1,(n-1)k)

    Algunas propiedades

    Es fácil ver en la tabla anterior que

    GLerror+ GLtrata = (n – 1) k + k –
    1 = nk – k + k – 1 = nk – 1 = GLtotal

    No es tan inmediato, pero las sumas de cuadrados cumplen
    la misma propiedad,
    llamada identidad o
    propiedad
    aditiva de la suma de cuadrados:

    SST = SSA + SSE

    El análisis de la varianza se puede realizar con
    tamaños muestrales iguales o distintos, sin embargo es
    recomendable iguales tamaños por dos motivos:

    La F es insensible a pequeñas variaciones en la
    asunción de igual varianza, si el tamaño es
    igual.

    Igual tamaño minimiza la probabilidad de error
    tipo II.

    3. Modelos de
    análisis de la varianza

    El anova permite distinguir dos modelos para
    la hipótesis alternativa:
    Modelo I o de
    efectos fijos en el que la H1 supone que las k
    muestras son muestras de k poblaciones distintas y fijas.
    Modelo II o de
    efectos aleatorios en el que se supone que las k muestras, se han
    seleccionado aleatoriamente de un conjunto de m>k
    poblaciones.
    Un ejemplo de modelo I de anova es que se asume que existen cinco
    poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas,
    de las que se han extraído las muestras.
    Un ejemplo de modelo II sería: un investigador está
    interesado en determinar el contenido, y sus variaciones, de
    grasas en las células
    hepáticas de cobayas; toma del animalario 5 cobayas al
    azar y les realiza, a cada una, 3 biopsias
    hepáticas.

    La manera más sencilla de distinguir entre ambos
    modelos es pensar que, si se repitiera el estudio un tiempo
    después, en un modelo I las muestras serían iguales
    (no los individuos que las forman) es decir
    corresponderían a la misma situación, mientras que
    en un modelo II las muestras serían distintas.
    Aunque las asunciones iniciales y los propósitos de ambos
    modelos son diferentes, los cálculos y las pruebas de
    significación son los mismos y sólo difieren en la
    interpretación y en algunas pruebas de
    hipótesis suplementarias.

    Análisis de la varianza de dos factores
    Es un diseño
    de anova que permite estudiar simultáneamente los efectos
    de dos fuentes de
    variación.
    En cualquier caso, el investigador puede estar interesado en
    estudiar si hay, o no, diferencia en la evolución según el sexo. En un
    anova de dos vías se clasifica a los individuos de acuerdo
    a dos factores (o vías) para estudiar
    simultáneamente sus efectos. En este ejemplo se
    harían cinco grupos de tratamiento para los hombres y
    otros cinco para las mujeres, en total diez grupos; en general,
    si el primer factor tiene a niveles y el segundo tiene b, se
    tendrán ab muestras o unidades experimentales, cada una
    con n individuos o repeticiones.

    Una observación individual se representa
    como:
    El primer subíndice indica el nivel del primer factor, el
    segundo el nivel del segundo factor y el tercero la observación dentro de la muestra. Los
    factores pueden ser ambos de efectos fijos (se habla entonces de
    modelo I), de efectos aleatorios (modelo II) o uno de efectos
    fijos y el otro de efectos aleatorios (modelo mixto). El modelo
    matemático de este análisis es:

    modelo
    I

    modelo
    II

    modelo
    mixto

    donde m
    es la media global, a i o Ai el efecto del
    nivel i del 11 factor, j o Bj el
    efecto del nivel j del 2º factor y ijk
    las desviaciones aleatorias alrededor de las medias, que
    también se asume que están normalmente
    distribuidas, son independientes y tienen media 0 y
    varianza s
    2.
    A las condiciones de muestreo
    aleatorio, normalidad e independencia,
    este modelo añade la de aditividad de los efectos de los
    factores.
    A los términos (a b
    )ij, (AB)ij, (a B)ij, se les denomina
    interacción entre ambos factores y representan el hecho de
    que el efecto de un determinado nivel de un factor sea diferente
    para cada nivel del otro factor.

    Para entender mejor este concepto de
    interacción veamos un ejemplo sencillo sobre un anova de
    dos factores, cada uno con dos niveles: supóngase un
    estudio para analizar el efecto de un somnífero teniendo
    en cuenta el sexo de los
    sujetos. Se eligen al azar dos grupos de hombres y otros dos de
    mujeres. A un grupo de
    hombres y otro de mujeres se les suministra un placebo y a los
    otros grupos el somnífero. Se mide el efecto por el
    tiempo que los
    sujetos tardan en dormirse desde el suministro de la
    píldora.

    Se trata de un anova de dos factores (sexo y
    fármaco) fijos, cada uno con dos niveles (hombre y
    mujer para el
    sexo y somnífero y placebo para el fármaco). Los
    dos tipos de resultados posibles se esquematizan en la
    figura

    A B

    En la figura A se observa que las mujeres tardan
    más en dormirse, tanto en el grupo tratado
    como en el grupo placebo (hay un efecto del sexo) y que los
    tratados con
    placebo tardan más en dormirse que los tratados con
    somnífero en ambos sexos (hay un efecto del tratamiento).
    Ambos efectos son fácilmente observables.

    Sin embargo en la figura B es difícil cuantificar
    el efecto del somnífero pues es distinto en ambos sexos y,
    simétricamente, es difícil cuantificar el efecto
    del sexo pues es distinto en ambos grupos de tratamiento. En este
    caso, se dice que existe interacción.

    Podría, incluso, darse el caso de que se
    invirtieran los efectos de un factor para los distintos niveles
    del otro, es decir, que las mujeres se durmieran antes con el
    somnífero y los hombres antes con el placebo.

    La interacción indica, por tanto, que los efectos
    de ambos factores no son aditivos: cuando se dan juntos, su
    efecto no es la suma de los efectos que tienen cuando
    están por separado, por lo que, si en un determinado
    estudio se encuentra interacción entre dos factores, no
    tiene sentido estimar los efectos de los factores por separado. A
    la interacción positiva, es decir, cuando el efecto de los
    factores actuando juntos es mayor que la suma de efectos actuando
    por separado, en Biología se le
    denomina sinergia o
    potenciación y a la interacción negativa
    inhibición. En el ejemplo de la figura B, se diría
    que el ser mujer inhibe el
    efecto del somnífero, o que el ser hombre lo
    potencia
    (según el sexo que se tome como referencia).

    4. Contrates de
    hipótesis en un análisis de la varianza de dos
    factores

    Del mismo modo que se hizo en el anova de una
    vía, para plantear los contrastes de hipótesis
    habrá que calcular los valores
    esperados de los distintos cuadrados medios. Los resultados
    son:

    Modelo I

    MS

    Valor esperado

    MSA

    MSB

    MSAB

    MSE

    Por lo tanto, los estadísticos MSAB/MSE, MSA/MSE
    y MSB/MSE se distribuyen como una F con los grados de libertad
    correspondientes y permiten contrastar, respectivamente, las
    hipótesis:

    no existe interacción (MSAB/MSE)

    no existe efecto del primer factor, es decir,
    diferencias entre niveles del primer factor (MSA/MSE)

    no existe efecto del segundo factor (MSB/MSE)

     

    Si se rechaza la primera hipótesis de no
    interacción, no tiene sentido contrastar las siguientes.
    En este caso lo que está indicado es realizar un
    análisis de una vía entre las ab combinaciones de
    tratamientos para encontrar la mejor combinación de los
    mismos.

    5.
    Bibliografía

    V. Abraira, A. Pérez de Vargas
    Métodos
    Multivariantes en Bioestadística.
    Ed. Centro de Estudios Ramón
    Areces. 1996.

    Trabajo enviado por.
    Martínez Padilla Omar

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter