Monografias.com > Agricultura y Ganadería
Descargar Imprimir Comentar Ver trabajos relacionados

La estadística del agropecuario. 10 preguntas 10 respuestas




Enviado por ileanam



    1. ¿Qué
      tamaño de muestra tomar?
    2. ¿Qué ocurre cuando
      se violan los supuestos del ANOVA?
    3. ¿Cuál es la
      comparación múltiple más
      conveniente?
    4. ¿Cuándo debo
      usar un ANOVA y cuando una prueba T?
    5. ¿Qué
      diferencias hay entre usar el test de Wilcoxon o el de Kruskall
      – Wallis?
    6. ¿Cómo se
      expresan los resultados del ANOVA?
    7. ¿Cómo se calcula
      la LD 50?
    8. ¿El análisis de
      las encuestas lleva alguna prueba
      estadística?
    9. ¿El
      Análisis de Componentes Principales se puede usar para
      formar grupos?
    10. ¿Cuándo
      realizo un análisis de Cluster por donde hago el corte
      del dendograma?
    11. Referencia

    Al Lector:

    Estas páginas no pretenden mostrar como realizar
    una u otra prueba estadística, esto aparece en los
    libros de
    texto. Solo,
    se quiere reflejar algunas de las interrogantes que tiene el
    investigador a la hora de presentar sus resultados.

    Dedicamos estas páginas a dar respuesta a 10 de
    esas interrogantes y esperamos que el investigador encuentre en
    ellas la sugerencia que buscaba. Las respuestas han surgido a
    partir de la experiencia en las matemáticas aplicadas a la rama de la
    salud animal y la
    protección vegetal, por ello hemos denominado a estas
    páginas La Estadística del Agropecuario.
    Quisiéramos añadir que solo encontrará en
    ella 10 preguntas y mis respuestas, sirvan estas para que inicie
    una investigación en aquellas que sean de su
    interés.

    Por otra parte, si usted es de los que considera que no
    todos los resultados deben ser acompañados de una prueba
    estadística, le diré que está usted en lo
    cierto. Pero, cerciore que efectivamente no es necesario aplicar
    estadística. La manera más sencilla de explicar la
    importancia de hacer un test es a
    través de este ejemplo basado en problemática
    planteadas a una muestra formada
    por un conjunto de sillas seleccionadas al azar de una población X.

    Digamos que se quiere demostrar que Las sillas son
    rojas: Solo bastará con mostrar una foto de las
    sillas, todos verán que son rojas y una prueba
    estadística estaría de más. Ahora bien, si
    además quiere probar que las sillas son
    rojas…

    • De intenso a Marrón: De un intervalo de
      confianza en que se mueve la muestra
    • Como el melón: Compare con una muestra
      control
      (silla color
      melón)
    • Y no son amarillas: Compare con una muestra de sillas
      amarillas
    • Y más que otras sillas: Compare con otra u
      otras muestras de sillas rojas procedentes de otra
      población.
    • Antes eran azules: Compare antes con
      después
    • Con mayor probabilidad:
      Calcule la probabilidad de que la silla sea de otro color y
      pruebe que es mínima.
    • En la mayoría de sus partes: Calcule la
      porción de silla que no es roja y pruebe que es
      mínima.
    • Y esta otra silla que también es roja tiene
      una mancha amarilla. No haga estadística muestre las dos
      sillas, usted ha probado que una de las sillas no es roja, sino
      que tiene una mancha amarilla. Y aun así creo que
      sería muy ilustrativo si agrupa las sillas de su muestra
      y la de la mancha pertenece a otro grupo.

    Si logre convencerlo que es necesaria la
    estadística, esperamos que también, las 10
    interrogantes y respuestas sean de su utilidad. Le
    agradezco de antemano su elección y le pido me haga llegar
    aquellas interrogantes que por una razón u otra no
    están en este folleto.

    La autora

    ¿QUÉ
    TAMAÑO DE MUESTRA TOMAR?

    Hemos querido dedicar un epígrafe a una pregunta
    indispensable en toda investigación. Esta pregunta es:
    ¿Qué tamaño de muestra tomar? o lo que es lo
    mismo, ¿Qué tamaño de muestra se necesita
    para…?.

    Lo más importante de esta interrogante es tener
    bien claro el objetivo que
    se persigue, y una idea más o menos precisa de la
    dispersión de los datos. Las
    fórmulas para el cálculo
    del tamaño de muestra están descritas en la
    literatura de
    forma dispersa, por ello, se muestran a continuación para
    facilitarle el trabajo al
    investigador.

    Estimar una proporción

    Supongamos que se desea conocer con que probabilidad
    ocurre determinado fenómeno. Por ejemplo, se desea conocer
    que cantidad de pollos habría que pesar para determinar
    que más del 90% aumenta de peso al ingerir una determinada
    dieta (Hipótesis nula H0: P=0.90 y
    Hipótesis
    alternativa H1: P>0.90), en este o en casos
    similares, para calcular el tamaño de muestra
    mínimo, se emplea la fórmula:

    Donde

    • Z1-a es el percentil 1- a de la distribución normal para un nivel
      a de
      significación, según la tabla de
      percentiles:

    P

    0.90

    0.95

    0.975

    0.99

    0.995

    0.999

    0.9995

    Zp

    1.282

    1.645

    1.96

    2.326

    2.576

    3.090

    3.291

    • P. Es la proporción esperada (0.90 en el
      ejemplo)
    • d Es el error máximo permisible, esto es la
      cantidad mínima que aceptamos que el valor real
      se aleje del esperado sin resultar un error
      significativo.

    En lo adelante, Z1-k P y d tienen igual
    significado al definido anteriormente.

    Comparar dos proporciones

    Cuando en lugar de estimar una proporción se
    comparan dos proporciones

    (H0: P1=P2 y
    H1: P1¹ P2), se emplea la
    fórmula:

    Siendo a
    el error de primer tipo (rechazar H0 siendo
    verdadera) también conocido como nivel de
    significación y b el error de segundo tipo (aceptar
    H0 siendo falsa).

    Cuando las proporciones a comparar son pequeñas
    (del orden 10-3 o inferiores), se emplea la
    fórmula:

    Estimar una media

    La fórmula más empleada es la que se
    utiliza para estimar la media de una población con
    varianza S2 y un error máximo permisible
    d:

    Comparación de la media con un
    valor

    Si nuestro objetivo es probar la hipótesis Ho
    µ=µ0 se empleará la
    fórmula:

    Comparar dos medias

    Esto, puede extenderse a la prueba H0 :
    µ1=µ2

    Comparar medias provenientes de a
    grupos

    Si nuestro objetivo es comparar las medias de a grupos, se
    empleará la fórmula:

    S2 varianza

    d Error máximo permisible

    a Nivel de
    significación

    • 2(1-P) Probabilidad de una diferencia sea
      encontrada

    significativa.

    y
    valores de la
    tabla T de students.

    n0 n inicial conocida.

    Realizar un análisis de regresión

    Para realizar un análisis de regresión en
    el cual se quiere que la correlación sea elevada, se debe
    tomar una n tal que:

    r. coeficiente de correlación
    estimado.

    ¿QUÉ
    OCURRE CUANDO SE VIOLAN LOS SUPUESTOS DEL ANOVA?

    En este acápite, no se ejemplifica como realizar
    e interpretar un análisis de varianza (ANOVA), pues esto
    aparece en los libros de texto. Sin embargo, es conveniente
    señalar que el ANOVA, a pesar de su nombre es una
    técnica que permite la comparación de medias de una
    característica en varias poblaciones. A esta
    característica, la denominamos variable dependiente o
    respuesta, porque depende de uno o varios factores, cada uno de
    ellos con varios niveles.

    El ANOVA permitirá, en base a la respuesta
    obtenida en un experimento, decidir si los factores y sus niveles
    influyen o no en las medias de las poblaciones y en caso de que
    influyan permitirá estimar el efecto de las
    mismas.

    Así por ejemplo, si se desea conocer si tres
    variedades de caña tienen igual rendimiento
    agrícola o si alguna de ellas es superior a las restantes,
    se realizará un ANOVA donde, la variable respuesta es el
    rendimiento y el factor es la variedad. Si además de
    evaluarse el rendimiento, se quiere probar el efecto que producen
    diferentes dosis de un determinado fertilizante, tendremos dos
    factores dosis y variedad. Si se quiere, se puede incluir la
    interacción de estos factores en el
    análisis. Los modelos
    matemáticos simple, doble y factorial que describen estos
    análisis serán descritos en otras de las
    interrogantes que responderemos posteriormente.

    Ahora, nos ocupa ¿Qué ocurre si violamos
    los supuestos del ANOVA?, entendiendo por supuestos aquellas
    leyes cuyo
    cumplimiento es necesario para realizar un análisis
    estadístico. Al igual que la afirmación de que la
    suma de cuadrados de los catetos es igual al cuadrado de la
    hipotenusa es valida solamente si el triángulo es
    rectángulo, el ANOVA será valido solamente si las
    poblaciones cumplen los supuestos establecidos y que
    son:

    Normalidad: La variable respuesta sigue una
    distribución normal.

    Esto se comprueba mediante la prueba de bondad de ajuste
    de Kolmogorov –smirnov, o la prueba de bondad de ajuste Chi
    –cuadrado, no se debe confundir este test con la prueba chi
    – cuadrado de independencia.

    Si estas prueban aseguran la no normalidad de los datos,
    esto puede remediarse llevando los datos a otra escala, o lo que
    es lo mismo, usando transformaciones como logaritmo, arcseno,
    raíz cuadrada, etc. en dependencia de la naturaleza de
    los datos. Si ninguna de las transformaciones usuales logra la
    normalidad debemos tener en cuenta, que es conocido que si el
    tamaño de muestra es grande, la hipótesis de
    normalidad pierde importancia.

    Por otra parte, la mayoría de las pruebas de
    distribución libre ("no paramétricas") no requieren
    de este supuesto de normalidad en los datos. En su lugar, estas
    pruebas casi siempre suponen que todos los grupos a comparar
    tienen la misma distribución (no necesariamente la
    normal).

    Homosedasticidad u homogeneidad de varianzas:
    Las varianzas de los grupos a comparar no deben diferir
    significativamente una de otra.

    Este es el supuesto más importante, incluso los
    test no paramétrico exigen su cumplimiento. Sin embargo,
    pequeñas desviaciones de homogeneidad de varianza
    tampoco afectarán los resultados.

    Existen diferentes métodos
    para comprobar si existe o no homogeneidad de varianza. Dado que
    los manuales de los
    paquetes estadísticos convencionales no se detienen en la
    explicación de los mismo, daremos una sencilla
    explicación de los más fáciles de
    aplicar:

    Método Visual. Si hay varios grupos (>
    3) se puede observar si existe heterogeneidad de varianza
    si existe una correlación (positiva) entre la media y
    la varianza
    .

    Para ver el gráfico seleccione la
    opción "Descargar" del menú superior

    Puesto que el supuesto es que todos los grupos tiene
    igual varianzas, independientemente de las diferencias entre las
    medias, entonces al graficar las medias contra las varianzas de
    cada grupo no debe haber ninguna correlación (la
    línea entre los puntos debe ser plana).

    Prueba F de Homogeneidad de Varianzas. Esta
    prueba estadística se usa para someter a prueba la
    hipótesis:
    Ho: s 12 =
    s
    22 = s 32

    a. Encontrar la varianza
    más grande y la más chica de todos los grupos a
    comparar

    b. Calcular la razón de estas varianzas:
    Esta es la Fmax

    c. Elegir un error (a ) aceptable de cometer errores (Tipo
    I), normalmente 0.05

    d. El test supone que todos los grupos a
    comparar son del mismo tamaño. Si los grupos son
    distintos, usar el grupo con menor tamaño muestral (n)
    para calcular los grados de libertad
    (aunque este no sea el con menor o mayor varianza).

    e. Mirar en la tabla de
    distribución acumulada de Fmax
    los valores
    de probabilidad con a número de grupos y n-1
    grados de libertad (tamaño muestral más chico).
    Estos valores han
    sido calculados bajo el supuesto que las varianzas son
    homogéneas.

    f. Si Fmax observado mayor que el de la
    tabla a un a =
    0.05, entonces rechazamos la hipótesis nula que las
    varianzas son homogéneas ( existe heterogeneidad de
    varianzas)

    Existen otras pruebas estadísticas para verificar si las
    varianzas son o no homogéneas, estas son Test de Bartlett
    (no muy recomendable pues es muy sensitiva a normalidad) y el
    Test C de Cocrhan.

    Algunas transformaciones usadas para lograr normalidad
    logran también homogeneidad en las varianzas. Por ello, se
    recomienda que si los datos primarios no cumplen ninguno de los
    dos supuestos, se utilice una transformación y se trate de
    asegurar, en primer lugar homosedasticidad. De hecho, la
    principal razón para transformar los datos es para mejorar
    la homogeneidad de las varianzas y no para resolver el problema
    de normalidad, ya que este último es un problema menor en
    ANOVA.

    Cuando la igual de varianza deseada, no se logra con
    transformaciones, recuerde entonces que aunque la prueba T exige
    normalidad tiene dos variantes, una para varianzas
    homogéneas y otra para varianzas
    heterogéneas.

    Independencia: Los grupos a comparar con
    independientes en cuanto a la variable respuesta que se
    analiza.

    A diferencia de los otros dos supuestos, este no es una
    característica de la población, no depende de esta
    sino, de la forma en que se tome la muestra, pudiendo ser
    garantizado por el investigador. Recuerde también que la
    prueba T no pareada es una alternativa para comparar medias de
    grupos dependientes.

    Vimos las alternativas al incumplimiento de supuestos en
    el ANOVA, pero

    ¿Por qué usar estas variantes?
    ¿Qué ocurre cuando se violan los supuestos?. El
    lector, debe tener presente que las decisiones
    estadísticas., son decisiones probabilísticas y por
    tanto, lo más importante no es tomar una decisión,
    sino además, conocer la probabilidad de equivocarse al
    tomar dicha decisión. Violar los supuestos del ANOVA
    significa que no podemos estar seguros que el
    Error Tipo I sea realmente
    a .

    ¿CUÁL
    ES LA COMPARACIÓN MÚLTIPLE MÁS
    CONVENIENTE?

    Cuando un investigador realiza un análisis de
    varianza y resulta que existe diferencia significativa entre los
    tratamientos, es decir, que todos los tratamientos no tienen el
    mismo efecto sobre la variable de interés,
    requerirá conocer cuales de los tratamientos son
    significativamente diferentes. Este resultado se obtiene
    realizando pruebas de comparación múltiple, como
    son:

    • Prueba de la Mínima Diferencia Significativa
      (LSD)

    Muy útil para comparar dos medias aunque en
    ocasiones se utiliza para comparaciones múltiples,
    siempre y cuando la prueba F halla resultado
    significativa.

    • Prueba de Rangos Múltiples de
      DUNCAN

    Para realizar esta prueba no es estrictamente
    necesario realizar previamente la prueba F y que esta resulte
    significativa, aunque es recomendable realizarla a fin de
    evitar contradicciones. En ocasiones esta prueba se utiliza
    después de aplicar un test no paramétrico aunque
    estos test tienen sus propias pruebas de comparación
    múltiple.

    • Prueba de Rangos Múltiples de
      Tukey

    Este procedimiento
    es llamado también << diferencia significativa
    honesta>> porque es una de las pruebas más
    exigentes en el sentido que cuando los valores promedios son
    muy próximos no detecta diferencia significativa. Es
    posible que DUNCAN detecte diferencia significativa entre 12.5
    y 13.1 y que Tukey no la detecte.

    En este sentido las pruebas de comparación
    múltiple se pueden ordenar como sigue:

    LSD DUNCAN Scheffe Tukey

    Sentido en el que disminuye el error de tipo
    I.

    Error de tipo I o error de primera clase: Error
    cometido al rechazar la hipótesis nula cuando la
    hipótesis nula es verdadera.

    • Dunnet

    Es otra prueba de comparación, útil cuando
    el investigador está interesado en conocer que tratamiento
    es diferente del testigo o control, es decir, se desea comparar
    en tratamiento control con cada uno de los tratamientos en
    estudio, sin necesidad de comparar los tratamientos entre
    si.

    De manera general, la conveniencia de uno u otro test
    está dada por el objetivo que se persigue enfocado al
    Error de tipo I.

    ¿CUÁNDO DEBO USAR UN ANOVA Y
    CUANDO UNA PRUEBA T?

    Esta pregunta va dirigida al cumplimiento de los
    supuestos del ANOVA, es decir, ¿Existe algún
    supuestos del ANOVA que no sea un supuesto para la prueba
    T?

    Al igual que el ANOVA, la prueba T exige normalidad de
    los datos. Sin embargo, es posible que con menos de 30 unidades
    muestrales este supuesto se cumpla. De ahí que algunos
    digan que el ANOVA se utiliza a partir de n>30 y que la prueba
    T se puede utilizar con una n inferior aunque mayor que
    15.

    También se debe señalar que existe una
    prueba T para muestras dependientes (pareadas) y otra para
    muestras independientes (no pareadas). De la misma forma existe
    una prueba T para varianzas homogéneas y otra para
    varianzas no homogéneas.

    ¿QUÉ DIFERENCIAS HAY ENTRE USAR
    EL TEST DE WILCOXON O EL DE KRUSKALL –
    WALLIS?

    Los métodos no paramétricos son los
    métodos más desconocidos de la estadística,
    lo más importante para estos y cualquier otro método es
    conocer cuando deben ser aplicados. Estos métodos no
    exigen normalidad de la variable, por tanto pueden ser probados
    con pocos datos e incluso con variables de
    naturaleza no continua.

    Kruskall – Wallis es similar a un análisis
    de varianza, por tanto su objetivo es comparar medias de varios
    grupos y Wilcoxon es similar a la prueba T pareada por ello su
    objetivo es comparar medias de dos grupos
    dependientes.

    Krukall – Wallis solo necesita que la variable
    esté en una escala ordinal, calcula diferencia entre
    grupos a partir de los rangos que toman sus valores en una lista
    ordenada de todos los datos. Por ejemplo si al tener una lista de
    9 valores pertenecientes a 3 grupos diferentes y al ordenarlos
    obtenemos

    Rango 1 2 3 4 5 6 7 8 9

    Grupo A B C B A C C B A

    La suma de rangos de es 15, la de B 14 y la de C 16, por
    lo que los rangos están distribuidos al azar y se concluye
    que no hay diferencia entre los grupos. Por el contrario, si los
    rangos, se distribuyen:

    Rango 1 2 3 4 5 6 7 8 9

    Grupo A A B A B C B C C

    Entonces, Ho es falsa y se concluye que hay diferencia
    entre los grupos.

    ¿Cómo procede Kruskall –
    Wallis?

    Calcula el estadígrafo

    donde:

    N : número total de elementos

    Ri : Rango promedio del grupo i

    ni: número de elementos del grupo
    i.

    Se busca en una tabla el valor crítico
    Hc, si H>Hc rechazo la hipótesis
    nula y por tanto existe diferencia entre los grupos. Para conocer
    entre cual par de grupos está la diferencia se calcula
    para cada par de grupos 1 y 2:

    Si |R1-R2|>CD entonces
    existe diferencia significativa entre 1 y 2.

    Friedman es otro test utilizado para comparar varias
    medias, solo que es utilizado cuando estas medias son del mismo
    grupo. Por ejemplo, se comparan resultados de tres operadores que
    realizan una misma técnica X y luego la técnica
    control. Para comparar los resultados de una técnica y la
    otra empleó Kruskall – Wallis y para comparar los
    operadores dentro de la misma técnica empleó
    Friedman. Todo esto sería similar a un análisis de
    varianza bifactorial.

    ¿Cómo procede el Test de
    Friedman?

    Por ejemplo, si se tienen 6 grupos de 3 elementos cada
    uno, se ordenan los 18 elementos y una vez ordenados, a los 6
    primeros se les da rango 1, a los 6 siguientes se les da rango 2
    y a los últimos 6 rango 3.

    Para ver la tabla seleccione la
    opción "Descargar" del menú superior

    Note que ahora se distribuyeron como 3 nuevos grupos de
    6 elementos. A estos nuevos grupos se les llama niveles, para
    estos nuevos grupos se calcula.

    Se calcula

    donde:

    N es el número de elementos por grupo (en el
    ejemplo 6)

    R Rango de cada grupo

    K número de niveles

    =8.33

    >
    Rechazo Ho,
    existe diferencia entre los grupos.

    La comparación múltiple en este caso
    sería similar al caso de Kruskall – Wallis pero, CD
    se calcula como:

    Por su parte, el test de Wilcoxon también opera
    con los rangos. Pongamos un ejemplo, para comprender su proceder:
    Un fisiólogo animal desea examinar si la tasa del corazón de
    los animales cambia
    en respuesta al decrecimiento de la temperatura.
    El investigador hace dos medidas de proporción del
    corazón para cada grupo: el primero a temperatura "normal"
    y un segundo a temperatura "baja". Los resultados para las
    medidas de proporción de corazón para 10 individuos
    son como sigue:

    Para ver la tabla seleccione la
    opción "Descargar" del menú superior

    Se suman los rangos positivos y negativos R+
    = 48.5 y R- =-6.5

    Se define Ts como el menor valor absoluto de
    la suma de rangos, en este caso Ts= 6.5. Se busca
    Tc de una tabla(Tc= 7 para el ejemplo) si
    Ts<Tc, como en este caso, entonces no
    hay diferencia significativa entre los grupos.

    ¿CÓMO SE EXPRESAN LOS RESULTADOS DEL
    ANOVA?

    Una vez que se realiza cualquier análisis de
    comparación de medias, ya sea paramétrico o no
    paramétrico se expresan los resultados en tablas o
    gráficos. Anteriormente, se debió
    especificar en algún acápite (puede ser materiales y
    métodos) cual fue el método estadístico
    empleado, denotándolo por su nombre completo.

    En este sentido recuerde identificar el objetivo de
    trabajo, el
    diseño
    empleado (completamente al azar, por bloques al azar, cuadrado
    latino etc). En el caso específico del análisis de
    varianza muestre además si es ANOVA simple (un solo
    factor) doble (dos factores si interacción) factorial (dos
    o más factores y su interacción).

    En caso de un Modelo Lineal
    General (GLM) aunque muchos autores exponen si es de efecto fijo,
    efecto aleatorio o efecto mixto, desde los años 80 Fisher
    consideró que esta distinción era absolutamente
    innecesaria. De cualquier forma, hay que insistir en que los
    efectos no andan sueltos en la naturaleza como fijos o
    aleatorios, sino que según uno los considere de una forma
    u otra, serán diferentes las conclusiones a las que se
    arribe.

    Para mayor comprensión de estos términos
    los explicaremos con ejemplos. En el modelo
    Yij=m
    i+eij tenemos el valor
    verdadero m
    i desconocido, y el error eij . Este
    valor verdadero m
    es naturalmente fijo, al ser inmutable en cada
    repetición hipotética del experimento , y el
    que las muestras se desvíen de ese valor se debe,
    indudablemente, a un error aleatorio que cambia en cada
    muestra.

    Si por ejemplo, deseo medir la composición
    química
    del lomo de cerdo y utilizo cinco cerdos en el experimento, y
    tomo de cada cerdo dos muestras. Hay un efecto común en
    las dos muestras de cada cerdo, pero no es fijo, porque se supone
    que si se repite el experimento se toman otros cinco cerdos, el
    efecto cerdo es un efecto aleatorio.

    Por poner otro ejemplo, supongamos que estoy interesado
    en medir el peso de cerdos alimentados con piensos distintos. Al
    provenir los cerdos de la misma madre, hay un efecto común
    a sus pesos debido a la madre. Siempre que se repita el
    experimento y los cerdos provengan de la misma madre, la madre
    será un efecto fijo, pero estos resultados solo son
    validos para esa madre y esos piensos. Si deseo evaluar el efecto
    madre, lo mejor es hacer un ANOVA que evalué ambas
    componentes (pienso y madre). Si las muestras se componen de
    varios cerdos hijos de la misma madre, tenemos un modelo
    mixto.

    Ahora bien, si en cada repetición cambio de
    pienso, el pienso será un efecto aleatorio a elegir al
    azar de los muchos posibles. Entonces, las conclusiones pueden
    darse para todos los piensos. Por ejemplo, tomo cerdos de tres
    camadas, a la camada 1 le suministro un tipo de pienso 1, a la 2
    el tipo 2 y a la 3 el tipo 3, puedo realizar el modelo
    Yijk= Pi+Cj+eijk
    donde P indica el efecto pienso y C el efecto camada.

    Por otra parte, cuando sea necesario transformar los
    datos para lograr el supuesto de normalidad que exige el ANOVA,
    nunca ponga en sus resultados las medias transformadas, ponga la
    originales especificando en materiales y métodos que
    transformación uso. Las transformaciones más usadas
    son:

    Logaritmo Log(y), útil cuando los datos crecen en
    sentido exponencial.

    Raíz cuadrada útil cuando los números observados son
    pequeños 0-10.

    Arcseno(
    cuando los datos son expresados en porciento.

    Veamos ahora como mostrar los resultados. Suponga que se
    ha realizado un experimento para decidir la mejor dosis y el
    mejor tratamiento que produce los mayores rendimientos. Con los
    datos:

    dosis

    tratamiento

    rendimiento

    1

    A

    12.1

    12.3

    12.4

    13

    12.8

    1

    B

    15.1

    15.3

    14.1

    13.9

    13.8

    2

    A

    11.7

    11.8

    12

    11.2

    11.9

    2

    B

    14

    15.1

    14.8

    14.2

    14.1

    Se realiza un ANOVA bifactorial y resulta que la
    interacción dosis * tratamiento es significativa. Los
    resultados pueden ser expresados en tablas o en
    gráficos.

    Por ejemplo:

    El mejor rendimiento promedio se obtiene al aplicar el
    tratamiento B ya sea con una u otra dosis (tabla 1).
    ….<< Obviamente usted debe explicar además
    las implicaciones teóricas a las que esto conduce,
    así como confrontar con lo obtenido por otros autores
    >>.

    Tabla 1. Efecto de la interacción dosis
    tratamiento sobre el rendimiento

    Dosis

    Tratamiento

    Media±Error

    1

    A

    12.52±0.16 b

    1

    B

    14.44±0.31 a

    2

    A

    11.72±0.13 c

    2

    B

    14.44±0.21 a

    Medias con letras diferentes difieren para
    p<0.05

    Note:

    • El texto que refiere a la tabla siempre se coloca
      antes que esta.
    • La tabla no lleva el nombre del text
      estadístico. Elimine de sus publicaciones
      identificaciones como Tabla 1. resultados del ANOVA. Las tablas
      y gráficos siempre se deben identificar con los
      resultados y/o con el objetivo que persiguen.
    • Utilice estadígrafos que
      muestren la dispersión de la muestra. Convenientemente
      se utiliza media± Error Estándar.

    Este resultado también puede ser mostrado en un
    gráfico:

    Para ambas dosis existe una diferencia significativa
    entre los tratamiento, obteniéndose los mejores
    rendimientos con el tratamiento B (figura 1).

    Figura 1. Efecto de la
    interacción dosis tratamiento sobre el
    rendimiento.

    Note que si en lugar de usar los tratamientos como
    leyenda, hubiese usado las dosis, el efecto visual no
    sería el mismo (figura 2). Utilice siempre como leyenda
    aquel factor en el que quiero fijar la atención del lector.

    Para ver el gráfico seleccione la
    opción "Descargar" del menú superior

    Figura 2. Efecto de la interacción dosis
    tratamiento sobre el rendimiento.

    De todo ello, se concluye que usted debe verificar que
    gráfico es el más conveniente y que solo debe optar
    por graficar cuando:

    • Se quiere mostrar proporciones de aumento o
      disminución de fenómenos simultáneos
      (Ejemplo comparar tratamientos)
    • Es necesario exponer variaciones cualitativas o
      cuantitativas de fenómenos en el tiempo o en
      el espacio(ejemplo gráficos de dinámica)
    • La comparación entre eventos no es
      evidente por simple inspección en una tabla.
    • Resulta más importante obtener la idea de la
      variación global o la proporción de
      variación, que la precisión numérica del
      fenómeno.

    ¿CÓMO SE CALCULA LA LD
    50?

    Se ha traído este acápite porque el
    cálculo de la LD50 es una de las aplicaciones de la
    modelación que más se utiliza, sin embargo el
    procedimiento no siempre se hace de la forma adecuada.

    La LD 50 o Dosis Letal media, no es más que la
    dosis individual de una sustancia que provoca la muerte del
    50% de la población animal debido a la exposición
    a la sustancia por cualquier vía distinta a la
    inhalación. Normalmente expresada como miligramos o gramos
    de material por kilogramo de peso del animal. 

    Determinar el valor de LD50 es la manera estándar
    de determinar la toxicidad química y es un concepto que debe
    ser familiar a todos los que usan pesticidas. La dosis mortal
    exacta de cualquier producto
    químico es difícil de determinarse. Pero, es
    imprescindible en muchos casos, ya que incluso los materiales
    benignos como el agua, por
    ejemplo, pueden ser mortales. Hay muchas variables que
    podrían ser responsables de la muerte de
    cualquier animal dentro de un grupo especificado de organismos.
    Así, los científicos han tenido que determinar
    toxicidad relativa. Esto se expresa generalmente como nivel
    LD50.

    El objetivo para calcular LD 50 puede ser demostrar que
    un producto no es toxico (un químico que se utilice como
    plaguicida) o por el contrario que una pequeña dosis es
    capaz de exterminar la población (un raticida)

    Como hacer el cálculo

    Por lo general, se tiene un experimento en el que se
    calculan de un total de animales cuantos mueren (porciento) a
    determinada dosis del producto. Digamos que evaluamos dosis de
    30, 40, 50 y 60 mg de un determinado producto y con las dosis de
    30 y 40 solo muere el 40% de la población, con 50 mg muere
    el 80% y con 60 muere toda la población.

    Entonces, se busca la ecuación de mejor ajuste
    (modelo con mayor coeficiente de determinación
    R2) y por calibración (interpolación o
    despeje de la variable independiente x) se obtiene la LD 50. En
    este ejemplo se obtiene:

    De lo cual debemos buscar dosis (x) para la cual y es
    50. Esto es resolver la ecuación
    50=0.05×2-2.3x+61. Las soluciones de
    esta ecuación son 5.42 y 40.57 aproximadamente. Sabemos
    que la dosis letal media debe estar entre 40 y 60 mg por lo que
    se decide que la LD 50 del producto es de 40.57.

    En los resultados se expone la ecuación y la LD
    50 resultante. Es conveniente, aunque no imprescindible incluir
    el gráfico.

    Explicado de esta forma parece muy sencillo, sin embargo
    este método no es del todo efectivo porque en ocasiones
    las dosis son dadas en potencia de 10,
    lo cual hace que se trabaje con el Logaritmo y no con la dosis
    tal cual. También, se debe señalar que es necesario
    dar un intervalo de confianza para el LD50. De ahí que se
    halla ideado el análisis Probit

    El análisis Probit se basa en la
    cuantificación probabilística de la
    vulnerabilidad ante efectos físicos de una magnitud
    determinada que se suponen conocidos.

    La vulnerabilidad se expresa como el número de
    individuos que, previsiblemente pueden resultar afectados con un
    cierto nivel de daño
    por determinada causa. Muy aplicable al caso que nos ocupa que
    queremos saber cuando esa vulnerabilidad es el 50% de la
    población total.

    Descripción del método
    Probit

    El método permite determinar la proporción
    de población que resultara afectada en un punto dado.
    Consiste en asociar la probabilidad de un daño, con unas
    determinadas unidades Probit. El resultado es una curva de estas
    características:

    Para ver el gráfico seleccione la
    opción "Descargar" del menú superior

    O sea, se debe buscar una relación Y=a+b Ln(x) y
    el procedimiento que le sigue es similar al explicado, buscar la
    x para la cual Y=50.

    Ejemplo:

    Estudio de la toxicidad del clorhidrato de
    cocaína.

    Dosis en mg./Kg)
    por 20gr.

    Número de
    ratones inyectados

    Número de
    muertos

    Porcentaje
    de mortalidad

    0,8

    20

    20

    100

    0,7

    24

    20

    84

    0,6

    30

    24

    77

    0,5

    50

    26

    52

    0,4

    30

    5

    16,4

    0,3

    20

    0

    0

    Se calcula el Logaritmo neperiano (Ln) de la dosis y se
    obtiene una ecuación lineal que relaciona el porcentaje de
    mortalidad con el Ln de la dosis.

    Para ver el gráfico seleccione la
    opción "Descargar" del menú superior

    En este caso la ecuación es
    Y=107.38Ln(dosis)+124.77

    Buscar x tal que 50=107.38Ln(x)+124.77. De lo cual se
    obtiene que LD 50 es 0.498.

    Ahora bien, cuando uno realiza la regresión
    mediante un paquete estadístico, se obtiene el error
    estándar de los coeficientes de la recta por lo cual se
    pueden construir las rectas límites
    inferior y superior y con ellas calcular los intervalos de
    confianza de la LD 50.

    En este caso la recta limite inferior es
    y=99.18Ln(x)+118.78 y la recta limite superior es
    y=115.58Ln(x)+130.76 de ahí que (despejando x) el
    límite inferior de LD sea 0.497 y el superior
    0.501.

    Para mayor comprensión de este acápite
    realice la regresión con los datos de la tabla Estudio de
    la toxicidad del clorhidrato de cocaína y confronte sus
    resultados con los aquí expuestos.

    ¿EL
    ANÁLISIS DE LAS ENCUESTAS
    LLEVA ALGUNA PRUEBA ESTADÍSTICA?

    Tal y como explicamos al inicio, la respuesta a la
    pregunta sobre si un análisis debe estar o no
    acompañado de una prueba estadística, está
    dada por el objetivo que se persigue. Por ello, le mostraremos el
    análisis de una encuesta sin
    incluir e incluyendo pruebas estadísticas.

    Encuesta:

    Objetivo de conocer el uso de Agentes Biológicos
    por parte del campesinado cubano.

    1. Zona que ocupa está en un área Urbana
    __ Periurbana ____

    2. Cantidad de Hectáreas _______

    3. Usa usted controles Biológicos Si ___
    No______

    Se encuestan 100 personas y el conteo resultante
    fue:

    1. Zona que ocupa está en un área Urbana
    _60_ Periurbana _40___

    2. Cantidad de Hectáreas ___10 000 ha
    totales____

    3. Usa usted controles Biológicos Si __90_
    No___10___

    Resultado. El 90% del campesinado utiliza los medios
    biológicos tanto en áreas urbanas como
    periurbanas.

    Otros análisis

    Otro enfoque es realizar respuestas cruzadas y
    analizarlas mediante una prueba Chi- cuadrado de independencia.
    Por ejemplo.

    Zona

    Uso de Controles Biológicos

    Si No

    Total

    Urbana

    52

    8

    60

    Periurbana

    38

    2

    40

    Total

    90

    10

    100

    La prueba da un valor de chi 1.85 con una p=0.1735 lo
    cual indica que no se rechaza la hipótesis de dependencia,
    es decir existe una relación entre la zona y el uso o no
    de controles biológicos. En estos casos se recomienda
    comparar las proporciones de interés, por ejemplo 52/60
    con 38/40. Estas proporciones no difieren
    estadísticamente. De manera que el resultado se puede
    ilustrar de forma grafica, argumentando que tanto en el
    área urbana como en la periurbana se utilizan los
    controles biológicos, siendo despreciable el porciento de
    la población que no lo utiliza.

    Para ver el gráfico seleccione la
    opción "Descargar" del menú superior

    Note que esto es solo un ejemplo y que el tamaño
    de muestra no es representativo. Note también que no se ha
    ofrecido ningún resultado refrente a la cantidad de
    hectáreas. Pudiera ser, que usted estuviera interesado en
    la cantidad de hectáreas por zonas o la cantidad de
    hectáreas que poseen los campesinos que no usan controles
    biológicos, etc. Este sería otro aspecto analizar
    del mismo modo.

    Otra forma de abordar el
    análisis

    Es conveniente, cuando se desea evaluar influencia de
    los distintos factores estudiados (todas o casi todas las
    preguntas) sobre uno en particular, utilizar modelos
    logísticos o análisis discriminante.

    Supongamos que, en el ejemplo anterior, se evalué
    el efecto del área y la cantidad de hectáreas sobre
    el uso o no de biológicos lo correcto es usar un modelo
    logístico donde la variable dependiente es el uso de
    biológicos y las independientes la zona y la cantidad de
    hectáreas, igual para un discriminante.

    La salida de un análisis discriminante
    seria:

    Wilks' Partial F-remove

    Lambda Lambda (1,97) p-level

    ZONA ,999271 ,982197 1,758165 ,187968

    HA ,981482 1,000000 ,000012 ,997294

    Lo cual ratifica que la zona y el número de
    hectáreas no influyen en el uso de controles
    biológicos.

    Como se puede ver el uso del análisis
    estadístico refuerza el análisis de los resultados
    de una encuesta y puede hacer tan sencillo o tan complicado como
    se precise.

    ¿EL ANÁLISIS DE COMPONENTES
    PRINCIPALES SE PUEDE USAR PARA FORMAR GRUPOS?

    El Análisis de Componentes Principales (ACP) es
    un método muy eficaz para el Análisis de datos
    cuantitativos (continuos o discretos) que se presentan bajo la
    forma de cuadros de M observaciones / N variables.
    Permite:

     visualizar y analizar rápidamente las
    correlaciones entre las N variables,

     visualizar y analizar las M observaciones
    inicialmente descritas por N variables en un gráfico de
    dos o tres dimensiones. Y aunque a partir de este resultado
    los investigadores conforman agrupamiento a priori, este no es un
    método aconsejable para formar grupos cuando se tienen
    más de 15 individuos.

     construir un conjunto de P factores no
    correlacionados
    (P<=N) que pueden luego ser reutilizados
    por otros métodos (la regresión por ejemplo).
    Los límites del ACP vienen del hecho que es un
    método de proyección, y que la pérdida de
    información inducida por la
    proyección puede provocar interpretaciones
    erróneas. De ahí que no sea un método por
    excelencia para la formación de grupos. El ACP da una idea
    gráfica pero, la construcción de los grupos no es
    obvia.

    Uriel (1995) menciona que el objetivo del
    análisis de componentes principales es explicar la mayor
    parte de variabilidad total de un conjunto de variables con el
    menor número de componentes posibles. Es decir, que su
    objetivo es reducir el número de variables para poder graficar
    o hacer estudios posteriores.

    Se sabe, que el método de los componentes
    principales se puede ubicar en la estadística
    descriptiva. El ACP, puede ayudar a conocer el número
    de factores necesarios que faciliten el análisis en la
    investigación, un análisis de tipo exploratorio.
    También el ACP ayuda a confirmar si unos factores fijados
    a priori son los más adecuados.

    El método de análisis de componentes
    principales constituye una técnica para analizar las
    asociaciones lineales entre las variables. Cuando no existe
    asociación entre las variables las correlaciones entre
    ellas son nulas y carece de sentido realizar estos tipos de
    análisis.

    Número de Componentes a Retener

    Luego de realizar el ACP, el análisis comienza en
    la decisión de cuantas (m) componentes tomar. El problema
    a resolver es cómo fijar m (m<p), componentes
    principales que expliquen a las p variables observadas. En esta
    sección se presentarán tres criterios para tomar la
    decisión:

    (a) Criterio de la media
    aritmética:

    Escoger aquellas raíces características
    que excedan a la media de todas las raíces
    características.

    (b) Contraste sobre las raíces
    características no retenidas

    Una forma de comprobar si ha escogido el número
    de componentes adecuados, es preguntarnos si las componentes no
    escogidas son significativas o no. Para ello, se analizan sus
    raíces características. El proceso de
    cálculo de las componentes suponía escoger las
    primeras raíces características de modo que
    expliquen la mayor varianza posible. De esta forma, es
    lógico pensar que si las primeras m raíces explican
    un alto porcentaje de la varianza, las restantes p-m,
    raíces tengan un valor pequeño o nulo. Entonces,
    podríamos establecer como hipótesis nula del
    contraste:

    Para ver la fórmula seleccione la
    opción "Descargar" del menú superior

    El estadístico para la prueba es:

    Para ver la fórmula seleccione la
    opción "Descargar" del menú superior

    Este estadístico distribuye chi-cuadrado con
    (p-m+2)(p-m+1)/2 grados de libertad. La forma de operar del test
    es la siguiente, supongamos que se han escogido m componentes, o
    lo que es equivalente m raíces características, si
    se rechaza la hipótesis nula querrá decir que al
    menos una de las raíces no seleccionadas es significativa,
    luego habría que incorporar una nueva componente. El
    proceso sigue hasta que no se rechace la hipótesis
    nula.

    (c) Gráfico de sedimentación.

    Este gráfico presenta en el eje de las ordenadas
    las raíces características y el de abscisas el
    número de componentes en orden decreciente (ver
    Gráfica 1).

    Para ver el gráfico seleccione la
    opción "Descargar" del menú superior

    Lo que se observa en la gráfica se asemeja al
    perfil de una colina con una pendiente fuerte hasta llegar a una
    meseta con una ligera inclinación (base de la colina). El
    criterio es retener todas aquellas componentes previas a la zona
    de sedimentación (antes de llegar a la meseta).

    Luego, con las componentes elegidas voy realizando
    gráficos, perennemente en dos dimensiones, de manera que
    pueda explicar la formación de grupos o distinción
    de un objetivo. Así por ejemplo, si mi objetivo es decidir
    cual de 10 variedades evaluadas es la de mejores
    características puedo, como método descriptivo,
    emplear un ACP y graficar la ubicación que toman las
    variedades en el espacio. Igual que para distinguir individuos
    dentro de especies diferentes etc. Repetimos, la
    conformación de los grupos no es obvia.

    Por ejemplo. Supongamos que 20 aislamientos, de la
    variedad de arroz Perla de Cuba, se
    estudian para distinguir el de mejores resultados
    agronómicos con vista a posteriores cruzamientos y
    garantizar variedades resistentes a Steneotarsonemus
    spinki.
    Se mide peso del grano, número de hijos,
    cantidad de granos llenos, cantidad de granos vanos, cantidad de
    granos manchados, cantidad de vainas manchadas, número de
    S. spinki en las hojas banderas.

    Al realizar el ACP se obtuvo:

    Para ver la tabla seleccione la
    opción "Descargar" del menú superior

    Para decidir cuantas componentes tomar evaluemos los
    diferentes métodos (es valido usar solo uno de
    ellos)

    • Criterio de la media aritmética

    La media aritmética de los valores propios es 1.
    Por lo que se deben seleccionar las tres primeras
    componentes.

    • Contraste sobre las raíces
      características no obtenidas.

    Q=-15.47

    Chi cuadrado para (p-m+2)(p-m+1)/2 grados de libertad
    es c
    2(7-3+2)(7-3+1)/2 es
    c
    215 que según la tabla es 25.
    Por lo cual Q<c
    2 y no puedo rechazar la hipótesis de que
    las restantes raíces no aportan significación al
    resultado y por consiguiente, se toman las tres primeras
    componentes.

    • Gráfico de sedimentación.

    Para ver el gráfico seleccione la
    opción "Descargar" del menú superior

    La zona de sedimentación se inicia en la
    componente 4, tomamos las 3 componentes previas.

    Al tomar 3 componentes obtenemos que:

    Para ver la tabla seleccione la
    opción "Descargar" del menú superior

    Que la primera componente está representada por
    (peso>0.70) las variables peso del grano y número de
    granos llenos, en sentido inverso. En el factor 2 ninguna
    variable tiene un peso superior a las restantes y el factor o
    componente 3 está representado por el número de
    hijos también en sentido inverso. Quiere esto decir
    que lo conveniente es hacer un grafico con las componentes 1 y
    3.

    Para ver el gráfico seleccione la
    opción "Descargar" del menú superior

    Es fácil, ver que el aislamiento 4 es el que
    presenta las características más favorables mayor
    peso, mayor número de granos llenos y mayor número
    de hijos. Además, presentó menor nivel de S.
    spinki
    . Note además que es difícil conformar
    grupos entre el resto de los aislamiento. Por ello, el
    análisis de cluster es el método estadístico
    más efectivo para conformar grupos.

    ¿CUÁNDO REALIZO UN
    ANÁLISIS DE CLUSTER POR DONDE HAGO EL CORTE DEL
    DENDOGRAMA?

    El análisis de
    conglomerados, comúnmente conocido como análisis de
    cluster, consiste en un tipo de técnica que se utiliza
    para clasificar los objetos o casos en grupos relativamente
    homogéneos llamados conglomerados. Los objetos en cada
    grupo tienden a ser similares entre sí y diferentes a los
    objetos en otros grupos. Este análisis se conoce
    también como análisis de clasificación o
    taxonomía numérica.

    En la rama agropecuaria, utilizamos los procedimientos de
    conglomerados que asignan cada objeto a un solo grupo, ejemplo
    clasificación taxonómica. La figura muestra como en
    la realidad las fronteras de algunos de los grupos no
    están definidas con claridad y la clasificación de
    algunos individuos no es obvia porque muchos de ellos
    podrían agruparse en un grupo u otro.

    Para ver la tabla seleccione la
    opción "Descargar" del menú superior

    En el análisis de conglomerados no hay
    información a priori acerca de la participación en
    el grupo de ninguno de los objetos. Los datos sugieren los grupos
    y no se definen previamente.

    Debemos mencionar que la mayor parte de estos
    métodos son procedimientos relativamente sencillos que no
    están respaldados por el razonamiento estadístico.
    La mayor parte de los métodos de agrupación son
    heurísticos, basados en algoritmos. De
    manera que, el análisis de conglomerados presenta un
    fuerte contraste con el análisis de la varianza, la
    regresión, el análisis discriminante y el
    análisis factorial, que se basan en un razonamiento
    estadístico. A pesar de que muchos métodos de
    agrupación tienen propiedades estadísticas
    importantes, es necesario reconocer la sencillez fundamental de
    estos métodos. Los estadísticos y conceptos
    siguientes están relacionados con el análisis de
    conglomerados:

    • Centroide de agrupamiento
      El centroide de agrupamiento son los valores medios de las
      variables para todos los casos u objetos de un grupo
      particular.
    • Centros de agrupamiento
      Son los puntos de partida iniciales en la agrupación no
      jerárquica. Los grupos se construyen alrededor de estos
      centros o semillas.
    • Participación en el grupo
      Indica el grupo al que pertenece cada objeto o
      caso.
    • Dendrograma
      Un dendrograma, o gráfica de árbol, es un
      dispositivo gráfico para presentar los resultados del
      conglomerado. Si el dendograma es horizontal, las líneas
      verticales representan los grupos que están unidos. La
      posición de la línea en la escala indica las
      distancias en las que se unieron los grupos. El dendrograma se
      lee de izquierda a derecha.
    • Distancias entre los centros de los grupos
      Indican cuán separados están los pares
      individuales de grupos. Los grupos muy separados son distintos
      y, por tanto, deseables.
    • Matriz de coeficientes de
      distancia/similitud

      Ésta es una matriz
      triángular inferior que contiene las distancias en
      dirección pareada entre los objetos o
      casos.

    Cómo
    realizar el Análisis de Conglomerados

    El primer paso consiste en formular el problema de
    agrupación al definir las variables en las que se basa
    ésta. Después, debe seleccionarse una medida de
    distancia apropiada. La medida de distancia determina qué
    tan similares o diferentes son los objetos que se agrupan. Se han
    desarrollado varios procedimientos de agrupación y el
    investigador debe seleccionar uno apropiado para el problema que
    se maneja. La decisión del número de
    conglomerados requiere en gran medida del criterio del
    investigador.
    Los conglomerados derivados deben interpretarse
    en términos de las variables utilizadas para formarlos.
    Por último, es preciso que el investigador evalúe
    la validez del proceso de conglomerados.

    Para realizar el análisis de conglomerados es
    necesario seguir los siguientes pasos:

    Para ver el gráfico seleccione la
    opción "Descargar" del menú superior

    Cuando se emplee este método y se desee publicar
    el resultado, debemos recordar que los tres primeros pasos han de
    ser detallados en materiales y métodos y los tres
    restantes en Resultados y Discusión. Por ejemplo,
    los materiales y métodos pueden ser descritos como: Se
    realizó un análisis de conglomerados (Cluster) para
    el cual se empleó la distancia Euclideana como
    medida de similitud. Los grupos se formaron según
    procedimiento del vecino más
    cercano.

    Aunque la pregunta está dirigida a la selección
    del número de conglomerados, dada la importancia que tiene
    el
    conocimiento de esta técnica explicaremos cada uno de
    sus pasos.

    Formulación del Problema

    Quizá la parte más importante de la
    formulación del problema de conglomerados es la
    selección de las variables en las que se basa la
    agrupación. La inclusión de una o más
    variables irrelevantes puede distorsionar una solución de
    agrupación que de otra forma podría ser
    útil. Básicamente, el conjunto de variables
    seleccionado debe describir la similitud entre los objetos en
    términos relevantes para el problema de
    investigación. Las variables deben seleccionarse con base
    en la investigación previa, la teoría
    o una consideración de las hipótesis que se
    prueban. En la investigación exploratoria, el investigador
    debe poner en práctica el criterio y la
    intuición.

    Selección de la Medida de Distancia o
    Similitud

    Ya que el objeto del conglomerado es agrupar objetos
    similares, se necesita alguna medida para evaluar las diferencias
    y similitudes entre objetos. La estrategia
    más común consiste en medir la equivalencia en
    términos de la distancia entre los pares de objetos. Los
    objetos con distancias reducidas entre ellos son más
    parecidos entre sí que aquellos que tienen distancias
    mayores. Existen varias formulas o medidas de similitud para
    calcular las distancias entre dos objetos y se seleccionan de
    acuerdo con el tipo de variables (discretas, continuas o mixtas)
    con las cuales se hará el agrupamiento. Así, para
    las variable binaria es recomendables utilizar métricas
    como la de Jaccard, Nei-Li etc. También, se recomienda
    usar combinación de métricas cuando estamos en
    presencia de variables mixtas (Miranda, 1998)

    Para variables continuas, la medida de similitud que se
    utiliza con mayor frecuencia es la distancia euclidiana o su
    cuadrado. La distancia euclidiana es la raíz cuadrada de
    la suma de las diferencias cuadradas en los valores para cada
    variable. También están disponibles otras medidas
    de distancia. La distancia Manhattan o de Calles Urbanas entre
    dos objetos es la suma de las diferencias absolutas en los
    valores para cada variable. La distancia de Chebychev entre dos
    objetos es la diferencia absoluta máxima en los valores
    para cualquier variable.

    Si las variables se miden en unidades muy diferentes, la
    solución de la agrupación tendrá la
    influencia de las unidades de la medición. En estos casos, antes de agrupar
    a los individuos, debemos estandarizar los datos. Aun cuando la
    estandarización puede eliminar la influencia de la unidad
    de medición, también es probable que reduzca las
    diferencias entre los grupos en las variables que pueden
    discriminar mejor los grupos o conglomerados. Es recomendable
    eliminar los casos con valores atípicos.

    El uso de distintas medidas de distancia puede llevar
    a diversos resultados.
    Por consiguiente, se recomienda
    utilizar medidas diferentes y comparar los resultados.
    Después de seleccionar una medida de distancia o
    similitud, podemos elegir un procedimiento de
    agrupación.

    Selección de un Procedimiento de
    Agrupación

    Los procedimientos de conglomerados pueden ser
    jerárquicos o no. El conglomerado jerárquico se
    caracteriza por el desarrollo de
    una jerarquía o estructura en
    forma de árbol. A su vez, los métodos
    jerárquicos pueden ser:

    • Análisis de Conglomerados por
      Aglomeración:
      El conglomerado por
      aglomeración empieza con cada objeto en un grupo
      separado. Los conglomerados se forman al agrupar los objetos en
      conjuntos
      cada vez más grandes. Este proceso continúa hasta
      que todos los objetos forman parte de un solo
      grupo.
    • Análisis de Conglomerados por
      División:
      El conglomerado por división
      comienza con todos los objetos agrupados en un solo conjunto.
      Los conglomerados se dividen hasta que cada objeto sea un grupo
      independiente.

    Para ver el gráfico seleccione la
    opción "Descargar" del menú superior

    Los métodos de conglomerados se utilizan con
    frecuencia en la investigación agropecuaria, consisten en
    métodos de enlace, métodos de varianza o de sumas
    de los cuadrados de error y métodos centroides. Los
    métodos de enlace incluyen el enlace sencillo, el completo
    y el promedio.

    El método de enlace sencillo se basa en la
    distancia mínima o la regla del vecino más cercano.
    Los primeros dos objetos conglomerados son aquellos que tienen la
    menor distancia entre sí. La siguiente distancia
    más corta se identifica, ya sea que el tercer objeto se
    agrupe con los dos primeros o que se forme un nuevo conglomerado
    de dos objetos. En cada etapa, la distancia entre dos
    conglomerados es la distancia entre sus dos puntos más
    próximos. En cualquier etapa, dos conglomerados surgen por
    el enlace sencillo más corto entre éstos. Este
    proceso continúa hasta que todos los objetos se encuentren
    en un conglomerado. El método del enlace sencillo no
    funciona adecuadamente cuando los conglomerados no están
    bien definidos.

    El método del enlace completo es similar al
    enlace sencillo, excepto que se basa en la distancia
    máxima o la estrategia del vecino más lejano. En el
    enlace completo, la distancia entre dos conglomerados se calcula
    como la distancia entre sus puntos más lejanos.

    El método del enlace promedio (UPGMA) funciona de
    manera similar, pero en este método, la distancia entre
    dos conglomerados se define como el promedio de las distancias
    entre todos los pares de objetos, donde se encuentra un miembro
    del par de cada uno de los conglomerados. este método
    emplea la información sobre todos los pares de distancias,
    no sólo las mínimas o máximas. Por esta
    razón, generalmente se prefiere a los métodos de
    enlace sencillo y completo.

    Para ver el gráfico seleccione la
    opción "Descargar" del menú superior

    Los métodos de varianza tratan de generar
    conglomerados a fin de reducir la varianza dentro de los
    grupos.

    Un método de la varianza que se utiliza con
    frecuencia es el procedimiento de Ward. Para cada conglomerado,
    se calculan las medias para todas las variables. Después,
    para cada objeto, se calcula la distancia para las medias de los
    grupos; estas distancias se suman a todos los objetos. En cada
    etapa, se combinan los dos conglomerados con el menor incremento
    en la suma total de los cuadrados de las distancias dentro de los
    conglomerados.

    En el método centroide, la distancia entre dos
    grupos es la distancia entre sus centroides (medias para todas
    las variables). Cada vez que se agrupan los objetos, se calcula
    un centroide nuevo.

    Para ver el gráfico seleccione la
    opción "Descargar" del menú superior

    De los métodos jerárquicos, el
    método de enlace promedio y el procedimiento de Ward han
    demostrado un mejor desempeño que los otros
    procedimientos.

    Por su parte, los métodos de conglomerados no
    jerárquicos, con frecuencia se conocen como
    agrupación de k medias. Estos métodos incluyen el
    umbral secuencial, umbral paralelo y la división para la
    optimización.

    • En el método del umbral secuencial, se
      selecciona un centro de grupo y se agrupan todos los objetos
      dentro de un valor de umbral que se especifica previamente a
      partir del centro. Después, se selecciona un nuevo
      centro o semilla de grupo y el proceso se repite para los
      puntos sin agrupar. Una vez que un objeto se agrupa con una
      semilla, ya no se considera para su conglomerado con semillas
      subsecuentes.
    • El método del umbral paralelo funciona de
      manera similar, excepto que varios centros de grupo se
      seleccionan simultáneamente y los objetos dentro del
      nivel del umbral se agrupan dentro del centro más
      próximo.
    • El método de división para la
      optimización difiere de los otros dos procedimientos de
      umbral en que los objetos pueden reasignarse posteriormente a
      otros grupos, a fin de optimizar un criterio general, como la
      distancia promedio dentro de los grupos para un número
      determinado de conglomerados.

    Dos desventajas importantes de los procedimientos no
    jerárquicos son que el número de grupos debe
    especificarse previamente y que la selección de los
    centros de grupo es arbitraria. Además, los resultados del
    conglomerado pueden depender de la forma en que se seleccionan
    los centros. Muchos programas no
    jerárquicos eligen los primeros k (k= número de
    grupos) casos sin valores faltantes como los centros de grupo
    iniciales. De manera que, los resultados del conglomerado pueden
    depender del orden de las observaciones en los datos. No
    obstante, el conglomerado no jerárquico es más
    rápido que los métodos jerárquicos y es
    apropiado cuando el número de objetos u observaciones es
    alto
    . Se ha sugerido que los métodos
    jerárquicos y no jerárquicos se utilicen uno
    después del otro. Primero, una solución de
    conglomerado inicial se obtiene con el uso de un procedimiento
    jerárquico, como el enlace promedio o el de Ward. Las
    cantidades de grupos y centroides de grupo que se obtienen de
    esta forma se utilizan como entradas para el método de
    división para la optimización.

    La elección de un método de conglomerado y
    la elección de una medida de distancia están
    interrelacionadas. Por ejemplo, las distancias euclidianas
    cuadradas deben utilizarse con los métodos de Ward y
    centroide. Varios procedimientos no jerárquicos emplean
    también las distancias euclidianas cuadradas.

    Elección del Número de
    Conglomerados

    Un aspecto importante en el análisis de
    conglomerados es decidir el número de éstos. Para
    ello, están disponibles algunos lineamientos.

    • Las consideraciones teóricas, conceptuales o
      prácticas pueden sugerir un número determinado de
      grupos. Por ejemplo, si el propósito de la
      agrupación es identificar grupos de especies, es
      probable que conozcamos el un número límite de
      grupos a formar.
    • En el conglomerado jerárquico, las distancias
      en las que los grupos se combinan pueden utilizarse como
      criterios. Esta información puede obtenerse del programa de
      aglomeración o del dendrograma.
    • En la agrupación no jerárquica, la
      relación de la varianza total dentro de los grupos con
      varianza entre los grupos puede trazarse en comparación
      con el número de éstos.

    Existen algunos criterios, de complejidad en sus
    cálculos, que pueden servir para identificar la cantidad
    de grupos a formar. Por ejemplo, denotando como B a la matriz
    de correlación de las variables que se utilizan en la
    clasificación y W las suma de las sub-matrices de
    correlación que se obtienen al formar 1, 2,…K
    grupos. Se dice que K es el número óptimo de
    grupos a formar si toma un valor que minimiza:

    Calinski – Harabaz (1974)

    Mariott (1971)

    Maronna y Jacovkis (1974)

    Symons (1981)

    Symons (1981)

    Banfield y Raftery (1993)

    Siendo n la cantidad de observaciones y ni la
    cantidad de individuos en el grupo i.

    Estos métodos no están automatizados y son
    engorrosos. Lo más común es utilizar las
    componentes principales como una idea gráfica. Se
    representan en las dos primeras componentes obtenidas de un
    análisis de componentes principales y se identifica cada
    observación según el grupo al cual
    pertenece. Para que la agrupación sea adecuada los grupos
    tienen que quedar bien delimitados, de lo contrario hay que hacer
    menos grupos. Es conveniente empezar por la mayor cantidad de
    grupos posibles e ir disminuyendo.

    Supongamos que realizamos un análisis de cluster
    para agrupar 20 individuos, al emplear el método de Ward y
    la distancia euclidiana se obtiene un dendograma que sugiere la
    formación de 5 grupos conformados como:
    {1,10,11,12,7,15,5}, {8,16,17},{2,6,9,4,20,13,14} , {3} y
    {18,19}

    Al realizar el análisis de componentes
    principales se obtiene:

    Para ver la fórmula seleccione la
    opción "Descargar" del menú superior

    Donde se aprecia que solo están bien
    delimitados los grupos 4 y 5, por lo que se sugiere hacer solo
    3 grupos: {1,10,11,12,7,15,5,

     Para ver el
    gráfico seleccione la opción "Descargar" del
    menú superior

    8,16,17,2,6,9,4,20,13,14} , {3} y {18,19}

    Evaluación de la
    Validez

    Dados los criterios generales que comprende el
    análisis de conglomerados, no debe aceptarse ninguna
    solución de agrupación sin una evaluación
    de su confianza y validez. Todos los procedimientos anteriormente
    explicados son útiles para evaluar la confianza y validez
    de las soluciones de agrupación, pero como vimos son
    complejos y no por completo defendibles. No obstante, los
    siguientes procedimientos también ofrecen revisiones
    adecuadas de la calidad de los
    resultados de la agrupación.

    • Realice el análisis de conglomerados con los
      mismos datos y utilice distintas medidas de distancia. Compare
      los resultados con todas las medidas a fin de determinar la
      estabilidad de las soluciones.
    • Utilice diversos métodos de conglomerado y
      compare los resultados.
    • Divida los datos a la mitad en forma aleatoria.
      Realice el conglomerado por separado en cada mitad. Compare los
      centroides de grupo en las dos submuestras.
    • Elimine las variables en forma aleatoria. Realice la
      agrupación con base en el conjunto reducido de
      variables. Compare los resultados basados en el conjunto
      completo con los que obtuvo al realizar el conglomerado. Las
      variables que marcan una diferencia significativa entre los
      conglomerados pueden identificarse mediante el análisis
      discriminante y el análisis de varianza
      unidireccional.
    • En el conglomerado, no jerárquico, la
      solución puede depender del orden de los casos en el
      conjunto de datos. Lleve a cabo corridas múltiples y
      utilice distintos órdenes de los casos hasta que la
      solución se estabilice.
    • Realice un análisis discriminante donde la
      variable cluster obtenida en el análisis de
      conglomerados sea la variable que identifica los grupos y vea
      que porciento de buena clasificación se
      obtiene.

    Interpretación y elaboración de un
    Perfil de los Conglomerados

    La interpretación y el perfil de los grupos
    comprenden el análisis de los centroides de grupo. Los
    centroides representan los valores medios de los objetos que
    contiene el grupo en cada una de las variables. Los centroides
    nos permiten describir cada grupo al asignarle un nombre o
    etiqueta.

    Referencia

    Banfield, J. D. y Raftery, A. E. 1993. Model based in
    Gaussian and non Gaussian clustering. Biometrics,
    49:803-821.

    Calinski, T. y Harabaz, J. 1974. A dendrite method for
    cluster analysis. Communications in Statistics, 3:
    1-27.

    Cuadras, C. M. 1991. Métodos de Análisis
    Multivariante, PPU.

    Cué, J.L., Castell, E. y Hernández, J.M.
    1987. Estadística Segunda Parte. Universidad de la
    Habana. Facultad de Matemática
    Cibernética.

    De la Vega, R. 2000.Software para el
    cálculo del tamaño de las muestras para variables
    de distintas naturaleza. La BIOFAM.

    Efimov, A., Karakulin, A., Pospélov, P.,
    Teréscheko, A., Vukólov, E., Zemskov, V. y
    Zolotarev, Yu. 1986. Problemas de
    las Matemáticas Superiores. Ed. MIR, Moscu., p-
    607.

    Hair, J. F. et al, 1999, Análisis Multivariante,
    Pretince-Hall Iberia, Madrid.

    Jonson, Richard, 1998, Applied Multivariante Statistics
    Analysis.

    Lemeshov, S., Hosmer, D., FLAR, J. y Lwanga, S. 1990.
    Adequacy of sample size in health studies. Ed. John Willey and
    Sons.

    Mariott, F.H.C. 1971. Practical problems in a method of
    cluster analysis. Biometrics, 27:501-514.

    Maronna, R. A. y Jacovkis, P.M. 1974. Multivariate
    clustering procedures with variables metrics. Biometrics, 30:
    499-505.

    Miranda, 1998. Coeficiente de similaridad para variables
    mixtas I. Nueva propuesta. Revista
    Protección Vegetal. 13(2).

    Sokal,R. y Rohlf, F. J. 1969. Biometry. State University
    of New York at Stony Brook. Ed. A Series of Books in biology, p.
    776.

    Symons, M. J. 1981. Clustering criteria and multivariate
    normal mixtures. Biometrics, 37:35-43.

    Visite el sitio:

    Ileana Miranda Cabrera

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter