Monografias.com > Matemáticas
Descargar Imprimir Comentar Ver trabajos relacionados

Análisis de componentes principales – ACP




Enviado por jclavijo



    1. Principios del
      ACP
    2. ACP normado
    3. ACP a partir de una
      muestra
    4. Conclusiones
    5. Análisis de componentes
      principales
    6. Una aplicación del
      ACP
    7. Bibliografía

    El análisis de componentes principales (ACP),
    es una técnica estadística de vieja data ya que fue
    propuesta a principios del
    siglo pasado por Karl Pearson como parte del análisis de factores. Sin embargo la
    complejidad de los cálculos retrasaron su desarrollo
    hasta la aparición de los computadores y su
    utilización en la segunda mitad del siglo XX. El
    relativamente reciente florecimiento de los métodos
    basados en componentes principales hace que ellos sean poco
    utilizados por una gran cantidad de investigadores no
    especialistas en estadística.

    El propósito de estas notas es divulgar la
    naturaleza del
    ACP y mostrar algunas de sus posibles aplicaciones.

    Podría decirse que el objetivo
    principal que persigue el ACP es la representación de las
    medidas numéricas de varias variables en
    un espacio de pocas dimensiones donde nuestros sentidos puedan
    percibir relaciones que de otra manera permanecerían
    ocultas en dimensiones superiores. Dicha representación
    debe ser tal que al desechar dimensiones superiores (generalmente
    de la tercera o cuarta en adelante) la pérdida de información sea mínima. Un
    símil podría ilustrar la idea: imaginemos una gran
    lámina rectangular (objeto de tres dimensiones) de por
    ejemplo, 3m de larga, 2m de ancha y 4 cm de espesor. Para efectos
    prácticos, dicha lámina puede ser considerara como
    un objeto plano (de dos dimensiones) de 3m de largo por 2m de
    ancho. Al realizar esta reducción de dimensionalidad se
    pierde cierta cantidad de información ya que, por ejemplo, puntos
    opuestos situados en las dos caras de la lámina
    aparecerán confundidos en un solo. Se pierden las
    distancias perpendiculares a las caras. Sin embargo, la
    pérdida de información se ve ampliamente compensada
    con la simplificación realizada, ya que muchas relaciones,
    como la vecindad entre puntos, es más evidente cuando
    éstos se dibujan sobre un plano que cuando se hace
    mediante una figura tridimensional que necesariamente debe ser
    dibujada en perspectiva.

    Lo anterior, aunque sugiere que el ACP es una
    técnica descriptiva, no niega la posibilidad de que
    también pueda ser utilizado con fines de inferencia. Por
    otra parte, las aplicaciones del ACP son numerosas y entre ellas
    podemos citar la clasificación de individuos, la
    comparación de poblaciones, la estratificación
    multivariada, etc.

    Principios del
    ACP

    En las líneas que siguen se presentarán
    los fundamentos del ACP, tratando de reducir al mínimo el
    aparato matemático formal que lo sustenta, ésto en
    aras de la sencillez y la brevedad y con el fin de que el tema
    sea adecuado a públicos de mediana preparación en
    matemáticas.

    Comencemos con un sencillo ejemplo ficticio en dos
    dimensiones. Supóngase que se mide el peso en kilogramos y
    la longitud en centímetros de 20 peces y que se
    obtienen los siguientes datos:

    PEZ

    PESO

    LONGIT

     

    PEZ

    PESO

    LONGIT

    1

    0.5

    15

    11

    3.5

    55

    2

    1.0

    30

    12

    5.0

    85

    3

    2.5

    55

    13

    6.0

    75

    4

    6.5

    85

    14

    4.5

    60

    5

    4.5

    70

    15

    1.5

    50

    6

    1.5

    35

    16

    5.0

    75

    7

    2.5

    65

    17

    7.5

    85

    8

    1.5

    45

    18

    2.5

    40

    9

    3.5

    45

    19

    3.5

    65

    10

    0.5

    25

    20

    4.0

    80

    Los datos anteriores
    pueden ser dibujados mediante un diagrama de
    dispersión en un sistema
    coordenado, obteniéndose una figura como la
    siguiente:

     Como se puede apreciar, cada variable puede
    representarse sobre un eje coordenado y así cada pareja de
    valores
    representa las
    medidas del i-ésimo individuo, los cuales al ser
    representados en el plano forman la nube de
    individuos.

    Se quiere construir un nuevo sistema de
    coordenadas ortogonales en el cual los puntos puedan ser
    representados de una manera tal que sus proyecciones sobre el
    nuevo primer eje recojan la mayor cantidad posible de
    variación y las proyecciones sobre el segundo eje recoja
    el resto de variación. Intuitivamente encontramos que
    tales ejes corresponden a las rectas F1 y F2, representadas en la
    siguiente gráfica cuyo origen se encuentra en el centro de
    gravedad G de la nube (punto cuyas coordenadas son las medias de
    las variables
    consideradas), tal como se ve en la figura siguiente.

     Con mucha frecuencia se maneja
    simultáneamente un número p () de variables
    numéricas. Si cada variable se representa sobre un eje, se
    necesitaría un sistema de coordenadas rectangulares con
    p ejes perpendiculares entre sí para ubicar las
    coordenadas de los puntos y poderlos dibujar. Este dibujo es
    realmente imposible para el ser humano cuando , pero la idea esbozada en
    el ejemplo anterior sigue siendo válida: buscar un nuevo
    sistema de coordenadas con origen en el centro de gravedad de la
    nube de puntos de tal manera que el primer eje del nuevo sistema
    (F1) recoja la mayor cantidad posible de variación, el
    segundo eje F2, la mayor cantidad posible entre la
    variación restante, el tercer eje F3 la mayor posible
    entre la variación que queda después de las dos
    anteriores y así sucesivamente.

    Observando la figura anterior se puede deducir que el
    nuevo sistema de coordenadas se logra después de dos
    movimientos de la nube de puntos: un primer movimiento es
    una traslación que permite situar el nuevo origen
    en el centro de gravedad de la nube. La nueva nube, obtenida
    después de esta traslación se llama nube
    centrada
    . Un segundo movimiento que
    se hace sobre la nube centrada es una rotación,
    usando el centro de gravedad como punto pivotal. Esta
    rotación ha de hacerse de tal manera que el nuevo primer
    eje del sistema de coordenadas apunte en la dirección de máxima
    dispersión de la nube centrada, el segundo eje apunte en
    la dirección con la segunda mayor
    dispersión (perpendicular a la anterior), el tercer eje en
    la dirección de tercera mayor dispersión
    (perpendicular a las dos anteriores) y así sucesivamente.
    Es evidente que el nuevo sistema de coordenadas tiene entonces
    tantos ejes perpendiculares entre sí como tenía el
    antiguo, es decir, tantos ejes como variables se hayan
    considerado inicialmente.

    En los cursos de
    álgebra
    lineal se habla comúnmente de las transformaciones
    lineales de un espacio vectorial y se demuestra que toda
    transformación lineal está asociada a una matriz. En
    particular, las rotaciones de un espacio vectorial son
    transformaciones lineales del espacio vectorial sobre sí
    mismo y están asociadas con matrices
    cuadradas, unitarias y ortogonales. Una matriz de
    éstas, Q, tiene tantas filas y columnas como sea la
    dimensión del espacio, sus columnas son vectores
    unitarios (es decir de longitud igual a la unidad) y tiene la
    particularidad de que al ser multiplicada por su transpuesta
    produce la matriz unidad. En otras palabras, . Las traslaciones no son
    transformaciones lineales pero tienen la propiedad de
    no modificar la variabilidad de la nube de puntos. Es decir, las
    varianzas y covarianzas en la nube son las mismas antes y
    después de una traslación.

    Los resultados expuestos en el párrafo
    anterior, junto con algunas propiedades de la matriz de varianzas
    covarianzas ,
    correspondiente a las variables originales y que serán
    presentadas a continuación, constituyen las bases sobre
    las cuales descansa la técnica de componentes
    principales.

    Consideremos entonces p variables aleatorias de
    tipo numérico las cuales posiblemente estén correlacionadas entre
    sí. Podemos pensar que las p variables anteriores,
    consideradas conjuntamente, forman un vector aleatorio o variable
    aleatoria multivariada, denotada por:

    La matriz de varianzas covarianzas para la variable
    está
    definida como y
    su entrada en la fila i columna j es el valor de la
    covarianza entre . Esto hace que la diagonal de esté conformada por las varianzas
    y que sea simétrica.
    Además se puede probar que es una matriz definida positiva
    (es decir, la forma cuadrática asociada a ella tiene todas
    sus raíces positivas). Todas estas propiedades de
    hacen que esta
    matriz tenga p valores
    propios reales y diferentes. Esto en particular garantiza que
    sea
    diagonalizable. Es decir, se puede encontrar una matriz , invertible, tal que
    donde es la matriz diagonal
    formada por los valores
    propios de ,
    denotados

    Es posible reordenar de acuerdo con su magnitud los valores
    propios de de tal
    manera que sea el
    mayor de ellos, el que le sigue, etc y el menor de todos. Esto simplemente se traduce en un
    reordenamiento de las columnas de la matriz de manera que la primera
    sea un vector propio asociado con , la segunda un vector propio asociado con
    y así
    sucesivamente. En particular dichas columnas pueden estar
    formadas por vectores propios
    normalizados, es decir, perpendiculares entre sí y de
    longitud igual a la unidad. De esta manera se construye una
    matriz que produce la rotación deseada ya que, como puede
    probarse, el primer vector propio apunta en la dirección de máxima
    variabilidad de la nube centrada. Esta dirección se llama
    primera dirección principal. El segundo vector
    propio apunta en
    la siguiente dirección de máxima variabilidad de la
    nube centrada, llamada segunda dirección principal
    y así sucesivamente.

    Una vez resuelto el problema de la rotación,
    bastará multiplicar la variable centrada (donde cada fila
    dees el centro de
    gravedad G) por la matriz de rotación para obtener la nueva
    variable ,
    llamada Variable de Componentes Principales. Cada componente
    del vector
    aleatorio , se
    llama una componente principal. Evidentemente se cumple
    que es decir,
    cada componente principal es una combinación lineal de las
    variables originales centradas.

    La traza de , por ser la suma de las varianzas de las variables
    originales recibe
    el nombre de varianza total, VT. Resulta claro que
    . Se puede
    probar además que para i =1,2,…,p y que . Esto implica varias
    cosas, a saber:

    1. La varianza total es igual a la suma de los valores
      propios de e
      igual a la suma de las varianzas de las componentes
      principales. Es decir, la varianza total es la misma con las
      variables originales que con las variables transformadas,
    2. Las componentes principales son variables aleatorias
      no correlacionadas entre sí obtenidas mediante
      transformaciones lineales de las variables originales
      centradas. Esto es: para
    3. Resulta claro que para
    4. Si todas las variables originales

    son normales entonces todas las componentes principales
    son normales.

    Como puede deducirse de lo anterior, la varianza total
    se descompone en un número finito de partes disjuntas
    de tamaños
    cada vez menores, lo que en la práctica proporciona un
    mecanismo para reducir la dimensionalidad de
    representación de las variables. En efecto, si
    despreciamos las últimas componentes principales, las primeras r
    tendrán una tasa de representatividad igual a de la varianza total de
    las variables originales. Muchas veces este porcentaje es
    bastante alto con un pequeño valor de
    r lo que se traduce en una alta representatividad en un
    espacio de pocas dimensiones.

    En la práctica resulta importante el caso
    r = 2 ya que si, en tal caso se obtuviera una tasa de
    representatividad alta, se habría logrado describir el
    problema sobre un plano con una pequeña pérdida de
    información. Por supuesto que si la reducción a un
    espacio de dos dimensiones conlleva una alta pérdida de
    representatividad no se habrá logrado un éxito y
    las técnicas
    que aquí se propondrán para visualización de
    individuos y variables no serán muy buenas.

    La ecuación implica lo que permite obtener las variables centradas originales
    como combinaciones lineales de las componentes principales. Esto
    en particular va a permitir representar gráficamente las
    variables originales centradas dentro del espacio de componentes
    principales, llamado espacio factorial, como puntos cuyas
    coordenadas son los coeficientes de en la combinación lineal
    correspondiente. Teniendo en cuenta que sólo las
    componentes principales iniciales llevan la mayor parte de la
    representatividad se podrá reducir el espacio factorial a
    dos o tres dimensiones, lo que lleva a una representación
    de las variables originales como vectores sobre un plano
    (plano factorial) o sobre un espacio tridimensional. La
    representación sobre el plano factorial es particularmente
    útil pues permite visualizar relaciones de
    correlación entre las variables originales y de
    éstas con los ejes factoriales, lo que rápidamente
    da una idea de cómo y en cuánto contribuye cada
    variable a la conformación de los primeros factores
    (así se llaman también las componentes principales)
    y qué tan fuertes son las dependencias entre las
    diferentes variables y los factores. Tal representación
    plana se llama mapa perceptual de variables. Una alta
    correlación positiva se traduce en vectores (flechas que
    unen el origen con el punto representativo de la variable) que
    forman un ángulo agudo. Una alta correlación
    negativa se traduce en flechas opuestas que tienden a formar
    ángulos llanos.. Finalmente, la ausencia de
    correlación se traduce en flechas que tienden a formar
    ángulos rectos. Esto sugiere que la correlación
    entre dos variables se mida a través del coseno del
    ángulo que ellas forman . Igualmente es factible realizar
    un mapa perceptual de individuos, es decir, una proyección
    de la nube de individuos sobre el plano factorial determinado por
    , plano que
    reúne la mayor representatividad de VT.

    Puesto que uno de los objetivos que
    se persiguen con el ACP es la representación de las
    observaciones o individuos en un espacio de pocas dimensiones,
    resulta interesante tener una medida de tal representación
    para cada individuo. Una tal medida está dada por la suma
    de cosenos cuadrados. Estos valores son los cuadrados de
    los cosenos de los ángulos formados por el vector que
    representa a cada individuo con los ejes del sistema de
    coordenadas factoriales. La suma de todos estos cosenos es igual
    a la unidad. Sin embargo, si se retienen r factores
    (componentes), la suma de los r primeros cosenos cuadrados
    mide el grado de representabilidad de cada individuos, siendo
    mejor representados aquellos individuos para los cuales la suma
    de los r primeros cosenos cuadrados esté más
    cerca de 1.

    Las correlaciones entre las variables
    originales y los factores se conocen comúnmente como
    cargas factoriales. Es posible calcular
    analíticamente tales correlaciones lo que da origen a una
    matriz de orden
    , llamada
    matriz de cargas. (algunos paquetes usan otros nombres:
    Factor Pattern en SAS, Factor Matrix en SPSS, Factor Loadings en
    STATISTICA, etc). Se puede probar que la correlación entre
    la variable original y la componente principal está dada por . Así .

    Cómo saber cuántos factores son
    suficientes para una buena representación de un problema?
    – Hay varios criterios. Talvez los dos más extendidos son
    el criterio de Kaiser, según el cual se deben retener
    tantos factores como valores propios de la matriz estén por encima
    del promedio y
    los diagramas de
    Cattell. Otro criterio, quizás más natural,
    consiste en retener tantos factores como sean necesarios para
    lograr un alto porcentaje de explicación de la varianza
    total. Para ello se usan los porcentajes acumulados de los
    valores propios con base en la varianza total del problema, junto
    con un criterio personal acerca
    de qué se considera un buen porcentaje de
    explicación (ver el ejemplo, salida 2, más
    adelante).

    ACP normado

    Todo lo mencionado anteriormente tiene un sentido
    geométrico y matemático muy claro pero en la
    práctica tiene un problema de interpretación.
    ¿Qué significado tiene una variable artificial
    que ha sido
    construída, digámoslo así, como una mezcla
    de otras variables cuyas naturalezas pueden ser muy diferentes?
    ¿Qué nombre puede recibir por ejemplo, una variable
    conformada por un poco de edad, otro poco de peso,
    otro poco de ingresos, etc? Por otra parte, el peso de
    cada variable original, traducido fundamentalmente en
    variabilidad, puede ser muy diferente para cada variable. Una
    variable muy dispersa puede contribuir enormemente a la varianza
    total mientras que una variable más homogénea
    contribuye menos. Esto finalmente determina la
    participación de cada variable en la conformación
    de un factor.

    Las inquietudes anteriores tienen una solución:
    Realizar ACP con variables originales estandarizadas. Esto
    resuelve los dos problemas: De
    una parte, las variables estandarizadas no tienen nombre, son
    simplemente números sin unidades en las cuales se expresen
    las mediciones. De otra parte, la estandarización lleva
    todas las escalas de medida a una escala
    común de media 0 y varianza 1, con lo cual se elimina el
    problema de medición y variabilidad diferente de las
    variables originales. El ACP realizado con variables originales
    estandarizadas se llama ACP normado. Se ve
    fácilmente que el ACP normado equivale al ACP corriente
    pero partiendo de la matriz de correlaciones en vez de la matriz de
    varianzas covarianzas .

    Resulta claro que el ACP normado debe ser la
    técnica a seguir en cualquier caso., a menos que se
    quieran explorar algunas otras posibilidades de tipo
    teórico o que se tengan variables muy similares tanto en
    su naturaleza
    como en su escala de
    medida.

    ACP a partir
    de una muestra.

    Diremos finalmente que la matriz , por ser desconocida, no
    puede ser usada directamente en los cálculos. En la
    práctica, se usa la matriz de varianzas-covarianzas
    , estimada a
    partir de una muestra observada
    de n individuos. Esta matriz constituye una
    estimación de y, por tanto, los resultados obtenidos con ella constituyen
    estimaciones de los correspondientes valores poblacionales. Se
    debe saber, sin embargo, que será necesaria una muestra
    aleatoria cuyo tamaño n sea mayor que el
    número p de variables consideradas. El hecho de
    usar la matriz en
    vez de puede
    eventualmente acarrear complicaciones de tipo computacional que
    no se discuten aquí..

    Conclusiones

    De lo dicho anteriormente se obtienen algunas
    conclusiones que a manera de resumen práctico se anotan en
    seguida:

    1. El ACP es una técnica que transforma ciertas
      variables en otras incorrelacionadas, de media cero, que pueden
      escribirse como combinaciones lineales de las primeras y que se
      llaman factores o componentes principales, las cuales pueden
      ordenarse por la magnitud de su varianza la cual está
      dada por un valor propio de la matriz (en la práctica de )
    2. Las primeras r componentes principales bastan
      para describir en alto porcentaje la variabilidad total de las
      variables originales. Con frecuencia r vale 2 o 3,
      siendo el primero de ellos el caso más
      deseable.
    3. Cuando el porcentaje de variabilidad explicado por
      dos componentes principales es alto (70%?) se puede realizar
      una representación gráfica de las variables
      originales y de los individuos de la muestra (mapas
      perceptúales) que muestran algunas relaciones de
      correlación o semejanza entre ellos .
    4. Aunque todas las variables originales entran en la
      composición de cada componente principal, algunas son
      más importantes que otras. Estas, las más
      importantes, determinan la naturaleza de cada
      componente

    Presentaremos a continuación un ejemplo de pocos
    datos (observaciones) en el que se ha realizado ACP no normado.
    Esto, debido a que las variables consideradas son de naturaleza
    semejante y están medidas en escalas muy similares. Los
    cálculos han sido realizados con un programa de
    computador
    escrito por el autor.

    EJEMPLO: Los datos siguientes corresponden a mediciones
    morfométricas en micras realizadas por Leyder Lozano
    (1999) sobre 30 machos silvestres de Rhodnius, en las siguientes
    variables:

    1. DEXO Distancia externa entre ojos

    2. DINO Distancia interna entre ojos

    3. DIOC Distancia interna entre ocelos

    4. DAOC Distancia anteocular

    5. DPOC Distancia postocular

    6. LCAB Longitud de cabeza y cuello

    7. COLL Ancho del collar

    8. ILOB Ancho de intersección entre
    lóbulos anteriores y medios

    9. AHUM Ancho de húmeros

    10. LTXE Longitud de torax y escutelo

    1724.4 700.7 740.1 3425.1 1039.3 4535.4 1700.7 3464.5
    4551.1 3472.4

    1661.4 677.1 661.4 2590.0 968.5 4456.6 1708.6 3149.6
    4527.5 3149.8

    1653.5 669.2 653.5 2440.9 897.6 4133.8 1673.7 3377.9
    4724.4 3551.1

    1708.6 692.9 661.4 2614.0 1023.6 4440.9 1716.5 3433.0
    4724.4 3401.5

    1692.9 685.0 708.6 2677.1 1125.9 4622.0 1803.1 3149.6
    4826.7 3496.0

    1669.2 708.6 716.5 2590.5 1055.1 4472.4 1740.1 3149.6
    4724.4 3464.5

    1645.6 724.4 748.0 2669.2 1102.3 4629.9 1795.2 3149.2
    4818.8 3488.1

    1574.8 685.0 732.2 2724.4 1110.2 4551.1 1732.2 3196.8
    4818.8 3377.9

    1622.0 685.0 724.4 2677.1 1157.4 4543.3 1708.6 3149.6
    4622.0 3370.0

    1661.4 685.0 724.4 2645.6 1188.9 4606.2 1748.0 3417.3
    4622.0 3417.3

    1660.2 687.0 724.4 2640.5 1186.5 4543.3 1708.6 3149.6
    4622.0 3371.0

    1629.9 700.7 661.4 2519.6 1039.3 4377.9 1629.9 2905.5
    4409.4 3267.7

    1669.3 635.5 708.6 2692.9 1015.7 4551.1 1732.2 3149.6
    4818.8 3393.7

    1700.7 692.9 724.4 2661.4 1039.3 4367.7 1661.4 3149.6
    4929.1 3574.8

    1755.9 724.4 724.4 2692.9 1141.7 4748.0 1771.6 3149.6
    4952.7 3661.4

    1716.5 692.9 708.6 2716.5 1070.8 4606.2 1779.5 3149.6
    4984.2 3661.4

    1685.0 653.5 677.1 2716.5 1078.7 4598.4 1787.4 3070.8
    4724.4 3574.8

    1748.0 708.6 732.2 2755.9 1141.7 4724.4 1748.0 3149.6
    4779.5 3645.6

    1637.7 685.0 699.2 2519.6 1141.4 4472.4 1740.1 2858.2
    4700.7 3370.0

    1763.7 724.4 732.2 2740.1 1157.4 4866.1 1842.5 3307.0
    4968.5 3669.2

    1748.0 740.1 771.6 2614.1 1078.7 4496.0 1755.9 3149.6
    4724.4 3464.5

    1692.9 685.0 771.6 3070.8 1133.8 4984.2 1740.1 3354.3
    4818.8 3645.6

    1755.9 692.9 732.2 2842.5 1259.8 4897.6 1834.6 3149.6
    4968.5 3755.9

    1661.4 669.2 748.0 2653.5 1110.2 4606.2 1716.5 2921.2
    4724.4 3456.6

    1685.0 708.6 763.7 2732.2 1220.4 4763.7 1763.7 3149.6
    4669.2 3464.5

    1574.8 700.7 708.6 2543.3 1086.6 4417.3 1547.8 3118.1
    4299.2 3149.6

    1732.2 748.0 700.7 2724.4 1007.8 4653.5 1755.9 3149.6
    4724.4 3582.6

    1685.0 708.6 763.7 2732.2 1220.4 4763.0 1763.5 3149.4
    4669.2 3465.0

    1748.2 740.2 771.7 2614.0 1078.5 4496.2 1756.0 3150.0
    4724.2 3464.3

    1693.0 685.1 771.4 3070.5 1134.0 4984.0 1740.0 3352.5
    4819.0 3646.0

    Estos datos, divididos entre 100 (es decir,
    transformadas a hectomicras), arrojan los siguientes
    resultados. Las salidas corresponden a las ocho primeras
    componenetes, número suficiente para explicar la mayor
    parte de los casos corrientes.

    ANALISIS DE
    COMPONENTES PRINCIPALES

    1. RESUMEN DE VARIABLES NO TRANSFORMADAS:

    VARIABLE: MEDIA: VARIANZA:

    V01=DEXO 1685.2367 2510.332057

    V02=DINO 696.5400 618.590759

    V03=DIOC 722.2067 1202.730989

    V04=DAOC 2710.2433 35914.492195

    V05=DPOC 1100.3833 6208.513851

    V06=LCAB 4596.9600 35127.471448

    V07=COLL 1736.7300 3390.947690

    V08=ILOB 3177.3367 20486.984471

    V09=AHUM 4733.0233 24947.907368

    V10=LTXE 3482.4267 21480.854437

    RESUMEN DE VARIABLES TRANSFORMADAS:

    (Divididas entre 100.00000)

    VARIABLE: MEDIA: VARIANZA:

    V01=DEXO 16.8524 0.251033

    V02=DINO 6.9654 0.061859

    V03=DIOC 7.2221 0.120273

    V04=DAOC 27.1024 3.591449

    V05=DPOC 11.0038 0.620851

    V06=LCAB 45.9696 3.512747

    V07=COLL 17.3673 0.339095

    V08=ILOB 31.7734 2.048698

    V09=AHUM 47.3302 2.494791

    V10=LTXE 34.8243 2.148085

    2. VALORES PROPIOS:

    (Para problema original – variables no
    transformadas)

    Valor Propio: Acumulado: Porcent.Acum:

    80352.3846 80352.3846 52.9021

    32004.6264 112357.0110 73.9732

    21336.1201 133693.1311 88.0204

    8946.0700 142639.2011 93.9103

    3542.8077 146182.0088 96.2428

    2368.4078 148550.4166 97.8021

    1660.9098 150211.3264 98.8956

    941.8004 151153.1269 99.5156

    502.7664 151655.8932 99.8466

    232.9320 151888.8253 100.0000

    Promedio (Kaiser): 15188.8825

    NOTA: Se debe tener en cuenta que las variables han sido
    transformadas y, por tanto, algunas soluciones se
    modifican.

    ESM advierte esto indicando si la solución es
    original o si ha sido modificada para que se introduzcan las
    correcciones del caso.

    3. COEFICIENTES uij DE VARIABLES PARA CADA COMPONENTE
    Fj:

    (SOLUCION ORTOGONAL DE VECTORES UNITARIOS)

    ( Fj = u1j*V01 + u2j*V02 + … + upj*V0p )

    (Se presentan las 8 primeras componentes
    principales)

    V/BLE F1 F2 F3 F4 F5 F6 F7 F8

    DEXO 0.108 0.066 0.081 -0.040 0.287 -0.103 0.654
    0.275

    DINO 0.012 0.013 -0.009 0.028 0.158 0.019 0.291
    0.429

    DIOC 0.071 -0.013 -0.076 0.015 -0.027 0.227 0.076
    0.583

    DAOC 0.505 -0.625 -0.007 -0.555 -0.154 0.114 0.054
    -0.043

    DPOC 0.132 0.063 -0.333 0.246 0.029 0.854 0.000
    -0.078

    LCAB 0.573 0.041 -0.567 0.388 -0.021 -0.427 -0.105
    0.052

    COLL 0.136 0.150 -0.008 0.074 -0.113 0.030 0.630
    -0.585

    ILOB 0.215 -0.403 0.604 0.651 -0.010 0.046 -0.021
    0.004

    AHUM 0.372 0.555 0.346 -0.115 -0.602 0.058 -0.048
    0.170

    LTXE 0.423 0.325 0.265 -0.187 0.701 0.079 -0.261
    -0.139

    4. COEFICIENTES vij DE VARIABLES PARA CADA COMPONENTE
    Fj:

    (SOLUCION ORTOGONAL DE VECTORES REESCALADOS AL VALOR
    PROPIO)

    (La suma de cuadrados de coeficientes es el valor
    propio)

    (Se presentan las 8 primeras componentes
    principales)

    V/BLE F1 F2 F3 F4 F5 F6 F7 F8

    DEXO 0.307 0.118 0.118 -0.038 0.171 -0.050 0.266
    0.084

    DINO 0.034 0.024 -0.014 0.026 0.094 0.009 0.119
    0.132

    DIOC 0.201 -0.023 -0.111 0.014 -0.016 0.111 0.031
    0.179

    DAOC 1.432 -1.119 -0.011 -0.525 -0.092 0.055 0.022
    -0.013

    DPOC 0.374 0.114 -0.486 0.233 0.017 0.416 0.000
    -0.024

    LCAB 1.625 0.074 -0.829 0.367 -0.013 -0.208 -0.043
    0.016

    COLL 0.386 0.269 -0.012 0.070 -0.067 0.014 0.257
    -0.180

    ILOB 0.609 -0.721 0.882 0.616 -0.006 0.022 -0.009
    0.001

    AHUM 1.053 0.992 0.506 -0.109 -0.358 0.028 -0.020
    0.052

    LTXE 1.199 0.582 0.388 -0.177 0.417 0.039 -0.106
    -0.043

    NOTA: Estos valores están divididos por
    100.00

    5. PORCENTAJE DE CONTRIBUCION ABSOLUTA DE LAS
    VARIABLES A LOS FACTORES:

    V/BLE F1 F2 F3 F4 F5 F6 F7 F8

    DEXO 1.17 0.43 0.66 0.16 8.21 1.07 42.74 7.55

    DINO 0.01 0.02 0.01 0.08 2.48 0.03 8.48 18.38

    DIOC 0.50 0.02 0.58 0.02 0.07 5.16 0.57 33.96

    DAOC 25.54 39.11 0.01 30.78 2.37 1.29 0.29
    0.18

    DPOC 1.74 0.40 11.09 6.06 0.08 72.95 0.00
    0.61

    LCAB 32.86 0.17 32.19 15.09 0.05 18.22 1.10
    0.27

    COLL 1.85 2.26 0.01 0.55 1.28 0.09 39.75
    34.23

    ILOB 4.62 16.24 36.43 42.43 0.01 0.21 0.04
    0.00

    AHUM 13.81 30.76 11.98 1.33 36.24 0.34
    0.23 2.90

    LTXE 17.89 10.59 7.04 3.50 49.19 0.63 6.79
    1.92

    6. CARGAS FACTORIALES (CORRELACIONES VARIABLE
    FACTOR):

    V/BLE F1 F2 F3 F4 F5 F6 F7 F8

    DEXO 0.61 0.23 0.24 -0.07 0.34 -0.10 0.53
    0.17

    DINO 0.14 0.10 -0.05 0.11 0.38 0.04 0.48 0.53

    DIOC 0.58 -0.07 -0.32 0.04 -0.05 0.32 0.09
    0.52

    DAOC 0.76 -0.59 -0.01 -0.28 -0.05 0.03 0.01
    -0.01

    DPOC 0.48 0.14 -0.62 0.30 0.02 0.53 0.00
    -0.03

    LCAB 0.87 0.04 -0.44 0.20 -0.01 -0.11 -0.02
    0.01

    COLL 0.66 0.46 -0.02 0.12 -0.12 0.02 0.44
    -0.31

    ILOB 0.43 -0.50 0.62 0.43 -0.00 0.02 -0.01
    0.00

    AHUM 0.67 0.63 0.32 -0.07 -0.23 0.02 -0.01
    0.03

    LTXE 0.82 0.40 0.26 -0.12 0.28 0.03 -0.07
    -0.03

    7. COMUNALIDAD ACUMULADA PARA r FACTORES (Desde F1
    hasta Fr):

    V/BLE F1 F2 F3 F4 F5 F6 F7 F8

    DEXO 0.09 0.11 0.12 0.12 0.15 0.16 0.23 0.23

    DINO 0.00 0.00 0.00 0.00 0.01 0.01 0.03 0.04

    DIOC 0.04 0.04 0.05 0.05 0.05 0.07 0.07 0.10

    DAOC 2.05 3.30 3.30 3.58 3.59 3.59 3.59 3.59

    DPOC 0.14 0.15 0.39 0.44 0.44 0.62 0.62 0.62

    LCAB 2.64 2.65 3.33 3.47 3.47 3.51 3.51 3.51

    COLL 0.15 0.22 0.22 0.23 0.23 0.23 0.30 0.33

    ILOB 0.37 0.89 1.67 2.05 2.05 2.05 2.05 2.05

    AHUM 1.11 2.09 2.35 2.36 2.49 2.49 2.49 2.49

    LTXE 1.44 1.78 1.93 1.96 2.13 2.13 2.15 2.15

    NOTA: Valores divididos por 10000.00

    8. PORCENTAJE DE COMUNALIDAD ACUMULADA PARA r
    FACTORES (De F1 a Fr):

    V/BLE F1 F2 F3 F4 F5 F6 F7 F8

    DEXO 37.57 43.09 48.66 49.22 60.81 61.82 90.09
    92.93

    DINO 1.89 2.79 3.09 4.22 18.43 18.56 41.34
    69.32

    DIOC 33.63 34.05 44.36 44.53 44.75 54.90 55.69
    82.28

    DAOC 57.14 91.99 91.99 99.66 99.89 99.98 99.99
    100.00

    DPOC 22.58 24.65 62.77 71.50 71.55 99.38 99.38
    99.47

    LCAB 75.16 75.31 94.86 98.71 98.71 99.94 99.99
    100.00

    COLL 43.89 65.22 65.26 66.70 68.04 68.10 87.57
    97.08

    ILOB 18.13 43.50 81.44 99.97 99.97 100.00 100.00
    100.00

    AHUM 44.47 83.93 94.18 94.66 99.80 99.84 99.85
    99.96

    LTXE 66.92 82.70 89.69 91.15 99.27 99.33 99.86
    99.94

    9. COEFICIENTES DE FACTORES
    ESTANDARIZADOS:

    (Solución para variables originales no
    transformadas)

    V/BLE f1 f2 f3 f4 f5 f6 f7 f8

    DEXO 0.000 0.000 0.001 -0.000 0.005 -0.002 0.016
    0.009

    DINO 0.000 0.000 -0.000 0.000 0.003 0.000 0.007
    0.014

    DIOC 0.000 -0.000 -0.001 0.000 -0.000 0.005 0.002
    0.019

    DAOC 0.002 -0.003 -0.000 -0.006 -0.003 0.002 0.001
    -0.001

    DPOC 0.000 0.000 -0.002 0.003 0.000 0.018 0.000
    -0.003

    LCAB 0.002 0.000 -0.004 0.004 -0.000 -0.009 -0.003
    0.002

    COLL 0.000 0.001 -0.000 0.001 -0.002 0.001 0.015
    -0.019

    ILOB 0.001 -0.002 0.004 0.007 -0.000 0.001 -0.001
    0.000

    AHUM 0.001 0.003 0.002 -0.001 -0.010 0.001 -0.001
    0.006

    LTXE 0.001 0.002 0.002 -0.002 0.012 0.002 -0.006
    -0.005

    10. COORDENADAS DE INDIVIDUOS PROYECTADOS SOBRE
    PRIMEROS PLANOS:

    (Solucion para variables originales no
    transformadas)

    (PRIMERA SOLUCION SOBRE PLANO FACTORIAL
    UNITARIO)

    COORD. ORIGINALES CENTRADAS | COORDENADAS
    FACTORIALES

    (SOBRE EL PLANO X1-X2): | (SOBRE EL PLANO
    F1-F2):

    #OBS X1 X2 | F1 F2

    1 39.1633 4.1600 308.4647 -676.3719

    2 -23.8367 -19.4400 -392.6139 -155.3205

    3 -31.7367 -27.3400 -376.6340 62.0936

    4 23.3633 -3.6400 -135.2741 -86.0639

    5 7.6633 -11.5400 44.3162 101.4354

    6 -16.0367 12.0600 -156.1795 67.0999

    7 -39.6367 27.8600 32.4427 94.1382

    8 -110.4367 -11.5400 -38.0020 -12.6348

    9 -63.2367 -11.5400 -145.4060 -73.4327

    10 -23.8367 -11.5400 -33.9147 -133.0950

    11 -25.0367 -9.5400 -155.4726 -45.8328

    12 -55.3367 4.1600 -524.2864 -52.4279

    13 -15.9367 -61.0400 -61.9010 31.0893

    14 15.4633 -3.6400 -66.6662 156.7850

    15 70.6633 27.8600 247.5191 221.2107

    16 31.2633 -3.6400 175.8114 211.9338

    17 -0.2367 -43.0400 17.2343 70.5800

    18 62.7633 12.0600 191.0872 75.2528

    19 -47.5367 -11.5400 -296.9643 188.2739

    20 78.4633 27.8600 395.1997 156.5277

    21 62.7633 43.5600 -112.6327 62.0939

    22 7.6633 -11.5400 552.1767 -177.7371

    23 70.6633 -3.6400 479.0572 189.8097

    24 -23.8367 -27.3400 -95.1172 121.2177

    25 -0.2367 12.0600 91.9968 -25.5972

    26 -110.4367 4.1600 -542.4581 -264.4037

    27 46.9633 51.4600 67.3265 33.5292

    28 -0.2367 12.0600 91.7368 -25.4129

    29 62.9633 43.6600 -112.6243 61.8431

    30 7.7633 -11.4400 551.7775 -176.5833

    11. DISTANCIA DE CADA PUNTO AL ORIGEN Y COSENOS
    CUADRADOS:

    (Solucion para variables originales no
    transformadas)

    #OBS DISTANCIA COS2-F1 COS2-F2 COS2-F3 COS2-F4
    COS2-F5

    1 798.3544 0.1493 0.7178 0.0401 0.0826 0.0000

    2 458.9522 0.7318 0.1145 0.0112 0.0096 0.0443

    3 619.3934 0.3697 0.0100 0.5806 0.0029 0.0223

    4 340.8316 0.1575 0.0638 0.5440 0.2018 0.0068

    5 129.9518 0.1163 0.6093 0.0002 0.0030 0.1367

    6 183.0733 0.7278 0.1343 0.1115 0.0010 0.0029

    7 131.8562 0.0605 0.5097 0.0066 0.0110 0.1803

    8 183.0629 0.0431 0.0048 0.0214 0.0003 0.7571

    9 194.6592 0.5580 0.1423 0.1617 0.0200 0.0112

    10 295.0976 0.0132 0.2034 0.0320 0.6839
    0.0051

    11 205.3898 0.5730 0.0498 0.1687 0.0674
    0.0001

    12 575.3153 0.8305 0.0083 0.1047 0.0305
    0.0183

    13 172.5112 0.1288 0.0325 0.0653 0.0593
    0.5306

    14 335.1969 0.0396 0.2188 0.4632 0.1775
    0.0080

    15 335.9610 0.5428 0.4335 0.0014 0.0000
    0.0019

    16 316.0621 0.3094 0.4496 0.1578 0.0742
    0.0055

    17 164.0829 0.0110 0.1850 0.0404 0.3148
    0.1254

    18 232.1617 0.6775 0.1051 0.0291 0.0080
    0.1728

    19 414.7394 0.5127 0.2061 0.1827 0.0758
    0.0084

    20 449.3825 0.7734 0.1213 0.0087 0.0837
    0.0002

    21 172.3821 0.4269 0.1298 0.0579 0.0006
    0.0315

    22 590.7747 0.8736 0.0905 0.0092 0.0033
    0.0000

    23 528.1866 0.8226 0.1291 0.0247 0.0003
    0.0048

    24 268.5873 0.1254 0.2037 0.4295 0.2147
    0.0017

    25 224.6041 0.1678 0.0130 0.6554 0.1198
    0.0081

    26 641.0275 0.7161 0.1701 0.0728 0.0170
    0.0057

    27 168.9111 0.1589 0.0394 0.0037 0.0673
    0.2818

    28 224.0464 0.1677 0.0129 0.6557 0.1188
    0.0085

    29 172.4513 0.4265 0.1286 0.0580 0.0004
    0.0315

    30 590.0569 0.8745 0.0896 0.0095 0.0031
    0.0000

    GRAFICA DE
    VARIABLES:

    Representación gráfica de
    las variables en el plano factorial F1F2

    (Las flechas han sido agregadas para
    mayor facilidad de interpretación)

    GRAFICA DE INDIVIDUOS:

    Representación gráfica de individuos en el
    plano factorial F1F2

    GRAFICA DE CARGAS FACTORIALES:

    Representación gráfica de Cargas (K) en el
    plano factorial F1F2 

    EXPLICACIÓN DE LAS SALIDAS
    ANTERIORES – ESM-PLUS:

    Salida 1

    Estos valores corresponden a las medias y las varianzas
    estimadas de cada una de las variables consideradas en el
    análisis, junto con la nomenclatura
    usada por el programa para la
    representación gráfica de ellas: V01, V02,
    etc

    Salida 2

    Representa los valores propios de la matriz , como estimaciones de
    , ordenados de
    mayor a menor, junto con los valores acumulados de ellos y el
    correspondiente porcentaje acumulado que representan de la
    varianza total, dada en este caso por VT = 151888.8. Como puede
    observarse en este caso el primero y segundo valor propio cubren
    un 73.9732% de la varianza total, valor que se considera alto. En
    consecuencia, podrían retenerse los dos primeros factores
    los cuales explican 73.9732% del problema. Se pierde entonces un
    26% de la información pero se logra reducir la
    dimensión del problema de 10 (número original de
    variables) a 2. Se ha "aplanado" el problema logrando mantener
    más del 70% de la representabilidad del mismo.
    Nótese que, según el criterio de Kaiser,
    sólo los tres primeros factores tienen varianza por encima
    del promedio 15188.88. En consecuencia, este criterio recomienda
    retener las tres primeras componentes.

    Salida 3

    Está conformada por la matriz de rotación. En
    este caso cada columna es un vector unitario y dos cualesquiera de ellas son
    ortogonales. Representan por tanto, vectores de una base
    ortonormal de .
    Además cada columna contiene los coeficientes de las
    variables originales centradas para la conformación de la
    correspondiente componente principal.

    Salida 4

    Los vectores reescalados son vectores propios de S que
    han sido modificados en su longitud de tal manera que su norma
    sea igual al correspondiente valor propio. Aunque la matriz
    conformada por tales vectores -llamada matriz de
    coordenadas
    por algunos paquetes- no es una matriz de
    rotación, presenta la ventaja de que cada coeficiente es
    proporcional a la contribución que hace la correspondiente
    variable a las componentes principales. Por ejemplo, en la
    formación del factor la variable que más aporta es DAOC, le sigue
    AHUM.

    Salida 5

    Esta tabla presenta de una manera más expedita la
    importancia de cada variable en la conformación de cada
    componente, medida por la contribución de ella a la
    componente. Es el cuadrado del coeficiente de la variable,
    expresado como porcentaje. Como puede observarse la primera
    componente está formada en más de un 90% por LCAB,
    DAOC, LTXE y AHUM; mientras que la segunda componente lo es en
    más del 96% por DAOC, AHUM ILOB y LTXE. Como
    conclusión, diremos que las medidas cefalotoráxicas
    son las más importantes para describir a los animales
    examinados.

    Salida 6

    Esta tabla contiene los valores de las correlaciones de
    cada una de las variables originales con cada una de las
    componentes principales o factores. Cuando una variable está fuertemente
    correlacionada con un factor su representación gráfica vectorial es
    tal que ella se sitúa muy cerca del eje correspondiente,
    contribuyendo entonces casi exclusivamente a la
    conformación de dicho factor. Esta contribución es
    tanto mayor cuanto más alejada del origen se encuentre
    pues en tal caso
    su proyección sobre el eje es mayor.

    Salida 7

    Se define la comunalidad entre y como la porción de varianza que es
    compartida por estas dos variables. Este concepto es
    importante pues dicho valor es una medida de la
    explicación de la variable por el factor . En particular, si se retienen r de los
    p factores es de interés
    conocer el grado de explicación de cada una de las
    variables originales por los factores retenidos juntos. Esto es
    la comunalidad acumulada por los r factores retenidos. En
    el caso, por ejemplo, al retener los dos primeros factores se
    explica un total de 3.30 de la varianza de DAOC. De igual manera
    se explica un total de 2.65 de la varianza de LCAB.

    Salida 8

    La magnitud de la comunalidad acumulada, dada por la
    tabla anterior es mucho más comprensible si se expresa en
    términos de porcentajes. Esto es lo que muestra la tabla
    8. Por ejemplo, diríamos de acuerdo con ella, que dos
    factores explican el 91.99% de la varianza de DAOC y el 75.31% de
    la varianza de LCAB, etc.

    Salida 9.

    Los factores son variables aleatorias ya que son combinaciones lineales
    de los centrados.
    Esto implica que pueden ser estandarizados en la forma usual. Se
    pueden entonces construir los factores estandarizados de acuerdo
    con la expresión:

    La tabla correspondiente proporciona los coeficientes
    que expresan cada factor estandarizado en términos de las
    variables originales centradas, esto es, en la forma:

    Esta salida es la que de ordinario presentan algunos
    paquetes como Statistica .

    Salida 10

    Estas tablas corresponden a las coordenadas de las dos
    primeras componentes de los individuos tanto en el plano original
    como en el plano
    factorial . Estas
    últimas en particular son utilizadas para producir el mapa
    de individuos. El programa ESM produce además un archivo de nombre
    PLANF123.DAT en el que se encuentran las coordenadas de los
    individuos en los tres primeros ejes factoriales y que pueden ser
    utilizadas con fines gráficos o de clasificación en tres
    dimensiones. Este archivo siempre
    se almacena dentro del directorio del programa ESM.

    Salida 11

    Esta tabla contiene las distancias a las que se
    encuentra cada individuo respecto al centro de gravedad de la
    nube, es decir, respecto al origen de coordenadas del espacio
    factorial. Igualmente presenta los cosenos cuadrados para los
    primeros cinco factores, los cuales en la mayor parte de los
    casos son más que suficientes para lograr una adecuada
    representación de cualquier problema. El grado de
    representabilidad de un individuo en el espacio factorial formado
    por los r primeros factores se logra sumando los r
    cosenos cuadrados correspondientes y teniendo en cuenta que la
    máxima representabilidad de un individuo es 1.

    Salida 12

    Cuando se opta por esta salida, ella corresponde al mapa
    perceptual en dos dimensiones de las variables. Su utilidad, como ya
    se dijo, estriba en la presentación simple y efectiva de
    relaciones de dependencia entre ellas. Aquellas variables que
    formen ángulos rectos o aproximadamente rectos son
    independientes estadísticamente, es decir, no están
    correlacionadas. Las demás sí están
    correlacionadas y la magnitud de dicha correlación es
    proporcional al valor del coseno del ángulo que ellas
    formen. Esta regla es válida incluso para las variables y
    los ejes factoriales.

    Salida 13

    El mapa perceptual de individuos proyectados sobre el
    primer plano factorial es una excelente ayuda para visualizar
    relaciones de proximidad entre ellos. Estas relaciones
    serán tanto más fieles cuanto mayor sea el
    porcentaje de varianza total explicada por los dos primeros
    factores (ver salida 2).

    NOTA:

    Cuando se realiza ACP normado las salidas anteriores
    siguen teniendo las mismas interpretaciones pero muchos
    resultados se modifican de acuerdo con los nuevos valores de las
    varianzas de las variables originales que, en tal caso, toman el
    valor de 1 para todas ellas.

    UNA
    APLICACIÓN DEL ACP:

    Con frecuencia, después de un Manova
    (Análisis multivariado de varianza) para comparar
    tratamientos, si se rechaza la hipótesis de igualdad de
    medias, surge la pregunta de cómo comparar los diferentes
    tratamientos para decidir cuál de ellos es el mejor o el
    peor.

    No existen técnicas
    de comparación múltiple que, de manera directa, nos
    digan cuál es el mejor o el peor tratamientos, debido a
    que en no hay
    orden.

    Una solución podría ser la construcción de una variable indicadora
    (índice) como combinación lineal de las variables
    del problema. Tomar esta variable como una respuesta que resuma
    toda la información de las p variables del problema
    y realizar un anova univariado, tomando tal variable como
    representativa de la información que tienen todas las
    variables del problema. La construcción de una tal variable indicadora
    requeriría de discusión y análisis acerca de
    la importancia de cada variable dentro del problema. Esto puede
    ser discutido y analizado por especialistas que decidan
    qué peso asignar a cada variable

    Desde este punto de vista, el factor F1, cuando explica
    un alto porcentaje de variabilidad, sería la variable
    resumen que reúne la mayor parte de la información
    contemplada en todas las variables originales del
    problema.

    En el caso mencionado anteriormente, se haría
    ANOVA sobre las coordenadas de los individuos en el primer eje
    factorial, lo que ayudaría a clasificar los grupos.

    Veamos el siguiente ejemplo: se tienen medidas
    antropológicas de tres grupos en las
    siguientes variables. CRANE, ANBRA, BRAMA, PIERN y
    MANO

    GRUPO 1 GRUPO 2
    GRUPO
    3

    62 28 64 82 18 75 29 60 70 39 92 46 45 99 67

    65 32 65 87 15 78 26 72 65 26 88 57 51 89 54

    58 30 63 78 16 86 27 85 68 27 90 78 44 83 58

    76 27 66 75 19 74 32 84 79 36 96 43 34 79 68

    48 25 65 78 12 75 25 86 78 35 87 59 38 77 55

    58 31 67 79 14 81 31 88 84 28 98 65 40 69 43

    Criterio Valor F Approx. GL Hipot GL Error Valor
    P

    Pillai 1.86984 34.47644 10.00 24.00 .000

    Hotelling 38.91986 38.91986 10.00 20.00 .000

    Wilks .00318 36.80710 10.00 22.00 .000

    Roys .96739

    Como puede deducirse de los valores anteriores, se
    rechaza la igualdad de
    medias multivariadas. y, en consecuencia, se desea saber
    cuál de los tres grupos es el mayor y cuál el
    menor

    En este caso se hace ACP y se observa que el primer
    factor F1 explica un 72.5% de la variabilidad. En consecuencia,
    pueden calcularse los puntajes de los individuos respecto al
    primer factor y utilizarlos como variable única que
    reúne el 72% de la información del problema, para
    hacer ANOVA sobre ella.

    ANALISIS DE COMPONENTES PRINCIPALES

    Archivo Analizado: MEDIDAS.DAT ACP NO-NORMADO

    A partir de variables originales (Matriz de
    varianza-covarianza)

    Total de observaciones leídas en el archivo de
    datos: 18

    1. RESUMEN DE VARIABLES NO TRANSFORMADAS:

    VARIABLE: MEDIA: VARIANZA:

    V01=CRANE 77.0556 203.820261

    V02=ANBRA 38.3889 256.251634

    V03=BRAMA 62.0556 294.761438

    V04=PIERN 78.8333 66.735294

    V05=MANO 35.0000 350.235294

    2. VALORES PROPIOS:

    Valor Propio: Acumulado: Porcent.Acum:

    849.9824 849.9824 72.5362

    159.2916 1009.2741 86.1299

    78.0709 1087.3450 92.7924

    65.0688 1152.4138 98.3453

    19.3901 1171.8039 100.0000

    Promedio (Kaiser): 234.3608

    3. COEFICIENTES uij DE VARIABLES PARA CADA COMPONENTE
    Fj:

    (SOLUCION ORTOGONAL DE VECTORES UNITARIOS)

    ( Fj = u1j*V01 + u2j*V02 + … + upj*V0p )

    V/BLE F1 F2 F3 F4 F5 F6 F7 F8

    CRANE 0.404 0.546 -0.330 -0.124 0.643 — —

    ANBRA 0.486 -0.236 -0.430 0.698 -0.190 — —

    BRAMA -0.487 0.695 -0.060 0.476 -0.223 — —

    PIERN 0.078 -0.070 0.720 0.495 0.475 — —

    MANO 0.598 0.398 0.429 -0.160 -0.524 — —

    De acuerdo con lo anterior, los puntajes sobre el primer
    factor se calcularían, individuo por individuo, mediante
    el siguiente procedimiento
    MATLAB:

    y =

    62 28 64 82 18

    65 32 65 87 15

    58 30 63 78 16

    76 27 66 75 19

    48 25 65 78 12

    58 31 67 79 14

    75 29 60 70 39

    78 26 72 65 26

    86 27 85 68 27

    74 32 84 79 36

    75 25 86 78 35

    81 31 88 84 28

    92 46 45 99 67

    88 57 51 89 54

    90 78 44 83 58

    96 43 34 79 68

    87 59 38 77 55

    98 65 40 69 43

    m = mean(y)

    m =

    77.0556 38.3889 62.0556 78.8333 35.0000

    for j=1:18;

    mm(j,:) = m;

    end

    mm

    mm =

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    c=y-mm

    c =

    -15.0556 -10.3889 1.9444 3.1667 -17.0000

    -12.0556 -6.3889 2.9444 8.1667 -20.0000

    -19.0556 -8.3889 0.9444 -0.8333 -19.0000

    -1.0556 -11.3889 3.9444 -3.8333 -16.0000

    -29.0556 -13.3889 2.9444 -0.8333 -23.0000

    -19.0556 -7.3889 4.9444 0.1667 -21.0000

    -2.0556 -9.3889 -2.0556 -8.8333 4.0000

    0.9444 -12.3889 9.9444 -13.8333 -9.0000

    8.9444 -11.3889 22.9444 -10.8333 -8.0000

    -3.0556 -6.3889 21.9444 0.1667 1.0000

    -2.0556 -13.3889 23.9444 -0.8333 0

    3.9444 -7.3889 25.9444 5.1667 -7.0000

    14.9444 7.6111 -17.0556 20.1667 32.0000

    10.9444 18.6111 -11.0556 10.1667 19.0000

    12.9444 39.6111 -18.0556 4.1667 23.0000

    18.9444 4.6111 -28.0556 0.1667 33.0000

    9.9444 20.6111 -24.0556 -1.8333 20.0000

    20.9444 26.6111 -22.0556 -9.8333 8.0000

    for j=1:18;

    p(j)=c(j,1)*0.404 + c(j,2)*0.486 – c(j,3)*0.487 +
    c(j,4)*0.078 +

    c(j,5)*0.598;

    end

    p=p'

    p =

    -21.9974

    -20.7324

    -23.6624

    -17.7494

    -33.4984

    -26.2424

    -2.6894

    -16.9434

    -18.7244

    -14.4154

    -19.0634

    -18.4154

    38.7516

    31.0056

    47.3526

    43.3046

    37.5666

    36.1526

    O lo que es lo mismo, tomando las primeras coordenadas
    factoriales de la tabla siguiente, producida por ESM-Plus (el
    software
    mencionado al principio) junto con la variable de
    clasificación en los grupos originales:

    10. COORDENADAS DE INDIVIDUOS PROYECTADOS SOBRE
    PRIMEROS PLANOS:

    (PRIMERA SOLUCION SOBRE PLANO FACTORIAL
    UNITARIO)

    COORD. ORIGINALES CENTRADAS | COORDENADAS
    FACTORIALES

    (SOBRE EL PLANO X1-X2): | (SOBRE EL PLANO
    F1-F2):

    #OBS X1 X2 | F1 GRP F2

    1 -15.0556 -10.3889 -21.9899 1 -11.4097

    2 -12.0556 -6.3889 -20.7248 1 -11.5627

    3 -19.0556 -8.3889 -23.6549 1 -15.2789

    4 -1.0556 -11.3889 -17.7428 1 -1.2517

    5 -29.0556 -13.3889 -33.4893 1 -19.7642

    6 -19.0556 -7.3889 -26.2359 1 -13.6018

    7 -2.0556 -9.3889 -2.6882 2 1.8722

    8 0.9444 -12.3889 -16.9418 2 7.7282

    9 8.9444 -11.3889 -18.7275 2 21.0825

    10 -3.0556 -6.3889 -14.4219 2 15.4702

    11 -2.0556 -13.3889 -19.0685 2 18.7291

    12 3.9444 -7.3889 -18.4198 2 18.7755

    13 14.9444 7.6111 38.7474 3 5.8530

    14 10.9444 18.6111 30.9995 3 0.7620

    15 12.9444 39.6111 47.3414 3 -5.9534

    16 18.9444 4.6111 43.3033 3 2.8948

    17 9.9444 20.6111 37.5632 3 -8.0536

    18 20.9444 26.6111 36.1504 3 -6.2916

    GRAFICA DE INDIVIDUOS:

     

    Representación gráfica de individuos en el
    plano factorial F1F2

    La gráfica anterior muestra cómo los
    individuos forman tres (o dos ?) grupos diferentes entre
    sí, a saber, primer grupo: individuos 1 a 6. Segundo
    grupo: individuos 7 a 12 y tercer grupo: individuos 13 a 18, los
    cuales se proyectan sobre el primer eje, poniendo de manifiesto
    sus diferencias, como lo confirma el siguiente ANOVA realizado
    con los puntajes o primeras coordenadas:

    ANALISIS DE VARIANZA DE UNA VIA – (Diseño
    Completo Aleatorio)

    ANOVA: VAR-Clasif: GRUPO VAR-Análisis:
    SCORES

    TABLA ANOVA:

    FUENTE: SUM.CUADR GL CUADR.MEDIO F

    Modelo 13940.4596 2 6970.2298 205.3095

    Error 509.2479 15 33.9499 *****

    Total 14449.7075 17 ***** *****

    R2 = .964757 F tiene 2 y 15 Grados de
    libertad

    Valor P de probabilidad:
    0.00000000

    Valor exacto del CME = 33.94986100499991

    INTERVALOS DE CONFIANZA PARA MEDIAS EN CADA
    TRATAMIENTO:

    Variable de analisis: SCORES Var Clasific:
    GRUPO

    Numero de Tratamientos: 3

    MEDIAS E INTERVALOS PARA TRATAMIENTO # 1 :

    Media: -23.973 Err.Stand: 2.378720279372921

    Inter90%: [ -28.1429, -19.8031]

    Inter95%: [ -29.0421, -18.9039]

    Inter99%: [ -30.9831, -16.9629]

    MEDIAS E INTERVALOS PARA TRATAMIENTO # 2 :

    Media: -15.0447 Err.Stand: 2.378720279372921

    Inter90%: [ -19.2146, -10.8748]

    Inter95%: [ -20.1138, -9.9756]

    Inter99%: [ -22.0548, -8.0346]

    MEDIAS E INTERVALOS PARA TRATAMIENTO # 3 :

    Media: 39.0175 Err.Stand: 2.378720279372921

    Inter90%: [ 34.8476, 43.1874]

    Inter95%: [ 33.9484, 44.0866]

    Inter99%: [ 32.0074, 46.0276]

    COMPARACION DE MEDIAS POR PARES. MINIMAS DIFERENCIAS
    SIGNIFICATIVAS (LSD):

    Ho: μ(i)= μ(j) H1: μ(i) <>
    μ j) *DS* = Difieren signif. *ND* = No dif

    NOTA: Se presentan todas las combinaciones de
    tratamientos por pares.

    MEDIA DE TRATAM( 2 ) – MEDIA DE TRATAM( 1 ):

    Diferencia de medias = 8.92831667

    LSD(α=0.10) = 5.8971 *DS*

    LSD(α=0.05) = 7.1687 *DS*

    LSD(α=0.01) = 9.9138 *ND*

    MEDIA DE TRATAM( 3 ) – MEDIA DE TRATAM( 1 ):

    Diferencia de medias = 62.99046667

    LSD(α=0.10) = 5.8971 *DS*

    LSD(α=0.05) = 7.1687 *DS*

    LSD(α=0.01) = 9.9138 *DS*

    MEDIA DE TRATAM( 3 ) – MEDIA DE TRATAM( 2 ):

    Diferencia de medias = 54.06215000

    LSD(α=0.10) = 5.8971 *DS*

    LSD(α=0.05) = 7.1687 *DS*

    LSD(α=0.01) = 9.9138 *DS*

    Las técnicas usuales de comparaciones
    múltiples nos dirían que el grupo de mayor media es
    el tercero y el de menor media el primero aunque las diferencias
    de éste con el segundo no son tan fuertes. Esto se ve
    reflejado en la última gráfica si los individuos se
    proyectan sobre el eje horizontal .

    Bibliografía

    1. Dillon W., M. Goldstein; Multivariate
      Análisis. John Wiley & Sons. (1984)
    2. Escofier B., J. Pages; Análisis Factoriales
      Simples y Múltiples. Universidad
      del País Vasco. Bilbao (1992)
    3. Lebart, Morineau et Piron; Statistique Exploratoire
      Multidimensionnelle. Dunod. París. 1998
    4. Lozano L.; Estudio Bio-ecológico de los
      vectores de la enfermedad de Chagas en el Municipio de Coyaima
      – Tolima. Tesis de
      grado en Biología. Universidad
      del Tolima Ibagué (1999).

     

    Artículo presentado por

    Jairo Alfonso Clavijo Méndez

    Profesor de Estadística

    Universidad del Tolima – Ibagué,
    Colombia

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter