- Principios del
ACP - ACP normado
- ACP a partir de una
muestra - Conclusiones
- Análisis de componentes
principales - Una aplicación del
ACP - Bibliografía
El análisis de componentes principales (ACP),
es una técnica estadística de vieja data ya que fue
propuesta a principios del
siglo pasado por Karl Pearson como parte del análisis de factores. Sin embargo la
complejidad de los cálculos retrasaron su desarrollo
hasta la aparición de los computadores y su
utilización en la segunda mitad del siglo XX. El
relativamente reciente florecimiento de los métodos
basados en componentes principales hace que ellos sean poco
utilizados por una gran cantidad de investigadores no
especialistas en estadística.
El propósito de estas notas es divulgar la
naturaleza del
ACP y mostrar algunas de sus posibles aplicaciones.
Podría decirse que el objetivo
principal que persigue el ACP es la representación de las
medidas numéricas de varias variables en
un espacio de pocas dimensiones donde nuestros sentidos puedan
percibir relaciones que de otra manera permanecerían
ocultas en dimensiones superiores. Dicha representación
debe ser tal que al desechar dimensiones superiores (generalmente
de la tercera o cuarta en adelante) la pérdida de información sea mínima. Un
símil podría ilustrar la idea: imaginemos una gran
lámina rectangular (objeto de tres dimensiones) de por
ejemplo, 3m de larga, 2m de ancha y 4 cm de espesor. Para efectos
prácticos, dicha lámina puede ser considerara como
un objeto plano (de dos dimensiones) de 3m de largo por 2m de
ancho. Al realizar esta reducción de dimensionalidad se
pierde cierta cantidad de información ya que, por ejemplo, puntos
opuestos situados en las dos caras de la lámina
aparecerán confundidos en un solo. Se pierden las
distancias perpendiculares a las caras. Sin embargo, la
pérdida de información se ve ampliamente compensada
con la simplificación realizada, ya que muchas relaciones,
como la vecindad entre puntos, es más evidente cuando
éstos se dibujan sobre un plano que cuando se hace
mediante una figura tridimensional que necesariamente debe ser
dibujada en perspectiva.
Lo anterior, aunque sugiere que el ACP es una
técnica descriptiva, no niega la posibilidad de que
también pueda ser utilizado con fines de inferencia. Por
otra parte, las aplicaciones del ACP son numerosas y entre ellas
podemos citar la clasificación de individuos, la
comparación de poblaciones, la estratificación
multivariada, etc.
En las líneas que siguen se presentarán
los fundamentos del ACP, tratando de reducir al mínimo el
aparato matemático formal que lo sustenta, ésto en
aras de la sencillez y la brevedad y con el fin de que el tema
sea adecuado a públicos de mediana preparación en
matemáticas.
Comencemos con un sencillo ejemplo ficticio en dos
dimensiones. Supóngase que se mide el peso en kilogramos y
la longitud en centímetros de 20 peces y que se
obtienen los siguientes datos:
PEZ | PESO | LONGIT |
| PEZ | PESO | LONGIT |
1 | 0.5 | 15 | 11 | 3.5 | 55 | |
2 | 1.0 | 30 | 12 | 5.0 | 85 | |
3 | 2.5 | 55 | 13 | 6.0 | 75 | |
4 | 6.5 | 85 | 14 | 4.5 | 60 | |
5 | 4.5 | 70 | 15 | 1.5 | 50 | |
6 | 1.5 | 35 | 16 | 5.0 | 75 | |
7 | 2.5 | 65 | 17 | 7.5 | 85 | |
8 | 1.5 | 45 | 18 | 2.5 | 40 | |
9 | 3.5 | 45 | 19 | 3.5 | 65 | |
10 | 0.5 | 25 | 20 | 4.0 | 80 |
Los datos anteriores
pueden ser dibujados mediante un diagrama de
dispersión en un sistema
coordenado, obteniéndose una figura como la
siguiente:
Como se puede apreciar, cada variable puede
representarse sobre un eje coordenado y así cada pareja de
valores
representa las
medidas del i-ésimo individuo, los cuales al ser
representados en el plano forman la nube de
individuos.
Se quiere construir un nuevo sistema de
coordenadas ortogonales en el cual los puntos puedan ser
representados de una manera tal que sus proyecciones sobre el
nuevo primer eje recojan la mayor cantidad posible de
variación y las proyecciones sobre el segundo eje recoja
el resto de variación. Intuitivamente encontramos que
tales ejes corresponden a las rectas F1 y F2, representadas en la
siguiente gráfica cuyo origen se encuentra en el centro de
gravedad G de la nube (punto cuyas coordenadas son las medias de
las variables
consideradas), tal como se ve en la figura siguiente.
Con mucha frecuencia se maneja
simultáneamente un número p () de variables
numéricas. Si cada variable se representa sobre un eje, se
necesitaría un sistema de coordenadas rectangulares con
p ejes perpendiculares entre sí para ubicar las
coordenadas de los puntos y poderlos dibujar. Este dibujo es
realmente imposible para el ser humano cuando , pero la idea esbozada en
el ejemplo anterior sigue siendo válida: buscar un nuevo
sistema de coordenadas con origen en el centro de gravedad de la
nube de puntos de tal manera que el primer eje del nuevo sistema
(F1) recoja la mayor cantidad posible de variación, el
segundo eje F2, la mayor cantidad posible entre la
variación restante, el tercer eje F3 la mayor posible
entre la variación que queda después de las dos
anteriores y así sucesivamente.
Observando la figura anterior se puede deducir que el
nuevo sistema de coordenadas se logra después de dos
movimientos de la nube de puntos: un primer movimiento es
una traslación que permite situar el nuevo origen
en el centro de gravedad de la nube. La nueva nube, obtenida
después de esta traslación se llama nube
centrada. Un segundo movimiento que
se hace sobre la nube centrada es una rotación,
usando el centro de gravedad como punto pivotal. Esta
rotación ha de hacerse de tal manera que el nuevo primer
eje del sistema de coordenadas apunte en la dirección de máxima
dispersión de la nube centrada, el segundo eje apunte en
la dirección con la segunda mayor
dispersión (perpendicular a la anterior), el tercer eje en
la dirección de tercera mayor dispersión
(perpendicular a las dos anteriores) y así sucesivamente.
Es evidente que el nuevo sistema de coordenadas tiene entonces
tantos ejes perpendiculares entre sí como tenía el
antiguo, es decir, tantos ejes como variables se hayan
considerado inicialmente.
En los cursos de
álgebra
lineal se habla comúnmente de las transformaciones
lineales de un espacio vectorial y se demuestra que toda
transformación lineal está asociada a una matriz. En
particular, las rotaciones de un espacio vectorial son
transformaciones lineales del espacio vectorial sobre sí
mismo y están asociadas con matrices
cuadradas, unitarias y ortogonales. Una matriz de
éstas, Q, tiene tantas filas y columnas como sea la
dimensión del espacio, sus columnas son vectores
unitarios (es decir de longitud igual a la unidad) y tiene la
particularidad de que al ser multiplicada por su transpuesta
produce la matriz unidad. En otras palabras, . Las traslaciones no son
transformaciones lineales pero tienen la propiedad de
no modificar la variabilidad de la nube de puntos. Es decir, las
varianzas y covarianzas en la nube son las mismas antes y
después de una traslación.
Los resultados expuestos en el párrafo
anterior, junto con algunas propiedades de la matriz de varianzas
covarianzas ,
correspondiente a las variables originales y que serán
presentadas a continuación, constituyen las bases sobre
las cuales descansa la técnica de componentes
principales.
Consideremos entonces p variables aleatorias de
tipo numérico las cuales posiblemente estén correlacionadas entre
sí. Podemos pensar que las p variables anteriores,
consideradas conjuntamente, forman un vector aleatorio o variable
aleatoria multivariada, denotada por:
La matriz de varianzas covarianzas para la variable
está
definida como y
su entrada en la fila i columna j es el valor de la
covarianza entre . Esto hace que la diagonal de esté conformada por las varianzas
y que sea simétrica.
Además se puede probar que es una matriz definida positiva
(es decir, la forma cuadrática asociada a ella tiene todas
sus raíces positivas). Todas estas propiedades de
hacen que esta
matriz tenga p valores
propios reales y diferentes. Esto en particular garantiza que
sea
diagonalizable. Es decir, se puede encontrar una matriz , invertible, tal que
donde es la matriz diagonal
formada por los valores
propios de ,
denotados
Es posible reordenar de acuerdo con su magnitud los valores
propios de de tal
manera que sea el
mayor de ellos, el que le sigue, etc y el menor de todos. Esto simplemente se traduce en un
reordenamiento de las columnas de la matriz de manera que la primera
sea un vector propio asociado con , la segunda un vector propio asociado con
y así
sucesivamente. En particular dichas columnas pueden estar
formadas por vectores propios
normalizados, es decir, perpendiculares entre sí y de
longitud igual a la unidad. De esta manera se construye una
matriz que produce la rotación deseada ya que, como puede
probarse, el primer vector propio apunta en la dirección de máxima
variabilidad de la nube centrada. Esta dirección se llama
primera dirección principal. El segundo vector
propio apunta en
la siguiente dirección de máxima variabilidad de la
nube centrada, llamada segunda dirección principal
y así sucesivamente.
Una vez resuelto el problema de la rotación,
bastará multiplicar la variable centrada (donde cada fila
dees el centro de
gravedad G) por la matriz de rotación para obtener la nueva
variable ,
llamada Variable de Componentes Principales. Cada componente
del vector
aleatorio , se
llama una componente principal. Evidentemente se cumple
que es decir,
cada componente principal es una combinación lineal de las
variables originales centradas.
La traza de , por ser la suma de las varianzas de las variables
originales recibe
el nombre de varianza total, VT. Resulta claro que
. Se puede
probar además que para i =1,2,…,p y que . Esto implica varias
cosas, a saber:
- La varianza total es igual a la suma de los valores
propios de e
igual a la suma de las varianzas de las componentes
principales. Es decir, la varianza total es la misma con las
variables originales que con las variables transformadas,
- Las componentes principales son variables aleatorias
no correlacionadas entre sí obtenidas mediante
transformaciones lineales de las variables originales
centradas. Esto es: para - Resulta claro que para
- Si todas las variables originales
son normales entonces todas las componentes principales
son normales.
Como puede deducirse de lo anterior, la varianza total
se descompone en un número finito de partes disjuntas
de tamaños
cada vez menores, lo que en la práctica proporciona un
mecanismo para reducir la dimensionalidad de
representación de las variables. En efecto, si
despreciamos las últimas componentes principales, las primeras r
tendrán una tasa de representatividad igual a de la varianza total de
las variables originales. Muchas veces este porcentaje es
bastante alto con un pequeño valor de
r lo que se traduce en una alta representatividad en un
espacio de pocas dimensiones.
En la práctica resulta importante el caso
r = 2 ya que si, en tal caso se obtuviera una tasa de
representatividad alta, se habría logrado describir el
problema sobre un plano con una pequeña pérdida de
información. Por supuesto que si la reducción a un
espacio de dos dimensiones conlleva una alta pérdida de
representatividad no se habrá logrado un éxito y
las técnicas
que aquí se propondrán para visualización de
individuos y variables no serán muy buenas.
La ecuación implica lo que permite obtener las variables centradas originales
como combinaciones lineales de las componentes principales. Esto
en particular va a permitir representar gráficamente las
variables originales centradas dentro del espacio de componentes
principales, llamado espacio factorial, como puntos cuyas
coordenadas son los coeficientes de en la combinación lineal
correspondiente. Teniendo en cuenta que sólo las
componentes principales iniciales llevan la mayor parte de la
representatividad se podrá reducir el espacio factorial a
dos o tres dimensiones, lo que lleva a una representación
de las variables originales como vectores sobre un plano
(plano factorial) o sobre un espacio tridimensional. La
representación sobre el plano factorial es particularmente
útil pues permite visualizar relaciones de
correlación entre las variables originales y de
éstas con los ejes factoriales, lo que rápidamente
da una idea de cómo y en cuánto contribuye cada
variable a la conformación de los primeros factores
(así se llaman también las componentes principales)
y qué tan fuertes son las dependencias entre las
diferentes variables y los factores. Tal representación
plana se llama mapa perceptual de variables. Una alta
correlación positiva se traduce en vectores (flechas que
unen el origen con el punto representativo de la variable) que
forman un ángulo agudo. Una alta correlación
negativa se traduce en flechas opuestas que tienden a formar
ángulos llanos.. Finalmente, la ausencia de
correlación se traduce en flechas que tienden a formar
ángulos rectos. Esto sugiere que la correlación
entre dos variables se mida a través del coseno del
ángulo que ellas forman . Igualmente es factible realizar
un mapa perceptual de individuos, es decir, una proyección
de la nube de individuos sobre el plano factorial determinado por
, plano que
reúne la mayor representatividad de VT.
Puesto que uno de los objetivos que
se persiguen con el ACP es la representación de las
observaciones o individuos en un espacio de pocas dimensiones,
resulta interesante tener una medida de tal representación
para cada individuo. Una tal medida está dada por la suma
de cosenos cuadrados. Estos valores son los cuadrados de
los cosenos de los ángulos formados por el vector que
representa a cada individuo con los ejes del sistema de
coordenadas factoriales. La suma de todos estos cosenos es igual
a la unidad. Sin embargo, si se retienen r factores
(componentes), la suma de los r primeros cosenos cuadrados
mide el grado de representabilidad de cada individuos, siendo
mejor representados aquellos individuos para los cuales la suma
de los r primeros cosenos cuadrados esté más
cerca de 1.
Las correlaciones entre las variables
originales y los factores se conocen comúnmente como
cargas factoriales. Es posible calcular
analíticamente tales correlaciones lo que da origen a una
matriz de orden
, llamada
matriz de cargas. (algunos paquetes usan otros nombres:
Factor Pattern en SAS, Factor Matrix en SPSS, Factor Loadings en
STATISTICA, etc). Se puede probar que la correlación entre
la variable original y la componente principal está dada por . Así .
Cómo saber cuántos factores son
suficientes para una buena representación de un problema?
– Hay varios criterios. Talvez los dos más extendidos son
el criterio de Kaiser, según el cual se deben retener
tantos factores como valores propios de la matriz estén por encima
del promedio y
los diagramas de
Cattell. Otro criterio, quizás más natural,
consiste en retener tantos factores como sean necesarios para
lograr un alto porcentaje de explicación de la varianza
total. Para ello se usan los porcentajes acumulados de los
valores propios con base en la varianza total del problema, junto
con un criterio personal acerca
de qué se considera un buen porcentaje de
explicación (ver el ejemplo, salida 2, más
adelante).
Todo lo mencionado anteriormente tiene un sentido
geométrico y matemático muy claro pero en la
práctica tiene un problema de interpretación.
¿Qué significado tiene una variable artificial
que ha sido
construída, digámoslo así, como una mezcla
de otras variables cuyas naturalezas pueden ser muy diferentes?
¿Qué nombre puede recibir por ejemplo, una variable
conformada por un poco de edad, otro poco de peso,
otro poco de ingresos, etc? Por otra parte, el peso de
cada variable original, traducido fundamentalmente en
variabilidad, puede ser muy diferente para cada variable. Una
variable muy dispersa puede contribuir enormemente a la varianza
total mientras que una variable más homogénea
contribuye menos. Esto finalmente determina la
participación de cada variable en la conformación
de un factor.
Las inquietudes anteriores tienen una solución:
Realizar ACP con variables originales estandarizadas. Esto
resuelve los dos problemas: De
una parte, las variables estandarizadas no tienen nombre, son
simplemente números sin unidades en las cuales se expresen
las mediciones. De otra parte, la estandarización lleva
todas las escalas de medida a una escala
común de media 0 y varianza 1, con lo cual se elimina el
problema de medición y variabilidad diferente de las
variables originales. El ACP realizado con variables originales
estandarizadas se llama ACP normado. Se ve
fácilmente que el ACP normado equivale al ACP corriente
pero partiendo de la matriz de correlaciones en vez de la matriz de
varianzas covarianzas .
Resulta claro que el ACP normado debe ser la
técnica a seguir en cualquier caso., a menos que se
quieran explorar algunas otras posibilidades de tipo
teórico o que se tengan variables muy similares tanto en
su naturaleza
como en su escala de
medida.
ACP a partir
de una muestra.
Diremos finalmente que la matriz , por ser desconocida, no
puede ser usada directamente en los cálculos. En la
práctica, se usa la matriz de varianzas-covarianzas
, estimada a
partir de una muestra observada
de n individuos. Esta matriz constituye una
estimación de y, por tanto, los resultados obtenidos con ella constituyen
estimaciones de los correspondientes valores poblacionales. Se
debe saber, sin embargo, que será necesaria una muestra
aleatoria cuyo tamaño n sea mayor que el
número p de variables consideradas. El hecho de
usar la matriz en
vez de puede
eventualmente acarrear complicaciones de tipo computacional que
no se discuten aquí..
De lo dicho anteriormente se obtienen algunas
conclusiones que a manera de resumen práctico se anotan en
seguida:
- El ACP es una técnica que transforma ciertas
variables en otras incorrelacionadas, de media cero, que pueden
escribirse como combinaciones lineales de las primeras y que se
llaman factores o componentes principales, las cuales pueden
ordenarse por la magnitud de su varianza la cual está
dada por un valor propio de la matriz (en la práctica de ) - Las primeras r componentes principales bastan
para describir en alto porcentaje la variabilidad total de las
variables originales. Con frecuencia r vale 2 o 3,
siendo el primero de ellos el caso más
deseable. - Cuando el porcentaje de variabilidad explicado por
dos componentes principales es alto (70%?) se puede realizar
una representación gráfica de las variables
originales y de los individuos de la muestra (mapas
perceptúales) que muestran algunas relaciones de
correlación o semejanza entre ellos . - Aunque todas las variables originales entran en la
composición de cada componente principal, algunas son
más importantes que otras. Estas, las más
importantes, determinan la naturaleza de cada
componente
Presentaremos a continuación un ejemplo de pocos
datos (observaciones) en el que se ha realizado ACP no normado.
Esto, debido a que las variables consideradas son de naturaleza
semejante y están medidas en escalas muy similares. Los
cálculos han sido realizados con un programa de
computador
escrito por el autor.
EJEMPLO: Los datos siguientes corresponden a mediciones
morfométricas en micras realizadas por Leyder Lozano
(1999) sobre 30 machos silvestres de Rhodnius, en las siguientes
variables:
1. DEXO Distancia externa entre ojos
2. DINO Distancia interna entre ojos
3. DIOC Distancia interna entre ocelos
4. DAOC Distancia anteocular
5. DPOC Distancia postocular
6. LCAB Longitud de cabeza y cuello
7. COLL Ancho del collar
8. ILOB Ancho de intersección entre
lóbulos anteriores y medios
9. AHUM Ancho de húmeros
10. LTXE Longitud de torax y escutelo
1724.4 700.7 740.1 3425.1 1039.3 4535.4 1700.7 3464.5
4551.1 3472.4
1661.4 677.1 661.4 2590.0 968.5 4456.6 1708.6 3149.6
4527.5 3149.8
1653.5 669.2 653.5 2440.9 897.6 4133.8 1673.7 3377.9
4724.4 3551.1
1708.6 692.9 661.4 2614.0 1023.6 4440.9 1716.5 3433.0
4724.4 3401.5
1692.9 685.0 708.6 2677.1 1125.9 4622.0 1803.1 3149.6
4826.7 3496.0
1669.2 708.6 716.5 2590.5 1055.1 4472.4 1740.1 3149.6
4724.4 3464.5
1645.6 724.4 748.0 2669.2 1102.3 4629.9 1795.2 3149.2
4818.8 3488.1
1574.8 685.0 732.2 2724.4 1110.2 4551.1 1732.2 3196.8
4818.8 3377.9
1622.0 685.0 724.4 2677.1 1157.4 4543.3 1708.6 3149.6
4622.0 3370.0
1661.4 685.0 724.4 2645.6 1188.9 4606.2 1748.0 3417.3
4622.0 3417.3
1660.2 687.0 724.4 2640.5 1186.5 4543.3 1708.6 3149.6
4622.0 3371.0
1629.9 700.7 661.4 2519.6 1039.3 4377.9 1629.9 2905.5
4409.4 3267.7
1669.3 635.5 708.6 2692.9 1015.7 4551.1 1732.2 3149.6
4818.8 3393.7
1700.7 692.9 724.4 2661.4 1039.3 4367.7 1661.4 3149.6
4929.1 3574.8
1755.9 724.4 724.4 2692.9 1141.7 4748.0 1771.6 3149.6
4952.7 3661.4
1716.5 692.9 708.6 2716.5 1070.8 4606.2 1779.5 3149.6
4984.2 3661.4
1685.0 653.5 677.1 2716.5 1078.7 4598.4 1787.4 3070.8
4724.4 3574.8
1748.0 708.6 732.2 2755.9 1141.7 4724.4 1748.0 3149.6
4779.5 3645.6
1637.7 685.0 699.2 2519.6 1141.4 4472.4 1740.1 2858.2
4700.7 3370.0
1763.7 724.4 732.2 2740.1 1157.4 4866.1 1842.5 3307.0
4968.5 3669.2
1748.0 740.1 771.6 2614.1 1078.7 4496.0 1755.9 3149.6
4724.4 3464.5
1692.9 685.0 771.6 3070.8 1133.8 4984.2 1740.1 3354.3
4818.8 3645.6
1755.9 692.9 732.2 2842.5 1259.8 4897.6 1834.6 3149.6
4968.5 3755.9
1661.4 669.2 748.0 2653.5 1110.2 4606.2 1716.5 2921.2
4724.4 3456.6
1685.0 708.6 763.7 2732.2 1220.4 4763.7 1763.7 3149.6
4669.2 3464.5
1574.8 700.7 708.6 2543.3 1086.6 4417.3 1547.8 3118.1
4299.2 3149.6
1732.2 748.0 700.7 2724.4 1007.8 4653.5 1755.9 3149.6
4724.4 3582.6
1685.0 708.6 763.7 2732.2 1220.4 4763.0 1763.5 3149.4
4669.2 3465.0
1748.2 740.2 771.7 2614.0 1078.5 4496.2 1756.0 3150.0
4724.2 3464.3
1693.0 685.1 771.4 3070.5 1134.0 4984.0 1740.0 3352.5
4819.0 3646.0
Estos datos, divididos entre 100 (es decir,
transformadas a hectomicras), arrojan los siguientes
resultados. Las salidas corresponden a las ocho primeras
componenetes, número suficiente para explicar la mayor
parte de los casos corrientes.
ANALISIS DE
COMPONENTES PRINCIPALES
1. RESUMEN DE VARIABLES NO TRANSFORMADAS:
VARIABLE: MEDIA: VARIANZA:
V01=DEXO 1685.2367 2510.332057
V02=DINO 696.5400 618.590759
V03=DIOC 722.2067 1202.730989
V04=DAOC 2710.2433 35914.492195
V05=DPOC 1100.3833 6208.513851
V06=LCAB 4596.9600 35127.471448
V07=COLL 1736.7300 3390.947690
V08=ILOB 3177.3367 20486.984471
V09=AHUM 4733.0233 24947.907368
V10=LTXE 3482.4267 21480.854437
RESUMEN DE VARIABLES TRANSFORMADAS:
(Divididas entre 100.00000)
VARIABLE: MEDIA: VARIANZA:
V01=DEXO 16.8524 0.251033
V02=DINO 6.9654 0.061859
V03=DIOC 7.2221 0.120273
V04=DAOC 27.1024 3.591449
V05=DPOC 11.0038 0.620851
V06=LCAB 45.9696 3.512747
V07=COLL 17.3673 0.339095
V08=ILOB 31.7734 2.048698
V09=AHUM 47.3302 2.494791
V10=LTXE 34.8243 2.148085
2. VALORES PROPIOS:
(Para problema original – variables no
transformadas)
Valor Propio: Acumulado: Porcent.Acum:
80352.3846 80352.3846 52.9021
32004.6264 112357.0110 73.9732
21336.1201 133693.1311 88.0204
8946.0700 142639.2011 93.9103
3542.8077 146182.0088 96.2428
2368.4078 148550.4166 97.8021
1660.9098 150211.3264 98.8956
941.8004 151153.1269 99.5156
502.7664 151655.8932 99.8466
232.9320 151888.8253 100.0000
Promedio (Kaiser): 15188.8825
NOTA: Se debe tener en cuenta que las variables han sido
transformadas y, por tanto, algunas soluciones se
modifican.
ESM advierte esto indicando si la solución es
original o si ha sido modificada para que se introduzcan las
correcciones del caso.
3. COEFICIENTES uij DE VARIABLES PARA CADA COMPONENTE
Fj:
(SOLUCION ORTOGONAL DE VECTORES UNITARIOS)
( Fj = u1j*V01 + u2j*V02 + … + upj*V0p )
(Se presentan las 8 primeras componentes
principales)
V/BLE F1 F2 F3 F4 F5 F6 F7 F8
DEXO 0.108 0.066 0.081 -0.040 0.287 -0.103 0.654
0.275
DINO 0.012 0.013 -0.009 0.028 0.158 0.019 0.291
0.429
DIOC 0.071 -0.013 -0.076 0.015 -0.027 0.227 0.076
0.583
DAOC 0.505 -0.625 -0.007 -0.555 -0.154 0.114 0.054
-0.043
DPOC 0.132 0.063 -0.333 0.246 0.029 0.854 0.000
-0.078
LCAB 0.573 0.041 -0.567 0.388 -0.021 -0.427 -0.105
0.052
COLL 0.136 0.150 -0.008 0.074 -0.113 0.030 0.630
-0.585
ILOB 0.215 -0.403 0.604 0.651 -0.010 0.046 -0.021
0.004
AHUM 0.372 0.555 0.346 -0.115 -0.602 0.058 -0.048
0.170
LTXE 0.423 0.325 0.265 -0.187 0.701 0.079 -0.261
-0.139
4. COEFICIENTES vij DE VARIABLES PARA CADA COMPONENTE
Fj:
(SOLUCION ORTOGONAL DE VECTORES REESCALADOS AL VALOR
PROPIO)
(La suma de cuadrados de coeficientes es el valor
propio)
(Se presentan las 8 primeras componentes
principales)
V/BLE F1 F2 F3 F4 F5 F6 F7 F8
DEXO 0.307 0.118 0.118 -0.038 0.171 -0.050 0.266
0.084
DINO 0.034 0.024 -0.014 0.026 0.094 0.009 0.119
0.132
DIOC 0.201 -0.023 -0.111 0.014 -0.016 0.111 0.031
0.179
DAOC 1.432 -1.119 -0.011 -0.525 -0.092 0.055 0.022
-0.013
DPOC 0.374 0.114 -0.486 0.233 0.017 0.416 0.000
-0.024
LCAB 1.625 0.074 -0.829 0.367 -0.013 -0.208 -0.043
0.016
COLL 0.386 0.269 -0.012 0.070 -0.067 0.014 0.257
-0.180
ILOB 0.609 -0.721 0.882 0.616 -0.006 0.022 -0.009
0.001
AHUM 1.053 0.992 0.506 -0.109 -0.358 0.028 -0.020
0.052
LTXE 1.199 0.582 0.388 -0.177 0.417 0.039 -0.106
-0.043
NOTA: Estos valores están divididos por
100.00
5. PORCENTAJE DE CONTRIBUCION ABSOLUTA DE LAS
VARIABLES A LOS FACTORES:
V/BLE F1 F2 F3 F4 F5 F6 F7 F8
DEXO 1.17 0.43 0.66 0.16 8.21 1.07 42.74 7.55
DINO 0.01 0.02 0.01 0.08 2.48 0.03 8.48 18.38
DIOC 0.50 0.02 0.58 0.02 0.07 5.16 0.57 33.96
DAOC 25.54 39.11 0.01 30.78 2.37 1.29 0.29
0.18
DPOC 1.74 0.40 11.09 6.06 0.08 72.95 0.00
0.61
LCAB 32.86 0.17 32.19 15.09 0.05 18.22 1.10
0.27
COLL 1.85 2.26 0.01 0.55 1.28 0.09 39.75
34.23
ILOB 4.62 16.24 36.43 42.43 0.01 0.21 0.04
0.00
AHUM 13.81 30.76 11.98 1.33 36.24 0.34
0.23 2.90
LTXE 17.89 10.59 7.04 3.50 49.19 0.63 6.79
1.92
6. CARGAS FACTORIALES (CORRELACIONES VARIABLE
FACTOR):
V/BLE F1 F2 F3 F4 F5 F6 F7 F8
DEXO 0.61 0.23 0.24 -0.07 0.34 -0.10 0.53
0.17
DINO 0.14 0.10 -0.05 0.11 0.38 0.04 0.48 0.53
DIOC 0.58 -0.07 -0.32 0.04 -0.05 0.32 0.09
0.52
DAOC 0.76 -0.59 -0.01 -0.28 -0.05 0.03 0.01
-0.01
DPOC 0.48 0.14 -0.62 0.30 0.02 0.53 0.00
-0.03
LCAB 0.87 0.04 -0.44 0.20 -0.01 -0.11 -0.02
0.01
COLL 0.66 0.46 -0.02 0.12 -0.12 0.02 0.44
-0.31
ILOB 0.43 -0.50 0.62 0.43 -0.00 0.02 -0.01
0.00
AHUM 0.67 0.63 0.32 -0.07 -0.23 0.02 -0.01
0.03
LTXE 0.82 0.40 0.26 -0.12 0.28 0.03 -0.07
-0.03
7. COMUNALIDAD ACUMULADA PARA r FACTORES (Desde F1
hasta Fr):
V/BLE F1 F2 F3 F4 F5 F6 F7 F8
DEXO 0.09 0.11 0.12 0.12 0.15 0.16 0.23 0.23
DINO 0.00 0.00 0.00 0.00 0.01 0.01 0.03 0.04
DIOC 0.04 0.04 0.05 0.05 0.05 0.07 0.07 0.10
DAOC 2.05 3.30 3.30 3.58 3.59 3.59 3.59 3.59
DPOC 0.14 0.15 0.39 0.44 0.44 0.62 0.62 0.62
LCAB 2.64 2.65 3.33 3.47 3.47 3.51 3.51 3.51
COLL 0.15 0.22 0.22 0.23 0.23 0.23 0.30 0.33
ILOB 0.37 0.89 1.67 2.05 2.05 2.05 2.05 2.05
AHUM 1.11 2.09 2.35 2.36 2.49 2.49 2.49 2.49
LTXE 1.44 1.78 1.93 1.96 2.13 2.13 2.15 2.15
NOTA: Valores divididos por 10000.00
8. PORCENTAJE DE COMUNALIDAD ACUMULADA PARA r
FACTORES (De F1 a Fr):
V/BLE F1 F2 F3 F4 F5 F6 F7 F8
DEXO 37.57 43.09 48.66 49.22 60.81 61.82 90.09
92.93
DINO 1.89 2.79 3.09 4.22 18.43 18.56 41.34
69.32
DIOC 33.63 34.05 44.36 44.53 44.75 54.90 55.69
82.28
DAOC 57.14 91.99 91.99 99.66 99.89 99.98 99.99
100.00
DPOC 22.58 24.65 62.77 71.50 71.55 99.38 99.38
99.47
LCAB 75.16 75.31 94.86 98.71 98.71 99.94 99.99
100.00
COLL 43.89 65.22 65.26 66.70 68.04 68.10 87.57
97.08
ILOB 18.13 43.50 81.44 99.97 99.97 100.00 100.00
100.00
AHUM 44.47 83.93 94.18 94.66 99.80 99.84 99.85
99.96
LTXE 66.92 82.70 89.69 91.15 99.27 99.33 99.86
99.94
9. COEFICIENTES DE FACTORES
ESTANDARIZADOS:
(Solución para variables originales no
transformadas)
V/BLE f1 f2 f3 f4 f5 f6 f7 f8
DEXO 0.000 0.000 0.001 -0.000 0.005 -0.002 0.016
0.009
DINO 0.000 0.000 -0.000 0.000 0.003 0.000 0.007
0.014
DIOC 0.000 -0.000 -0.001 0.000 -0.000 0.005 0.002
0.019
DAOC 0.002 -0.003 -0.000 -0.006 -0.003 0.002 0.001
-0.001
DPOC 0.000 0.000 -0.002 0.003 0.000 0.018 0.000
-0.003
LCAB 0.002 0.000 -0.004 0.004 -0.000 -0.009 -0.003
0.002
COLL 0.000 0.001 -0.000 0.001 -0.002 0.001 0.015
-0.019
ILOB 0.001 -0.002 0.004 0.007 -0.000 0.001 -0.001
0.000
AHUM 0.001 0.003 0.002 -0.001 -0.010 0.001 -0.001
0.006
LTXE 0.001 0.002 0.002 -0.002 0.012 0.002 -0.006
-0.005
10. COORDENADAS DE INDIVIDUOS PROYECTADOS SOBRE
PRIMEROS PLANOS:
(Solucion para variables originales no
transformadas)
(PRIMERA SOLUCION SOBRE PLANO FACTORIAL
UNITARIO)
COORD. ORIGINALES CENTRADAS | COORDENADAS
FACTORIALES
(SOBRE EL PLANO X1-X2): | (SOBRE EL PLANO
F1-F2):
#OBS X1 X2 | F1 F2
1 39.1633 4.1600 308.4647 -676.3719
2 -23.8367 -19.4400 -392.6139 -155.3205
3 -31.7367 -27.3400 -376.6340 62.0936
4 23.3633 -3.6400 -135.2741 -86.0639
5 7.6633 -11.5400 44.3162 101.4354
6 -16.0367 12.0600 -156.1795 67.0999
7 -39.6367 27.8600 32.4427 94.1382
8 -110.4367 -11.5400 -38.0020 -12.6348
9 -63.2367 -11.5400 -145.4060 -73.4327
10 -23.8367 -11.5400 -33.9147 -133.0950
11 -25.0367 -9.5400 -155.4726 -45.8328
12 -55.3367 4.1600 -524.2864 -52.4279
13 -15.9367 -61.0400 -61.9010 31.0893
14 15.4633 -3.6400 -66.6662 156.7850
15 70.6633 27.8600 247.5191 221.2107
16 31.2633 -3.6400 175.8114 211.9338
17 -0.2367 -43.0400 17.2343 70.5800
18 62.7633 12.0600 191.0872 75.2528
19 -47.5367 -11.5400 -296.9643 188.2739
20 78.4633 27.8600 395.1997 156.5277
21 62.7633 43.5600 -112.6327 62.0939
22 7.6633 -11.5400 552.1767 -177.7371
23 70.6633 -3.6400 479.0572 189.8097
24 -23.8367 -27.3400 -95.1172 121.2177
25 -0.2367 12.0600 91.9968 -25.5972
26 -110.4367 4.1600 -542.4581 -264.4037
27 46.9633 51.4600 67.3265 33.5292
28 -0.2367 12.0600 91.7368 -25.4129
29 62.9633 43.6600 -112.6243 61.8431
30 7.7633 -11.4400 551.7775 -176.5833
11. DISTANCIA DE CADA PUNTO AL ORIGEN Y COSENOS
CUADRADOS:
(Solucion para variables originales no
transformadas)
#OBS DISTANCIA COS2-F1 COS2-F2 COS2-F3 COS2-F4
COS2-F5
1 798.3544 0.1493 0.7178 0.0401 0.0826 0.0000
2 458.9522 0.7318 0.1145 0.0112 0.0096 0.0443
3 619.3934 0.3697 0.0100 0.5806 0.0029 0.0223
4 340.8316 0.1575 0.0638 0.5440 0.2018 0.0068
5 129.9518 0.1163 0.6093 0.0002 0.0030 0.1367
6 183.0733 0.7278 0.1343 0.1115 0.0010 0.0029
7 131.8562 0.0605 0.5097 0.0066 0.0110 0.1803
8 183.0629 0.0431 0.0048 0.0214 0.0003 0.7571
9 194.6592 0.5580 0.1423 0.1617 0.0200 0.0112
10 295.0976 0.0132 0.2034 0.0320 0.6839
0.0051
11 205.3898 0.5730 0.0498 0.1687 0.0674
0.0001
12 575.3153 0.8305 0.0083 0.1047 0.0305
0.0183
13 172.5112 0.1288 0.0325 0.0653 0.0593
0.5306
14 335.1969 0.0396 0.2188 0.4632 0.1775
0.0080
15 335.9610 0.5428 0.4335 0.0014 0.0000
0.0019
16 316.0621 0.3094 0.4496 0.1578 0.0742
0.0055
17 164.0829 0.0110 0.1850 0.0404 0.3148
0.1254
18 232.1617 0.6775 0.1051 0.0291 0.0080
0.1728
19 414.7394 0.5127 0.2061 0.1827 0.0758
0.0084
20 449.3825 0.7734 0.1213 0.0087 0.0837
0.0002
21 172.3821 0.4269 0.1298 0.0579 0.0006
0.0315
22 590.7747 0.8736 0.0905 0.0092 0.0033
0.0000
23 528.1866 0.8226 0.1291 0.0247 0.0003
0.0048
24 268.5873 0.1254 0.2037 0.4295 0.2147
0.0017
25 224.6041 0.1678 0.0130 0.6554 0.1198
0.0081
26 641.0275 0.7161 0.1701 0.0728 0.0170
0.0057
27 168.9111 0.1589 0.0394 0.0037 0.0673
0.2818
28 224.0464 0.1677 0.0129 0.6557 0.1188
0.0085
29 172.4513 0.4265 0.1286 0.0580 0.0004
0.0315
30 590.0569 0.8745 0.0896 0.0095 0.0031
0.0000
Representación gráfica de
las variables en el plano factorial F1F2
(Las flechas han sido agregadas para
mayor facilidad de interpretación)
GRAFICA DE INDIVIDUOS:
Representación gráfica de individuos en el
plano factorial F1F2
GRAFICA DE CARGAS FACTORIALES:
Representación gráfica de Cargas (K) en el
plano factorial F1F2
EXPLICACIÓN DE LAS SALIDAS
ANTERIORES – ESM-PLUS:
Salida 1
Estos valores corresponden a las medias y las varianzas
estimadas de cada una de las variables consideradas en el
análisis, junto con la nomenclatura
usada por el programa para la
representación gráfica de ellas: V01, V02,
etc
Salida 2
Representa los valores propios de la matriz , como estimaciones de
, ordenados de
mayor a menor, junto con los valores acumulados de ellos y el
correspondiente porcentaje acumulado que representan de la
varianza total, dada en este caso por VT = 151888.8. Como puede
observarse en este caso el primero y segundo valor propio cubren
un 73.9732% de la varianza total, valor que se considera alto. En
consecuencia, podrían retenerse los dos primeros factores
los cuales explican 73.9732% del problema. Se pierde entonces un
26% de la información pero se logra reducir la
dimensión del problema de 10 (número original de
variables) a 2. Se ha "aplanado" el problema logrando mantener
más del 70% de la representabilidad del mismo.
Nótese que, según el criterio de Kaiser,
sólo los tres primeros factores tienen varianza por encima
del promedio 15188.88. En consecuencia, este criterio recomienda
retener las tres primeras componentes.
Salida 3
Está conformada por la matriz de rotación. En
este caso cada columna es un vector unitario y dos cualesquiera de ellas son
ortogonales. Representan por tanto, vectores de una base
ortonormal de .
Además cada columna contiene los coeficientes de las
variables originales centradas para la conformación de la
correspondiente componente principal.
Salida 4
Los vectores reescalados son vectores propios de S que
han sido modificados en su longitud de tal manera que su norma
sea igual al correspondiente valor propio. Aunque la matriz
conformada por tales vectores -llamada matriz de
coordenadas por algunos paquetes- no es una matriz de
rotación, presenta la ventaja de que cada coeficiente es
proporcional a la contribución que hace la correspondiente
variable a las componentes principales. Por ejemplo, en la
formación del factor la variable que más aporta es DAOC, le sigue
AHUM.
Salida 5
Esta tabla presenta de una manera más expedita la
importancia de cada variable en la conformación de cada
componente, medida por la contribución de ella a la
componente. Es el cuadrado del coeficiente de la variable,
expresado como porcentaje. Como puede observarse la primera
componente está formada en más de un 90% por LCAB,
DAOC, LTXE y AHUM; mientras que la segunda componente lo es en
más del 96% por DAOC, AHUM ILOB y LTXE. Como
conclusión, diremos que las medidas cefalotoráxicas
son las más importantes para describir a los animales
examinados.
Salida 6
Esta tabla contiene los valores de las correlaciones de
cada una de las variables originales con cada una de las
componentes principales o factores. Cuando una variable está fuertemente
correlacionada con un factor su representación gráfica vectorial es
tal que ella se sitúa muy cerca del eje correspondiente,
contribuyendo entonces casi exclusivamente a la
conformación de dicho factor. Esta contribución es
tanto mayor cuanto más alejada del origen se encuentre
pues en tal caso
su proyección sobre el eje es mayor.
Salida 7
Se define la comunalidad entre y como la porción de varianza que es
compartida por estas dos variables. Este concepto es
importante pues dicho valor es una medida de la
explicación de la variable por el factor . En particular, si se retienen r de los
p factores es de interés
conocer el grado de explicación de cada una de las
variables originales por los factores retenidos juntos. Esto es
la comunalidad acumulada por los r factores retenidos. En
el caso, por ejemplo, al retener los dos primeros factores se
explica un total de 3.30 de la varianza de DAOC. De igual manera
se explica un total de 2.65 de la varianza de LCAB.
Salida 8
La magnitud de la comunalidad acumulada, dada por la
tabla anterior es mucho más comprensible si se expresa en
términos de porcentajes. Esto es lo que muestra la tabla
8. Por ejemplo, diríamos de acuerdo con ella, que dos
factores explican el 91.99% de la varianza de DAOC y el 75.31% de
la varianza de LCAB, etc.
Salida 9.
Los factores son variables aleatorias ya que son combinaciones lineales
de los centrados.
Esto implica que pueden ser estandarizados en la forma usual. Se
pueden entonces construir los factores estandarizados de acuerdo
con la expresión:
La tabla correspondiente proporciona los coeficientes
que expresan cada factor estandarizado en términos de las
variables originales centradas, esto es, en la forma:
Esta salida es la que de ordinario presentan algunos
paquetes como Statistica .
Salida 10
Estas tablas corresponden a las coordenadas de las dos
primeras componentes de los individuos tanto en el plano original
como en el plano
factorial . Estas
últimas en particular son utilizadas para producir el mapa
de individuos. El programa ESM produce además un archivo de nombre
PLANF123.DAT en el que se encuentran las coordenadas de los
individuos en los tres primeros ejes factoriales y que pueden ser
utilizadas con fines gráficos o de clasificación en tres
dimensiones. Este archivo siempre
se almacena dentro del directorio del programa ESM.
Salida 11
Esta tabla contiene las distancias a las que se
encuentra cada individuo respecto al centro de gravedad de la
nube, es decir, respecto al origen de coordenadas del espacio
factorial. Igualmente presenta los cosenos cuadrados para los
primeros cinco factores, los cuales en la mayor parte de los
casos son más que suficientes para lograr una adecuada
representación de cualquier problema. El grado de
representabilidad de un individuo en el espacio factorial formado
por los r primeros factores se logra sumando los r
cosenos cuadrados correspondientes y teniendo en cuenta que la
máxima representabilidad de un individuo es 1.
Salida 12
Cuando se opta por esta salida, ella corresponde al mapa
perceptual en dos dimensiones de las variables. Su utilidad, como ya
se dijo, estriba en la presentación simple y efectiva de
relaciones de dependencia entre ellas. Aquellas variables que
formen ángulos rectos o aproximadamente rectos son
independientes estadísticamente, es decir, no están
correlacionadas. Las demás sí están
correlacionadas y la magnitud de dicha correlación es
proporcional al valor del coseno del ángulo que ellas
formen. Esta regla es válida incluso para las variables y
los ejes factoriales.
Salida 13
El mapa perceptual de individuos proyectados sobre el
primer plano factorial es una excelente ayuda para visualizar
relaciones de proximidad entre ellos. Estas relaciones
serán tanto más fieles cuanto mayor sea el
porcentaje de varianza total explicada por los dos primeros
factores (ver salida 2).
NOTA:
Cuando se realiza ACP normado las salidas anteriores
siguen teniendo las mismas interpretaciones pero muchos
resultados se modifican de acuerdo con los nuevos valores de las
varianzas de las variables originales que, en tal caso, toman el
valor de 1 para todas ellas.
Con frecuencia, después de un Manova
(Análisis multivariado de varianza) para comparar
tratamientos, si se rechaza la hipótesis de igualdad de
medias, surge la pregunta de cómo comparar los diferentes
tratamientos para decidir cuál de ellos es el mejor o el
peor.
No existen técnicas
de comparación múltiple que, de manera directa, nos
digan cuál es el mejor o el peor tratamientos, debido a
que en no hay
orden.
Una solución podría ser la construcción de una variable indicadora
(índice) como combinación lineal de las variables
del problema. Tomar esta variable como una respuesta que resuma
toda la información de las p variables del problema
y realizar un anova univariado, tomando tal variable como
representativa de la información que tienen todas las
variables del problema. La construcción de una tal variable indicadora
requeriría de discusión y análisis acerca de
la importancia de cada variable dentro del problema. Esto puede
ser discutido y analizado por especialistas que decidan
qué peso asignar a cada variable
Desde este punto de vista, el factor F1, cuando explica
un alto porcentaje de variabilidad, sería la variable
resumen que reúne la mayor parte de la información
contemplada en todas las variables originales del
problema.
En el caso mencionado anteriormente, se haría
ANOVA sobre las coordenadas de los individuos en el primer eje
factorial, lo que ayudaría a clasificar los grupos.
Veamos el siguiente ejemplo: se tienen medidas
antropológicas de tres grupos en las
siguientes variables. CRANE, ANBRA, BRAMA, PIERN y
MANO
GRUPO 1 GRUPO 2
GRUPO
3
62 28 64 82 18 75 29 60 70 39 92 46 45 99 67
65 32 65 87 15 78 26 72 65 26 88 57 51 89 54
58 30 63 78 16 86 27 85 68 27 90 78 44 83 58
76 27 66 75 19 74 32 84 79 36 96 43 34 79 68
48 25 65 78 12 75 25 86 78 35 87 59 38 77 55
58 31 67 79 14 81 31 88 84 28 98 65 40 69 43
Criterio Valor F Approx. GL Hipot GL Error Valor
P
Pillai 1.86984 34.47644 10.00 24.00 .000
Hotelling 38.91986 38.91986 10.00 20.00 .000
Wilks .00318 36.80710 10.00 22.00 .000
Roys .96739
Como puede deducirse de los valores anteriores, se
rechaza la igualdad de
medias multivariadas. y, en consecuencia, se desea saber
cuál de los tres grupos es el mayor y cuál el
menor
En este caso se hace ACP y se observa que el primer
factor F1 explica un 72.5% de la variabilidad. En consecuencia,
pueden calcularse los puntajes de los individuos respecto al
primer factor y utilizarlos como variable única que
reúne el 72% de la información del problema, para
hacer ANOVA sobre ella.
ANALISIS DE COMPONENTES PRINCIPALES
Archivo Analizado: MEDIDAS.DAT ACP NO-NORMADO
A partir de variables originales (Matriz de
varianza-covarianza)
Total de observaciones leídas en el archivo de
datos: 18
1. RESUMEN DE VARIABLES NO TRANSFORMADAS:
VARIABLE: MEDIA: VARIANZA:
V01=CRANE 77.0556 203.820261
V02=ANBRA 38.3889 256.251634
V03=BRAMA 62.0556 294.761438
V04=PIERN 78.8333 66.735294
V05=MANO 35.0000 350.235294
2. VALORES PROPIOS:
Valor Propio: Acumulado: Porcent.Acum:
849.9824 849.9824 72.5362
159.2916 1009.2741 86.1299
78.0709 1087.3450 92.7924
65.0688 1152.4138 98.3453
19.3901 1171.8039 100.0000
Promedio (Kaiser): 234.3608
3. COEFICIENTES uij DE VARIABLES PARA CADA COMPONENTE
Fj:
(SOLUCION ORTOGONAL DE VECTORES UNITARIOS)
( Fj = u1j*V01 + u2j*V02 + … + upj*V0p )
V/BLE F1 F2 F3 F4 F5 F6 F7 F8
CRANE 0.404 0.546 -0.330 -0.124 0.643 — —
—
ANBRA 0.486 -0.236 -0.430 0.698 -0.190 — —
—
BRAMA -0.487 0.695 -0.060 0.476 -0.223 — —
—
PIERN 0.078 -0.070 0.720 0.495 0.475 — —
—
MANO 0.598 0.398 0.429 -0.160 -0.524 — —
—
De acuerdo con lo anterior, los puntajes sobre el primer
factor se calcularían, individuo por individuo, mediante
el siguiente procedimiento
MATLAB:
y =
62 28 64 82 18
65 32 65 87 15
58 30 63 78 16
76 27 66 75 19
48 25 65 78 12
58 31 67 79 14
75 29 60 70 39
78 26 72 65 26
86 27 85 68 27
74 32 84 79 36
75 25 86 78 35
81 31 88 84 28
92 46 45 99 67
88 57 51 89 54
90 78 44 83 58
96 43 34 79 68
87 59 38 77 55
98 65 40 69 43
m = mean(y)
m =
77.0556 38.3889 62.0556 78.8333 35.0000
for j=1:18;
mm(j,:) = m;
end
mm
mm =
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
77.0556 38.3889 62.0556 78.8333 35.0000
c=y-mm
c =
-15.0556 -10.3889 1.9444 3.1667 -17.0000
-12.0556 -6.3889 2.9444 8.1667 -20.0000
-19.0556 -8.3889 0.9444 -0.8333 -19.0000
-1.0556 -11.3889 3.9444 -3.8333 -16.0000
-29.0556 -13.3889 2.9444 -0.8333 -23.0000
-19.0556 -7.3889 4.9444 0.1667 -21.0000
-2.0556 -9.3889 -2.0556 -8.8333 4.0000
0.9444 -12.3889 9.9444 -13.8333 -9.0000
8.9444 -11.3889 22.9444 -10.8333 -8.0000
-3.0556 -6.3889 21.9444 0.1667 1.0000
-2.0556 -13.3889 23.9444 -0.8333 0
3.9444 -7.3889 25.9444 5.1667 -7.0000
14.9444 7.6111 -17.0556 20.1667 32.0000
10.9444 18.6111 -11.0556 10.1667 19.0000
12.9444 39.6111 -18.0556 4.1667 23.0000
18.9444 4.6111 -28.0556 0.1667 33.0000
9.9444 20.6111 -24.0556 -1.8333 20.0000
20.9444 26.6111 -22.0556 -9.8333 8.0000
for j=1:18;
p(j)=c(j,1)*0.404 + c(j,2)*0.486 – c(j,3)*0.487 +
c(j,4)*0.078 +
c(j,5)*0.598;
end
p=p'
p =
-21.9974
-20.7324
-23.6624
-17.7494
-33.4984
-26.2424
-2.6894
-16.9434
-18.7244
-14.4154
-19.0634
-18.4154
38.7516
31.0056
47.3526
43.3046
37.5666
36.1526
O lo que es lo mismo, tomando las primeras coordenadas
factoriales de la tabla siguiente, producida por ESM-Plus (el
software
mencionado al principio) junto con la variable de
clasificación en los grupos originales:
10. COORDENADAS DE INDIVIDUOS PROYECTADOS SOBRE
PRIMEROS PLANOS:
(PRIMERA SOLUCION SOBRE PLANO FACTORIAL
UNITARIO)
COORD. ORIGINALES CENTRADAS | COORDENADAS
FACTORIALES
(SOBRE EL PLANO X1-X2): | (SOBRE EL PLANO
F1-F2):
#OBS X1 X2 | F1 GRP F2
1 -15.0556 -10.3889 -21.9899 1 -11.4097
2 -12.0556 -6.3889 -20.7248 1 -11.5627
3 -19.0556 -8.3889 -23.6549 1 -15.2789
4 -1.0556 -11.3889 -17.7428 1 -1.2517
5 -29.0556 -13.3889 -33.4893 1 -19.7642
6 -19.0556 -7.3889 -26.2359 1 -13.6018
7 -2.0556 -9.3889 -2.6882 2 1.8722
8 0.9444 -12.3889 -16.9418 2 7.7282
9 8.9444 -11.3889 -18.7275 2 21.0825
10 -3.0556 -6.3889 -14.4219 2 15.4702
11 -2.0556 -13.3889 -19.0685 2 18.7291
12 3.9444 -7.3889 -18.4198 2 18.7755
13 14.9444 7.6111 38.7474 3 5.8530
14 10.9444 18.6111 30.9995 3 0.7620
15 12.9444 39.6111 47.3414 3 -5.9534
16 18.9444 4.6111 43.3033 3 2.8948
17 9.9444 20.6111 37.5632 3 -8.0536
18 20.9444 26.6111 36.1504 3 -6.2916
GRAFICA DE INDIVIDUOS:
Representación gráfica de individuos en el
plano factorial F1F2
La gráfica anterior muestra cómo los
individuos forman tres (o dos ?) grupos diferentes entre
sí, a saber, primer grupo: individuos 1 a 6. Segundo
grupo: individuos 7 a 12 y tercer grupo: individuos 13 a 18, los
cuales se proyectan sobre el primer eje, poniendo de manifiesto
sus diferencias, como lo confirma el siguiente ANOVA realizado
con los puntajes o primeras coordenadas:
ANALISIS DE VARIANZA DE UNA VIA – (Diseño
Completo Aleatorio)
ANOVA: VAR-Clasif: GRUPO VAR-Análisis:
SCORES
TABLA ANOVA:
FUENTE: SUM.CUADR GL CUADR.MEDIO F
Modelo 13940.4596 2 6970.2298 205.3095
Error 509.2479 15 33.9499 *****
Total 14449.7075 17 ***** *****
R2 = .964757 F tiene 2 y 15 Grados de
libertad
Valor P de probabilidad:
0.00000000
Valor exacto del CME = 33.94986100499991
INTERVALOS DE CONFIANZA PARA MEDIAS EN CADA
TRATAMIENTO:
Variable de analisis: SCORES Var Clasific:
GRUPO
Numero de Tratamientos: 3
MEDIAS E INTERVALOS PARA TRATAMIENTO # 1 :
Media: -23.973 Err.Stand: 2.378720279372921
Inter90%: [ -28.1429, -19.8031]
Inter95%: [ -29.0421, -18.9039]
Inter99%: [ -30.9831, -16.9629]
MEDIAS E INTERVALOS PARA TRATAMIENTO # 2 :
Media: -15.0447 Err.Stand: 2.378720279372921
Inter90%: [ -19.2146, -10.8748]
Inter95%: [ -20.1138, -9.9756]
Inter99%: [ -22.0548, -8.0346]
MEDIAS E INTERVALOS PARA TRATAMIENTO # 3 :
Media: 39.0175 Err.Stand: 2.378720279372921
Inter90%: [ 34.8476, 43.1874]
Inter95%: [ 33.9484, 44.0866]
Inter99%: [ 32.0074, 46.0276]
COMPARACION DE MEDIAS POR PARES. MINIMAS DIFERENCIAS
SIGNIFICATIVAS (LSD):
Ho: μ(i)= μ(j) H1: μ(i) <>
μ j) *DS* = Difieren signif. *ND* = No dif
NOTA: Se presentan todas las combinaciones de
tratamientos por pares.
MEDIA DE TRATAM( 2 ) – MEDIA DE TRATAM( 1 ):
Diferencia de medias = 8.92831667
LSD(α=0.10) = 5.8971 *DS*
LSD(α=0.05) = 7.1687 *DS*
LSD(α=0.01) = 9.9138 *ND*
MEDIA DE TRATAM( 3 ) – MEDIA DE TRATAM( 1 ):
Diferencia de medias = 62.99046667
LSD(α=0.10) = 5.8971 *DS*
LSD(α=0.05) = 7.1687 *DS*
LSD(α=0.01) = 9.9138 *DS*
MEDIA DE TRATAM( 3 ) – MEDIA DE TRATAM( 2 ):
Diferencia de medias = 54.06215000
LSD(α=0.10) = 5.8971 *DS*
LSD(α=0.05) = 7.1687 *DS*
LSD(α=0.01) = 9.9138 *DS*
Las técnicas usuales de comparaciones
múltiples nos dirían que el grupo de mayor media es
el tercero y el de menor media el primero aunque las diferencias
de éste con el segundo no son tan fuertes. Esto se ve
reflejado en la última gráfica si los individuos se
proyectan sobre el eje horizontal .
- Dillon W., M. Goldstein; Multivariate
Análisis. John Wiley & Sons. (1984) - Escofier B., J. Pages; Análisis Factoriales
Simples y Múltiples. Universidad
del País Vasco. Bilbao (1992) - Lebart, Morineau et Piron; Statistique Exploratoire
Multidimensionnelle. Dunod. París. 1998 - Lozano L.; Estudio Bio-ecológico de los
vectores de la enfermedad de Chagas en el Municipio de Coyaima
– Tolima. Tesis de
grado en Biología. Universidad
del Tolima Ibagué (1999).
Artículo presentado por
Jairo Alfonso Clavijo Méndez
Profesor de Estadística
Universidad del Tolima – Ibagué,
Colombia