- ¿Qué
tamaño de muestra tomar? - ¿Qué ocurre cuando
se violan los supuestos del ANOVA? - ¿Cuál es la
comparación múltiple más
conveniente? - ¿Cuándo debo
usar un ANOVA y cuando una prueba T? - ¿Qué
diferencias hay entre usar el test de Wilcoxon o el de Kruskall
– Wallis? - ¿Cómo se
expresan los resultados del ANOVA? - ¿Cómo se calcula
la LD 50? - ¿El análisis de
las encuestas lleva alguna prueba
estadística? - ¿El
Análisis de Componentes Principales se puede usar para
formar grupos? - ¿Cuándo
realizo un análisis de Cluster por donde hago el corte
del dendograma? - Referencia
Al Lector:
Estas páginas no pretenden mostrar como realizar
una u otra prueba estadística, esto aparece en los
libros de
texto. Solo,
se quiere reflejar algunas de las interrogantes que tiene el
investigador a la hora de presentar sus resultados.
Dedicamos estas páginas a dar respuesta a 10 de
esas interrogantes y esperamos que el investigador encuentre en
ellas la sugerencia que buscaba. Las respuestas han surgido a
partir de la experiencia en las matemáticas aplicadas a la rama de la
salud animal y la
protección vegetal, por ello hemos denominado a estas
páginas La Estadística del Agropecuario.
Quisiéramos añadir que solo encontrará en
ella 10 preguntas y mis respuestas, sirvan estas para que inicie
una investigación en aquellas que sean de su
interés.
Por otra parte, si usted es de los que considera que no
todos los resultados deben ser acompañados de una prueba
estadística, le diré que está usted en lo
cierto. Pero, cerciore que efectivamente no es necesario aplicar
estadística. La manera más sencilla de explicar la
importancia de hacer un test es a
través de este ejemplo basado en problemática
planteadas a una muestra formada
por un conjunto de sillas seleccionadas al azar de una población X.
Digamos que se quiere demostrar que Las sillas son
rojas: Solo bastará con mostrar una foto de las
sillas, todos verán que son rojas y una prueba
estadística estaría de más. Ahora bien, si
además quiere probar que las sillas son
rojas…
- De intenso a Marrón: De un intervalo de
confianza en que se mueve la muestra - Como el melón: Compare con una muestra
control
(silla color
melón) - Y no son amarillas: Compare con una muestra de sillas
amarillas - Y más que otras sillas: Compare con otra u
otras muestras de sillas rojas procedentes de otra
población. - Antes eran azules: Compare antes con
después - Con mayor probabilidad:
Calcule la probabilidad de que la silla sea de otro color y
pruebe que es mínima. - En la mayoría de sus partes: Calcule la
porción de silla que no es roja y pruebe que es
mínima. - Y esta otra silla que también es roja tiene
una mancha amarilla. No haga estadística muestre las dos
sillas, usted ha probado que una de las sillas no es roja, sino
que tiene una mancha amarilla. Y aun así creo que
sería muy ilustrativo si agrupa las sillas de su muestra
y la de la mancha pertenece a otro grupo.
Si logre convencerlo que es necesaria la
estadística, esperamos que también, las 10
interrogantes y respuestas sean de su utilidad. Le
agradezco de antemano su elección y le pido me haga llegar
aquellas interrogantes que por una razón u otra no
están en este folleto.
La autora
Hemos querido dedicar un epígrafe a una pregunta
indispensable en toda investigación. Esta pregunta es:
¿Qué tamaño de muestra tomar? o lo que es lo
mismo, ¿Qué tamaño de muestra se necesita
para…?.
Lo más importante de esta interrogante es tener
bien claro el objetivo que
se persigue, y una idea más o menos precisa de la
dispersión de los datos. Las
fórmulas para el cálculo
del tamaño de muestra están descritas en la
literatura de
forma dispersa, por ello, se muestran a continuación para
facilitarle el trabajo al
investigador.
Estimar una proporción
Supongamos que se desea conocer con que probabilidad
ocurre determinado fenómeno. Por ejemplo, se desea conocer
que cantidad de pollos habría que pesar para determinar
que más del 90% aumenta de peso al ingerir una determinada
dieta (Hipótesis nula H0: P=0.90 y
Hipótesis
alternativa H1: P>0.90), en este o en casos
similares, para calcular el tamaño de muestra
mínimo, se emplea la fórmula:
Donde
- Z1-a es el percentil 1- a de la distribución normal para un nivel
a de
significación, según la tabla de
percentiles:
P | 0.90 | 0.95 | 0.975 | 0.99 | 0.995 | 0.999 | 0.9995 |
Zp | 1.282 | 1.645 | 1.96 | 2.326 | 2.576 | 3.090 | 3.291 |
- P. Es la proporción esperada (0.90 en el
ejemplo) - d Es el error máximo permisible, esto es la
cantidad mínima que aceptamos que el valor real
se aleje del esperado sin resultar un error
significativo.
En lo adelante, Z1-k P y d tienen igual
significado al definido anteriormente.
Comparar dos proporciones
Cuando en lugar de estimar una proporción se
comparan dos proporciones
(H0: P1=P2 y
H1: P1¹ P2), se emplea la
fórmula:
Siendo a
el error de primer tipo (rechazar H0 siendo
verdadera) también conocido como nivel de
significación y b el error de segundo tipo (aceptar
H0 siendo falsa).
Cuando las proporciones a comparar son pequeñas
(del orden 10-3 o inferiores), se emplea la
fórmula:
Estimar una media
La fórmula más empleada es la que se
utiliza para estimar la media de una población con
varianza S2 y un error máximo permisible
d:
Comparación de la media con un
valor
Si nuestro objetivo es probar la hipótesis Ho
µ=µ0 se empleará la
fórmula:
Comparar dos medias
Esto, puede extenderse a la prueba H0 :
µ1=µ2
Comparar medias provenientes de a
grupos
Si nuestro objetivo es comparar las medias de a grupos, se
empleará la fórmula:
S2 varianza
d Error máximo permisible
a Nivel de
significación
- 2(1-P) Probabilidad de una diferencia sea
encontrada
significativa.
y
valores de la
tabla T de students.
n0 n inicial conocida.
Realizar un análisis de regresión
Para realizar un análisis de regresión en
el cual se quiere que la correlación sea elevada, se debe
tomar una n tal que:
r. coeficiente de correlación
estimado.
¿QUÉ
OCURRE CUANDO SE VIOLAN LOS SUPUESTOS DEL ANOVA?
En este acápite, no se ejemplifica como realizar
e interpretar un análisis de varianza (ANOVA), pues esto
aparece en los libros de texto. Sin embargo, es conveniente
señalar que el ANOVA, a pesar de su nombre es una
técnica que permite la comparación de medias de una
característica en varias poblaciones. A esta
característica, la denominamos variable dependiente o
respuesta, porque depende de uno o varios factores, cada uno de
ellos con varios niveles.
El ANOVA permitirá, en base a la respuesta
obtenida en un experimento, decidir si los factores y sus niveles
influyen o no en las medias de las poblaciones y en caso de que
influyan permitirá estimar el efecto de las
mismas.
Así por ejemplo, si se desea conocer si tres
variedades de caña tienen igual rendimiento
agrícola o si alguna de ellas es superior a las restantes,
se realizará un ANOVA donde, la variable respuesta es el
rendimiento y el factor es la variedad. Si además de
evaluarse el rendimiento, se quiere probar el efecto que producen
diferentes dosis de un determinado fertilizante, tendremos dos
factores dosis y variedad. Si se quiere, se puede incluir la
interacción de estos factores en el
análisis. Los modelos
matemáticos simple, doble y factorial que describen estos
análisis serán descritos en otras de las
interrogantes que responderemos posteriormente.
Ahora, nos ocupa ¿Qué ocurre si violamos
los supuestos del ANOVA?, entendiendo por supuestos aquellas
leyes cuyo
cumplimiento es necesario para realizar un análisis
estadístico. Al igual que la afirmación de que la
suma de cuadrados de los catetos es igual al cuadrado de la
hipotenusa es valida solamente si el triángulo es
rectángulo, el ANOVA será valido solamente si las
poblaciones cumplen los supuestos establecidos y que
son:
– Normalidad: La variable respuesta sigue una
distribución normal.
Esto se comprueba mediante la prueba de bondad de ajuste
de Kolmogorov –smirnov, o la prueba de bondad de ajuste Chi
–cuadrado, no se debe confundir este test con la prueba chi
– cuadrado de independencia.
Si estas prueban aseguran la no normalidad de los datos,
esto puede remediarse llevando los datos a otra escala, o lo que
es lo mismo, usando transformaciones como logaritmo, arcseno,
raíz cuadrada, etc. en dependencia de la naturaleza de
los datos. Si ninguna de las transformaciones usuales logra la
normalidad debemos tener en cuenta, que es conocido que si el
tamaño de muestra es grande, la hipótesis de
normalidad pierde importancia.
Por otra parte, la mayoría de las pruebas de
distribución libre ("no paramétricas") no requieren
de este supuesto de normalidad en los datos. En su lugar, estas
pruebas casi siempre suponen que todos los grupos a comparar
tienen la misma distribución (no necesariamente la
normal).
– Homosedasticidad u homogeneidad de varianzas:
Las varianzas de los grupos a comparar no deben diferir
significativamente una de otra.
Este es el supuesto más importante, incluso los
test no paramétrico exigen su cumplimiento. Sin embargo,
pequeñas desviaciones de homogeneidad de varianza
tampoco afectarán los resultados.
Existen diferentes métodos
para comprobar si existe o no homogeneidad de varianza. Dado que
los manuales de los
paquetes estadísticos convencionales no se detienen en la
explicación de los mismo, daremos una sencilla
explicación de los más fáciles de
aplicar:
Método Visual. Si hay varios grupos (>
3) se puede observar si existe heterogeneidad de varianza
si existe una correlación (positiva) entre la media y
la varianza.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Puesto que el supuesto es que todos los grupos tiene
igual varianzas, independientemente de las diferencias entre las
medias, entonces al graficar las medias contra las varianzas de
cada grupo no debe haber ninguna correlación (la
línea entre los puntos debe ser plana).
Prueba F de Homogeneidad de Varianzas. Esta
prueba estadística se usa para someter a prueba la
hipótesis: Ho: s 12 =
s
22 = s 32
a. Encontrar la varianza
más grande y la más chica de todos los grupos a
comparar
b. Calcular la razón de estas varianzas:
Esta es la Fmax
c. Elegir un error (a ) aceptable de cometer errores (Tipo
I), normalmente 0.05
d. El test supone que todos los grupos a
comparar son del mismo tamaño. Si los grupos son
distintos, usar el grupo con menor tamaño muestral (n)
para calcular los grados de libertad
(aunque este no sea el con menor o mayor varianza).
e. Mirar en la tabla de
distribución acumulada de Fmax los valores
de probabilidad con a número de grupos y n-1
grados de libertad (tamaño muestral más chico).
Estos valores han
sido calculados bajo el supuesto que las varianzas son
homogéneas.
f. Si Fmax observado mayor que el de la
tabla a un a =
0.05, entonces rechazamos la hipótesis nula que las
varianzas son homogéneas ( existe heterogeneidad de
varianzas)
Existen otras pruebas estadísticas para verificar si las
varianzas son o no homogéneas, estas son Test de Bartlett
(no muy recomendable pues es muy sensitiva a normalidad) y el
Test C de Cocrhan.
Algunas transformaciones usadas para lograr normalidad
logran también homogeneidad en las varianzas. Por ello, se
recomienda que si los datos primarios no cumplen ninguno de los
dos supuestos, se utilice una transformación y se trate de
asegurar, en primer lugar homosedasticidad. De hecho, la
principal razón para transformar los datos es para mejorar
la homogeneidad de las varianzas y no para resolver el problema
de normalidad, ya que este último es un problema menor en
ANOVA.
Cuando la igual de varianza deseada, no se logra con
transformaciones, recuerde entonces que aunque la prueba T exige
normalidad tiene dos variantes, una para varianzas
homogéneas y otra para varianzas
heterogéneas.
– Independencia: Los grupos a comparar con
independientes en cuanto a la variable respuesta que se
analiza.
A diferencia de los otros dos supuestos, este no es una
característica de la población, no depende de esta
sino, de la forma en que se tome la muestra, pudiendo ser
garantizado por el investigador. Recuerde también que la
prueba T no pareada es una alternativa para comparar medias de
grupos dependientes.
Vimos las alternativas al incumplimiento de supuestos en
el ANOVA, pero
¿Por qué usar estas variantes?
¿Qué ocurre cuando se violan los supuestos?. El
lector, debe tener presente que las decisiones
estadísticas., son decisiones probabilísticas y por
tanto, lo más importante no es tomar una decisión,
sino además, conocer la probabilidad de equivocarse al
tomar dicha decisión. Violar los supuestos del ANOVA
significa que no podemos estar seguros que el
Error Tipo I sea realmente a .
¿CUÁL
ES LA COMPARACIÓN MÚLTIPLE MÁS
CONVENIENTE?
Cuando un investigador realiza un análisis de
varianza y resulta que existe diferencia significativa entre los
tratamientos, es decir, que todos los tratamientos no tienen el
mismo efecto sobre la variable de interés,
requerirá conocer cuales de los tratamientos son
significativamente diferentes. Este resultado se obtiene
realizando pruebas de comparación múltiple, como
son:
- Prueba de la Mínima Diferencia Significativa
(LSD)
Muy útil para comparar dos medias aunque en
ocasiones se utiliza para comparaciones múltiples,
siempre y cuando la prueba F halla resultado
significativa.
- Prueba de Rangos Múltiples de
DUNCAN
Para realizar esta prueba no es estrictamente
necesario realizar previamente la prueba F y que esta resulte
significativa, aunque es recomendable realizarla a fin de
evitar contradicciones. En ocasiones esta prueba se utiliza
después de aplicar un test no paramétrico aunque
estos test tienen sus propias pruebas de comparación
múltiple.
- Prueba de Rangos Múltiples de
Tukey
Este procedimiento
es llamado también << diferencia significativa
honesta>> porque es una de las pruebas más
exigentes en el sentido que cuando los valores promedios son
muy próximos no detecta diferencia significativa. Es
posible que DUNCAN detecte diferencia significativa entre 12.5
y 13.1 y que Tukey no la detecte.
En este sentido las pruebas de comparación
múltiple se pueden ordenar como sigue:
LSD DUNCAN Scheffe Tukey
Sentido en el que disminuye el error de tipo
I.
Error de tipo I o error de primera clase: Error
cometido al rechazar la hipótesis nula cuando la
hipótesis nula es verdadera.
- Dunnet
Es otra prueba de comparación, útil cuando
el investigador está interesado en conocer que tratamiento
es diferente del testigo o control, es decir, se desea comparar
en tratamiento control con cada uno de los tratamientos en
estudio, sin necesidad de comparar los tratamientos entre
si.
De manera general, la conveniencia de uno u otro test
está dada por el objetivo que se persigue enfocado al
Error de tipo I.
¿CUÁNDO DEBO USAR UN ANOVA Y
CUANDO UNA PRUEBA T?
Esta pregunta va dirigida al cumplimiento de los
supuestos del ANOVA, es decir, ¿Existe algún
supuestos del ANOVA que no sea un supuesto para la prueba
T?
Al igual que el ANOVA, la prueba T exige normalidad de
los datos. Sin embargo, es posible que con menos de 30 unidades
muestrales este supuesto se cumpla. De ahí que algunos
digan que el ANOVA se utiliza a partir de n>30 y que la prueba
T se puede utilizar con una n inferior aunque mayor que
15.
También se debe señalar que existe una
prueba T para muestras dependientes (pareadas) y otra para
muestras independientes (no pareadas). De la misma forma existe
una prueba T para varianzas homogéneas y otra para
varianzas no homogéneas.
¿QUÉ DIFERENCIAS HAY ENTRE USAR
EL TEST DE WILCOXON O EL DE KRUSKALL –
WALLIS?
Los métodos no paramétricos son los
métodos más desconocidos de la estadística,
lo más importante para estos y cualquier otro método es
conocer cuando deben ser aplicados. Estos métodos no
exigen normalidad de la variable, por tanto pueden ser probados
con pocos datos e incluso con variables de
naturaleza no continua.
Kruskall – Wallis es similar a un análisis
de varianza, por tanto su objetivo es comparar medias de varios
grupos y Wilcoxon es similar a la prueba T pareada por ello su
objetivo es comparar medias de dos grupos
dependientes.
Krukall – Wallis solo necesita que la variable
esté en una escala ordinal, calcula diferencia entre
grupos a partir de los rangos que toman sus valores en una lista
ordenada de todos los datos. Por ejemplo si al tener una lista de
9 valores pertenecientes a 3 grupos diferentes y al ordenarlos
obtenemos
Rango 1 2 3 4 5 6 7 8 9
Grupo A B C B A C C B A
La suma de rangos de es 15, la de B 14 y la de C 16, por
lo que los rangos están distribuidos al azar y se concluye
que no hay diferencia entre los grupos. Por el contrario, si los
rangos, se distribuyen:
Rango 1 2 3 4 5 6 7 8 9
Grupo A A B A B C B C C
Entonces, Ho es falsa y se concluye que hay diferencia
entre los grupos.
¿Cómo procede Kruskall –
Wallis?
Calcula el estadígrafo
donde:
N : número total de elementos
Ri : Rango promedio del grupo i
ni: número de elementos del grupo
i.
Se busca en una tabla el valor crítico
Hc, si H>Hc rechazo la hipótesis
nula y por tanto existe diferencia entre los grupos. Para conocer
entre cual par de grupos está la diferencia se calcula
para cada par de grupos 1 y 2:
Si |R1-R2|>CD entonces
existe diferencia significativa entre 1 y 2.
Friedman es otro test utilizado para comparar varias
medias, solo que es utilizado cuando estas medias son del mismo
grupo. Por ejemplo, se comparan resultados de tres operadores que
realizan una misma técnica X y luego la técnica
control. Para comparar los resultados de una técnica y la
otra empleó Kruskall – Wallis y para comparar los
operadores dentro de la misma técnica empleó
Friedman. Todo esto sería similar a un análisis de
varianza bifactorial.
¿Cómo procede el Test de
Friedman?
Por ejemplo, si se tienen 6 grupos de 3 elementos cada
uno, se ordenan los 18 elementos y una vez ordenados, a los 6
primeros se les da rango 1, a los 6 siguientes se les da rango 2
y a los últimos 6 rango 3.
Para ver la tabla seleccione la
opción "Descargar" del menú superior
Note que ahora se distribuyeron como 3 nuevos grupos de
6 elementos. A estos nuevos grupos se les llama niveles, para
estos nuevos grupos se calcula.
Se calcula
donde:
N es el número de elementos por grupo (en el
ejemplo 6)
R Rango de cada grupo
K número de niveles
=8.33
>
Rechazo Ho,
existe diferencia entre los grupos.
La comparación múltiple en este caso
sería similar al caso de Kruskall – Wallis pero, CD
se calcula como:
Por su parte, el test de Wilcoxon también opera
con los rangos. Pongamos un ejemplo, para comprender su proceder:
Un fisiólogo animal desea examinar si la tasa del corazón de
los animales cambia
en respuesta al decrecimiento de la temperatura.
El investigador hace dos medidas de proporción del
corazón para cada grupo: el primero a temperatura "normal"
y un segundo a temperatura "baja". Los resultados para las
medidas de proporción de corazón para 10 individuos
son como sigue:
Para ver la tabla seleccione la
opción "Descargar" del menú superior
Se suman los rangos positivos y negativos R+
= 48.5 y R- =-6.5
Se define Ts como el menor valor absoluto de
la suma de rangos, en este caso Ts= 6.5. Se busca
Tc de una tabla(Tc= 7 para el ejemplo) si
Ts<Tc, como en este caso, entonces no
hay diferencia significativa entre los grupos.
¿CÓMO SE EXPRESAN LOS RESULTADOS DEL
ANOVA?
Una vez que se realiza cualquier análisis de
comparación de medias, ya sea paramétrico o no
paramétrico se expresan los resultados en tablas o
gráficos. Anteriormente, se debió
especificar en algún acápite (puede ser materiales y
métodos) cual fue el método estadístico
empleado, denotándolo por su nombre completo.
En este sentido recuerde identificar el objetivo de
trabajo, el
diseño
empleado (completamente al azar, por bloques al azar, cuadrado
latino etc). En el caso específico del análisis de
varianza muestre además si es ANOVA simple (un solo
factor) doble (dos factores si interacción) factorial (dos
o más factores y su interacción).
En caso de un Modelo Lineal
General (GLM) aunque muchos autores exponen si es de efecto fijo,
efecto aleatorio o efecto mixto, desde los años 80 Fisher
consideró que esta distinción era absolutamente
innecesaria. De cualquier forma, hay que insistir en que los
efectos no andan sueltos en la naturaleza como fijos o
aleatorios, sino que según uno los considere de una forma
u otra, serán diferentes las conclusiones a las que se
arribe.
Para mayor comprensión de estos términos
los explicaremos con ejemplos. En el modelo
Yij=m
i+eij tenemos el valor
verdadero m
i desconocido, y el error eij . Este
valor verdadero m
es naturalmente fijo, al ser inmutable en cada
repetición hipotética del experimento , y el
que las muestras se desvíen de ese valor se debe,
indudablemente, a un error aleatorio que cambia en cada
muestra.
Si por ejemplo, deseo medir la composición
química
del lomo de cerdo y utilizo cinco cerdos en el experimento, y
tomo de cada cerdo dos muestras. Hay un efecto común en
las dos muestras de cada cerdo, pero no es fijo, porque se supone
que si se repite el experimento se toman otros cinco cerdos, el
efecto cerdo es un efecto aleatorio.
Por poner otro ejemplo, supongamos que estoy interesado
en medir el peso de cerdos alimentados con piensos distintos. Al
provenir los cerdos de la misma madre, hay un efecto común
a sus pesos debido a la madre. Siempre que se repita el
experimento y los cerdos provengan de la misma madre, la madre
será un efecto fijo, pero estos resultados solo son
validos para esa madre y esos piensos. Si deseo evaluar el efecto
madre, lo mejor es hacer un ANOVA que evalué ambas
componentes (pienso y madre). Si las muestras se componen de
varios cerdos hijos de la misma madre, tenemos un modelo
mixto.
Ahora bien, si en cada repetición cambio de
pienso, el pienso será un efecto aleatorio a elegir al
azar de los muchos posibles. Entonces, las conclusiones pueden
darse para todos los piensos. Por ejemplo, tomo cerdos de tres
camadas, a la camada 1 le suministro un tipo de pienso 1, a la 2
el tipo 2 y a la 3 el tipo 3, puedo realizar el modelo
Yijk= Pi+Cj+eijk
donde P indica el efecto pienso y C el efecto camada.
Por otra parte, cuando sea necesario transformar los
datos para lograr el supuesto de normalidad que exige el ANOVA,
nunca ponga en sus resultados las medias transformadas, ponga la
originales especificando en materiales y métodos que
transformación uso. Las transformaciones más usadas
son:
Logaritmo Log(y), útil cuando los datos crecen en
sentido exponencial.
Raíz cuadrada útil cuando los números observados son
pequeños 0-10.
Arcseno(
cuando los datos son expresados en porciento.
Veamos ahora como mostrar los resultados. Suponga que se
ha realizado un experimento para decidir la mejor dosis y el
mejor tratamiento que produce los mayores rendimientos. Con los
datos:
dosis | tratamiento | rendimiento | ||||
1 | A | 12.1 | 12.3 | 12.4 | 13 | 12.8 |
1 | B | 15.1 | 15.3 | 14.1 | 13.9 | 13.8 |
2 | A | 11.7 | 11.8 | 12 | 11.2 | 11.9 |
2 | B | 14 | 15.1 | 14.8 | 14.2 | 14.1 |
Se realiza un ANOVA bifactorial y resulta que la
interacción dosis * tratamiento es significativa. Los
resultados pueden ser expresados en tablas o en
gráficos.
Por ejemplo:
El mejor rendimiento promedio se obtiene al aplicar el
tratamiento B ya sea con una u otra dosis (tabla 1).
….<< Obviamente usted debe explicar además
las implicaciones teóricas a las que esto conduce,
así como confrontar con lo obtenido por otros autores
>>.
Tabla 1. Efecto de la interacción dosis
tratamiento sobre el rendimiento
Dosis | Tratamiento | Media±Error |
1 | A | 12.52±0.16 b |
1 | B | 14.44±0.31 a |
2 | A | 11.72±0.13 c |
2 | B | 14.44±0.21 a |
Medias con letras diferentes difieren para
p<0.05
Note:
- El texto que refiere a la tabla siempre se coloca
antes que esta. - La tabla no lleva el nombre del text
estadístico. Elimine de sus publicaciones
identificaciones como Tabla 1. resultados del ANOVA. Las tablas
y gráficos siempre se deben identificar con los
resultados y/o con el objetivo que persiguen. - Utilice estadígrafos que
muestren la dispersión de la muestra. Convenientemente
se utiliza media± Error Estándar.
Este resultado también puede ser mostrado en un
gráfico:
Para ambas dosis existe una diferencia significativa
entre los tratamiento, obteniéndose los mejores
rendimientos con el tratamiento B (figura 1).
Figura 1. Efecto de la
interacción dosis tratamiento sobre el
rendimiento.
Note que si en lugar de usar los tratamientos como
leyenda, hubiese usado las dosis, el efecto visual no
sería el mismo (figura 2). Utilice siempre como leyenda
aquel factor en el que quiero fijar la atención del lector.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Figura 2. Efecto de la interacción dosis
tratamiento sobre el rendimiento.
De todo ello, se concluye que usted debe verificar que
gráfico es el más conveniente y que solo debe optar
por graficar cuando:
- Se quiere mostrar proporciones de aumento o
disminución de fenómenos simultáneos
(Ejemplo comparar tratamientos) - Es necesario exponer variaciones cualitativas o
cuantitativas de fenómenos en el tiempo o en
el espacio(ejemplo gráficos de dinámica) - La comparación entre eventos no es
evidente por simple inspección en una tabla. - Resulta más importante obtener la idea de la
variación global o la proporción de
variación, que la precisión numérica del
fenómeno.
Se ha traído este acápite porque el
cálculo de la LD50 es una de las aplicaciones de la
modelación que más se utiliza, sin embargo el
procedimiento no siempre se hace de la forma adecuada.
La LD 50 o Dosis Letal media, no es más que la
dosis individual de una sustancia que provoca la muerte del
50% de la población animal debido a la exposición
a la sustancia por cualquier vía distinta a la
inhalación. Normalmente expresada como miligramos o gramos
de material por kilogramo de peso del animal.
Determinar el valor de LD50 es la manera estándar
de determinar la toxicidad química y es un concepto que debe
ser familiar a todos los que usan pesticidas. La dosis mortal
exacta de cualquier producto
químico es difícil de determinarse. Pero, es
imprescindible en muchos casos, ya que incluso los materiales
benignos como el agua, por
ejemplo, pueden ser mortales. Hay muchas variables que
podrían ser responsables de la muerte de
cualquier animal dentro de un grupo especificado de organismos.
Así, los científicos han tenido que determinar
toxicidad relativa. Esto se expresa generalmente como nivel
LD50.
El objetivo para calcular LD 50 puede ser demostrar que
un producto no es toxico (un químico que se utilice como
plaguicida) o por el contrario que una pequeña dosis es
capaz de exterminar la población (un raticida)
Como hacer el cálculo
Por lo general, se tiene un experimento en el que se
calculan de un total de animales cuantos mueren (porciento) a
determinada dosis del producto. Digamos que evaluamos dosis de
30, 40, 50 y 60 mg de un determinado producto y con las dosis de
30 y 40 solo muere el 40% de la población, con 50 mg muere
el 80% y con 60 muere toda la población.
Entonces, se busca la ecuación de mejor ajuste
(modelo con mayor coeficiente de determinación
R2) y por calibración (interpolación o
despeje de la variable independiente x) se obtiene la LD 50. En
este ejemplo se obtiene:
De lo cual debemos buscar dosis (x) para la cual y es
50. Esto es resolver la ecuación
50=0.05×2-2.3x+61. Las soluciones de
esta ecuación son 5.42 y 40.57 aproximadamente. Sabemos
que la dosis letal media debe estar entre 40 y 60 mg por lo que
se decide que la LD 50 del producto es de 40.57.
En los resultados se expone la ecuación y la LD
50 resultante. Es conveniente, aunque no imprescindible incluir
el gráfico.
Explicado de esta forma parece muy sencillo, sin embargo
este método no es del todo efectivo porque en ocasiones
las dosis son dadas en potencia de 10,
lo cual hace que se trabaje con el Logaritmo y no con la dosis
tal cual. También, se debe señalar que es necesario
dar un intervalo de confianza para el LD50. De ahí que se
halla ideado el análisis Probit
El análisis Probit se basa en la
cuantificación probabilística de la
vulnerabilidad ante efectos físicos de una magnitud
determinada que se suponen conocidos.
La vulnerabilidad se expresa como el número de
individuos que, previsiblemente pueden resultar afectados con un
cierto nivel de daño
por determinada causa. Muy aplicable al caso que nos ocupa que
queremos saber cuando esa vulnerabilidad es el 50% de la
población total.
Descripción del método
Probit
El método permite determinar la proporción
de población que resultara afectada en un punto dado.
Consiste en asociar la probabilidad de un daño, con unas
determinadas unidades Probit. El resultado es una curva de estas
características:
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
O sea, se debe buscar una relación Y=a+b Ln(x) y
el procedimiento que le sigue es similar al explicado, buscar la
x para la cual Y=50.
Ejemplo:
Estudio de la toxicidad del clorhidrato de | |||
Dosis en mg./Kg) | Número de | Número de | Porcentaje |
0,8 | 20 | 20 | 100 |
0,7 | 24 | 20 | 84 |
0,6 | 30 | 24 | 77 |
0,5 | 50 | 26 | 52 |
0,4 | 30 | 5 | 16,4 |
0,3 | 20 | 0 | 0 |
Se calcula el Logaritmo neperiano (Ln) de la dosis y se
obtiene una ecuación lineal que relaciona el porcentaje de
mortalidad con el Ln de la dosis.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
En este caso la ecuación es
Y=107.38Ln(dosis)+124.77
Buscar x tal que 50=107.38Ln(x)+124.77. De lo cual se
obtiene que LD 50 es 0.498.
Ahora bien, cuando uno realiza la regresión
mediante un paquete estadístico, se obtiene el error
estándar de los coeficientes de la recta por lo cual se
pueden construir las rectas límites
inferior y superior y con ellas calcular los intervalos de
confianza de la LD 50.
En este caso la recta limite inferior es
y=99.18Ln(x)+118.78 y la recta limite superior es
y=115.58Ln(x)+130.76 de ahí que (despejando x) el
límite inferior de LD sea 0.497 y el superior
0.501.
Para mayor comprensión de este acápite
realice la regresión con los datos de la tabla Estudio de
la toxicidad del clorhidrato de cocaína y confronte sus
resultados con los aquí expuestos.
¿EL
ANÁLISIS DE LAS ENCUESTAS
LLEVA ALGUNA PRUEBA ESTADÍSTICA?
Tal y como explicamos al inicio, la respuesta a la
pregunta sobre si un análisis debe estar o no
acompañado de una prueba estadística, está
dada por el objetivo que se persigue. Por ello, le mostraremos el
análisis de una encuesta sin
incluir e incluyendo pruebas estadísticas.
Encuesta:
Objetivo de conocer el uso de Agentes Biológicos
por parte del campesinado cubano.
1. Zona que ocupa está en un área Urbana
__ Periurbana ____
2. Cantidad de Hectáreas _______
3. Usa usted controles Biológicos Si ___
No______
Se encuestan 100 personas y el conteo resultante
fue:
1. Zona que ocupa está en un área Urbana
_60_ Periurbana _40___
2. Cantidad de Hectáreas ___10 000 ha
totales____
3. Usa usted controles Biológicos Si __90_
No___10___
Resultado. El 90% del campesinado utiliza los medios
biológicos tanto en áreas urbanas como
periurbanas.
Otros análisis
Otro enfoque es realizar respuestas cruzadas y
analizarlas mediante una prueba Chi- cuadrado de independencia.
Por ejemplo.
Zona | Uso de Controles Biológicos Si No | Total | |
Urbana | 52 | 8 | 60 |
Periurbana | 38 | 2 | 40 |
Total | 90 | 10 | 100 |
La prueba da un valor de chi 1.85 con una p=0.1735 lo
cual indica que no se rechaza la hipótesis de dependencia,
es decir existe una relación entre la zona y el uso o no
de controles biológicos. En estos casos se recomienda
comparar las proporciones de interés, por ejemplo 52/60
con 38/40. Estas proporciones no difieren
estadísticamente. De manera que el resultado se puede
ilustrar de forma grafica, argumentando que tanto en el
área urbana como en la periurbana se utilizan los
controles biológicos, siendo despreciable el porciento de
la población que no lo utiliza.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Note que esto es solo un ejemplo y que el tamaño
de muestra no es representativo. Note también que no se ha
ofrecido ningún resultado refrente a la cantidad de
hectáreas. Pudiera ser, que usted estuviera interesado en
la cantidad de hectáreas por zonas o la cantidad de
hectáreas que poseen los campesinos que no usan controles
biológicos, etc. Este sería otro aspecto analizar
del mismo modo.
Otra forma de abordar el
análisis
Es conveniente, cuando se desea evaluar influencia de
los distintos factores estudiados (todas o casi todas las
preguntas) sobre uno en particular, utilizar modelos
logísticos o análisis discriminante.
Supongamos que, en el ejemplo anterior, se evalué
el efecto del área y la cantidad de hectáreas sobre
el uso o no de biológicos lo correcto es usar un modelo
logístico donde la variable dependiente es el uso de
biológicos y las independientes la zona y la cantidad de
hectáreas, igual para un discriminante.
La salida de un análisis discriminante
seria:
Wilks' Partial F-remove
Lambda Lambda (1,97) p-level
ZONA ,999271 ,982197 1,758165 ,187968
HA ,981482 1,000000 ,000012 ,997294
Lo cual ratifica que la zona y el número de
hectáreas no influyen en el uso de controles
biológicos.
Como se puede ver el uso del análisis
estadístico refuerza el análisis de los resultados
de una encuesta y puede hacer tan sencillo o tan complicado como
se precise.
¿EL ANÁLISIS DE COMPONENTES
PRINCIPALES SE PUEDE USAR PARA FORMAR GRUPOS?
El Análisis de Componentes Principales (ACP) es
un método muy eficaz para el Análisis de datos
cuantitativos (continuos o discretos) que se presentan bajo la
forma de cuadros de M observaciones / N variables.
Permite:
visualizar y analizar rápidamente las
correlaciones entre las N variables,
visualizar y analizar las M observaciones
inicialmente descritas por N variables en un gráfico de
dos o tres dimensiones. Y aunque a partir de este resultado
los investigadores conforman agrupamiento a priori, este no es un
método aconsejable para formar grupos cuando se tienen
más de 15 individuos.
construir un conjunto de P factores no
correlacionados (P<=N) que pueden luego ser reutilizados
por otros métodos (la regresión por ejemplo).
Los límites del ACP vienen del hecho que es un
método de proyección, y que la pérdida de
información inducida por la
proyección puede provocar interpretaciones
erróneas. De ahí que no sea un método por
excelencia para la formación de grupos. El ACP da una idea
gráfica pero, la construcción de los grupos no es
obvia.
Uriel (1995) menciona que el objetivo del
análisis de componentes principales es explicar la mayor
parte de variabilidad total de un conjunto de variables con el
menor número de componentes posibles. Es decir, que su
objetivo es reducir el número de variables para poder graficar
o hacer estudios posteriores.
Se sabe, que el método de los componentes
principales se puede ubicar en la estadística
descriptiva. El ACP, puede ayudar a conocer el número
de factores necesarios que faciliten el análisis en la
investigación, un análisis de tipo exploratorio.
También el ACP ayuda a confirmar si unos factores fijados
a priori son los más adecuados.
El método de análisis de componentes
principales constituye una técnica para analizar las
asociaciones lineales entre las variables. Cuando no existe
asociación entre las variables las correlaciones entre
ellas son nulas y carece de sentido realizar estos tipos de
análisis.
Número de Componentes a Retener
Luego de realizar el ACP, el análisis comienza en
la decisión de cuantas (m) componentes tomar. El problema
a resolver es cómo fijar m (m<p), componentes
principales que expliquen a las p variables observadas. En esta
sección se presentarán tres criterios para tomar la
decisión:
(a) Criterio de la media
aritmética:
Escoger aquellas raíces características
que excedan a la media de todas las raíces
características.
(b) Contraste sobre las raíces
características no retenidas
Una forma de comprobar si ha escogido el número
de componentes adecuados, es preguntarnos si las componentes no
escogidas son significativas o no. Para ello, se analizan sus
raíces características. El proceso de
cálculo de las componentes suponía escoger las
primeras raíces características de modo que
expliquen la mayor varianza posible. De esta forma, es
lógico pensar que si las primeras m raíces explican
un alto porcentaje de la varianza, las restantes p-m,
raíces tengan un valor pequeño o nulo. Entonces,
podríamos establecer como hipótesis nula del
contraste:
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
El estadístico para la prueba es:
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
Este estadístico distribuye chi-cuadrado con
(p-m+2)(p-m+1)/2 grados de libertad. La forma de operar del test
es la siguiente, supongamos que se han escogido m componentes, o
lo que es equivalente m raíces características, si
se rechaza la hipótesis nula querrá decir que al
menos una de las raíces no seleccionadas es significativa,
luego habría que incorporar una nueva componente. El
proceso sigue hasta que no se rechace la hipótesis
nula.
(c) Gráfico de sedimentación.
Este gráfico presenta en el eje de las ordenadas
las raíces características y el de abscisas el
número de componentes en orden decreciente (ver
Gráfica 1).
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Lo que se observa en la gráfica se asemeja al
perfil de una colina con una pendiente fuerte hasta llegar a una
meseta con una ligera inclinación (base de la colina). El
criterio es retener todas aquellas componentes previas a la zona
de sedimentación (antes de llegar a la meseta).
Luego, con las componentes elegidas voy realizando
gráficos, perennemente en dos dimensiones, de manera que
pueda explicar la formación de grupos o distinción
de un objetivo. Así por ejemplo, si mi objetivo es decidir
cual de 10 variedades evaluadas es la de mejores
características puedo, como método descriptivo,
emplear un ACP y graficar la ubicación que toman las
variedades en el espacio. Igual que para distinguir individuos
dentro de especies diferentes etc. Repetimos, la
conformación de los grupos no es obvia.
Por ejemplo. Supongamos que 20 aislamientos, de la
variedad de arroz Perla de Cuba, se
estudian para distinguir el de mejores resultados
agronómicos con vista a posteriores cruzamientos y
garantizar variedades resistentes a Steneotarsonemus
spinki. Se mide peso del grano, número de hijos,
cantidad de granos llenos, cantidad de granos vanos, cantidad de
granos manchados, cantidad de vainas manchadas, número de
S. spinki en las hojas banderas.
Al realizar el ACP se obtuvo:
Para ver la tabla seleccione la
opción "Descargar" del menú superior
Para decidir cuantas componentes tomar evaluemos los
diferentes métodos (es valido usar solo uno de
ellos)
- Criterio de la media aritmética
La media aritmética de los valores propios es 1.
Por lo que se deben seleccionar las tres primeras
componentes.
- Contraste sobre las raíces
características no obtenidas.
Q=-15.47
Chi cuadrado para (p-m+2)(p-m+1)/2 grados de libertad
es c
2(7-3+2)(7-3+1)/2 es
c
215 que según la tabla es 25.
Por lo cual Q<c
2 y no puedo rechazar la hipótesis de que
las restantes raíces no aportan significación al
resultado y por consiguiente, se toman las tres primeras
componentes.
- Gráfico de sedimentación.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
La zona de sedimentación se inicia en la
componente 4, tomamos las 3 componentes previas.
Al tomar 3 componentes obtenemos que:
Para ver la tabla seleccione la
opción "Descargar" del menú superior
Que la primera componente está representada por
(peso>0.70) las variables peso del grano y número de
granos llenos, en sentido inverso. En el factor 2 ninguna
variable tiene un peso superior a las restantes y el factor o
componente 3 está representado por el número de
hijos también en sentido inverso. Quiere esto decir
que lo conveniente es hacer un grafico con las componentes 1 y
3.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Es fácil, ver que el aislamiento 4 es el que
presenta las características más favorables mayor
peso, mayor número de granos llenos y mayor número
de hijos. Además, presentó menor nivel de S.
spinki. Note además que es difícil conformar
grupos entre el resto de los aislamiento. Por ello, el
análisis de cluster es el método estadístico
más efectivo para conformar grupos.
¿CUÁNDO REALIZO UN
ANÁLISIS DE CLUSTER POR DONDE HAGO EL CORTE DEL
DENDOGRAMA?
El análisis de
conglomerados, comúnmente conocido como análisis de
cluster, consiste en un tipo de técnica que se utiliza
para clasificar los objetos o casos en grupos relativamente
homogéneos llamados conglomerados. Los objetos en cada
grupo tienden a ser similares entre sí y diferentes a los
objetos en otros grupos. Este análisis se conoce
también como análisis de clasificación o
taxonomía numérica.
En la rama agropecuaria, utilizamos los procedimientos de
conglomerados que asignan cada objeto a un solo grupo, ejemplo
clasificación taxonómica. La figura muestra como en
la realidad las fronteras de algunos de los grupos no
están definidas con claridad y la clasificación de
algunos individuos no es obvia porque muchos de ellos
podrían agruparse en un grupo u otro.
Para ver la tabla seleccione la
opción "Descargar" del menú superior
En el análisis de conglomerados no hay
información a priori acerca de la participación en
el grupo de ninguno de los objetos. Los datos sugieren los grupos
y no se definen previamente.
Debemos mencionar que la mayor parte de estos
métodos son procedimientos relativamente sencillos que no
están respaldados por el razonamiento estadístico.
La mayor parte de los métodos de agrupación son
heurísticos, basados en algoritmos. De
manera que, el análisis de conglomerados presenta un
fuerte contraste con el análisis de la varianza, la
regresión, el análisis discriminante y el
análisis factorial, que se basan en un razonamiento
estadístico. A pesar de que muchos métodos de
agrupación tienen propiedades estadísticas
importantes, es necesario reconocer la sencillez fundamental de
estos métodos. Los estadísticos y conceptos
siguientes están relacionados con el análisis de
conglomerados:
- Centroide de agrupamiento
El centroide de agrupamiento son los valores medios de las
variables para todos los casos u objetos de un grupo
particular. - Centros de agrupamiento
Son los puntos de partida iniciales en la agrupación no
jerárquica. Los grupos se construyen alrededor de estos
centros o semillas. - Participación en el grupo
Indica el grupo al que pertenece cada objeto o
caso. - Dendrograma
Un dendrograma, o gráfica de árbol, es un
dispositivo gráfico para presentar los resultados del
conglomerado. Si el dendograma es horizontal, las líneas
verticales representan los grupos que están unidos. La
posición de la línea en la escala indica las
distancias en las que se unieron los grupos. El dendrograma se
lee de izquierda a derecha. - Distancias entre los centros de los grupos
Indican cuán separados están los pares
individuales de grupos. Los grupos muy separados son distintos
y, por tanto, deseables. - Matriz de coeficientes de
distancia/similitud
Ésta es una matriz
triángular inferior que contiene las distancias en
dirección pareada entre los objetos o
casos.
Cómo
realizar el Análisis de Conglomerados
El primer paso consiste en formular el problema de
agrupación al definir las variables en las que se basa
ésta. Después, debe seleccionarse una medida de
distancia apropiada. La medida de distancia determina qué
tan similares o diferentes son los objetos que se agrupan. Se han
desarrollado varios procedimientos de agrupación y el
investigador debe seleccionar uno apropiado para el problema que
se maneja. La decisión del número de
conglomerados requiere en gran medida del criterio del
investigador. Los conglomerados derivados deben interpretarse
en términos de las variables utilizadas para formarlos.
Por último, es preciso que el investigador evalúe
la validez del proceso de conglomerados.
Para realizar el análisis de conglomerados es
necesario seguir los siguientes pasos:
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Cuando se emplee este método y se desee publicar
el resultado, debemos recordar que los tres primeros pasos han de
ser detallados en materiales y métodos y los tres
restantes en Resultados y Discusión. Por ejemplo,
los materiales y métodos pueden ser descritos como: Se
realizó un análisis de conglomerados (Cluster) para
el cual se empleó la distancia Euclideana como
medida de similitud. Los grupos se formaron según
procedimiento del vecino más
cercano.
Aunque la pregunta está dirigida a la selección
del número de conglomerados, dada la importancia que tiene
el
conocimiento de esta técnica explicaremos cada uno de
sus pasos.
Formulación del Problema
Quizá la parte más importante de la
formulación del problema de conglomerados es la
selección de las variables en las que se basa la
agrupación. La inclusión de una o más
variables irrelevantes puede distorsionar una solución de
agrupación que de otra forma podría ser
útil. Básicamente, el conjunto de variables
seleccionado debe describir la similitud entre los objetos en
términos relevantes para el problema de
investigación. Las variables deben seleccionarse con base
en la investigación previa, la teoría
o una consideración de las hipótesis que se
prueban. En la investigación exploratoria, el investigador
debe poner en práctica el criterio y la
intuición.
Selección de la Medida de Distancia o
Similitud
Ya que el objeto del conglomerado es agrupar objetos
similares, se necesita alguna medida para evaluar las diferencias
y similitudes entre objetos. La estrategia
más común consiste en medir la equivalencia en
términos de la distancia entre los pares de objetos. Los
objetos con distancias reducidas entre ellos son más
parecidos entre sí que aquellos que tienen distancias
mayores. Existen varias formulas o medidas de similitud para
calcular las distancias entre dos objetos y se seleccionan de
acuerdo con el tipo de variables (discretas, continuas o mixtas)
con las cuales se hará el agrupamiento. Así, para
las variable binaria es recomendables utilizar métricas
como la de Jaccard, Nei-Li etc. También, se recomienda
usar combinación de métricas cuando estamos en
presencia de variables mixtas (Miranda, 1998)
Para variables continuas, la medida de similitud que se
utiliza con mayor frecuencia es la distancia euclidiana o su
cuadrado. La distancia euclidiana es la raíz cuadrada de
la suma de las diferencias cuadradas en los valores para cada
variable. También están disponibles otras medidas
de distancia. La distancia Manhattan o de Calles Urbanas entre
dos objetos es la suma de las diferencias absolutas en los
valores para cada variable. La distancia de Chebychev entre dos
objetos es la diferencia absoluta máxima en los valores
para cualquier variable.
Si las variables se miden en unidades muy diferentes, la
solución de la agrupación tendrá la
influencia de las unidades de la medición. En estos casos, antes de agrupar
a los individuos, debemos estandarizar los datos. Aun cuando la
estandarización puede eliminar la influencia de la unidad
de medición, también es probable que reduzca las
diferencias entre los grupos en las variables que pueden
discriminar mejor los grupos o conglomerados. Es recomendable
eliminar los casos con valores atípicos.
El uso de distintas medidas de distancia puede llevar
a diversos resultados. Por consiguiente, se recomienda
utilizar medidas diferentes y comparar los resultados.
Después de seleccionar una medida de distancia o
similitud, podemos elegir un procedimiento de
agrupación.
Selección de un Procedimiento de
Agrupación
Los procedimientos de conglomerados pueden ser
jerárquicos o no. El conglomerado jerárquico se
caracteriza por el desarrollo de
una jerarquía o estructura en
forma de árbol. A su vez, los métodos
jerárquicos pueden ser:
- Análisis de Conglomerados por
Aglomeración: El conglomerado por
aglomeración empieza con cada objeto en un grupo
separado. Los conglomerados se forman al agrupar los objetos en
conjuntos
cada vez más grandes. Este proceso continúa hasta
que todos los objetos forman parte de un solo
grupo. - Análisis de Conglomerados por
División: El conglomerado por división
comienza con todos los objetos agrupados en un solo conjunto.
Los conglomerados se dividen hasta que cada objeto sea un grupo
independiente.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Los métodos de conglomerados se utilizan con
frecuencia en la investigación agropecuaria, consisten en
métodos de enlace, métodos de varianza o de sumas
de los cuadrados de error y métodos centroides. Los
métodos de enlace incluyen el enlace sencillo, el completo
y el promedio.
El método de enlace sencillo se basa en la
distancia mínima o la regla del vecino más cercano.
Los primeros dos objetos conglomerados son aquellos que tienen la
menor distancia entre sí. La siguiente distancia
más corta se identifica, ya sea que el tercer objeto se
agrupe con los dos primeros o que se forme un nuevo conglomerado
de dos objetos. En cada etapa, la distancia entre dos
conglomerados es la distancia entre sus dos puntos más
próximos. En cualquier etapa, dos conglomerados surgen por
el enlace sencillo más corto entre éstos. Este
proceso continúa hasta que todos los objetos se encuentren
en un conglomerado. El método del enlace sencillo no
funciona adecuadamente cuando los conglomerados no están
bien definidos.
El método del enlace completo es similar al
enlace sencillo, excepto que se basa en la distancia
máxima o la estrategia del vecino más lejano. En el
enlace completo, la distancia entre dos conglomerados se calcula
como la distancia entre sus puntos más lejanos.
El método del enlace promedio (UPGMA) funciona de
manera similar, pero en este método, la distancia entre
dos conglomerados se define como el promedio de las distancias
entre todos los pares de objetos, donde se encuentra un miembro
del par de cada uno de los conglomerados. este método
emplea la información sobre todos los pares de distancias,
no sólo las mínimas o máximas. Por esta
razón, generalmente se prefiere a los métodos de
enlace sencillo y completo.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
Los métodos de varianza tratan de generar
conglomerados a fin de reducir la varianza dentro de los
grupos.
Un método de la varianza que se utiliza con
frecuencia es el procedimiento de Ward. Para cada conglomerado,
se calculan las medias para todas las variables. Después,
para cada objeto, se calcula la distancia para las medias de los
grupos; estas distancias se suman a todos los objetos. En cada
etapa, se combinan los dos conglomerados con el menor incremento
en la suma total de los cuadrados de las distancias dentro de los
conglomerados.
En el método centroide, la distancia entre dos
grupos es la distancia entre sus centroides (medias para todas
las variables). Cada vez que se agrupan los objetos, se calcula
un centroide nuevo.
Para ver el gráfico seleccione la
opción "Descargar" del menú superior
De los métodos jerárquicos, el
método de enlace promedio y el procedimiento de Ward han
demostrado un mejor desempeño que los otros
procedimientos.
Por su parte, los métodos de conglomerados no
jerárquicos, con frecuencia se conocen como
agrupación de k medias. Estos métodos incluyen el
umbral secuencial, umbral paralelo y la división para la
optimización.
- En el método del umbral secuencial, se
selecciona un centro de grupo y se agrupan todos los objetos
dentro de un valor de umbral que se especifica previamente a
partir del centro. Después, se selecciona un nuevo
centro o semilla de grupo y el proceso se repite para los
puntos sin agrupar. Una vez que un objeto se agrupa con una
semilla, ya no se considera para su conglomerado con semillas
subsecuentes. - El método del umbral paralelo funciona de
manera similar, excepto que varios centros de grupo se
seleccionan simultáneamente y los objetos dentro del
nivel del umbral se agrupan dentro del centro más
próximo. - El método de división para la
optimización difiere de los otros dos procedimientos de
umbral en que los objetos pueden reasignarse posteriormente a
otros grupos, a fin de optimizar un criterio general, como la
distancia promedio dentro de los grupos para un número
determinado de conglomerados.
Dos desventajas importantes de los procedimientos no
jerárquicos son que el número de grupos debe
especificarse previamente y que la selección de los
centros de grupo es arbitraria. Además, los resultados del
conglomerado pueden depender de la forma en que se seleccionan
los centros. Muchos programas no
jerárquicos eligen los primeros k (k= número de
grupos) casos sin valores faltantes como los centros de grupo
iniciales. De manera que, los resultados del conglomerado pueden
depender del orden de las observaciones en los datos. No
obstante, el conglomerado no jerárquico es más
rápido que los métodos jerárquicos y es
apropiado cuando el número de objetos u observaciones es
alto. Se ha sugerido que los métodos
jerárquicos y no jerárquicos se utilicen uno
después del otro. Primero, una solución de
conglomerado inicial se obtiene con el uso de un procedimiento
jerárquico, como el enlace promedio o el de Ward. Las
cantidades de grupos y centroides de grupo que se obtienen de
esta forma se utilizan como entradas para el método de
división para la optimización.
La elección de un método de conglomerado y
la elección de una medida de distancia están
interrelacionadas. Por ejemplo, las distancias euclidianas
cuadradas deben utilizarse con los métodos de Ward y
centroide. Varios procedimientos no jerárquicos emplean
también las distancias euclidianas cuadradas.
Elección del Número de
Conglomerados
Un aspecto importante en el análisis de
conglomerados es decidir el número de éstos. Para
ello, están disponibles algunos lineamientos.
- Las consideraciones teóricas, conceptuales o
prácticas pueden sugerir un número determinado de
grupos. Por ejemplo, si el propósito de la
agrupación es identificar grupos de especies, es
probable que conozcamos el un número límite de
grupos a formar. - En el conglomerado jerárquico, las distancias
en las que los grupos se combinan pueden utilizarse como
criterios. Esta información puede obtenerse del programa de
aglomeración o del dendrograma. - En la agrupación no jerárquica, la
relación de la varianza total dentro de los grupos con
varianza entre los grupos puede trazarse en comparación
con el número de éstos.
Existen algunos criterios, de complejidad en sus
cálculos, que pueden servir para identificar la cantidad
de grupos a formar. Por ejemplo, denotando como B a la matriz
de correlación de las variables que se utilizan en la
clasificación y W las suma de las sub-matrices de
correlación que se obtienen al formar 1, 2,…K
grupos. Se dice que K es el número óptimo de
grupos a formar si toma un valor que minimiza:
Calinski – Harabaz (1974)
Mariott (1971)
Maronna y Jacovkis (1974)
Symons (1981)
Symons (1981)
Banfield y Raftery (1993)
Siendo n la cantidad de observaciones y ni la
cantidad de individuos en el grupo i.
Estos métodos no están automatizados y son
engorrosos. Lo más común es utilizar las
componentes principales como una idea gráfica. Se
representan en las dos primeras componentes obtenidas de un
análisis de componentes principales y se identifica cada
observación según el grupo al cual
pertenece. Para que la agrupación sea adecuada los grupos
tienen que quedar bien delimitados, de lo contrario hay que hacer
menos grupos. Es conveniente empezar por la mayor cantidad de
grupos posibles e ir disminuyendo.
Supongamos que realizamos un análisis de cluster
para agrupar 20 individuos, al emplear el método de Ward y
la distancia euclidiana se obtiene un dendograma que sugiere la
formación de 5 grupos conformados como:
{1,10,11,12,7,15,5}, {8,16,17},{2,6,9,4,20,13,14} , {3} y
{18,19}
Al realizar el análisis de componentes
principales se obtiene:
Para ver la fórmula seleccione la
opción "Descargar" del menú superior
Donde se aprecia que solo están bien
delimitados los grupos 4 y 5, por lo que se sugiere hacer solo
3 grupos: {1,10,11,12,7,15,5,
Para ver el
gráfico seleccione la opción "Descargar" del
menú superior
8,16,17,2,6,9,4,20,13,14} , {3} y {18,19}
Evaluación de la
Validez
Dados los criterios generales que comprende el
análisis de conglomerados, no debe aceptarse ninguna
solución de agrupación sin una evaluación
de su confianza y validez. Todos los procedimientos anteriormente
explicados son útiles para evaluar la confianza y validez
de las soluciones de agrupación, pero como vimos son
complejos y no por completo defendibles. No obstante, los
siguientes procedimientos también ofrecen revisiones
adecuadas de la calidad de los
resultados de la agrupación.
- Realice el análisis de conglomerados con los
mismos datos y utilice distintas medidas de distancia. Compare
los resultados con todas las medidas a fin de determinar la
estabilidad de las soluciones. - Utilice diversos métodos de conglomerado y
compare los resultados. - Divida los datos a la mitad en forma aleatoria.
Realice el conglomerado por separado en cada mitad. Compare los
centroides de grupo en las dos submuestras. - Elimine las variables en forma aleatoria. Realice la
agrupación con base en el conjunto reducido de
variables. Compare los resultados basados en el conjunto
completo con los que obtuvo al realizar el conglomerado. Las
variables que marcan una diferencia significativa entre los
conglomerados pueden identificarse mediante el análisis
discriminante y el análisis de varianza
unidireccional. - En el conglomerado, no jerárquico, la
solución puede depender del orden de los casos en el
conjunto de datos. Lleve a cabo corridas múltiples y
utilice distintos órdenes de los casos hasta que la
solución se estabilice. - Realice un análisis discriminante donde la
variable cluster obtenida en el análisis de
conglomerados sea la variable que identifica los grupos y vea
que porciento de buena clasificación se
obtiene.
Interpretación y elaboración de un
Perfil de los Conglomerados
La interpretación y el perfil de los grupos
comprenden el análisis de los centroides de grupo. Los
centroides representan los valores medios de los objetos que
contiene el grupo en cada una de las variables. Los centroides
nos permiten describir cada grupo al asignarle un nombre o
etiqueta.
Banfield, J. D. y Raftery, A. E. 1993. Model based in
Gaussian and non Gaussian clustering. Biometrics,
49:803-821.
Calinski, T. y Harabaz, J. 1974. A dendrite method for
cluster analysis. Communications in Statistics, 3:
1-27.
Cuadras, C. M. 1991. Métodos de Análisis
Multivariante, PPU.
Cué, J.L., Castell, E. y Hernández, J.M.
1987. Estadística Segunda Parte. Universidad de la
Habana. Facultad de Matemática
Cibernética.
De la Vega, R. 2000.Software para el
cálculo del tamaño de las muestras para variables
de distintas naturaleza. La BIOFAM.
Efimov, A., Karakulin, A., Pospélov, P.,
Teréscheko, A., Vukólov, E., Zemskov, V. y
Zolotarev, Yu. 1986. Problemas de
las Matemáticas Superiores. Ed. MIR, Moscu., p-
607.
Hair, J. F. et al, 1999, Análisis Multivariante,
Pretince-Hall Iberia, Madrid.
Jonson, Richard, 1998, Applied Multivariante Statistics
Analysis.
Lemeshov, S., Hosmer, D., FLAR, J. y Lwanga, S. 1990.
Adequacy of sample size in health studies. Ed. John Willey and
Sons.
Mariott, F.H.C. 1971. Practical problems in a method of
cluster analysis. Biometrics, 27:501-514.
Maronna, R. A. y Jacovkis, P.M. 1974. Multivariate
clustering procedures with variables metrics. Biometrics, 30:
499-505.
Miranda, 1998. Coeficiente de similaridad para variables
mixtas I. Nueva propuesta. Revista
Protección Vegetal. 13(2).
Sokal,R. y Rohlf, F. J. 1969. Biometry. State University
of New York at Stony Brook. Ed. A Series of Books in biology, p.
776.
Symons, M. J. 1981. Clustering criteria and multivariate
normal mixtures. Biometrics, 37:35-43.
Visite el sitio:
Ileana Miranda Cabrera