- Concepto de análisis
cluster - Concepto de análisis cluster
jerárquico - Concepto de análisis cluster
K-medias - Algunas puntualizaciones de interés
acerca del análisis cluster
Concepto de
análisis cluster
El análisis cluster (llámese
también análisis de conglomerados) es una
técnica multivariante que utiliza la información de
una serie de variables para cada sujeto u objeto y, conforme a
estas variables, se mide la similitud entre ellos. Una vez medida
la similitud, se agrupan en: grupos homogéneos
internamente y diferentes entre sí.
La idea conceptual básica de este tipo de
análisis, parte de suponer que en muchas ocasiones, un
solo individuo u objeto, constituye una unidad de
observación demasiado reducida. Se trata entonces de
agrupar a los sujetos originales (u objetos) en grupos, centrando
el análisis en esos grupos y no en cada uno de los
individuos (u objetos).
Debe aclararse que los resultados logrados para una
muestra, sólo sirven para ese diseño (su valor
atañe sólo a los objetivos del investigador). Se
habla de resultados en cuanto a: la elección de individuos
(u objetos), variables relevantes utilizadas, criterio de
similitud empleado, nivel de agrupación final elegido,
etc. Existen dos tipos de análisis cluster:
análisis cluster jerárquico
análisis cluster K-medias
Por último, resulta útil destacar que el
análisis cluster y el análisis discriminante aunque
parecen muy similares, realmente no lo son. El análisis
discriminante intenta explicar una estructura, y el
análisis cluster pretende determinarla.
Concepto de
análisis cluster jerárquico
El análisis cluster jerárquico, permite
aglomerar tanto casos como variables, y elegir entre una gran
variedad de métodos de aglomeración y medidas de
distancia. En éste se procede de forma jerárquica.
Es una técnica aglomerativa que comienza partiendo de los
elementos muestrales individualmente considerados, y va creando
grupos hasta llegar a la formación de un único
grupo o conglomerado, constituido por todos los elementos de la
muestra.
Concepto de
análisis cluster K-medias
El análisis cluster K-medias, es un método
de agrupación de casos que se basa en las distancias
existentes entre ellos en un conjunto de variables. Permite
procesar un número ilimitado de casos pero utilizando un
único método de aglomeración. Requiere,
además, que se proponga previamente el número de
conglomerados que se desea obtener.
Para muestras grandes, este método resulta
más aconsejable que el jerárquico.
Es importante señalar, que esta técnica de
aglomeración no permite agrupar variables a diferencia del
jerárquico.
Algunas
puntualizaciones de interés acerca del análisis
cluster
En la matriz de coeficientes de distancia
euclídea al cuadrado (o cualquier otro tipo de medida de
distancia seleccionada), los coeficientes más elevados
responden a mayores distancias o mayor diferencia entre los casos
analizados. Por el contrario, coeficientes con más bajo
valor, corresponden a menores distancias o mayor parecido entre
dichos casos.
La lectura del gráfico de carámbanos
vertical, se realiza de abajo hacia arriba, de modo que la
última fila, corresponde al primer nivel de
agrupación de los casos, y la primera fila, al
último nivel. Siempre en el último nivel, quedan
agrupados todos los casos de la muestra en un solo
cluster.
Un cluster puede formarse a partir de dos casos en uno
solo, o añadiendo un caso a un multicluster ya existente,
o uniendo dos multicluster ya existentes.
En la tabla de aglomeraciones previstas, el valor del
coeficiente a cada nivel, ayuda a decidir cuántos clusters
pueden constituir la mejor solución para representar los
datos.
La lectura del dendograma se realiza de izquierda a
derecha donde las líneas verticales representan la
unión de dos clusters. La posición de la
línea vertical sobre la escala de valores de 0 a 25,
indica a qué distancia los clusters se han
unido.
Véase un ejemplo de análisis cluster
jerárquico.
Ejemplo 1:
En el polo turístico de Varadero, un grupo de
analistas de la Delegación del MINTUR, está
realizando un estudio que incluye diez instalaciones hoteleras.
Basándose en los datos recopilados de ocho variables que
han sido medidas en cada uno de los diez hoteles, el objetivo de
los miembros del grupo, consiste en agrupar dichas entidades
según su similitud o semejanza. Los datos se muestran a
continuación:
Variables:
% de ocupación
nivel de ingresos
cantidad de trabajadores
nivel de utilidades
nivel de gastos
cantidad de puntos de consumo de A+B
cantidad de habitaciones
gasto energético
Hoteles | % | ingresos | trabajad | utilidad | gastos | punto a+b | habitaci | gastener | ||||||
Sirenis Abanico de Coral | 46 | 101564.00 | 560 | 2463.00 | 99101.00 | 7 | 566 | 24567.00 | ||||||
Meliá Estrella de Mar | 78 | 57890.00 | 315 | 1800.00 | 56090.00 | 6 | 870 | 10987.00 | ||||||
Iberostar Río Azul | 65 | 114362.00 | 643 | 3101.00 | 111261.00 | 7 | 698 | 45734.00 | ||||||
Riu Varadero | 59 | 87765.00 | 389 | 2746.00 | 85019.00 | 9 | 547 | 10999.00 | ||||||
Tryp Palma Real | 74 | 103890.00 | 472 | 2834.00 | 101056.00 | 8 | 612 | 35667.00 | ||||||
Iberostar Playa Azul | 49 | 92345.00 | 518 | 1964.00 | 90381.00 | 8 | 846 | 24345.00 | ||||||
Paradisus Mariposa Blanca | 52 | 110321.00 | 589 | 946.00 | 109375.00 | 7 | 900 | 42567.00 | ||||||
Oasis Laguna Azul | 66 | 74678.00 | 471 | 3123.00 | 71555.00 | 7 | 583 | 21900.00 | ||||||
Sol Cayo de Oro | 91 | 98876.00 | 331 | 2680.00 | 96196.00 | 5 | 617 | 36889.00 | ||||||
Sandals Arenas | 82 | 104564.00 | 470 | 1970.00 | 102594.00 | 6 | 712 | 41680.00 |
Solución:
Empleando el SPSS, sería:
En la imagen anterior, se observa la tabla
"Proximity Matrix" donde se muestran los coeficientes de
distancia euclídea al cuadrado, entre los distintos
hoteles de la muestra. Por ejemplo, la distancia o diferencia
mayor con un coeficiente igual a 44.317, es la existente entre
los hoteles Iberostar Río Azul y Meliá Estrella de
Mar. Por el contrario, los más próximos o
parecidos, son los hoteles Sol Cayo de Oro y Sandals Arenas con
un coeficiente igual a 4.745.
En la imagen anterior, se muestra el gráfico de
carámbanos o tabla "Vertical Icicle" donde se
puede ir determinando los diferentes clusters a cada nivel.
Obsérvese que el:
primer cluster está formado por los hoteles
Sandals Arenas y Sol Cayo de Orosegundo cluster: Tryp Palma Real e Iberostar
Río Azultercer cluster: Oasis Laguna Azul y Riu
Varaderocuarto cluster: Iberostar Playa Azul y Sirenis
Abanico de Coralquinto cluster (primer multicluster): Tryp Palma
Real, Iberostar Río Azul, Iberostar Playa Azul y
Sirenis Abanico de Coralsexto cluster (segundo multicluster): Oasis Laguna
Azul, Riu Varadero, Tryp Palma Real, Iberostar Río
Azul, Iberostar Playa Azul y Sirenis Abanico de
Coralséptimo cluster (tercer multicluster):
Sandals Arenas, Sol Cayo de Oro, Oasis Laguna Azul, Riu
Varadero, Tryp Palma Real, Iberostar Río Azul,
Iberostar Playa Azul y Sirenis Abanico de Coraloctavo cluster (cuarto multicluster): Paradisus
Mariposa Blanca, Sandals Arenas, Sol Cayo de Oro, Oasis
Laguna Azul, Riu Varadero, Tryp Palma Real, Iberostar
Río Azul, Iberostar Playa Azul y Sirenis Abanico de
Coralnoveno cluster: incluye todos los hoteles
En la imagen anterior, se muestra la tabla
"Agglomeration Schedule" donde se observa que, por
ejemplo, en el primer nivel se unen para formar un cluster, los
hoteles 9 (Sol Cayo de Oro) y 10 (Sandals Arenas). Ambos casos se
unen a otros hoteles por primera vez para formar un multicluster,
en el nivel siete, cuando se les suma los hoteles Oasis Laguna
Azul, Riu Varadero, Tryp Palma Real, Iberostar Río Azul,
Iberostar Playa Azul y Sirenis Abanico de Coral.
En esta misma tabla se observa el valor del coeficiente
para cada nivel, de modo que mientras menor sea el coeficiente,
indicará la existencia de clusters más
homogéneos. Cuanto mayor sea el valor del coeficiente,
pues más heterogéneos serán
éstos.
Supóngase que el grupo de analistas de la
Delegación del MINTUR, desea obtener una cantidad de
clusters específicos de la muestra de hoteles tomada, en
este caso, 3 clusters.
Solución:
Empleando el SPSS, sería:
En la imagen anterior, se muestra la tabla "Cluster
Membership" donde se observa que el:
primer cluster está formado por los hoteles:
Sirenis Abanico de Coral, Iberostar Río Azul, Riu
Varadero, Tryp Palma Real, Iberostar Playa Azul, Oasis Laguna
Azul, Sol Cayo de Oro y Sandals Arenassegundo cluster: Meliá Estrella de
Martercer cluster: Paradisus Mariposa Blanca
Obsérvese en la imagen anterior, que a la base de
datos original, el programa ha añadido una nueva columna
llamada "clu3_1". La misma refleja igual contenido que el de la
tabla "Cluster Membership" analizada previamente, o sea,
a qué cluster pertenece cada hotel dado que han sido
seleccionados 3 clusters.
Ahora véase un ejemplo de análisis cluster
K-medias.
Ejemplo 2:
El grupo de analistas de la Delegación del
MINTUR, ha decidido ahora ampliar la muestra de hoteles a
estudiar a treinta y tres. Continuando el análisis de las
ocho variables en las entidades hoteleras, estas últimas
se mencionan a continuación:
Hoteles | % ocupación | ingresos | trabajad | utilidad | gastos | punto a+b | habitaci | gastener | |||
Sirenis Abanico de Coral | 46 | 10156.00 | 560 | 2463.00 | 99101.00 | 7 | 566 | 24567.00 | |||
Meliá Estrella de Mar | 78 | 57890.00 | 315 | 1800.00 | 56090.00 | 6 | 870 | 10987.00 | |||
Iberostar Río Azul | 65 | 114362.00 | 643 | 3101.00 | 111261.00 | 7 | 698 | 45734.00 | |||
Riu Varadero | 59 | 87765.00 | 389 | 2746.00 | 85019.00 | 9 | 547 | 10999.00 | |||
Tryp Palma Real | 74 | 103890.00 | 472 | 2834.00 | 101056.00 | 8 | 612 | 35667.00 | |||
Iberostar Playa Azul | 49 | 92345.00 | 518 | 1964.00 | 90381.00 | 8 | 846 | 24345.00 | |||
Paradisus Mariposa Blanca | 52 | 110321.00 | 589 | 946.00 | 109375.00 | 7 | 900 | 42567.00 | |||
Oasis Laguna Azul | 66 | 74678.00 | 471 | 3123.00 | 71555.00 | 7 | 583 | 21900.00 | |||
Sol Cayo de Oro | 91 | 98876.00 | 331 | 2680.00 | 96196.00 | 5 | 617 | 36889.00 | |||
Sandals Arenas | 82 | 104564.00 | 470 | 1970.00 | 102594.00 | 6 | 712 | 41680.00 | |||
Iberostar Princesa Roja | 49 | 68014.00 | 396 | 1025.00 | 79653.00 | 6 | 612 | 10258.00 | |||
Meliá Fuertes Vientos | 58 | 102563.00 | 525 | 987.00 | 102589.00 | 7 | 745 | 26985.00 | |||
Riu Piedra Dorada | 46 | 95562.00 | 654 | 2589.00 | 98563.00 | 8 | 896 | 31489.00 | |||
Iberostar Orilla Azul | 61 | 79586.00 | 489 | 3125.00 | 84125.00 | 6 | 625 | 41288.00 | |||
Sirenis Coral de Fuego | 72 | 100589.00 | 369 | 985.00 | 98745.00 | 7 | 596 | 32589.00 | |||
Oasis Caleta Buena | 83 | 46892.00 | 489 | 3152.00 | 100258.00 | 8 | 910 | 21478.00 | |||
Meliá Aguas Claras | 69 | 95411.00 | 526 | 1489.00 | 78965.00 | 8 | 856 | 10256.00 | |||
Sol Lago Azul | 58 | 78589.00 | 621 | 2541.00 | 82336.00 | 7 | 678 | 25963.00 | |||
Tryp Luna Plateada | 61 | 74258.00 | 368 | 3214.00 | 97268.00 | 9 | 748 | 32589.00 | |||
Meliá Duna Alta | 84 | 96236.00 | 489 | 1025.00 | 100569.00 | 7 | 908 | 45632.00 | |||
Paradisus Tocororo | 91 | 85555.00 | 526 | 2365.00 | 98425.00 | 6 | 658 | 25825.00 | |||
Iberostar Las Morlas | 54 | 84259.00 | 514 | 1478.00 | 84856.00 | 8 | 547 | 14785.00 | |||
Tryp Cielo Azul | 51 | 79463.00 | 621 | 2589.00 | 71937.00 | 6 | 963 | 30156.00 | |||
Villa Real | 49 | 68954.00 | 358 | 3654.00 | 100485.00 | 8 | 852 | 21485.00 | |||
Riu Mar Profundo | 66 | 81258.00 | 369 | 1485.00 | 10632.00 | 8 | 741 | 10325.00 | |||
Paradisus Patriarca | 74 | 79589.00 | 321 | 965.00 | 89652.00 | 6 | 789 | 26985.00 | |||
Lago Verde | 89 | 102596.00 | 412 | 987.00 | 74589.00 | 9 | 654 | 45698.00 | |||
Sol Palacio | 91 | 105478.00 | 562 | 2589.00 | 96541.00 | 7 | 523 | 32156.00 | |||
Barceló Sol Brillante | 65 | 84563.00 | 458 | 954.00 | 100256.00 | 6 | 789 | 12589.00 | |||
Oasis Canal Grande | 48 | 100892.00 | 363 | 1236.00 | 96369.00 | 8 | 954 | 23589.00 | |||
Pino Alto | 58 | 98456.00 | 458 | 2563.00 | 89652.00 | 8 | 741 | 10258.00 | |||
Sirenis Esponja de Mar | 64 | 101548.00 | 589 | 3111.00 | 79658.00 | 7 | 852 | 12365.00 | |||
Playa Larga | 71 | 78963.00 | 612 | 1025.00 | 89654.00 | 6 | 693 | 14859.00 |
Basándose en los datos recopilados de ocho
variables que han sido medidas en cada uno de los treinta y tres
hoteles, el objetivo de los miembros del grupo, consiste en
agrupar dichas entidades según su similitud o semejanza,
pero predeterminando la cantidad de clusters a 4.
Solución:
Empleando el SPSS, sería:
En la imagen anterior, se observa que a la base de datos
original, el programa ha añadido ocho nuevas columnas que
hacen referencia a las ocho variables de análisis pero ya
estandarizadas.
En las dos imágenes anteriores, se muestra la
tabla "Cluster Membership" donde aparece cada hotel
asignado a su cluster. Véase que el:
primer cluster está formado por los hoteles:
Riu Varadero, Oasis Laguna Azul, Oasis Caleta Buena, Tryp
Luna Plateada y Villa Realsegundo cluster: Iberostar Playa Azul, Iberostar
Princesa Roja, Meliá Fuertes Vientos, Sirenis Coral de
Fuego, Meliá Aguas Claras, Iberostar Las Morlas,
Paradisus Patriarca, Lago Verde, Barceló Sol
Brillante, Oasis Canal Grande, Pino Alto y Playa
Larga
Página siguiente |