1
Clustering
Sinónimos según el contexto
Clustering (IA)
Aprendizaje no supervisado (IA)
Clasificación (Estadística)
Ordenación (Psicología)
Segmentación (Marketing)
Introducción
Similitud
Métodos
K-Means
Jerárquicos
Densidad
Otros
Subspace clustering
Validación
Bibliografía
2
Clustering
Objetivo Agrupar objetos similares entre sí que sean distintos a los objetos de otros agrupamientos [clusters].
Aprendizaje no supervisadoNo existen clases predefinidas
Los resultados obtenidos dependerán de:
El algoritmo de agrupamiento seleccionado.
El conjunto de datos disponible
La medida de similitud utilizada para comparar objetos.
Introducción
Similitud
Métodos
K-Means
Jerárquicos
Densidad
Otros
Subspace clustering
Validación
Bibliografía
3
Clustering
Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos de otros grupos:
(Gp:) Maximizar distanciainter-cluster
(Gp:) Minimizar distanciaintra-cluster
4
Clustering
Aplicaciones
Reconocimiento de formas.
Mapas temáticos (GIS)
Marketing: Segmentación de clientes
Clasificación de documentos
Análisis de web logs (patrones de acceso similares)
Aplicaciones típicas en Data Mining:
Exploración de datos (segmentación & outliers)
Preprocesamiento (p.ej. reducción de datos)
5
Clustering
¿Cuál es la forma natural de agrupar los personajes?
Hombres
vs.
Mujeres
6
Clustering
¿Cuál es la forma natural de agrupar los personajes?
Simpsons
vs.
Empleados
de la escuela
de Springfield
7
Clustering
¿Cuál es la forma natural de agrupar los personajes?
¡¡¡ El clustering es subjetivo !!!
8
Medidas de similitud
0.23
3
342.7
Peter
Pedro
9
Usualmente, se expresan en términos de distancias:
d(i,j) > d(i,k)
nos indica que el objeto i es más parecido a k que a j
La definición de la métrica de similitud/distanciaserá distinta en función del tipo de dato yde la interpretación semántica que nosotros hagamos.
En otras palabras, la similitud entre objetos es subjetiva.
Medidas de similitud
10
Medidas de similitud
(Gp:) ¿Cuántos agrupamientos?
(Gp:) ¿Cuatro?
(Gp:) ¿Dos?
(Gp:) ¿Seis?
11
Medidas de similitud
Atributos continuos
Usualmente, se estandarizan a priori:
Desviación absoluta media:
z-score (medida estandarizada):
12
Métricas de distancia
Distancia de Minkowski
Distancia de Manhattan (r=1) / city block / taxicab
Distancia euclídea (r=2):
Distancia de Chebyshev (r??) / dominio / chessboard
Medidas de similitud
Página siguiente |