Agrupamento (clustering)
Tarefa descritiva que agrupa exemplos
(objetos) de acordo com suas características

Objetivo: agrupar objetos em clusters (agrupamentos) de modo que
objetos pertencentes a um mesmo cluster são mais similares entre
si de acordo com alguma medida de similaridade pré-definida,
enquanto que objetos pertences a clusters diferentes têm uma
similaridade menor

Consumo de um carro em função de suas características

Valor de um imóvel em função das características dele e do bairro
1
HAC
MD - junho/2008
Tarefas de MD
Data
Mining
Atividade
Preditiva
Classifica
ção
Regressã
o
Atividade
Descritiva
Regras de
Associaçã
o
Clusterin
g
Sumariza
ção
2
HAC
MD - junho/2008
Agrupamento

Tarefa de aprendizado não-supervisionado:
Exemplos não estão rotulados – não existe uma
classe conhecida considerada o atributo meta
3
HAC
MD - junho/2008
Exemplo
k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Xk1 0 0 0 1 1 1 2 3 4 5 5 5 6 6 6
Xk2 0 2 4 1 2 3 2 2 2 1 2 3 0 2 4
xk2
4
3
2
1
1
HAC
2
3
4
5
6
xk1
4
MD - junho/2008
Examplo – conjunto de dados
1)
0.5
3
16)
6
8
31)
6.5
7.5
2)
1
3
17)
7
6
32)
4
2
3)
2
3
18)
10
4
33)
6
3
4)
1
1
19)
10.5
4
34)
6.5
3
5)
1
2
20)
10
3
35)
6
2
6)
1
2.5
21)
9.5
3
36)
8
2
7)
1.5
2
22)
9.5
4
37)
2
5
8)
2
1
23)
9.5
5
38)
1
6
9)
2
2
24)
7
7
39)
1.5
7
10)
3
2
25)
7
7.5
40)
2
6
11)
6
6
26)
9.5
3.5
41)
2
7
12)
9
3
27)
10
5
42)
2.5
6.5
13)
9
4
28)
7.5
7.5
43)
2.5
7.5
14)
6.5
6.5
29)
7
8
44)
4
6
15)
6
7
30)
9
5
45)
5
7
5
HAC
MD - junho/2008
6
HAC
MD - junho/2008
Processo de agrupamento


1. seleção de exemplos e seleção ou construção
de atributos

seleciona atributos relevantes ou

constroi atributos representativos
2. Similaridade entre exemplos


3. Agrupamento

HAC
seleciona a medida de similaridade a ser utilizada,
que deve ser adequada ao domínio
aplicação do algoritmo de agrupamento
7
MD - junho/2008
Medidas de similaridade

medidas de distância


medidas de correlação


(para dados contínuos)
(para dados contínuos)
medidas de associação

(para dados discretos)
8
HAC
MD - junho/2008
Medidas de distância



atributos dos exemplos são considerados
como dimensões de um espaço
multidimensional
cada exemplo corresponde a um ponto no
espaço
similaridade entre dois pontos é a distância
entre eles
9
HAC
MD - junho/2008
Medidas de distância

Manhattan/city-block

D(x,y) = ∑(abs(xi – yi))
formato do cluster encontrado:
0,0
10
HAC
MD - junho/2008
Medidas de distância

euclidiana

D(x,y) = SQRT(∑(xi – yi)2)
formato do cluster encontrado:
0,0
11
HAC
MD - junho/2008
Formatos de clusters
Manhattan
Euclidiana
Chebychev
Mahalanobis
12
HAC
MD - junho/2008
13
HAC
MD - junho/2008
Algoritmo k-means

usuário define previamente o número k de
partições

repetir até que os cluster se estabilizem:

Escolher aleatoriamente k pontos que serão os centros dos
clusters iniciais – centróides

determinar para cada exemplo do conjunto de dados, o
cluster ao qual ele pertence, calculando a distância entre o
exemplo e o centro do cluster

calcular um novo centróide para cada cluster, que passa a
ser o novo centro
(os pontos iniciais não são os centros definitivos dos
clusters, mas sim uma tentativa inicial)
HAC
14
MD - junho/2008
Download

Agrupamento (clustering)