CLUSTERING: UMA REVISÃO
AOS ALGORITMOS BÁSICOS
HECTOR ENRIQUE DE LA HOZ LEÓN
ORDEM DA APRESENTAÇÃO
• Introdução
• Motivação
• Componentes de algoritmos de
clustering
• Definições.
• Algoritmos de clustering
• Aplicação.
INTRODUÇÃO
• Clustering: É o processo de classificação
não supervisionada de padrões em grupos
chamados de clusters.
dados
Aprendizado
supervisionado
Classificação
dados
Aprendizado
NÃO
supervisionado
DADOS NÃO
CLASSIFICADOS
DADOS
CLUSTERIZADOS
MOTIVAÇÃO
• Grandes quantidades de dados são
geradas
e
armazenadas
diariamente.
• A pressão da competência é forte.
• Os Computadores são poderosos e
baratos.
COMPONENTES DOS SISTEMAS DE
CLUSTERING
Dado
Representação
de padrões
Extração de
características
Medida de
Similaridade
Loop de
Feedback
Clusters
Agrupamento
CARACTERÍSTICAS
S E L E Ç ÃO
• Ao processo de
Identificar o
conjunto mais
representativo de
características.
As características podem
ser:
• Qualitativas .
• Quantitativas.
E X T R AÇ ÃO
• Utilizar uma ou mais
transformações no
conjunto de
características para
gerar novas
propriedades ainda
mais representativas.
REPRESENTAÇÃO DOS CLUSTERS
• Pelo centroide do cluster.
• Por pontos distantes do
cluster.
• Utilizando nós em arvores de
classificação.
• Utilizando expressões logicas
conjuntivas.
FUNÇÃO DE SIMILARIDADE
• Os clusters
estão formados
por dados com
características
semelhantes.
•
•
•
•
Euclidiana.
Minkowski (p>2)
Mahalonobis
Manhattan
• São as
relações que
medem a
distância entre
um par de
padrões no
espaço de
características
𝒅
(𝒙𝒊,𝒌 − 𝒙𝒋,𝒌 )𝟐
𝑫 𝒙𝒊 , 𝒙𝒋 =
𝒌=𝟏
AGRUPAMENTO
CLASSIFICAÇÃO DOS ALGORITMOS
DE CLUSTERING
Clustering
Hierárquico
Divisional
Erro
quadrático
Link
completo
Link
simples
k-means
Busca
Teoria de
grafos
CSP
Max. da
esperança
ABORDAGENS PARA
CLUSTERIZAÇÃO (PARTE I)
• Aglomeração.
• Inicia tantos cluster quantos dados.
• Separação.
• Inicia um clusters só.
• Monothetic.
• Todas as características são utilizadas
simultaneamente.
• Polithetic.
• As características são utilizadas sequencialmente.
ABORDAGENS PARA
CLUSTERIZAÇÃO (PARTE II)
• Duro
• Cada dado pertence a um e só um cluster.
• Fuzzi
• Cada dado é classificado com uma variável de
pertinência a cada cluster
EXEMPLOS DAS ABORDAGENS
Aglomerativo
Monothetic
Fuzzi
DEFINIÇÕES FUNDAMENTAIS
(PARTE I)
• Padrão: Itens de dados utilizados pelos algoritmos de
clustering. Representados por um vetor de
características.
𝒙 = 𝑥1 , 𝑥2 , … , 𝑥𝑛
• Características: Cada uma das componentes dos
padrões (Atributos).
• Conjunto de dados: O conjunto de padrões
analisados pelo algoritmo.
𝐗 = 𝒙1 , 𝒙2 , … , 𝒙𝑑
DEFINIÇÕES FUNDAMENTAIS
(PARTE II)
• Classe:
• Estado da natureza que governa a geração de
padrões.
• uma fonte de padrões cuja distribuição no espaço
de característica esta governada por uma
determinada função de densidade de
probabilidade.
• Rotulo:
• É o valor assignado pelo algoritmo de clustering
aos dados que pertencem à mesma classe.
CLUSTERING HIERARQUICOS
(LINK SIMPLES)
•
Iniciar o algoritmo colocando cada padrão do conjunto de
dados em um cluster diferente.
•
Construir a lista das distâncias 𝑑𝑘 entre os padrões e
organiza-la em forma ascendente.
•
Percorrer a lista de distâncias ordenadas, e aglomerar os
padrões com distancias menores do que um determinado D.
•
Repetir até obter o numero de clusters desejados:
• Calcular a distância entre todos os pares de padrões de
classes diferentes.
• Aglomerar as classes cuja mínima distância seja menor do
que D.
• Atualizar as distâncias e atualizar D caso necessário.
CLUSTERING HIERARQUICOS
LINK SIMPLES
LINK COMPLETO
CLUSTERING TEORIA DE GRAFOS
• Calcular o
minimal spanning
tree (MST).
• Formar os
cluster
eliminando as
ramas de maior
valor.
CLUSTERING INCREMENTAL
• Iniciar o algoritmo associando um padrão ao primer
cluster
• Analisar o seguinte padrão do conjunto de dados e
classifica-lo em algum dos clusters existentes ou em um
novo cluster baseando-se em algum critério de
similaridade.
• Repetir o passo anterior até todos os padrões estarem
classificados.
CLUSTERING INCREMENTAL
K-MEANS
• Escolher k pontos, dentro do espaço de
características, representando os centros
dos k clusters em que é desejado dividir o
conjunto de dados.
• Assignar cada padrão ao centro mais próximo
de acordo com a função de similaridade.
• Recalcular os centros dos clusters
utilizando os dados membros de cada
cluster.
• Repetir o algoritmo desde o item dois até
atingir um critério de parada.
CARACTERÍSTICAS DO K-MEANS
• O seu tempo de convergência é proporcional ao
numero de padrões n, ao numero de clusters k e
ao numero de iterações l.
• O espaço de memoria requerido é proporcional
ao numero de dados e ao numero de clusters.
• Para um dado conjunto inicial de centros, o
algoritmo gera a mesma partição de dados sem
importar a ordem em que os dados são
apresentados.
• sensibilidade com respeito à seleção dos k
primeiros centros.
SELEÇÃO DOS K CENTROS.
• Selecionar os extremos e/ou o centro do espaço
de características como centroides iniciais dos
clusters.
• Dividir o espaço de características e selecionar
randomicamente em cada seção algum ponto como
centroide de um cluster. Isto garante que os
centroides estejam espalhados por todo o espaço
de caraterísticas.
• Selecionar os centros dos clusters perto do
centro de massa do conjunto de dados. Cada
centro é obtido adicionando um valor randômico
ao centro de massa dos dados.
COMPARAÇÃO ENTRE TÉCNICAS
Complexidade
Algoritmo de
clustering
Tempo
Espaço
Líder
K-Means
ISODATA
O(kn)
O(knl)
O(knl)
O(k)
O(k)
O(k)
Shortest
Spanning
Path (SPP)
O(𝑛2 )
O(n)
Link Simples
O(𝑛2 log 𝑛)
O(𝑛2 )
Link
Completo
O(𝑛2 log 𝑛)
O(𝑛2 )
APLICAÇÃO EM
BINARIZAÇÃO DE
IMAGENS DIGITAIS
APLICAÇÃO EM BINARIZAÇÃO DE
IMAGENS DIGITAIS (OTSU)
• Efetuar o cálculo
do histograma da
intesidade dos
pixeis.
• Calcular o limiar
que maximize a
variância
ponderada entre
as classes
𝝈𝟐 = 𝝎𝟏 𝝉 𝝈𝟐 𝟏 𝝉 + 𝝎𝟐 (𝝉) 𝝈𝟐 𝟐 (𝝉)
APLICAÇÃO EM BINARIZAÇÃO DE
IMAGENS DIGITAIS (OTSU)
APLICAÇÃO EM BINARIZAÇÃO DE
IMAGENS DIGITAIS (OTSU)
APLICAÇÃO EM BINARIZAÇÃO DE
IMAGENS DIGITAIS (K-MEANS)
•
Efetuar o cálculo do histograma de cores.
• Seleção das cinco cores de maior frequência
como possível centroide do cluster.
• Escolhe-se como semente aquela que possui
maior quantidade de pixeis a uma distância de
Manhattan menor do que um limiar τ (utilizouse nesta aplicação um limiar τ=20).
APLICAÇÃO EM BINARIZAÇÃO DE
IMAGENS DIGITAIS (K-MEANS)
𝑑𝑖 𝑝, 𝑞 = 𝑝 − 𝑞𝑖
APLICAÇÃO EM BINARIZAÇÃO DE
IMAGENS DIGITAIS (K-MEANS)
OBRIGADO
Download

CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS.