Agrupamento de Dados: uma Revisão
Data Clustering
Márcia de Oliveira Alves
José de Castro Neto
Maio 2006
Universidade Federal de Campina Grande
Mestrado em Informatica
Nivelamento
• O que é Agrupamento de Dados?
• Qual a utilidade?
Roteiro
• Contextualização;
• Processo de Agrupamento;
• Agrupamento de Dados;
• Uma Aplicacão: Mineração de Dados;
• Considerações Finais.
• Bibliografia
Contextualização
Motivação
• É crescente a migração dos dados para a
mídia digital;
• Na informação reside o conhecimento;
• O volume de informação é cada vez maior;
Análise Automática dos Dados
Contextualização
Análise Automática de Dados
• Previsão de Dados
– Fluxo de Caixa Previsto
• Classificação de Dados
– Relatório gerado segundo consulta
• Análise de Agrupamentos
– Data Mining – Mineração de Dados
Processo de Agrupamento
Objetivo
Figura 1: Gráfico ilustrativo de dados agrupados em quatro grupos
Processo de Agrupamento
Etapas
• Seleção e tratamento dos dados;
• Agrupamento de dados;
• Análise dos resultados;
Processo de Agrupamento
Seleção e Tratamento de Dados
• Eliminação de dados duplicados ou corrompidos;
• Tratamento de outliers;
• Valores faltantes ou inválidos;
• Transformação dos dados;
– Tratamento de Atributos:
• Adequar os diferentes tipos de atributos para o processo de
agrupamento.
– Normalização:
• Tratar dados com atributos de diferentes dimensões, quando
se pretende que eles tenham a mesma influência no
processo.
Processo de Agrupamento
Agrupamento de Dados
• Métodos:
– Hierárquicos;
– Segmentação;
• Medidas de proximidade
– Dissimilaridade
– Similaridade
Processo de Agrupamento
Agrupamento de Dados
• Métricas comuns em medidas de
proximidade
Figura 2: Surpefícies observadas pelas distâncias Euclidiana, Mahalanobis e Manhattan
Processo de Agrupamento
Análise dos resultados
• Gráfico da Silhueta
Figura 3: Gráfico da Silhueta
Processo de Agrupamento
Análise dos resultados
• Valores da Silhueta
Valor
Descrição
0,71 – 1,00 Uma estrutura forte foi encontrada.
0,51 – 0,70 Uma estrutura razoável foi encontrada.
0,26 – 0,50 A estrutura é fraca e pode ser superficial.
≤0,25
Nenhuma estrutura substancial foi
encontrada.
Tabela 1: Valores da Silhueta
Agrupamento de Dados
Métodos Hierárquicos
• Os dados são segmentados
sucessivamente, produzindo uma
representação hierárquica dos
agrupamentos
• Tipos:
– Aglomerativos;
– Divisivos;
Agrupamento de Dados
Métodos Hierárquicos
• Aglomerativos
Figura 3: Método Hierárquico Aglomerativo
Agrupamento de Dados
Métodos Hierárquicos
• Aglomerativos
– Principais desvantagens:
• Os agrupamentos não podem ser corrigidos;
• Requerem muito espaço de memória e tempo
de processamento;
Agrupamento de Dados
Métodos Hierárquicos
• Divisivos
Figura 4: Método Hierárquico Divisivo
Agrupamento de Dados
Métodos Hierárquicos
• Divisivos
– Principais vantagens
• Considera muitas divisões no primeiro passo;
– Principais desvantagens:
• Capacidade computacional maior que os
hierárquicos aglomerativos (grande número
de combinações);
• Requerem muito espaço de memória e tempo
de processamento
Agrupamento de Dados
Métodos de Segmentação
• Constroem uma única partição k grupos,
isto é, classificam os dados em k grupos
– Cada grupo deve conter no mínimo um objeto;
– Todo objeto foi atribuído a um grupo.
• Tipos:
– Exclusivos
• Cada objeto pertence a exatamente um grupo
– Não-exclusivos
• A escolha do grupo do objeto é definida com base no
grau de pertinência do mesmo
Contextualização
Mineração de Dados
“A extração de Conhecimento de base de
dados é o processo de identificação de
padrões válidos, novos, potencialmente
úteis e compreensíveis embutidos nos
dados” (Fayyad, Piatetsky-Shapiro e
Smyth citado por Rezende)
Contextualização
Motivação
• Grandes volumes de dados heterogêneos;
• Necessidade de técnicas para extrair a
informação que realmente seja
relevantes.
Mineração de Dados e
Agrupamento
Abordagem da Mineração de Dados
• Segmentação;
• Modelos de predição;
• Visualização;
Mineração de Dados e
Agrupamento
Abordagem da Mineração de Dados
• Segmentação
: Os métodos de
agrupamento são utilizados para
segmentar bases de dados em grupos
homogêneos
Mineração de Dados e
Agrupamento
Abordagem da Mineração de Dados
• Modelos
de Prediticao : Usam o
agrupamento de dados para agrupar
itens, a fim de
inferir regras,
caracterizar os grupos e sugerir
modelos.
Mineração de Dados e
Agrupamento
Abordagem da Mineração de Dados
• Visualização: o agrupamento de dados
pode ser utilizado como tecnica que
permite observar as informacoes em
diferentes niveis e estruturas.
Mineração de Dados
Aplicações citadas pelo autores
• Mineração em dados não estruturados
WWW;
• Mineração em banco de dados
geológicos;
Aplicações - Mineração
de Dados
Exemplo Banco de Dados Geológicos
• Regiao do Alasca
Aplicações - Mineração
de Dados
Exemplo Banco de Dados Geológicos
• Regiao do Alasca
Aplicações - Mineração
de Dados
Mineração de dados da bacia do Alaska
• Definição do contexto
• Descoberta
das
estruturas
primitivas para agrupamento;
• Definição do contexto em termos
relevantes
para
agrupamento
homogêneos de dados;
• Aplicação do algoritmo k-medias
Mineração de Dados
Bacia do Alaska
Algoritmo K-medias
Algoritmo de agrupamento que segmenta
os objetos em conjuntos de elementos
semelhantes, segundo algum criterio
Mineração de Dados
Bacia do Alaska
Algoritmo K-medias
• Etapas
• Define-se
o
número
de
grupamentos;
• Inicia-se os agrupamentos através
de
atributos
arbitrários
ou
centróides;
• Atribuição das amostras
• Volta-se ao passo 3 até um critério
de convergência ser cumprido;
Mineração de Dados
Bacia do Alaska
Algoritmo K-medias
Inicialização dos centróides
Atribuição das amostra
Procura de Novos
centróides
Considerações Finais
Como escolher um método?
• Tipo de atributos que o algoritmo opera;
• Escalabilidade para grandes conjuntos de
dados;
• Definição da melhor métrica de
similaridade;
• Habilidade de operar com uma dimensão
grande de variáveis;
Considerações Finais
Como escolher um método?
• Tratar valores discrepantes (outliers);
• Tempo de execução;
• Dependência de ordem dos dados;
• Interpretabilidade dos resultados.
Considerações Finais
Problemas
• Ferramentas atuais
• Dependência dos usuários
– Informação para início do processo
– Capacidade de interpretação dos
resultados
– Decisão sobre a utilização do método
adequado
Bibliografia
Básica
Jain, A.K. & Murty, M.N. & Flynn, P.J. “Data
Clustering: A Review” – ACM computing Surveys,
vol. 31, nº 3, september 1999.
Complementar
Vale, Marcos Neves do. “Agrupamentos de dados : avaliação de
métodos e desenvolvimento de aplicativo para análise de
grupos” - Orientadores: Marley M. B. R. Vellasco, Ricardo
Tanscheit. – Rio de Janeiro : PUC, Departamento de
Engenharia Elétrica, 2005.
Rezende, Solange de Almeida “Mineração de Dados ”
Lubia Vinhas, Gilberto Ribeiro Queiroz, Karine Reis Ferreira,
gilberto Câmara, Jão Argemiro C. Paiva – “Programação
Genética Aplicada a Algoritmos Geográficos ”- INPE – São
José dos Campos SP.
Download

DataClustering - Universidade Federal de Campina Grande