Classificação Automática (Clustering)
1.Conceito
Classificação Automática ou Cluster analysis é uma técnica da análise multi-variada que atribui
itens a grupos automaticamente criados, com base num cálculo do grau de associação entre itens e
grupos, é uma técnica estatística utilizada para gerar uma estrutura categórica que se adapte a um
conjunto de observações. Os grupos que são formados deverão possuir um elevado grau de associação
entre membros do mesmo grupo e um pequeno grau entre membros de diferentes grupos. Cluster
analysis é uma técnica para providenciar uma estrutura em conjuntos amplos de dados multi-variados.
Tem sido descrita como uma ferramenta de "descoberta" porque possui o potencial de revelar
relacionamentos previamente não detectados, com base em dados complexos. Uma das primeiras
aplicações de cluster analysis consistia em determinar relacionamentos taxionômicos entre espécies,
perfis psiquiátricos, dados médicos e clínicos, censos e dados de survey, imagens e estruturas e
propriedades químicas, tudo isto tem sido estudado através do uso dos métodos analíticos de clustering
analysis.
2. Aplicações
Métodos e algoritmos de Clustering em IR, Requisitos Computacionais Temporais e de
Armazenagem, Avaliação e Validação, veja mais em:
http://www.di.uevora.pt/~pq/miaa/cluster_miaa.html (item 4)
3.Exemplo
Busca-se identificar na população, os grupos de indivíduos homogêneos. Por exemplo, em uma
pesquisa de satisfação, identificar diferentes categorias de reações, em um estudo de opinião, as classes
ideológicas, etc. Este exercício é tanto mais difícil quanto maior for a quantidade de variáveis e
indivíduos.
Existem diversos métodos de classificação. No Sphinx, pode-se proceder intuitivamente
agrupando indivíduos num mapa (ver item Construir uma tipologia interativa) ou de uma maneira
automática. Neste caso, basta definir as variáveis relacionadas aquelas às quais se deseja reagrupar
indivíduos. O sistema proporá uma ou mais classificações segundo o método de nuvens dinâmicas, que
consiste em melhorar pelas interações uma partição inicial. O resultado depende deste dado inicial. Ele
pode ser fixado de uma maneira aleatória ou corresponder às categorias de uma variável existente. A
qualidade do resultado faz intervir sobre diferentes pontos de vista: a quantidade de classes (tamanho), a
distribuição das frequências nas classes, à homogeneidade das classes e sua dispersão.
4. Links
• http://www.di.uevora.pt/~pq/miaa/cluster_miaa.html
• http://www.statsoft.com/textbook/stcluan.html
5.Classificação automática no Sphinx
A opção Classificação automática do menu Avançado conduz a escolher as variáveis a utilizar
para descrever o conjunto que se deseja classificar. Tem-se a liberdade de escolher a quantidade de
classes pesquisadas ou determiná-la em função de uma classificação inicial (determinada de maneira
aleatória ou pela escolha de uma referência).
Não existe um método de classificação que seja mais estável. Deve-se experimentar diversas
classificações e escolher aquela que melhor convém apoiando-se sobre a análise da variância lançada
antes que a variável tenha sido criada (Criar uma variável).
Veja como :
•
•
•
•
•
•
•
Executar uma classificação automática
Escolher uma classificação
Explorar uma classificação
Analisar uma classificação
Analisar e interpretar classes
Visualizar classes numa nuvem de pontos
Confrontar outras variáveis
Em : manuais/v4/sph/08-Analise_multi.pdf
Download

Classificação Automática (Clustering)