Classificação Automática (Clustering) 1.Conceito Classificação Automática ou Cluster analysis é uma técnica da análise multi-variada que atribui itens a grupos automaticamente criados, com base num cálculo do grau de associação entre itens e grupos, é uma técnica estatística utilizada para gerar uma estrutura categórica que se adapte a um conjunto de observações. Os grupos que são formados deverão possuir um elevado grau de associação entre membros do mesmo grupo e um pequeno grau entre membros de diferentes grupos. Cluster analysis é uma técnica para providenciar uma estrutura em conjuntos amplos de dados multi-variados. Tem sido descrita como uma ferramenta de "descoberta" porque possui o potencial de revelar relacionamentos previamente não detectados, com base em dados complexos. Uma das primeiras aplicações de cluster analysis consistia em determinar relacionamentos taxionômicos entre espécies, perfis psiquiátricos, dados médicos e clínicos, censos e dados de survey, imagens e estruturas e propriedades químicas, tudo isto tem sido estudado através do uso dos métodos analíticos de clustering analysis. 2. Aplicações Métodos e algoritmos de Clustering em IR, Requisitos Computacionais Temporais e de Armazenagem, Avaliação e Validação, veja mais em: http://www.di.uevora.pt/~pq/miaa/cluster_miaa.html (item 4) 3.Exemplo Busca-se identificar na população, os grupos de indivíduos homogêneos. Por exemplo, em uma pesquisa de satisfação, identificar diferentes categorias de reações, em um estudo de opinião, as classes ideológicas, etc. Este exercício é tanto mais difícil quanto maior for a quantidade de variáveis e indivíduos. Existem diversos métodos de classificação. No Sphinx, pode-se proceder intuitivamente agrupando indivíduos num mapa (ver item Construir uma tipologia interativa) ou de uma maneira automática. Neste caso, basta definir as variáveis relacionadas aquelas às quais se deseja reagrupar indivíduos. O sistema proporá uma ou mais classificações segundo o método de nuvens dinâmicas, que consiste em melhorar pelas interações uma partição inicial. O resultado depende deste dado inicial. Ele pode ser fixado de uma maneira aleatória ou corresponder às categorias de uma variável existente. A qualidade do resultado faz intervir sobre diferentes pontos de vista: a quantidade de classes (tamanho), a distribuição das frequências nas classes, à homogeneidade das classes e sua dispersão. 4. Links • http://www.di.uevora.pt/~pq/miaa/cluster_miaa.html • http://www.statsoft.com/textbook/stcluan.html 5.Classificação automática no Sphinx A opção Classificação automática do menu Avançado conduz a escolher as variáveis a utilizar para descrever o conjunto que se deseja classificar. Tem-se a liberdade de escolher a quantidade de classes pesquisadas ou determiná-la em função de uma classificação inicial (determinada de maneira aleatória ou pela escolha de uma referência). Não existe um método de classificação que seja mais estável. Deve-se experimentar diversas classificações e escolher aquela que melhor convém apoiando-se sobre a análise da variância lançada antes que a variável tenha sido criada (Criar uma variável). Veja como : • • • • • • • Executar uma classificação automática Escolher uma classificação Explorar uma classificação Analisar uma classificação Analisar e interpretar classes Visualizar classes numa nuvem de pontos Confrontar outras variáveis Em : manuais/v4/sph/08-Analise_multi.pdf