Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Programa de Pós-graduação em Biociências
Área de Concentração
“Caracterização e Aplicação da Diversidade Biológica”
Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Conceito: Padrão
Um padrão é qualquer entidade da qual é possível extrair algum tipo
de característica, seja ela simbólica ou numérica (Nogueira, 2012).
O reconhecimento de padrões é a área de pesquisa que tem por
objetivo a classificação de objetos em um número de categorias ou
classes (Theodoridis and Koutroumbas, 1999).
O Reconhecimento de Padrões é uma disciplina científica que estuda
e desenvolve técnicas com o objetivo de descrever, classificar ou
reconhecer regularidades significativas, em meios ruidosos e
complexos (Schalkoff 1992).
O Reconhecimento de Padrões está ligada a busca de “ Regularidades ”
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Importância:
Restringir nossa atenção a um conjunto de casos
selecionado pelo sistema. Ex. Imagens médicas
Para automatizar completamente o processo de tomada
de decisão, sem necessidade de intervenção humana. Ex.
placas de carro.
Predizer resultados baseados em características.
Ex. diagnóstico médico.
O princípio básico de qualquer técnica de reconhecimento
de padrões é classificação objetos.
Exemplos
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Classificação
A solução de um problema de classificação consiste na
caracterização das relações existentes entre um conjunto de
classes consideradas C, um conjunto O de objetos a serem
classificados e um conjunto X de observações tomadas
sobre os objetos.
Classes –
Características Comuns
Objetos – todos os objetos
a serem classificados,
Observações –
Conjunto formado por valores
de medidas obtidas
sobre os objetos
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Contextualização da Análise de Agrupamentos
Estatística
É o campo de estudo preocupado com (1) a coleta,
organização, síntese e análise de dados, e (2) com o
estabelecimento de inferências para um corpo de dados
(população ou universo estatístico) quando somente parte
dos dados é observado (amostra).
Análise Exploratória
Inferência
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Contextualização da Análise de Agrupamentos
Análise Exploratória
Consiste na coleta, apresentação, análise e interpretação de
dados numéricos.
Visa descrever e analisar um certo grupo (amostra) sem daí
retirar conclusões ou inferências sobre a população da qual foi
retirado esse grupo.
Face aos resultados de experiências e da observação dos
processos naturais, a questão básica que se põe é quase
sempre, a seguinte: como resumir os aspectos essenciais dos
dados? Será que existem regularidades, tendências, ciclos,
concentrações,..., padrões, dignos de nota nos dados?
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Contextualização da Análise de Agrupamentos
Análise Inferencial
É o conjunto de técnicas, baseada na teoria das probabilidades,
que permitem construir proposições de caráter probabilístico
acerca da população, partindo da observação de alguns dos seus
elementos (amostra). Assim, os métodos de inferência estatística
envolvem o cálculo de estatísticas, a partir das quais se infere
sobre os parâmetros da população, isto é, permitem com
determinado grau de probabilidade, generalizar à população
certas conclusões, por comparação com os resultados amostrais.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise Univariada: Análise de distribuições de uma única variável.
Análise Bivariada: classificação cruzada, correlação, análise de
variância e regressão simples para analisar duas variáveis.
Análise Multivariada: Análise simultânea de múltiplas variáveis
em um único relacionamento ou conjunto de relações.
Análise de Agrupamentos: Análise Multivariada
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Técnicas Multivariadas
Estrutura dos dados
X1
X2
...
Xp
Caso 1
x11
x12
...
x1p
Caso 2
x21
x22
...
x2p
....
...
...
...
..
Caso n
xn1
xn2
...
xnp
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Sujeito Peso Altura CC1
Matriz (Exemplo Obesidade)
1 – Circunferência da Cintura
2 – Circunferência do Quadril
3 – Colesterol
4 - Triglicérides
CQ2 Coles3 TG4
1
70,3
177,0
81,4 79,0
190,4
80,0
2
65,9
160,0
83,6 81,5
170,5
69,0
3
66,0
166,8
77,4 78,0
169,6
96,0
4
92,5
178,9
90,2 90,6
169,7
93,0
5
56,0
164,3
75,0 81,0
177,0
77,0
6
76,7
180,0
69,4 90,4
198,7
86,0
7
61,0
170,0
67,3 97,8
173,9
83,0
8
65,9
171,7
77,9 71,0
200,3
83,0
9
55,0
160,7
87,3 88,0
179,0
85,0
10
77,5
181,0
91,0 79,0
205,5
80,5
11
89,0
183,4
77,3 93,3
188,5
90,5
...
...
...
...
58,0
159,0
199,0
83,0
...
76
...
...
75,4 92,0
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Motivação
Transtorno Obsessivo-Compulsivo (TOC)
O TOC é representado como
uma desordem homogênea,
com os pacientes agrupados de
acordo com a gravidade dos
sintomas sem levar em conta
os diferentes subtipos de
obsessões e compulsões.
MOCI Inventário Maudsley de
Obsessões e Compulsões,
consta de 30 itens com respostas
dicotômicas, como verdadeiro ou
falso.
Paciente
S1
S2
S3
...
S29
S30
1
1
0
1
...
0
1
2
0
0
1
...
1
0
3
1
1
0
...
0
0
4
1
1
1
...
1
1
5
0
0
0
...
0
0
6
0
0
1
...
1
1
...
...
...
...
...
...
...
13
1
1
0
...
0
1
14
0
1
1
...
0
0
15
1
0
1
...
1
1
16
0
1
0
...
1
0
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Técnicas Multivariadas
• Técnica de Dependência
– É aquela na qual uma variável ou um conjunto de
variáveis é identificado como variável dependente a
ser predita ou explicada por outras variáveis
independentes;
• Técnica de Interdependência
– É aquela na qual nenhuma das variáveis é definida
como dependente ou independente, mas o
procedimento envolve a análise simultânea de todas
as variáveis no conjunto.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Técnicas Multivariadas
• Técnicas de Dependência
– Podem ser classificadas por duas características:
• O número de variáveis dependentes,
• O tipo de escala das variáveis.
• Exemplos de técnicas
–
–
–
–
–
Regressão Linear Múltipla
MANOVA
Análise Discriminante
Análise de Correlação Canônica
Análise Conjunta
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Técnicas Multivariadas
• Técnicas de Interdependência
– Depende da estrutura procurada:
• Estrutura de variáveis;
• Estrutura de casos;
• Estrutura de objetos (da matriz de dados).
• Exemplos
–
–
–
–
Análise Fatorial
Análise de Agrupamentos
Escalonamento Multidimensional
Análise de Correspondências
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos é o nome genérico atribuído a uma
extensa variedade de métodos que procuram elaborar critérios
para agrupar objetos (seres humanos, animais, plantas,
municípios, regiões etc.). São técnicas estatísticas multivariadas,
com conotação exploratória. Desta forma, dada uma amostra
de n objetos, cada um deles medidos segundos p variáveis,
procura-se um esquema de classificação que agrupe os objetos
em k grupos. Os objetos são mensurados nas diversas variáveis
de interesse fornecendo uma matriz de dados de n objetos
por p variáveis, a qual será manuseada através de algoritmos
para a obtenção dos grupos homogêneos.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Programa
“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”
1 – Introdução
2 – Contextualização da Análise de Agrupamentos na Estatística
3 – Níveis de Mensuração
4 – Medidas de similaridade
5 – Representação Gráfica
6 – Métodos De Agrupamentos
6.1 – Métodos Hierárquicos Aglomerativos
6.2 – Métodos Não Hierárquicos
6.2.1 – Método K-means
7 – Estratégias para o Reconhecimento do Número de Grupos
8 – Programas Computacionais
9 – Aplicações Práticas
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Programa
“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”
Bibliografia
Conceituais
1. Everitt B, Landau S, Leese M. Cluster Analysis, 4th edition, NY, Wiley, 2009.
2. Frei, F. Introdução à Análise de Agrupamentos: Teoria e Prática. SP, Editora
UNESP, 2006.
3. Kaufman L, Rousseeuw P. Finding Groups in Data: An Introduction to Cluster
Analysis New Jersey, Wiley-Interscience; 2005.
4. Frei, F. Tópicos de Análise de Agrupamentos. Notas de Aula. FCLAssis –
UNESP, 2012.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”
Bibliografia
Aplicações
1. Albuquerque MA, Caraciolo RLF, Silva JAA, Santos ES, Stosic B, Souza AL.
Estabilidade em Análise de Agrupamento: estudo de caso em Ciência florestal.
Revista Árvore, 30, (2), pp. 257-265, 2006.
2. Dilts D, Khamalah J, Plotkin A. Using Cluster Analysis for Medical Resource
Decision Making. Med Decis Making; vol. 15, 4: pp. 333-346, 1995.
3. Fernandes FBP, Andrade EM, Fontenele SB, Meireles CM, Ribeiro
JÁ.Análise de agrupamento como suporte à gestão qualitativa da água
subterrânea no semiárido cearense. Revista Agro@mbiente On-line, v. 4, n. 2,
p. 86-95, jul-dez, 2010.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”
Bibliografia
Aplicações
4. Lima-Verde EPA, Hernández MIM. Sucessão ecológica em áreas
reflorestadas de restingas: respostas da comunidade de borboletas
Nymphalidae. In: Iniciados (V.B. Bezerra, org.). Universidade Federal da
Paraíba. Vol. 12, p. 13-22. 2007.
5. Resende APC, Silveira NAPR, Sabroza PC, Souza-Santos R. Determinação
de áreas prioritárias para ações de controle da dengue. Rev Saúde
Pública;44(2):274-82, 2010.
6. Selvy PT, Palanisamy V, Purusothaman T. Performance Analysis of
Clustering Algorithms in Brain Tumor Detection of MR Images. European
Journal of Scientific Research. vol.62 No.3 pp. 321-330, 2011.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”
Bibliografia
Aplicações
7. Schneider S, Huy C, Schuessler M, Diehl K, Schwarz S. Optimising lifestyle
interventions: identification of health behaviour patterns by cluster analysis in a
German 50+ survey. European Journal of Public Health, Vol. 19, No. 3, 271–
277, 2009.
8. Takeuchi Y, Mori Y. Behavioral Profiles of Feline Breeds in Japan. J. Vet.
Med. Sci. 71(8): 1053–1057, 2009.
9. Seidel EJ, Moreira Jr FJ , Ansuj AP, Noal MRC. Comparação entre o método
Ward e o método K-médias no agrupamento de produtores de leite. Ciência e
Natura, UFSM, 30 (1): 7- 15, 2008.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”
Conceitos e Ferramentas Computacionais
www.assis.unesp.br/ffrei/posgraduacao.html
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”
Avaliação
Trabalho prático
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”
Breve Revisão
Escalas (ou níveis) de mensuração
Importância
Escalas Qualitativas:Não possuem valores quantitativos.
Classificação dos objetos em categorias
Escalas Quantitativas: são as características que podem ser medidas em
uma escala quantitativa.
Valores numéricos que fazem sentido
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”
1. Escala Qualitativa Nominal: escala que divide as respostas em categorias
discretas, não relacionadas numericamente entre si.
Uma escala nominal não mede mas, sobretudo, nomeia.
Variáveis Nominais: números não podem ser sujeitos a quaisquer operações
aritméticas. O uso das escalas nominais exige que cada elemento seja
incluído única e exclusivamente numa categoria
Exemplos: cor, religião, raça, localização geográfica, o local de nascimento ou
os setores de atividade econômica.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”
1. Variável Qualitativa Binária (Dicotômica)
Um caso particular deste tipo de escala de medida ocorre quando a
característica em estudo (variável) tem apenas duas categorias:
Sucesso ou Fracasso.
São exemplos deste tipo de características:
Sexo: Masculino/Feminino)
Germinação de determinada semente: Germinou/Não Germinou
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”
2. Escala Qualitativa Ordinal
Escala em que as respostas são ordenadas quanto à sua dimensão relativa, mas em q
de ordem não são necessariamente iguais.
Tem origem no ponto zero, seguindo-se diferentes valores das observações
por ordem crescente ou decrescente, mas não quantifica as diferenças entre
esses níveis.
As classificações ordinais não podem, portanto, ser somadas ou subtraídas.
Exemplo
Opinião sobre o sabor de determinado produto alimentar
1- detesta; 2- gosta pouco; 3- indiferente; 4- gosta; 5- adora
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”
3. Escala Quantitativa Discreta
Características mensuráveis que podem assumir apenas um número finito ou
infinito contável de valores. Somente fazem sentido valores inteiros.
Exemplos: Todos os tipos de Contagem!
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”
4. Escala Quantitativa Contínuas
Características mensuráveis que assumem valores em uma escala
contínua (na reta real), para as quais valores fracionais fazem sentido.
Usualmente devem ser medidas através de algum instrumento.
Exemplos: Peso, Altura, Diâmetro do tronco da
Escala Quantitativa Contínuas – Intervalar e de Razão
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”
Medidas
Qualitativa
Nominal
-
Quantitativa
Ordinal
Discreta
Contínua
+
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”
Dr. Fernando Frei
Download

Introdução