Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Programa de Pós-graduação em Biociências
Área de Concentração
“Caracterização e Aplicação da Diversidade Biológica”
Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Medidas de similaridade
A escolha do coeficiente de similaridade depende
da escala de mensuração da variável. Assim, o
tratamento dado às variáveis de escalas
intervalares é diferente das variáveis nominais
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Suponhamos n objetos a serem agrupados: seres
humanos, animais, palavras, regiões etc. A entrada dos
dados é representada por uma matriz composta por n
linhas e p colunas (nxp), onde n representa os objetos e p
as medidas das variáveis analisadas.
A definição da matriz de dados brutos (nxp) é o primeiro
passo para a obtenção da matriz de similaridades nxn,
onde a intersecção de linha e coluna mostra a
similaridade de dois objetos
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Consideram-se dois tipos de similaridades:
Similaridade: Mede quão semelhante são dois objetos
Maior valor – Maior a Similaridade
Dissimilaridade: Mede quão diferentes são dois objetos.
Menor valor – Maior Similaridade
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Variáveis de Escalas Contínuas
Medidas podem ser organizadas em uma matriz de dados
brutos (nxp) onde as n linhas correspondem aos objetos e
as p colunas às variáveis.
 x11 .......x1 f .......x1 p 


  

Mdb   xi1.......xif ........xip 


  



x
.......
x
.......
x
 n1
nf
np 

..
..
. . . . .. .. . . . . . . . . .. .. .. . . .
Sujeito Peso Altura CC1
CQ2 Coles3 TG4
1
70,3
177,0
81,4 79,0
190,4
80,0
2
65,9
160,0
83,6 81,5
170,5
69,0
3
66,0
166,8
77,4 78,0
169,6
96,0
4
92,5
178,9
90,2 90,6
169,7
93,0
5
56,0
164,3
75,0 81,0
177,0
77,0
...
...
...
...
58,0
159,0
199,0
83,0
. . . . . . . . . . . . . . . .. . . . . . . . .
...
76
...
...
75,4 92,0
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
O coeficiente mais utilizado para dois objetos i e j fixados,
para este tipo de escala é a distância euclidiana, que
fornece a dissimilaridade, dada por :
dij 
 x
p
if
 x jf
f 1
Exemplo 1
Matriz de dados Brutos
Uma única variável!

2
Região DiamCopa
Reg01
12,45
Reg02
8,70
Reg03
13,20
Reg04
9,20
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Região DiamCopa
Reg01
12,45
Reg02
8,70
Reg03
13,20
Reg04
9,20
dij 
 x
p
if
 x jf
f 1
Proximity Matrix
Euclidean Distance
Case
d12 
d13 
d14 
1
 12,45  8,70 
2
 3,750
f 1
1
2
 12,45  13,20 
 0,750
f 1
1

2
2
 12,45  9,20 
 3,250
Reg01
Reg02
Reg03
Reg04
Reg01
.000
3.750
.750
3.250
Reg02
3.750
.000
4.500
.500
Reg03
.750
4.500
.000
4.000
Reg04
3.250
.500
4.000
.000
This is a dissimilarity matrix
f 1
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Exemplo 1
Matriz de dados Brutos
Duas variáveis
d12 
2
 12,45  8,70
2
Região
DimCopa
Altura
Reg01
12,45
22,88
Reg02
8,70
13,00
Reg03
13,20
25,11
Reg04
9,20
15,70
 (22,88  13,00) 2  10,568
f 1
Proximity Matrix
Euclidean Distance
Case
Reg01
Reg02
Reg03
Reg04
Reg01
.000
10.568
2.353
7.881
Reg02
10.568
.000
12.919
2.746
Reg03
2.353
12.919
.000
10.225
Reg04
7.881
2.746
10.225
.000
This is a dissimilarity matrix
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Outra distância conhecida é a city block ou Manhattan definida por:
p
d ij   xif  x jf
f 1
Outras distâncias podem ser construídas a partir da distância euclidiana
d ij 
 W x
p
p
f 1
if
 x jf

2
onde cada variável recebe um peso W, de acordo com sua importância
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Cuidados com as medidas!
A padronização evita que as unidades escolhidas para
mensurar as variáveis, possam afetar a similaridade entre
os objetos.
Assim, as variáveis contribuem de forma mais igualitária
para a similaridade entre os objetos.
Por exemplo, se a amplitude dos valores de um atributo
é muito maior que a amplitude de um segundo atributo,
então este primeiro atributo irá contribuir com um peso maior
para a similaridade entre os objetos.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Padronização Z
Zif 
xf e
xif  x f
sf
sf
representam a média e desvio padrão dos valores da variável f.
Desta maneira todas as variáveis padronizadas deixarão de ter unidade.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Exemplo
Observe que na tabela abaixo, os municípios A e B são semelhantes quanto
as três últimas variáveis, mas apresentam uma distância muito grande em
relação às suas populações.
Sem a padronização, a variável população vai influenciar e muito no resultado
da matriz de distância
Municípios População
%
Crianças
% de Adultos
% de
Residências
Vacinada
Alfabetizados
com àgua
A
35000
87
90
85
B
11000
86
92
85
C
30000
50
61
37
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Exemplo
xif  x f
Zif 
1 )
2 ) dij 
sf
if
% Crianças
% de Adultos
População
Vacinada
Alfabetizados
com Água
A
35000
87
90
85
B
11000
86
92
85
C
30000
50
61
37
A
B

2
Observe que a distância entre
a cidade A e B é muito grande
sem padronização.
A variável “população” está
inflacionando o resultado
da distância.
Matriz Distância NÃO PADRONIZADA
Municípios
 x jf
f 1
% de
Residências
Municípios
 x
p
Matriz Distância Padronizada
C
Municípios
A
B
C
A
.0
576000005.0
25004514.0
A
.000
3.608
9.031
B
576000005.0
.0
361004561.0
B
3.608
.000
11.361
C
25004514.0
361004561.0
.0
C
9.031
11.361
.000
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Variáveis de Escalas Nominais
Variáveis Binárias
Ao procedermos a análise dessas variáveis é usual apresentar
as duas categorias exaustivas e mutuamente exclusivas com os
códigos 1 para presença do atributo e 0 para a ausência.
objeto j
objeto i
1
0
1
a
b
a+b
0
c
d
c+d
a+c
b+d
p
Na tabela 2x2, a é o número de variáveis
iguais a 1 para ambos os objetos,
analogamente b é o número de
variáveis f para qual =1 e =o, e a
assim por diante. a+b+c+d=p representa
o número total de variáveis.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
As variáveis binárias podem ser enumeradas como simétricas e
não simétricas:
Variáveis binárias simétricas, as quais não possuem
preferência na codificação (caso da variável sexo), o resultado
não sofre alterações quando os códigos são modificados, assim
a e d tem a mesma função.
O mais conhecido coeficiente de similaridade para variáveis
binárias simétricas é o simple matching, o qual fornece a
proporção de pares similares:
a

d
sij 
p
Quanto mais próximo de 1, maior a similaridade
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
O outro tipo de variável binária é a assimétrica, cuja codificação
usa o número 1 para indicar a presença do atributo e 0 para a
ausência.
Indivíduos
com códigos 1-1 indicam semelhança, mas
indivíduos 0-0 não indicam necessariamente semelhança. Para
os casos onde os pares 0-0 não indicam similaridade usam-se
coeficientes apropriados, como segue:
a
Sij 
acd
(coeficiente de Jaccard)
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Exemplo: Análise para S1 e S2 apenas
Paciente
objeto 3
1
objeto
1
0
S1
S2
S3
...
S30
1
1
0
1
...
1
2
0
0
1
...
0
3
1
1
0
...
0
1
1
0
a+b
4
1
1
1
...
1
0
1
0
c+d
5
0
0
0
...
0
a+c
b+d
p
...
...
...
...
...
...
46
0
1
0
...
0
Proximity Matrix
Jaccard Measure
a
1
S13 

 0,5
a  c  d 11 0
Case
1
2
3
1
1.000
.000
.500
2
.000
1.000
.000
3
.500
.000
1.000
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho”
FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Variáveis com mensurações diferentes
O procedimento indicado nesta situação é a utilização do coeficiente de Gower,
que pode ser aplicado para qualquer tipo de mensuração, definido como:
p
W . d
ij
d (i , j ) 
ij
f 1
p
W
ij
f 1
Dr. Fernando Frei
Download

Similaridade