Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração “Caracterização e Aplicação da Diversidade Biológica” Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Medidas de similaridade A escolha do coeficiente de similaridade depende da escala de mensuração da variável. Assim, o tratamento dado às variáveis de escalas intervalares é diferente das variáveis nominais Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Suponhamos n objetos a serem agrupados: seres humanos, animais, palavras, regiões etc. A entrada dos dados é representada por uma matriz composta por n linhas e p colunas (nxp), onde n representa os objetos e p as medidas das variáveis analisadas. A definição da matriz de dados brutos (nxp) é o primeiro passo para a obtenção da matriz de similaridades nxn, onde a intersecção de linha e coluna mostra a similaridade de dois objetos Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Consideram-se dois tipos de similaridades: Similaridade: Mede quão semelhante são dois objetos Maior valor – Maior a Similaridade Dissimilaridade: Mede quão diferentes são dois objetos. Menor valor – Maior Similaridade Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Variáveis de Escalas Contínuas Medidas podem ser organizadas em uma matriz de dados brutos (nxp) onde as n linhas correspondem aos objetos e as p colunas às variáveis. x11 .......x1 f .......x1 p Mdb xi1.......xif ........xip x ....... x ....... x n1 nf np .. .. . . . . .. .. . . . . . . . . .. .. .. . . . Sujeito Peso Altura CC1 CQ2 Coles3 TG4 1 70,3 177,0 81,4 79,0 190,4 80,0 2 65,9 160,0 83,6 81,5 170,5 69,0 3 66,0 166,8 77,4 78,0 169,6 96,0 4 92,5 178,9 90,2 90,6 169,7 93,0 5 56,0 164,3 75,0 81,0 177,0 77,0 ... ... ... ... 58,0 159,0 199,0 83,0 . . . . . . . . . . . . . . . .. . . . . . . . . ... 76 ... ... 75,4 92,0 Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. O coeficiente mais utilizado para dois objetos i e j fixados, para este tipo de escala é a distância euclidiana, que fornece a dissimilaridade, dada por : dij x p if x jf f 1 Exemplo 1 Matriz de dados Brutos Uma única variável! 2 Região DiamCopa Reg01 12,45 Reg02 8,70 Reg03 13,20 Reg04 9,20 Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Região DiamCopa Reg01 12,45 Reg02 8,70 Reg03 13,20 Reg04 9,20 dij x p if x jf f 1 Proximity Matrix Euclidean Distance Case d12 d13 d14 1 12,45 8,70 2 3,750 f 1 1 2 12,45 13,20 0,750 f 1 1 2 2 12,45 9,20 3,250 Reg01 Reg02 Reg03 Reg04 Reg01 .000 3.750 .750 3.250 Reg02 3.750 .000 4.500 .500 Reg03 .750 4.500 .000 4.000 Reg04 3.250 .500 4.000 .000 This is a dissimilarity matrix f 1 Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Exemplo 1 Matriz de dados Brutos Duas variáveis d12 2 12,45 8,70 2 Região DimCopa Altura Reg01 12,45 22,88 Reg02 8,70 13,00 Reg03 13,20 25,11 Reg04 9,20 15,70 (22,88 13,00) 2 10,568 f 1 Proximity Matrix Euclidean Distance Case Reg01 Reg02 Reg03 Reg04 Reg01 .000 10.568 2.353 7.881 Reg02 10.568 .000 12.919 2.746 Reg03 2.353 12.919 .000 10.225 Reg04 7.881 2.746 10.225 .000 This is a dissimilarity matrix Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Outra distância conhecida é a city block ou Manhattan definida por: p d ij xif x jf f 1 Outras distâncias podem ser construídas a partir da distância euclidiana d ij W x p p f 1 if x jf 2 onde cada variável recebe um peso W, de acordo com sua importância Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Cuidados com as medidas! A padronização evita que as unidades escolhidas para mensurar as variáveis, possam afetar a similaridade entre os objetos. Assim, as variáveis contribuem de forma mais igualitária para a similaridade entre os objetos. Por exemplo, se a amplitude dos valores de um atributo é muito maior que a amplitude de um segundo atributo, então este primeiro atributo irá contribuir com um peso maior para a similaridade entre os objetos. Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Padronização Z Zif xf e xif x f sf sf representam a média e desvio padrão dos valores da variável f. Desta maneira todas as variáveis padronizadas deixarão de ter unidade. Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Exemplo Observe que na tabela abaixo, os municípios A e B são semelhantes quanto as três últimas variáveis, mas apresentam uma distância muito grande em relação às suas populações. Sem a padronização, a variável população vai influenciar e muito no resultado da matriz de distância Municípios População % Crianças % de Adultos % de Residências Vacinada Alfabetizados com àgua A 35000 87 90 85 B 11000 86 92 85 C 30000 50 61 37 Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Exemplo xif x f Zif 1 ) 2 ) dij sf if % Crianças % de Adultos População Vacinada Alfabetizados com Água A 35000 87 90 85 B 11000 86 92 85 C 30000 50 61 37 A B 2 Observe que a distância entre a cidade A e B é muito grande sem padronização. A variável “população” está inflacionando o resultado da distância. Matriz Distância NÃO PADRONIZADA Municípios x jf f 1 % de Residências Municípios x p Matriz Distância Padronizada C Municípios A B C A .0 576000005.0 25004514.0 A .000 3.608 9.031 B 576000005.0 .0 361004561.0 B 3.608 .000 11.361 C 25004514.0 361004561.0 .0 C 9.031 11.361 .000 Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Variáveis de Escalas Nominais Variáveis Binárias Ao procedermos a análise dessas variáveis é usual apresentar as duas categorias exaustivas e mutuamente exclusivas com os códigos 1 para presença do atributo e 0 para a ausência. objeto j objeto i 1 0 1 a b a+b 0 c d c+d a+c b+d p Na tabela 2x2, a é o número de variáveis iguais a 1 para ambos os objetos, analogamente b é o número de variáveis f para qual =1 e =o, e a assim por diante. a+b+c+d=p representa o número total de variáveis. Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. As variáveis binárias podem ser enumeradas como simétricas e não simétricas: Variáveis binárias simétricas, as quais não possuem preferência na codificação (caso da variável sexo), o resultado não sofre alterações quando os códigos são modificados, assim a e d tem a mesma função. O mais conhecido coeficiente de similaridade para variáveis binárias simétricas é o simple matching, o qual fornece a proporção de pares similares: a d sij p Quanto mais próximo de 1, maior a similaridade Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. O outro tipo de variável binária é a assimétrica, cuja codificação usa o número 1 para indicar a presença do atributo e 0 para a ausência. Indivíduos com códigos 1-1 indicam semelhança, mas indivíduos 0-0 não indicam necessariamente semelhança. Para os casos onde os pares 0-0 não indicam similaridade usam-se coeficientes apropriados, como segue: a Sij acd (coeficiente de Jaccard) Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Exemplo: Análise para S1 e S2 apenas Paciente objeto 3 1 objeto 1 0 S1 S2 S3 ... S30 1 1 0 1 ... 1 2 0 0 1 ... 0 3 1 1 0 ... 0 1 1 0 a+b 4 1 1 1 ... 1 0 1 0 c+d 5 0 0 0 ... 0 a+c b+d p ... ... ... ... ... ... 46 0 1 0 ... 0 Proximity Matrix Jaccard Measure a 1 S13 0,5 a c d 11 0 Case 1 2 3 1 1.000 .000 .500 2 .000 1.000 .000 3 .500 .000 1.000 Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Variáveis com mensurações diferentes O procedimento indicado nesta situação é a utilização do coeficiente de Gower, que pode ser aplicado para qualquer tipo de mensuração, definido como: p W . d ij d (i , j ) ij f 1 p W ij f 1 Dr. Fernando Frei