Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração “Caracterização e Aplicação da Diversidade Biológica” Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia. Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Conceito: Padrão Um padrão é qualquer entidade da qual é possível extrair algum tipo de característica, seja ela simbólica ou numérica (Nogueira, 2012). O reconhecimento de padrões é a área de pesquisa que tem por objetivo a classificação de objetos em um número de categorias ou classes (Theodoridis and Koutroumbas, 1999). O Reconhecimento de Padrões é uma disciplina científica que estuda e desenvolve técnicas com o objetivo de descrever, classificar ou reconhecer regularidades significativas, em meios ruidosos e complexos (Schalkoff 1992). O Reconhecimento de Padrões está ligada a busca de “ Regularidades ” Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Importância: Restringir nossa atenção a um conjunto de casos selecionado pelo sistema. Ex. Imagens médicas Para automatizar completamente o processo de tomada de decisão, sem necessidade de intervenção humana. Ex. placas de carro. Predizer resultados baseados em características. Ex. diagnóstico médico. O princípio básico de qualquer técnica de reconhecimento de padrões é classificação objetos. Exemplos Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Classificação A solução de um problema de classificação consiste na caracterização das relações existentes entre um conjunto de classes consideradas C, um conjunto O de objetos a serem classificados e um conjunto X de observações tomadas sobre os objetos. Classes – Características Comuns Objetos – todos os objetos a serem classificados, Observações – Conjunto formado por valores de medidas obtidas sobre os objetos Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Contextualização da Análise de Agrupamentos Estatística É o campo de estudo preocupado com (1) a coleta, organização, síntese e análise de dados, e (2) com o estabelecimento de inferências para um corpo de dados (população ou universo estatístico) quando somente parte dos dados é observado (amostra). Análise Exploratória Inferência Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Contextualização da Análise de Agrupamentos Análise Exploratória Consiste na coleta, apresentação, análise e interpretação de dados numéricos. Visa descrever e analisar um certo grupo (amostra) sem daí retirar conclusões ou inferências sobre a população da qual foi retirado esse grupo. Face aos resultados de experiências e da observação dos processos naturais, a questão básica que se põe é quase sempre, a seguinte: como resumir os aspectos essenciais dos dados? Será que existem regularidades, tendências, ciclos, concentrações,..., padrões, dignos de nota nos dados? Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Contextualização da Análise de Agrupamentos Análise Inferencial É o conjunto de técnicas, baseada na teoria das probabilidades, que permitem construir proposições de caráter probabilístico acerca da população, partindo da observação de alguns dos seus elementos (amostra). Assim, os métodos de inferência estatística envolvem o cálculo de estatísticas, a partir das quais se infere sobre os parâmetros da população, isto é, permitem com determinado grau de probabilidade, generalizar à população certas conclusões, por comparação com os resultados amostrais. Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise Univariada: Análise de distribuições de uma única variável. Análise Bivariada: classificação cruzada, correlação, análise de variância e regressão simples para analisar duas variáveis. Análise Multivariada: Análise simultânea de múltiplas variáveis em um único relacionamento ou conjunto de relações. Análise de Agrupamentos: Análise Multivariada Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Técnicas Multivariadas Estrutura dos dados X1 X2 ... Xp Caso 1 x11 x12 ... x1p Caso 2 x21 x22 ... x2p .... ... ... ... .. Caso n xn1 xn2 ... xnp Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Sujeito Peso Altura CC1 Matriz (Exemplo Obesidade) 1 – Circunferência da Cintura 2 – Circunferência do Quadril 3 – Colesterol 4 - Triglicérides CQ2 Coles3 TG4 1 70,3 177,0 81,4 79,0 190,4 80,0 2 65,9 160,0 83,6 81,5 170,5 69,0 3 66,0 166,8 77,4 78,0 169,6 96,0 4 92,5 178,9 90,2 90,6 169,7 93,0 5 56,0 164,3 75,0 81,0 177,0 77,0 6 76,7 180,0 69,4 90,4 198,7 86,0 7 61,0 170,0 67,3 97,8 173,9 83,0 8 65,9 171,7 77,9 71,0 200,3 83,0 9 55,0 160,7 87,3 88,0 179,0 85,0 10 77,5 181,0 91,0 79,0 205,5 80,5 11 89,0 183,4 77,3 93,3 188,5 90,5 ... ... ... ... 58,0 159,0 199,0 83,0 ... 76 ... ... 75,4 92,0 Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Motivação Transtorno Obsessivo-Compulsivo (TOC) O TOC é representado como uma desordem homogênea, com os pacientes agrupados de acordo com a gravidade dos sintomas sem levar em conta os diferentes subtipos de obsessões e compulsões. MOCI Inventário Maudsley de Obsessões e Compulsões, consta de 30 itens com respostas dicotômicas, como verdadeiro ou falso. Paciente S1 S2 S3 ... S29 S30 1 1 0 1 ... 0 1 2 0 0 1 ... 1 0 3 1 1 0 ... 0 0 4 1 1 1 ... 1 1 5 0 0 0 ... 0 0 6 0 0 1 ... 1 1 ... ... ... ... ... ... ... 13 1 1 0 ... 0 1 14 0 1 1 ... 0 0 15 1 0 1 ... 1 1 16 0 1 0 ... 1 0 Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Técnicas Multivariadas • Técnica de Dependência – É aquela na qual uma variável ou um conjunto de variáveis é identificado como variável dependente a ser predita ou explicada por outras variáveis independentes; • Técnica de Interdependência – É aquela na qual nenhuma das variáveis é definida como dependente ou independente, mas o procedimento envolve a análise simultânea de todas as variáveis no conjunto. Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Técnicas Multivariadas • Técnicas de Dependência – Podem ser classificadas por duas características: • O número de variáveis dependentes, • O tipo de escala das variáveis. • Exemplos de técnicas – – – – – Regressão Linear Múltipla MANOVA Análise Discriminante Análise de Correlação Canônica Análise Conjunta Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Técnicas Multivariadas • Técnicas de Interdependência – Depende da estrutura procurada: • Estrutura de variáveis; • Estrutura de casos; • Estrutura de objetos (da matriz de dados). • Exemplos – – – – Análise Fatorial Análise de Agrupamentos Escalonamento Multidimensional Análise de Correspondências Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Análise de Agrupamentos é o nome genérico atribuído a uma extensa variedade de métodos que procuram elaborar critérios para agrupar objetos (seres humanos, animais, plantas, municípios, regiões etc.). São técnicas estatísticas multivariadas, com conotação exploratória. Desta forma, dada uma amostra de n objetos, cada um deles medidos segundos p variáveis, procura-se um esquema de classificação que agrupe os objetos em k grupos. Os objetos são mensurados nas diversas variáveis de interesse fornecendo uma matriz de dados de n objetos por p variáveis, a qual será manuseada através de algoritmos para a obtenção dos grupos homogêneos. Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa “Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.” 1 – Introdução 2 – Contextualização da Análise de Agrupamentos na Estatística 3 – Níveis de Mensuração 4 – Medidas de similaridade 5 – Representação Gráfica 6 – Métodos De Agrupamentos 6.1 – Métodos Hierárquicos Aglomerativos 6.2 – Métodos Não Hierárquicos 6.2.1 – Método K-means 7 – Estratégias para o Reconhecimento do Número de Grupos 8 – Programas Computacionais 9 – Aplicações Práticas Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa “Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.” Bibliografia Conceituais 1. Everitt B, Landau S, Leese M. Cluster Analysis, 4th edition, NY, Wiley, 2009. 2. Frei, F. Introdução à Análise de Agrupamentos: Teoria e Prática. SP, Editora UNESP, 2006. 3. Kaufman L, Rousseeuw P. Finding Groups in Data: An Introduction to Cluster Analysis New Jersey, Wiley-Interscience; 2005. 4. Frei, F. Tópicos de Análise de Agrupamentos. Notas de Aula. FCLAssis – UNESP, 2012. Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas “Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.” Bibliografia Aplicações 1. Albuquerque MA, Caraciolo RLF, Silva JAA, Santos ES, Stosic B, Souza AL. Estabilidade em Análise de Agrupamento: estudo de caso em Ciência florestal. Revista Árvore, 30, (2), pp. 257-265, 2006. 2. Dilts D, Khamalah J, Plotkin A. Using Cluster Analysis for Medical Resource Decision Making. Med Decis Making; vol. 15, 4: pp. 333-346, 1995. 3. Fernandes FBP, Andrade EM, Fontenele SB, Meireles CM, Ribeiro JÁ.Análise de agrupamento como suporte à gestão qualitativa da água subterrânea no semiárido cearense. Revista Agro@mbiente On-line, v. 4, n. 2, p. 86-95, jul-dez, 2010. Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas “Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.” Bibliografia Aplicações 4. Lima-Verde EPA, Hernández MIM. Sucessão ecológica em áreas reflorestadas de restingas: respostas da comunidade de borboletas Nymphalidae. In: Iniciados (V.B. Bezerra, org.). Universidade Federal da Paraíba. Vol. 12, p. 13-22. 2007. 5. Resende APC, Silveira NAPR, Sabroza PC, Souza-Santos R. Determinação de áreas prioritárias para ações de controle da dengue. Rev Saúde Pública;44(2):274-82, 2010. 6. Selvy PT, Palanisamy V, Purusothaman T. Performance Analysis of Clustering Algorithms in Brain Tumor Detection of MR Images. European Journal of Scientific Research. vol.62 No.3 pp. 321-330, 2011. Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas “Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.” Bibliografia Aplicações 7. Schneider S, Huy C, Schuessler M, Diehl K, Schwarz S. Optimising lifestyle interventions: identification of health behaviour patterns by cluster analysis in a German 50+ survey. European Journal of Public Health, Vol. 19, No. 3, 271– 277, 2009. 8. Takeuchi Y, Mori Y. Behavioral Profiles of Feline Breeds in Japan. J. Vet. Med. Sci. 71(8): 1053–1057, 2009. 9. Seidel EJ, Moreira Jr FJ , Ansuj AP, Noal MRC. Comparação entre o método Ward e o método K-médias no agrupamento de produtores de leite. Ciência e Natura, UFSM, 30 (1): 7- 15, 2008. Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas “Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.” Conceitos e Ferramentas Computacionais www.assis.unesp.br/ffrei/posgraduacao.html Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas “Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.” Avaliação Trabalho prático Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas “Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.” Breve Revisão Escalas (ou níveis) de mensuração Importância Escalas Qualitativas:Não possuem valores quantitativos. Classificação dos objetos em categorias Escalas Quantitativas: são as características que podem ser medidas em uma escala quantitativa. Valores numéricos que fazem sentido Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas “Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.” 1. Escala Qualitativa Nominal: escala que divide as respostas em categorias discretas, não relacionadas numericamente entre si. Uma escala nominal não mede mas, sobretudo, nomeia. Variáveis Nominais: números não podem ser sujeitos a quaisquer operações aritméticas. O uso das escalas nominais exige que cada elemento seja incluído única e exclusivamente numa categoria Exemplos: cor, religião, raça, localização geográfica, o local de nascimento ou os setores de atividade econômica. Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas “Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.” 1. Variável Qualitativa Binária (Dicotômica) Um caso particular deste tipo de escala de medida ocorre quando a característica em estudo (variável) tem apenas duas categorias: Sucesso ou Fracasso. São exemplos deste tipo de características: Sexo: Masculino/Feminino) Germinação de determinada semente: Germinou/Não Germinou Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas “Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.” 2. Escala Qualitativa Ordinal Escala em que as respostas são ordenadas quanto à sua dimensão relativa, mas em q de ordem não são necessariamente iguais. Tem origem no ponto zero, seguindo-se diferentes valores das observações por ordem crescente ou decrescente, mas não quantifica as diferenças entre esses níveis. As classificações ordinais não podem, portanto, ser somadas ou subtraídas. Exemplo Opinião sobre o sabor de determinado produto alimentar 1- detesta; 2- gosta pouco; 3- indiferente; 4- gosta; 5- adora Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas “Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.” 3. Escala Quantitativa Discreta Características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores. Somente fazem sentido valores inteiros. Exemplos: Todos os tipos de Contagem! Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas “Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.” 4. Escala Quantitativa Contínuas Características mensuráveis que assumem valores em uma escala contínua (na reta real), para as quais valores fracionais fazem sentido. Usualmente devem ser medidas através de algum instrumento. Exemplos: Peso, Altura, Diâmetro do tronco da Escala Quantitativa Contínuas – Intervalar e de Razão Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas “Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.” Medidas Qualitativa Nominal - Quantitativa Ordinal Discreta Contínua + Dr. Fernando Frei Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas “Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.” Dr. Fernando Frei