Formação de grupos de acessos similares por meio da aplicação do Método hierárquico da Ligação Completa Mariana de Freitas Pintar1 Priscila Neves Faria1 Lúcio Borges de Araújo1 Introdução A análise de agrupamentos é um procedimento de estatística multivariada que engloba técnicas no estudo de populações utilizadas para classificar e agrupar indivíduos conforme suas características através de uma medida de distância ou de similaridade. A análise de agrupamento ou “Cluster Analysis” consiste numa variedade de técnicas multivariadas e algoritmos, cujo objetivo é encontrar e separar objetos em grupos similares [4]. Desse modo, a análise de agrupamento pretende, dada uma amostra de n objetos (ou indivíduos), que cada um deles sejam medidos segundos p variáveis, procurando um esquema de classificação que agrupe os objetos em g grupos, exigindo-se daí conceitos científicos mais sofisticados de semelhança. O princípio da análise de agrupamento consiste em que cada observação de uma amostra multivariada possa ser considerada como um ponto em um espaço euclidiano multidimensional. Os processos de classificação objetivam agrupar esses pontos em conjuntos que, pretende-se, evidenciem aspectos marcantes da amostra. Assim, dados um conjunto de observações conhecidas somente por uma listagem de suas características, objetiva-se encontrar a melhor maneira de descrever seus padrões de similaridade mútuos. A análise de agrupamentos se torna clara quando utilizada a análise gráfica para ilustrar os resultados. O dendrograma, um tipo específico de representação gráfica neste tipo de estudo, é empregado, mais comumente, para ilustrar o arranjo de grupos derivados da aplicação de um algoritmo de agrupamento. Desta forma, as técnicas que compõem a análise multivariada são ferramentas eficientes na exploração científica, em que a análise de dados auxilia substancialmente 1 FACULDADE DE MATEMÁTICA - FAMAT / UFU no desenvolvimento e acompanhamento destas atividades bem como nas tomadas de decisões. De acordo com o exposto, o presente trabalho tem por objetivo apresentar a aplicação de tais estatísticas em dados de divergência genética. Metodologia Foi aplicado o Método da Ligação Completa (Vizinho Mais Distante), ilustrando a semelhança entre os genótipos através do dendrograma resultante das análises realizadas. Para isso, foram avaliados quarenta e nove acessos da pimenta C. Chinense pertencentes ao Banco de Germoplasma de Hortaliças (BGH) da Universidade Federal de Viçosa (UFV), quanto a características quantitativas que conferem qualidade aos frutos da planta. O experimento foi conduzido no delineamento de blocos ao acaso, com três repetições. Foram analisadas as seguintes características (variáveis): Comp (mm): Comprimento; Larg (mm): Largura; %MS: Porcentagem de matéria seca; MST (g):massa da matéria total do fruto maduro seco ; MFT (g): massa da matéria total do fruto maduro fresco; CapT (mg.g MS-1): Capsaicina total; TSS (o Brix): Teor de Sólidos solúveis; Vit C (mg/100 g de fruto fresco): Vitamina C; Cor Ext (unid. ASTA de cor): Cor extraível; Esp (cm): espessura do pericarpo. Após a escolha das variáveis que serão usadas como critérios de semelhança, uma das questões vitais das técnicas de análise de agrupamento, é a definição do coeficiente de similaridade ou dissimilaridade. Os métodos que compõem a Estatística Multivariada exigem o estudo de tópicos relacionados à Álgebra Linear, como vetor característico e matrizes, que são ferramentas essenciais no desenvolvimento da técnica, principalmente na obtenção das matrizes de distâncias (matrizes de dissimilaridade). Conforme descrito por [3] e [5], temos como medida de dissimilaridade a Distância euclidiana que, apesar de muito utilizada, é insatisfatória para algumas situações estatísticas. Quando se trabalha com variáveis quantitativas, a distância euclidiana comumente soma distâncias não comparáveis, como cm, kg, anos, milhões, etc., muito embora, a mudança de uma das unidades possa alterar completamente o significado e o valor do coeficiente. Essa é uma das razões da padronização das variáveis dos elementos x1, x2,..., xp do vetor x. Assim o uso da transformação (1). zi em que xi xi (.) xi si (1) e si , indicam respectivamente a média e o desvio padrão de i-ésima coordenada, é um dos modos para evitar essa inconveniência. Feita a transformação, a distância euclidiana passa a ser a fórmula (2). p d ( A, B) [ ( zi ( A) zi ( B)) 2 ]1/ 2 (2) i 1 que é a soma dos desvios padronizados. É fácil verificar que a expressão acima pode ser escrita como na fórmula (3), em notação vetorial. d (A, B) = [(x(A) – x(B)) D-1(x(A) – x(B))]½ (3) onde D é uma matriz diagonal, tendo como i-ésimo componente a variância si2 , isto é, 2 2 2 D = diag ( s1 , s2 ,..., s p ). Outros tipos de definições de distâncias podem ser encontrados na literatura [1]. No entanto, no presente estudo o cálculo das distâncias será efetuado por meio da Distância euclidiana padronizada. A formação de agrupamentos fundamenta-se em duas idéias básicas sugeridas por [1] que são: coesão interna dos objetos e isolamento externo entre os grupos. Na literatura, existem maneiras diferentes para medir as duas idéias, daí a existência de grande número de algoritmos para formar grupos como apresenta [3] e [5]. As técnicas de agrupar podem ser classificadas em categorias, na qual as técnicas hierárquicas são as mais utilizadas na literatura. Nessas técnicas hierárquicas, os objetos são classificados em grupos, em diferentes etapas, de modo hierárquico, produzindo uma árvore de classificação. Foi utilizado neste estudo o Método Hierárquico da Ligação Completa (ou Vizinho mais Distante), em que a formação dos grupos tem como critério o valor máximo da medida de dissimilaridade encontrado no conjunto das menores distâncias envolvendo cada indivíduo (acessos). Já o método de agrupamento utilizado foi o de otimização de Tocher. Resultados e Discussões Pelo teste F ao nível de 1% de probabilidade (Tabela 1) detectou-se diferença significativa entre as médias para as características avaliadas nos 49 acessos, indicando que eles são estatisticamente distintos entre si. Tabela 1- Análise da variância de dez características quantitativas de qualidade de fruto de C. chinense, valores do coeficiente de variação e média de cada característica. Quadrado médio Fontes de GL Comp+ Larg %MS MST MFT CapT TSS Vit C CorExt Esp Bloco 2 50,77 6,61 2.0404 0,012 0,978 0,1878 0,3415 20,20 4960,78 0,0002 Acessos 48 761,47* 187,58* 32.233* 0,300* 46,11* 39,20* 5,40* 1315,01* 33198,14* 0,0076* Resíduo 96 59,90 7,89 7.1322 0,047 3,10 0,681 1,19 286,31 2769,69 0,0013 CV% 18.81 13.45 20.441 33,60 29,98 5,34 13,43 17,32 36,82 17,38 Média 41,14 20,87 13.065 0,649 5,87 4,88 8,11 97,65 142,91 0,2076 Variação + Comp (mm): Comprimento; Larg (mm): Largura; %MS: Porcentagem de Matéria seca; MS (g): Matéria seca; MF (g): Matéria fresca; CapT (mg.gms-1): Capsaicina; TSS (o Brix): Teor de Sólidos solúveis; Vit C (mg/100 g de fruto fresco): Vitamina C; CorExt (unid. ASTA de cor): Cor extraível; Esp. (mm): espessura do pericarpo. * Significativo a 1% de probabilidade, pelo teste F. O dendrograma baseado no Método Hierárquico da Ligação Completa é apresentado na Figura 1. Figura 1- Dendrograma obtido por meio do Método da Ligação Completa . Baseado no dendrograma obtido por meio das análises no programa computacional Genes [2], obteve-se que os acessos 3 e 43 foram os mais similares geneticamente, possuindo a menor distância (0,875). Eles correspondem, respectivamente, aos acessos BGH1694-07e BGH6369-90. Entre os acessos 27 e 35 houve a maior magnitude (11,887), sendo portanto os acessos mais dissimilares. O acesso 27 mostrou-se bastante divergente dos demais visto que formou um grupo exclusivo pelo método UPGMA e permaneceu isolado dos demais acessos no dendrograma (Figura 2). O programa Genes forneceu também resultados da aplicação do método de Mojena, sendo possível verificar a viabilidade de um corte no dendrograma na altura de θ = 5,9852, indicando que o número ideal de grupos deve ser igual a cinco. Conclusões Os agrupamentos obtidos por meio do método de agrupamento hierárquico da Ligação Completa foram consistentes uma vez que, após a aplicação do índice de Correlação Cofenético, este indicou consistência de aproximadamente 82%. Assim, o estudo foi fundamental para obtenção de grupos de acessos semelhantes com confiabilidade. Referências [1] BUSSAB, W. O.; MIAZAKI, E. S.; ANDRADE, D. Introdução à análise de agrupamentos. São Paulo: Associação Brasileira de Estatística, 1990. 105p. [2] CRUZ, C.D. Programa Genes: Biometria. Editora UFV. Viçosa (MG). 382p. 2006. [3] JOHNSON, R.A. e WICHERN, D.W. Applied Multivariate Statistical Analysis. New Jersey-USA: Englewood Cliffs, 642p. 1992. [4] GROTH, Robert, 1998. Data Mining: a hands-on approach for business professionals. Prentice Hall, New Jersey, USA. [5] MARDIA, A.K.V.; KENT, J.T.; BIBBY, J.M. Multivariate analysis. London: Academic Press, 1997. 518p.