Formação de grupos de acessos similares por meio da aplicação do Método
hierárquico da Ligação Completa
Mariana de Freitas Pintar1
Priscila Neves Faria1
Lúcio Borges de Araújo1
Introdução
A análise de agrupamentos é um procedimento de estatística multivariada que
engloba técnicas no estudo de populações utilizadas para classificar e agrupar
indivíduos conforme suas características através de uma medida de distância ou de
similaridade.
A análise de agrupamento ou “Cluster Analysis” consiste numa variedade de
técnicas multivariadas e algoritmos, cujo objetivo é encontrar e separar objetos em
grupos similares [4]. Desse modo, a análise de agrupamento pretende, dada uma
amostra de n objetos (ou indivíduos), que cada um deles sejam medidos segundos p
variáveis, procurando um esquema de classificação que agrupe os objetos em g grupos,
exigindo-se daí conceitos científicos mais sofisticados de semelhança.
O princípio da análise de agrupamento consiste em que cada observação de uma
amostra multivariada possa ser considerada como um ponto em um espaço euclidiano
multidimensional.
Os processos de classificação objetivam agrupar esses pontos em conjuntos que,
pretende-se, evidenciem aspectos marcantes da amostra. Assim, dados um conjunto de
observações conhecidas somente por uma listagem de suas características, objetiva-se
encontrar a melhor maneira de descrever seus padrões de similaridade mútuos.
A análise de agrupamentos se torna clara quando utilizada a análise gráfica para
ilustrar os resultados. O dendrograma, um tipo específico de representação gráfica neste
tipo de estudo, é empregado, mais comumente, para ilustrar o arranjo de grupos
derivados da aplicação de um algoritmo de agrupamento.
Desta forma, as técnicas que compõem a análise multivariada são ferramentas
eficientes na exploração científica, em que a análise de dados auxilia substancialmente
1
FACULDADE DE MATEMÁTICA - FAMAT / UFU
no desenvolvimento e acompanhamento destas atividades bem como nas tomadas de
decisões.
De acordo com o exposto, o presente trabalho tem por objetivo apresentar a
aplicação de tais estatísticas em dados de divergência genética.
Metodologia
Foi aplicado o Método da Ligação Completa (Vizinho Mais Distante), ilustrando
a semelhança entre os genótipos através do dendrograma resultante das análises
realizadas. Para isso, foram avaliados quarenta e nove acessos da pimenta C. Chinense
pertencentes ao Banco de Germoplasma de Hortaliças (BGH) da Universidade Federal
de Viçosa (UFV), quanto a características quantitativas que conferem qualidade aos
frutos da planta. O experimento foi conduzido no delineamento de blocos ao acaso, com
três repetições.
Foram analisadas as seguintes características (variáveis): Comp (mm):
Comprimento; Larg (mm): Largura; %MS: Porcentagem de matéria seca; MST
(g):massa da matéria total do fruto maduro seco ; MFT (g): massa da matéria total do
fruto maduro fresco; CapT (mg.g MS-1): Capsaicina total; TSS (o Brix): Teor de Sólidos
solúveis; Vit C (mg/100 g de fruto fresco): Vitamina C; Cor Ext (unid. ASTA de cor):
Cor extraível; Esp (cm): espessura do pericarpo.
Após a escolha das variáveis que serão usadas como critérios de semelhança,
uma das questões vitais das técnicas de análise de agrupamento, é a definição do
coeficiente de similaridade ou dissimilaridade.
Os métodos que compõem a Estatística Multivariada exigem o estudo de tópicos
relacionados à Álgebra Linear, como vetor característico e matrizes, que são
ferramentas essenciais no desenvolvimento da técnica, principalmente na obtenção das
matrizes de distâncias (matrizes de dissimilaridade).
Conforme descrito por [3] e [5], temos como medida de dissimilaridade a
Distância euclidiana que, apesar de muito utilizada, é insatisfatória para algumas
situações estatísticas.
Quando se trabalha com variáveis quantitativas, a distância euclidiana
comumente soma distâncias não comparáveis, como cm, kg, anos, milhões, etc., muito
embora, a mudança de uma das unidades possa alterar completamente o significado e o
valor do coeficiente.
Essa é uma das razões da padronização das variáveis dos elementos x1, x2,..., xp
do vetor x. Assim o uso da transformação (1).
zi 
em que xi
xi (.)  xi
si
(1)
e si , indicam respectivamente a média e o desvio padrão de i-ésima
coordenada, é um dos modos para evitar essa inconveniência. Feita a transformação, a
distância euclidiana passa a ser a fórmula (2).
p
d ( A, B)  [ ( zi ( A)  zi ( B)) 2 ]1/ 2
(2)
i 1
que é a soma dos desvios padronizados. É fácil verificar que a expressão acima pode ser
escrita como na fórmula (3), em notação vetorial.
d (A, B) = [(x(A) – x(B)) D-1(x(A) – x(B))]½
(3)
onde D é uma matriz diagonal, tendo como i-ésimo componente a variância si2 , isto é,
2
2
2
D = diag ( s1 , s2 ,..., s p ).
Outros tipos de definições de distâncias podem ser encontrados na literatura [1].
No entanto, no presente estudo o cálculo das distâncias será efetuado por meio da
Distância euclidiana padronizada.
A formação de agrupamentos fundamenta-se em duas idéias básicas sugeridas
por [1] que são: coesão interna dos objetos e isolamento externo entre os grupos. Na
literatura, existem maneiras diferentes para medir as duas idéias, daí a existência de
grande número de algoritmos para formar grupos como apresenta [3] e [5].
As técnicas de agrupar podem ser classificadas em categorias, na qual as
técnicas hierárquicas são as mais utilizadas na literatura. Nessas técnicas hierárquicas,
os objetos são classificados em grupos, em diferentes etapas, de modo hierárquico,
produzindo uma árvore de classificação.
Foi utilizado neste estudo o Método Hierárquico da Ligação Completa (ou
Vizinho mais Distante), em que a formação dos grupos tem como critério o valor
máximo da medida de dissimilaridade encontrado no conjunto das menores distâncias
envolvendo cada indivíduo (acessos). Já o método de agrupamento utilizado foi o de
otimização de Tocher.
Resultados e Discussões
Pelo teste F ao nível de 1% de probabilidade (Tabela 1) detectou-se diferença
significativa entre as médias para as características avaliadas nos 49 acessos, indicando
que eles são estatisticamente distintos entre si.
Tabela 1- Análise da variância de dez características quantitativas de qualidade de fruto de C. chinense,
valores do coeficiente de variação e média de cada característica.
Quadrado médio
Fontes de
GL
Comp+
Larg
%MS
MST
MFT
CapT
TSS
Vit C
CorExt
Esp
Bloco
2
50,77
6,61
2.0404
0,012
0,978
0,1878
0,3415
20,20
4960,78
0,0002
Acessos
48
761,47*
187,58*
32.233*
0,300*
46,11*
39,20*
5,40*
1315,01*
33198,14*
0,0076*
Resíduo
96
59,90
7,89
7.1322
0,047
3,10
0,681
1,19
286,31
2769,69
0,0013
CV%
18.81
13.45
20.441
33,60
29,98
5,34
13,43
17,32
36,82
17,38
Média
41,14
20,87
13.065
0,649
5,87
4,88
8,11
97,65
142,91
0,2076
Variação
+
Comp (mm): Comprimento; Larg (mm): Largura; %MS: Porcentagem de Matéria seca; MS (g): Matéria seca; MF (g): Matéria
fresca; CapT (mg.gms-1): Capsaicina; TSS (o Brix): Teor de Sólidos solúveis; Vit C (mg/100 g de fruto fresco): Vitamina C;
CorExt (unid. ASTA de cor): Cor extraível; Esp. (mm): espessura do pericarpo.
* Significativo a 1% de probabilidade, pelo teste F.
O dendrograma baseado no Método Hierárquico da Ligação Completa é apresentado na
Figura 1.
Figura 1- Dendrograma obtido por meio do Método da Ligação Completa .
Baseado no dendrograma obtido por meio das análises no programa
computacional Genes [2], obteve-se que os acessos 3 e 43 foram os mais similares
geneticamente,
possuindo
a
menor
distância
(0,875).
Eles
correspondem,
respectivamente, aos acessos BGH1694-07e BGH6369-90. Entre os acessos 27 e 35
houve a maior magnitude (11,887), sendo portanto os acessos mais dissimilares. O
acesso 27 mostrou-se bastante divergente dos demais visto que formou um grupo
exclusivo pelo método UPGMA e permaneceu isolado dos demais acessos no
dendrograma (Figura 2).
O programa Genes forneceu também resultados da aplicação do método de
Mojena, sendo possível verificar a viabilidade de um corte no dendrograma na altura de
θ = 5,9852, indicando que o número ideal de grupos deve ser igual a cinco.
Conclusões
Os agrupamentos obtidos por meio do método de agrupamento hierárquico da Ligação
Completa foram consistentes uma vez que, após a aplicação do índice de Correlação
Cofenético, este indicou consistência de aproximadamente 82%. Assim, o estudo foi
fundamental para obtenção de grupos de acessos semelhantes com confiabilidade.
Referências
[1] BUSSAB, W. O.; MIAZAKI, E. S.; ANDRADE, D. Introdução à análise de
agrupamentos. São Paulo: Associação Brasileira de Estatística, 1990. 105p.
[2] CRUZ, C.D. Programa Genes: Biometria. Editora UFV. Viçosa (MG). 382p. 2006.
[3] JOHNSON, R.A. e WICHERN, D.W. Applied Multivariate Statistical Analysis.
New Jersey-USA: Englewood Cliffs, 642p. 1992.
[4] GROTH, Robert, 1998. Data Mining: a hands-on approach for business
professionals. Prentice Hall, New Jersey, USA.
[5] MARDIA, A.K.V.; KENT, J.T.; BIBBY, J.M. Multivariate analysis. London:
Academic Press, 1997. 518p.
Download

Formação de grupos de acessos similares por meio da