Análise de agrupamento de sequências de DNA mitocrondial
de abelhas do gênero Schwarziana
Patrı́cia Silva Nascimento Barros 1
Kleber Napoleão Nunes de O. Barros 2
Joseilme Fernandes Gouveia3
Wilson Rosa de Oliveira Junior 4
1
Introdução
A bioinformática é a ciência que desenvolve e aplica métodos computacionais para análise,
interpretação e predição, bem como o planejamento de experimentos. A bioinformática utiliza
a análise de padrões para explorar mecanismos dos dados biológicos. Análise de agrupamento
é um método muito poderoso para descobrir as regulamentações biológicas que podem então
ser utilizadas em verificação de hipóteses [4].
O método de agrupamento hierárquico tem o objetivo de construir uma estrutura relacional e
hierárquica para explorar e representar relações mútuas entre os pontos dos dados. O algoritmo
K-médias e Fuzzy C-médias particionam os dados dentro do grupo. Os padrões tı́picos são
encontrados dentro de cada grupo [4].
Para encontrar o número ótimo de grupos são utilizados o critério de informação de Akaike
(AIC) e o Critério de Informação Bayesiano (BIC). O objetivo principal deste trabalho é estudar
a filogenia de abelhas do gênero Schwarziana, a fim de elucidar seus padrões taxonômicos.
2
Material e Métodos
Desde o século passado, a molécula do DNA mitocrondial (DNAmt) tem sido o marcador
molecular mais utilizado em estudos envolvendo estrutura populacional, relações filogenéticas,
migrações, fluxo gênico, filogeografia, eventos de especiação e outros aspectos biológicos e
evolutivos em diversos grupos de animais [1].
O gênero Schwarziana compreende duas espécies: Schwarziana quadripunctata e Schwarziana mourei, além de duas formas ainda não descritas, uma da Chapada dos Veadeiros, em Goiás
e a outra da Serra da Bocaina, em São Paulo. S. quadripunctata distribui-se pelo Brasil (BA, ES,
GO, MG, PR, RS, RJ, SC e SP), Argentina e Paraguai e apresenta grande variação morfológica
1 PPGBEA-UFRPE.
e-mail: [email protected]
e-mail: [email protected]
3 PPGBEA-UFRPE. e-mail: [email protected]
4 DeInfo-UFRPE. e-mail: [email protected]
2 PPGBEA-UFRPE.
1
ao longo de sua área de distribuição. Neste artigo utilizou-se 35 sequências de tamanho 1091
do DNAmt das abelhas do gênero Schwarziana [3].
2.1
Agrupamento hierárquico
Método de agrupamento que tem o objetivo de encontrar relações entre os dados e agrupálos para interpretá-los. A técnica básica para interpretar relações mútuas entre os dados é análise
de dissimilaridade [4].
Se dois vetores d-dimensionais são denotados por xn ∈ Rd e xm ∈ Rd , a dissimilaridade
(distância) entre eles é definida como
d
d(xn , xm ) = ||xn − xm || = ∑ (xni − xmi )2
i=1
em que xni e xmi são os i-ésimos elementos de xn e xm respectivamente.
A distância utilizada é a euclidiana, mas poderia ser utilizada qualquer medida de distância.
Durante um simples agrupamento hierárquico, um par de pontos dos dados com maior similaridade é agrupado. Este processo é progressivo até um agrupamento ser formado, isto é todos os
pontos de dados estarem num só grupo.
2.2
K-médias
O algoritmo K-médias investiga a estrutura dos dados a qual são gerados. O algoritmo
K-médias assume que os dados são gerados de K agrupamentos, portanto tenta particionar os
dados em K agrupamentos com a menor diversidade [2]
(
min
)
∑ ∑ ||xn − µk ||2
, ∀xn ∈ vk
k xn
O centro do k-ésimo agrupamento é definido como
µk =
1
xn , ∀xn ∈ vk
|vk | ∑
xn
em que |vk | é o número de pontos de dados no k-ésimo agrupamento. Usando o algoritmo
K-médias, uma dificuldade principal é como determinar uma estrutura de agrupamento precisa, isto é o número K. Diversas medidas estatı́sticas para selecionar os melhores modelos
são possı́veis, entre elas: Critério de Informação de Akaike (AIC) e Critério de Informação
Bayesiano (BIC).
−2logL + λM
em que L é a verossimilhança, M é o número de parâmetros e λ é uma constante: λ = 2 para
2
AIC e λ = logN para BIC, onde N é o número de pontos dos dados. Escolhe-se o modelo com
menor AIC e BIC [4].
2.3
Fuzzy C-médias
Similar ao K-médias, mas neste caso o centro de um agrupamento definido como [4]
µk =
1
xn , ∀xn ∈ vk
|vk | ∑
xn
é mudado para
µk = ∑ f (xn )xn , ∀xn ∈ vk
xn
se
fk (xn ) =
1
|vk |
Cada ponto dos dados num agrupamento desempenha o mesmo papel na formação do agrupamento. Contudo, o método usado no algoritmo fuzzy c-médias é mais realista, isto é fk (xn )
não é uma constante dentro do agrupamento na mesma aplicação. No algoritmo, a função objetivo é definida como
N
j=
K
∑ ∑ [ fk (xn)]m||xn − µk ||2, ∀m ∈ [1, ∞]
n=1 k=1
em que µk é o centro do k-ésimo agrupamento e fk (xn ) ∈ [0, 1] é a associação que xn pertence
para o k-ésimo agrupamento.
Os centro são definidos como segue
m
∑N
n=1 [ f k (xn )] xn
µk = N
∑n=1 [ fk (xn )]m
em que
K
f j (xn ) =
∑
k=1
||xn − µ j ||
||xn − µk ||
−
2
m−1
O algoritmo começa de um palpite aleatório para os centros como o k-médias. Baseado no
palpite do centro, os membros são estimados. É similar ao k-médias onde a distância entre os
pontos de dados e o centro de um agrupamento é usado para determinar se o ponto pertence
ao agrupamento. Baseado no cálculo dos valores dos membros, novos centros são calculados.
Estes dois passos são repetidos até os ciclos máximos serem alcançados ou os centros não
mudarem mais [4].
3
3
Resultados e discussões
Aplicamos os métodos de agrupamento em 35 sequências de tamanho 1091 do DNAmt das
abelhas do gênero Schwarziana. O modelo gerado pelo agrupamento hierárquico está na Figura
2 (a). Podemos notar a existência de cinco grupos.
Figura 1: Análise de agrupamento das sequências de dna das abelhas do gênero Schwarziana
pelos métodos hierárquico (a), Fuzzy C-means (b) e kmeans (c)
Na Figura 1 (c) temos a aplicação do método K-médias, observa-se que o melhor agrupamento é com K = 2 (AIC = 30483,67 e BIC = 30489,40), para K = 3 obteve AIC = 30586,72 e
BIC = 30595,32. Este resultado é diferente do método de agrupamento hierárquico. Na Figura
2 (b) temos a aplicação do método Fuzzy C-médias, verifica-se o agrupamento ótimo com K =
6 (Figura 2), que obteve os menores AIC e BIC, diferente dos métodos anteriores. Neste caso o
Fuzzy C-médias foi capaz de determinar os centros dos seis agrupamentos corretamente.
4
Conclusão
Os resultados dos métodos de agrupamento nas sequências de DNA das abelhas do gênero
Schwarziana, mostraram a formação de cinco grupos pelo método hierárquico, dois grupos pelo
método K-médias e seis grupos pelo método Fuzzy C-médias. Observou-se, neste artigo, que
o Fuzzy C-médias foi capaz de separar melhor os grupos, determinando os centros dos seis
agrupamentos corretamente. Os resultados obtidos na dissertação de Luz mostram a formação
4
Figura 2: AIC e BIC para o método Fuzzy C-médias das sequências de dna das abelhas do
gênero Schwarziana
de cinco grupos [3]. Concluiu-se que os métodos apresentados neste artigo são eficazes na
análise de agrupamento de sequências de DNA das abelhas do gênero Schwarziana.
Referências
[1] AVISE, J. C., J. et. al. Intraspecific phylogeography: The mitochondrial DNA bridge
between population genetics and systematics, 1987. Annual Review of Ecology and
Systematics 18: 489-522.
[2] BISHOP, C. M., Parttern Recognition and Machine Learning, 2006. Springer.
[3] LUZ, D. R. Filogenia Molecular e Filogeográfica de Schwarziana Moure (Hymenoptera, Apidae), 2011. 63 f. Dissertação (Mestrado em Ciências Biológicas). Universidade
Federal do Paraná, Curitiba.
[4] YANG, Z. R. Machine learning approaches to bioinformatics, 2010. Science, Engineering and Biology Informatics, vol. 4, University of Exeter, UK, World Scientific.
5