Análise de agrupamento de sequências de DNA mitocrondial
de abelhas do gênero Schwarziana
Patrı́cia Silva Nascimento Barros 1
Kleber Napoleão Nunes de O. Barros 2
Joseilme Fernandes Gouveia3
Wilson Rosa de Oliveira Junior 4
1
Introdução
A bioinformática é a ciência que desenvolve e aplica métodos computacionais para análise,
interpretação e predição, bem como o planejamento de experimentos. A bioinformática utiliza
a análise de padrões para explorar mecanismos dos dados biológicos. Análise de agrupamento
é um método muito poderoso para descobrir as regulamentações biológicas que podem então
ser utilizadas em verificação de hipóteses [4].
O método de agrupamento hierárquico tem o objetivo de construir uma estrutura relacional e
hierárquica para explorar e representar relações mútuas entre os pontos dos dados. O algoritmo
K-médias e Fuzzy C-médias particionam os dados dentro do grupo. Os padrões tı́picos são
encontrados dentro de cada grupo [4].
Para encontrar o número ótimo de grupos são utilizados o critério de informação de Akaike
(AIC) e o Critério de Informação Bayesiano (BIC). O objetivo principal deste trabalho é estudar
a filogenia de abelhas do gênero Schwarziana, a fim de elucidar seus padrões taxonômicos.
2
Material e Métodos
Desde o século passado, a molécula do DNA mitocrondial (DNAmt) tem sido o marcador
molecular mais utilizado em estudos envolvendo estrutura populacional, relações filogenéticas,
migrações, fluxo gênico, filogeografia, eventos de especiação e outros aspectos biológicos e
evolutivos em diversos grupos de animais [1].
O gênero Schwarziana compreende duas espécies: Schwarziana quadripunctata e Schwarziana mourei, além de duas formas ainda não descritas, uma da Chapada dos Veadeiros, em Goiás
e a outra da Serra da Bocaina, em São Paulo. S. quadripunctata distribui-se pelo Brasil (BA, ES,
GO, MG, PR, RS, RJ, SC e SP), Argentina e Paraguai e apresenta grande variação morfológica
1 PPGBEA-UFRPE.
e-mail: [email protected]
e-mail: [email protected]
3 PPGBEA-UFRPE. e-mail: [email protected]
4 DeInfo-UFRPE. e-mail: [email protected]
2 PPGBEA-UFRPE.
1
ao longo de sua área de distribuição. Neste artigo utilizou-se 35 sequências de tamanho 1091
do DNAmt das abelhas do gênero Schwarziana [3].
2.1
Agrupamento hierárquico
Método de agrupamento que tem o objetivo de encontrar relações entre os dados e agrupálos para interpretá-los. A técnica básica para interpretar relações mútuas entre os dados é análise
de dissimilaridade [4].
Se dois vetores d-dimensionais são denotados por xn ∈ Rd e xm ∈ Rd , a dissimilaridade
(distância) entre eles é definida como
d
d(xn , xm ) = ||xn − xm || = ∑ (xni − xmi )2
i=1
em que xni e xmi são os i-ésimos elementos de xn e xm respectivamente.
A distância utilizada é a euclidiana, mas poderia ser utilizada qualquer medida de distância.
Durante um simples agrupamento hierárquico, um par de pontos dos dados com maior similaridade é agrupado. Este processo é progressivo até um agrupamento ser formado, isto é todos os
pontos de dados estarem num só grupo.
2.2
K-médias
O algoritmo K-médias investiga a estrutura dos dados a qual são gerados. O algoritmo
K-médias assume que os dados são gerados de K agrupamentos, portanto tenta particionar os
dados em K agrupamentos com a menor diversidade [2]
(
min
)
∑ ∑ ||xn − µk ||2
, ∀xn ∈ vk
k xn
O centro do k-ésimo agrupamento é definido como
µk =
1
xn , ∀xn ∈ vk
|vk | ∑
xn
em que |vk | é o número de pontos de dados no k-ésimo agrupamento. Usando o algoritmo
K-médias, uma dificuldade principal é como determinar uma estrutura de agrupamento precisa, isto é o número K. Diversas medidas estatı́sticas para selecionar os melhores modelos
são possı́veis, entre elas: Critério de Informação de Akaike (AIC) e Critério de Informação
Bayesiano (BIC).
−2logL + λM
em que L é a verossimilhança, M é o número de parâmetros e λ é uma constante: λ = 2 para
2
AIC e λ = logN para BIC, onde N é o número de pontos dos dados. Escolhe-se o modelo com
menor AIC e BIC [4].
2.3
Fuzzy C-médias
Similar ao K-médias, mas neste caso o centro de um agrupamento definido como [4]
µk =
1
xn , ∀xn ∈ vk
|vk | ∑
xn
é mudado para
µk = ∑ f (xn )xn , ∀xn ∈ vk
xn
se
fk (xn ) =
1
|vk |
Cada ponto dos dados num agrupamento desempenha o mesmo papel na formação do agrupamento. Contudo, o método usado no algoritmo fuzzy c-médias é mais realista, isto é fk (xn )
não é uma constante dentro do agrupamento na mesma aplicação. No algoritmo, a função objetivo é definida como
N
j=
K
∑ ∑ [ fk (xn)]m||xn − µk ||2, ∀m ∈ [1, ∞]
n=1 k=1
em que µk é o centro do k-ésimo agrupamento e fk (xn ) ∈ [0, 1] é a associação que xn pertence
para o k-ésimo agrupamento.
Os centro são definidos como segue
m
∑N
n=1 [ f k (xn )] xn
µk = N
∑n=1 [ fk (xn )]m
em que
K
f j (xn ) =
∑
k=1
||xn − µ j ||
||xn − µk ||
−
2
m−1
O algoritmo começa de um palpite aleatório para os centros como o k-médias. Baseado no
palpite do centro, os membros são estimados. É similar ao k-médias onde a distância entre os
pontos de dados e o centro de um agrupamento é usado para determinar se o ponto pertence
ao agrupamento. Baseado no cálculo dos valores dos membros, novos centros são calculados.
Estes dois passos são repetidos até os ciclos máximos serem alcançados ou os centros não
mudarem mais [4].
3
3
Resultados e discussões
Aplicamos os métodos de agrupamento em 35 sequências de tamanho 1091 do DNAmt das
abelhas do gênero Schwarziana. O modelo gerado pelo agrupamento hierárquico está na Figura
2 (a). Podemos notar a existência de cinco grupos.
Figura 1: Análise de agrupamento das sequências de dna das abelhas do gênero Schwarziana
pelos métodos hierárquico (a), Fuzzy C-means (b) e kmeans (c)
Na Figura 1 (c) temos a aplicação do método K-médias, observa-se que o melhor agrupamento é com K = 2 (AIC = 30483,67 e BIC = 30489,40), para K = 3 obteve AIC = 30586,72 e
BIC = 30595,32. Este resultado é diferente do método de agrupamento hierárquico. Na Figura
2 (b) temos a aplicação do método Fuzzy C-médias, verifica-se o agrupamento ótimo com K =
6 (Figura 2), que obteve os menores AIC e BIC, diferente dos métodos anteriores. Neste caso o
Fuzzy C-médias foi capaz de determinar os centros dos seis agrupamentos corretamente.
4
Conclusão
Os resultados dos métodos de agrupamento nas sequências de DNA das abelhas do gênero
Schwarziana, mostraram a formação de cinco grupos pelo método hierárquico, dois grupos pelo
método K-médias e seis grupos pelo método Fuzzy C-médias. Observou-se, neste artigo, que
o Fuzzy C-médias foi capaz de separar melhor os grupos, determinando os centros dos seis
agrupamentos corretamente. Os resultados obtidos na dissertação de Luz mostram a formação
4
Figura 2: AIC e BIC para o método Fuzzy C-médias das sequências de dna das abelhas do
gênero Schwarziana
de cinco grupos [3]. Concluiu-se que os métodos apresentados neste artigo são eficazes na
análise de agrupamento de sequências de DNA das abelhas do gênero Schwarziana.
Referências
[1] AVISE, J. C., J. et. al. Intraspecific phylogeography: The mitochondrial DNA bridge
between population genetics and systematics, 1987. Annual Review of Ecology and
Systematics 18: 489-522.
[2] BISHOP, C. M., Parttern Recognition and Machine Learning, 2006. Springer.
[3] LUZ, D. R. Filogenia Molecular e Filogeográfica de Schwarziana Moure (Hymenoptera, Apidae), 2011. 63 f. Dissertação (Mestrado em Ciências Biológicas). Universidade
Federal do Paraná, Curitiba.
[4] YANG, Z. R. Machine learning approaches to bioinformatics, 2010. Science, Engineering and Biology Informatics, vol. 4, University of Exeter, UK, World Scientific.
5
Download

An´alise de agrupamento de sequências de DNA