Análise de agrupamento de sequências de DNA mitocrondial de abelhas do gênero Schwarziana Patrı́cia Silva Nascimento Barros 1 Kleber Napoleão Nunes de O. Barros 2 Joseilme Fernandes Gouveia3 Wilson Rosa de Oliveira Junior 4 1 Introdução A bioinformática é a ciência que desenvolve e aplica métodos computacionais para análise, interpretação e predição, bem como o planejamento de experimentos. A bioinformática utiliza a análise de padrões para explorar mecanismos dos dados biológicos. Análise de agrupamento é um método muito poderoso para descobrir as regulamentações biológicas que podem então ser utilizadas em verificação de hipóteses [4]. O método de agrupamento hierárquico tem o objetivo de construir uma estrutura relacional e hierárquica para explorar e representar relações mútuas entre os pontos dos dados. O algoritmo K-médias e Fuzzy C-médias particionam os dados dentro do grupo. Os padrões tı́picos são encontrados dentro de cada grupo [4]. Para encontrar o número ótimo de grupos são utilizados o critério de informação de Akaike (AIC) e o Critério de Informação Bayesiano (BIC). O objetivo principal deste trabalho é estudar a filogenia de abelhas do gênero Schwarziana, a fim de elucidar seus padrões taxonômicos. 2 Material e Métodos Desde o século passado, a molécula do DNA mitocrondial (DNAmt) tem sido o marcador molecular mais utilizado em estudos envolvendo estrutura populacional, relações filogenéticas, migrações, fluxo gênico, filogeografia, eventos de especiação e outros aspectos biológicos e evolutivos em diversos grupos de animais [1]. O gênero Schwarziana compreende duas espécies: Schwarziana quadripunctata e Schwarziana mourei, além de duas formas ainda não descritas, uma da Chapada dos Veadeiros, em Goiás e a outra da Serra da Bocaina, em São Paulo. S. quadripunctata distribui-se pelo Brasil (BA, ES, GO, MG, PR, RS, RJ, SC e SP), Argentina e Paraguai e apresenta grande variação morfológica 1 PPGBEA-UFRPE. e-mail: [email protected] e-mail: [email protected] 3 PPGBEA-UFRPE. e-mail: [email protected] 4 DeInfo-UFRPE. e-mail: [email protected] 2 PPGBEA-UFRPE. 1 ao longo de sua área de distribuição. Neste artigo utilizou-se 35 sequências de tamanho 1091 do DNAmt das abelhas do gênero Schwarziana [3]. 2.1 Agrupamento hierárquico Método de agrupamento que tem o objetivo de encontrar relações entre os dados e agrupálos para interpretá-los. A técnica básica para interpretar relações mútuas entre os dados é análise de dissimilaridade [4]. Se dois vetores d-dimensionais são denotados por xn ∈ Rd e xm ∈ Rd , a dissimilaridade (distância) entre eles é definida como d d(xn , xm ) = ||xn − xm || = ∑ (xni − xmi )2 i=1 em que xni e xmi são os i-ésimos elementos de xn e xm respectivamente. A distância utilizada é a euclidiana, mas poderia ser utilizada qualquer medida de distância. Durante um simples agrupamento hierárquico, um par de pontos dos dados com maior similaridade é agrupado. Este processo é progressivo até um agrupamento ser formado, isto é todos os pontos de dados estarem num só grupo. 2.2 K-médias O algoritmo K-médias investiga a estrutura dos dados a qual são gerados. O algoritmo K-médias assume que os dados são gerados de K agrupamentos, portanto tenta particionar os dados em K agrupamentos com a menor diversidade [2] ( min ) ∑ ∑ ||xn − µk ||2 , ∀xn ∈ vk k xn O centro do k-ésimo agrupamento é definido como µk = 1 xn , ∀xn ∈ vk |vk | ∑ xn em que |vk | é o número de pontos de dados no k-ésimo agrupamento. Usando o algoritmo K-médias, uma dificuldade principal é como determinar uma estrutura de agrupamento precisa, isto é o número K. Diversas medidas estatı́sticas para selecionar os melhores modelos são possı́veis, entre elas: Critério de Informação de Akaike (AIC) e Critério de Informação Bayesiano (BIC). −2logL + λM em que L é a verossimilhança, M é o número de parâmetros e λ é uma constante: λ = 2 para 2 AIC e λ = logN para BIC, onde N é o número de pontos dos dados. Escolhe-se o modelo com menor AIC e BIC [4]. 2.3 Fuzzy C-médias Similar ao K-médias, mas neste caso o centro de um agrupamento definido como [4] µk = 1 xn , ∀xn ∈ vk |vk | ∑ xn é mudado para µk = ∑ f (xn )xn , ∀xn ∈ vk xn se fk (xn ) = 1 |vk | Cada ponto dos dados num agrupamento desempenha o mesmo papel na formação do agrupamento. Contudo, o método usado no algoritmo fuzzy c-médias é mais realista, isto é fk (xn ) não é uma constante dentro do agrupamento na mesma aplicação. No algoritmo, a função objetivo é definida como N j= K ∑ ∑ [ fk (xn)]m||xn − µk ||2, ∀m ∈ [1, ∞] n=1 k=1 em que µk é o centro do k-ésimo agrupamento e fk (xn ) ∈ [0, 1] é a associação que xn pertence para o k-ésimo agrupamento. Os centro são definidos como segue m ∑N n=1 [ f k (xn )] xn µk = N ∑n=1 [ fk (xn )]m em que K f j (xn ) = ∑ k=1 ||xn − µ j || ||xn − µk || − 2 m−1 O algoritmo começa de um palpite aleatório para os centros como o k-médias. Baseado no palpite do centro, os membros são estimados. É similar ao k-médias onde a distância entre os pontos de dados e o centro de um agrupamento é usado para determinar se o ponto pertence ao agrupamento. Baseado no cálculo dos valores dos membros, novos centros são calculados. Estes dois passos são repetidos até os ciclos máximos serem alcançados ou os centros não mudarem mais [4]. 3 3 Resultados e discussões Aplicamos os métodos de agrupamento em 35 sequências de tamanho 1091 do DNAmt das abelhas do gênero Schwarziana. O modelo gerado pelo agrupamento hierárquico está na Figura 2 (a). Podemos notar a existência de cinco grupos. Figura 1: Análise de agrupamento das sequências de dna das abelhas do gênero Schwarziana pelos métodos hierárquico (a), Fuzzy C-means (b) e kmeans (c) Na Figura 1 (c) temos a aplicação do método K-médias, observa-se que o melhor agrupamento é com K = 2 (AIC = 30483,67 e BIC = 30489,40), para K = 3 obteve AIC = 30586,72 e BIC = 30595,32. Este resultado é diferente do método de agrupamento hierárquico. Na Figura 2 (b) temos a aplicação do método Fuzzy C-médias, verifica-se o agrupamento ótimo com K = 6 (Figura 2), que obteve os menores AIC e BIC, diferente dos métodos anteriores. Neste caso o Fuzzy C-médias foi capaz de determinar os centros dos seis agrupamentos corretamente. 4 Conclusão Os resultados dos métodos de agrupamento nas sequências de DNA das abelhas do gênero Schwarziana, mostraram a formação de cinco grupos pelo método hierárquico, dois grupos pelo método K-médias e seis grupos pelo método Fuzzy C-médias. Observou-se, neste artigo, que o Fuzzy C-médias foi capaz de separar melhor os grupos, determinando os centros dos seis agrupamentos corretamente. Os resultados obtidos na dissertação de Luz mostram a formação 4 Figura 2: AIC e BIC para o método Fuzzy C-médias das sequências de dna das abelhas do gênero Schwarziana de cinco grupos [3]. Concluiu-se que os métodos apresentados neste artigo são eficazes na análise de agrupamento de sequências de DNA das abelhas do gênero Schwarziana. Referências [1] AVISE, J. C., J. et. al. Intraspecific phylogeography: The mitochondrial DNA bridge between population genetics and systematics, 1987. Annual Review of Ecology and Systematics 18: 489-522. [2] BISHOP, C. M., Parttern Recognition and Machine Learning, 2006. Springer. [3] LUZ, D. R. Filogenia Molecular e Filogeográfica de Schwarziana Moure (Hymenoptera, Apidae), 2011. 63 f. Dissertação (Mestrado em Ciências Biológicas). Universidade Federal do Paraná, Curitiba. [4] YANG, Z. R. Machine learning approaches to bioinformatics, 2010. Science, Engineering and Biology Informatics, vol. 4, University of Exeter, UK, World Scientific. 5