Capítulo 6. Alinhamentos múltiplos de sequências macromoleculares.
versão 0.5
Como vimos no capítulo anterior, o procedimento de alinhamento entre sequências de
macromoléculas equivale ao estabelecimento de homologia sequencial dos monômeros dessas
macromoléculas. Dentro da perspectiva evolutiva, estabelecer essa homologia significa gerar hipóteses
de que dois monômeros de macromoléculas atuais, ou pelo menos um deles, estava em uma molécula
de um organismo ancestral. No caso de três sequências ou mais, conceitualmente o alinhamento resulta
na proposta de homologias sequenciais entre as macromoléculas consideradas.
Aqui cabe um aprofundamento do conceito de homologia, dada as peculiaridades que
existem no estudos comparativos e evolutivos das macromoléculas.
Ortologia e Paralogia
Logo que se iniciaram os estudos comparativos de macromoléculas, notou-se que
algumas delas ocorriam em mais que uma cópia no genoma dos organismos. Essas versões diferentes
de uma mesma macromoléculas foram postuladas como tendo sido resultado de duplicações gênicas,
ou seja, um gene que existia em um ser vivo no passado, passou a existir em mais de uma cópia. Esses
membros das chamadas famílias gênicas passaram a ser chamados de entidades parálogas, em
contraposição às entidades ortólogas, que seriam aquelas que ocorrem em organismos diferentes, desde
que as suas linhagens começaram a diversificar a partir do processo de especiação que ocorreu na
espécie ancestral comum mais recente. Na figura 1 as relações de paralogia e ortologia são
exemplificadas.
Figura 1. Paralogia e ortologia de genes em relação à história evolutiva deles. As duplicações gêniccas
originam cópias parálogas.
Embora as cópias parálogas de macromoléculas possam sofrer os mesmos processos
que levam à diferenciação entre elas ao longo do tempo (mutações seguidas de seleção natural ou
deriva genética que levam às substituições ou aos indels), o fato de que cópias de um mesmo gene
coexistam na mesma célula implica diferenças importantes nos processos relacionados com a evolução
dessas cópias, em relação àquilo que ocorre nas macromoléculas ortólogas.
Em primeiro lugar, depois do evento de duplicação gênica, o que ocorre com as cópias
é definido pelas dependências funcionais dos organismos em relação a essas cópias. Por exemplo, se
verificou que um dos mecanismos de resistência de bactérias a antibióticos era a existência de cópias
múltiplas de genes que codificam para proteínas que têm alguma atividade na metabolização e
consequente neutralização desses antibióticos, sendo que a função "primária" desses genes era bem
diferente. Existem algumas situações em que a existência de cópias múltiplas de genes é evidentemente
relacionada à necessidade de incremento da taxa de síntese dos produtos gênicos, que poderia ser um
fator limitante metabólico em alguns contextos. Por exemplo, os cistrons ribossômicos existem em
grandes números de cópias em diversos genomas, o que pode ser explicado facilmente pois o
ribossomo participa da síntese proteica, sendo portanto um componente essencial no metabolismo
celular. Se, entretanto, uma única cópia de um gene é suficiente para as situações enfrentadas por um
organismo, após o evento de duplicação gênica, dois destinos têm sido verificados: a subfuncionalização que pode culminar com a total perda de qualquer função, ou a neo-funcionalização. No
caso de perda de função, a teoria prevê que aquela cópia que primeiro sofrer alguma mutação deletéria
que aumente de frequência por deriva genética, tenderá a acumular mutações, já que a função
desempenhada pela outra cópia estará presente. Isso implica um relaxamento na intensidade de seleção
natural negativa, ou seja, uma molécula redundante terá maior liberdade de evolução, o que inclui as
porções ditas conservadas, mais sensíveis às mudanças nas cópias integralmente funcionais. O acúmulo
de mutações deletérias culminará no aparecimento de pseudogenes, ou seja, cópias de genes
semelhantes àqueles funcionais, mas que permanecem no genoma como uma espécie de inércia
evolutiva, simplesmente por que a intensidade de seleção num eventual "enxugamento genômico" é
insuficiente para a eliminação por deleções aleatórias. Mais além disso, pode ser que os pseudogenes
acumulem tantas mutações que a possibilidade de recuperação de homologia por falta de similaridade
com genes funcionais deixe de existir. Assim, genes sub-funcionalizados podem passar a ser "fósseis
moleculares" durante a fase de pseudogenes até ficarem irreconhecíveis, como uma analogia com os
fósseis verdadeiros preservados em rochas que podem ser destruídos pela atividade orogenética.
A neo-funcionalização consiste na aquisição de uma função diferente daquela que era
exercida pelo gene "original". Essa função pode ser semelhante àquela anterior ou até mesmo
radicalmente diferente. O fenômeno de neo-funcionalização também é conhecido como cooptação,
nesse caso quando é enxergado pela óptica da função. O problema do uso do termo cooptação é que é
impregnado com o sentido de intencionalidade, algo que não se verifica no estudo da evolução. Os
diferentes destinos de genes duplicados estão mostrados na figura 2.
Figura 2. Diferentes destinos de genes duplicados. A: Amplificação em tandem. Normalmente é
resultado de pressão seletiva no aumento da taxa metabólica do produto correspondente. B:
Silenciamento de uma das cópias, por acúmulo de substituições deletérias. C: Neofuncionalização, por
divergência resultado de seleção natural para uma nova função metabólica.
A evolução de cópias parálogas pode ser semelhante à evolução de genes ortólogos, ou
seja, desde a duplicação, cada uma das cópias pode acumular mutações de todos os tipos. Entretanto,
existe m alguns fenômenos que podem promover a "homogeneização" de uma divergência acumulada
ao longo das gerações. às vezes não há sentido em se falar em "original", pois quando da duplicação, os
genes formados podem ser idênticos). Dois processos diferentes mas análogos podem ocasionar essa
homogeneização: A conversão gênica e as recombinações chamadas desiguais.
Ohnologia
Esse nome é resultado de uma homenagem feita ao cientista japonês Susumu Ohno,
que fez importantes contribuições na questão de evolução por duplicações gênicas, em especial com
suas hipóteses sobre o papel de duplicações de genomas inteiros na evolução de grandes grupos. Suas
hipóteses foram extensivamente confirmadas com os sequenciamentos genômicos a partir do início do
século XXI. Moléculas ohnólogas são definidas como aquelas que são homólogas por um evento de
multiplicação de genomas inteiros. A ohnologia pode ser considerada como um caso particular de
paralogia. O fenômeno mais interessante da ohnologia, como se trata de um duplicação genômica "em
massa", permite o estudo dos fenômenos de silenciamento gienico e de neofuncionalização de froma
quantitativa, análoga ao estudo do decaimento radioativo. Assim como não se pode prever se um
determinado isótopo instável decairá, não se pode prever, sem hipóteses ad hoc, qual será o destino de
um gene duplicado. Entretanto, a coisa muda completamente de figura quando se tem uma amostra
grande, tanto de isótopos como de genes duplicados.
Xenologia
A palavra tem o sufixo "Xeno", que em grego significa "estrangeiro", como em
"xenofobia". Duas macromoléculas são ditas xenólogas quando houve um processo de transferência
gênica lateral que envolveu a história evolutiva dessas macromoléculas. Nesse caso, organismos muito
distantes em termos de parentesco podem compartilhar macromoléculas muito mais semelhantes entre
si do que as demais. Em geral é esse o motivo que leva à formulação da hipótese de transferência
lateral. Outro elemento que pode reforçar bastante essa suspeita é a ocorrência dos possíveis ancestrais
nas mesmas localidades geográficas. Outro fator que pode reforçar ainda mais a suspeita de origem de
genes por transferência lateral é a existência de algum viés de utilização de códons diferente daquele
dos outros genes do genoma, no caso de sequências de ácidos nucleicos codificantes.
Figura 3. Transferência gênica lateral.
Métodos para alinhamento múltiplo de sequências
Os algoritmos de alinhamento entre duas sequências já foram estudados com rigor e já
foram demonstrados como capazes atingir o resultado ótimo, desde que fornecidos os parâmetros (p.
ex., penalidades de abertura de lacuna, extensão de lacuna, inserção e deleção). É preciso deixar claro
que algoritmos exatos, que chegam com certeza à solução ótima, podem não chegar à solução
verdadeira! Lembre-se que o alinhamento nada mais é do que uma maneira de se hipotetizar homologia
sequencial, e a evolução é um processo bastante contingencial.
Os algoritmos de alinhamento entre três ou mais sequências macromoleculares não
atingiram ainda um ponto em que podem chegar a sr considerados como capazes de chegar a soluções
exatas. O problema dos alinhamentos múltiplos é demasiadamente complexo para que haja soluções
exatas e que sejam práticas ao mesmo tempo.
Programas que fazem alinhamento múltiplo disponíveis para serem utilizados
atualmente são construídos a partir de diversos métodos, todos eles baseados em heurísticas, ou seja,
procedimentos que se sabem ser eficientes, mas que podem levar a resultados errados. Abaixo serão
descritos alguns dos métodos comumente utilizados.
1.- Programação Dinâmica Multidimensional
Assim como em outras ciências, a bioinformática utiliza do método de programação
dinâmica para resolver seus problemas, neste método o problema é resolvido quebrando um problema
mais complexo em subproblemas mais simples. Esse método pode ser utilizado em várias abordagens
tais como dobramento de proteínas, predição de estrutura do RNA e ligação de proteína-DNA, além
claro do alinhamento de sequências.
O princípio de programação dinâmica utilizado em alinhamentos par a par pode ser
estendido para o alinhamento múltiplo de sequências. Entretanto o tempo necessário aumenta
exponencialmente com o número de sequências e comprimentos delas tornando-se impraticável a não
ser que seja aplicado para poucas sequências e que sejam também relativamente curtas.
Nesta abordagem, é assumido que as colunas do alinhamento são independentes
estatisticamente e, também, que as lacunas são pontuadas com um custo linear de lacunas. E para cada
n sequências é necessário construir de uma matriz equivalente com n dimensões formada a partir do
alinhamento par a par entre as sequências. Na figura 4 um esquema de um alinhamento feito por
programação dinâmica
Figura 4. Alinhamento entre três sequências por programação dinâmica multidimensional. Ao lado esquerdo, as três sequências estão dispostas no vértice da matriz tridimensional, conforma as direções apontadas pelas setas. Nas faces, estão esquematizados os "caminhos" dos alinhamentos par a par, como no capítulo anterior. No lado direito está esquematizado um caminho entre as três sequências, de forma análoga ao que é feito com duas sequências. 2.-‐ Método de alinhamento progressivo
Este método provavelmente é o mais utilizando nos alinhamentos múltiplos de sequência. Ele utiliza uma heurística conhecida como técnica progressiva, também chamada de método hierárquico ou de árvore, o qual é desenvolvida com a combinação de alinhamentos par a par das sequências que se inicia com o alinhamento mais similar e progredindo até o menos similar. A maioria dos algoritmos constroi uma árvore guia e esta é uma árvore binária cujas folhas representam as sequências e os nós interior representam os alinhamentos. O nó raiz representa o alinhamento múltiplo completo e os nós que se afastam da raiz representam sequências mais similares. A vantagem deste método é que ele é rápido e eficiente e, na maioria dos casos, o resultado do alinhamento é razoável. Entretanto, este método não garante o alinhamento ótimo global. O principal problema desse método se deve ao fato que os erros ocorridos nas fases iniciais são propagados para o resultado final. Além disso, o desempenho é particularmente ruim quando todas as sequências, no conjunto, são muito diferentes entre si. 2.1.-‐ Algoritmo de Feng-‐Doolitle Este que foi o primeiro algoritmo tipo basicamente é feito em três passos: I.-‐ Calcular a matriz diagonal de distâncias N (N -‐ 1) / 2 entre todos os pares de sequências de N por alinhamento par a par padrão, convertendo pontuação de alinhamento em distâncias aproximadas entre os pares; II.-‐ Construir uma árvore guia a partir da matriz de distância usando um algoritmo de agrupamento; III.-‐ A partir do primeiro nó adicionado à árvore, alinhar os nós filhos que pode ser duas sequências, uma sequência e um alinhamento, ou dois alinhamentos. Em seguida o procedimento é repetido para todos os outros nós na ordem em que eles foram adicionados à árvore, ou seja, dos pares mais semelhantes para os pares menos semelhantes, até que todas as sequências sejam alinhadas. O método para a conversão de pontuações de alinhamento para a distâncias não precisam de ser tão precisos, já que o objetivo é criar uma árvore de orientação aproximada que não é uma árvore evolutiva. Este algoritmo calcula a distância D com a seguinte equação: em que Sobs é a pontuação do alinhamento par a par observado; Smax é a pontuação máxima, a média do alinhamento da sequência contra ela mesma; e Srand é a pontuação esperada ao alinhar duas sequências aleatórias com a mesma composição e comprimento (número de resíduos). A última Srand pode ser calculada pelo rearranjo aleatório das duas sequências ou calculada por uma aproximação dada em Feng & Doolittle. A pontuação efetiva Seff é vista como uma percentagem de similaridade normalizada, é esperado que um decaimento aproximadamente exponencial para zero com o aumento da distância evolutiva, daí a -‐log para tornar a medida mais aproximadamente linear com a distância evolutiva. Alinhamentos par a par de sequências é feito com algoritmo de programação dinâmica usualmente utilizados. A sequência é adicionada a um grupo existente, alinhando-‐a aos pares para cada sequência no grupo, por sua vez. O alinhamento com maior pontuação determina como a sequência será alinhado com o grupo. Para alinhar um grupo de um grupo, todos os pares de sequências entre os dois grupos são testados e o melhor alinhamento da sequência de pares determina o alinhamento dos dois grupos. Deste modo, o sistema de pontuação é essencialmente determinado pela pontuação par a par com a penalidade de lacuna afim. No final do alinhamento, os símbolos das lacunas são substituídos com um carácter X neutro, usualmente utilizado esse caracter é o “-‐”. A mesma regra para alinhamento entres sequência-‐sequência pode ser utilizada para sequência-‐grupo ou grupo-‐grupo.
Figura 5. Etapas de um alinhamento do tipo hierárquico. Todos os alinhamentos entre duas sequências diferentes são feitos, calculando-‐se a sua pontuação, onde a pontuação maior significa que houve menos penalidades de substituição e indels entre as sequências. Esses valores são usados para fazer uma análise de agrupamento, que gerará uma "árvore guia". Essa árvore indicará a forma que as sequências serão adicionadas ao alinhamento, que progredirá com a adição sucessivas de lacunas onde for necessário. 2.2.-‐ Algoritmo com refinamento iterativo Um problema inerente ao algoritmo anterior é que os subalinhamentos são congelados, ou seja, uma vez que um grupo de sequências de ter sido alinhadas em um estágio posterior este alinhamento não poderá ser modificado a medida que mais informação é incluída. Métodos interativos tentam contornar esses problemas. Nos métodos com refinamento iterativo a partir dos alinhamento inicial de duas ou um conjunto de sequências é gerado um perfil. Este perfil contêm informações das unidades alinhadas das sequências, seja ela aminoácidos ou nucleótidos, em cada posição. Deste modo se houver um resultado significativo o perfil poderá ser otimizada acarretando um aumento da pontuação geral ou mantendo a mesma pontuação em determinada posição. Outra(s) sequência(s) é(são) escolhida(s) e realinhada(s)s, e assim por diante, até que o alinhamento não é alterado. O procedimento é garantido convergir para um local de máxima pontuação, desde que todas as sequências sejam testadas e exista uma pontuação máxima devido o espaço da sequência ser finito. 2.3. -‐Algoritmo Barton-‐Sternberg I.-‐ Encontrar as duas sequências mais similares usando um alinhamento de programação dinâmica par a par padrão. O perfil será feito baseado nestas sequências; II.-‐ Encontrar a sequência mais similar ao perfil por alinhamento entre a sequência-‐perfil. Repetir até que todas as sequências sejam incluídas no alinhamento múltiplo; III.-‐ Remover a sequência x1 e realinhar a um perfil de outras sequências alinhadas x2, …, xn pelo alinhamento de sequência-‐perfil. Repetir o procedimento para sequências x2, …, xn; IV.-‐ Repetir o passo anterior realinhando um determinado número de vezes ou até que a pontuação de alinhamento convirja. As idéias de alinhamento de perfil e refinamento iterativo está muito perto da formulação de probabilística de abordagens que utilizam modelo oculto de Markov para o problema de alinhamento múltiplo.
Figura 6. Fluxograma mostrando um alinhamento interativo com o emprego do algoritmo de Barton-‐Sternberg. 3.-‐ Métodos com cadeias ocultas de Markov Modelos ocultos de Markov (Hidden Markov models — HMM, sigla em inglês) são modelos probabilísticos que atribuem probabilidades para todas as combinações possíveis de lacunas, correspondências e não-‐correspondências para determinar o mais provável alinhamento múltiplo de sequência ou conjunto deles. HMMs podem produzir uma única saída com pontuação mais alta, mas também pode gerar uma família de alinhamentos possíveis que podem então ser avaliadas para se escolher baseado em significância biológica ou algum outro critério. HMMs podem produzir alinhamentos globais e locais. Embora os métodos baseados em HMM tenham sido desenvolvido há relativamente pouco tempo, eles oferecem melhorias significativas na velocidade de cálculo. Nos termos de um típico modelo oculto Markov, os estados observados são as colunas de alinhamento individuais e os estados ocultos representam a sequência ancestral presumida a partir de quais sequências no conjunto de consulta há a hipótese de ser descendentes. A figura 7 ilustra o diagrama de um perfil de HMM para um alinhamento global de sequências. Figura 7. Alinhamento com cadeia oculta de Markov. Essa figura não é um fluxograma. Veja explicação no texto. Os quadrados na figura denotam os estados em que há correspondência (Mi), os losangos são estados de inserção (Ij) e os círculos são estados de deleção (Dj), também conhecido como o estado em silêncio, pois se referem as lacunas na sequência. As possíveis transições entre os estados são representados como setas. Observe que o modelo Markov começa num estado de iniciar que permite que qualquer número de estados de inserção (I0) antes do primeiro estado da sequência. Também tem um estado final, que pode mudar de posição, a partir de uma deleção ou inserção de estado que permite a comparação de uma variedade de comprimentos de sequências. No modelo de Markov, precisamos definir os parâmetros que descrevem as probabilidades dos estados atuais e posterior. Seja ex(b) definida a probabilidade de emitir o símbolo b no estado x ϵ {Mi, Ij}. Além disso, vamos definir uma classe de parâmetros axy que descreve a probabilidade de fazer uma transição de estado x → y. Voltando à Figura X, observa-‐se que as seguintes transições são possíveis.
Mi Ii, → Di+1 ou Mi+1
Ii Ii, → Di+1 ou Mi+1
Di Ii, → Di+1 ou Mi+1
Diversos programas que implementam algoritmos de alinhamento múltiplo vem sendo desenvolvidos. Embora há programas que adquiriram grande popularidade para essa tarefa, existem programas que entram e saem da moda tanto quanto cortes de cabelos. Assim, é muito importante que se acompanhe os progressos que são constantes nessa área.