Curso de Introdução à
Bioinformática
Programa de Qualificação Docente da CAPES
Convênio: UFPE - UFCG - Fiocruz
Alinhamentos Múltiplos
Marcos Catanho
Laboratório de Genômica Funcional e Bioinformática
DBBM-IOC / Fiocruz
Agenda







Motivação
Estratégias de alinhamento múltiplo
Dificuldades computacionais
Métodos de alinhamento múltiplo
Programas de alinhamento múltiplo
Dicas importantes
Alinhamento global progressivo (ClustalW)
Porque precisamos de
alinhamentos múltiplos?


Um alinhamento múltiplo, seja de sequências
de DNA ou de proteína, pode fornecer muito
mais informação do que uma única
seqüência.
Quando lidando com uma nova proteína, de
função desconhecida, a presença de domínios
similares a outros em proteínas conhecidas
pode implicar em função ou estrutura
semelhante.
Porque precisamos de
alinhamentos múltiplos?


É sabido que a pressão seletiva resulta da
necessidade de se conservar uma função.
Em proteínas, a manutenção da função
requer uma estrutura 3D específica. Portanto,
alinhamentos múltiplos de proteínas podem
fornecer alguma informação sobre a estrutura
3D das mesmas.
Porque precisamos de
alinhamentos múltiplos?



Para revelar os relacionamentos entre
um grupo de seqüências (homologia).
Para caracterizar famílias protéicas –
identificar regiões conservadas e
determinar as regiões variáveis.
Regiões similares podem indicar
funções similares (por exemplo,
promotores no DNA).
Porque precisamos de
alinhamentos múltiplos?


Planejar experimentos de mutagênese
sítio-dirigida, desenhar primers e/ou
sondas especiais.
Construir um perfil da família, o que
possibilitará buscas mais avançadas,
capazes de localizar membros mais
distantes da mesma família.
Porque precisamos de
alinhamentos múltiplos?



Alinhamentos múltiplos são utilizados
por programas de modelagem protéica.
Podem ajudar na predição das
estruturas secundária e terciária de
novas seqüências.
Alinhamentos múltiplos servem de input
para a construção de árvores
filogenéticas.
Estratégia
Alinhamento par-a-par
Busca nos bancos de dados
Alinhamento múltiplo
Estratégia
Alinhamento múltiplo
Modelagem por homologia
Análise filogenética
Buscas avançadas em bancos de dados:
padrões, motivos, sítios
O desafio computacional dos
alinhamentos múltiplos


Encontrar o alinhamento ótimo de um grupo
de seqüências incluindo matches, mismatches
e gaps é muito difícil.
Para alinhamentos par-a-par, métodos de
programação dinâmica são utilizados
(Needleman & Wunsch, 1970; Smith &
Waterman, 1981), mas estes são inviáveis
para alinhamentos múltiplos (exigem tempo
de processamento muito longo, proporcional
ao produto do tamanho das seqüências).
O desafio computacional dos
alinhamentos múltiplos

Se alinhar 2 seqüências de 300 resíduos
leva 1 segundo, alinhar 3 seqüências do
mesmo tamanho levaria 300 segundos,
e alinhar 10 seqüências levaria 300^8
segundos, o que é superior à idade do
universo!
O desafio computacional dos
alinhamentos múltiplos


As dificuldades de se alinhar um grupo
de seqüências variam conforme o grau
de similaridade entre as seqüências.
Um alto grau de variação entre as
seqüências implica em um grande
número de alinhamentos possíveis, o
que torna muito difícil encontrar o
alinhamento “ótimo”.
O desafio computacional dos
alinhamentos múltiplos


Métodos aproximados são utilizados ao
invés de métodos de programação
dinâmica.
Outro desafio computacional é a
inserção e pontuação de gaps nas
seqüências alinhadas.
Métodos aproximados

Alinhamento global progressivo: rápido,
requer pouca espaço de memória e
oferece bom desempenho para
seqüências homólogas relativamente
bem conservadas.
Métodos aproximados

Alinhamento global baseado em blocos:
as seqüências a serem comparadas
devem compartilhar blocos (domínios)
conservados, separados por regiões não
conservadas contendo grandes indels.
Métodos aproximados

Alinhamento global baseado em
motivos: as seqüências a serem
comparadas devem compartilhar
regiões similares sem, necessariamente,
serem relacionadas globalmente.
Programas de alinhamento
global progressivo

ClustalW


http://www.ebi.ac.uk/clustalw/
T-Cofee

http://igs-server.cnrsmrs.fr/~cnotred/Projects_home_page/t_co
ffee_home_page.html
Programas de alinhamento
global baseado em blocos

DIALIGN

http://bibiserv.techfak.unibielefeld.de/dialign/
Programas de alinhamento
global baseado em motivos

BLOCKS


http://blocks.fhcrc.org/blocks/
MEME

http://meme.sdsc.edu/meme/intro.html
Dicas na escolha de suas
seqüências


Seqüências retiradas diretamente dos bancos
de dados podem conter dados irrelevantes
(vários genes, fragmentos de diferentes
tamanhos). Cheque suas seqüências e use
somente a parte relevante para o
alinhamento. Edite e remova as outras partes
antes do alinhamento.
Tente usar seqüências com aproximadamente
o mesmo tamanho para o alinhamento.
Dicas na escolha de suas
seqüências

De forma geral:



Quanto mais seqüências, melhor.
Não inclua seqüências muito similares
(>80%).
Os sub-grupos devem ser alinhados
separadamente, e somente um membro de
cada sub-grupo deve ser incluído no
alinhamento múltiplo final.
O que você necessita saber sobre os
programas para a construção de
alinhamentos múltiplos


Quase todos os programas irão alinhar
quaisquer seqüências que o usuário
fornecer como input.
Sempre retornarão um alinhamento,
mesmo que as seqüências não sejam
relacionadas entre si.
O que você necessita saber sobre os
programas para a construção de
alinhamentos múltiplos


A maioria dos programas irá inserir
gaps. Entretanto, uma vez inseridos,
eles estão lá para ficar.
Você deve checar como o programa
trata a inclusão de gaps nos finais das
seqüências.
Alinhamento global
progressivo


O método mais comumente utilizado
para a construção de alinhamentos
múltiplos é o alinhamento global
progressivo.
Como funciona?
ClustalW


O ClustalW pode criar alinhamentos
múltiplos, editar alinhamentos
existentes e criar árvores filogenéticas.
O alinhamento pode ser feito por dois
métodos:


Lento e preciso
Rápido e aproximado
ClustalW


O seu algoritmo consiste em três etapas:
1. Alinhamentos par-a-par são feitos entre
todas as seqüências no grupo em estudo.
Uma matriz de distâncias é construída com
base em um esquema de pontuação. Ao
calcular essa matriz, o programa leva em
consideração a divergência entre as
seqüências.
ClustalW

2. Uma árvore “guia” (filogenética), que
reflete as similaridades entre as
seqüências, é construída a partir da
matriz de distâncias, utilizando o
método de neighbour-joining. Essa
árvore-guia tem ramos de diferentes
tamanhos. Seu tamanho é proporcional
ao tempo de divergência estimado ao
longo de cada ramo.
ClustalW

3. O alinhamento progressivo das
seqüências é feito, seguindo a ordem
dos ramos na árvore-guia. As
seqüências são alinhadas das
extremidades até a raiz. Este
alinhamento é feito de acordo com as
relações filogenéticas encontradas na
árvore-guia.
ClustalW
ClustalW
ClustalW
ClustalX – uma interface
Windows para o ClustalW
Download

baixar