Análise Computacional de
Seqüências Nucleotídicas e
Protéicas
BLAST
Antonio Basílio de Miranda
24/11/2004
BLAST – Basic Local Alignment
and Search Tool




Provavelmente a ferramenta computacional mais
utilizada em biologia molecular e bioinformática
Busca seqüências armazenadas nos bancos de dados
pela similaridade entre a estrutura primária da
seqüência query e as armazenadas
Anotações (características) descritas para seqüências
armazenadas podem ser transferidas para a
seqüência query desde que suas estruturas primárias
sejam semelhantes
O maior problema é definir um “cut-off”, limite onde
as similaridades encontradas entre a query e os hits
não sejam mais significativos
BLAST – Basic Local Alignment
and Search Tool



É um método heurístico para
alinhamentos locais
Projetado especificamente para buscas
em bancos de dados
Idéia básica: bons alinhamentos irão
conter pequenos trechos de
combinações iguais
BLAST

Existem vários “sabores” e tipos de
BLAST:




Nucleotídeo
Proteína
Traduzido
Genomas
BLAST

Nucleotídeo:





Nucleotídeo-nucleotídeo (blastn)
Megablast
Megablast descontínuo
Busca por hits curtos e quase perfeitos
Busca em cromatogramas
BLAST

Proteína:





Proteína-proteína (blastp)
PHI-BLAST e PSI-BLAST (através da
obtenção de perfis)
Busca por hits curtos e quase perfeitos
Busca no banco de dados de domínios
conservados (rps-blast) (Smart, PFam e
COG)
Busca pela arquitetura de domínios (cdart)
PHI-BLAST e PSI-BLAST


PHI-BLAST: Quais outras seqüências
protéicas contém tanto a ocorrência do
padrão P e são homólogas a query P na
vizinhança das ocorrências dos
padrões?
PSI-BLAST: Construção de uma matriz
de valores posição-específica (position
specific scoring matrix, PSSM)
BLAST

Traduzido:



query traduzida x banco de dados de
proteínas (blastx)
query de proteína x banco de dados
traduzido (tblastn)
query traduzida x banco de dados
traduzido (tblastx)
BLAST

Genomas:
 Galinha, vaca, porco, cachorro, ovelha, gato
 Amostras ambientais
 Homem, camundongo, rato
 Fugu rubripes, zebrafish
 Insetos, nematódeos, plantas, fungos, malária
 Genomas microbianos, outros genomas
eucarióticos
BLAST - algoritmo


1. Filtrar as regiões de baixa complexidade
2. Criar as query words (de comprimento 3
para sequências protéicas e 11 para DNA)
através do uso de uma janela deslizante
MEFPGLGSLGTSEPLPQFVDPALVSS
MEF
EFP
FPG
PGL
GLG
BLAST - algoritmo


3. Utilizando uma matriz de substituição
(PAM, BLOSUM), contar todas as
possíveis palavras de tamanho 3 ou 11
contra a query
4. Selecionar um limite (neighborhood
word score threshold - T) para manter
as sequências mais significativas
(normalmente umas 50 por query)
(Parênteses – matrizes de
substituição)



O que é uma matriz de substituição?
É uma matriz representando todas as
possíveis trocas entre aminoácidos, onde um
valor é atribuído a cada uma destas trocas
Esses valores são obtidos através da
contagem dessas trocas tomando-se como
base umdeterminado modelo evolutivo
Parênteses – matrizes de
substituição)
BLAST - algoritmo


5. Repetir os passos 3 e 4 para cada
query word no passo 2
6. Organizar as palavras de alta
pontuação em uma árvore de busca
M
E
E
F
G
P
BLAST - algoritmo


7. Procurar em cada sequência no banco de
dados uma combinação com uma query word
de alta pontuação. Cada combinação será
uma “semente” para um alinhamento sem
gaps.
8. Extensão das combinações

8.1. BLAST original: extensão das combinações à
esquerda e à direita da “semente” usando
alinhamentos sem gaps. Esta extensão irá
continuar enquanto o score aumentar ou pelo
menos continuar o mesmo. Esta extensão é o
chamado HSP (High Scoring Pair).
BLAST - algoritmo


8.2. Atualmente: combinações ao longo
da mesma diagonal (Dot plot) com uma
distância A entre as duas são reunidas e
a extensão se dá com a sequência
maior.
9. Utilizando uma contagem limite S,
manter somente as combinações
estendidas com score mínimo igual a S.
BLAST - algoritmo



10. Determinar a significância
estatística de cada combinação
remanescente
11. Tentar estender os HSPs de cada
combinação remanescente
12. Mostrar os alinhamentos locais (dea
cordo com Smith-Waterman).
(Parênteses – matrizes de
homologia)
Resultado (BLASTN)
Resultado (formatação)
Resultado (BLASTN)







O output é dividido em cinco partes:
1. Um header contendo a versão do BLAST, data da
compilação, referência, RID, etc.
2. Uma visão gráfica dos alinhamentos
3. Um sumário com uma descrição em uma linha de
cada hit
4. Os alinhamentos
5. Rodapé com a descrição detalhada dos parâmetros
de busca empregados, o banco de dados, etc.
Existem várias opções de formatação dos resultados.
Resultado (header)
Resultado (graphical overview)
Resultado (one-line descriptions)
Resultado (links)



G: Gene
U: UniGene
E: GEO Profile (dados de expressão
gênica e hibridização genômica obtidos
por tecnologia high-throughput)
Resultado (alignments)

HSP – High Scoring Pairs

Segmentos onde o alinhamento possui alta
qualidade
>gi|50363246|gb|AY661748.1|
Length = 1452
Polyodon spathula Hoxa-11 (Hoxa-11) gene, partial cds
Score = 278 bits (140), Expect = 1e-71
Identities = 203/224 (90%)
Strand = Plus / Plus
Query: 19
Sbjct: 2
Query: 79
HSPs
Sbjct: 62
tactacgtttcgggtcccgatttctccagcctcccttcttttttgccccagaccccgtct 78
|||||||| |||||||| |||||||||||||||||||| ||||| |||||||| ||||||
tactacgtctcgggtcctgatttctccagcctcccttcctttttaccccagacaccgtct 61
tctcgccccatgacatactcctattcgtctaatctaccccaagttcaacctg tgagagaa 138
|||||||||||||| ||||| ||| ||||||| || ||||| ||||||||||||||||||
tctcgccccatgacgtactcttatccgtctaacctgccccaggttcaacctgtgagagaa 121
Query: 139 gttaccttcagggactatgccattgatacatccaataaatggcatcccagaagcaattta 198
|| |||||||||||||||||||||||| |||||| ||||||||||| |||||||||| ||
Sbjct: 122 gtaaccttcagggactatgccattgatgcatccagtaaatggcatcacagaagcaatcta 181
Query: 199 ccccattgctactcaacagaggagattctgcacagggactgcct 242
|||||||||| ||| ||||||||||| ||||||| ||||||||
Sbjct: 182 tcccattgctattcagcagaggagattatgcacagagactgcct 225
Score = 48.1 bits (24), Expect = 0.024
Identities = 33/36 (91%)
Strand = Plus / Plus
Query: 529 agcccagagtcttcttccggcaacaatgaggagaaa 564
||||| ||||| ||||||||||||||||| ||||||
Sbjct: 509 agccctgagtcctcttccggcaacaatgaagagaaa 544
Score = 46.1 bits (23), Expect = 0.095
Identities = 32/35 (91%)
Strand = Plus / Plus
Query: 367 caagcctttgaccagtttttcgagacggcttatgg 401
||||||||||| |||||||| |||||||| |||||
Sbjct: 347 caagcctttgatcagttttttgagacggcgtatgg 381
Resultado (footer)
CDART
Download

query - DBBM