Bancos de Dados
BD de Seqüências
•
•
Há uma quantidade gigantesca de informação sobre biomoléculas em BD
públicos
Mais de 348 BD
– BD de seqüências de nucleotídeos
• EMBL (http://www.ebi.ac.uk/embl)
• GenBank (http://www.ncbi.nlm.nih.gov/GenBank)
• DDBJ (http://www.ddbj.nig.ac.jp)
• UniGene (http://www.ncbi.nlm.nih.gov/UniGene)
– BD de seqüências de proteínas
• SWISS-PROT, TrEMBL (http://www.expansy.ch/sprot)
• PIR (http://pir.georgetown.edu)
– BD de motivos
• Pfam (http://www.sanger.ac.uk/Software/Pfam)
• PROSITE (http://www.expansy.ch/prosite)
– BD de estruturas macromoleculares 3D
• PDB (http://www.rcsb.org/pdb)
Usos de BD de Seqüências
• O que se pode descobrir sobre um gene por meio de uma
busca a um BD?
– Informação evolutiva: genes homólogos, freqüências dos alelos, ...
– Informação genômica: localização no cromossomo, intros, UTRs,
regiões reguladoras, ...
– Informação estrutural: estruturas da proteína correspondente, tipos
de folds, domínios estruturais, ...
– Informação de expressão: expressão específica a um dado tecido,
fenótipos, doenças, ...
– Informação funcional: função molecular/enzimática, papel em
diferentes rotas, papel em doenças, ...
Busca de Informação
• Busca de informação sobre genes e produtos gênicos
– Gene e produtos gênicos são geralmente organizados por seqüência
• Seqüências genômicas codificam todas características de um
organismo
• Produtos gênicos são descritos unicamente por sua seqüência
• Seqüências similares entre biomoléculas indica tanto uma
função similar quanto um relacionamento evolutivo
– Seqüências de macromoléculas proporciona chaves biologicamente
significativas para busca em BD
Busca em BD de Seqüências
• Comece com uma seqüência, encontre informação sobre
ela
• Muitos tipos de seqüências de entrada
– Pode ser uma seqüência de aminoácido ou de
nucleotídeo
– Genômica, cDNA/mRNA, proteína
– Completa ou fragmentada
• Matches exatos são raros
– Em geral, o objetivo é recuperar um conjunto de
seqüências similares
Busca em BD de Seqüências
• O que queremos saber sobre a seqüência?
– Ela é similar ao algum gene conhecido? Quão próximo
é o melhor match? Significância?
– O que sabemos sobre este gene?
• Genômica (localização no cromossomo, regiões reguladoras,
...)
• Estrutural (estrutura conhecida? ...)
• Funcional (molecular, celular e doença)
– Informação evolutiva
• Este gene é encontrado em outros organismos?
• Qual é sua árvore taxonômica?
NCBI e Entrez
• A mais usada interface para a recuperação de informação de BD
biológicos é o sistema Entrez do NCBI
(http://www.ncbi.nlm.nih.gov/Entrez)
– NCBI (National Center for Biotechnology Information)
– O sistema Entrez tira vantagem do fato que há relacionamentos lógicos
pré-existentes entre as entradas indíviduas encontradas em diversos BD
públicos
• Por um exemplo, um artigo no PuBMed pode descrever o
sequenciamento de um gene cuja seqüência aparece no GenBank
• A seqüência de nucleotídeos, por sua vez, pode codificar o produto
de uma proteína cuja seqüência está armazenada em um BD de
proteínas
• A estrutura 3D desta proteína pode ser conhecida - as coordenadas
da estrutura podem aparecer em um BD de estruturas
• Finalmente, o gene pode ter sido mapeado para uma região
específica do cromossomo - BD de mapeamento
– A existência dessas conexões naturais, levou ao desenvolvimento de um
O Sistema Entrez (1/2)
• Para ser claro, Entrez não é um BD
– É a interface por meio da qual todos os seus BDs
componentes podem ser acessados
– O espaço de informação do Entrez inclui
• Registros do PubMed
• Dados sobre seqüências de nucleotídeos e proteínas
• Informação sobre estruturas 3D
• Informação de mapeamento
– A vantagem do Entrez está no fato que toda esta
informação pode ser acessada por meio de apenas uma
O Sistema Entrez (2/2)
BLAST: Busca com uma Seqüência
• O objetivo é encontrar outras seqüências que são mais
similares a query (consulta) do que seria esperado por ter
acontecido ao acaso
– Homologia
• Pode começar com seqüências de nucleotídeos ou
aminoácidos
– Pode fazer a busca por nucleotídeos/aminoácidos
BLAST
Mais que NCBI
• Links para anotações funcionais fora do NCBI
– Gene Ontology - nomes padrões para:
• Funções moleculares
• Localização celular
• Processos
– Links para BD de enzimas
• Funções da enzimas
– Links para o BD KEGG (vias)
KEGG
Referências
• A. D. Baxevanis e B. F. Francis Ouellete (eds.).
Bioinformatics: a practical guide to the analysis of genes e
proteins. John Wiley & Sons. 2001.
• The Molecular Biology Database Collection: 2003 update - Nucleic Acids Research 31(1):1-12
Alinhamento de Seqüências
• Possibilitar ao pesquisador determinar se duas seqüências apresentam
suficiente similaridade tal que um inferência sobre homologia pode ser
justificada
– Homologia: significa dizer que duas (ou mais) seqüências tem um
ancestral comum
• História evolutiva
– Similaridade: é uma medida da qualidade do alinhamento entre
duas seqüências, baseada em algum critério
• Não se refere a nenhum processo histórico
• Apenas uma comparação das seqüências com algum método
• É uma afirmação logicamente mais fraca
– Em bioinformática, esses dois termos são muitas vezes
confundidos
– A razão é provavelmente porque uma similaridade significativa é
um forte argumento para homologia e, a partir disso, para a
dedução de que as seqüências codificam um gene com uma função
Bases Evolucionárias
• Mutações
– Os eventos mais simples que ocorrem durante o curso da evolução
molecular são substituições de um nucleotídeo por outro e a deleção ou
inserção de uma par de base
• Quando uma alinhamento de seqüências refletem genuinamente a
história evolutiva de dois genes ou proteínas
– Resíduos que foram alinhados mas não são idênticos representaria uma
substituição
– Regiões onde os resíduos de uma seqüência não correspondem a nada na
outra seria interpretado como ou uma inserção uma seqüência ou uma
deleção na outra
A L I G N M E N T
| | |
| | | |
- L I G A M E N T
Relação entre Sequências
Similaridade
• Similaridade pode ser definida contando posições que são
idênticas entre duas seqüências
• Gaps (inserções/deleções) podem ser importantes
G A A T
|
| |
G G A T
T C A G T T A
| |
|
|
T C – G - — A
Substituições
• Nem todo mismatch (substituições) são iguais
• Alguns aminoácidos são mais substituível entre si
– Serina e treonina são mais parecidos do que triptofan e alanina
– Podemos adicionar um custo diferente para cada tipo de mismatch
(substituição)
• Em geral, não usamos custos diferentes para os mismatches no
alinhamento de nucleotídeos
• Nenhuma substituição, por si, é melhor do que outra
Gaps
• Sem gaps, há N*M possíveis alinhamentos entre
seqüências de comprimentos N e M
• Uma vez gaps são permitidos, isto se torna um número
muito grande
– O número de possíveis alinhamentos torna-se exponencial no
tamanho das seqüências
– Logo, não podemos experimentar todos
Alinhamento Aleatórios
• A introdução de gaps também pode levar a alinhamentos
sem sentido
S O M E T I M E S Q U I P S E N T I C E
|
|
| |
| |
| |
S - - E - – - - — Q U - - - E N - - C E
•
É necessário distinguir entre alinhamentos que ocorreram devido
a homologia daqueles que são esperados a acontecer ao acaso
• Defina um esquema (função) de score (pontuação) que leve em
consideração ambos mismatches e penalidades para gaps
Match Scores
• Match scores são em geral calculados
com base na freqüência de mutações
particulares em seqüências muito similares
Alinhamento Global e Local (1/2)
• Global
– Seqüências são comparadas como um todo
• Útil quando temos seqüências que diferem pouco entre si
• Inclui gaps
• Local
– O alinhamento localiza fragmentos de seqüências que são mais
similares
• Algumas vezes não inclui gaps
• Muitas proteínas não apresentam um padrão global de
similaridade
– Mosaico de domínios modulares
• Alinhamento de seqüências de nucleotídeos de um mRNA
processado (spliced) com sua seqüencia genômica
(Exon/Intron)
Alinhamento Global e Local (2/2)
Score do Alinhamento
• Um score (pontuação) do alinhamento é a soma de
todos os match scores, com a penalidade subtraída
para cada gap
A B C D E F G
|
|
| |
A C C - — F G
8 2 8
match
score
8 8 =>
34
gap
-
(10+2)
score
=
22
Métodos de Alinhamento de Seqüências
• Dado um par de seqüências e função de score (pontuação),
identifique o alinhamento que obteve o melhor score
– Alinhamento ótimo
• Lembre, há um número exponencial de
alinhamentos possíveis
• A maioria deles com scores muito ruins
• Alinhamento de pares de seqüências
– Matriz de pontos (dot matrix)
– Programação dinâmica
– Dicionário de palavras ou k-tuplas (BLAST)
Matriz de Pontos
• Permite a inspeção visual de um possível alinhamento
entre duas seqüências
• Permite que repeats e inversões sejam detectadas
• Permite a identificação de regiões auto-complementares
(e.g., RNA com estrutura secundária)
• O alinhamento não é produzido
Exemplo
Seqüências:
a) ATGCGTCGTT
b) ATCCGCGAT
Passos
1.
2.
3.
4.
Organize as seqüências em uma
matriz
Coloque um ponto em cada lugar
que houver um match entre duas
bases
Trechos diagonais (indicados por
linhas) são áreas de alinhamento
Mais de um alinhamento pode
surgir
A T G C G T C G T T
A
T
C
C
G
C
G
A
T
Assuntos Abordados
• BLAST original
• Gapped BLAST
• PSI-BLAST
• PHI-BLAST
Original BLAST (Proteínas)
• Determinando as sementes:
– Sementes de tamanho fixo (w)
– Pontuação mínima para a semente (T)
• Procurando ocorrências:
– Tabela com todas as palavras de tamanho w
– Autômato finito baseado em transições (Mealy)
• Estendendo um alinhamento:
– Alinhamento sem gaps
– Limite para expansão de alinhamento (X)
Original BLAST (DNA)
• Determinando as sementes:
– Todas as seqüências de tamanho fixo (w):
n-w+1 sementes
• Banco de dados comprimido:
– 4 nucleotídeos armazenados em um byte
– Buscas por casamentos são acelerados por um fator 4
• Filtros:
– Regiões pouco significativas (SEG)
– Repetições
Estatísticas para
comparação local (1)
• Número esperado de seqüências (E-value)
com score maior ou igual a S é dado por:
 S
E  Km ne
• Calculando o score normalizado (bit score):
S  ln K
S' 
ln 2
PSI-BLAST
• Variante do BLAST que permite comparar
proteínas fracamente relacionadas, mas com
regiões bem conservadas.
• “Position-Specific Score”: para cada posição da
seqüência usada como query, um valor é associado
para cada resíduo. Quanto mais conservado o
resíduo, maior o score.
• Para uma seqüência de tamanho L, a matriz de
pontuação terá tamanho L x 20.
PSI-BLAST:
Os 5 Passos
1. Compara a query com um banco de proteínas
usando Gapped BLAST.
2. É construído um alinhamento múltiplo, e a partir
deste um perfil (seqüência + matriz de pontuação).
3. O perfil é comparado com o banco de proteínas
em busca de alinhamentos locais.
4. PSI-BLAST estima a significância estatística dos
alinhamentos encontrados.
5. Finalmente, PSI-BLAST retorna ao passo 2 por
um número arbitrário de vezes, até convergir.
Performance do PSI-BLAST
Teste com 11 famílias de proteínas:
SmithWatterman
Total de Hits
(E  0.01)
Tempo
Normalizado
Original
BLAST
Gapped
BLAST
PSIBLAST
1739
1656
1731
2649
36.0s
1.0s
0.34s
0.87s
PHI-BLAST
• Recebe como entrada uma seqüência de
aminoácidos e um padrão (estilo PROSITE)
existente nesta seqüência.
• Apenas as seqüências do banco que baterem
com este padrão serão consideradas.
• O padrão é usado como semente para o
alinhamento local gerado pelo BLAST.
O Algoritmo do PHI-BLAST
• A busca por seqüências do banco de dados
que batem com o padrão é realizada com
uma adaptação dos métodos propostos por
Baeza-Yates & Gonnet e Wu & Manber.
• O alinhamento das seqüências é realizado
com a heurística do Gapped BLAST.
• O algoritmo só permite o uso de padrões
relativamente raros no banco de dados.
PHI-BLAST:
Análise Estatística
• Score de um alinhamento: S=Sleft+S0+Sright
• Score relevante: S’=Sleft+Sright
• Probabilidade de se obter um score  S’:
P  C(S '1)e
 S '
• Número de alinhamentos com score  S’:
E  CN (S '1)eS '
PHI-BLAST:
Exemplo (E-Value)
Exemplo
Padrão
PHI-BLAST
BLAST
A
[GA]xxxxGK[ST]
0.038
4.7
B
hxhxDxGxG
0.017
1.8
C
DhDhhh
0.061
8.6
D
QxxGRx[GA]R
0.54
-
PHI-BLAST:
Exemplo (Tempo)
Exemplo Tamanho
Hits
PHI-BLAST BLAST
A
549
14582
26s
77s
B
615
2986
12s
103s
C
449
1890
10s
71s
D
424
672
9s
64s
Download

document