Banco de Dados Biológicos
Marcílio C. P. de Souto
DIMAp/UFRN
Banco de Dados (BD) Biológicos

Por que?


Disponibilizar dados biológicos para os cientistas
 O máximo possível de um tipo particular de informação deveria
estar disponível em um único lugar
 Dados publicados podem ser difíceis de encontrar ou acessar
 Coleta-los da literatura consume muito tempo
Disponibilizar dados em formato que possa ser lido por um
computador
2
BD de Seqüências


Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos
Mais de 348 BD

BD de seqüências de nucleotídeos
 EMBL (http://www.ebi.ac.uk/embl)
 GenBank (http://www.ncbi.nlm.nih.gov/GenBank)
 DDBJ (http://www.ddbj.nig.ac.jp)
 UniGene (http://www.ncbi.nlm.nih.gov/UniGene)

BD de seqüências de proteínas
 SWISS-PROT, TrEMBL (http://www.expansy.ch/sprot)
 PIR (http://pir.georgetown.edu)

BD de motivos
 Pfam (http://www.sanger.ac.uk/Software/Pfam)
 PROSITE (http://www.expansy.ch/prosite)

BD de estruturas macromoleculares 3D
 PDB (http://www.rcsb.org/pdb)
3
Usos de BD de Seqüências

O que se pode descobrir sobre um gene por meio de uma busca a um
BD?





Informação evolutiva: genes homólogos, freqüências dos alelos, ...
Informação genômica: localização no cromossomo, intros, UTRs, regiões
reguladoras, ...
Informação estrutural: estruturas da proteína correspondente, tipos de
folds, domínios estruturais, ...
Informação de expressão: expressão específica a um dado tecido,
fenótipos, doenças, ...
Informação funcional: função molecular/enzimática, papel em diferentes
rotas, papel em doenças, ...
4
Busca de Informação

Busca de informação sobre genes e produtos gênicos

Gene e produtos gênicos são geralmente organizados por
seqüência




Seqüências genômicas codificam todas características de um
organismo
Produtos gênicos são descritos unicamente por sua seqüência
Seqüências similares entre biomoléculas indica tanto uma
função similar quanto um relacionamento evolutivo
Seqüências de macromoléculas proporciona chaves biologicamente
significativas para busca em BD
5
Busca em BD de Seqüências



Comece com uma seqüência, encontre informação sobre ela
Muitos tipos de seqüências de entrada
 Pode ser uma seqüência de aminoácido ou de nucleotídeo
 Genômica, cDNA/mRNA, proteína
 Completa ou fragmentada
Matches exatos são raros

Em geral, o objetivo é recuperar um conjunto de seqüências
similares
6
Busca em BD de Seqüências

O que queremos saber sobre a seqüência?


Ela é similar ao algum gene conhecido? Quão próximo é o melhor
match? Significância?
O que sabemos sobre este gene?




Genômica (localização no cromossomo, regiões reguladoras, ...)
Estrutural (estrutura conhecida? ...)
Funcional (molecular, celular e doença)
Informação evolutiva


Este gene é encontrado em outros organismos?
Qual é sua árvore taxonômica?
7
NCBI e Entrez

A mais usada interface para a recuperação de informação de BD biológicos é o
sistema Entrez do NCBI (http://www.ncbi.nlm.nih.gov/Entrez)



NCBI (National Center for Biotechnology Information)
O sistema Entrez tira vantagem do fato que há relacionamentos lógicos préexistentes entre as entradas indíviduas encontradas em diversos BD públicos
 Por um exemplo, um artigo no PuBMed pode descrever o sequenciamento de
um gene cuja seqüência aparece no GenBank
 A seqüência de nucleotídeos, por sua vez, pode codificar o produto de uma
proteína cuja seqüência está armazenada em um BD de proteínas
 A estrutura 3D desta proteína pode ser conhecida - as coordenadas da
estrutura podem aparecer em um BD de estruturas
 Finalmente, o gene pode ter sido mapeado para uma região específica do
cromossomo - BD de mapeamento
A existência dessas conexões naturais, levou ao desenvolvimento de um método
por meio do qual toda a informação poderia ser encontrada sem ter que visitar
sequencialmente BD distintos
8
O Sistema Entrez (1/2)

Para ser claro, Entrez não é um BD



É a interface por meio da qual todos os seus BDs componentes
podem ser acessados
O espaço de informação do Entrez inclui
 Registros do PubMed
 Dados sobre seqüências de nucleotídeos e proteínas
 Informação sobre estruturas 3D
 Informação de mapeamento
A vantagem do Entrez está no fato que toda esta informação pode
ser acessada por meio de apenas uma query (consulta)
9
O Sistema Entrez (2/2)
10
BLAST: Busca com uma Seqüência

O objetivo é encontrar outras seqüências que são mais similares a
query (consulta) do que seria esperado por ter acontecido ao acaso


Homologia
Pode começar com seqüências de nucleotídeos ou aminoácidos

Pode fazer a busca por nucleotídeos/aminoácidos
11
BLAST
12
Mais que NCBI

Links para anotações funcionais fora do NCBI



Gene Ontology - nomes padrões para:
 Funções moleculares
 Localização celular
 Processos
Links para BD de enzimas
 Funções da enzimas
Links para o BD KEGG (vias)
13
KEGG
14
Referências


A. D. Baxevanis e B. F. Francis Ouellete (eds.). Bioinformatics: a
practical guide to the analysis of genes e proteins. John Wiley & Sons.
2001.
The Molecular Biology Database Collection: 2003 update -- Nucleic
Acids Research 31(1):1-12
15
Busca em Banco de Dados
Marcílio C. P. de Souto
DIMAp/UFRN
Primeiro “Atrás da Tela”


Banco de dados são muito usados para buscas
 Integridade, segurança, ...
Busca significa receber uma query (consulta) e recuperar algum
entrada do banco de dados que match (case) com ela

Comparação inexata de seqüências (alinhamento)


Programação dinâmica e BLAST search
Eficiência é fundamental

Queremos encontrar coisas rápidas, independentemente de quão
grande o banco de dados se torne
17
Alinhamento de Seqüências

Possibilitar ao pesquisador determinar se duas seqüências apresentam
suficiente similaridade tal que um inferência sobre homologia pode ser
justificada

Homologia: significa dizer que duas (ou mais) seqüências tem um
ancestral comum


Similaridade: é uma medida da qualidade do alinhamento entre duas
seqüências, baseada em algum critério





História evolutiva
Não se refere a nenhum processo histórico
Apenas uma comparação das seqüências com algum método
É uma afirmação logicamente mais fraca
Em bioinformática, esses dois termos são muitas vezes confundidos
A razão é provavelmente porque uma similaridade significativa é um forte
argumento para homologia e, a partir disso, para a dedução de que as
seqüências codificam um gene com uma função biológica similar
18
Bases Evolucionárias

Mutações


Os eventos mais simples que ocorrem durante o curso da evolução molecular são
substituições de um nucleotídeo por outro e a deleção ou inserção de uma par
de base
Quando uma alinhamento de seqüências refletem genuinamente a história
evolutiva de dois genes ou proteínas


Resíduos que foram alinhados mas não são idênticos representaria uma
substituição
Regiões onde os resíduos de uma seqüência não correspondem a nada na outra
seria interpretado como ou uma inserção uma seqüência ou uma deleção na outra
A L I G N M E N T
| | |
| | | |
- L I G A M E N T
19
Relação entre Sequências
20
Similaridade


Similaridade pode ser definida contando posições que são idênticas
entre duas seqüências
Gaps (inserções/deleções) podem ser importantes
G A A T
|
| |
G G A T
T C A G T T A
| |
|
|
T C – G - — A
21
Substituições



Nem todo mismatch (substituições) são iguais
Alguns aminoácidos são mais substituível entre si
 Serina e treonina são mais parecidos do que triptofan e alanina
 Podemos adicionar um custo diferente para cada tipo de mismatch
(substituição)
Em geral, não usamos custos diferentes para os mismatches no
alinhamento de nucleotídeos
 Nenhuma substituição, por si, é melhor do que outra
22
Gaps


Sem gaps, há N*M possíveis alinhamentos entre seqüências de
comprimentos N e M
Uma vez gaps são permitidos, isto se torna um número muito grande


O número de possíveis alinhamentos torna-se exponencial no tamanho
das seqüências
Logo, não podemos experimentar todos
23
Alinhamento Aleatórios

A introdução de gaps também pode levar a alinhamentos sem sentido
S O M E T I M E S Q U I P S E N T I C E
|
|
| |
| |
| |
S - - E - – - - — Q U - - - E N - - C E
•
É necessário distinguir entre alinhamentos que ocorreram devido
a homologia daqueles que são esperados a acontecer ao acaso
• Defina um esquema (função) de score (pontuação) que leve em
consideração ambos mismatches e penalidades para gaps
24
Match Scores
• Match scores são em geral calculados
com base na freqüência de mutações
particulares em seqüências muito similares
25
Alinhamento Global e Local (1/2)

Global


Seqüências são comparadas como um todo
 Útil quando temos seqüências que diferem pouco entre si
 Inclui gaps
Local

O alinhamento localiza fragmentos de seqüências que são mais similares
 Algumas vezes não inclui gaps
 Muitas proteínas não apresentam um padrão global de similaridade
 Mosaico de domínios modulares
 Alinhamento de seqüências de nucleotídeos de um mRNA processado
(spliced) com sua seqüencia genômica (Exon/Intron)
26
Alinhamento Global e Local (2/2)
27
Score do Alinhamento

Um score (pontuação) do alinhamento é a soma de todos
os match scores, com a penalidade subtraída para cada
gap
A B C D E F G
|
|
| |
A C C - — F G
8 2 8
match
score
8 8 =>
34
gap
-
(10+2)
score
=
22
28
Métodos de Alinhamento de Seqüências

Dado um par de seqüências e função de score (pontuação), identifique
o alinhamento que obteve o melhor score


Alinhamento ótimo
 Lembre, há um número exponencial de alinhamentos possíveis
 A maioria deles com scores muito ruins
Alinhamento de pares de seqüências



Matriz de pontos (dot matrix)
Programação dinâmica
Dicionário de palavras ou k-tuplas (BLAST)
29
Matriz de Pontos




Permite a inspeção visual de um possível alinhamento entre duas
seqüências
Permite que repeats e inversões sejam detectadas
Permite a identificação de regiões auto-complementares (e.g., RNA
com estrutura secundária)
O alinhamento não é produzido
30
Exemplo
Seqüências:
a) ATGCGTCGTT
b) ATCCGCGAT
Passos
1.
2.
3.
4.
Organize as seqüências em uma
matriz
Coloque um ponto em cada lugar
que houver um match entre duas
bases
Trechos diagonais (indicados por
linhas) são áreas de alinhamento
Mais de um alinhamento pode
surgir
A T G C G T C G T T
A
T
C
C
G
C
G
A
T
31
Programação Dinâmica (PD)

Método computacional que calcula o melhor alinhamento possível entre
sequências

Abordagem indutiva, em que são definidos os scores para as seqüências
menores, e a partir dessas, novos scores são computados os scores de
cadeias maiores


Sejam s e t duas seqüências, com |s|=m e |t|=n, construir uma
matriz (m+1) x (n+1), em que M(i, j) contém a similaridade entre
s[1..i] e t[1..j]
Algoritmo de Needleman-Wunch
32
Exemplo (1/12)
Sequence 1: GAATTCAGTTA (m = 11)
Sequence 2: GGATCGA
(n = 7)
Esquema de Pontuação (scoring):



S(aibj) = +2 if ai = bj (match score)
S(aibj) = -1 if ai  bj (mismatch score)
w = -2 (gap penalty)
Pontuação Máxima na posição i,j da matriz:
Mi,j = MAX[
Mi-1, j-1 + s(ai,bj) (match/mismatch),
Mi,j-1 + w (gap na seqüência #1),
Mi-1,j + w (gap na seqüência #2)]
33
Exemplo (2/12)

Inicialização

Crie uma matriz com m+1 colunas e n+1 linhas, em que m e n
correspondem ao tamanho das seqüências a serem alinhadas

A primeira linha e a primeira coluna podem ser inicialmente preenchidas
com 0
34
Exemplo (3/12)

Preenchimento da Matriz

M1,1 = MAX[M0,0 + 2, M1,0 - 2, M0,1 - 2] = MAX[2, -2, -2]
35
Exemplo (4/12)

Preenchimento da Matriz

M1,2 = MAX[M0,1 + 2, M1,1 - 2, M0,2 - 2] = MAX[0+2, 2-2, 0-2] =
MAX[2, 0, -2]
36
Exemplo (5/12)

Preenchimento da Matriz

M1,3 = MAX[M0,2 - 1, M1,2 - 2, M0,3 - 2] = MAX[0-1, 2-2, 0-2] =
MAX[-1, 0, -2]
37
Exemplo (6/12)

Preenchimento da Matriz

M32 = MAX[M21 - 1, M31 - 2, M22 - 2] = MAX[0-1, -1 - 2, 1-2] =
MAX[-1, -3, -1]
38
Exemplo (7/12)

Preenchimento da Matriz

Dois caminhos diferentes para se obter o score máximo para célula M32
39
Exemplo (8/12)

Preenchimento da Matriz

Matriz Final
40
Exemplo (9/12)

Traceback
A
|
A
41
Exemplo (10/12)

Traceback
T C A G T T A
| |
|
|
T C – G - — A
42
Exemplo (11/12)

Traceback
G A A T T C A G T T A
|
|
| |
|
|
G G A – T C – G - — A
43
Exemplo (12/12)

Traceback
G A A T T C A G T T A
|
| |
|
|
|
G G A T - C – G - — A
44
Score do Alinhamento
G A A T T C A G T T A
|
|
| |
|
|
G G A – T C – G - — A
+ - + - + + - + - - +
2 1 2 2 2 2 2 2 2 2 2
2 – 1 + 2 – 2 + 2 + 2 – 2 + 2 – 2 – 2 + 2 = 3
45
Significância de um Alinhamento


Teste de significância é um ramo da estatística que se preocupa com a
avaliação da probabilidade que um resultado particular poderia ter
acontecido ao acaso
Como podemos calcular a probabilidade de que um alinhamento
aconteceu por acaso?


Com um modelo de evolução
Empiricamente, por meio do embaralhamento de nossas
seqüências e o cálculo dos scores nessas seqüências aleatórias
46
Busca em BD por Similaridade (1/2)




Até agora o foco era sobre o alinhamento de pares específicos de seqüências
Porém, para uma seqüência nova determinada, geralmente não como saber
qual seqüência (ou seqüências) é apropriada para a comparação
Busca em BD por similaridade nos permite determinar quais das várias
seqüências são potencialmente relacionadas a uma seqüência particular de
interesse
Este processo pode levar a descobertas inesperadas

Um dos primeiros resultados com esse processo venho com a descoberta
de que o oncogene viral v-sis é uma forma modificada de um gene celular
normal

Naquela época, as bases de dados de seqüências eram pequenos o
suficiente tal que esse achado pode ser considerado um fato
surpreendente

Hoje, porém, seria mais surpreendente fazer uma busca em um BD e não
encontrar nenhum hit
47
Busca em BD por Similaridade (2/2)



A operação básica é sequencialmente alinhar uma seqüência query
com cada seqüência subject no BD
Os resultados são apresentados como uma lista de ranks seguida por
uma série de alinhamento individuais de seqüências, mais vários
scores e estatísticas
ADICIONAR FIGURA
48
Métodos Heurísticos



Soluções de programação dinâmica para problemas de alinhamento são relativamente
lentas

Não levam a buscas eficientes nos imensos BD de seqüências
Necessidade de uma técnica para fazer busca em grandes BD para encontrar seqüências
que tenha um match inexato com a seqüência query
Soluções competidoras: FASTA & BLAST

Métodos heurísticos (aproximação) de programação dinâmica
 Baseado na estratégia de quebrar uma seqüência em cadeias pequenas de
letras consecutivas, chamadas de palavras
 Idéia: alinhamento representando um relacionamento verdadeiro entre as
seqüências conterá pelo menos uma palavra que é comum a ambas seqüências
 Estas palavras hits podem ser identificadas rapidamente pre-indexando todas
as palavras da query e então consultando o índece na medida que o BD é
pecorrido
 Programação dinâmica encontra relacionamentos em seqüências distantemente
relacionada que aproximações não conseguem
49
BLAST

O BLAST é uma heurística para comparação local mais utilizada


Basic Local Aligment Search Tool (Altschull et al., 1990)
Há várias variantes do BLAST, dependendo do tipo da seqüência query
(DNA ou proteínas) e do BD sendo consultado
PROGRAMA
BLASTP
BLASTN
BLASTX
TBLASTN
TBLASTX
QUERY
Proteína
Nucleotídeo
Nucleotídeo
(Traduzido)
Proteina
Nucleotídeo
(Traduzido)
DB
Proteína
Nucleotídeo
Proteína
Nucleotídeo (Traduzido)
Nucleotídeo (Traduzido)
50
Referências



A. D. Baxevanis e B. F. Francis Ouellete (eds.). Bioinformatics: a
practical guide to the analysis of genes e proteins. John Wiley & Sons.
2001.
M. S. Waterman. Introduction to Computational Biology: maps,
sequences and genomes. Chapman & Hall. 2000.
http://www.sbc.su.se/~per/molbioinfo2001/seqali-dyn.html (ótimo
tutorial sobre programação dinâmica)
51
Análise de Genomas


Então, o que fazer com um genoma completo? Afinal, um genoma
sequenciado consiste apenas de um infinidade de bases em uma ordem
definida
Análise é obviamente necessária a fim de se obter informações biologicamente
interessantes. A análise de um genoma cobre muitos aspectos diferentes

Definição da localização dos genes (regiões codificadoras, regiões reguladoras):
identificação de gene
 Predição de genes ab initio usando software baseado em regras e padrões.
 Identificação de genes por meio de alinhamento com proteínas
conhecidas
e seqüências EST
 Predição de genes por meio de similaridade com proteínas e seqüências
ESTem outros organismos
 Predição de genes por meio de comparação com outros genomas
 Regiões conservadas são provavelmente regiões codificadoras ou
reguladoras
52
Análise de Genomas



Anotação de genes: comparar com genes/proteínas com funções conhecidas em
outros organismos. Essencialmente o mesmo que rotular um gene.
Classificação funcional. Grupos amplos de caracterização funcional, tais como
“proteínas ribossomais”, ....
Vias metabólica

Há
53
Download

Banco de Dados Biológicos/Busca em Banco de Dados de