Análise Computacional de
Seqüências Nucleotídicas e
Protéicas
Bancos de dados biológicos
Antonio Basílio de Miranda
23/11/2004
Agenda:











I – Introdução
II – Bancos de dados de seqüências nucleotídicas
III – Bancos de dados de seqüências protéicas
IV – Bancos de dados de estruturas
V – Bancos de dados de metabolismo
VI – Bancos de dados de mutações e polimorfismo
VII – Bancos de dados de genomas
VIII – Bancos de dados de microarranjos de DNA
IX – Bancos de dados de proteomas
X – Bancos de dados bibliográficos
XI – Principais centros de pesquisa
I - Introdução: Bancos de
Dados Biológicos


Primários: GenBank, EMBL, DDBJ,
GSDB.
Especializados: PIR, Swiss-Prot,
REBASE, PROSITE, PDB, Pfam, BLOCKS,
etc.
International Nucleotide
Sequence Database

União do GenBank, EMBL e DDBJ, que
já trocam informações diariamente.
Busca e Recuperação

Por similaridade:




BLAST
BioSCAN
GenQuest
Por palavras-chave, atributos, etc.


SRS (http://srs.ebi.ac.uk)
AcNuc
Problemas:





Redundância
Contaminação
Erros nas anotações
Distintas formatações
Distintos conceitos
Diferentes formatações
dificultam a livre troca de
dados entre os bancos
II - Bancos de dados de
seqüências nucleotídicas

São fontes de dados heterogêneas, i.e.,
fontes distintas (DNA genômico X
cDNA), diferentes qualidades
(seqüências finalizadas ou single-pass),
diferentes anotações, etc.
Bancos de dados de
seqüências nucleotídicas

GenBank/EMBL/DDBJ

Ribosomal Database Project

Comparative RNA Web Site
(http://www.ncbi.nlm.nih.gov)
(http://www.ebi.ac.uk/embl/index.html)
(http://www.ddbj.nig.ac.jp/)
(http://rdp8.cme.msu.edu/)
(http://www.rna.icmb.utexas.edu/)
GenBank
O crescimento do GenBank
Aproximadamente
28,507,990,166 bases em
22,318,883 de seqüências
(Janeiro 2003)
Subdivisões do GenBank

















Primatas
Roedores
Outros mamíferos
Outros vertebrados
Invertebrados
Plantas
Bactérias
Vírus
Fagos
Sintéticas
Não-anotadas
Patentes
EST
STS
GSS
HTG
HTC
EMBL Nucleotide Sequence
Database
Subdivisões do EMBL
















Invertebrates
Other Mammals
Mus musculus
Organelles
Bacteriophage
Plants
Prokaryotes
Rodents
Unclassified Viruses
Other Vertebrates
patents
htg
htc
gss
wgs
est
ID
XX
AC
XX
DE
XX
SQ
//
CTU83196
standard; genomic DNA; PRO; 1763 BP.
U83196;
Chlamydia trachomatis pyruvate kinase (pk) gene, complete cds.
Sequence 1763 BP; 504
cactcaacga atcctttctc
taaagcgtag cattgcggtt
atattctaga agatattcta
aaaattattt gtacgatagg
gatgcaggga tgaatgtagc
cggaccatcg ctattcttaa
ctagatacaa aaggtcccga
cctggggatc gtcttactct
ctctttatcc aagttgtgta
gatgggtata tccaagcagt
caaaattcag gagaaataaa
cttcctttca tgacagagaa
gatcttatcg ctgcttcgtt
ttggaaagct ttggtcgtcc
gtacaaaatt tccaagagat
cttggtattg aattgtctat
tcgagggaaa cgggtcggtt
aacccccttc ctacacgagc
tctgcagtca tgttgtctgg
acaatgcgtt ccattatcca
ctgaacgaca aaaacagcgc
tggatccaaa ttgcagaaaa
gggtctccga tgtttttatc
aaccgcaatg tgtactatcg
gaatcgaacc gtacagtctg
ctttctaact atgataaaat
aatctcacct tgacaactgt
taatcattga aaccatatag
aaggaattta aaaacattac
tttctggatc gaagtcttct
A; 380 C; 360 G; 519 T; 0 other;
attttaaatt ctccacaccc attcctatcg
gctaaatatt ttgtatagtt gaaggcttct
ctcactaata ccggtatccc gatttatgat
ccctgcaacc aatacccctg agatgctgga
tcgccttaat tttagccacg ggacccatga
agaactacga gagaagcgcc aagttccttt
aattcgttta ggccaagtag aatctcctat
cgttagcaaa gaaattttag gatccaaaga
ttccccttat gttagagaac gagctcctgt
ggtggtcaat gctcaagagc atatggtgga
atccaacaaa tctcttagca tcaaagatat
ggatattgca gacttaaaat ttggggtaga
cgtcagatgt aatgaagata ttgacagcat
taatatgccc atcattgcca aaatagaaaa
cgctagagct gctgatggta tcatgattgc
tgttgaagtt cctggactac aaaaatttat
ttgtatcact gcaacgcaaa tgctcgagtc
cgaagtctct gacgttgcca acgccattta
agaaactgcc tcaggagccc atcctgtaca
agagactgag aagactttcg attaccacgc
tctcaaagtt tctccttatc ttgaagccaa
agcatctgcc aaagccatta ttgtgtatac
caaatatcga ccttatctcc ctattattgc
tttagctgta gaatggggag tatatcctat
gcgtcaccaa gcttgtgtat atggagtaga
tcttgtcttc agccgcggag ctgggatgca
gcatgatgcg ctatccccct ctcttgacga
caggtatgtc ttctatcgtt agactttctg
agtagagttt tgtctcgaga gatcgttttg
ctt
aacgcttttt
ttcatttcgg
cgctagaacg
aaagcttctc
aagccatggc
agctattatg
aaaagtacag
aagcgcgtta
tctcattgat
aatagagttt
cgatgttgct
acaagaactc
gcgtaaagtt
tcatttagga
acgcggggat
ggcccgagca
aatgattcgc
cgatggaacc
tgcagtaaaa
ttttttccag
ttgggttttc
ccagacggga
tgttacccct
gctaaccctg
aaaaggaatt
agataccaac
gatagttcca
gtattactgt
ttcaccgggg
60
120
180
240
300
360
420
480
540
600
660
720
780
840
900
960
1020
1080
1140
1200
1260
1320
1380
1440
1500
1560
1620
1680
1740
1763
III - Bancos de dados de
seqüências protéicas




Primários
Secundários
Especializados
Estruturas
Bancos de dados de
seqüências protéicas

Primários:



Swiss-Prot (http://pir.georgetown.edu/)
TrEMBL (http://www.ebi.ac.uk/trembl/)
PIR (http://pir.georgetown.edu/)
Swiss-Prot



Mantido em conjunto pelo EBI e SIB
Mais de 6000 espécies representadas
Cada seqüência nova é examinada para
assegurar uma boa qualidade nas
anotações
TrEMBL



“Translation of EMBL Nucleotide
Sequence Database”
Os registros são derivados da tradução
conceitual das seqüências codificantes
presentes no EMBL, com exceção
daquelas já presentes no Swiss-Prot.
SP-TrEMBL, REM-TrEMBL.
PIR – Protein Information
Resource


Colaboração entre a National Biomedical
Research Foundation (NBRF), Munich
Information Center for Protein Sequences
(MIPS), e o Japan International Protein
Information Database (JIPID).
Possui quatro subdivisões (PIR1, PIR2, PIR3 e
PIR4), de acordo como nível de anotação da
seqüência.
Bancos de dados de
seqüências protéicas

Especializados:







GO – Gene Ontology – disponibiliza um
vocabulário dinâmico controlado de termos
biológicos.
MEROPS – classificação baseada em estrutura das
peptidases.
GPCRDb – G-protein coupled receptors
YPD – Yeast Protein Database
ENZYME – Enzyme Nomenclature Database
2D gel electrophoresis
Mass spectrometry
GO – Gene Ontology
$Gene_Ontology ; GO:0003673
<cellular_component ; GO:0005575
%cell ; GO:0005623
<axon ; GO:0030424
<axolemma ; GO:0030673 % membrane ; GO:0016020
%giant axon ; GO:0042757
<bud ; GO:0005933
<bud neck ; GO:0005935 % site of polarized growth (sensu Saccharomyces) ; GO:0000134
<contractile ring (sensu Saccharomyces) ; GO:0000142 ; synonym:cytokinetic ring (sensu
Saccharomyces) ; synonym:neck ring % contractile ring (sensu Fungi) ; GO:0030480
http://www.ebi.ac.uk/GOA/index.html
MEROPS


BD sobre peptidases (AKAS proteases,
proteinases ou enzimas proteolíticas).
Classificação hierárquica, baseada na
estrutura da proteína.
GPCRDb

BD de seqüências e outros dados
relacionados aos G-protein coupled
receptors, família de proteínas
envolvida em sistemas de sinalização.
YPD



BD das proteínas de Saccharomyces
cereviseae.
Mais de 6000 proteínas.
Uma extensa revisão da literatura levou
a uma anotação detalhada das
proteínas presentes no BD.
ENZYME


Extensão anotada da publicação da
“Enzyme´s Comission”.
Existem diversos outros BD
relacionados como o BRENDA
(propriedades enzimáticas) e o LIGAND
(ligantes).
Bancos de dados de
seqüências protéicas

Secundários:




PROSITE – sítios funcionais
PRINTS – famílias
Pfam – domínios divergentes
BLOCKS – regiões conservadas
PROSITE


Extensa documentação sobre famílias
protéicas, definidas por domínios ou
motivos protéicos.
Proporciona identificação rápida e
confiável (com ferramentas
computacionais adequadas) de uma
nova seqüência protéica.
PRINTS



Identificação por “fingerprinting”.
Utiliza regiões conservadas e/ou
motivos, determinados a partir de
alinhamentos múltiplos, que definem e
caracterizam aquele grupo de
seqüências (família).
Possibilita a identificação de “parentes”
distantes.
Pfam


Utiliza HMM´s (Hidden Markov Models) como
metodologia para a criação de famílias
protéicas e assinaturas de domínios.
As informações sobre uma determinada
proteína são cuidadosamente checadas
contra a literatura disponível a respeito da
mesma, na busca de evidências bioquímicas
que corroborem dados obtidos a partir de
predições computacionais .
BLOCKS

Constituído pelas regiões mais
conservadas, determinadas a partir de
alinhamentos múltiplos das proteínas
documentadas no InterPro.
Sequence Retrieval System –
SRS
Perguntas:



Quais são as fontes de dados e onde
posso encontrá-las?
Quais as diferenças entre elas?
Posso usar apenas uma delas em
minhas análises?

InterPro: uma integração do PROSITE,
PRINTS, Pfam e PRODOM.
IV - Bancos de dados de
Estruturas

Protein Data Bank (PDB).


http://www.rcsb.org/pdb/
Nucleic Acid Database (NDB)

http://ndbserver.rutgers.edu/
PDB



Protein Data Bank
Armazena estruturas tri-dimensionais de
diversas proteínas, e dados
relacionados.
A visualização das estruturas pode ser
feita de diversas formas.
NDB


Nucleic Acid Database
Armazena informações sobre a
estrutura tri-dimensional de ácidos
nucléicos.
V - Bancos de dados de
metabolismo


KEGG: Kyoto Encyclopedia of Genes and
Genomes - http://www.genome.ad.jp/kegg/
EcoCyc – Encyclopedia of Escherichia
coli K12 genes and metabolism –
http://ecocyc.org
VI - Bancos de dados de
mutações e polimorfismos

Human SNP Database -
http://www.broad.mit.edu/snp/human/index.html

Human Genome Variation Society http://www.hgvs.org/

Oniline Mendelian Inheritance in Man
(OMIM) - http://www.ncbi.nlm.nih.gov/omim/
VII - Bancos de dados de
genomas


GOLD – Genomes On-Line Database
(http://ergo.integratedgenomics.com/GOLD)
Aproximadamente 940 projetos genoma
em andamento ao redor do mundo!
Bancos de dados de genomas




Ensembl – proporciona acesso a vários
genomas (www.ebi.ac.uk/ensembl/index.html)
WormBase (www.wormbase.org)
FlyBase (flybase.bio.indiana.edu)
Saccharomyces Genome Database
(www.yeastgenome.org)
VIII - Bancos de dados de microarranjos
de DNA (DNA microarrays)


ArrayExpress
AMAD
Microarray
ArrayExpress


Repositório público para dados obtidos
a partir de experimentos com
microarranjos de DNA
http://www.ebi.ac.uk/arrayexpress/index.html
AMAD

Another Microarray Database
Flatfile
Necessita de PERL
Gratuito

http://www.microarrays.org/software.html



IX - Bancos de dados de
proteomas



SWISS-2DPAGE - http://us.expasy.org/ch2d/
Danish Centre for Human Genome
research - http://proteomics.cancer.dk/
Parasite Proteome http://www.ebi.ac.uk/parasites/proteomes.html
Proteoma
X - Bancos de dados
bibliográficos


MEDLINE – acesso via SRS
PUBMED – acesso via Entrez
XI - Principais Centros de
Pesquisa





NCBI (http://www.ncbi.nlm.nih.gov)
TIGR (http://www.tigr.org)
EMBL (http://www.embl.de/)
EBI (http://www.ebi.ac.uk)
Sanger Institute
(http://www.sanger.ac.uk)