Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004 Agenda: I – Introdução II – Bancos de dados de seqüências nucleotídicas III – Bancos de dados de seqüências protéicas IV – Bancos de dados de estruturas V – Bancos de dados de metabolismo VI – Bancos de dados de mutações e polimorfismo VII – Bancos de dados de genomas VIII – Bancos de dados de microarranjos de DNA IX – Bancos de dados de proteomas X – Bancos de dados bibliográficos XI – Principais centros de pesquisa I - Introdução: Bancos de Dados Biológicos Primários: GenBank, EMBL, DDBJ, GSDB. Especializados: PIR, Swiss-Prot, REBASE, PROSITE, PDB, Pfam, BLOCKS, etc. International Nucleotide Sequence Database União do GenBank, EMBL e DDBJ, que já trocam informações diariamente. Busca e Recuperação Por similaridade: BLAST BioSCAN GenQuest Por palavras-chave, atributos, etc. SRS (http://srs.ebi.ac.uk) AcNuc Problemas: Redundância Contaminação Erros nas anotações Distintas formatações Distintos conceitos Diferentes formatações dificultam a livre troca de dados entre os bancos II - Bancos de dados de seqüências nucleotídicas São fontes de dados heterogêneas, i.e., fontes distintas (DNA genômico X cDNA), diferentes qualidades (seqüências finalizadas ou single-pass), diferentes anotações, etc. Bancos de dados de seqüências nucleotídicas GenBank/EMBL/DDBJ Ribosomal Database Project Comparative RNA Web Site (http://www.ncbi.nlm.nih.gov) (http://www.ebi.ac.uk/embl/index.html) (http://www.ddbj.nig.ac.jp/) (http://rdp8.cme.msu.edu/) (http://www.rna.icmb.utexas.edu/) GenBank O crescimento do GenBank Aproximadamente 28,507,990,166 bases em 22,318,883 de seqüências (Janeiro 2003) Subdivisões do GenBank Primatas Roedores Outros mamíferos Outros vertebrados Invertebrados Plantas Bactérias Vírus Fagos Sintéticas Não-anotadas Patentes EST STS GSS HTG HTC EMBL Nucleotide Sequence Database Subdivisões do EMBL Invertebrates Other Mammals Mus musculus Organelles Bacteriophage Plants Prokaryotes Rodents Unclassified Viruses Other Vertebrates patents htg htc gss wgs est ID XX AC XX DE XX SQ // CTU83196 standard; genomic DNA; PRO; 1763 BP. U83196; Chlamydia trachomatis pyruvate kinase (pk) gene, complete cds. Sequence 1763 BP; 504 cactcaacga atcctttctc taaagcgtag cattgcggtt atattctaga agatattcta aaaattattt gtacgatagg gatgcaggga tgaatgtagc cggaccatcg ctattcttaa ctagatacaa aaggtcccga cctggggatc gtcttactct ctctttatcc aagttgtgta gatgggtata tccaagcagt caaaattcag gagaaataaa cttcctttca tgacagagaa gatcttatcg ctgcttcgtt ttggaaagct ttggtcgtcc gtacaaaatt tccaagagat cttggtattg aattgtctat tcgagggaaa cgggtcggtt aacccccttc ctacacgagc tctgcagtca tgttgtctgg acaatgcgtt ccattatcca ctgaacgaca aaaacagcgc tggatccaaa ttgcagaaaa gggtctccga tgtttttatc aaccgcaatg tgtactatcg gaatcgaacc gtacagtctg ctttctaact atgataaaat aatctcacct tgacaactgt taatcattga aaccatatag aaggaattta aaaacattac tttctggatc gaagtcttct A; 380 C; 360 G; 519 T; 0 other; attttaaatt ctccacaccc attcctatcg gctaaatatt ttgtatagtt gaaggcttct ctcactaata ccggtatccc gatttatgat ccctgcaacc aatacccctg agatgctgga tcgccttaat tttagccacg ggacccatga agaactacga gagaagcgcc aagttccttt aattcgttta ggccaagtag aatctcctat cgttagcaaa gaaattttag gatccaaaga ttccccttat gttagagaac gagctcctgt ggtggtcaat gctcaagagc atatggtgga atccaacaaa tctcttagca tcaaagatat ggatattgca gacttaaaat ttggggtaga cgtcagatgt aatgaagata ttgacagcat taatatgccc atcattgcca aaatagaaaa cgctagagct gctgatggta tcatgattgc tgttgaagtt cctggactac aaaaatttat ttgtatcact gcaacgcaaa tgctcgagtc cgaagtctct gacgttgcca acgccattta agaaactgcc tcaggagccc atcctgtaca agagactgag aagactttcg attaccacgc tctcaaagtt tctccttatc ttgaagccaa agcatctgcc aaagccatta ttgtgtatac caaatatcga ccttatctcc ctattattgc tttagctgta gaatggggag tatatcctat gcgtcaccaa gcttgtgtat atggagtaga tcttgtcttc agccgcggag ctgggatgca gcatgatgcg ctatccccct ctcttgacga caggtatgtc ttctatcgtt agactttctg agtagagttt tgtctcgaga gatcgttttg ctt aacgcttttt ttcatttcgg cgctagaacg aaagcttctc aagccatggc agctattatg aaaagtacag aagcgcgtta tctcattgat aatagagttt cgatgttgct acaagaactc gcgtaaagtt tcatttagga acgcggggat ggcccgagca aatgattcgc cgatggaacc tgcagtaaaa ttttttccag ttgggttttc ccagacggga tgttacccct gctaaccctg aaaaggaatt agataccaac gatagttcca gtattactgt ttcaccgggg 60 120 180 240 300 360 420 480 540 600 660 720 780 840 900 960 1020 1080 1140 1200 1260 1320 1380 1440 1500 1560 1620 1680 1740 1763 III - Bancos de dados de seqüências protéicas Primários Secundários Especializados Estruturas Bancos de dados de seqüências protéicas Primários: Swiss-Prot (http://pir.georgetown.edu/) TrEMBL (http://www.ebi.ac.uk/trembl/) PIR (http://pir.georgetown.edu/) Swiss-Prot Mantido em conjunto pelo EBI e SIB Mais de 6000 espécies representadas Cada seqüência nova é examinada para assegurar uma boa qualidade nas anotações TrEMBL “Translation of EMBL Nucleotide Sequence Database” Os registros são derivados da tradução conceitual das seqüências codificantes presentes no EMBL, com exceção daquelas já presentes no Swiss-Prot. SP-TrEMBL, REM-TrEMBL. PIR – Protein Information Resource Colaboração entre a National Biomedical Research Foundation (NBRF), Munich Information Center for Protein Sequences (MIPS), e o Japan International Protein Information Database (JIPID). Possui quatro subdivisões (PIR1, PIR2, PIR3 e PIR4), de acordo como nível de anotação da seqüência. Bancos de dados de seqüências protéicas Especializados: GO – Gene Ontology – disponibiliza um vocabulário dinâmico controlado de termos biológicos. MEROPS – classificação baseada em estrutura das peptidases. GPCRDb – G-protein coupled receptors YPD – Yeast Protein Database ENZYME – Enzyme Nomenclature Database 2D gel electrophoresis Mass spectrometry GO – Gene Ontology $Gene_Ontology ; GO:0003673 <cellular_component ; GO:0005575 %cell ; GO:0005623 <axon ; GO:0030424 <axolemma ; GO:0030673 % membrane ; GO:0016020 %giant axon ; GO:0042757 <bud ; GO:0005933 <bud neck ; GO:0005935 % site of polarized growth (sensu Saccharomyces) ; GO:0000134 <contractile ring (sensu Saccharomyces) ; GO:0000142 ; synonym:cytokinetic ring (sensu Saccharomyces) ; synonym:neck ring % contractile ring (sensu Fungi) ; GO:0030480 http://www.ebi.ac.uk/GOA/index.html MEROPS BD sobre peptidases (AKAS proteases, proteinases ou enzimas proteolíticas). Classificação hierárquica, baseada na estrutura da proteína. GPCRDb BD de seqüências e outros dados relacionados aos G-protein coupled receptors, família de proteínas envolvida em sistemas de sinalização. YPD BD das proteínas de Saccharomyces cereviseae. Mais de 6000 proteínas. Uma extensa revisão da literatura levou a uma anotação detalhada das proteínas presentes no BD. ENZYME Extensão anotada da publicação da “Enzyme´s Comission”. Existem diversos outros BD relacionados como o BRENDA (propriedades enzimáticas) e o LIGAND (ligantes). Bancos de dados de seqüências protéicas Secundários: PROSITE – sítios funcionais PRINTS – famílias Pfam – domínios divergentes BLOCKS – regiões conservadas PROSITE Extensa documentação sobre famílias protéicas, definidas por domínios ou motivos protéicos. Proporciona identificação rápida e confiável (com ferramentas computacionais adequadas) de uma nova seqüência protéica. PRINTS Identificação por “fingerprinting”. Utiliza regiões conservadas e/ou motivos, determinados a partir de alinhamentos múltiplos, que definem e caracterizam aquele grupo de seqüências (família). Possibilita a identificação de “parentes” distantes. Pfam Utiliza HMM´s (Hidden Markov Models) como metodologia para a criação de famílias protéicas e assinaturas de domínios. As informações sobre uma determinada proteína são cuidadosamente checadas contra a literatura disponível a respeito da mesma, na busca de evidências bioquímicas que corroborem dados obtidos a partir de predições computacionais . BLOCKS Constituído pelas regiões mais conservadas, determinadas a partir de alinhamentos múltiplos das proteínas documentadas no InterPro. Sequence Retrieval System – SRS Perguntas: Quais são as fontes de dados e onde posso encontrá-las? Quais as diferenças entre elas? Posso usar apenas uma delas em minhas análises? InterPro: uma integração do PROSITE, PRINTS, Pfam e PRODOM. IV - Bancos de dados de Estruturas Protein Data Bank (PDB). http://www.rcsb.org/pdb/ Nucleic Acid Database (NDB) http://ndbserver.rutgers.edu/ PDB Protein Data Bank Armazena estruturas tri-dimensionais de diversas proteínas, e dados relacionados. A visualização das estruturas pode ser feita de diversas formas. NDB Nucleic Acid Database Armazena informações sobre a estrutura tri-dimensional de ácidos nucléicos. V - Bancos de dados de metabolismo KEGG: Kyoto Encyclopedia of Genes and Genomes - http://www.genome.ad.jp/kegg/ EcoCyc – Encyclopedia of Escherichia coli K12 genes and metabolism – http://ecocyc.org VI - Bancos de dados de mutações e polimorfismos Human SNP Database - http://www.broad.mit.edu/snp/human/index.html Human Genome Variation Society http://www.hgvs.org/ Oniline Mendelian Inheritance in Man (OMIM) - http://www.ncbi.nlm.nih.gov/omim/ VII - Bancos de dados de genomas GOLD – Genomes On-Line Database (http://ergo.integratedgenomics.com/GOLD) Aproximadamente 940 projetos genoma em andamento ao redor do mundo! Bancos de dados de genomas Ensembl – proporciona acesso a vários genomas (www.ebi.ac.uk/ensembl/index.html) WormBase (www.wormbase.org) FlyBase (flybase.bio.indiana.edu) Saccharomyces Genome Database (www.yeastgenome.org) VIII - Bancos de dados de microarranjos de DNA (DNA microarrays) ArrayExpress AMAD Microarray ArrayExpress Repositório público para dados obtidos a partir de experimentos com microarranjos de DNA http://www.ebi.ac.uk/arrayexpress/index.html AMAD Another Microarray Database Flatfile Necessita de PERL Gratuito http://www.microarrays.org/software.html IX - Bancos de dados de proteomas SWISS-2DPAGE - http://us.expasy.org/ch2d/ Danish Centre for Human Genome research - http://proteomics.cancer.dk/ Parasite Proteome http://www.ebi.ac.uk/parasites/proteomes.html Proteoma X - Bancos de dados bibliográficos MEDLINE – acesso via SRS PUBMED – acesso via Entrez XI - Principais Centros de Pesquisa NCBI (http://www.ncbi.nlm.nih.gov) TIGR (http://www.tigr.org) EMBL (http://www.embl.de/) EBI (http://www.ebi.ac.uk) Sanger Institute (http://www.sanger.ac.uk)