Bancos de Dados Natália F. Martins BD de Seqüências • • Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD – BD de seqüências de nucleotídeos • EMBL (http://www.ebi.ac.uk/embl) • GenBank (http://www.ncbi.nlm.nih.gov/GenBank) • DDBJ (http://www.ddbj.nig.ac.jp) • UniGene (http://www.ncbi.nlm.nih.gov/UniGene) – BD de seqüências de proteínas • SWISS-PROT, TrEMBL (http://www.expansy.ch/sprot) • PIR (http://pir.georgetown.edu) – BD de motivos • Pfam (http://www.sanger.ac.uk/Software/Pfam) • PROSITE (http://www.expansy.ch/prosite) – BD de estruturas macromoleculares 3D • PDB (http://www.rcsb.org/pdb) Usos de BD de Seqüências • O que se pode descobrir sobre um gene por meio de uma busca a um BD? – Informação evolutiva: genes homólogos, freqüências dos alelos, ... – Informação genômica: localização no cromossomo, intros, UTRs, regiões reguladoras, ... – Informação estrutural: estruturas da proteína correspondente, tipos de folds, domínios estruturais, ... – Informação de expressão: expressão específica a um dado tecido, fenótipos, doenças, ... – Informação funcional: função molecular/enzimática, papel em diferentes rotas, papel em doenças, ... Busca de Informação • Busca de informação sobre genes e produtos gênicos – Gene e produtos gênicos são geralmente organizados por seqüência • Seqüências genômicas codificam todas características de um organismo • Produtos gênicos são descritos unicamente por sua seqüência • Seqüências similares entre biomoléculas indica tanto uma função similar quanto um relacionamento evolutivo – Seqüências de macromoléculas proporciona chaves biologicamente significativas para busca em BD Busca em BD de Seqüências • Comece com uma seqüência, encontre informação sobre ela • Muitos tipos de seqüências de entrada – Pode ser uma seqüência de aminoácido ou de nucleotídeo – Genômica, cDNA/mRNA, proteína – Completa ou fragmentada • Matches exatos são raros – Em geral, o objetivo é recuperar um conjunto de seqüências similares Busca em BD de Seqüências • O que queremos saber sobre a seqüência? – Ela é similar ao algum gene conhecido? Quão próximo é o melhor match? Significância? – O que sabemos sobre este gene? • Genômica (localização no cromossomo, regiões reguladoras, ...) • Estrutural (estrutura conhecida? ...) • Funcional (molecular, celular e doença) – Informação evolutiva • Este gene é encontrado em outros organismos? • Qual é sua árvore taxonômica? NCBI e Entrez • A mais usada interface para a recuperação de informação de BD biológicos é o sistema Entrez do NCBI (http://www.ncbi.nlm.nih.gov/Entrez) – NCBI (National Center for Biotechnology Information) – O sistema Entrez tira vantagem do fato que há relacionamentos lógicos pré-existentes entre as entradas indíviduas encontradas em diversos BD públicos • Por um exemplo, um artigo no PuBMed pode descrever o sequenciamento de um gene cuja seqüência aparece no GenBank • A seqüência de nucleotídeos, por sua vez, pode codificar o produto de uma proteína cuja seqüência está armazenada em um BD de proteínas • A estrutura 3D desta proteína pode ser conhecida - as coordenadas da estrutura podem aparecer em um BD de estruturas • Finalmente, o gene pode ter sido mapeado para uma região específica do cromossomo - BD de mapeamento – A existência dessas conexões naturais, levou ao desenvolvimento de um método por meio do qual toda a informação poderia ser encontrada sem ter que visitar sequencialmente BD distintos O Sistema Entrez (1/2) • Para ser claro, Entrez não é um BD – É a interface por meio da qual todos os seus BDs componentes podem ser acessados – O espaço de informação do Entrez inclui • Registros do PubMed • Dados sobre seqüências de nucleotídeos e proteínas • Informação sobre estruturas 3D • Informação de mapeamento – A vantagem do Entrez está no fato que toda esta informação pode ser acessada por meio de apenas uma query (consulta) O Sistema Entrez (2/2) BLAST: Busca com uma Seqüência • O objetivo é encontrar outras seqüências que são mais similares a query (consulta) do que seria esperado por ter acontecido ao acaso – Homologia • Pode começar com seqüências de nucleotídeos ou aminoácidos – Pode fazer a busca por nucleotídeos/aminoácidos BLAST Mais que NCBI • Links para anotações funcionais fora do NCBI – Gene Ontology - nomes padrões para: • Funções moleculares • Localização celular • Processos – Links para BD de enzimas • Funções da enzimas – Links para o BD KEGG (vias) Genes Encontrar genes Procariotos X Eucariotos Programas Ab initio ORFs, consensos, promotores, %GC, etc. Programas de redes neurais Programas baseados em transcriptoma 5-15% dos genes não são reconhecidos só 30-40% com estrutura exônica correta Proteínas Descobrir a função dos genes Identificar grupos isofuncionais (ortologia) Pesquisa em bancos de dados de domínios pFAM, ProDom, Prints, Smart, Blocks INTERPRO Pesquisa em bancos de dados curados Swissprot, TrEMBL Processos Como os genes se relacionam Ciclo celular, metabolismo, embriogênese GeneOntology Função molecular Processos celulares Componente celular Cluster of Ortologous Groups - COGs Divisão em categorias de processos cel. Kyoto Encyclopedia of Genes and Genomes KEGG Referências • A. D. Baxevanis e B. F. Francis Ouellete (eds.). Bioinformatics: a practical guide to the analysis of genes e proteins. John Wiley & Sons. 2001. • The Molecular Biology Database Collection: 2003 update - Nucleic Acids Research 31(1):1-12