Bancos de Dados
Natália F. Martins
BD de Seqüências
•
•
Há uma quantidade gigantesca de informação sobre biomoléculas em BD
públicos
Mais de 348 BD
– BD de seqüências de nucleotídeos
• EMBL (http://www.ebi.ac.uk/embl)
• GenBank (http://www.ncbi.nlm.nih.gov/GenBank)
• DDBJ (http://www.ddbj.nig.ac.jp)
• UniGene (http://www.ncbi.nlm.nih.gov/UniGene)
– BD de seqüências de proteínas
• SWISS-PROT, TrEMBL (http://www.expansy.ch/sprot)
• PIR (http://pir.georgetown.edu)
– BD de motivos
• Pfam (http://www.sanger.ac.uk/Software/Pfam)
• PROSITE (http://www.expansy.ch/prosite)
– BD de estruturas macromoleculares 3D
• PDB (http://www.rcsb.org/pdb)
Usos de BD de Seqüências
• O que se pode descobrir sobre um gene por meio de uma
busca a um BD?
– Informação evolutiva: genes homólogos, freqüências dos alelos, ...
– Informação genômica: localização no cromossomo, intros, UTRs,
regiões reguladoras, ...
– Informação estrutural: estruturas da proteína correspondente, tipos
de folds, domínios estruturais, ...
– Informação de expressão: expressão específica a um dado tecido,
fenótipos, doenças, ...
– Informação funcional: função molecular/enzimática, papel em
diferentes rotas, papel em doenças, ...
Busca de Informação
• Busca de informação sobre genes e produtos gênicos
– Gene e produtos gênicos são geralmente organizados por seqüência
• Seqüências genômicas codificam todas características de um
organismo
• Produtos gênicos são descritos unicamente por sua seqüência
• Seqüências similares entre biomoléculas indica tanto uma
função similar quanto um relacionamento evolutivo
– Seqüências de macromoléculas proporciona chaves biologicamente
significativas para busca em BD
Busca em BD de Seqüências
• Comece com uma seqüência, encontre informação sobre
ela
• Muitos tipos de seqüências de entrada
– Pode ser uma seqüência de aminoácido ou de
nucleotídeo
– Genômica, cDNA/mRNA, proteína
– Completa ou fragmentada
• Matches exatos são raros
– Em geral, o objetivo é recuperar um conjunto de
seqüências similares
Busca em BD de Seqüências
• O que queremos saber sobre a seqüência?
– Ela é similar ao algum gene conhecido? Quão próximo
é o melhor match? Significância?
– O que sabemos sobre este gene?
• Genômica (localização no cromossomo, regiões reguladoras,
...)
• Estrutural (estrutura conhecida? ...)
• Funcional (molecular, celular e doença)
– Informação evolutiva
• Este gene é encontrado em outros organismos?
• Qual é sua árvore taxonômica?
NCBI e Entrez
• A mais usada interface para a recuperação de informação de BD
biológicos é o sistema Entrez do NCBI
(http://www.ncbi.nlm.nih.gov/Entrez)
– NCBI (National Center for Biotechnology Information)
– O sistema Entrez tira vantagem do fato que há relacionamentos lógicos
pré-existentes entre as entradas indíviduas encontradas em diversos BD
públicos
• Por um exemplo, um artigo no PuBMed pode descrever o
sequenciamento de um gene cuja seqüência aparece no GenBank
• A seqüência de nucleotídeos, por sua vez, pode codificar o produto
de uma proteína cuja seqüência está armazenada em um BD de
proteínas
• A estrutura 3D desta proteína pode ser conhecida - as coordenadas
da estrutura podem aparecer em um BD de estruturas
• Finalmente, o gene pode ter sido mapeado para uma região
específica do cromossomo - BD de mapeamento
– A existência dessas conexões naturais, levou ao desenvolvimento de um
método por meio do qual toda a informação poderia ser encontrada sem
ter que visitar sequencialmente BD distintos
O Sistema Entrez (1/2)
• Para ser claro, Entrez não é um BD
– É a interface por meio da qual todos os seus BDs
componentes podem ser acessados
– O espaço de informação do Entrez inclui
• Registros do PubMed
• Dados sobre seqüências de nucleotídeos e proteínas
• Informação sobre estruturas 3D
• Informação de mapeamento
– A vantagem do Entrez está no fato que toda esta
informação pode ser acessada por meio de apenas uma
query (consulta)
O Sistema Entrez (2/2)
BLAST: Busca com uma Seqüência
• O objetivo é encontrar outras seqüências que são mais
similares a query (consulta) do que seria esperado por ter
acontecido ao acaso
– Homologia
• Pode começar com seqüências de nucleotídeos ou
aminoácidos
– Pode fazer a busca por nucleotídeos/aminoácidos
BLAST
Mais que NCBI
• Links para anotações funcionais fora do NCBI
– Gene Ontology - nomes padrões para:
• Funções moleculares
• Localização celular
• Processos
– Links para BD de enzimas
• Funções da enzimas
– Links para o BD KEGG (vias)
Genes
Encontrar genes
Procariotos X Eucariotos
Programas Ab initio
ORFs, consensos, promotores, %GC, etc.
Programas de redes neurais
Programas baseados em transcriptoma
5-15% dos genes não são reconhecidos
só 30-40% com estrutura exônica correta
Proteínas
Descobrir a função dos genes
Identificar grupos isofuncionais (ortologia)
Pesquisa em bancos de dados de domínios
pFAM, ProDom, Prints, Smart, Blocks
INTERPRO
Pesquisa em bancos de dados curados
Swissprot, TrEMBL
Processos
Como os genes se relacionam
Ciclo celular, metabolismo, embriogênese
GeneOntology
Função molecular
Processos celulares
Componente celular
Cluster of Ortologous Groups - COGs
Divisão em categorias de processos cel.
Kyoto Encyclopedia of Genes and Genomes
KEGG
Referências
• A. D. Baxevanis e B. F. Francis Ouellete (eds.).
Bioinformatics: a practical guide to the analysis of genes e
proteins. John Wiley & Sons. 2001.
• The Molecular Biology Database Collection: 2003 update - Nucleic Acids Research 31(1):1-12
Download

Genes