Bioinformática
CURSOS EM BIOLOGIA, BIOQUÍMICA,
BIOTECNOLOGIA, CIÊNCIAS BIOMÉDICAS E
ENGENHARIA BIOLÓGICA
João Varela
[email protected]
Aula T7
Temas da Aula T7
  Taxonomia (Annotathon)
  Ontologia Génica (GO)
  Conclusões (Annotathon)
Taxonomia
  Uma das funções das anotações (meta)genómicas é a
definição do táxon da fonte de material genético
Tipos de Classificações
  Classificação hierárquica (de Lineu)
  Classificação cladística
Classificação Hierárquica de Sistemas Biológicos
Domínio
Superreino, Reino, Subreino
Superfilo, Filo (≈ divisão), Subfilo
(Superclasse,) Classe, Subclasse
Superordem, Ordem, Subordem (, Infraordem)
(Superfamília, Epifamília,) Família, Subfamília (, Tribo,
Subtribo, Infratribo)
  Género, Subgénero
  Espécie, Subespécie
  Estirpe (≈ variedade)
 
 
 
 
 
 
Clades
Clades – ramos monofiléticos de uma árvore filogenética
Monofilia, Parafilia e Polifilia
  Grupo monofilético – grupo taxonómico que
provém de um ancestral comum cujos descendentes se
encontram incluídos neste grupo (≈ grupo holofilético)
  Grupo parafilético – grupo taxonómico que provém
de um ascendente comum cujos descendentes se
encontram parcialmente incluídos neste grupo
  Grupo polifilético – grupo taxonómico que provém
de mais que um ascendente
Monofilia, Parafilia e Polifilia
Clades
NCBI Taxonomy Database
  Cada táxon tem um nº de identificação - NCBI
numerical identifier ou Taxonomy ID
Taxonomia: Annotathon
  http://www.ncbi.nlm.nih.gov/Taxonomy/
  Pesquisa por táxon ou identificador numérico
  Colocar o identificador numérico no campo Taxonomy
para o táxon menos abrangente ao qual a sequência
deverá pertencer com uma elevada probabilidade (analisar
valores E do BLAST e o nó imediatamente superior do ramo à qual
pertence a sequência em estudo das árvores filogenéticas obtidas)
  Raramente se consegue identificar até à espécie a fonte
biológica de sequências metagenómicas
Temas da Aula T7
  Taxonomia (Annotathon)
  Ontologia Génica (GO)
  Conclusões (Annotathon)
Ontologia Génica (GO)
Iniciativa bioinformática (geneontology.org) para definir termos GO em
três domínios diferentes:
  Componente celular (biologia celular)
  Função molecular / bioquímica (biologia molecular)
  Processo Biológico (biologia de sistemas)
Componente Celular
  Localização do produto génico dentro e / ou fora da
célula
  A localização é uma pista onde a proteína / RNA
actua na célula, que por sua vez é uma pista para a
sua função
Bioinformática da previsão do tráfico intracelular
Tráfego Biossintético
Tráfego Retentivo
Tráfego Endocítico
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2303
Vias de tráfego biossintético, endocítico e retentivo
Retículo Endoplasmático Rugoso
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2205
A via biossintético-secretora inicia-se no RER
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2215
Existência de péptido sinal numa sequência é indicadora de que a
proteína é secretada ou está no sistema endomembranar
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2227
Existência de péptido sinal numa sequência é indicadora de que a
proteína é secretada ou está no sistema endomembranar
Tráfego Biossintético-Secretor
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2303
Existência de um sinal de retenção ou domínios transmembranares
numa sequência é indicadora de que a proteína é membranar
Tráfico intracelular para mitocôndrias e cloroplastos
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?highlight=Transport,Proteins,Mitochondria,Chloroplasts&rid=mboc4.section.2176
Proteínas com assinaturas de importação para
mitocôndrias deverão ter localização mitocondrial
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2183
Proteínas com assinaturas de importação para cloroplastos
deverão ter localização plastidial
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2192
Ferramentas bioinformáticas para prever a
localização intracelular de proteínas
 PSORT
http://psort.nibb.ac.jp/
 SignalP Web Server
http://www.cbs.dtu.dk/services/SignalP/
 TargetDB
http://targetdb.pdb.org/
Ontologia Génica
Iniciativa bioinformática (geneontology.org) para definir termos em três
domínios diferentes:
  Componente celular (biologia celular)
  Função molecular / bioquímica (biologia molecular)
  Processo Biológico (biologia de sistemas)
Biologia molecular de um gene
  Função bioquímica / molecular de um gene e
respectivo produto (RNA e / ou proteína) (por ex.,
catálise enzimática)
  Ligação a outras moléculas
Exs: lactase, acetil-CoA carboxilase, ligação a DNA
Ontologia Génica
Iniciativa bioinformática (geneontology.org) para definir termos em três
domínios diferentes:
  Componente celular (biologia celular)
  Função molecular / bioquímica (biologia molecular)
  Processo Biológico (biologia de sistemas)
Processos biológicos
Conjunto de eventos moleculares com princípio e fim bem definidos:
  Metabolismo das purinas
  Metabolismo de glícidos
  Locomoção
  Fototactismo / Fototaxia
  Fotossíntese
  Respiração
  Etc.
Exemplo de termo GO
  Gene product: Actin, alpha cardiac muscle 1,
UniProtKB:P68032
  GO term: heart contraction ; GO:0060047
Utilização de termos GO no Annotathon
  Escolher a função molecular e / ou o processo
biológico em que a proteína / RNA participa
  Para realizar esta anotação verificar quais os termos
obtidos no BLAST e InterPro
  Caso não existem termos GO nas anotações do
GenBank, analisar os valores E de sequências
homólogas ou domínios funcionais homólogos e
atribuir termos GO à sequência e explicar a vossa
decisão em RESULT ANALYSIS
Annotathon: Análise de Resultados
Critérios de Avaliação
  ORFs
  Massa Molecular
  Domínios
  BLAST e Lineage Report
  MSA
  Filogenia e Taxonomia
  Ontologia
  Conclusões
Critérios de Avaliação: ORFs e Análise de Resultados respectiva
 
 
 
 
 
 
 
 
 
 
Codão START existe? Está correcto?
Codão STOP existe? Está correcto?
ORF contém codões STOP internos?
Discute qual o quadro de leitura e cadeia em que ela se
encontra?
Existem ORFs maiores? Se sim, discute porque não escolheu
essa para ser analisada?
Existem ORFs adicionais com significado biológico?
Determinou se a sequência é codificante ou não?
Disse que era não codificante quando o tamanho da sequência
não aponta para isso?
Discute quantas ORFs encontrou nas duas cadeias?
O protocolo está correcto e completo?
Annotathon: Análise de Resultados
Critérios de Avaliação
  ORFs
  Massa Molecular
  Domínios
  BLAST e Lineage Report
  MSA
  Filogenia e Taxonomia
  Ontologia
  Conclusões
Critérios de Avaliação: Massa Molecular
  Não calculou a massa molecular da proteína quando
a proteína está claramente completa?
  Calculou a massa molecular da proteína quando a
proteína está claramente incompleta?
Annotathon: Análise de Resultados
Critérios de Avaliação
  ORFs
  Massa Molecular
  Domínios
  BLAST e Lineage Report
  MSA
  Filogenia e Taxonomia
  Ontologia
  Conclusões
Domínios Proteicos e Análise de Resultados
  Discute a lista de domínios presente em RAW results
e respectivas funções?
  Discute os valores E respectivos?
  Discute quais os domínios correctos e os domínios
redundantes (sobrepostos)?
  Discute a função da proteína à luz dos domínios
encontrados?
  Os domínios estão correctamente apresentados no
esquema gráfico?
  Colocou os resultados todos em RAW RESULTS?
Annotathon: Análise de Resultados
Critérios de Avaliação
  ORFs
  Massa Molecular
  Domínios
  BLAST e Lineage Report
  MSA
  Filogenia e Taxonomia
  Ontologia
  Conclusões
BLAST: Análise de Resultados
  A lista de resultados (hits) está completa?
  A lista dos 12 melhores alinhamentos está completa? Tem
 
 
 
 
 
 
 
 
 
sequências a mais?
Analisa os valores E, o nº de hits e a localização das homologias nos
alinhamentos?
Analisa a função possível da proteína?
Analisa se a proteína tem proteínas homólogas conhecidas?
O protocolo está correcto?
Desistiu logo com resultados do BLASTp sem ter tentado análises
alternativas (por ex., BLASTx)?
Discute os resultados do Lineage Report?
Discute a escolha dos ingroups e outgroups?
Discute a escolha das sequências para fazer os alinhamentos
múltiplos?
Escolheu o nº máximo de hits correcto?
Annotathon: Análise de Resultados
Critérios de Avaliação
  ORFs
  Massa Molecular
  Domínios
  BLAST e Lineage Report
  MSA
  Filogenia e Taxonomia
  Ontologia
  Conclusões
MSA: Análise de Resultados
  Determinou o início da ORF olhando para os resultados
do MSA?
  Discutiu se as sequências no MSA têm o mesmo
tamanho?
  Os resultados do MSA batem certo com os resultados dos
domínios? Isso é discutido?
  O alinhamento MSA está correcto e bem apresentado
(contém nomes fáceis de identificar, por ex.)?
  O alinhamento MSA contém sequências repetidas?
  Adicionou a ORF desconhecida ao MSA? (erro
frequente!)
Annotathon: Análise de Resultados
Critérios de Avaliação
  ORFs
  Massa Molecular
  Domínios
  BLAST e Lineage Report
  MSA
  Filogenia e Taxonomia
  Ontologia
  Conclusões
Filogenia e Taxonomia: Análise de Resultados
  O protocolo está correcto?
  Apresentação da árvore está correcta? Colocaram os
nomes dos taxa (género, classe, por ex.) nas folhas
da árvore?
  Discutiu a topologia das árvores?
  Realizou a construção de árvores com os 2 métodos
(NJ e ML)?
  Discutiu se as árvores são concordantes?
  Seleccionou qual o grupo taxonómico mais provável?
Annotathon: Análise de Resultados
Critérios de Avaliação
  ORFs
  Massa Molecular
  Domínios
  BLAST e Lineage Report
  MSA
  Filogenia e Taxonomia
  Ontologia
  Conclusões
Ontologia Génica
  Escolheu o processo biológico correcto?
  Escolheu a função molecular correcta?
Annotathon: Análise de Resultados
Critérios de Avaliação
  ORFs
  Massa Molecular
  Domínios
  BLAST e Lineage Report
  MSA
  Filogenia e Taxonomia
  Ontologia
  Conclusões
Conclusões
  Discutir argumentos a favor / contra a hipótese da
sequência ser codificante ou não (usar números)
  Discutir a sua função bioquímica e a sua participação
num dado processo biológico
  Discutir a classificação taxonómica
O que se deve EVITAR nas Conclusões
  A descrição em que botões se clicou
  A descrição do método utilizado
  Escrever conclusões mal estruturadas (escrita telegráfica)
  Pôr “palha” na esperança de obter melhor nota
  Fazer plágio, copiando e colando descrições de funções
de páginas da Internet (implica anulação da anotação!)
  Não relacionar conclusões dos vários campos da
anotação (por ex. Não relacionar os resultados do MSA
com os resultados do InterPro)
  Pôr hipóteses sem as fundamentar (referências
bibliográficas e / ou números)
Download

Ontologia génica e taxonomia de fontes de sequências