BMP 5762 – Bioinformática Aplicada ao Estudo de Doenças
Parasitárias
Prof Dr Arthur Gruber
Instituto de Ciências Biológicas
Metagenômica
Carla Bartels
Francisco M Ulloa Stanojlovic
Luis Fábio Batista
• O termo Metagenômica foi usado primeiramente em 1998 por
Jo Handelsman (Universidade de Wiscosin – EUA)
Dr. Anand Kumar &
Dr. R. A. Siddique
Introdução
METAGENOMA
É o genoma coletivo da microbiota total, encontrada
em um determinado habitat.
METAGENOMA
METAGENÔMICA
análise genômica
de
ÉÉoagenoma
coletivodas
dacomunidades
microbiota total,
microrganismos
determinado
ambiente
por
encontrada de
emum
um
determinado
habitat
técnicas independentes de cultivo.
Dr. Anand Kumar &
Dr. R. A. Siddique
Handelsman, 2004
Metagenômica
Fornece a informação da
capacidade metabólica
e funcional da comunidade
microbiana
Metatranscritoma
Permite a identificação de
genes que estão ou não
sendo expressos
Dr. Anand Kumar &
Dr. R. A. Siddique
Metaproteômica
Permite uma melhor
caracterização funcional
da comunidade
microbiana
Metagenômica aplicada
Dr. Anand Kumar &
Dr. R. A. Siddique
Metagenômica fornece
Informação genética sobre possíveis novos
biocatalizadores ou enzimas
Conexões genômicas entre função e
filogenia de organismos “não cultiváveis”
Perfis evolutivos de função e estrutura de
comunidades
Novas hipóteses de funções microbiais
Thomas et al, 2012
Um nicho ecológico
comunidade
populações
JCSetubal, 2012
JC Setubal
5
DNA
A comunidade
JCSetubal, 2012
JC Setubal
6
DNA
A comunidade
SEQ
JCSetubal, 2012
JC Setubal
BIOINFO
7
Desenho do
Estudo
Amostragem
Fracionamento
da amostra
Extração de
DNA
Sequenciamen
to de DNA
Binning
Montagem
Anotação
Análises
Estatísticas
Armazenamen
to de dados
Compartilham
ento de dados
Thomas et al, 2012
Handelsman, 2004
Amostragem
• Isolar o DNA
• Depende do tipo de
amostras
• Clonar DNA
• Inserir dentro de um
vetor (plasmídio,
cosmídio, BAC)
• Biblioteca
• Screening e
sequenciamento
Daniel, 2005 em Prentice Hall, 2005
Amostragem {desafios}
• Amostras devem representar a população → Quantas amostras
são necessárias? Curvas de raridade para estimar fração de
espécies sequenciadas. (Abundância x Complexidade).
• Presença de populações dominantes afeta análises →
representação maior e maior chance de montar contigs.
• Quanto mais metadados forem coletados mais detalhadas serão
as inferências das condições ambientais. Ex.: dados geográficos,
bioquímicos, data de coleta, métodos de extração do DNA.
Bruno Malveira Peixoto 2011
Sequenciamento – Shotgun
Genoma completo
Hierárquico
Commins, Toft, Fares, 2009
Prakash and Taylor, 2012
Montagem
• Fatores a serem considerados:
• Tamanho das leituras de sequenciamento
usadas para criar a base de dados de
metagenômica
• São necessárias sequências mais longas
para anotação?
• A base de dados está montada para
reduzir os requerimentos de
processamento de dados?
Montagem
Montagem baseada em referência:
MIRA: An Automated
Genome and
Assembler
 Algoritmos rápidos rodam em laptop em 2h;
 Regiões divergentes não são cobertas – inserções, deleções ou
polimorfirmos.
Montagem “de novo”:
Velvet




Meta-IDBA
MetaVelvet
Baseados em gráficos de Bruijn
Requer grandes recursos computacionais
Requer milhares de gigabytes – dias.
Meta-IDBA e MetaVelvet – não clonalidade de populações naturais subgráficos de Bruijn - N50 e tam. contig
Thomas, Gilbert e Meyer, 2011
Montagem {limitações}
• Amostragem incompleta – genomas
parcialmente amostrados
• Formação de quimeras – sequências de espécies
diferentes
• Dificuldade em montar amostras ricas em
espécies (solo).
Bruno Malveira Peixoto 2011
Métodos de Discriminação
Processo de classificação das seqs de DNA em grupos que
possam representar um genoma individual ou genomas de
organismos fortemente relacionados
Vários algoritmos foram desenvolvidos – empregam dois tipos de
informações contidas dentro de uma dada seq DNA
• Classificação composicional
• Similaridade
Pontos importantes a considerar:
• Tipo de dado de entrada disponível
• Existência de training datasets adequados ou genomas de referência
• Algumas ferramentas combinam os dois approachs – PhymmBl,
MetaCluster
Thomas et al, 2012; Liu, 2012
Classificação Composicional
• Genomas têm composição de nucleotídeos conservada e isto será
refletido nos fragmentos de sequência dos genomas
• Conteúdo de GC
• Uso de códons
• Sítios de reconhecimento – 5S ou 16S rRNA
• Bioinfo tools:
• Phylopythia
• S-GSCM
• TACAO
• Não funciona bem com leituras curtas por não conterem
informações suficientes
Thomas et al, 2012; Liu, 2012
Conteúdo GC
• Karlin & Burge, 1995
• A distribuição de nucleotídeos é relativamente constante dentro do
genoma, mas varia entre genomas.
• A razão de possibilidades (odds ratio) de frequência de conteúdo C+G é
essencialmente a mesma na maioria dos organismos para todo o DNA
versus o DNA codificante e também a mesma para as frações de DNA das
diferentes sequências.
• Talvez existam fatores que imponham limites às variações composicionais e
estruturais de um genoma e que o conjunto de valores das odds ratios do
dinucleotídeo seja uma assinatura genômica.
• Diferenças significativas entre procariotos e eucariotos, entre vírus e seus
hospedeiros.
• Pxy = fxy / fx fy
Karlin, 1995; Liu, 2012
Karlin, 1995
Karlin, 1995
Uso de códons
Todos os aminoácidos, exceto Met e Trp, são codificados por 2 a 6
códons
Códons redundantes/sinônimos para qq aa não são usados com
frequências iguais entre os diversos organismos
Cada genoma tem uma estratégia particular de codificação
Percentual de G+C na 3a posição
tRNA
do códon
Codon Usage Database - http://www.kazusa.or.jp/codon/
Karlin, 1998; Ikemura, 1985
Similaridade
• Compara leituras curtas contra sequências
codificadoras de bases de dados públicas de
genes usando BlastX e então designa para o seu
ancestral comum mais tardio (LCA) de um
organismo alvo
• Bioinfo tools
•
•
•
•
•
•
IGG/M
MG-RAST
MEGAN
CARMA
Sort-ITEMS
MetaPhyler
Thomas et al, 2012; Liu, 2012
Classificação {Bioinfo}
• Análise de similaridade: IMG/M, MG-RAST, MEGAN,
CARMA, Sort-ITEMS, MetaPhyler
• Análise composicional: Phylopythia, S-GSOM, PCAHIER,
TACAO
• Similaridade e composicional: PhymmBL e MetaCluster
Necessidade de sequências de referência* (marcador de RNAr) para fechar
o alinhamento para sequenciamentos de leitura curta.
* Base de dados escassas e tendenciosas para apenas três filos
Proteobacteria, Firmicutes e Actinobacteria
Bruno Malveira Peixoto 2011
Thomas, Gilbert e Meyer, 2011
ANÁLISES DOS DADOS
• Dados de metagenômica cada vez mais
abundantes necessitam de banco de dados para
cobrir as informações taxonômicas e funcionais
• Plataforma computacional robusta,
combinado com programas de pesquisa de
similaridade adaptados a esses dados.
Anotação
• Contigs longos ≥ 30.000 pb: RAST ou IMG
• Contigs curtos
 Fase 1: identificação dos genes: FragGeneScan (FGS) 1-2%
erro, MetaGeneMark (MGM), MetaGeneAnotator (MGA),
Metagene e Orphelia
 Fase 2: identificação atribuição de função e
agrupamento taxonômico
Pipelines
Sistema aberto que processa automaticamente as sequências de
metagenomas, faz comparações com bases de dados existentes, computa
reconstruções filogenéticas e classifica funcionalmente potenciais genes.
• Usa FGS, Greengenes , RDP e similaridade por RNAr
• Usa bases de dados funcionais de ontologia GO
(KEGG, eggNOG, COG/KOG, PFAM e TIGRFAM).
Thomas, Gilbert e Meyer, 2011
Pipelines
• Usa FGS, MGA e taxonomia baseada em 16S RNAr
• Usa bases de dados funcionais de ontologia GO (KEGG,
eggNOG, COG e SEED).
Thomas, Gilbert e Meyer, 2011
Pipelines
• Usa FGA e MGA
• Oferece esquema de anotação mais flexível
• Requer o uso do mesmo workflow para análise
Thomas, Gilbert e Meyer, 2011
Pipelines
MEGAN
Aplicações
Aplicações
oIdentificar genes funcionais e/ou novas
vias metabólicas
oEstimar a diversidade microbiana;
permitindo o estudo dos genomas em
uma comunidade como um todo
oCompreender a dinâmica da população de
uma comunidade inteira.
Saúde

Bioenergia
Metabolismo animal
Identificação novos patógenos
Vigilância
Medicina forense
BIOPROSPECÇÃO
FUNCIONAL
SEQUÊNCIAS
BIOPROSPECÇÃO
ESTUDOS ECOLÓGICOS
Primeiros estudos
• Mar de Sargaços
– Comunidade
complexa
– Genes
desconhecidos
– Filotipos novos
– Impossibilidade de
sequenciar todos os
genomas presentes
na amostra
Projetos recentes
• Global Ocean Sampling (GOS)
Fonte: http://camera.calit2.net/about/gos.shtm
• Microorganismos representam mais de 90% da
biomassa do oceano, mediam todos os ciclos
bioquímicos nos oceanos e são responsáveis ​por
98% da produção primária no mar.
Metagenômica é uma abordagem inovadora de
sequenciação para examinar as espécies
microbianas de espaço aberto sem a necessidade
de isolamento e cultura de laboratório de espécies
individuais.
Alves, 2007
Projetos recentes
Projetos recentes
Fluxograma comparativo de projetos genoma tradicionais
e metagenômicos
OBRIGADO!
Download

Metagenômica: conceitos e aplicações