Seqüenciamento e montagem do
genoma humano
e
análise de transcriptoma
Seqüenciamento do Genoma Humano
• Embate: Consórcio público x Celera genomics:
– Consórcio público: mapeamento físico, shotgun
hieráriquico.
– Celera genomics: whole genome shotgun
• Em fevereiro de 2001 foi publicada de forma
independendente versão draft ou preliminar ambos
grupos.
Seqüenciamento do Genoma Humano
• 2003: Consórcio público apresenta versão final
do seqüenciamento do genoma humano
– Comprimento total: 3 bilhões pb
– 99% deste total foi seqüenciado
– Erro de seqüenciamento estimado em 1/10.000 nt
– 99.9% não apresenta diferenças entre indivíduos.
– 25.000 genes
– Genes codificadores de proteínas correspondem a
apenas 2% do genoma
– 50 % do genoma consiste de regiões repetitivas
(D.melanogaster 3%, C.elegans 7%)
Celera Genomics – Iniciativa privada
Whole genome shotgun (WGS)
Genoma
Biblioteca genômica
Plasmídeo (inserto 10 kb)
BAC (inserto 100 kb)
Leituras ou reads
Seqüenciamento das
extremidades
do inserto
Celera Genomics – Iniciativa privada
Whole genome shotgun (WGS) – Montagem
Mate pairs
AGCGTTA
GTTACAAC
AGCGTTACAAC
Contig
Celera Genomics – Iniciativa privada
Whole genome shotgun (WGS) – Montagem
Mate pairs
Contig
Contig
Celera Genomics – Iniciativa privada
Whole genome shotgun (WGS) – Montagem
Mate pairs
Contig
BAC contendo
inserto de
maior
comprimento
Contig
Celera Genomics – Iniciativa privada
Whole genome shotgun (WGS) – Montagem
Mate pairs
Contig
Contig
Mate pairs
Scaffold
Contig
Contig
Consórcio público
Mapeamento físico, shotgun hierárquico
Cromossomo
Biblioteca genômica
em BAC (inserto 100Kb)
Fragmento cromossômico
Biblioteca genômica
em BAC
Consórcio público
Mapeamento físico, shotgun hierárquico
Cromossomo
Biblioteca genômica
em BAC (inserto 100Kb)
Fragmento cromossômico
Biblioteca genômica
em BAC
Consórcio público
Mapeamento físico, shotgun hierárquico Montagem
BAC
Biblioteca
Plasmídeo (inserto 10 kb)
Leituras ou reads
Seqüenciamento das
extremidades
do inserto
Consórcio público
Mapeamento físico, shotgun hierárquico Montagem
Mate pairs
AGCGTTA
GTTACAAC
AGCGTTACAAC
Contig
Consórcio público
Mapeamento físico, shotgun hierárquico
Cromossomo
Biblioteca genômica
em BAC (inserto 100 kb)
Consórcio público
Mapeamento físico, shotgun hierárquico
Cromossomo
Biblioteca genômica
em BAC (inserto 100 kb)
Consórcio público
Mapeamento físico, shotgun hierárquico
Cromossomo
Biblioteca genômica
em BAC (inserto 100 kb)
Avaliação de estratégias de
seqüenciamento
Vantagens WGS
• Estratégia mais simples com menos etapas.
Vantagens Shotgun Hierárquico
• Menos vulnerável que a estratégia WGS em
relação a montagem de regiões repetitivas.
Avaliação de estratégias de
seqüenciamento
Repetições no genoma
Processo de montagem é suscetível a erros quando
empregado em genomas com alto índice de
repeticões.
Genoma
Montagem
Cenário I
X
X
X
WGS: Montagem de 3 bilhões de bases (todo genoma).
Shotgun hierárquico: Montagem de 100 mil bases (inserto de cada BAC).
In silico
Base-calling
• Geração de uma seqüência de nucleotídeos através da
análise dos chromatogramas
PHRED
gaattcggcacgagagttctcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttc
ccgccactttgctcgcctgcgcatcgatgtaacagtccgtggtgacgaagtcataccgttaagtattacgt
ttttgttgtcgttgttgcagcaatagtagaggacgggcgcttttttttttgtcaagagaaagggggagggg
cgtactaccgctttatcgaggttggtattatttcttatatataaagggaaagagcaacgtgaagcgggtaa
gggaagagtgaaagtcgag
Mascaramento
• Eliminar fragmentos de vetor
cross_match
>5’
gctccaccgcggtggcggccgctctagaactagtggatcccccgggctgcaggaattcggcacgagagttc
tcccggagacgctccgtgcgaagattatggaggccgtcaatgtggtcggttcccgccactttgctcgcctg
cgcatcgatgtaacagtccgtggtgacgaagtcataccgttaagtattacgtttttgttgtcgttgttgca
>3’
gcaatagtagaggacgggcgcttttttttttgtcaagagaaagggggaggggcgtactaccgctttatcga
ggttggtattatttcttatatataaagggaaagagcaacgtgaagcgggtaagggaagagtgaaagtcgag
ggggggcccggtacccaattc
Montagem
• Produzir uma seqüência contígua
seqüências menores que possuam
sobreposição
PHRAP, Celera Assembler, Arachne
através
regiões
leituras
contig
de
de
Anotação
• Localizar na seqüencia genômica final:
• Genes que codificam proteínas e RNAs não traduzidos
(tRNA, rRNA, snRNA)
• Determinar, se possível, o produto provável de cada
gene encontrado.
• Associar cada gene à uma categoria funcional ou via
metabólica. Ex.: síntese de lipídeos, maquinaria de
tradução, fosforilação oxidativa, etc.
Anotação
Streptococcus pneumoniae R6
Anotação Automática
contig
Glimmer
RBSfinder
GeneMark
tRNAscan
CDS
Anotação Automática
BLAST contra KEGG
BLAST contra COG
BLAST contra GenBank
Anotação manual
PSORT
Interpro
BLAST
(Basic Local Alignment Search Tool)
Bancos de seqüências
COG
> SEQ1
atgggcacgagagttctcccggagac
gctccgtgcgaagattatggagg
ccgtcaatgtggtcggttcccg
ccactttgctcgcctg
KEGG
BLAST
GenBank
Nucleotídeos
GenBank
Proteínas
BLAST
(Basic Local Alignment Search Tool)
Aldolase Trypanosoma cruzi
.........1.........2.........3.........4.........5.........6.........7.........8.........9.........10
acaagctggagctcccgcggtggtcggcgctctagaactagtggatcccccgggctgcaggaattcggcacgagaacaacttcaaccgcgtctggaaggc
gccacgccgcccgtttgagaaggaacgccttgaccgcgagatgaaactctgcggccagtacggccttcngttgcaacgcgtgagatttggcgccgtgaac
atgacgctctccaagatgcgtcgtaccgcccgtctgttgttgacgttgccggagaaccacccgcgccggcagctggagggttccgccatcatgcgccgct
gccacgactacggcttcctcgagggggggcccggtacccaattcgccctatagtgagtcgtattacannattcactggccgntcgntnntttacaacgtc
gntnngactgggnannaaaccctggnnncgttacccaacttaatcgcctt
BLAST it!
Anotação Automática
BLAST contra KEGG
BLAST contra COG
BLAST contra GenBank
Anotação manual
PSORT
Interpro
Interpro
• Procura na seqüências por domínios, assinaturas ou
motivos conhecidos.
• Se utiliza de outros bancos de domínios para produzir
seu relatório final. PFAM, SMART, PROSITE, etc
Aldolase Trypanosoma cruzi
.........1.........2.........3.........4.........5.........6.........7.........8.........9.........10
acaagctggagctcccgcggtggtcggcgctctagaactagtggatcccccgggctgcaggaattcggcacgagaacaacttcaaccgcgtctggaaggc
gccacgccgcccgtttgagaaggaacgccttgaccgcgagatgaaactctgcggccagtacggccttcngttgcaacgcgtgagatttggcgccgtgaac
atgacgctctccaagatgcgtcgtaccgcccgtctgttgttgacgttgccggagaaccacccgcgccggcagctggagggttccgccatcatgcgccgct
gccacgactacggcttcctcgagggggggcccggtacccaattcgccctatagtgagtcgtattacannattcactggccgntcgntnntttacaacgtc
gntnngactgggnannaaaccctggnnncgttacccaacttaatcgcctt
Interpro
Anotação Automática
BLAST contra KEGG
BLAST contra COG
BLAST contra GenBank
Anotação manual
PSORT
Interpro
Anotação
Streptococcus pneumoniae R6
Sabiá
System for Automated Bacterial Integrated Annotation
• LNCC – Coordenação do Projeto Genoma Brasileiro
• Gerenciamento de todos softwares de Base-calling,
Mascaramento, Montagem e Anotação automática.
• Disponibilização da Anotação automática dos resultados via
Web possibilitando a realização da Anotação manual por
pesquisadores distribuídos geograficamente.
Exemplo Sabiá
Mapa Antes
Mapa Depois
Análise do transcriptoma
Projetos que precedem seqüenciamento do genoma
nuclear:
• Identificação de novos genes.
• Estimativa do perfil de expressão da linhagem celular,
estágio de desenvolvimento ou tecido avaliado
Transcrição e Transcriptoma
EST
RNA total
5’
CAP
cístron
Poli A
3’
mRNA
Transcrição e Transcriptoma
EST
Poli A
Poli A
cDNA
Poli A
Poli A
Vetor + cDNA
Transcrição e Transcriptoma
EST
~ 800 pb
Vetor
cDNA completo
Sequenciamento
extremidades
5’
3’
Vetor
5’
3’
Poli A
Poli A
Vetor
Vetor
Transcrição e Transcriptoma
EST
X
Vetor
EST
5’
3’
Poli A
5’
3’
Poli A
5’
3’
X
X
Vetor
Remoção
Sequencia de vetor
(cross_match, Lucy)
Remoção
Poli A (Script Perl)
Análise do transcriptoma
EST – Anotação
5’
3’
Bancos de
seqüências
>clone_23 5’
ggcacgagagttctcccggagac
gctccgtgcgaagattatggagg
ccgtcaatgtggtcggttcccg
ccactttgctcgcctg
GenBank
Nucleotídeos
BLASTX
E
BLASTN
GenBank
Proteínas
clone_23 5’
= amastina
Análise do transcriptoma
EST – Anotação
>clone_23 5’
ggcacgagagttctcccggagac
gctccgtgcgaagattatggagg
ccgtcaatgtggtcggttcccg
ccactttgctcgcctg
= amastina
Agrupamento de
seqüência similares
ou
agrupamento via anotação
Número de ESTs
Anotação
4
amastina
6
TcMUC II
Transcrição e Transcriptoma
Transcriptoma de amastigotas
Transcrição e Transcriptoma
Transcriptoma de amastigotas
Download

contig