Estratégias de
sequenciamento : genoma e
transcriptoma
[email protected]
Marcelo Falsarella Carazzolle
Laboratório de Genômica e Proteômica
Unicamp
Resumo
- Introdução à genômica
- Estratégias de sequenciamento
- DNA
- ESTs
- Tecnologias de sequenciamento
- Sanger sequencing
- Pirosequenciamento
Introdução à genômica
Genômica
Ciência que estuda o genoma, ou o conjunto do
material genético de um organismo.
Ex.: Genoma da Xylella fastidiosa é composto
pelo DNA cromossomal mais o DNA
plasmidial.
Como ???
Através de seqüenciamento de DNA :
Determinação da sua seqüência nucleotídica
(ACGTs).
Duas tecnologias de sequenciamento :
Sanger sequencing (Megabace, 377, ...)
Pirosequenciamento (454)
Projetos genoma e transcriptoma
Seqüenciamento de material genético, DNA e
RNA, de organismo e anotação de estruturas
dos genes encontrados
Ex.: Seqüenciamento do genoma humano; do
cromossomo IV de S. cerevisiae; de ESTs de
diferentes espécies de Eucalyptus.
Tipos de projeto
DNA – seqüenciamento de estruturas do genoma ou de trechos
destas. Ex.: Genoma humano
ESTs – sequenciamento de cDNA, feitos à partir de bibliotecas de
mRNA. Ex.: ESTs de cana-de-açúcar
SAGE – sequenciamento de fragmentos em torno de 20 pb do
cDNA
Diferenças entre as metodologias
-Sequenciamento de DNA, feito de forma aleatória, fornece :
- Informações sobre regiões codantes (genes) e promotores.
- Mas gera sequências em regiões inter-gênicas (a princípio sem
nenhuma função)
- Sequenciamento de mRNA fornece :
- Informação direta sobre os genes e também sobre a expressão
gênica.
- Mas genes pouco expressos são mais raros de serem sequenciados
por essa técnica
- SAGE fornece informação sobre a expressão gênica de forma mais
eficiente que ESTs, mas é útil apenas quando o genoma completo do
organismo for conhecido
- A situação ideal para um projeto genoma é sequenciar ambos DNA e
cDNA
Estratégias de sequenciamento
- DNA
– Shotgun de genoma inteiro
– Shotgun em pedaços do genoma clonados em BACs
– Primer walking
- ESTs
– RNA oriundos de diferentes tecidos ou condições
– Biblioteca subtrativa
Shotgun do genoma inteiro
DNA genômico
Quebrar em pedaços
aleatórios ~2000pb
(shotgun)
reads
clonar em vetor
sequenciamento
Reconstrução do DNA original a partir do fragmentos
(clusterização)
reads
Sequência consensu
(DNA original)
A reconstrução é feita a partir de sobreposição dos fragmentos
Shotgun de pedaços do genoma
Quebrar em pedaços
aleatoriamente desde
50Kpb até 300Kpb
DNA genômico
Clonar em BAC’s e
sequenciar apenas as
pontas de cada fragmento
~800 bp
~800 bp
Quebrar em pedaços de
2000pb
clonar em vetor e
sequenciar os fragmentos
Primer Walking
Vector
Primer
Clone to sequence
Sequence
New
Primer
Sequence
Repeat
Sempre desenhar o primer de forma que a sequência amplificada tenha
sobreposição com a anterior (tipicamente 100 pb de sobreposição)
Expressed sequence tags (ESTs)
Extrair RNA de diferentes
tecidos/condições
Síntese de cDNA
5’ EST
3’ EST
clonar em vetor
sequenciamento
Controle
Tratado
Extração de RNA
e síntese de cDNA
sequenciamento
sequenciamento
Construção da biblioteca
e sequenciamento
Sequência consensu
clusterização
Expressão gênica : tratado = 2x
controle
Artigo : audic e claverie
Biblioteca subtrativa
RNA Pools
Control
Treated
Driver
1-cDNA synthesis
Tester
2-cDNA digestion with 4
cutter enzyme
Adaptors 3-Adaptor ligation to
tester sample
Driver
No amplificated
Eliminated
Driver and
Tester
Linear
Amplification
Eliminated
Tester
Exponential
Amplification
Enriched
Tester
4-Tester/ driver
hybridization
5-PCR with primers
that anneal
specifically to
adaptor previously
ligated to tester
sample
6-Enrichment of
cDNA library in genes
preferentially
expressed in tester
sample
Tecnologias de sequenciamento
- Sanger sequencing
- PNAS 74 (1977), n. 12, 5463-5467
- Sequenciador MegaBACE (1Mpb/24 horas)
- Pirosequenciamento
- Science 281 (1998), n. 5375, 363-365
- Nature 437 (2005), 362-7
- Sequenciador 454 (150Mpb/24 horas)
Sanger sequencing
denaturação
anelamento dos primers
Exemplo de gel utilizado nos seqüenciadores de gel (ex.: 377). A diferença de
tamanho permite a separação dos grupos de fragmentos, e esta
“distribuição normal” da passagem dos fragmentos é representada pelo
eletroferograma (ou cromatograma) de cada seqüência (read).
Filme sequenciamento
O programa PHRED lê o chromatograma identificando e dando uma
nota para cada base que forma a sequência :
0 0 5 6 7 10 10 9 12 15 20 20 30 30 35 40 41 45 50 56 56 50 40 ...
Genome Research 8 (3) (1998), 175-185
background
- A identificação dos picos é feita através de uma transformada de
fourier do sinal
- A nota é ligada com a resolução entre os picos vizinhos e a altura
do background
Analisando o cromatograma
Região de qualidade alta
•
•
•
Picos bem definidos e grandes.
Linha de base boa.
Distância entre picos anterior e posterior constante.
Região de qualidade média – poucas ambigüidades
•
•
•
Picos razoavelmente bem definidos e de tamanho médio.
Linha de base boa a razoável.
Distância entre picos anterior e posterior razoável.
Região de qualidade baixa – baixa confiabilidade
•
•
•
Picos mal definidos e de tamanho pequeno.
Linha de base confusa.
Distância entre picos anterior e posterior inconstante.
- Sequenciamento produz seqüências da ordem de 500 pb
Onde q é a nota phred e P é a probabilidade encontrar uma base
errada :
- Nota phred = 20 => 1 base errada a cada 100 (99%)
- Nota phred = 30 => 1 base errada a cada 1000 (99.9%)
Pirosequenciamento
Fita simples
Câmera de CCD
Reação de
degradação
Filme sequenciamento
Science 281 (1998), n. 5375, 363-365
Shotgun do genoma inteiro
DNA genômico
Quebrar em pedaços
aleatórios ~2000pb
(shotgun)
Ligação do
adaptador e
separação em fita
simples
- O adaptador permite que o DNA se ligue em grânulos
minúsculos (diâmetro de 28 mm). Apenas um DNA é ligado em
cada grânulo
- Os grânulos são envolvidos em gotas de óleo que contêm
todos os reagentes necessários para amplificar o DNA
- Cada gota contendo o grânulo é mantida isolada para evitar
contaminação e consegue produzir 10 milhões de cópias numa
reação de pirosequenciamento
- Um pmol de DNA numa reação de pirosequenciamento produz
1011 moléculas de ATP gerando mais de 109 fótons, num
comprimento de onda de 560 nm, e num período de 3-4
segundos. Facilmente detectado por uma câmera de CCD
Nature 437 (2005), 326-327
O sequenciador 454
Câmera de
CCD
Câmara de fluxo
contendo as amostras
e as fibras ópticas
(1,6 milhões/slide)
Bombeamento
de fluídos
Computador
Nature 437 (2005), 376-380
Pirograma
Linearidade é mantida até homopolímeros de 8 nt
São obtidas seqüências de até 100-120 b
Sanger vs Pirosequenciamento
SANGER
• Depende de clonagem em
bactéria (2 semanas de
trabalho)
Pirosequenciamento
• Não há clonagem
• 1 milhão de pb em 24 horas
• 25 milhões de bp em 4 horas
(100x mais rápido)
• Reads de ~700 bp
• Reads de ~100 bp
• Clones de fita dupla
permitem seqüenciamento
em ambas direções (facilita
orientação e montagem)
• Fragmentos fita simples não
permitem seqüenciamento em
ambas direções
• 6 meses de sequenciamento,
24 horas por dia, para
sequenciar o genoma de um
fungo
• 24 horas para sequenciar o
genoma de um fungo
Conclusão : a união faz a força
PNAS 103 (2006), 11240
END
Path that was used for genome sequencing
YACs
BACs or
Cosmids
m13, plasmid
map (MBP)
map (200kBP)
sequence (kbp)
Download

to get the file