Estratégias de sequenciamento : genoma e transcriptoma [email protected] Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp Resumo - Introdução à genômica - Estratégias de sequenciamento - DNA - ESTs - Tecnologias de sequenciamento - Sanger sequencing - Pirosequenciamento Introdução à genômica Genômica Ciência que estuda o genoma, ou o conjunto do material genético de um organismo. Ex.: Genoma da Xylella fastidiosa é composto pelo DNA cromossomal mais o DNA plasmidial. Como ??? Através de seqüenciamento de DNA : Determinação da sua seqüência nucleotídica (ACGTs). Duas tecnologias de sequenciamento : Sanger sequencing (Megabace, 377, ...) Pirosequenciamento (454) Projetos genoma e transcriptoma Seqüenciamento de material genético, DNA e RNA, de organismo e anotação de estruturas dos genes encontrados Ex.: Seqüenciamento do genoma humano; do cromossomo IV de S. cerevisiae; de ESTs de diferentes espécies de Eucalyptus. Tipos de projeto DNA – seqüenciamento de estruturas do genoma ou de trechos destas. Ex.: Genoma humano ESTs – sequenciamento de cDNA, feitos à partir de bibliotecas de mRNA. Ex.: ESTs de cana-de-açúcar SAGE – sequenciamento de fragmentos em torno de 20 pb do cDNA Diferenças entre as metodologias -Sequenciamento de DNA, feito de forma aleatória, fornece : - Informações sobre regiões codantes (genes) e promotores. - Mas gera sequências em regiões inter-gênicas (a princípio sem nenhuma função) - Sequenciamento de mRNA fornece : - Informação direta sobre os genes e também sobre a expressão gênica. - Mas genes pouco expressos são mais raros de serem sequenciados por essa técnica - SAGE fornece informação sobre a expressão gênica de forma mais eficiente que ESTs, mas é útil apenas quando o genoma completo do organismo for conhecido - A situação ideal para um projeto genoma é sequenciar ambos DNA e cDNA Estratégias de sequenciamento - DNA – Shotgun de genoma inteiro – Shotgun em pedaços do genoma clonados em BACs – Primer walking - ESTs – RNA oriundos de diferentes tecidos ou condições – Biblioteca subtrativa Shotgun do genoma inteiro DNA genômico Quebrar em pedaços aleatórios ~2000pb (shotgun) reads clonar em vetor sequenciamento Reconstrução do DNA original a partir do fragmentos (clusterização) reads Sequência consensu (DNA original) A reconstrução é feita a partir de sobreposição dos fragmentos Shotgun de pedaços do genoma Quebrar em pedaços aleatoriamente desde 50Kpb até 300Kpb DNA genômico Clonar em BAC’s e sequenciar apenas as pontas de cada fragmento ~800 bp ~800 bp Quebrar em pedaços de 2000pb clonar em vetor e sequenciar os fragmentos Primer Walking Vector Primer Clone to sequence Sequence New Primer Sequence Repeat Sempre desenhar o primer de forma que a sequência amplificada tenha sobreposição com a anterior (tipicamente 100 pb de sobreposição) Expressed sequence tags (ESTs) Extrair RNA de diferentes tecidos/condições Síntese de cDNA 5’ EST 3’ EST clonar em vetor sequenciamento Controle Tratado Extração de RNA e síntese de cDNA sequenciamento sequenciamento Construção da biblioteca e sequenciamento Sequência consensu clusterização Expressão gênica : tratado = 2x controle Artigo : audic e claverie Biblioteca subtrativa RNA Pools Control Treated Driver 1-cDNA synthesis Tester 2-cDNA digestion with 4 cutter enzyme Adaptors 3-Adaptor ligation to tester sample Driver No amplificated Eliminated Driver and Tester Linear Amplification Eliminated Tester Exponential Amplification Enriched Tester 4-Tester/ driver hybridization 5-PCR with primers that anneal specifically to adaptor previously ligated to tester sample 6-Enrichment of cDNA library in genes preferentially expressed in tester sample Tecnologias de sequenciamento - Sanger sequencing - PNAS 74 (1977), n. 12, 5463-5467 - Sequenciador MegaBACE (1Mpb/24 horas) - Pirosequenciamento - Science 281 (1998), n. 5375, 363-365 - Nature 437 (2005), 362-7 - Sequenciador 454 (150Mpb/24 horas) Sanger sequencing denaturação anelamento dos primers Exemplo de gel utilizado nos seqüenciadores de gel (ex.: 377). A diferença de tamanho permite a separação dos grupos de fragmentos, e esta “distribuição normal” da passagem dos fragmentos é representada pelo eletroferograma (ou cromatograma) de cada seqüência (read). Filme sequenciamento O programa PHRED lê o chromatograma identificando e dando uma nota para cada base que forma a sequência : 0 0 5 6 7 10 10 9 12 15 20 20 30 30 35 40 41 45 50 56 56 50 40 ... Genome Research 8 (3) (1998), 175-185 background - A identificação dos picos é feita através de uma transformada de fourier do sinal - A nota é ligada com a resolução entre os picos vizinhos e a altura do background Analisando o cromatograma Região de qualidade alta • • • Picos bem definidos e grandes. Linha de base boa. Distância entre picos anterior e posterior constante. Região de qualidade média – poucas ambigüidades • • • Picos razoavelmente bem definidos e de tamanho médio. Linha de base boa a razoável. Distância entre picos anterior e posterior razoável. Região de qualidade baixa – baixa confiabilidade • • • Picos mal definidos e de tamanho pequeno. Linha de base confusa. Distância entre picos anterior e posterior inconstante. - Sequenciamento produz seqüências da ordem de 500 pb Onde q é a nota phred e P é a probabilidade encontrar uma base errada : - Nota phred = 20 => 1 base errada a cada 100 (99%) - Nota phred = 30 => 1 base errada a cada 1000 (99.9%) Pirosequenciamento Fita simples Câmera de CCD Reação de degradação Filme sequenciamento Science 281 (1998), n. 5375, 363-365 Shotgun do genoma inteiro DNA genômico Quebrar em pedaços aleatórios ~2000pb (shotgun) Ligação do adaptador e separação em fita simples - O adaptador permite que o DNA se ligue em grânulos minúsculos (diâmetro de 28 mm). Apenas um DNA é ligado em cada grânulo - Os grânulos são envolvidos em gotas de óleo que contêm todos os reagentes necessários para amplificar o DNA - Cada gota contendo o grânulo é mantida isolada para evitar contaminação e consegue produzir 10 milhões de cópias numa reação de pirosequenciamento - Um pmol de DNA numa reação de pirosequenciamento produz 1011 moléculas de ATP gerando mais de 109 fótons, num comprimento de onda de 560 nm, e num período de 3-4 segundos. Facilmente detectado por uma câmera de CCD Nature 437 (2005), 326-327 O sequenciador 454 Câmera de CCD Câmara de fluxo contendo as amostras e as fibras ópticas (1,6 milhões/slide) Bombeamento de fluídos Computador Nature 437 (2005), 376-380 Pirograma Linearidade é mantida até homopolímeros de 8 nt São obtidas seqüências de até 100-120 b Sanger vs Pirosequenciamento SANGER • Depende de clonagem em bactéria (2 semanas de trabalho) Pirosequenciamento • Não há clonagem • 1 milhão de pb em 24 horas • 25 milhões de bp em 4 horas (100x mais rápido) • Reads de ~700 bp • Reads de ~100 bp • Clones de fita dupla permitem seqüenciamento em ambas direções (facilita orientação e montagem) • Fragmentos fita simples não permitem seqüenciamento em ambas direções • 6 meses de sequenciamento, 24 horas por dia, para sequenciar o genoma de um fungo • 24 horas para sequenciar o genoma de um fungo Conclusão : a união faz a força PNAS 103 (2006), 11240 END Path that was used for genome sequencing YACs BACs or Cosmids m13, plasmid map (MBP) map (200kBP) sequence (kbp)