Análise de genomas e transcriptomas Prof. Dr. Francisco Prosdocimi As novas ciências “ÔMICAS” • • • • Genoma Transcriptoma Proteoma Metaboloma • Fenoma, Lipidoma, Glicoma, Interactoma, Spliceoma, Kinoma, etc. Genomas e transcriptomas • O genoma é único • O transcriptoma modificase espaçotemporalmente – Quais genes estão ativos num determinado instante e condição? – Como isso influencia a adaptação da célula ao meio? • Proteoma Montando o “genoma da fábula” • Abaixo temos uma Fábula Fabulosa do escritor Millôr Fernandes que foi, assim como um genoma, dividida em partes. Monte as partes e produza a seqüência completa da fábula. > Frase 1 edoria e calor que fazem os seres humanos - "mas eu não". MORAL DA HISTÓRIA: NÃO MORRE A PASSARADA QUANDO MORRE UM PÁSSARO. > Frase 2 ela não pôde resistir e exclamou: "Mas, como, seu marido não morreu há cinco anos?" "Sim, é verdade" - respondeu então a outra, cheia daquela compreensão, sabed > Frase 3 Quando a amiga lhe apresentou o garotinho lindo dizendo que era seu filho mais novo, ela não pôde resistir e exclamou: "Mas, com > Frase 4 dade" - respondeu então a outra, cheia daquela compreensão, sabedoria e calor que fazem os seres humanos - "mas eu n Montagem de genomas Prof. Dr. Francisco Prosdocimi Montando um quebra-cabeças O problema da montagem • Genomas bacterianos normalmente têm o tamanho medido em dezenas a centenas de quilobases (kb) • Genomas eucarióticos têm o genoma medido em Megabases (Mb) ou gigabases (Gb) • O genoma humano tem 3,1 Gb • Através do método de Sanger normalmente produzse sequências de 800bp • Como montar um genoma? Montagem de genomas numa casca de noz • A abordagem shotgun • Parte-se o DNA em pedacinhos – Corre-se um gel – Escolhe-se o tamanho dos fragmentos a trabalhar • Pedacinhos são clonados em vetores (montagem da biblioteca genômica) • Sequenciamento com primers do vetor • Monta-se a sequência por sobreposição Montagem da Biblioteca Genômica • Fragmentação do DNA – Enzimas de restrição – Sonicação – Calor • Digestão do vetor • Ligação para a produção da molécula recombinante • Inserção em bactéria Como sequenciar o que não se sabe o que é? • Para sequenciarmos no método de Sanger, precisamos utilizar um primer complementar à extremidade 5’ do que desejamos sequenciar • Vetor de sequenciamento – Primer Universal Forward e Reverse • Sequenciamento do inserto desconhecido Análise dos Sequencing Reads • Leituras do sequenciamento (cada uma das sequências produzidas) • Tipos de Reads que podemos encontrar – Vetor + Inserto – Vetor + Inserto + Vetor – Vetor • O vetor não representa nosso genoma de estudo, portanto, sua sequência deve ser mascarada Possibilidades (teóricas) de mascaramento > Sequencia original ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG CACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA > Sequencia mascarada (1) ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG CACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA > Sequencia mascarada (2) XXXXXXXXXXXXXXXXXXXAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG CACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA > Sequencia mascarada (3) XXXXXXXXXXXXXXXXXXXAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG CACCATCTCGAATTCTCTAACAGAACACCATCTCGAAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX > Sequencia mascarada (4) ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG CACCATCTCGAATTCTCTAACAGAACACCATCTCGAAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX > Sequencia mascarada (5) XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Reads limpas • O programa Cross_match compara as sequências de DNA e mascara as sequências do vetor • Só temos agora sequência do organismo que estudamos • Alinhamento de sequências (bioinformática) • Sobreposição das sequências LINUX prompt $> cross_match reads.fasta vector.fasta Aligning vector and read sequences Masking vector regions $> more reads.fasta.cross_match > Read1 XXXXXXXXXXACTAGACCCTATGAGGACATACATAGGACACAG AGATATATCCCGGCGCGTTTCATCTCGTACAGTTACCCCTTCA GCAGCACTCTCTGCACGATCGTCTACGXXXXXXXXXXXXXXXX Sequence clustering • Cálculo da pontuação de sobreposição – Match / Mismatch / Gap scores – Minmatch (14) / Minscore (30) Montagem de contigs • Reads alinhados • Programa cria sequências consenso (contigs) – CAP3, Phrap, TIGR Assembler, Celera Assembler Problemas de montagem • E se o genoma contiver muitas sequências repetitivas? – O clustering vai reunir partes do genoma que não são contíguas • Análise do conteúdo de repetições de um genoma deve ser feito antes da montagem • Deve-se mascarar as repetições e montar apenas as partes do genoma sem repetições Genome Contig Sequencing reads Região repetitiva: alta cobertura de reads Alinhamento com regiões doutras partes do genoma Reconstrução do genoma • Contigs + gaps • Certas regiões do DNA são difíceis de serem clonadas – Clonagem de fragmentos é estatística • Não estão presentes na biblioteca de DNA • Portanto, não são sequenciadas Genome finishing • Primer walking consiste numa técnica de fechamento de genomas – Primers são criados para a realização de uma PCR que produzirá a sequência dos gaps • E se a sequência for muito grande? • Grande parte dos genomas publicados contêm regiões de gap Genomas eucarióticos • Genomas enormes, nível de Mb ou Gb • Por vezes decide-se realizar uma abordagem hierárquica para o sequenciamento • Montagem de BACs – BAC to BAC sequencing Mated-pair sequencing • • • • Não se sequencia o inserto inteiro Sequenciamento das extremidades do inserto Montagem das sequências das extremidades Clonagem de insertos com tamanhos variados (em diferentes tipos de vetores) Gaps reais e virtuais • Gaps virtuais – Conhece-se o vetor que contém os mated-pairs – Sabe-se o tamanho ao qual ele corresponde (tamanho do inserto) – Shotgun do vetor em questão • Gaps reais – Não se conhece nada sobre este gap – Pode ter qualquer tamanho – Difícil solução Genome coverage • Cobertura do genoma • Antes de tentarmos montar um genoma, precisamos ter uma quantidade de bases cerca de 8x maior do que o genoma – Garante que haverão poucos gaps reais • Genoma Humano público (2001): 2,9X coverage • Celera: 5,1X coverage Quanto maior a cobertura, menor o número de contigs (significando que as moléculas foram montadas por completo) Passos para a montagem • Produção de sequencing reads até 8x o tamanho do genoma • Montagem dos contigs • Identificação de gaps reais e virtuais • Fechamento de gaps • Publicação do genoma Montagem de transcriptomas Prof. Dr. Francisco Prosdocimi Genoma X Transcriptoma Sequenciando ESTs • Expressed Sequence Tags – Etiquetas de sequências expressas • Amplificação dos genes a partir de primers do vetor de clonagem – Pode-se produzir ESTs 3’ ou 5’ – A EST 3’ está ancorada ao poli-A • O conteúdo da extremidade 5’ da EST, no entanto, varia devido: – Tamanho do mRNA – Tamanho do inserto clonado – Tamanho amplificado pela transcriptase reversa – Formas de Splicing do gene Características das ESTs Representam o pool de mRNAs Possuem de 150 a ~1000 nucleotídeos Etiquetas de seqüências gênicas Cada clone é seqüenciado uma única vez Apresentam redundância Permitem a identificação dos genes mais expressos em diferentes fases/tecidos Permitem a identificação de splicing alternativo Montagem dos genes • Contigs – Cada contig representa um gene completo • A cobertura do contig depende da expressão de cada gene – Genes muito expressos são mais vistos • Genes singlets – Menor evidência • Quantidade de ESTs sequenciadas e saturação da biblioteca • Sequências únicas – Cada uma é um gene • Sequências quiméricas :. Diminui a redundância; :. Aumenta o tamanho; :. Aumenta a qualidade. Sequence clustering • Cálculo da pontuação de sobreposição – Match / Mismatch / Gap scores – Minmatch (14) / Minscore (30) Déja vu? Produção de ESTs e ORESTEs Seqüênciamento de genes expressos: Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e ...damonh...] • EST (Etiqueta de Seqüência Expressa) – seqüenciamento único de cada cDNA – extremidades 5’ ou 3’ • ORESTES (ESTs ricas em ORFs) – seqüenciamento único do amplicon derivado de cDNA por PCR inespecífico – prevalece o centro do cDNA (cds) Um mRNA & suas ESTs AUG ATG cDNA (fita +) ATCATGACTTACGGGCGCGCGAT cDNA (fita -) AUG (A)20 (A) 18 0(T)18 cDNA (fita +) GGCGCGCGATATCC cDNA (fita -) (A)20 (A) 18 0(T)18 PCR inespecífico & seu ORESTES AUG ampliconGGGCGCGCGATATCGAAAAATTTATAAGGCTAG (fita +) CCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC AGATCGATCATGACTTACGGGCGCGCGATATCG amplicon cDNA (fita -) Iniciador PCR (60ºC(60ºC)37ºC) (A)200 Produção de ESTs e ORESTEs Epílogo • Sabemos agora montar os genomas e os transcriptomas • E daí? • Número de genes (introns e éxons), elementos regulatórios, tamanho em pares de bases • Fizemos uma análise quantitativa e partiremos agora para uma análise qualitativa dos genes presentes – Quais são? O que fazem? – O que um organismo pode fazer dado que tem os genes que tem? • A análise genômica é uma análise de como pode funcionar o metabolismo de um organismo Outras análises transcriptômicas Prof. Dr. Francisco Prosdocimi SAGE • Serial Analysis of gene expression • Utilização de enzima de restrição do tipo III (corta upstream ao sítio de reconhecimento) (NlaIII) • Produção e sequenciamento de concatâmeros Bioinformática SAGE • • • • Extração e contagem das tags Algus transcritos não geram tags com certa enzima Tags possuem 10bp ou 17bp (+4 restr. Site) Mapeamento de tags a genes usando alinhamento de sequências (1 to N, N to 1) – Tags não unívocas; repeat regions • Erros de sequenciamento atrapalham a análise >SAGE-WT1-A0001-A01.abd 1047 ABI GGCAGTGAATTGTAATACGACTCACTATAGGGC GAATTGGGCCCTCTAATGCATGTTGACGTGCAC TTCCGTAGCCTCATGTTTTATGGAATCACCTAT TATGCCATGACTTTTTCAAAACTAGGCTGTGCC ATGTTTACACAGTATGCACACATCTTCCATGGA TGTGGACAGAAAATCCTCCAACATGATGGCAA A tag em azul deverá ser a o complemento reverso da sequência. Short SAGE: Tag GCAGACCATA AACAGTTCCA GCCAACTCGG CGTGCGGATT Freq 1451 931 2 1 MappedGenes AB666788, U18897 NM_789654 NM_123587 NM_123587, Y15324, P67473, MB12983 Microarray • Análise comparativa da expressão gênica em high-throughput