Genome sequence Genome size does not correlate well with gene number or with apparent organism complexity Closely related organisms can have genome sizes that vary by 100x Human genome is 30x smaller than some plant genomes Número de clones teoricamente necessários para representar o genoma Tamanho do genoma (pb) Tamanho do fragmento clonado (pb) 2 X106 2 X107 3 X109 Bacteria Fungo mamíferos 5 X103 400 4.000 600.000 10 X103 200 2.000 300.000 20 X103 100 1.000 150.000 40 X103 50 500 75.000 N= ln (1-P) ln (1 - f ) Seqüênciamento do genoma por “shotgun” Genoma aberto Clonagem e seqüênciamento Clones “shotgun” Bioinformática Alinhamento dos clones Genoma seqüênciado 5’...ATCGGTACCAGGCTCCTCAGAGT...3’ 3’...TAGCCATGGTCCGAGGAGTCTCA...5’ Construção da biblioteca shotgun • Fragmentos de DNA ramdômicos podem ser obtidos usando o processo HydroShear (GeneMachines Inc., USA). • DNA sonicado para construção biblioteca shotgun kb 11,0 7,0 6,0 5,0 4,0 3,0 2,0 1,5 1,0 In shotgun approach, DNA is randomly broken into fragments, and each is sequenced w/out knowing where in the genome the fragment comes from Maria Aparecida Fernandez- DBC - UEM SEQUENCIAMENTO DE DNA Bancada Bioinformática 1.cromossomo ou cosmídeo 2.fragmentação _ enzimática _ nebulização 3.clonagem _ pUC18 4.seqüenciamento retro-alimentação ACCTGATGCCGACGGG 5.montagem 6.finalização Contig 1 Contig 2 Cosmídeo 7.anotação Maria Aparecida Fernandez- DBC - UEM iniciador Automated DNA Sequencing If the chain terminators are labeled instead of the primers, all four reactions can occur in the same tube. SEQUENCIAMENTO DE DNA Maria Aparecida Fernandez- DBC - UEM Typical output of an automated sequencer Estrutura da Rede de Computadores Laboratório de bioinformática PC1 INTERNET Servidor e-mail Web FTP Firewall Pentium III 750 MHz PC2 PC3 Switcher PCn Instituições participantes do projeto Maria Aparecida Fernandez- DBC - UEM Sun 450 Enterprise 4 processadores 4 GB RAM 300 GB HD Montagem do genoma • Phred – identificação de bases (base calling) e valores de qualidade • Cross-match – identificação de seqüências de vetor • Phrap – montagem das seqüências contíguas (contigs) • Consed – análise e edição dos contigs • Finalização – fechamento de falhas (Scaffold), determinação de genes (BLAST/Glimmer) e anotação (Artemis/Sequin) GENOMAS SEQUENCIADOS Bacterial genome Eukaryotic DNA: chromosome Band pattern of human chromosomes Genes in genome The organization of genes on a human chromosome Human genome sequence Comparison of genomes Dogma central da biologia molecular Replicação do DNA Reparo de DNA 5´ Recombinação genética 3´ DNA 3´ Transcrição Síntese de RNA Transcrição 5´ Tradução 5´ 3´ RNA Síntese protéica Tradução H2N COOH Proteína Gene Definição Molecular Seqüência de DNA que codifica uma proteína Não acredito que vocês estão satisfeitos com esta definição!!! Gene Falhas da definição molecular Alguns genomas são constituídos de RNA e não de DNA. Alguns genes produzem RNA (tRNA e rRNA) e não proteínas. Algumas regiões não-codantes são importantes para produção de RNA e proteínas. Gene “ Open Reading Frame” - ORF É a seqüência de nucleotídeos que codifica os aminoácidos de uma proteína. A definição molecular de gene é mais ampla do que apenas a seqüência codante. Finding the regions in a DNA sequence that encode a protein: Computer programs designed to identify ORFs Gene Definição molecular atual Toda seqüência de nucleotídeos necessária para a síntese de uma cadeia polipeptídica ou de RNA funcionais. Gene Regiões não-codantes Regulatórias Sítios de ligação da RNA polimerase Sítios de ligação dos fatores transcricionais Íntrons Sítios de Poliadenilação - poliA Gene Seqüência codante ATG Promotor E1 I1 E2 Cauda de poliadenina I2 E3 PoliA Interruptor do gene Seqüência não-codante Fatores transcricionais RNA polimerase Splicing Introns can be recognized by conserved sequences at the junctions that are required for their removal All parts of the genome are subject to mutation, but not all parts are subject to natural selection Sequences that do not encode protein are not under selective pressure and thus diverge more rapidly Comparative genomics is our most powerful tool for identifying the exons of expressed genes Random mutations leads to extensive sequence variation between humans and mice at all sites that are NOT under selection. Because of functional constraints, the exons in genes stand out as islands of conservation. Distribution of sequence types in the human genome Average human gene is about 20x larger than genes in E. coli or even in yeast Gene density is much higher in compact yeast genome relative to human The partly reflects the compression of gene regulatory sequences into short regions just upstream of the gene. Human regulatory elements can be spread out over tens of 1000s of basepairs The C. elegans genome was completed in 1998 and is predicted to contain 19,000 genes; 3x more than the unicellular eukaryote, S. cerevisiae