Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001 Introdução • Aumento do número de cadeias de DNA seqüenciadas. • Necessidade de saber como todos estes DNAs se expressam (genes). • Grande quantidade de dados. (ex. 3 bilhões de pares de base no genoma humano). • Utilização de métodos computacionais se torna fundamental. Identificação de Genes (parte 1) • DNA? • Gene? • Identificação de Genes? DNA Identificação Gene Identificação de Genes (parte 2) Gene Intron 0 Exon1 Intron1 Exon2 { { { { { 5’ Exon 0 3’ DNA • • • • Exons... Introns... Sentido 5’ 3’... Em apenas uma das fitas do DNA... GENSCAN • Programa de computador para identificação de genes. • Basedo num modelo probabilistico para a estrutura do Gene descrito por Chris Burge e Samuel Karlin, ambos do departamento de matemática da universidade de Stanford. Genes DNA Genscan Características do GENSCAN (parte 1) • Identificação da estrutura completa de intron/exon dos Genes • Capacidade de identificar múltiplos genes, genes parciais ou genes completos. • Capacidade de identificar genes em ambas as fitas do DNA. • Capacidade de identificar tanto exons otimais quanto exons sub-otimais (em relação ao modelo). Características do GENSCAN (parte 2) • Adequado para: vertebrados, milhos e Arabidopsis. • Associa probabilidade significativa a suas predições. • Não utiliza homologia com proteínas. • Não aborda corte alternativo (alternative splicing). • Não modela genes nas duas fitas que se sobrepõem (são raros). Aspectos Importantes • Através da observação de exemplos bem documentados alguns aspectos importantes para a identificação de genes foram percebidos: – Conteúdo C+G • Densidade de Genes • Tamanho dos Genes – Regiões Características Gene Exon 0 Exon1 Intron1 Exon2 3’ { { { { { 5’ Intron 0 DNA Região Promotora Região de Corte 5’ Região de Cort e 3’ Regiã o de Corte 5’ Região de Cort e 3’ Regiã o PolyA O que é mesmo ... DNA • • • • ... DNA? ... Gene? ... Identificação de Gene? ... Genscan? Identificação Gene Genscan Como identificar o que é e o que não é Gene numa cadeia de DNA? (parte 1) • Analogia de um DNA com um programa... – Os Genes seriam blocos responsáveis por uma única rotina do programa. ... // esta rotina define a cor dos olhos da pessoa. begin // a cor dos olhos será azul cor_dos_olhos = AZUL end // esta rotina define se a pessoa escreve com // a mão esquerda ou direita. begin // esta pessoa aqui será canhota! escreve_com_a_mao = ESQUERDA end ... DNA Gene Como identificar o que é e o que não é Gene numa cadeia de DNA? (parte 2) • Num programa todo bloco... – ... começa com um begin ... – ... e termina com um end ... // esta rotina define a cor dos olhos da pessoa. begin // a cor dos olhos será azul cor_dos_olhos = AZUL; end // esta rotina define se a pessoa escreve com // a mão esquerda ou direita. begin // esta pessoa aqui será canhota! escreve_com_a_mao = ESQUERDA; end ... Marcador de início E fim de bloco Marcador de início e fim de bloco Como identificar o que é e o que não é Gene numa cadeia de DNA? (parte 3) • No programa todo bloco pode ser identificado simplesmente procurando as palavras begin e end. • Será que todo gene também tem uma “palavra begin” e uma “palavra end”? – Empiricamente podemos dizer que sim! • Agora vem a pergunta mais importante: Será que é possível definir como é a “palavra begin” e a “palavra end” de um gene para possamos indentificá-los assim como no programa (nossa analogia)? – Definir exatamente ainda não é possível. Porém sabemos mais ou menos a “cara” do begin e do end de um gene e utilizamos este conhecimento para identificar estatisticamente (não é 100%) onde estão os genes de uma cadeia de DNA. O que sabemos... (parte 1) Gene Intron 0 Exon1 Intron1 Exon2 { { { { { 5’ Exon 0 3’ DNA • O Gene está situado em uma das fitas do DNA e é base para a codificação de um tipo de proteína. O que sabemos...(parte 2) • Identificar um Gene é equivalente a saber exatamente: – Em que fita do DNA se encontra o Gene. – Onde estão seus Exons O que sabemos...(parte 3) • Alguns detalhes de como são “mais ou menos”os sinais begin e end de um Gene: – – – – – – Antes do início de um Gene existe a região promotora rica em TATA (pares de Timina Adenina). Num dos exons iniciais existe um códon (tripla de nucleotídeos) normalmente ATG que será o marcador do início da tradução, ou seja, o próximo códon já definirá um aminoácido na proteína que será sintetizada. Entre um exon e um intron existe a chamada região de corte doadora (donor splice site ou 5’ splice site). Entre um intron e um exon existe a chamada região de corte aceitadora (acceptor splice site ou 3’ splice site). No último exon do Gene existe um códon de parada, a partir do qual nenhum aminoácido entrará mais na proteína que está sendo sintetizada. A região após o último exon do gene é rica em A’s (Adenina) chamada cauda polyA GENSCAN • Ferramenta para identificação de genes numa cadeia de DNA baseda num modelo probabilistico para a estrutura do Gene descrito por Chris Burge e Samuel Karlin, ambos do departamento de matemática da universidade de Stanford. • Modelo adequado para eucariotos. • Modelo baseado num Generalized Hidden Markov Model (GHMM). GENSCAN • Ferramenta para identificação de genes numa cadeia de DNA baseda num modelo probabilistico para a estrutura do Gene descrito por Chris Burge e Samuel Karlin, ambos do departamento de matemática da universidade de Stanford. • Modelo adequado para eucariotos. • Modelo baseado num Generalized Hidden Markov Model (GHMM). Características do GENSCAN • Identificação da estrutura completa de intron/exon de um Gene numa cadeia de DNA. • Capacidade de identificar múltiplos genes, genes parciais e genes completos. • Capacidade de identificar um conjunto de Genes ocorrendo em ambas as fitas do DNA. • Capacidade de identificar tanto exons otimais quanto exons sub-otimais (em relação ao modelo) Como usar o GENSCAN Pedaço contíguo de uma fita de DNA: ACGAAGGTTCATATC... Matriz de Parâmetros (três opções): 1. 2. 3. Vertebrados Arabidopsis Maize Sub-Optimal cutoff: {1.00, 0.50, 0.25, 0.10, 0.05, 0.02, 0.01} (se for 1.00 só gera á melhor saída do modelo). GENSCAN Estrutura de Genes estimada pelo GENSCAN para o DNA dado como entrada. Exemplo (parte 1) • Identificar os genes da seqüência X66401, que contém 66109 bp. Esta seqüência está presente no cromossomo 6 do homem e se sabe que ela contém 5 genes (4 na fita que está registrada e 1 na fita oposta). Exemplo (parte 2) • A saída detalhada do GENSCAN tem a seguinte forma (apenas o primeiro gene downstream)... (reading (net Score phase) frame) Score do sinal (Coding do splice de Probabilidade Número início Region site Exon Tipo: do ou Score) 5’Strand score, gene, do ou doPosição do Score exon número depende – fita (só Posição da inicial do do deComprimento exon DNA {Len, final do exon/sinal do exon/sinal do exon/sinal: Um códon na fita pra frente que Init + – = exon fita inicial entrada 3’ Len splice sinal módulo site região de 3 término (só definida codificante no definido gene (só I/Ac, para sópara Do/T definido exons) (só (posição epara CodRg} (posição relativarelativa Len a fita = Endde a –fita DNA Begin de +DNA 1 termina na posição X tem frame x Intr – = exon fita interno oposta exons) para exons) exons) dada como dada entrada) como entrada) módulo 3 Term Sngl Prom PlyA – – – – terminal exon único exon de um gene sinal promotor sinal poli-A Os scores têm a seguinte interpretação: > 100, é muito bom 50–100, é bom 0-50, é regular < 0, é ruim Referências • Transparência on-line (autor: Terry Speed) – http://www.ludwig.edu.au/CRCCGF/bioinformatics/recog/index.htm • Papers – Burge,C. and Karlin,S. (1997) Prediction of complete gene structures in human genomic DNA. J. Mol. Biol., 268,78--94. – Burge,C. and Karlin,S. (1998) Finding the genes in genomic DNA. Current Opinion in Structural Biology, 8:346-354. • Site do GENSCAN no MIT – http://genes.mit.edu/GENSCAN.html GENSCAN The state-of-the-art program for finding Genes