Identificação dos Genes de
uma cadeia de DNA com a
ferramenta GENSCAN
Lauro Didier Lins
Junho de 2001
Introdução
• Aumento do número de cadeias de DNA
seqüenciadas.
• Necessidade de saber como todos estes
DNAs se expressam (genes).
• Grande quantidade de dados. (ex. 3 bilhões
de pares de base no genoma humano).
• Utilização de métodos computacionais se
torna fundamental.
Identificação de Genes (parte 1)
• DNA?
• Gene?
• Identificação de
Genes?
DNA
Identificação
Gene
Identificação de Genes (parte 2)
Gene
Intron 0
Exon1
Intron1
Exon2
{
{
{
{
{
5’
Exon 0
3’
DNA
•
•
•
•
Exons...
Introns...
Sentido 5’ 3’...
Em apenas uma das fitas do DNA...
GENSCAN
• Programa de computador para
identificação de genes.
• Basedo num modelo probabilistico para a
estrutura do Gene descrito por Chris Burge
e Samuel Karlin, ambos do departamento
de matemática da universidade de
Stanford.
Genes
DNA
Genscan
Características do GENSCAN (parte 1)
• Identificação da estrutura completa de
intron/exon dos Genes
• Capacidade de identificar múltiplos genes,
genes parciais ou genes completos.
• Capacidade de identificar genes em ambas
as fitas do DNA.
• Capacidade de identificar tanto exons
otimais quanto exons sub-otimais (em
relação ao modelo).
Características do GENSCAN (parte 2)
• Adequado para: vertebrados, milhos e
Arabidopsis.
• Associa probabilidade significativa a
suas predições.
• Não utiliza homologia com proteínas.
• Não aborda corte alternativo
(alternative splicing).
• Não modela genes nas duas fitas que
se sobrepõem (são raros).
Aspectos Importantes
• Através da observação de exemplos bem
documentados alguns aspectos importantes para a
identificação de genes foram percebidos:
– Conteúdo C+G
• Densidade de Genes
• Tamanho dos Genes
– Regiões Características
Gene
Exon 0
Exon1
Intron1
Exon2
3’
{
{
{
{
{
5’
Intron 0
DNA
Região
Promotora
Região
de Corte 5’
Região
de Cort e 3’
Regiã o
de Corte 5’
Região
de Cort e 3’
Regiã o
PolyA
O que é mesmo ...
DNA
•
•
•
•
... DNA?
... Gene?
... Identificação de Gene?
... Genscan?
Identificação
Gene
Genscan
Como identificar o que é e o que não é
Gene numa cadeia de DNA? (parte 1)
• Analogia de um DNA com um programa...
– Os Genes seriam blocos responsáveis por uma única rotina
do programa.
...
// esta rotina define a cor dos olhos da pessoa.
begin
// a cor dos olhos será azul
cor_dos_olhos = AZUL
end
// esta rotina define se a pessoa escreve com
// a mão esquerda ou direita.
begin
// esta pessoa aqui será canhota!
escreve_com_a_mao = ESQUERDA
end
...
DNA
Gene
Como identificar o que é e o que não é
Gene numa cadeia de DNA? (parte 2)
• Num programa todo bloco...
– ... começa com um begin ...
– ... e termina com um end
...
// esta rotina define a cor dos olhos da pessoa.
begin
// a cor dos olhos será azul
cor_dos_olhos = AZUL;
end
// esta rotina define se a pessoa escreve com
// a mão esquerda ou direita.
begin
// esta pessoa aqui será canhota!
escreve_com_a_mao = ESQUERDA;
end
...
Marcador de início
E fim de bloco
Marcador de início
e fim de bloco
Como identificar o que é e o que não é
Gene numa cadeia de DNA? (parte 3)
• No programa todo bloco pode ser identificado
simplesmente procurando as palavras begin e end.
• Será que todo gene também tem uma “palavra
begin” e uma “palavra end”?
– Empiricamente podemos dizer que sim!
• Agora vem a pergunta mais importante: Será que é
possível definir como é a “palavra begin” e a “palavra
end” de um gene para possamos indentificá-los
assim como no programa (nossa analogia)?
– Definir exatamente ainda não é possível. Porém
sabemos mais ou menos a “cara” do begin e do end de
um gene e utilizamos este conhecimento para identificar
estatisticamente (não é 100%) onde estão os genes de
uma cadeia de DNA.
O que sabemos... (parte 1)
Gene
Intron 0
Exon1
Intron1
Exon2
{
{
{
{
{
5’
Exon 0
3’
DNA
• O Gene está situado em uma das fitas do DNA e é base para a
codificação de um tipo de proteína.
O que sabemos...(parte 2)
• Identificar um Gene é equivalente a saber exatamente:
– Em que fita do DNA se encontra o Gene.
– Onde estão seus Exons
O que sabemos...(parte 3)
•
Alguns detalhes de como são “mais ou menos”os sinais begin e end de um Gene:
–
–
–
–
–
–
Antes do início de um Gene existe a região promotora rica em TATA (pares de Timina
Adenina).
Num dos exons iniciais existe um códon (tripla de nucleotídeos) normalmente ATG que será
o marcador do início da tradução, ou seja, o próximo códon já definirá um aminoácido na
proteína que será sintetizada.
Entre um exon e um intron existe a chamada região de corte doadora (donor splice site ou 5’
splice site).
Entre um intron e um exon existe a chamada região de corte aceitadora (acceptor splice site
ou 3’ splice site).
No último exon do Gene existe um códon de parada, a partir do qual nenhum aminoácido
entrará mais na proteína que está sendo sintetizada.
A região após o último exon do gene é rica em A’s (Adenina) chamada cauda polyA
GENSCAN
• Ferramenta para identificação de genes numa
cadeia de DNA baseda num modelo
probabilistico para a estrutura do Gene
descrito por Chris Burge e Samuel Karlin,
ambos do departamento de matemática da
universidade de Stanford.
• Modelo adequado para eucariotos.
• Modelo baseado num Generalized Hidden
Markov Model (GHMM).
GENSCAN
• Ferramenta para identificação de genes numa
cadeia de DNA baseda num modelo
probabilistico para a estrutura do Gene
descrito por Chris Burge e Samuel Karlin,
ambos do departamento de matemática da
universidade de Stanford.
• Modelo adequado para eucariotos.
• Modelo baseado num Generalized Hidden
Markov Model (GHMM).
Características do GENSCAN
• Identificação da estrutura completa de
intron/exon de um Gene numa cadeia de DNA.
• Capacidade de identificar múltiplos genes,
genes parciais e genes completos.
• Capacidade de identificar um conjunto de
Genes ocorrendo em ambas as fitas do DNA.
• Capacidade de identificar tanto exons otimais
quanto exons sub-otimais (em relação ao
modelo)
Como usar o GENSCAN
Pedaço contíguo de uma fita de DNA:
ACGAAGGTTCATATC...
Matriz de Parâmetros (três opções):
1.
2.
3.
Vertebrados
Arabidopsis
Maize
Sub-Optimal cutoff:
{1.00, 0.50, 0.25, 0.10, 0.05, 0.02, 0.01}
(se for 1.00 só gera á melhor saída do
modelo).
GENSCAN
Estrutura de Genes
estimada pelo
GENSCAN
para o DNA
dado como
entrada.
Exemplo (parte 1)
• Identificar os genes da seqüência X66401, que contém 66109
bp. Esta seqüência está presente no cromossomo 6 do homem
e se sabe que ela contém 5 genes (4 na fita que está registrada
e 1 na fita oposta).
Exemplo (parte 2)
• A saída detalhada do GENSCAN tem a seguinte forma (apenas
o primeiro gene downstream)...
(reading
(net
Score
phase)
frame)
Score
do sinal
(Coding
do splice
de
Probabilidade
Número
início
Region
site
Exon
Tipo:
do
ou
Score)
5’Strand
score,
gene,
do
ou
doPosição
do
Score
exon
número
depende
– fita
(só
Posição
da
inicial
do
do
deComprimento
exon
DNA
{Len,
final
do exon/sinal
do exon/sinal
do exon/sinal:
Um
códon
na
fita
pra
frente
que
Init
+
–
=
exon
fita
inicial
entrada
3’ Len
splice
sinal
módulo
site
região
de 3
término
(só
definida
codificante
no
definido
gene
(só
I/Ac,
para
sópara
Do/T
definido
exons)
(só
(posição
epara
CodRg}
(posição
relativarelativa
Len
a fita
= Endde
a –fita
DNA
Begin
de +DNA
1
termina
na
posição
X
tem
frame
x
Intr
–
=
exon
fita
interno
oposta
exons)
para exons)
exons)
dada como
dada
entrada)
como entrada)
módulo 3
Term
Sngl
Prom
PlyA
–
–
–
–
terminal exon
único exon de um gene
sinal promotor
sinal poli-A
Os scores têm a seguinte
interpretação:
> 100, é muito bom
50–100, é bom
0-50, é regular
< 0, é ruim
Referências
• Transparência on-line (autor: Terry Speed)
– http://www.ludwig.edu.au/CRCCGF/bioinformatics/recog/index.htm
• Papers
– Burge,C. and Karlin,S. (1997) Prediction of complete gene structures in
human genomic DNA. J. Mol. Biol., 268,78--94.
– Burge,C. and Karlin,S. (1998) Finding the genes in genomic DNA. Current
Opinion in Structural Biology, 8:346-354.
• Site do GENSCAN no MIT
– http://genes.mit.edu/GENSCAN.html
GENSCAN
The state-of-the-art program for finding Genes
Download

Identificação de genes usando GeneScan