Predição computacional
de genes
[email protected]
Marcelo Falsarella Carazzolle
Laboratório de Genômica e Proteômica
Unicamp
Resumo
-
Motivação
-Estrutura de genes
- Procariotos
- Eucariotos
- Predição de genes em procariotos
- Predição de genes em eucariotos
Motivação
- Encontrar genes novos
?
- Genoma
de fungo possuem 30% - 40% dos genes sem nenhuma
função conhecida
- Expedição de Craig Venter coletou micro organismos ao redor
do mundo e sequenciou :
- 6.12 milhões de proteínas (~2x o número de proteínas
depositadas no NCBI)
- ~ 4.000 novas famílias de proteínas
- ~ 6.000 proteínas que estavam depositadas nos bancos
públicos e estavam sem similaridade passaram a ter
similaridade
- Foram coletados 41 amostras nos mares do mundo (~ 8000 km)
PLOS Biology 5 (2007), 0432
Informações biológicas usadas pelos programas
- Sinais na sequência :
- Códons de start e stop (3 nt)
- Intron splice sites (2 nt em cada ponta)
- Promotor : elementos Cis (~10 nt com degenerescência),
TATA box (5 nt)
- Sítio de poliadenização (~10 nt)
- Códon usage
- Conteúdo GC
- Similaridade com outras proteínas
- Alinhamento ESTs - DNA
Estrutura dos genes
- Procariotos
-Alta densidade gênica (~ 85 % de regiões codantes em E.coli)
- Genes sem íntrons
Promoter Cistron1
Cistron2 CistronN Terminator
Transcription
RNA Polymerase
mRNA 5’
3’
1
2
Translation
C
N
N
N
Ribosome, tRNAs,
Protein Factors
C
N
C
1
2
3
- Eucariotos
Predição de genes em procariotos
Sinais na sequência de DNA de um procarioto que
podem ser utilizados na predição de genes
Regiões da sequência de DNA de um procarioto que
apresentam diferenças nas análises de conteúdo GC e
codon usage
Conteúdo GC
- Regiões condantes (que codificam um gene) tem alto conteúdo GC
(rica em nucleotídeos G e C)
Região do DNA que contêm um gene
Conteúdo GC elevado nessa região
- Regiões rica em GC são mais difíceis de sofrerem mutações (ligação química forte)
ORF – open read frame
ACGT
C G TAAC
A A CTGA
T G ACTA
C T AGGT
G G TGAA
G A A T
GTA
TAA
ACT
CTG
GAC
ACT
TAG
AGG
GTG
AAT
TGA
- Cada
grupo de nucleotídeos em trincas consecutivas
constituem um read frame
- Existem 3 diferentes read frames na direção 5’ -> 3’ e mais 3
na direção contrária (outra fita)
- Uma sequência de trincas que não contêm um stop dentro é
chamanda de open read frame (ORF)
-A probabilidade de uma sequência aleatória de “n” nucleotídeos
não conter um códon de stop é (61/64)n
- Quando n=50 a probabilidade de ter um códon de stop no meio da
sequência é de 92%
- Normalmente usa-se, para procariotos, ORFs de tamanho n>=60
para definir possíveis candidatos a genes
Códon usage
-Baseado no fato que o uso do códon é diferente para cada organismo
- Regiões codantes seguem o codon usage do organismo diferentemente
das regiões intergênicas
L, S, R => 6 combinações
V, P, A, G => 4 combinações
I,* => 3 combinações
F, Y, H, Q, N, K, D, E, C => 2
combinações
M, W => 1 combinações
• All organisms have a preferred set of
codons.
Malaria
GTT
GTC
GTA
GTG
0.41
0.06
0.42
0.11
Trypanosoma
GTT
GTC
GTA
GTG
0.28
0.19
0.14
0.39
Códon usage homo sapiens
Frame
+1
+2
+3
Gene1
Gene2
http://bioweb.pasteur.fr/seqanal/interfaces/syco.html
Cálculo do códon usage
• http://www.kazusa.or.jp/codon/
- A tabela de uso do códon do organismo é facilmente obtida usando
programas como codonw ou cusp e usando como entrada sequências
em nucleotídeo que codificam proteínas e no frame correto (tipicamente
obtidas via similaridade entre a sequência e a proteína)
http://bioweb.pasteur.fr/docs/EMBOSS/cusp.html
http://codonw.sourceforge.net/
Sinais no promotor
• One type of RNA polymerase.
- Com o alinhamento de sequências de promotores ortólogos é
possível reconhecer regiões que se mantêm conversadas durante
a evolução, observem que as distâncias também são conservadas
Positional Weight Matrix
• For TATA box:
Juntando tudo
-Promotor e início de transcrição são sinais obtidos através de alinhamentos
entre promotores ortólogos (treinamento feito usando sequências de organismos
próximos)
- Regiões codantes (exons) são obtidos por codon usage (treinamento feito
usando regiões do DNA que possuam com similaridade forte com proteínas
conhecidas) e conteúdo GC
- Outro vínculo importante é a ordem dos sinais. Não tem sentido um sinal de
início de transcrição no meio do exon
Predição de genes em eucariotos
•
•
•
•
Gene length: 30kb, coding region: 1-2kb
Binding site: ~6bp; ~30bp upstream of TSS
Long Introns
Average of 6 exons, 150bp long
Identificando splice sites (junção íntron-exon)
- Com
o alinhamento entre sequências de cDNA e DNA é
possível identificar as regiões dos íntrons
- Com o alinhamento global entre os íntrons constroem-se a
matriz de posição com os padrões de splice sites, branch site e
tamanho médio dos íntrons
Juntando tudo
-Promotor e início de transcrição são sinais obtidos através de alinhamentos
entre promotores ortólogos (treinamento feito usando sequências de organismos
próximos)
- Regiões codantes (exons) são obtidos por codon usage (treinamento feito
usando regiões do DNA que possuam com similaridade forte com proteínas
conhecidas) e conteúdo GC
- Informações sobre os íntrons são obtidas através de alinhamento do DNA com
ESTs
- Outro vínculo importante é a ordem dos sinais. Não tem sentido um sinal de
início de transcrição no meio do exon
Sp=TP/(TP+FP)
- Usando genes conhecidos e de preferência não usados no conjunto de
treinamento podem ser usados para medir a performance do preditor
- Usando genes conhecidos e de preferência não usados no conjunto de
treinamento podem ser usados para medir a performance do preditor
Performance
Sn=TP/(TP+FN)
Sp=TP/(TP+FP)
KORF, I. Gene finding in novel genomes. BMC Bioinformatics 5:59. 2004.
END
CodonPreference: 3rd position GC bias