“Eukaryotic and prokaryotic promoter prediction
using hybrid approach”
Hao Lin • Qian-Zhong Li
Theory in Biosciences, 2011
Eukaryotic and prokaryotic promoter
prediction using hybrid approach

Introdução

Bases de dados

Abordagem proposta

Técnicas
Experimentos

Resultados

Introdução

Conservação

Oligonucleotídeo

K-mer

Transcrição (Exons e Introns)

PWM (Position Weight Matrix)
Introdução
Transcrição
Introdução
PWM (Position Weight Matrix)
Base de Dados

Eucariotos


Procariotos


300 pb → -249 a +50 (TSS = 0)
81 pb → -60 a +20 bp (TSS = 0)
Bases (5 espécies)



C. elegans → 598 promoters, 600 coding
sequences and 600 introns
B. subtilis → 270 promoters, 300 coding sequences
and 300 convergent intergenic sequences
H. sapiens → 1787 promoters, 1800 coding
sequences and 1800 introns
Abordagem proposta

Abordagem híbrida baseada em Mahalanobis
Discriminant modificado para identificação de
promotores procarióticos e eucarióticos

Utiliza 2 técnicas para descrever características de
sinal e de composição


Position Correlation Score Function (PCSF) (Li and Lin
2006; Gordon et al. 2006; Kielbasa et al. 2005)
Increment of Diversity (ID) (Laxton 1978)
Abordagem proposta

PCSF (baseado em PWM)


ID


Usado para estimar a ocorrência de sequências kmer numa posição específica
Medir a similaridade na composição de
oligonucleotídeos em sub-regiões específicas entre
sequências de teste e de treino
MD modificado

Usando como entrada os resultados de PCSF e ID,
é aplicado para predizer promotores
Conservação de oligonucleotídeos

Quanto maior o valor de M k i maior a
conservação da região
Position Correlation Score Function
(PCSF)

Uma matriz de probabilidade trimer
oligonucleotídeo com 64 linhas (uma linha para
cada trimer oligonucleotídeo) e o número de
colunas de regiões conservadas é construído
através da equação:
Position Correlation Score Function
(PCSF)

Baseado na matriz de probabilidade construída,
a Equação 3
F promoter
Average background probability
→coding
F non−
F
F coding
pode ser utilizada para calcular o valor de peso
Increment of Diversity (ID)



De acordo com o conceito de diversidade, se uma
sequência X pode ser descrita como um vetor ddimensional
, então a diversidade
da sequência será
Frequência absoluta do ith k-mer oligonucleotídeo →
Para duas sequências, o incremento de diversidade
pode ser descrito como
Increment of Diversity (ID)

Quanto menor o ID, maior a similaridade entre
2 sequências

Através do PCSF e do ID, cada sequência
eucariótica pode ser descrita como um vetor de
12 dimensões

3 do PCSF e 9 do ID
Mahalanobis Discriminant (MD)

Group mean →

Covariance matrix of training dataset →

Inverse matrix →

Determinant →
Função de predição
Hipótese

Sequências codificantes e não-codificantes
juntas numa única base negativa podem
resultar em baixa performance

Diferença entre sequências codificantes e não
codificantes
Sub-regiões sequências de
promotores eucarióticas

As bases de dados de promotores eucarióticos
foram divididas em 3 regiões

Transcrita

Não transcrita

Core promoter
Sub-regiões em sequências de
promotores eucarióticos
TSS
cctcgatagtgccctcataaggcgcttaaacccaccttacccttaccatcatggctagtcgacgccaaaagcagttcgatcggaagtacagctcctatcggtaggtttggagattctggagctgaaaaaaccaa
tttt
Core Promoter
Região não
transcrita
Região transcrita
Experimentos
Experimentos



Base de teste e de treino dividida em 10 partes

Varia-se a taxa entre elas

5 taxas diferentes
10-fold cross validation
Comparações com outras abordagens para D.
melanogaster
400 seq → 200 promotores, 100 coding, 100
introns
Comparações com outras abordagens para H.
sapiens


Avaliação de performance
Resultados
Resultados
Resultados
Trabalhos futuros

Utilizar informações estruturais do DNA e
predição completa do genoma