“Eukaryotic and prokaryotic promoter prediction using hybrid approach” Hao Lin • Qian-Zhong Li Theory in Biosciences, 2011 Eukaryotic and prokaryotic promoter prediction using hybrid approach Introdução Bases de dados Abordagem proposta Técnicas Experimentos Resultados Introdução Conservação Oligonucleotídeo K-mer Transcrição (Exons e Introns) PWM (Position Weight Matrix) Introdução Transcrição Introdução PWM (Position Weight Matrix) Base de Dados Eucariotos Procariotos 300 pb → -249 a +50 (TSS = 0) 81 pb → -60 a +20 bp (TSS = 0) Bases (5 espécies) C. elegans → 598 promoters, 600 coding sequences and 600 introns B. subtilis → 270 promoters, 300 coding sequences and 300 convergent intergenic sequences H. sapiens → 1787 promoters, 1800 coding sequences and 1800 introns Abordagem proposta Abordagem híbrida baseada em Mahalanobis Discriminant modificado para identificação de promotores procarióticos e eucarióticos Utiliza 2 técnicas para descrever características de sinal e de composição Position Correlation Score Function (PCSF) (Li and Lin 2006; Gordon et al. 2006; Kielbasa et al. 2005) Increment of Diversity (ID) (Laxton 1978) Abordagem proposta PCSF (baseado em PWM) ID Usado para estimar a ocorrência de sequências kmer numa posição específica Medir a similaridade na composição de oligonucleotídeos em sub-regiões específicas entre sequências de teste e de treino MD modificado Usando como entrada os resultados de PCSF e ID, é aplicado para predizer promotores Conservação de oligonucleotídeos Quanto maior o valor de M k i maior a conservação da região Position Correlation Score Function (PCSF) Uma matriz de probabilidade trimer oligonucleotídeo com 64 linhas (uma linha para cada trimer oligonucleotídeo) e o número de colunas de regiões conservadas é construído através da equação: Position Correlation Score Function (PCSF) Baseado na matriz de probabilidade construída, a Equação 3 F promoter Average background probability →coding F non− F F coding pode ser utilizada para calcular o valor de peso Increment of Diversity (ID) De acordo com o conceito de diversidade, se uma sequência X pode ser descrita como um vetor ddimensional , então a diversidade da sequência será Frequência absoluta do ith k-mer oligonucleotídeo → Para duas sequências, o incremento de diversidade pode ser descrito como Increment of Diversity (ID) Quanto menor o ID, maior a similaridade entre 2 sequências Através do PCSF e do ID, cada sequência eucariótica pode ser descrita como um vetor de 12 dimensões 3 do PCSF e 9 do ID Mahalanobis Discriminant (MD) Group mean → Covariance matrix of training dataset → Inverse matrix → Determinant → Função de predição Hipótese Sequências codificantes e não-codificantes juntas numa única base negativa podem resultar em baixa performance Diferença entre sequências codificantes e não codificantes Sub-regiões sequências de promotores eucarióticas As bases de dados de promotores eucarióticos foram divididas em 3 regiões Transcrita Não transcrita Core promoter Sub-regiões em sequências de promotores eucarióticos TSS cctcgatagtgccctcataaggcgcttaaacccaccttacccttaccatcatggctagtcgacgccaaaagcagttcgatcggaagtacagctcctatcggtaggtttggagattctggagctgaaaaaaccaa tttt Core Promoter Região não transcrita Região transcrita Experimentos Experimentos Base de teste e de treino dividida em 10 partes Varia-se a taxa entre elas 5 taxas diferentes 10-fold cross validation Comparações com outras abordagens para D. melanogaster 400 seq → 200 promotores, 100 coding, 100 introns Comparações com outras abordagens para H. sapiens Avaliação de performance Resultados Resultados Resultados Trabalhos futuros Utilizar informações estruturais do DNA e predição completa do genoma