Motif Regressor
Artigo: Integrating regulatory motif discovery
and genome-wide expression analysis
Equipe: Klaus Ribeiro Cavalcante
Tairone César Alves da Silva
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Introdução
•
Determinação dos motifs de uma TFBM
•
Algoritmos computacionais
– Word-enumeration
– Positioniespecific matrix update
– Dictionary methods
•
Estudos acerca de determinação de motifs baseados em
correntes distintas
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Descoberta de uma TFBM
•
Grupamentos de genes baseado em profiles (Roth, et al)
•
Presença de ruído
– Acarretam presença de falsos positivos
– Filtro (Hughes, Estep, Tavazoie, Church)
•
Procedimento iterativo (Holmes e Bruno)
– Não implementado para dados biológicos
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Associação de valores da
expressão gênica
•
Enumeração da palavra e regressão linear
•
Métodos eficazes para motifs pequenos com TFBM’s
sem posições degenerativas
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Passo a passo
•
O artigo apresenta uma alternativa de aproximação
•
MDscan - um método de encontrar motifs de forma rápida e
sensível.
•
Gera um conjunto grande de candidatos a motif.
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Diagrama
Rank all genes by expression and obtain their
upstream sequences
Use Mdscan to find motifs from most induced
and most repressed genes
Score each upstream sequence for matches to
each Mdscan reported motif
Perform simple linear regressio between motifmatching score and gene expression to remove
insignificant motifs
Perform stepwise regression on the significant
motifs to find group of motifs acting together to
affect expression
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Metodologia
•
Rankeamento dos genes
• De acordo com a mudança relativa no nível de
mRNA sob cada condição (microarray)
• Extração de até 800 pb da região “upstream” de
cada gene
• Remoção de repetições:
– Simples (ex.: AAAA…) > 10 b
– Duplas (ex.: ACACA…) > 16 b
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Metodologia
•
Descoberta dos Motifs
• Uso do MDSCAN
• Utilização de sequencias como sementes (5<w<15)
• Busca de sequencias similares (no mínimo m posições
“matched”) e construção de matriz de motifs
• Matrizes são avaliadas por uma função de “score” e os
50 motifs com mais alto score são mantidos
• Adições e remoções são utilizadas para aumentar o
“score” do motif. Motifs com frequencia abaixo de 0.7
são eliminadas.
• MDSCAN retorna até 30 motifs distintos
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Metodologia
•
“Score” de Motifs
• Determinação de quão bem a região “upstream”
match um motif m em termos de grau de
“matching” e numero de sites.
m = Matriz de Probabilidade do motif m
0 = Modelo de Markov de terceira ordem estimado de todas as sequencias
gênicas
•Aumento da sensibilidade e especificidade da função de score
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Metodologia
•
Regressão Linear
• Para cada motif encontrado pelo MDSCAN, uma
regressão simples é realizada:
Yg = Valor da expressão do gene g
m = coeficiente de regressão
•
Motifs candidatos com coef. m significantes são
mantidos e usados no procedimento de regressão linear
múltipla.
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Metodologia
•
Regressão Linear Múltipla
• Adição passo-a-passo de um novo motif.
• Após cada adição, remove-se aqueles cujosefeitos são
suficientemente explicados por mi
• O modelo final é alcançado quando nenhum motif é
adicionado com um coeficiente estatisticamente
significante
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Gráfico 1
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Resultados
•
Motifs descobertos de Rox1p e Yap1p em experimentos
de “overexpression”
• Identificação das TFBMs da Rox1p e Yap1p
examinando as regiões “upstream” dos genes
com mais alta mudança na expressão do Rox1p
e Yap1p.
• Rox1p é um TF que reconhece YYNATTGTTY
(ROX1-binding consensus)
• MDSCAN: busca das regiões “upstream” de 10,
25, 50 e 100 genes mais reprimidos gerando 30
motifs candidatos de 5-15 b.
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Resultados
•
(cont.)
• O motif correto foi encontrado como “top-ranked”
nas entradas de tamanho 10, 25 e 50
sequências, mas não foi no de 100 sequências.
• MOTIF REGRESSOR encontrou os motifs ”topranked” para todas as entradas (10, 25, 50 e 100)
dentro do consenso (ROX1). Valores de
regressão muito baixos ( < 10-10).
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Resultados
•
(cont.)
• ALIGNACE buscou as sequências “upstream”
dos 10, 25, 50 e 100 genes mais reprimidos e
falhou em todos os tamanhos de entrada.
• MEME também não reportou nenhum motif em
consenso (ROX1) em todas as entradas
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Resultados
•
(cont.)
• Yap1p é um ativador de transcrição. Reconhece a
sequencia TTACTAA (YAP1-binding consensus)
• ALIGNACE reportou um motif rankeado em quarto
que difere de uma base do consenso (YAP1) para
entradas de tamanho 10 e 25. Não reportou nenhum
motif para entradas de tamanhos 50 e 100.
• MEME encontrou o motif correto para entrada de
tam. 10, para entradas de tam. 25 e 50 encontrou um
rankeado em terceiro e para entrada 100 não achou
nenhum motif.
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Resultados
•
(cont.)
• MDSCAN superou ALIGNACE e MEME
encontrando o motif correto para entradas de
tam. 10, 25 e 50. Para 100, MDSCAN encontrou
o motif correto com largura w = 10.
• MOTIF REGRESSOR também superou os outros
algoritmos com no mínimo 6 dos 10 motifs “topranked” em consenso (YAP1) para todos os
tamanhos de entrada.
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Resultados
•
Motifs encontrados no experimento de falta de
aminoácidos utilizando microarray
• MOTIF REGRESSOR foi aplicado em
sequências “upstream” dos genes cuja
expressão mudou depois de 30min da falta de
aminoácidos (amino acid starvation)
• MDSCAN encontrou os 414 motifs de largura
5-15 dos genes mais induzidos e mais
reprimidos respectivamente.
• Uma regressão linear simples descartou 179
motifs insignificantes (P > 0.01)
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Resultados
•
(cont.)
• A regressão linear múltipla foi usada nos 235
motifs restantes e selecionou os 25 mais
significantes. Estes 25 motifs juntos
correspondem a 19.8% da variação da expressão
genômica.
• Os 25 motifs são classificados em 15 padrões.
• 8 destes padrões (STRE, GCN4, M3A, M3B,
MET4, PHO4, RAP1, URS1) são previamente
conhecidos e juntos possuem 17.6%
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Gráfico 2
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Resultados
•
(cont.)
• Sob às condições do experimento:
– STRE e GCN4 regulam a síntese de aminoácidos,
regulam positivamente a transcrição.
– M3A e M3B encontrados em genes reprimidos
durante condições de “stress”.
– MET4 regula a ativação de genes envolvidos no
metabolismo do aminoácido (sulfur ?).
– PHO4 presentes no metabolismo do fosfato sob
condições limitantes.
– RAP1 é o regulador de genes de proteínas
ribossômicas (RPGs).
– URS1 presente nas regiões “upstream” de muitos
genes induzidos sob condições de stress.
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Resultados
•
(cont.)
• A partir destes 8 motifs bem conhecidos, foi
adquirido uma visão maior sobre a resposta da
célula à falta de aminoácidos. (aa starvation)
• Os 9 padrões desconhecidos restantes somam
apenas 2.2% na variação.
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Motif Regressor numa
abordagem temporal
•
Processo temporal
– 18 pontos de tempo
•
Obtidos: 273 motifs
•
Eexaminar os efeitos dos motifs sobre todos os ponto de
tempo
•
Agrupamento utilizando distância euclidianas
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Separando os motifs
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Análise dos coeficientes
•
Quinze dos 20 conjuntos do motifs sofreram influências
do ciclo.
– MCM1, SWI5, MCB, SCB, e SFF.
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Coeficientes dos motifs
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Considerações finais
•
MOTIF REGRESSOR superou os outros algoritmos
conhecidos
•
O método combina as vantagens de encontrar o motif e
da análise da regressão, tendo por resultado a
sensibilidade e o especificidade elevados
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Artigo
Erin M. Conlon, X. Shirley Liu, Jason D. Lieb, and Jun S. Liu.
Integrating regulatory motif discovery and genome-wide
expression analysis. University, Cambridge, MA, January
30, 2003
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.
Download

Seminário Integrating Regulatory Motif Discovery