Motif Regressor Artigo: Integrating regulatory motif discovery and genome-wide expression analysis Equipe: Klaus Ribeiro Cavalcante Tairone César Alves da Silva Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Introdução • Determinação dos motifs de uma TFBM • Algoritmos computacionais – Word-enumeration – Positioniespecific matrix update – Dictionary methods • Estudos acerca de determinação de motifs baseados em correntes distintas Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Descoberta de uma TFBM • Grupamentos de genes baseado em profiles (Roth, et al) • Presença de ruído – Acarretam presença de falsos positivos – Filtro (Hughes, Estep, Tavazoie, Church) • Procedimento iterativo (Holmes e Bruno) – Não implementado para dados biológicos Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Associação de valores da expressão gênica • Enumeração da palavra e regressão linear • Métodos eficazes para motifs pequenos com TFBM’s sem posições degenerativas Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Passo a passo • O artigo apresenta uma alternativa de aproximação • MDscan - um método de encontrar motifs de forma rápida e sensível. • Gera um conjunto grande de candidatos a motif. Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Diagrama Rank all genes by expression and obtain their upstream sequences Use Mdscan to find motifs from most induced and most repressed genes Score each upstream sequence for matches to each Mdscan reported motif Perform simple linear regressio between motifmatching score and gene expression to remove insignificant motifs Perform stepwise regression on the significant motifs to find group of motifs acting together to affect expression Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Metodologia • Rankeamento dos genes • De acordo com a mudança relativa no nível de mRNA sob cada condição (microarray) • Extração de até 800 pb da região “upstream” de cada gene • Remoção de repetições: – Simples (ex.: AAAA…) > 10 b – Duplas (ex.: ACACA…) > 16 b Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Metodologia • Descoberta dos Motifs • Uso do MDSCAN • Utilização de sequencias como sementes (5<w<15) • Busca de sequencias similares (no mínimo m posições “matched”) e construção de matriz de motifs • Matrizes são avaliadas por uma função de “score” e os 50 motifs com mais alto score são mantidos • Adições e remoções são utilizadas para aumentar o “score” do motif. Motifs com frequencia abaixo de 0.7 são eliminadas. • MDSCAN retorna até 30 motifs distintos Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Metodologia • “Score” de Motifs • Determinação de quão bem a região “upstream” match um motif m em termos de grau de “matching” e numero de sites. m = Matriz de Probabilidade do motif m 0 = Modelo de Markov de terceira ordem estimado de todas as sequencias gênicas •Aumento da sensibilidade e especificidade da função de score Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Metodologia • Regressão Linear • Para cada motif encontrado pelo MDSCAN, uma regressão simples é realizada: Yg = Valor da expressão do gene g m = coeficiente de regressão • Motifs candidatos com coef. m significantes são mantidos e usados no procedimento de regressão linear múltipla. Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Metodologia • Regressão Linear Múltipla • Adição passo-a-passo de um novo motif. • Após cada adição, remove-se aqueles cujosefeitos são suficientemente explicados por mi • O modelo final é alcançado quando nenhum motif é adicionado com um coeficiente estatisticamente significante Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Gráfico 1 Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Resultados • Motifs descobertos de Rox1p e Yap1p em experimentos de “overexpression” • Identificação das TFBMs da Rox1p e Yap1p examinando as regiões “upstream” dos genes com mais alta mudança na expressão do Rox1p e Yap1p. • Rox1p é um TF que reconhece YYNATTGTTY (ROX1-binding consensus) • MDSCAN: busca das regiões “upstream” de 10, 25, 50 e 100 genes mais reprimidos gerando 30 motifs candidatos de 5-15 b. Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Resultados • (cont.) • O motif correto foi encontrado como “top-ranked” nas entradas de tamanho 10, 25 e 50 sequências, mas não foi no de 100 sequências. • MOTIF REGRESSOR encontrou os motifs ”topranked” para todas as entradas (10, 25, 50 e 100) dentro do consenso (ROX1). Valores de regressão muito baixos ( < 10-10). Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Resultados • (cont.) • ALIGNACE buscou as sequências “upstream” dos 10, 25, 50 e 100 genes mais reprimidos e falhou em todos os tamanhos de entrada. • MEME também não reportou nenhum motif em consenso (ROX1) em todas as entradas Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Resultados • (cont.) • Yap1p é um ativador de transcrição. Reconhece a sequencia TTACTAA (YAP1-binding consensus) • ALIGNACE reportou um motif rankeado em quarto que difere de uma base do consenso (YAP1) para entradas de tamanho 10 e 25. Não reportou nenhum motif para entradas de tamanhos 50 e 100. • MEME encontrou o motif correto para entrada de tam. 10, para entradas de tam. 25 e 50 encontrou um rankeado em terceiro e para entrada 100 não achou nenhum motif. Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Resultados • (cont.) • MDSCAN superou ALIGNACE e MEME encontrando o motif correto para entradas de tam. 10, 25 e 50. Para 100, MDSCAN encontrou o motif correto com largura w = 10. • MOTIF REGRESSOR também superou os outros algoritmos com no mínimo 6 dos 10 motifs “topranked” em consenso (YAP1) para todos os tamanhos de entrada. Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Resultados • Motifs encontrados no experimento de falta de aminoácidos utilizando microarray • MOTIF REGRESSOR foi aplicado em sequências “upstream” dos genes cuja expressão mudou depois de 30min da falta de aminoácidos (amino acid starvation) • MDSCAN encontrou os 414 motifs de largura 5-15 dos genes mais induzidos e mais reprimidos respectivamente. • Uma regressão linear simples descartou 179 motifs insignificantes (P > 0.01) Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Resultados • (cont.) • A regressão linear múltipla foi usada nos 235 motifs restantes e selecionou os 25 mais significantes. Estes 25 motifs juntos correspondem a 19.8% da variação da expressão genômica. • Os 25 motifs são classificados em 15 padrões. • 8 destes padrões (STRE, GCN4, M3A, M3B, MET4, PHO4, RAP1, URS1) são previamente conhecidos e juntos possuem 17.6% Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Gráfico 2 Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Resultados • (cont.) • Sob às condições do experimento: – STRE e GCN4 regulam a síntese de aminoácidos, regulam positivamente a transcrição. – M3A e M3B encontrados em genes reprimidos durante condições de “stress”. – MET4 regula a ativação de genes envolvidos no metabolismo do aminoácido (sulfur ?). – PHO4 presentes no metabolismo do fosfato sob condições limitantes. – RAP1 é o regulador de genes de proteínas ribossômicas (RPGs). – URS1 presente nas regiões “upstream” de muitos genes induzidos sob condições de stress. Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Resultados • (cont.) • A partir destes 8 motifs bem conhecidos, foi adquirido uma visão maior sobre a resposta da célula à falta de aminoácidos. (aa starvation) • Os 9 padrões desconhecidos restantes somam apenas 2.2% na variação. Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor numa abordagem temporal • Processo temporal – 18 pontos de tempo • Obtidos: 273 motifs • Eexaminar os efeitos dos motifs sobre todos os ponto de tempo • Agrupamento utilizando distância euclidianas Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Separando os motifs Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Análise dos coeficientes • Quinze dos 20 conjuntos do motifs sofreram influências do ciclo. – MCM1, SWI5, MCB, SCB, e SFF. Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Coeficientes dos motifs Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Considerações finais • MOTIF REGRESSOR superou os outros algoritmos conhecidos • O método combina as vantagens de encontrar o motif e da análise da regressão, tendo por resultado a sensibilidade e o especificidade elevados Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Artigo Erin M. Conlon, X. Shirley Liu, Jason D. Lieb, and Jun S. Liu. Integrating regulatory motif discovery and genome-wide expression analysis. University, Cambridge, MA, January 30, 2003 Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr.