Caio César Neves de Oliveira ccno Mário Barbosa de Araújo Júnior mbaj Motivação Informações podem ser extraidas das redes de interação proteína-proteína Falta detalhes dessas interações Esse conhecimento poderá ser uma arma para o estudo de doenças e de produção de remédios Interações da proteína Interações domínio-domínio Gerais ○ Interagem Específicas ○ Interagem ou não ○ Dependem do contexto Expressão dependende do ciclo Localização da célula Características específicas da sequência de aminoácidos Métodos para predizer interações Métodos representativos Association Maximum Likelihood Estimation Domain Pair Exclusion Analysis Parsimonious Explanation Integrative approach Association method Detecta pares de domínios superrepresentados Atribui Score de frequência para cada par Se Pi é observado freqüentemente no domínio i na rede de interação e Pij é observado freqüentemente no par (i, j), temos o score Score é 2 para completa interação (fusão), caso contrário é 0 Association method Association method Outra forma de calcular score É mais precisa por considerar mais fatores N – número de arestas na rede de interação proteína-proteína #exk – número de experimentos distintos na rede que detecta interações da proteína k #ppairsk – número de contatos do potencial domínio na interação da proteína k #ppairskij - número de contatos do potencial domínio entre o par (i, j) na interação da proteína k Pi – frequência do domínio i na rede de proteínas Maximum Likelihood Estimaton (MLE) Para cada par de domínio, ele gera a probabilidade de interação entre o domínio, Maximiza a probabilidade da rede de interação Permite levar em conta falso positivos e falso negativo da informação Interações proteína-proteína e domínio-domínio são tratadas como variáves aleatórias Maximum Likelihood Estimaton (MLE) Variáveis aleatórias PAB ○ 1 – se A e B interagem ○ 0 – caso contrário Dij ○ 1 – se o domínio i e j interagem ○ 0 – caso contrário Assumindo que duas proteínas interagem sse pelo menos um dos potenciais pares de domínios interagem de fato Maximum Likelihood Estimaton (MLE) Probabilidade de interação entre duas proteínas A e B λij = Pr(Dij = 1) – denota a probabilidade do domínio i interagir com j Dij ϵ PAB - Conjunto de potencial domínio que entram em contato com o par de proteínas (A, B) Maximum Likelihood Estimaton (MLE) OAB descreve a observação do experimento de interação 1 para interação observada 0 para caso contrário Denotando fp – false positive fn – false negative Maximum Likelihood Estimaton (MLE) O objetivo do método MLE é estimar o parâmetro λij para maximizar a função de probabilidade L, dada por Maximum Likelihood Estimaton (MLE) Num estudo feito por Deng e seus colegas eles estimaram que se fp = 2.5E-4 e fn = 0.80 os valores λij seria computado com a expectativa máxima, isso maximiza L. Em cada interação t, valores de λij^(t-1) é usado para computar Pr(OAB =1 | λ^(t-1)) Maximum Likelihood Estimaton (MLE) Expectation Step: Maximization Step: E(Dij^(AB)) – probabilidade do domínio (i, j) executar a interação emtre (A, B) Nij – número de par de proteínas na rede que possui (i, j) como potencial par de domínios Maximum Likelihood Estimaton (MLE) Uma limitação do MLE é a dificudade em detectar interações de domínios específicos O algoritmo considera que existem muitos fn Domain Pair Exclusion Analysis (DPEA) Este método utiliza MLE como subrotina Executa o MLE várias vezes Corrige o problema de domínios específicos de MLE Bloqueia uma interação domínio-domínio por vez e analiza o grau de redução da esperança E proteína-proteína Supera o desempenho de Association e MLE Domain Pair Exclusion Analysis (DPEA) Parsimonious Explanation (PE) Um problema de otimização de programação linear Parsimonious Explanation (PE) PW-Score Filtra predições (otimiza) São baseados nas seguites observações ○ Interações com muitas testemunhas são mais fáceis de estarem corretas do que as que possuem poucas ○ Interações domínio-domínio tem sua pontuação relacionada à frequência de ocorrências Pw-score penaliza interações promíscuas e incentiva interações com muitas testemunhas Método com excelentes resultados Integrative approach Abordagem diferente Informações da interação da proteína Composição do domínio da proteína Método baseado nesses principios Integrative Bayesian (IB) Integrative Bayesian (IB) Espectativa de interação de pares de domínios são computado separadamente Levedura Verme Mosca de fruta (drosófila) Humano Scores obtidos utilizando MLE Pr(Dij =1) como score Integrative Bayesian (IB) Nij – número de par de proteínas na rede que possui (i, j) como potenciais contatos domínios Os resultados obtidos pelas quatro redes são considerados quatro pedações independentes Utiliza a base de dados Gene Ontology (GO) como base do algoritmo Desvantagem, pois dados novos sem estudos prévious não podem ser utilizados nesse algoritmo Validação dos Métodos Sugeridos Pares de domínios não específicos versus Pares de dominós específicos Testar para cada par de proteínas que interagem o par de domínios que tem maior score e comparar com o iPFAM Medida de performance: PPV = valor de predição positiva Resultados Métodos aplicados a 1780 proteínas que interagiram PPV Association MLE DPEA PE +- 11% 43% 75% Guimarães e colegas +-11% Descobrindo Rede Fosforilização Motifs sozinhos são insuficientes para identificar as enzimas responsáveis pela fosforilização de locais correspondentes na célula NetworKIN algoritmo para predição de redes de fosforilização NetworKIN first step Experimentalmente os locais de fosforilização são mapeados de acordo com a seqüência da proteína Então é predito a família da proteína que provavelmente é responsável pela fosforilização naquele local Rede Neural (PSSMs) BLAST search NetworKIN second step Informações baseadas no contexto STRING database Schemes Scores são calibrados através do KEGG database Resultando em todos probabilísticos scores para todas as evidencias Associação com outros organismos através Bayesian Scoring Scheme e Floyd-Warshall enzima – substrato 80% do poder de predição vem da informação do contexto Conclusão Poucas pesquisas na área Muitos dados não analisado No caso de interações domínio-peptídeo existe poucos bancos de dados para se fazer pesquisas Referências [1] Protein network based prediction of domain-domain and domain-peptide interactions, Katia Guimaraes and Tereza Przytycka. Systematic discovery of new recognition peptides mediating protein interaction networks, Neduva and Linding Duvidas?