Aula Prática Modelagem de Duração Ivan G. Costa Filho [email protected] Centro de Informática Universidade Federal de Pernambuco Biologia In Silico - Centro de Informática - UFPE Exemplo de HMM Casino Desonesto Σ = {0, 1} (0 for Tails and 1 Heads) Q = {F,B} – F for Fair & B for Biased coin. Biologia In Silico - Centro de Informática - UFPE Distribuição de Sequencias • Qual a distribuição do tamanho de sequencias do dado justo/injusto? • Criar a HMM, gerar dados e plotar gráficos .... Biologia In Silico - Centro de Informática - UFPE Criando o Casino Desonesto > from ghmm import * > sigma = IntegerRange(1,3) # defining sigma > A = [[0.9, 0.1], [0.1, 0.9]] # transition matrix > #emission probailities > efair = [0.5, 0.5] > eloaded = [3.0/4, 1.0/4] > B = [efair, eloaded] > pi = [0.5, 0.5] #initial state probability > #start a new hmmm > m = HMMFromMatrices(sigma, DiscreteDistribution(sigma), A, B, pi) > print m Biologia In Silico - Centro de Informática - UFPE Gerando dados > # sample data > obs_seq = m.sampleSingle(10000) > # estimate viterbi > v = m.viterbi(obs_seq) > states = v[0] Biologia In Silico - Centro de Informática - UFPE Distribuições Sequencias I Biologia In Silico - Centro de Informática - UFPE Distribuições Tamanho Sequencias II > A = [[0.95, 0.05], [0.1, 0.9]] # transition matrix Biologia In Silico - Centro de Informática - UFPE Contando tamanho das Seqüências # counting distributions distFair = [] distNonFair = [] current = states[0] count = 0 for i in states: if current == i: count = count + 1 else: if current == 1: distFair.append(count) else: distNonFair.append(count) current = i count = 0 Biologia In Silico - Centro de Informática - UFPE Modeling the Duration of States Length distribution of region X: 1-p p X Y 1-q • Biologia In Silico - Centro de Informática - UFPE Geometric distribution mean = 1/(1-p) q Example: exon lengths in genes Biologia In Silico - Centro de Informática - UFPE Solution : Negative binomial distribution p p p 1–p X(1) 1–p 1–p X(2) …… Duration in X: m turns, where • During first m – 1 turns, exactly n – 1 arrows to next state are followed • During mth turn, an arrow to next state is followed Biologia In Silico - Centro de Informática - UFPE X(n) Y Solution : Negative binomial distribution p p p 1–p X(1) 1–p 1–p X(2) …… mean(l) = n*(1-p)/p std(l) = n*(1-p)/p2 Biologia In Silico - Centro de Informática - UFPE X(n) Y Example: exon lengths in genes Biologia In Silico - Centro de Informática - UFPE Casino Desonesto Modelagem de Tamanho > A = [[0.7, 0.3,0,0], [0,0.7, 0.3,0], [0,0,0.7, 0.3], [0.3,0,0,0.7]] > #emission probailities > efair = [0.5, 0.5] > eloaded = [3.0/4, 1.0/4] > B = [efair, efair, efair, eloaded] > pi = [0.25, 0.25, 0.25, 0.25] #initial state probability > #start a new hmmm > m = HMMFromMatrices(sigma, DiscreteDistribution(sigma), A, B, pi) > ... Biologia In Silico - Centro de Informática - UFPE Distribuições Tamanho Seqüências Biologia In Silico - Centro de Informática - UFPE Lista de Exercicio • Para ser feita em duplas (todos tem que participar nos projetos) • Apresentar dia 20/11. • Extender o metodo de deteccao de ilhas para modelagem de tamanho de sequencias • Dados www.cin.ufpe.br/~igcf/tabc/cpgs.zip Biologia In Silico - Centro de Informática - UFPE Como fazer • Extrair dos dados o tamanho das ilhas/nao ilhas • Usar esses dados para definir p e n. • Avaliar como no projeto anterior (contig1 e 2 para treino e 3 para validacao). • Relatorio • Expandir o relatorio anterior, incluido nova analise e comparando com os resultados anteriores. • Incluir graficos da predicao X posterior para todos os metodos avaliados. Biologia In Silico - Centro de Informática - UFPE Como fazer - Graficos Biologia In Silico - Centro de Informática - UFPE Material • Ver o capitulo 3.4 R Durbin, Sean R Eddy, A Krogh, Biological Sequence Analysis : Probabilistic Models of Proteins and Nucleic Acids, Cambridge University Press. • Exercicio de ilhas CpGs inspirados em Dongsup Kim at Korea Advanced Institute of Science and Technology Biologia In Silico - Centro de Informática - UFPE