Aula Prática
Modelagem de Duração
Ivan G. Costa Filho
[email protected]
Centro de Informática
Universidade Federal de Pernambuco
Biologia In Silico - Centro de Informática - UFPE
Exemplo de HMM
Casino Desonesto
Σ = {0, 1} (0 for Tails
and 1 Heads)
Q = {F,B} – F for Fair &
B for Biased coin.
Biologia In Silico - Centro de Informática - UFPE
Distribuição de Sequencias
•
Qual a distribuição do tamanho de
sequencias do dado justo/injusto?
•
Criar a HMM, gerar dados e plotar
gráficos ....
Biologia In Silico - Centro de Informática - UFPE
Criando o Casino Desonesto
> from ghmm import *
> sigma = IntegerRange(1,3) # defining sigma
> A = [[0.9, 0.1], [0.1, 0.9]] # transition matrix
> #emission probailities
> efair = [0.5, 0.5]
> eloaded = [3.0/4, 1.0/4]
> B = [efair, eloaded]
> pi = [0.5, 0.5] #initial state probability
> #start a new hmmm
> m = HMMFromMatrices(sigma, DiscreteDistribution(sigma), A, B,
pi)
> print m
Biologia In Silico - Centro de Informática - UFPE
Gerando dados
> # sample data
> obs_seq = m.sampleSingle(10000)
> # estimate viterbi
> v = m.viterbi(obs_seq)
> states = v[0]
Biologia In Silico - Centro de Informática - UFPE
Distribuições Sequencias I
Biologia In Silico - Centro de Informática - UFPE
Distribuições Tamanho
Sequencias II
> A = [[0.95, 0.05], [0.1, 0.9]] # transition matrix
Biologia In Silico - Centro de Informática - UFPE
Contando tamanho das
Seqüências
# counting distributions
distFair = []
distNonFair = []
current = states[0]
count = 0
for i in states:
if current == i:
count = count + 1
else:
if current == 1:
distFair.append(count)
else:
distNonFair.append(count)
current = i
count = 0
Biologia In Silico - Centro de Informática - UFPE
Modeling the Duration of
States
Length distribution of region X:
1-p
p
X
Y
1-q
•
Biologia In Silico - Centro de Informática - UFPE
Geometric distribution
mean = 1/(1-p)
q
Example: exon lengths in genes
Biologia In Silico - Centro de Informática - UFPE
Solution : Negative binomial
distribution
p
p
p
1–p
X(1)
1–p
1–p
X(2)
……
Duration in X: m turns, where
• During first m – 1 turns, exactly
n – 1 arrows to next state are
followed
• During mth turn, an arrow to
next state is followed
Biologia In Silico - Centro de Informática - UFPE
X(n)
Y
Solution : Negative binomial
distribution
p
p
p
1–p
X(1)
1–p
1–p
X(2)
……
mean(l) = n*(1-p)/p
std(l) = n*(1-p)/p2
Biologia In Silico - Centro de Informática - UFPE
X(n)
Y
Example: exon lengths in genes
Biologia In Silico - Centro de Informática - UFPE
Casino Desonesto
Modelagem de Tamanho
> A = [[0.7, 0.3,0,0], [0,0.7, 0.3,0],
[0,0,0.7, 0.3], [0.3,0,0,0.7]]
> #emission probailities
> efair = [0.5, 0.5]
> eloaded = [3.0/4, 1.0/4]
> B = [efair, efair, efair, eloaded]
> pi = [0.25, 0.25, 0.25, 0.25] #initial state probability
> #start a new hmmm
> m = HMMFromMatrices(sigma, DiscreteDistribution(sigma), A, B,
pi)
> ...
Biologia In Silico - Centro de Informática - UFPE
Distribuições Tamanho
Seqüências
Biologia In Silico - Centro de Informática - UFPE
Lista de Exercicio
• Para ser feita em duplas (todos tem que
participar nos projetos)
• Apresentar dia 20/11.
• Extender o metodo de deteccao de ilhas para
modelagem de tamanho de sequencias
• Dados
www.cin.ufpe.br/~igcf/tabc/cpgs.zip
Biologia In Silico - Centro de Informática - UFPE
Como fazer
• Extrair dos dados o tamanho das ilhas/nao
ilhas
• Usar esses dados para definir p e n.
• Avaliar como no projeto anterior (contig1 e 2
para treino e 3 para validacao).
• Relatorio
• Expandir o relatorio anterior, incluido nova analise
e comparando com os resultados anteriores.
• Incluir graficos da predicao X posterior para todos
os metodos avaliados.
Biologia In Silico - Centro de Informática - UFPE
Como fazer - Graficos
Biologia In Silico - Centro de Informática - UFPE
Material
• Ver o capitulo 3.4 R Durbin, Sean R Eddy, A
Krogh, Biological Sequence Analysis :
Probabilistic Models of Proteins and Nucleic
Acids, Cambridge University Press.
• Exercicio de ilhas CpGs inspirados em
Dongsup Kim at Korea Advanced Institute of
Science and Technology
Biologia In Silico - Centro de Informática - UFPE
Download

Document