Modelos de Markov Não
Observáveis e Gramáticas
Estocásticas Regulares
Ana L. N. Fred
Instituto Superior Técnico
Modelos de Markov Não Observáveis e Gramáticas Regulares
HMM
vs
SFSG:
(Hidden Markov Models) (Stochastic Finite State Grammars)
Modelos de Markov Não Gramáticas Estocásticas de Estados
Finitos
Observáveis
•São instâncias de uma classe mais geral de modelos:
redes estocásticas de estados finitos (Stochastic
Finite-State Networks)
•conj. finito de estados
•distribuições de probabilidade que definem
transições entre estados e a produção de
sequências finitas de observações
•baseados na teoria dos processos estocásticos,
as suas origens são diferentes:
•teoria da informação - modelos de Markov
•extensões da teoria das linguagens formais
•gramáticas estocásticas regulares
•autómatos estocásticos de estados
finitos
•Ambos geram uma sequência interna (nãoobservável) de símbolos (estados) e uma sequência
externa (observável) de símbolos usando regras
probabilísticas.
•Assumem fomalismos diferentes e
distintos de inferência.
mecanismos
•A probabilidade de uma sequência é calculada de
uma forma semelhante
Ana L. N. Fred
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Relações formais entre modelos no
contexto das linguagens geradas
Σ - alfabeto
Σ = {a, b, c}
Σ* - concatenação de símbolos em Σ
aabbacbabbacc
aa
bba
L ⊆ Σ* - linguagem
SL = ( L, p)
linguagem estocástica
L ⊆ Σ*
p : Σ* → [0,1]
se x ∉ L
p( x ) = 0
∑
x∈L
p( x ) = 1
WL - weighted language
SRL = ( L, p) tal que L é regular
(= aceite por um autómato de estados finitos)
- linguagem estocástica regular
Ana L. N. Fred
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Modelos de Markov
HMM
H = (Q, Σ, A, B, π )
Q = {qi } ≡ conjunto finito de estados
Σ ≡ conjunto de símbolos de observação
A : Q × Q → [0,1] ≡ matriz de probabilidade de transição
∑q′∈Q A(q,q′) = 1 , ∀q∈Q
B : Q × Σ → [0,1] ≡ distribuição de probabilidade de observação de símbolo
∑a∈Σ B(q,a) = 1 , ∀q∈Q
π : Q → [0,1] ≡ distribuição de probabilidade do estado inicial
∑q∈Q π(q) = 1
Probabilidade de observação da sequência
x , x ∈Σ
( x) = ∑ π ( q ) B ( q , x ) A( q , q ) B ( q , x )
A(q , q )B(q , x )
x = x1 , x2
p( x | H ) = pH
∑
x1
i
1
q1
Proposição:
n
1
qn
1
1
n −1
n
2
2
n
2
n
Dado um HMM definido em Σ, pH define uma
distribuição de probabilidade em Σ n para cada
n ∈ N.
x ∈Σ pH ( x1
n
n
x ) =
n
π (q ) B(q , x ) A(q , q ) B(q , x )
∑
∑
A(q , q )B(q , x )
= ∑ π (q )(∑ B(q , x )A(q , q )(∑ (∑ B(q , x )) ))
= ∑ π (q )∑ A(q , q )( (∑ A(q , q )) ))
=
1
x1
xn q1
q1
qn
1
qn
1
n −1
1
1
1
1
n
q1
1
=1
Ana L. N. Fred
2
n
n −1
2
2
n
x2
1
q2
2
n
x1
1
2
n
xn
n
qn
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
HMM usando restrições temporais
LRHMM (left-to-right HMM)
q
q
0
q
1
q
2
n
LRHMM - modelo esquerda-direita
H LR = (Q, Σ, A, B, qi , q f )
Q = {qi } ≡ conjunto finito de estados ordenados tal que
se q < q′ então A(q′, q) = 0
qi ≡ estado inicial
q f ≡ estado final
*
HLR define uma função p HLR : Σ → [0,1]
Probabilidade de observação da sequência
x , x ∈Σ
B (q , x ) A( q , q ) B (q , x )
A(q , q ) B(q , x )
x = x1 , x2
p HLR ( x ) =
q2
∑
qn −1
n
i
1
i
i
2
n −1
f
2
2
f
n
A introdução do conceito de estado final modifica as
propriedades de geração estatística de strings
Proposição:
Ana L. N. Fred
ΓHMM
ΓHLR ≠ ∅
ΓHMM ⊄ ΓHLR
ΓHLR ⊄ ΓHMM
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
HMMT -HMM with observation probability
distribution in the transitions
HMMT - definição alternativa (equivalente) de um HMM
em que a distribuição de probabilidade de observação de
símbolo é atribuída às transições em vez de aos estados.
HT = (Q, Σ, A, B, π )
Q, A, π como definidos anteriomente
B : Q × Σ × Q → [0,1]
∑ B(q, a, q′) = 1 ∀q,q′∈Q , se A(q, q′) ≠ 0
a∈Σ
Probabilidade de observação da sequência
x , x ∈Σ
( x ) = ∑ π ( q ) A( q , q ) B ( q , x , q )
A(q , q )B(q , x , q )
x = x1 , x2
p HT
0
q0
qn
n
0
i
1
n −1
0
n
1
n −1
1
n
n
Proposição:
Para cada HMM H = (Q, Σ, A, B, π ) existe um HMMT
HT = (Q′, Σ, A′, B′, π ′) tal que ∀ x∈Σ* , pH ( x) = pHT ( x)
Proposição:
Para cada HMMT HT = (Q, Σ, A, B, π ) existe um HMM
H = (Q′, Σ, A′, B′, π ′) tal que ∀ x∈Σ* , p H ( x) = pHT ( x)
Ana L. N. Fred
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Proposição:
Para cada HMM H = (Q, Σ, A, B, π ) existe um HMMT
HT = (Q′, Σ, A′, B′, π ′) tal que ∀ x∈Σ* , pH ( x) = pHT ( x)
Demonstração:
Seja Q′ = Q {q0 } com q0 ∉ Q
A′( q, q′) = A(q, q′)
∀q, q′ ∈ Q
A′( q0 , q) = π (q )
∀q ∈ Q
B′( q, a, q′) = B( a, q′)
B′( q0 , a, q) = B( a, q )
π ′(q0 ) = 1
∀a ∈ Σ, ∀q, q′ ∈ Q
∀a ∈ Σ, ∀q ∈ Q
e π ′(q ) = 0 ∀q ∈ Q
a) As novas distribuições verificam a definição de HMMT:
∑
∑
∑
∑
q ′∈Q
q∈Q
A′(q, q′) = ∑q′∈Q A( q, q′) = 1
∀q ∈ Q
A′( q0 , q ) = ∑q∈Q π (q) = 1
B′(q, a, q′) = ∑a∈Σ B( a, q′) = 1 ∀q′ ∈ Q
B′(q0 , a, q) = ∑a∈Σ B( a, q ) = 1 ∀q ∈ Q
a∈Σ
a∈Σ
b)A equivalência é mostrada por: para todo o x com |x|=n
pHT ( x) =
π ′(q ) A′(q , q ) B′(q , x , q )
∑
′
′
q0
=
qn
0
1
n −1
0
1
1
, qn ) B (qn −1 , xn , qn )
π (q ) B( x , q ) A(q , q )
∑
A(q
1
q1
qn
= pH ( x)
Ana L. N. Fred
A (q
0
1
1
n −1
1
2
, q n ) B ( xn , q n )
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
HMM
π(q 1 )
B(a,q 1 )
A(q 1 ,q 3 )
HMMT
q3
q1
B(a,q 3 )
π(q 3 )
A(q 1 ,q 3 )
q3
q1
B(a,q 3 )
B(a,q 3 )
B(a,q 2 )
A(q 1 ,q 2 )
B(a,q 2 )
A(q 2 ,q 3 )
A(q 2 ,q 3 )
A(q 1 ,q 2 )
q2
π(q 2 )
q2
B(a,q 1 )
π(q 1 )
B(q 0 ,a,q 2 )=
B(a,q 2 )
π(q 2 )
π(q 3 )
B(a,q 3 )
q0
Ana L. N. Fred
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Proposição:
Para cada HMMT HT = (Q, Σ, A, B, π ) existe um HMM
H = (Q′, Σ, A′, B′, π ′) tal que ∀ x∈Σ* , p H ( x) = pHT ( x)
Demonstração:
Seja
Q′ = {(q, q′) | q, q′ ∈ Q e A(q, q′) ≠ 0}
A′((q, q′)), (q′′, q′′′)) = A(q′′, q′′′) se q′ = q′′
=0
caso contrário
B′(a, (q, q′)) = B(q, a, q′)
π ′((q, q′)) = π (q) A(q, q′)
a) As novas distribuições verificam a definição de HMM:
∑
∑
∑
( q ′′, q ′′′ )
A′((q, q′), ( q′′, q′′′)) = ∑q′′′ A(q′, q′′′) = 1 ∀q, q′ ∈ Q
B′(a, (q, q′)) = ∑a∈Σ B (q, a, q′) = 1
π ′(( q, q′)) = ∑q ,q′ π (q) A(q, q′) = 1
( q , q′ )
∀q, q′ ∈ Q
a∈Σ
b)A equivalência é mostrada por: para todo o x com |x|=n
pH ( x) =
π ′(q , q ) B′( x , (q , q )) A′((q , q ), (q , q ))
∑
0
q0
=
qn
1
1
0
1
0
1
1
2
B′( x2 , (q1 , q2 )) A′((qn − 2 , qn −1 ), (qn −1 , qn ))
B′( xn , (qn −1 , qn ))
π (q ) A(q , q ) B(q , x , q )
∑
q0
qn
= pHT ( x)
Ana L. N. Fred
0
0
1
0
1
1
A(q1 , q2 ) B(q1 , x2 , q2 )
A(qn −1 , qn ) B(qn −1 , xn , qn )
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
HMMT
HMM
π1
π0
q0
B(q 1 ,a,q 2 )
q1
A(q 1 ,q 2 )
B(q 0 ,a,q 2 )
A(q 2 ,q 1 )
A(q 0 ,q 2 )
q2
π2
B(q 2 ,a,q 1 )
B(q 1 ,a,q 2 )
π1 A(q 1 q 2 )
π0 A(q 0 q 2 )
B(q 0 ,a,q 2 ) q 0 q 2
A(q 2 ,q 1 )
q 1q 2
A(q 1 ,q 2 )
A(q 2 ,q 1 )
q 2q 1
π2 A(q 2 q 1 )
B(q 2 ,a,q 1 )
Ana L. N. Fred
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
HMMTF - HMM with observation
probability distribution in the transitions and
final state
HMMTF -HMMTF com a restrição de um estado final
“absorvente”
HTF = (Q, Σ, A, B, qi , q f )
∑q′ A(q, q′) = 1 ∀q∈Q−{q f }
B : Q × Σ × Q → [0,1]
∑ B(q, a, q′) = 1 ∀q,q′∈Q , se A(q, q′) ≠ 0
a∈Σ
qi ≡ estado inicial
q f ≡ estado final, no qual todas as transições são proibidas
Todas as sequências terminam no estado final
Probabilidade de observação da sequência
p HTF ( x) =
x = x1 , x2
x
∑
q1
Ana L. N. Fred
n
, xi ∈ Σ
A(qi , q1 ) B ( qi , x1 , q1 )
A( qn −1 , q f ) B ( qn −1 , xn , q f )
q n−1
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
HMMTF <=> SFSG
Proposição:
Dado um HMMTF HTF = (Q, Σ, A, B, qi , q f ) existe uma SFSG
G e = (G, µ ), com G = ( N , Σ, R, S ), tal que ∀ x∈Σ* , pGe ( x) = p HTF ( x)
N = Q − {q f } ; S = qi
R = {(q → aq′) | B (q, a, q′) ≠ 0 e q′ ≠ q f }
{(q → a) | B(q, a, q f ) ≠ 0 }
µ ( q → aq′) = A(q, q′) B(q, a, q′)
µ ( q → a) = A(q, q f ) B (q, a, q f )
Proposição:
Dado uma SFSG, G e = (G, µ ), existe um HMMTF,
HTF = (Q, Σ, A, B, qi , q f ) , tal que ∀ x∈Σ* , pGe ( x) = pHTF ( x)
Q = N {q f }
A( q, q′) = ∑ µ (q → aq′)
q f ∉N , qi = S
∀q ,q′∈N
a
B( q, a, q′) = µ (q → aq′) / A(q, q′) ∀q ,q′∈N , ∀ a∈N
A( q, q f ) = ∑ µ (q → a )
∀q∈N
a
B( q, a, q f ) = µ (q → a ) / A(q, q f )
A( q, q′) = 0
A( q, q f ) = 0
Ana L. N. Fred
∀q∈N , ∀a∈N
se (q → aq′) ∉ R
se (q → a) ∉ R
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
HMMT
B(q i,b,q 1 )
µ(q i->a q 1 )=
A(q i,q 1 )B(q i,a,q 1 )
B(q 1 ,a,q f )
B(q i,a,q 1 )
A(q 1 ,q f)
A(q i ,q 1 )
qi
SFSG
q1
a
qf
qi
µ(q 1 ->a )=
A(q 1 ,q f )B(q
a 1 ,a,q f )
q1
T
b
µ(q i->b q 1 )=
A(q i,q 1 )B(q i,b,q 1 )
Ana L. N. Fred
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
SFSG
µ(q 1 ->a )
µ(q i->a q 1 )
a
a
qi
HMMT
B(q i,a,q 1 )=
µ(q i->a q 1 )/A(q i,q 1 )
B(q 1 ,a,q f )=1
q1
b
µ(q i->b q 1 )
Ana L. N. Fred
T
qi
A(qi ,q1 )=
µ(q i->a q1 )+
µ(q i->b q1 )
A(q1 ,qf )=
µ(q 1 ->a)
q1
qf
B(q i,b,q 1 )=
µ(q i->b q 1 )/A(q i,q 1 )
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
HMM
SFSG:
Prob. de observação de uma
sequência:
n
p( x ) =
∑
∏ A( q
q 1 qn t =1
D
t −1
, qt ) B(qt , xt )
n
p( x ) = ∑ ∏ Pr( At −1 → xt At )
i =1 t =1
Estrutura
• definida a priori
• inferida a partir do
conjunto de treino
0
2
0,1,2,3,7
1
σ
0
0
1
0
T
1
1
0
0,1
1
2
Estimação de Parâmetros
•Viterbi
•Baum-Welch (EM)
Ana L. N. Fred
•Método da apresentação
estocástica (equivalente a
ML para gramáticas não
ambíguas)
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Gramáticas de Estados Finitos
•
•
0010010010014
0010010014
•
•
G=(N,Σ,R,S)
N={n1,n2,n3,n4}
Σ={0,1,4}
S=n1
R: n1 -> 0 n2
n2 -> 0 n3
n3 -> 1 n4 | 1 n1
n4 -> 4
•
•
Derivação de uma sequência:
n1
0 n2
00 n3
001 n1
0010 n2
00100 n3
001001 n4
0010014
Ana L. N. Fred
n1
0
1
n2
0
n3
1
n4
4
n1
0
T
n2
0
n3
1
n1
0
n2
0 n3
1 n4
4
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
SFSG - Gramáticas estocásticas de
estados finitos
SFSG
Ge = (G, µ )
G = ( N , Σ, R, S ) - gramática regular
µ : R → [0,1]
∑a∈Σ,B∈N {ε } µ ( A → aB) = 1
Derivação de x a partir de S de acordo com G é uma
sequência de regras D(x)=(r1,r2,…,rn(x) que permite
obter x a partir de S por sucessiva aplicação de regras em
D(x).
Probabilidade associada à derivação D(x):
p ( D ( x)) = µ (r1 ) µ (r2 )
µ (r
n( x)
)
Probabilidade de geração da sequência
x = x1 , x2
x
n
, xi ∈ Σ
se não existe uma derivação para x
0
pGe ( x) =  p( D( x )) para todas as derivações D ( x)
∑
 D ( x )
Ana L. N. Fred
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
∑p
Proposição: Dada uma SFSG
Ge
( x) ≤ 1
x∈Σ*
Pn = 1 − ∑a a a
1 2
n
∑
C1C 2
C ∈N ( µ ( S → a1C1 )
Quando n → ∞, Pn →
n
µ (Cn −1 → an Cn ))
∑p
Ge
x∈Σ
( x)
*
∴ ∑ pGe ( x) ≤ 1
x∈Σ*
Dada uma SFSG, se
diz - se consistente
Ana L. N. Fred
∑p
Ge
( x) = 1 a gramática
x∈Σ *
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Reconhecimento de Objectos
Metodologia
Extração de
Contornos
Descrição em
string
Treino
HMM/SFSG
Classificação
MAP
Baseado num
método de
comparação
com limiar
8 directional
differential
chain code
Extração de contornos
•O contorno do objecto é amostrado em 50 pontos
equi-espaçados
•o ângulo entre segmentos consecutivos é
quantifcado em 8 níveis.
Ana L. N. Fred
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Base de Dados de Imagem
•15 tipos de ferramentas
•50 imagens por ferramenta, divididas em conjunto de
treino e de teste
•incluem-se diferentes poses
00000000500000000010000060000016100000076000000003
00000000500000000010000660000100000000166000000003
00000000660000001610000067000010000000066000000003
00000000500000000000040120500001700000166000000003
00000000570000000100076030760001000000005000000003
00000000500000000000050030500001700000075000000003
Exemplos de Ferramentas
t1
Ana L. N. Fred
t2
t3
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
t4
t5
t6
t7
t8
t9
t11
t12
t14
Ana L. N. Fred
t13
t15
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Aparato Experimental
Aprendizagem do Modelo
•Cada objecto é modelado por um HMM ou uma SFSG,
treinado de acordo com:
HMM: Topologias:
•Totalmente ligada (10 & 20 estados)
•Esquerda-direita (20 & 50 estados)
Estimação de Parâmetros:
•Baum-Welch
•Viterbi
SFSG: Topologia:
•inferida a partir dos dados de treino usando o
método das k-tails (k=1, … 10)
•o número de estados depende da estrutura dos
dados
Estimação de Parâmetros:
•Método da apresentação estocástica
Ana L. N. Fred
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Resultados
HMM:Os melhores resultados foram obtidos com o
algoritmo de BW
Ponto inicial fixo
Totalmente
ligada
Esquerda-direita
Ponto inicial arbitrário
99.7
99.5
100
98.9
SFSG:
Pe: % erro; Pm: % não reconhecimento; Pec: % erro com prob-NN
Rec: % global de reconhecimento
* Classificação nearest-neighbor probabilística
Ana L. N. Fred
IST, Julho de 98
Modelos de Markov Não Observáveis e Gramáticas Regulares
Conclusões
•A abordagem sintáctica permite uma automatização total
dos processos de modelação e reconhecimento => as
estruturas obtidas por SFSGs e HMMs são diferentes, as
primeiras dependendo da complexidade estrutural dos dados.
• No respeitante à estimação de parâmetros o método de
apresentação estocástica é semelhante ao algoritmo de
Viterbi usado no treino dos HMMs.
Os resultados experimentais revelam:
•elevados níveis de reconhecimento por ambos os métodos
•HMMs são mais robustos no sentido em que possuem uma
maior capacidade de generalização do que as SFSGs. Esta
dificuldade é ultrapassada usando parsers correctores de
erros (regra de decisão o vizinho mais próximo
probabilistico) à custa de um maior custo computacional.
•As SFSGs conduzem geralmente a modelos de menor
dimensão.
Ana L. N. Fred
IST, Julho de 98
Download

Modelos de Markov e Gramáticas Regulares