Universidade Federal de Ouro Preto (UFOP)
Programa de Pós-Graduação em Ciência da Computação (PPGCC)
Reconhecimento de Padrões
Teoria da Decisão Bayesiana
David Menotti, Ph.D.
www.decom.ufop.br/menotti
Teoria da Decisão Bayesiana
• Abordagem estatística fundamental em
problemas de classificação.
• Quantificar o custo/benefício entre diferentes
decisões de classificação usando
probabilidades e custos associados à
classificação.
– Cada ação tem um custo associado.
– O risco mais simples é o erro de classificação
– Construir classificadores que minimizem o risco.
Terminologia
• Classes ω (variável aleatória)
– ω1 para robalo, ω2 para salmão.
• Probabilidades a priori P(ω1) and P(ω2 )
– Conhecimento a priori de pescar robalo ou
salmão.
• Função de densidade probabilidade p(x)
– Frequência com a qual encontramos uma
determinada característica
– Evidências.
Terminologia
• Densidade de probabilidade condicional
– p(x/ωj) (Likelihood)
– Frequência com que encontramos uma determinada
característica dado que a mesma pertence a classe
ωj
Terminologia
• Probabilidade a posteriori P(ωj /x)
– Probabilidade que o peixe pertença a classe
ωj dado a característica x.
• Regra de decisão usando somente priors
– ω1 Se P(ω1) > P(ω2); Senão ω2 .
– Essa regra nos faria tomar a mesma decisão
todas as vezes.
Regra de Decisão usando Bayes
P( j / x) 
p( x /  j ) P( j )
p ( x)
likelihood  prior

evidence
2
onde
p( x)   p( x /  j ) P( j )
j 1
Escolha ω1 Se P(ω1 |x) > P(ω2|x); Senão escolha ω2
or
Escolha ω1 Se p(x|ω1)P(ω1) > p(x/ω2)P(ω2); Senão ω2
Regra de Decisão usando Bayes
P(1 ) 
2
3
P ( 2 ) 
1
3
Probabilidade de Erro
• A probabilidade de erro usando Bayes é
dada por
– P(error/x) = min[P(ω1|x), P(ω2|x)]
Obtendo as probabilidades
• Essa teoria funciona somente quando
conhecemos as funções.
• Abordagem objetiva
– As probabilidades são obtidas através de
experimentos
• Abordagem subjetiva
– As probabilidades refletem um grau de
confiança baseada em opinião ou
conhecimento prévio.
Exemplo
• Faça uma pesquisa no campus da UFOP,
perguntando valor e altura do carro que a
pessoa possui
– C1: preço > 50k
– C2: preço < 50k
– Característica X: Altura do carro.
• Usando Bayes, podemos calcular a
probabilidade a posteriori.
p ( x / Ci )P (C i )
P(Ci / x ) 
p( x)
Exemplo (cont)
• Determinando priors
• Para cada carro, perguntar o preço e altura.
– Por exemplo, 1209 carros
• C1 = 221 e C2 = 988
221
 0.183
1209
988
P(C2 ) 
 0.817
1209
P(C1 ) 
Exemplo (cont)
• Determinar a distribuição de probabilidade
Exemplo (cont)
• Para cada barra do histrograma discretizado,
calcular a probabilidade a posteriori.
p( x  1.0 / C1) P( C1)
P(C1 / x  1.0) 

p( x  1.0 / C1) P( C1)  p( x 1.0 / C2) P( C2)
0.2081*0.183

 0.438
0.2081*0.183  0.0597 *0.817
Note que deve
Somar 1
Teoria Generalizada
• Uso de mais de uma característica
• Mais de duas classes
• Possibilita outras ações além da
classificação (rejeição)
• Introduz uma função de erro mais
genérica (loss function)
– Associa custos com cada ação.
Terminologia
•
•
•
•
•
x  Rd
Características formam um vetor
Conjunto finito de classes ω1, ω2, …, ωc
Conjunto finito de ações α1, α2, …, αl
Loss function λ(αi / ωj)
A perda por tomar uma ação αi quando a
classificação for ωj
p (x /  j ) P( j )
• Bayes
P( j / x) 
p( x)
c
onde
where
p(x)   p(x /  j ) P( j )  scale factor 
j 1
Minimização do Risco
• Risco condicional (Expected loss) de
tomar uma ação αi
c
R(ai / x)    (ai /  j ) P( j / x)
j 1
• Esse risco pode ser minimizado
selecionando-se uma ação que minimiza o
risco condicional.
Minimização do Risco
• A regra de Bayes que minimiza R
– Computando R(αi / x) para cada αi dado um x.
– Escolher uma ação αi com o mínimo R(αi /x)
Exemplo
Problema com duas Classes
• Duas possíveis ações
– α1 corresponde a decidir por ω1
– α2 corresponde a decidir por ω2
• Notação
λij=λ(αi,ωj)
• Os riscos condicionais são
onde
Referências
•
(ML 3.1) Decision theory (Basic Framework)
– http://www.youtube.com/watch?v=KYRAO8f5rXA
•
(ML 3.2) Minimizing conditional expected loss
– http://www.youtube.com/watch?v=NC_cTB1PHyQ
•
(ML 3.3) Choosing f to minimize expected loss
– http://www.youtube.com/watch?v=--nMFiqwoZA
•
(ML 3.4) Square loss
– http://www.youtube.com/watch?v=AihhnWyl-J0
•
(ML 3.5, 3.6 and 3.7) The Big Picture (parts 1, 2, and 3)
– http://www.youtube.com/watch?v=frbX2JH-_Aw
– http://www.youtube.com/watch?v=Ih4R42qPRWo
– http://www.youtube.com/watch?v=VP3DxMxXw3Q