Metodologia bayesiana e
adequação de modelos
Doutoranda: Maria João Polidoro
Orientador: Fernando Magalhães
Co-orientador: Maria Antónia AmaralTurkman
GI3 – Encontro Ericeira – 20 Fevereiro 2010
Tópicos
• Problema
• Objectivos
• Estado da Arte
• Estudo de simulação
• Trabalho futuro
GI3 – Encontro Ericeira – 20 Fevereiro 2010
2
Problema
Um dos problemas básicos em
estatística é o de averiguar se
proposto para representar o
aleatório que produz um conjunto
ou não adequado.
GI3 – Encontro Ericeira – 20 Fevereiro 2010
modelação
o modelo
fenómeno
de dados é
3
Objectivos
O trabalho de doutoramento que propomos
visa desenvolver novas técnicas de estudo da
adequabilidade de modelos, focada numa
abordagem bayesiana não paramétrica.
O conjunto de técnicas deve permitir, de forma
clara, dizer até que ponto o modelo se ajusta
ou se um novo modelo tem que ser gerado.
GI3 – Encontro Ericeira – 20 Fevereiro 2010
4
Estado da Arte
o Métodos preditivos
Gelman et al (1996); Bayarri e Berger (2000); Robins
et al (2000); Hjort et al (2006) e Draper e Krnjajic
(2007)
o Validação cruzada
Gelfand et al (1992); Lampinen e Vehtari (2002) e
Marshall e Spiedelhalter (2003)
o Não paramétrica
Carota e Parmigiani (1996); Conigliani et al (2000);
Spezzaferri et al (2006); Berger e Guglielmi (2001); e
Johnson (2004,2007)
GI3 – Encontro Ericeira – 20 Fevereiro 2010
5
Abordagens
Tradicionalmente, a abordagem bayesiana
para o estudo da avaliação da adequação
de um modelo, compara os valores
observados com os valores preditos.
Exemplo: valor p preditivo de discrepância (Gelman et al,1996)
valor p  Pr
p ( x rep , | xobs )
T ( X rep ,  )  t ( xobs ,  ) | xobs 
p ( x rep , | xobs )  f ( x rep | ) h ( | xobs )
GI3 – Encontro Ericeira – 20 Fevereiro 2010
6
Abordagens
Alternativamente, uma outra abordagem
bayesiana designada de não paramétrica,
consiste em definir um modelo mais alargado
que incorpore o modelo em análise, utilizando
seguidamente, medidas de comparação entre
os dois modelos, por exemplo, o factor de
Bayes.
GI3 – Encontro Ericeira – 20 Fevereiro 2010
7
Abordagem não paramétrica (CCO,2000)
Seja x=(x1,x2,…,xn) uma amostra de n observações i.i.d. onde
cada observação pode ser classificada em um dos k+1 grupos
Gj, j=1,2,…,k e seja r=(r0,r1,…,rk) o número de observações, xi,
que caem em cada um dos grupos.
k
M1 :
Pr(X i  G j |  )   j ( ) e h ( ), f1 ( r |  )    j ( )  ,
0
1
rj
j 0
M 2 : Pr(X i  G j |  )   j , f 2 ( r |  )  Multinomial(  ( 0 ,1 ,..., k ))
 ~ Dirichlet(c  (c0 , c1 ,..., ck ))
E  j  
cj

k
j 0

cj
cj
c
  j ( ), j  0,1,..., k
GI3 – Encontro Ericeira – 20 Fevereiro 2010
8
Abordagem não paramétrica (CCO,2000)
Para a comparação, os autores utilizam o factor de Bayes
fraccionário, dado por
21
frac
BF
q2 (r ; b)
( r ; b) 
q1 (r ; b)
onde

 f (r |  ) h ( )d
f (r |  )h ( |  )h ( )d d


q ( r ; b) 
  f (r |  ) h ( |  )h ( )d d
q1 (r ; b) 
f1 (r |  )h10 ( )d
b
1
0
1
2
2
2
b
2
2
0
1
0
1
que representa o peso da evidência contida no conjunto de dados a favor de M2 e contra M1.
GI3 – Encontro Ericeira – 20 Fevereiro 2010
9
Abordagem não paramétrica (CCO,2000)
Simulação 1:
 j ( )  Bi(k  5,   0,5)
1
n
h1 ( )   1 (1   ) 1 , b 
BF21
n
100
50
25
r0
4
2
1
1
3
4
2
0
2
r1
18
11
21
8
8
5
4
4
4
r2
33
30
39
18
15
15
4
8
8
r3
29
36
22
13
18
19
10
8
8
r4
15
19
15
10
5
5
4
3
3
r5
1
2
2
0
1
2
1
2
0
c=2
0,0148
0,0007
0,0010
0,0884
0,0030
0,0188
0,0325
0,0789
0,0507
GI3 – Encontro Ericeira – 20 Fevereiro 2010
c = 20
0,8868
0,0694
0,0995
0,7985
0,1909
0,6788
0,6807
0,6330
0,5162
c = 100
1,8049
0,4459
0,5512
1,1238
0,7194
1,3118
1,1127
0,9797
0,9095
10
Abordagem não paramétrica (CCO,2000)
Simulação 2:
 j ( )  Bi(k  5,   0, 25)
BF21
n
r0
r1
r2
r3
r4
r5
c=2
c = 20
c = 100
100
26
40
21
10
2
1
0,0039
0,0682
0,4437
23
48
18
8
3
0
0,0604
0,7939
1,6675
15
12
15
6
2
0
0,1617
1,4460
1,6513
12
22
13
3
0
0
0,1019
0,5670
0,9275
8
9
4
3
1
0
0,0937
0,6669
1,0906
4
10
7
4
0
0
0,1906
0,7460
0,9835
50
25
GI3 – Encontro Ericeira – 20 Fevereiro 2010
11
Abordagem não paramétrica (CCO,2000)
Simulação 3 (SIZ, 2006):
k  5,   (0,31;0,16;0, 03;0, 03;0,16;0,31), forma U
BF21
n
r0
r1
r2
r3
r4
r5
c=2
60
15
10
3
4
8
20
7,73×1024 9,92×1021 1,56×1014
40
15
6
0
0
5
14
2,68×1026 2,32×1021 9,58×1013
20
7
3
0
0
3
7
2,69×1011 9,9×107
GI3 – Encontro Ericeira – 20 Fevereiro 2010
c = 20
c = 100
10977,84
12
Outras abordagens não paramétricas
1) Carota e Parmigiani (1996)
2) Berger e Guglielmi (2001)
3) Johnson V. (2004)
Escolher quantis 0  a0  a1  ...  ak  1, com pk =ak  ak 1, k  1,..., K
Simule-se  da distribuição a posteriori h( | x)

0 se F ( xi |  )  (ak 1 , ak ]
Seja zi ( ) um vector de tamanho K , cujo elemento k é = 

1 se F ( xi |  )  (ak 1 , ak ]
n
n( )   zi ( )
i 1
2
(
n
(

)

np
)
k
Q B ( )   k
npk
k 1
K
n 
GI3 – Encontro Ericeira – 20 Fevereiro 2010
 2 ( K  1)
13
Trabalho futuro
Propor uma técnica alternativa para o estudo
da adequação de modelos
Medir o desempenho da nova técnica
Realizar estudos experimentais e comparativos
GI3 – Encontro Ericeira – 20 Fevereiro 2010
14
Download

Metodologia bayesiana e adequação de modelos