Metodologia bayesiana e adequação de modelos Doutoranda: Maria João Polidoro Orientador: Fernando Magalhães Co-orientador: Maria Antónia AmaralTurkman GI3 – Encontro Ericeira – 20 Fevereiro 2010 Tópicos • Problema • Objectivos • Estado da Arte • Estudo de simulação • Trabalho futuro GI3 – Encontro Ericeira – 20 Fevereiro 2010 2 Problema Um dos problemas básicos em estatística é o de averiguar se proposto para representar o aleatório que produz um conjunto ou não adequado. GI3 – Encontro Ericeira – 20 Fevereiro 2010 modelação o modelo fenómeno de dados é 3 Objectivos O trabalho de doutoramento que propomos visa desenvolver novas técnicas de estudo da adequabilidade de modelos, focada numa abordagem bayesiana não paramétrica. O conjunto de técnicas deve permitir, de forma clara, dizer até que ponto o modelo se ajusta ou se um novo modelo tem que ser gerado. GI3 – Encontro Ericeira – 20 Fevereiro 2010 4 Estado da Arte o Métodos preditivos Gelman et al (1996); Bayarri e Berger (2000); Robins et al (2000); Hjort et al (2006) e Draper e Krnjajic (2007) o Validação cruzada Gelfand et al (1992); Lampinen e Vehtari (2002) e Marshall e Spiedelhalter (2003) o Não paramétrica Carota e Parmigiani (1996); Conigliani et al (2000); Spezzaferri et al (2006); Berger e Guglielmi (2001); e Johnson (2004,2007) GI3 – Encontro Ericeira – 20 Fevereiro 2010 5 Abordagens Tradicionalmente, a abordagem bayesiana para o estudo da avaliação da adequação de um modelo, compara os valores observados com os valores preditos. Exemplo: valor p preditivo de discrepância (Gelman et al,1996) valor p Pr p ( x rep , | xobs ) T ( X rep , ) t ( xobs , ) | xobs p ( x rep , | xobs ) f ( x rep | ) h ( | xobs ) GI3 – Encontro Ericeira – 20 Fevereiro 2010 6 Abordagens Alternativamente, uma outra abordagem bayesiana designada de não paramétrica, consiste em definir um modelo mais alargado que incorpore o modelo em análise, utilizando seguidamente, medidas de comparação entre os dois modelos, por exemplo, o factor de Bayes. GI3 – Encontro Ericeira – 20 Fevereiro 2010 7 Abordagem não paramétrica (CCO,2000) Seja x=(x1,x2,…,xn) uma amostra de n observações i.i.d. onde cada observação pode ser classificada em um dos k+1 grupos Gj, j=1,2,…,k e seja r=(r0,r1,…,rk) o número de observações, xi, que caem em cada um dos grupos. k M1 : Pr(X i G j | ) j ( ) e h ( ), f1 ( r | ) j ( ) , 0 1 rj j 0 M 2 : Pr(X i G j | ) j , f 2 ( r | ) Multinomial( ( 0 ,1 ,..., k )) ~ Dirichlet(c (c0 , c1 ,..., ck )) E j cj k j 0 cj cj c j ( ), j 0,1,..., k GI3 – Encontro Ericeira – 20 Fevereiro 2010 8 Abordagem não paramétrica (CCO,2000) Para a comparação, os autores utilizam o factor de Bayes fraccionário, dado por 21 frac BF q2 (r ; b) ( r ; b) q1 (r ; b) onde f (r | ) h ( )d f (r | )h ( | )h ( )d d q ( r ; b) f (r | ) h ( | )h ( )d d q1 (r ; b) f1 (r | )h10 ( )d b 1 0 1 2 2 2 b 2 2 0 1 0 1 que representa o peso da evidência contida no conjunto de dados a favor de M2 e contra M1. GI3 – Encontro Ericeira – 20 Fevereiro 2010 9 Abordagem não paramétrica (CCO,2000) Simulação 1: j ( ) Bi(k 5, 0,5) 1 n h1 ( ) 1 (1 ) 1 , b BF21 n 100 50 25 r0 4 2 1 1 3 4 2 0 2 r1 18 11 21 8 8 5 4 4 4 r2 33 30 39 18 15 15 4 8 8 r3 29 36 22 13 18 19 10 8 8 r4 15 19 15 10 5 5 4 3 3 r5 1 2 2 0 1 2 1 2 0 c=2 0,0148 0,0007 0,0010 0,0884 0,0030 0,0188 0,0325 0,0789 0,0507 GI3 – Encontro Ericeira – 20 Fevereiro 2010 c = 20 0,8868 0,0694 0,0995 0,7985 0,1909 0,6788 0,6807 0,6330 0,5162 c = 100 1,8049 0,4459 0,5512 1,1238 0,7194 1,3118 1,1127 0,9797 0,9095 10 Abordagem não paramétrica (CCO,2000) Simulação 2: j ( ) Bi(k 5, 0, 25) BF21 n r0 r1 r2 r3 r4 r5 c=2 c = 20 c = 100 100 26 40 21 10 2 1 0,0039 0,0682 0,4437 23 48 18 8 3 0 0,0604 0,7939 1,6675 15 12 15 6 2 0 0,1617 1,4460 1,6513 12 22 13 3 0 0 0,1019 0,5670 0,9275 8 9 4 3 1 0 0,0937 0,6669 1,0906 4 10 7 4 0 0 0,1906 0,7460 0,9835 50 25 GI3 – Encontro Ericeira – 20 Fevereiro 2010 11 Abordagem não paramétrica (CCO,2000) Simulação 3 (SIZ, 2006): k 5, (0,31;0,16;0, 03;0, 03;0,16;0,31), forma U BF21 n r0 r1 r2 r3 r4 r5 c=2 60 15 10 3 4 8 20 7,73×1024 9,92×1021 1,56×1014 40 15 6 0 0 5 14 2,68×1026 2,32×1021 9,58×1013 20 7 3 0 0 3 7 2,69×1011 9,9×107 GI3 – Encontro Ericeira – 20 Fevereiro 2010 c = 20 c = 100 10977,84 12 Outras abordagens não paramétricas 1) Carota e Parmigiani (1996) 2) Berger e Guglielmi (2001) 3) Johnson V. (2004) Escolher quantis 0 a0 a1 ... ak 1, com pk =ak ak 1, k 1,..., K Simule-se da distribuição a posteriori h( | x) 0 se F ( xi | ) (ak 1 , ak ] Seja zi ( ) um vector de tamanho K , cujo elemento k é = 1 se F ( xi | ) (ak 1 , ak ] n n( ) zi ( ) i 1 2 ( n ( ) np ) k Q B ( ) k npk k 1 K n GI3 – Encontro Ericeira – 20 Fevereiro 2010 2 ( K 1) 13 Trabalho futuro Propor uma técnica alternativa para o estudo da adequação de modelos Medir o desempenho da nova técnica Realizar estudos experimentais e comparativos GI3 – Encontro Ericeira – 20 Fevereiro 2010 14