Taxas em pequenas áreas :
uma abordagem bayesiana
Ilka Afonso Reis
Análise Espacial - INPE
Taxas em pequenas áreas



yi é o número de casos da “doença” na área i ;
ei é o número esperado de casos da “doença” na área i ;
ρi é o risco relativo (desconhecido) da “doença” em relação à
taxa de referência ; (padronização)

Taxa bruta :
y
p
e
i
i
i
y
Var pi   2
e
i
i
Quanto menor o no. esperado de casos, maior a variabilidade
na estimação
Qual é o problema com taxas brutas ?
• Suponha uma “doença” com r = 0,10 e acontece
um caso em cada área (y = 1)
•Se Pop1 = 10000, e1 = 0,10 x 10000 = 1000
•Se Pop2 = 1000, e2 = 0,10 x 1000 = 100
•Se Pop3 = 100, e3 = 0,10 x 100 = 10
p1=1/10000 = 0,0001 e Var(p1) = 1/100002 = 1 x 10-8
p2=1/1000 = 0,001 e Var(p2) = 1/10002 = 1 x 10-6
p3=1/100 = 0,01 e Var(p3) = 1/1002 = 1 x 10-4
Qual é o problema com taxas brutas ?
Taxa bruta
Taxa suavizada
Solução para o problema
das taxas brutas

Suavizar as taxas
 Como ?
Estimadores Bayesianos
• Empíricos
• Completos
Uma Breve Introdução à
Inferência Bayesiana
Probabilidade Condicional
Teorema de Bayes
Verossimilhança
Probabilidade a priori
Probabilidade a posteriori
Um exemplo : medidas de qualidade de
testes diagnósticos
Positivo (+|D)
Doente (D)
Sadio (S)
Negativo (-|D)
Positivo (+|S)
Negativo (-|S)
Avaliação da qualidade do teste
Acertos :
• Entre os doentes
P(   D)
P( | D) 
P( D)
Sensibilidade (s)
• Entre os sadios
P(  S )
P( | S ) 
P( S )
Especificidade (e)
Avaliação da qualidade do teste
Resultado do
teste
Padrão-ouro
Total
Doente
Não Doente
Positivo
265
47
312
Negativo
11
50
61
Total
276
97
373
 0,96
ou 96%
s  P(  | D) 
265
276
e  P(  |S) 
50
97
 0,515
ou 51,5%
Avaliação da qualidade do diagnóstico
Acertos :
• Entre os positivos
P(D  )
P(D| ) 
P()
Valor de Predição Positiva (VPP)
• Entre os negativos
P(S  )
P(S | ) 
P( )
Valor de Predição Negativa (VPN)
Avaliação da qualidade do diagnóstico
P(D  )
P(D)  P(  |D)
P(D | ) 

P( )
P[(   D)  (   S)]
P(D)  P(  |D)
P(D | ) 
P(D)  P(  |D)  P(S)  P(  | S)
Regra de Bayes
Enfim ...
Probabilidade a priori
“Verossimilhança”
P(S)  P(- | S)
P(S | -) 
P(S)  P(- | S)  P(D)  P(- |D)
Probabilidade a posteriori
Conceitos Básicos e Notação

Dados : provenientes de uma amostra da população
de interesse
y = (y1, y2, ..., yn)
 P(y), distribuição de probabilidade conjunta de y.


Parâmetros: quantidades, em geral desconhecidas,
que estão presentes nos modelos probabilísticos
para y e serão representadas por .

P(y|), função de verossimilhança de y.
Exemplo : estimação de taxas


yi , casos da “doença” na área i
ei , número de casos esperados na área i segunda a taxa de
referência

Parâmetros a serem estimados
ρi : o risco relativo (desconhecido) da “doença” em relação à
taxa de referência

eiρi representa o número de casos esperados (média) na área i

Na inferência clássica, boas estimativas para ρi são os valores
que maximizam a função de verossimilhança P(y|ρi ).
Estes valores são a estimativa de máxima verossimilhança
O modelo para os dados é a função de verossimilhança P(y|).
Modelo : yi ∼ Poisson(eiρi)



O Método da Máxima Verossimilhança

Na inferência clássica, os parâmetros de um
modelo são tratados como quantidades fixas
(não aleatórias), porém desconhecidas.

O método da máxima verossimilhança é
considerado bom em muitos casos.

Porém, quando a forma de P(y|) é complexa
e/ou quando o número de parâmetros 
envolvidos é grande, este método torna-se difícil
de implementar.
A abordagem Bayesiana



Na inferência Bayesiana, os parâmetros  são
tratados como quantidades aleatórias.
O modelo estatístico não é mais somente P(y|)
e sim P(y,), a distribuição conjunta dos dados y
e dos parâmetros  .
As estimativas para  não serão somente valores,
mas sim uma distribuição de probabilidades.
P(|y) é a distribuição de probabilidades dos
parâmetros  “ à luz” dos dados y.
A abordagem Bayesiana

Como obter P(|y) ?

Pela Regra de Bayes
Verossimilhança
P(θ,y)
P(θ|y) =
P(y)
Probabilidade a priori
P(θ,y) P(y|θ)  P(θ)
P(θ|y) =
=
P(y)
P(y)
Probabilidade a posteriori
A abordagem Bayesiana



P() expressa a incerteza sobre  antes de
observarmos os dados y que dependem dele
(a priori) .
P(|y) expressa a incerteza sobre  depois de
observarmos os dados y que dependem dele
(a posteriori).
De posse de P(|y), podemos examinar qualquer
aspecto de  (média, variância, percentis,
probabilidade de assumir determinados valores,
etc.)
(“Full Posterior Distribution”)
Passos para obtenção de P(|y)
1.
Escolher um modelo probabilístico para
P(y|) – a função de verossimilhança;
2.
Escolher um modelo probabilístico para
P() – a distribuição a priori ;
3.
Aplicar a regra de Bayes e calcular P(|y).
Exemplo : modelo Gamma-Poisson



y é o número de casos da “doença” em certa área ;
e é o número esperado de casos da “doença” em certa área;
ρ é o risco relativo (desconhecido) da “doença” em relação à
taxa de referência nesta área;
Modelo para P(y|) : y ~ Poisson (e )
P(y|  ) 
e  y e e
y!
Exemplo : modelo Gamma-Poisson
Modelo para P() :  ~ Gamma (,)
hiperparâmetros
Cálculo da posteriori P(|y)
P ( | y) 
P (y|  ) P ( ) P (y|  ) P ( )
 1

P (y)
 P( y ,  ) d
0
P (y|  ) P ( )
1
 P (y|  ) P ( )d
0
(  e )
(  y)
(   e 1 ) (   y ) 
P( | y ) 

e
, 0  
(   e )
|y ~ Gamma ( + y ,  + e )
Exemplo : modelo Gamma-Poisson
Suponha que y = 4 e e = 6.5
Priori´s : Gamma (0.5 , 0.5), Gamma (1,1) e Gamma (10,10)
Posteriori´s : Gamma (4.5 , 7.0), Gamma (5,7.5) e Gamma(14,16.5)
Exemplo : modelo Gamma-Poisson
Quantis a posteriori
0.025
0.500
0.975
Priori
Gamma (0.5,0.5)
Gamma (1 , 1)
Gamma (10 , 10)
0.421
0.449
0.687
0.596
0.623
0.828
Média a
posteriori
0.813
0.837
0.988
Intervalo de Credibilidade de 95%
0.643
0.673
0.855
Modelo espacial bayesiano
para taxas em pequenas áreas
Modelo espacial bayesiano para
taxas em pequenas áreas


Modelo geral
yi ∼ Poisson(µi) = Poisson(eiρi)




log µi = log ei + θi ;


yi é o número de casos da “doença” na área i ;
ei é o número esperado de casos da “doença” na área i ;
ρi é o risco relativo (desconhecido) da “doença” em relação
à taxa de referência ; (padronização)
θi denota o log do risco relativo (θi = log ρi , ou seja,
ρi = exp(θi) )
Modelo de efeitos fixos (máxima verossimilhança)
y
p
e
i
i
i
y
Var pi   2
e
i
i
Quanto menor o no.
esperado de casos,
maior a variabilidade
na estimação
Qual é o problema com taxas brutas ?
Taxa bruta
Taxa suavizada
Qual é o problema com taxas brutas ?
Taxa bruta
Taxa suavizada
Qual é o problema com taxas brutas ?
Taxa bruta
Taxa suavizada
Modelo espacial bayesiano para
taxas em pequenas áreas

Modelo de efeitos aleatórios
 ρi ∼ Gamma(ψi, i)  µρ = ψi/i e σ2ρ = ψi/i2 ;
 Gamma “+” Poisson “=” Gamma ;
 P(ρi|y) ∼ Gamma(ψi + yi, i + ei).
 i  yi
i 
i  ei
• Quanto maior o número de dados, mais próximo de
yi/ei estará a estimativa do risco relativo ;
• Quanto menor o número de dados, mais próximo de
ψi/i estará a estimativa de risco relativo.
Modelo espacial bayesiano para
taxas em pequenas áreas

Os parâmetros ψi e i são os hiperparâmetros.

Como saber quem ψi e i ?

Podem ser estimados (Bayes empírico) ;
Pode-se estabelecer uma distribuição a priori para
ψ e φ (hiperprioris).

P(ρ, ψ, |y) ∝ P(y|ρ)P(ρ|ψ, )P(ψ)P()
priori
Exemplo: Mersey
hiperprioris
Modelo espacial bayesiano para
taxas em pequenas áreas

Modelo espacialmente estruturado (abordagem completa)
 yi ∼ Poisson(µi) = Poisson(eiρi)
 log µi = log ei + θi ; θi = log ρi
 θi = α + i + i , onde
 α é o log do risco relativo médio sobre todas as
áreas ;
 i é a parte não-espacialmente estruturada do log
do risco relativo da área i ; (média zero)
 i é a parte espacialmente estruturada do log do
risco relativo da área i;
Modelo espacial bayesiano para
taxas em pequenas áreas

Prioris :
 α ~ Uniforme [- ;  ] (“flat”)
 i ~ Normal (0 ; 2)




2
  j i wij j





|
~
N
,
 i  j i 



w
w
ij
ij
j

i
j

i


A priori para νi é um modelo autoregressivo
condicional Gaussiano (CAR)
wij são pesos representando a adjacência das
áreas. A definição mais comum para wij são
valores binários :
wij = 1, se as áreas i e j são adjacentes;
wij = 0, caso contrário.
Modelo espacial bayesiano para
taxas em pequenas áreas

Modelo completo
 yi ∼ Poisson(µi) = Poisson(eiρi)
 log µi = log ei + α + i + i
 α ~ Uniforme [- ;  ]
 i ~ Normal (0 ; 2)
 νi ~ CAR(2)
 Hiperprioris Gamma para τ = 1/ 2 e para
τ = 1/2 (τ e τ representam a precisão)
Exemplo: leishmaniose visceral (leish_inpe_spatial)
Modelo espacial bayesiano para
taxas em pequenas áreas
Leishmaniose Visceral Humana (BH – 1994/95)
Taxa bruta
Taxa suavizada
Modelo espacial bayesiano para
taxas em pequenas áreas
taxa[39] sample: 11001
4.0
3.0
2.0
1.0
0.0
0.0
5.0
10.0
taxa[29] sample: 11001
0.15
0.1
0.05
0.0
0.0
10.0
20.0
30.0
Modelo espacial bayesiano para
taxas em pequenas áreas
Modelo espaço-temporal
yi ∼ Poisson(µi) = Poisson(eiρi)
log µi = log ei + θi ; θi = log ρi
θi = α + i + i + 0t + it, onde
• α , i e i são definidos como antes ;
• 0 ~ Uniforme [- ;  ] e i ~ CAR(2)
representam a parte temporal do modelo
Exemplo: leishmaniose visceral
(leish_inpe_spatial_temporal)
Modelo espacial bayesiano para
taxas em pequenas áreas
Previsão para o
quarto período
Modelo:
No. de parâmetros :
365
Tempo de
simulação de
10000 iterações:
112 segundos
AMD Athlon XP2000 1.67 GHz 512 Mb RAM
Modelo espacial bayesiano para
taxas em pequenas áreas
Modelo espaço-temporal (alternativo)
yi ∼ Poisson(µi) = Poisson(eiρi)
log µi = log ei + θi ; θi = log ρi
• Modelo linear para θi
θi = α0 + αi + i (t-1), onde
• α0 ~ Uniforme [- ; ]
• αi ~ CAR(2α) e i ~ CAR(2β) são parâmetros
de uma equação de regressão ;
Exemplo: leishmaniose visceral (leish_inpe_dissert)
Modelo espacial bayesiano para
taxas em pequenas áreas
Previsão para o
quarto período
Modelo linear
No. de parâmetros :
243
Tempo de simulação
de 10000 iterações:
51 segundos
Modelo espacial bayesiano para
taxas em pequenas áreas
Modelo espaço-temporal (alternativo)
yi ∼ Poisson(µi) = Poisson(eiρi)
log µi = log ei + θi ; θi = log ρi
θi = α0 + αi + i (t-1) + i (t-1)2 , onde
• α0 , αi e i são definidos como antes ;
• i ~ CAR(2) ;
Exemplo: leishmaniose visceral (leish_inpe_dissert)
Modelo espacial bayesiano para
taxas em pequenas áreas
Previsão para o
quarto período
Modelo quadrático
No. de parâmetros :
364
Tempo de simulação
de 10000 iterações:
69 segundos
Referências Bibliográficas
Assunção, R. M. ; Reis, I. A. ; Oliveira, C. L. Diffusion and
Prediction of Leishmaniasis in a Large Metropolitan Area in
Brasil with a Space-Time Model. Statistics in Medicine
(2001), 20 : pp. 2319- 2335
Spiegelhalter, D. ; Thomas, A. ;Best, N. ;Lunn, D. WinBUGS
User Manual , (References), version 1.4, (2003)
Back-up slides
Bayes Empírico


yi ∼ Poisson(µi) = Poisson(eiρi)
ρi ∼ Gamma(ψi, i) E[ρi] = ψi/i e Var[ρi] = ψi/i2
E[yi] = Eρ[Ey[yi| ρi]] = Eρ[eiρi] = ei ψi/i
Var [yi] = Eρ[Vary[yi| ρi]] + Varρ[Ey[ yi| ρi]]
= ei ψi/i + (ei)2 ψi/i2
Pelo Método dos Momentos
Eyi   y e Varyi   s 2
Então
 1 ei 
ˆ i
2
y  ei ˆ e s  ˆ i ei  ˆ  ˆ 2 
i
i i 
Bayes Empírico

O que nos leva a
2
2
ˆ
ˆ



y

s
i
i
ˆ i 
(1) e ˆ i   ˆ
 (2)
ei
ei i  ei 

Igualando (1) e (2), temos
2
ei y
y
ˆ
i  2
(1) e ˆ i  2
s y
s y
ˆ i y
Ei   ˆ 
i ei
(2)
ˆ i s 2  y
e Vari   ˆ 2 
ei 2
 i
Padronização direta das taxas






r é taxa de referência da “doença”;
Popi é a população sob risco da área i ;
ei = r x Popi , é o número esperado de casos na
área i ;
i é o risco da “doença” na área i ;
ρi = i / r é o risco relativo (desconhecido) da
“doença” em relação à taxa de referência ;
ei x ρi = (r x Popi) x (i / r) = Popi x i ;
Cálculo da posteriori P(|y)
P(y |  ) P( ) P(y |  ) P( )
P( | y) 


P(y)
P( y, )d

P(y |  ) P( )
 P(y |  ) P( )d
Distribuição Gaussiana (Normal)
 1  yi   2 
1
f ( yi ) 
exp   
 
 2
 2    
- < yi <  , - <  < 
>0
n
 1 n  y   2 
 1 
P ( y |  , )  
 exp    i
 
  2 
 2 i 1   
, y = (y1, y2, ..., yn)
y1, y2, ..., yn
i.i.d
Distribuição Beta
(   )
f ( x) 
( )(  )
 1
x
(1 x)
 1
, 0  x 1
 0 ;  0
Distribuição Gamma (, )

 1  x
f ( x) 
x e , 0 x
(  )
 0 e  0
Download

Slides - Aula Ilka Reis - DPI