Taxas em pequenas áreas : uma abordagem bayesiana Ilka Afonso Reis Análise Espacial - INPE Taxas em pequenas áreas yi é o número de casos da “doença” na área i ; ei é o número esperado de casos da “doença” na área i ; ρi é o risco relativo (desconhecido) da “doença” em relação à taxa de referência ; (padronização) Taxa bruta : y p e i i i y Var pi 2 e i i Quanto menor o no. esperado de casos, maior a variabilidade na estimação Qual é o problema com taxas brutas ? • Suponha uma “doença” com r = 0,10 e acontece um caso em cada área (y = 1) •Se Pop1 = 10000, e1 = 0,10 x 10000 = 1000 •Se Pop2 = 1000, e2 = 0,10 x 1000 = 100 •Se Pop3 = 100, e3 = 0,10 x 100 = 10 p1=1/10000 = 0,0001 e Var(p1) = 1/100002 = 1 x 10-8 p2=1/1000 = 0,001 e Var(p2) = 1/10002 = 1 x 10-6 p3=1/100 = 0,01 e Var(p3) = 1/1002 = 1 x 10-4 Qual é o problema com taxas brutas ? Taxa bruta Taxa suavizada Solução para o problema das taxas brutas Suavizar as taxas Como ? Estimadores Bayesianos • Empíricos • Completos Uma Breve Introdução à Inferência Bayesiana Probabilidade Condicional Teorema de Bayes Verossimilhança Probabilidade a priori Probabilidade a posteriori Um exemplo : medidas de qualidade de testes diagnósticos Positivo (+|D) Doente (D) Sadio (S) Negativo (-|D) Positivo (+|S) Negativo (-|S) Avaliação da qualidade do teste Acertos : • Entre os doentes P( D) P( | D) P( D) Sensibilidade (s) • Entre os sadios P( S ) P( | S ) P( S ) Especificidade (e) Avaliação da qualidade do teste Resultado do teste Padrão-ouro Total Doente Não Doente Positivo 265 47 312 Negativo 11 50 61 Total 276 97 373 0,96 ou 96% s P( | D) 265 276 e P( |S) 50 97 0,515 ou 51,5% Avaliação da qualidade do diagnóstico Acertos : • Entre os positivos P(D ) P(D| ) P() Valor de Predição Positiva (VPP) • Entre os negativos P(S ) P(S | ) P( ) Valor de Predição Negativa (VPN) Avaliação da qualidade do diagnóstico P(D ) P(D) P( |D) P(D | ) P( ) P[( D) ( S)] P(D) P( |D) P(D | ) P(D) P( |D) P(S) P( | S) Regra de Bayes Enfim ... Probabilidade a priori “Verossimilhança” P(S) P(- | S) P(S | -) P(S) P(- | S) P(D) P(- |D) Probabilidade a posteriori Conceitos Básicos e Notação Dados : provenientes de uma amostra da população de interesse y = (y1, y2, ..., yn) P(y), distribuição de probabilidade conjunta de y. Parâmetros: quantidades, em geral desconhecidas, que estão presentes nos modelos probabilísticos para y e serão representadas por . P(y|), função de verossimilhança de y. Exemplo : estimação de taxas yi , casos da “doença” na área i ei , número de casos esperados na área i segunda a taxa de referência Parâmetros a serem estimados ρi : o risco relativo (desconhecido) da “doença” em relação à taxa de referência eiρi representa o número de casos esperados (média) na área i Na inferência clássica, boas estimativas para ρi são os valores que maximizam a função de verossimilhança P(y|ρi ). Estes valores são a estimativa de máxima verossimilhança O modelo para os dados é a função de verossimilhança P(y|). Modelo : yi ∼ Poisson(eiρi) O Método da Máxima Verossimilhança Na inferência clássica, os parâmetros de um modelo são tratados como quantidades fixas (não aleatórias), porém desconhecidas. O método da máxima verossimilhança é considerado bom em muitos casos. Porém, quando a forma de P(y|) é complexa e/ou quando o número de parâmetros envolvidos é grande, este método torna-se difícil de implementar. A abordagem Bayesiana Na inferência Bayesiana, os parâmetros são tratados como quantidades aleatórias. O modelo estatístico não é mais somente P(y|) e sim P(y,), a distribuição conjunta dos dados y e dos parâmetros . As estimativas para não serão somente valores, mas sim uma distribuição de probabilidades. P(|y) é a distribuição de probabilidades dos parâmetros “ à luz” dos dados y. A abordagem Bayesiana Como obter P(|y) ? Pela Regra de Bayes Verossimilhança P(θ,y) P(θ|y) = P(y) Probabilidade a priori P(θ,y) P(y|θ) P(θ) P(θ|y) = = P(y) P(y) Probabilidade a posteriori A abordagem Bayesiana P() expressa a incerteza sobre antes de observarmos os dados y que dependem dele (a priori) . P(|y) expressa a incerteza sobre depois de observarmos os dados y que dependem dele (a posteriori). De posse de P(|y), podemos examinar qualquer aspecto de (média, variância, percentis, probabilidade de assumir determinados valores, etc.) (“Full Posterior Distribution”) Passos para obtenção de P(|y) 1. Escolher um modelo probabilístico para P(y|) – a função de verossimilhança; 2. Escolher um modelo probabilístico para P() – a distribuição a priori ; 3. Aplicar a regra de Bayes e calcular P(|y). Exemplo : modelo Gamma-Poisson y é o número de casos da “doença” em certa área ; e é o número esperado de casos da “doença” em certa área; ρ é o risco relativo (desconhecido) da “doença” em relação à taxa de referência nesta área; Modelo para P(y|) : y ~ Poisson (e ) P(y| ) e y e e y! Exemplo : modelo Gamma-Poisson Modelo para P() : ~ Gamma (,) hiperparâmetros Cálculo da posteriori P(|y) P ( | y) P (y| ) P ( ) P (y| ) P ( ) 1 P (y) P( y , ) d 0 P (y| ) P ( ) 1 P (y| ) P ( )d 0 ( e ) ( y) ( e 1 ) ( y ) P( | y ) e , 0 ( e ) |y ~ Gamma ( + y , + e ) Exemplo : modelo Gamma-Poisson Suponha que y = 4 e e = 6.5 Priori´s : Gamma (0.5 , 0.5), Gamma (1,1) e Gamma (10,10) Posteriori´s : Gamma (4.5 , 7.0), Gamma (5,7.5) e Gamma(14,16.5) Exemplo : modelo Gamma-Poisson Quantis a posteriori 0.025 0.500 0.975 Priori Gamma (0.5,0.5) Gamma (1 , 1) Gamma (10 , 10) 0.421 0.449 0.687 0.596 0.623 0.828 Média a posteriori 0.813 0.837 0.988 Intervalo de Credibilidade de 95% 0.643 0.673 0.855 Modelo espacial bayesiano para taxas em pequenas áreas Modelo espacial bayesiano para taxas em pequenas áreas Modelo geral yi ∼ Poisson(µi) = Poisson(eiρi) log µi = log ei + θi ; yi é o número de casos da “doença” na área i ; ei é o número esperado de casos da “doença” na área i ; ρi é o risco relativo (desconhecido) da “doença” em relação à taxa de referência ; (padronização) θi denota o log do risco relativo (θi = log ρi , ou seja, ρi = exp(θi) ) Modelo de efeitos fixos (máxima verossimilhança) y p e i i i y Var pi 2 e i i Quanto menor o no. esperado de casos, maior a variabilidade na estimação Qual é o problema com taxas brutas ? Taxa bruta Taxa suavizada Qual é o problema com taxas brutas ? Taxa bruta Taxa suavizada Qual é o problema com taxas brutas ? Taxa bruta Taxa suavizada Modelo espacial bayesiano para taxas em pequenas áreas Modelo de efeitos aleatórios ρi ∼ Gamma(ψi, i) µρ = ψi/i e σ2ρ = ψi/i2 ; Gamma “+” Poisson “=” Gamma ; P(ρi|y) ∼ Gamma(ψi + yi, i + ei). i yi i i ei • Quanto maior o número de dados, mais próximo de yi/ei estará a estimativa do risco relativo ; • Quanto menor o número de dados, mais próximo de ψi/i estará a estimativa de risco relativo. Modelo espacial bayesiano para taxas em pequenas áreas Os parâmetros ψi e i são os hiperparâmetros. Como saber quem ψi e i ? Podem ser estimados (Bayes empírico) ; Pode-se estabelecer uma distribuição a priori para ψ e φ (hiperprioris). P(ρ, ψ, |y) ∝ P(y|ρ)P(ρ|ψ, )P(ψ)P() priori Exemplo: Mersey hiperprioris Modelo espacial bayesiano para taxas em pequenas áreas Modelo espacialmente estruturado (abordagem completa) yi ∼ Poisson(µi) = Poisson(eiρi) log µi = log ei + θi ; θi = log ρi θi = α + i + i , onde α é o log do risco relativo médio sobre todas as áreas ; i é a parte não-espacialmente estruturada do log do risco relativo da área i ; (média zero) i é a parte espacialmente estruturada do log do risco relativo da área i; Modelo espacial bayesiano para taxas em pequenas áreas Prioris : α ~ Uniforme [- ; ] (“flat”) i ~ Normal (0 ; 2) 2 j i wij j | ~ N , i j i w w ij ij j i j i A priori para νi é um modelo autoregressivo condicional Gaussiano (CAR) wij são pesos representando a adjacência das áreas. A definição mais comum para wij são valores binários : wij = 1, se as áreas i e j são adjacentes; wij = 0, caso contrário. Modelo espacial bayesiano para taxas em pequenas áreas Modelo completo yi ∼ Poisson(µi) = Poisson(eiρi) log µi = log ei + α + i + i α ~ Uniforme [- ; ] i ~ Normal (0 ; 2) νi ~ CAR(2) Hiperprioris Gamma para τ = 1/ 2 e para τ = 1/2 (τ e τ representam a precisão) Exemplo: leishmaniose visceral (leish_inpe_spatial) Modelo espacial bayesiano para taxas em pequenas áreas Leishmaniose Visceral Humana (BH – 1994/95) Taxa bruta Taxa suavizada Modelo espacial bayesiano para taxas em pequenas áreas taxa[39] sample: 11001 4.0 3.0 2.0 1.0 0.0 0.0 5.0 10.0 taxa[29] sample: 11001 0.15 0.1 0.05 0.0 0.0 10.0 20.0 30.0 Modelo espacial bayesiano para taxas em pequenas áreas Modelo espaço-temporal yi ∼ Poisson(µi) = Poisson(eiρi) log µi = log ei + θi ; θi = log ρi θi = α + i + i + 0t + it, onde • α , i e i são definidos como antes ; • 0 ~ Uniforme [- ; ] e i ~ CAR(2) representam a parte temporal do modelo Exemplo: leishmaniose visceral (leish_inpe_spatial_temporal) Modelo espacial bayesiano para taxas em pequenas áreas Previsão para o quarto período Modelo: No. de parâmetros : 365 Tempo de simulação de 10000 iterações: 112 segundos AMD Athlon XP2000 1.67 GHz 512 Mb RAM Modelo espacial bayesiano para taxas em pequenas áreas Modelo espaço-temporal (alternativo) yi ∼ Poisson(µi) = Poisson(eiρi) log µi = log ei + θi ; θi = log ρi • Modelo linear para θi θi = α0 + αi + i (t-1), onde • α0 ~ Uniforme [- ; ] • αi ~ CAR(2α) e i ~ CAR(2β) são parâmetros de uma equação de regressão ; Exemplo: leishmaniose visceral (leish_inpe_dissert) Modelo espacial bayesiano para taxas em pequenas áreas Previsão para o quarto período Modelo linear No. de parâmetros : 243 Tempo de simulação de 10000 iterações: 51 segundos Modelo espacial bayesiano para taxas em pequenas áreas Modelo espaço-temporal (alternativo) yi ∼ Poisson(µi) = Poisson(eiρi) log µi = log ei + θi ; θi = log ρi θi = α0 + αi + i (t-1) + i (t-1)2 , onde • α0 , αi e i são definidos como antes ; • i ~ CAR(2) ; Exemplo: leishmaniose visceral (leish_inpe_dissert) Modelo espacial bayesiano para taxas em pequenas áreas Previsão para o quarto período Modelo quadrático No. de parâmetros : 364 Tempo de simulação de 10000 iterações: 69 segundos Referências Bibliográficas Assunção, R. M. ; Reis, I. A. ; Oliveira, C. L. Diffusion and Prediction of Leishmaniasis in a Large Metropolitan Area in Brasil with a Space-Time Model. Statistics in Medicine (2001), 20 : pp. 2319- 2335 Spiegelhalter, D. ; Thomas, A. ;Best, N. ;Lunn, D. WinBUGS User Manual , (References), version 1.4, (2003) Back-up slides Bayes Empírico yi ∼ Poisson(µi) = Poisson(eiρi) ρi ∼ Gamma(ψi, i) E[ρi] = ψi/i e Var[ρi] = ψi/i2 E[yi] = Eρ[Ey[yi| ρi]] = Eρ[eiρi] = ei ψi/i Var [yi] = Eρ[Vary[yi| ρi]] + Varρ[Ey[ yi| ρi]] = ei ψi/i + (ei)2 ψi/i2 Pelo Método dos Momentos Eyi y e Varyi s 2 Então 1 ei ˆ i 2 y ei ˆ e s ˆ i ei ˆ ˆ 2 i i i Bayes Empírico O que nos leva a 2 2 ˆ ˆ y s i i ˆ i (1) e ˆ i ˆ (2) ei ei i ei Igualando (1) e (2), temos 2 ei y y ˆ i 2 (1) e ˆ i 2 s y s y ˆ i y Ei ˆ i ei (2) ˆ i s 2 y e Vari ˆ 2 ei 2 i Padronização direta das taxas r é taxa de referência da “doença”; Popi é a população sob risco da área i ; ei = r x Popi , é o número esperado de casos na área i ; i é o risco da “doença” na área i ; ρi = i / r é o risco relativo (desconhecido) da “doença” em relação à taxa de referência ; ei x ρi = (r x Popi) x (i / r) = Popi x i ; Cálculo da posteriori P(|y) P(y | ) P( ) P(y | ) P( ) P( | y) P(y) P( y, )d P(y | ) P( ) P(y | ) P( )d Distribuição Gaussiana (Normal) 1 yi 2 1 f ( yi ) exp 2 2 - < yi < , - < < >0 n 1 n y 2 1 P ( y | , ) exp i 2 2 i 1 , y = (y1, y2, ..., yn) y1, y2, ..., yn i.i.d Distribuição Beta ( ) f ( x) ( )( ) 1 x (1 x) 1 , 0 x 1 0 ; 0 Distribuição Gamma (, ) 1 x f ( x) x e , 0 x ( ) 0 e 0