Análise de Dados de Área: Suavização de Taxas e Proporções Instabilidade de Taxas para Pequenas Áreas: Como Tratar ?? Contribuições (em slides e textos): Renato Assunçao, LESTE-UFMG Wayner Vieira, CPqAM-Fiocruz Oswaldo Cruz, PROCC-Fiocruz Ilka Reis, Depto Est.-UFMG Antes… Ainda em Autocorrelação Espacial Como Tratar Taxas e Razões?? “Em estudos epidemiológicos, os valores considerados nos mapas usualmente são taxas ou razões. Se Ni é o número de pessoas em risco e se yi é o número de casos ocorridos na área i, a taxa é definida como ri = yi/Ni.” “Quando as populações em risco são diferentes entre as áreas, como é de praxe, então as taxas possuem variâncias diferentes e a hipótese subjacente ao teste baseado no índice I de Moran de que as variáveis são i.i.d. é violada.” i.i.d. : independent and identically distributed i.i.d. : Variáveis aleatórias independentes e idêntico-distribuídas Uma sequência (lista ordenada de objetos ou eventos) a outra coleção of Variáveis Aleatórias [VR é uma forma de associar um valor (ex.: x nos Reais) para cada possível resultado de certo evento aleatório.] é independente e idêntico-distribuída se cada VR tem a mesma Distribuição de Probabilidade de todas as outras na sequência ou coleção e além disso são TODAS mutualmente independentes ( a ocorrência de um evento não altera a probabilidade de ocorrência de nenhum outro). “Mesmo no teste de permutação, a suposição de distribuição invariante sob permutação é violada pois não é verdade que as áreas tenham a mesma chance de receber qualquer das taxas observadas. Áreas com populações pequenas possuem taxas com maior variância e mais propensas a assumir os valores mais extremos entre os observados.” Renato Assunção, Extratos de Livro em Construção, Capítulo 5. (Comunicação Pessoal, Out. 2009) Assunção&Reis, NEW PROPOSAL TO ADJUST MORAN'S I FOR POPULATION DENSITY, Statist. Med. 18, 2147-2162 (1999) Pequenas Áreas: Motivação • Mapeamentos Geodemográficos – incluem indicadores de taxas e proporções – taxas podem variar muito com o denominador , em geral população • Ex: Mortalidade infantil nos Bairros do Rio – – – – min = 13 nascidos max = 6980 nascidos média da taxa = 16% ( 0%< t < 87% ) alta instabilidade qdo população é pequena Instabilidade de Taxas - “Efeito Funil” Instabilidade em pequenas Áreas Boxplot da Taxas de mortalidade por Acidentes de Transporte Brasil - 2004 • Pode-se observar melhor 200 100 ser levados a falsas interpretações pelos mapas de taxas brutas Taxa por 100.000 hab. • podemos com frequência 300 este fenômeno construindo um boxplot em intervalos da população. de se contornar o problemas uma das mais frequentes a a média trienal. 0 • Existem algumas maneiras <5 5-10 10-50 50-100 População X 1.000 100-1.000 > 1.000 taxa acidentes de transporte por 100.000 hab 2004 taxa acidentes de transporte por 100.000 hab triênio 2003-2005 Instabilidade em pequenas Áreas Outras técnicas que podem também ser aplicadas para lidar com problemas de instabilidade em pequenas áreas: agregação de áreas media móvel espacial bayes empírico global e local Problema na Análise “Um grande problema associado ao uso de taxas, porém, é a alta instabilidade que elas possuem para expressar o risco de um determinado evento quando ele é raro e a população da região de ocorrência é pequena.” Alexandre E. dos Santos, Alexandre L. Rodrigues, Danilo L. Lopes, Aplicações de Estimadores Bayesianos Empíricos para Análise Espacial de Taxas de Mortalidade, II Simpósio Brasileiro de Geoinformática, Campos do Jordão, Brasil, 20-23 novembro 2005, INPE, p. 300-309 Problema na Análise “As variações bruscas que ocorrem com estas taxas podem nada ter a ver com o fenômeno e sim com uma variabilidade associada às observações” Problema na Análise “Flutuações aleatórias casuais, como a ocorrência de um ou dois casos do evento a mais ou a menos numa localidade, causam variações substanciais nas taxas brutas se a sua população for pequena, efeito este não verificado em localidades de população grande.” Problema na Análise “Além disso, para situações em que não ocorrem casos do evento em algumas regiões, a taxa bruta estima o risco de ocorrência do evento como zero, algo irreal tratando-se de dados como doenças ou crimes. Mapas de eventos baseados diretamente nessas estimativas brutas são de difícil interpretação e freqüentemente geram falsas conclusões.” Modelos Espaciais Bayesianos • Basicamente técnicas de de “mapeamento áreas” onde se incorpora o conhecimento “a priori” do investigador. • A principal característica é procurar identificar o processo que gerou aqueles dados, e não apenas aquela realização dos dados, filtrando a variabilidade aleatória. RENATO M. ASSUNÇÃO et al. - Mapas de taxas epidemiológicas:uma abordagem Bayesiana, Cad. Saúde Pública, Rio de Janeiro, 14(4):713-723, out-dez, 1998 Modelos Espaciais Bayesianos • Para isso incorpora-se informação das áreas vizinhas: “vizinhos são parecidos” • O mais utilizado método de estimativa - Markov Chain Monte Carlo (MCMC) através de simulações permite estimar não só o valor esperado da distribuição da variável estudada em cada área, mas outros parâmetros também. Estimador Bayesiano Empírico • Idéia – conhecimento “a priori” - o valor medido da taxa – conhecimento “a posteriori”- a distribuição da taxa • Distribuição da Taxa – hipótese: taxa tem distribuição – ti ~ D(i , i) Padronização • Para permitir comparações entre diferentes populações no espaço ou no tempo, variáveis devem ser padronizadas. • Padronizar as população em risco por tamanho, estrutura etária e sexo é o mais comum. • Padronização pode ser também por área, por tempo de exposição, etc. Padronizando os tamanhos de População i= O1 Pop1 O3 Pop3 O2 Pop2 O4 Pop4 índice das áreas Em cada área i : Oi = número de eventos em i Popi = pop sob risco em i r i = Oi / Popi = taxa em i Às vezes, usa-se ti = 100000 * ri, taxa por 100 mil em i Problemas de Estimação em Áreas Pequenas • Valores extremos ocorrem nas áreas com pequenas populações • O que mais chama a atenção num mapa (os valores extremos), é o menos confiável ! • As maiores oscilações não estarão, em geral, associadas com variações no risco subjacente; serão apenas flutuação aleatória casual. EFEITO DA INSTABILIDADE • Exemplo de mortalidade infantil por município em MG • 15 municípios com: vivos. 0 mortes e < 30 nascidos • Se uma única morte é registrada, taxas passam de 0 para valores entre 116 e 1048!!! • O valor extremo anterior era 608.9 Abordagem Bayesiana Empírica • Assumir que riscos das diferentes áreas não são totalmente “desconectados” e assim pedir uma força pros vizinhos (to borrow strength from the neighbours) • Idéia: contrair taxa em direção à média global. Fator de contração depende da população da área. Proposta de Marshall (1991) • Fácil de ser implementada e produz resultados similares ao de métodos mais sofisticados • Idéia: cada área i possui um taxa subjacente qi desconhecida. Embora diferentes, estas taxas possuem certa estrutura. • Se pudéssemos fazer um histograma desses riscos subjacentes, deveríamos observar algo semelhante a quê ? Proposta de Marshall (1991) 70 frequência 60 50 40 30 20 10 0 0 50 100 150 200 250 risco relativo teta * 100 300 350 Objetivo: recuperar qi Numa área, observa-se aleatório Oi de casos. um número NÃO assumimos risco constante: Oi tem distribuição de Poisson com número esperado de casos igual a Popi q i Objetivo: recuperar qi • Assume-se que as taxas qi possuem distribuição com média m e variância V. • Qual é a melhor estimativa Melhor em que sentido ? qˆi possível dos qi ? • Melhor no sentido de minimizar a soma dos erros de estimação de todas as áreas: i qˆi q 2 i Simplificar o Problema Buscar estimativa ótima APENAS DENTRE as estimativas que podem ser escritas como médias ponderadas de m e da taxa observada na área i Solução: qˆi wi ri (1 wi )m onde wi V m V Popi Simplificar o Problema Problema: V e m não são conhecidos. Bayes empírico estima estes valores a partir dos dados (daí vem o nome empírico) Estimando m e V O m Pop i i taxa global i i V i Popi ri m 2 i Popi m Pop média Rotinas para o cálculo de taxas bayesianas global e local estão disponíveis dentro do pacote spdep do ambiente estatístico livre R (http://www.r-project.org/) e também dentro do software livre de geoprocessamento TerraView Slides Extras Alexandre E. dos Santos, Alexandre L. Rodrigues, Danilo L. Lopes, Aplicações de Estimadores Bayesianos Empíricos para Análise Espacial de Taxas de Mortalidade, II Simpósio Brasileiro de Geoinformática, Campos do Jordão, Brasil, 20-23 novembro 2005, INPE, p. 300-309 “A metodologia estima taxas corrigidas a partir dos valores observados utilizando-se conceitos de inferência bayesiana. O estimador Bayes empírico global calcula uma média ponderada entre a taxa bruta da localidade e a taxa global da região (razão entre o número total de casos e a população total).” “ O estimador Bayes empírico local inclui efeitos espaciais, calculando a estimativa localmente, utilizando somente os vizinhos geográficos da área na qual se deseja estimar a taxa, convergindo em direção a uma média local em vez de uma média global.” “As taxas corrigidas são menos instáveis, pois levam em conta no seu cálculo não só a informação da área, mas também a informação de sua vizinhança. Mapas baseados nessas estimativas são mais interpretativos e informativos.” Bayesiano • Problema das taxas – população pequena • Bayesiano – alternativa para melhorar o problema – suavização • A estatística bayesiana usa o conhecimento ou crença sobre os parâmetros de interesse ao estimálos. • Converte-se uma distribuição de probabilidade a priori em uma a posteriori usando o dado observado. q / D p q L q / D Método Bayesiano Empírico A taxa observada ri yi ni quando a população é pequena => flutuação aleatória. Imagine que a taxa real qi desconhecida tenha, para cada área, média μi e variância i2 No contexto bayesiano, o melhor estimador para qi é uma ponderação entre a taxa observada ri e a média i . qi wi ri (1 wi ) i Método Bayesiano Empírico A distribuição a priori é baseada em aspectos globais do dado. qii wii rii (1 wii ) ii observada Taxa em cada área ˆ iw 2 i ni ri 2 i i 2 2 n i ii / ni n priori Se para cada qi temos a distribuição a priori (i , i2) Método Bayesiano Empírico Global Como se desconhece a distribuição, média e variância, das taxas internas a cada polígono, uma suposição simples é assumir que todos tenham a mesma média e variância de todo o conjunto de polígonos. Assim, assume-se que: yyii ˆˆ nni i ni ri i 2 ˆ i 2 ni ri i ˆ i n ni ni n 2 2 i = Bayesiano Empírico Local • Considera uma vizinhança • Estimativa bayesiana local • Converge para uma média local ao invés de uma média global As taxas da vizinhança da área i possuem média i variância i2 qi wi ri (1 wi ) i Método Bayesiano Empírico (local) • Seja: k ri yi ni mˆ k “taxa” média entre k vizinhos mˆ k y i 1 k n i 1 a variância sk 2 sk 2 A taxa corrigida será: 2 ˆ n ( r m ) i i k ni mˆ k n qi wi ri 1 wi mˆ k a Exemplo – Bayesiano empírico