Análise de Dados de Área:
Suavização de Taxas e Proporções
Instabilidade de Taxas
para Pequenas Áreas:
Como Tratar ??
Contribuições (em slides e textos):
Renato Assunçao, LESTE-UFMG
Wayner Vieira, CPqAM-Fiocruz
Oswaldo Cruz, PROCC-Fiocruz
Ilka Reis, Depto Est.-UFMG
Antes…
Ainda em Autocorrelação Espacial
Como Tratar Taxas e Razões??
“Em estudos epidemiológicos, os
valores considerados nos mapas
usualmente são taxas ou razões. Se Ni
é o número de pessoas em risco e se yi
é o número de casos ocorridos na área
i, a taxa é definida como ri = yi/Ni.”
“Quando as populações em risco são
diferentes entre as áreas, como é de
praxe, então as taxas possuem
variâncias diferentes e a hipótese
subjacente ao teste baseado no índice I
de Moran de que as variáveis são i.i.d.
é violada.”
i.i.d. : independent and identically
distributed
i.i.d. : Variáveis aleatórias independentes
e idêntico-distribuídas
Uma sequência (lista ordenada de objetos ou eventos)
a outra coleção of Variáveis Aleatórias [VR é uma
forma de associar um valor (ex.: x nos Reais) para
cada possível resultado de certo evento aleatório.] é
independente e idêntico-distribuída se cada VR tem
a mesma Distribuição de Probabilidade de todas as
outras na sequência ou coleção e além disso são
TODAS mutualmente independentes ( a ocorrência
de um evento não altera a probabilidade de
ocorrência de nenhum outro).
“Mesmo no teste de permutação, a
suposição de distribuição invariante sob
permutação é violada pois não é verdade
que as áreas tenham a mesma chance de
receber qualquer das taxas observadas.
Áreas com populações pequenas possuem
taxas com maior variância e mais
propensas a assumir os valores mais
extremos entre os observados.”
Renato Assunção, Extratos de Livro em Construção, Capítulo 5. (Comunicação Pessoal, Out. 2009)
Assunção&Reis, NEW PROPOSAL TO ADJUST MORAN'S I FOR POPULATION DENSITY, Statist. Med. 18, 2147-2162 (1999)
Pequenas Áreas: Motivação
• Mapeamentos Geodemográficos
– incluem indicadores de taxas e proporções
– taxas podem variar muito com o denominador ,
em geral população
• Ex: Mortalidade infantil nos Bairros do Rio
–
–
–
–
min = 13 nascidos
max = 6980 nascidos
média da taxa = 16% ( 0%< t < 87% )
alta instabilidade qdo população é pequena
Instabilidade de Taxas - “Efeito Funil”
Instabilidade em pequenas Áreas
Boxplot da Taxas de mortalidade por
Acidentes de Transporte Brasil - 2004
• Pode-se observar melhor
200
100
ser levados a falsas
interpretações pelos mapas
de taxas brutas
Taxa por 100.000 hab.
• podemos com frequência
300
este fenômeno construindo
um boxplot em intervalos
da população.
de se contornar o problemas
uma das mais frequentes a a
média trienal.
0
• Existem algumas maneiras
<5
5-10
10-50
50-100
População X 1.000
100-1.000
> 1.000

taxa acidentes de
transporte por 100.000 hab
2004

taxa acidentes de
transporte por 100.000 hab
triênio 2003-2005
Instabilidade em pequenas Áreas
Outras técnicas que podem também ser
aplicadas para lidar com problemas de
instabilidade em pequenas áreas:
agregação de áreas
media móvel espacial
bayes empírico global e local
Problema na Análise
“Um grande problema associado
ao uso de taxas, porém, é a alta
instabilidade que elas possuem
para expressar o risco de um
determinado evento quando ele é
raro e a população da região de
ocorrência é pequena.”
Alexandre E. dos Santos, Alexandre L. Rodrigues, Danilo L. Lopes,
Aplicações de Estimadores Bayesianos Empíricos para Análise Espacial de Taxas de Mortalidade,
II Simpósio Brasileiro de Geoinformática, Campos do Jordão, Brasil, 20-23 novembro 2005, INPE, p. 300-309
Problema na Análise
“As variações bruscas que
ocorrem com estas taxas podem
nada ter a ver com o fenômeno
e sim com uma variabilidade
associada às observações”
Problema na Análise
“Flutuações aleatórias casuais,
como a ocorrência de um ou dois
casos do evento a mais ou a menos
numa localidade, causam variações
substanciais nas taxas brutas se a
sua população for pequena, efeito
este não verificado em localidades
de população grande.”
Problema na Análise
“Além disso, para situações em que não
ocorrem casos do evento em algumas
regiões, a taxa bruta estima o risco de
ocorrência do evento como zero, algo
irreal tratando-se de dados como
doenças ou crimes. Mapas de eventos
baseados
diretamente
nessas
estimativas brutas são de difícil
interpretação e freqüentemente geram
falsas conclusões.”
Modelos Espaciais Bayesianos
• Basicamente técnicas de
de
“mapeamento
áreas”
onde se incorpora o
conhecimento “a priori” do investigador.
• A
principal característica é procurar
identificar o processo que gerou aqueles
dados, e não apenas aquela realização
dos dados, filtrando a variabilidade
aleatória.
RENATO M. ASSUNÇÃO et al. - Mapas de taxas epidemiológicas:uma abordagem Bayesiana,
Cad. Saúde Pública, Rio de Janeiro, 14(4):713-723, out-dez, 1998
Modelos Espaciais Bayesianos
• Para isso incorpora-se informação das
áreas vizinhas: “vizinhos são parecidos”
• O mais utilizado método de estimativa -
Markov Chain Monte Carlo (MCMC) através de simulações permite estimar
não só o valor esperado da distribuição
da variável estudada em cada área, mas
outros parâmetros também.
Estimador Bayesiano Empírico
• Idéia
– conhecimento “a priori” - o valor medido da taxa
– conhecimento “a posteriori”- a distribuição da
taxa
• Distribuição da Taxa
– hipótese: taxa tem distribuição
– ti ~ D(i , i)
Padronização
• Para permitir comparações entre diferentes
populações no espaço ou no tempo, variáveis
devem ser padronizadas.
• Padronizar
as população em risco por
tamanho, estrutura etária e sexo é o mais
comum.
• Padronização pode ser também por área, por
tempo de exposição, etc.
Padronizando os tamanhos de População
i=
O1 Pop1
O3 Pop3
O2 Pop2
O4 Pop4
índice das áreas
Em cada área i :
Oi = número de eventos em i
Popi = pop sob risco em i
r i = Oi / Popi = taxa em i
Às vezes, usa-se ti = 100000 *
ri, taxa por 100 mil em i
Problemas de Estimação em Áreas Pequenas
• Valores extremos ocorrem nas áreas com
pequenas populações
• O que mais chama a atenção num mapa (os
valores extremos), é o menos confiável !
• As maiores oscilações não estarão, em geral,
associadas com variações no risco
subjacente; serão apenas flutuação aleatória
casual.
EFEITO DA INSTABILIDADE
• Exemplo de mortalidade infantil por município em
MG
• 15 municípios com:
vivos.
0 mortes
e
< 30 nascidos
• Se uma única morte é registrada, taxas passam de 0
para valores entre 116 e 1048!!!
• O valor extremo anterior era 608.9
Abordagem Bayesiana Empírica
• Assumir que riscos das diferentes áreas não
são totalmente “desconectados” e assim
pedir uma força pros vizinhos (to borrow
strength from the neighbours)
• Idéia: contrair taxa em direção à média
global. Fator de contração depende da
população da área.
Proposta de Marshall (1991)
• Fácil de ser implementada e produz resultados
similares ao de métodos mais sofisticados
• Idéia: cada área
i possui um taxa subjacente qi
desconhecida. Embora diferentes, estas taxas
possuem certa estrutura.
• Se pudéssemos fazer um histograma desses
riscos subjacentes, deveríamos observar algo
semelhante a quê ?
Proposta de Marshall (1991)
70
frequência
60
50
40
30
20
10
0
0
50
100
150
200
250
risco relativo teta * 100
300
350
Objetivo: recuperar qi
Numa área, observa-se
aleatório Oi de casos.
um
número
NÃO assumimos risco constante: Oi tem
distribuição de Poisson com número
esperado de casos igual a Popi q i
Objetivo: recuperar qi
• Assume-se que as taxas qi possuem distribuição
com média m e variância V.
• Qual é a melhor estimativa
Melhor em que sentido ?
qˆi possível dos qi ?
• Melhor no sentido de minimizar a soma dos
erros de estimação de todas as áreas:

i

qˆi  q

2
i
Simplificar o Problema
Buscar estimativa ótima APENAS
DENTRE as estimativas que podem ser
escritas como médias ponderadas de m e
da taxa observada na área i
Solução:
qˆi  wi ri  (1  wi )m onde wi 
V
m
V
Popi
Simplificar o Problema
Problema: V e m não são conhecidos.
Bayes empírico estima estes valores a partir dos
dados (daí vem o nome empírico)
Estimando m e V
O

m
 Pop
i
i
 taxa global
i
i

V
i
Popi ri  m 
2

i
Popi
m

Pop média
Rotinas para o cálculo de taxas
bayesianas global e local estão
disponíveis dentro do pacote
spdep do ambiente estatístico livre
R (http://www.r-project.org/) e
também dentro do software livre
de geoprocessamento TerraView
Slides Extras
Alexandre E. dos Santos, Alexandre L. Rodrigues, Danilo L. Lopes,
Aplicações de Estimadores Bayesianos Empíricos para Análise Espacial de Taxas de Mortalidade,
II Simpósio Brasileiro de Geoinformática, Campos do Jordão, Brasil, 20-23 novembro 2005, INPE, p. 300-309
“A metodologia estima taxas
corrigidas a partir dos valores
observados utilizando-se conceitos
de inferência bayesiana. O estimador
Bayes empírico global calcula uma
média ponderada entre a taxa bruta
da localidade e a taxa global da
região (razão entre o número total de
casos e a população total).”
“ O estimador Bayes empírico local
inclui efeitos espaciais, calculando a
estimativa localmente, utilizando
somente os vizinhos geográficos da
área na qual se deseja estimar a taxa,
convergindo em direção a uma
média local em vez de uma média
global.”
“As taxas corrigidas são menos
instáveis, pois levam em conta no seu
cálculo não só a informação da área,
mas também a informação de sua
vizinhança. Mapas baseados nessas
estimativas são mais interpretativos e
informativos.”
Bayesiano
• Problema das taxas – população pequena
• Bayesiano – alternativa para melhorar o problema
– suavização
• A estatística bayesiana usa o conhecimento ou
crença sobre os parâmetros de interesse ao estimálos.
• Converte-se uma distribuição de probabilidade a
priori em uma a posteriori usando o dado
observado.
 q / D   p q  L q / D 
Método Bayesiano Empírico
A taxa observada ri  yi ni quando a população é
pequena => flutuação aleatória.
Imagine que a taxa real qi desconhecida tenha, para
cada área, média μi e variância i2
No contexto bayesiano, o melhor estimador para qi é
uma ponderação entre a taxa observada ri e a média i
.

qi  wi ri  (1  wi ) i
Método Bayesiano Empírico
A distribuição a priori é baseada em aspectos globais do dado.


qii  wii rii  (1  wii ) ii
observada
Taxa em cada área
ˆ iw 
2
i
 ni ri 2 i 
i

2
2 n

 i  ii / ni 


n
priori
Se para cada qi temos a
distribuição a priori (i , i2)
Método Bayesiano Empírico Global
Como se desconhece a distribuição, média e
variância, das taxas internas a cada polígono, uma
suposição simples é assumir que todos tenham a
mesma média e variância de todo o conjunto de
polígonos. Assim, assume-se que:
 yyii

ˆˆ 

nni
i

 ni  ri  i  2 
ˆ i 2  ni  ri  i   
ˆ i 
n
 ni
 ni
n
2
2
i = 
Bayesiano Empírico Local
• Considera uma vizinhança
• Estimativa bayesiana local
• Converge para uma média local ao invés de uma
média global
As taxas da vizinhança da área i possuem
média i variância i2

qi  wi ri  (1  wi ) i
Método Bayesiano Empírico (local)
• Seja:
k
ri  yi ni
mˆ k “taxa” média entre k vizinhos
mˆ k 
y
i
1
k
n
i
1
a variância
sk
2
sk 
2
A taxa corrigida será:
2
ˆ
n
(
r

m
)
 i i k
 ni

mˆ k

n
qi  wi ri  1 wi mˆ k
a
Exemplo – Bayesiano empírico