Modelos de Previsão para Populações Raras
e Agrupadas sob Amostragem Adaptativa
TESE DE DOUTORADO
por
Kelly Cristina Mota Gonçalves
Universidade Federal do Rio de Janeiro
Instituto de Matemática
Departamento de Métodos Estatı́sticos
Modelos de Previsão para Populações Raras
e Agrupadas sob Amostragem Adaptativa
Kelly Cristina Mota Gonçalves
Tese de Doutorado submetida ao Corpo Docente do Instituto de Matemática Departamento de Métodos Estatı́sticos da Universidade Federal do Rio de Janeiro UFRJ, como parte dos requisitos necessários à obtenção do grau de Doutor em Estatı́stica.
Aprovada por:
Prof. Fernando A. S. Moura
PhD - UFRJ - Presidente.
Prof. Alexandra Mello Schmidt
PhD - UFRJ.
Prof. Mariane Branco Alves
PhD - UFRJ.
Prof. Heleno Bolfarine
PhD - USP.
Prof. Josemar Rodrigues
PhD - UFSCAR.
Rio de Janeiro, RJ - Brasil
2014
ii
CIP - Catalogação na Publicação
G635m
Gonçalves, Kelly Cristina Mota
Modelos de Previsão para Populações Raras e
Agrupadas sob Amostragem Adaptativa / Kelly
Cristina Mota Gonçalves. -- Rio de Janeiro, 2014.
143 f.
Orientador: Fernando Antônio da Silva Moura.
Tese (doutorado) - Universidade Federal do Rio
de Janeiro, Instituto de Matemática, Programa de
Pós-Graduação em Estatística, 2014.
1. Modelos de superpopulação. 2. Amostragem
informativa. 3. Modelos de mistura. 4. Inferência
bayesiana. I. Moura, Fernando Antônio da Silva,
orient. II. Título.
Elaborado pelo Sistema de Geração Automática da UFRJ com os
dados fornecidos pelo(a) autor(a).
iii
À minha mãezinha e ao meu paizinho (in memorian),
meus orgulhos.
iv
“Quero falar de uma coisa
Adivinha onde ela anda
Deve estar dentro do peito
Ou caminha pelo ar
Pode estar aqui do lado
Bem mais perto que pensamos
A folha da juventude
É o nome certo desse amor
Já podaram seus momentos
Desviaram seu destino
Seu sorriso de menino
Quantas vezes se escondeu
Mas renova-se a esperança
Nova aurora, cada dia
E há que se cuidar do broto
Pra que a vida nos dê
Flor, flor, e fruto
Coração de estudante
Há que se cuidar da vida
Há que se cuidar do mundo
Tomar conta da amizade
Alegria e muito sonho
Espalhados no caminho
Verdes, planta e sentimento
Folhas, coração,
Juventude e fé.”
Coração de estudante - Milton Nascimento.
v
Agradecimentos
Agradeço sempre em primeiro lugar a Deus pelo dom da vida e por iluminar meus
caminhos. Por estar ao meu lado em todos os momentos me protegendo e provendo várias
bençãos em minha vida. Sem Ele nada disso seria possı́vel.
À minha mãezinha Tereza por estar sempre ao meu lado cuidando de mim e torcendo
pelo meu sucesso. Agradeço por ser minha melhor companheira e por ter ajudado no diaa-dia para que eu pudesse dedicar-me exclusivamente a minha formação acadêmica nestes
anos. Ao meu paizinho Juarez (in memorian) pelo seu carinho e por ter se esforçado o
máximo para me dar educação. Sei que no céu o senhor está em festa e como sempre
cheio de orgulho da sua Kellynha. Meus pais amados, essa vitória também é de vocês!
Agradeço também aos tios e primos pela torcida e por terem estado sempre ao meu
lado, principalmente nos momentos em que mais precisei.
Ao meu orientador Fernando Moura, por acreditar em mim e estar sempre disponı́vel
para me ajudar. Meu crescimento durante estes 6 anos de trabalho juntos (entre mestrado
e doutorado) também se deve a você.
Ao meu amorzinho Andrés por sempre me apoiar em tudo e me dar o amor que muitas
vezes curou o meu estresse nestes anos. Obrigada por ser o anjinho que tornou meus dias
mais felizes nestes anos de muito estudo!
Aos professores do DME-UFRJ que passaram pela minha formação acadêmica
nestes anos.
Em especial ao professor Hélio Migon pela força e oportunidade de
trabalhar juntos em outros assuntos, e à professora Alexandra Schmidt pela torcida de
sempre e por ter incentivado a minha entrada neste programa de pós-graduação. Aos
vi
inesquecı́veis professores do IM-UFRJ que ajudaram a formar minha base matemática
nesta instituição.
Aos amigos que fiz durante estes anos de pós-graduação no DME-UFRJ. Em especial,
à Panela Camila, João, Larissa e Renata pela torcida e amizade verdadeira. À minha
turma Gustavo, João, Jony e Larissa pelo companheirismo nas disciplinas cursadas. Aos
demais amigos Patrı́cia, Mariana, Josiane, Vera (in memorian) e Felipe, veteranos que
estiveram sempre por perto. Agradeço a todos vocês pelos inesquecı́veis momentos que
passamos juntos. Grandes amizades que espero levar para toda a vida.
Agradeço também aos professores Alexandra Schmidt, Mariane Branco, Heleno
Bolfarine e Josemar Rodrigues por aceitarem participar desta banca.
Agradeço à CAPES pelo apoio financeiro, sem o qual não seria possı́vel realizar este
sonho. Ao GET-UFF pela flexibilidade, que me ajudou a exercer esta dupla jornada.
Agradeço também pelas experiências acadêmicas que tive no GET ao longo desses anos
e que me ajudaram a amadurecer em diversos aspectos.
Finalmente, agradeço à UFRJ, que tornou-se minha segunda casa nestes anos.
Quando entrei nesta instituição era uma menina de 17 anos ainda em dúvida sobre
sua carreira. Ao longo desses 9 anos aqui me graduei, encontrei uma área pela qual
me apaixonei, me tornei uma profissional e amadureci como pessoa. Sou profundamente
grata a esta instituição por hoje ser quem eu sou.
Ao escrever estes Agradecimentos a emoção algumas vezes tomou conta de mim, isso
mostra a importância desta conquista em minha vida. É um filme que passa na cabeça
neste momento. Obrigada a todos pela realização deste sonho!
vii
Resumo
Populações raras, como animais em extinção, pessoas infectadas por doenças raras,
usuários de drogas, entre outros, tendem a distribuir-se de forma agrupada em regiões.
Em levantamentos estatı́sticos com populações deste tipo, em que o principal interesse
é estimar o total populacional, este comportamento dificulta o processo de obtenção de
informação por meio de uma amostra aleatória simples, tornando-se necessários métodos
de amostragem complexos. Thompson (1990) propôs um método eficiente para estas
situações, denominado amostragem adaptativa por conglomerados.
Por outro lado, Rapley e Welsh (2008) propuseram uma abordagem para inferência em
populações deste tipo baseada em modelos. Sob o enfoque Bayesiano, o modelo proposto
é construı́do no nı́vel agregado dos grupos e incorpora o planejamento da amostragem
adaptativa por conglomerados à verossimilhança. Além disso, supõe homogeneidade entre
todas as unidades, mesmo as pertencentes a grupos distintos, o que resulta na frequência
esperada do total do fenômeno dentro de um grupo proporcional ao seu tamanho.
O objetivo deste trabalho é criar modelos alternativos para a previsão do total
populacional em uma determinada região. Inicialmente, o modelo agregado é estendido
para populações que evoluam dinamicamente.
Em particular, o interesse está em
populações raras que apresentam crescimento ou decrescimento dentro dos grupos até
a estabilização com a evolução do tempo.
Em seguida, o interesse é propôr um modelo de mistura alternativo ao modelo
agregado, que contemple situações mais gerais. A proposta é formulada em um nı́vel
desagregado da população, o que possibilita a inserção de estruturas com suposições
mais realistas, como a heterogeneidade entre grupos. O modelo é avaliado sob diversos
estudos de simulação e, finalmente, aplicado ao plano amostral adaptativo duplo, o qual
é um plano que permite a extração de mais informações acerca da população, mas sem
exceder os custos.
Palavras-chave: Amostragem informativa; modelos de mistura Poisson; RJMCMC.
viii
Abstract
Rare populations, such as endangered species, individuals infected by rare diseases and
drug users tend to cluster in regions. In many research studies with those populations,
where the main interest is to predict the population total, this behavior makes it difficult
the selection of a representative sample, making necessary complex sampling methods.
Thompson (1990) introduced an efficient method for these situations, called adaptive
cluster sampling.
On the other hand, Rapley e Welsh (2008) proposed a model-based approach to
make inference in those populations. From the Bayesian point of view, the proposed
model is built on the aggregated level of groups and takes into account the inclusion
probability of the adaptive sampling in the model likelihood. Furthermore, their model
supposes homogeneity between all units, even those belonging to different networks,
which is equivalent to assuming that the expected total in a group is proportional to its
size.
The aim of this work is to propose alternative models in order to predict the
population total in a region. Initially, the agregated model is extended to populations
that dinamically evolve. In particular, the interest is in rare populations which present
an increase or decrease within the groups, but stabilizes after some time.
Then, the interest is to propose a mixture model for more general situations,
alternative to the agregated model. The formulation of the model is done in the unit level,
what allows incorporating more realistic structures, such as the heterogeneity among units
belonging to different groups. The model is evaluated by carrying out some simulation
studies and finally applied to the adaptive cluster double sampling, which extracts more
informations about the population, without exceeding the costs.
Keywords: Informative sampling; Poisson mixture model; RJMCMC.
ix
Sumário
1 Introdução
1
1.1
Contribuições da tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.2
Organização da tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2 Inferência em população finita
7
2.1
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.2
Amostragem adaptativa por conglomerados . . . . . . . . . . . . . . . . .
9
2.3
2.4
2.2.1
Estimador do tipo Horvitz-Thompson modificado . . . . . . . . .
13
2.2.2
Amostragem estratificada adaptativa por conglomerados . . . . .
15
2.2.3
Amostragem adaptativa por conglomerados em dois estágios . . .
16
2.2.4
Custo operacional do plano amostral . . . . . . . . . . . . . . . .
16
2.2.5
Eficiência do plano amostral . . . . . . . . . . . . . . . . . . . . .
18
Modelos de superpopulação . . . . . . . . . . . . . . . . . . . . . . . . .
20
2.3.1
Desenho amostral informativo . . . . . . . . . . . . . . . . . . . .
21
Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3 Amostragem adaptativa por conglomerados baseada em modelos
3.1
3.2
25
Um modelo agregado . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
3.1.1
Possı́veis cenários gerados pelo modelo . . . . . . . . . . . . . . .
29
3.1.2
Estudo simulado para alguns cenários . . . . . . . . . . . . . . . .
30
3.1.3
Estudo simulado com população real . . . . . . . . . . . . . . . .
37
Um modelo para populações móveis, em crescimento ou decrescimento . .
40
3.2.1
41
Amostragem adaptativa para populações móveis . . . . . . . . . .
x
3.3
3.2.2
Incorporando estrutura de crescimento e decrescimento ao modelo
43
3.2.3
Modelo de crescimento exponencial . . . . . . . . . . . . . . . . .
45
3.2.4
Estudo simulado . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
3.2.5
Comparação do modelo de crescimento com outras abordagens . .
55
Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
4 Modelo de mistura para populações raras e agrupadas sob amostragem
adaptativa
60
4.1
Uma revisão sobre modelos de mistura de distribuições . . . . . . . . . .
62
4.1.1
Inferência Bayesiana em modelos de mistura . . . . . . . . . . . .
64
Modelo de mistura Poisson proposto . . . . . . . . . . . . . . . . . . . .
68
4.2.1
Distribuição a priori para λ . . . . . . . . . . . . . . . . . . . . .
72
4.2.2
Inferência para o modelo . . . . . . . . . . . . . . . . . . . . . . .
74
Estudo simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
4.3.1
Considerando diferentes configurações . . . . . . . . . . . . . . . .
81
4.3.2
Considerando diferentes nı́veis de heterogeneidade . . . . . . . . .
84
4.3.3
Análise de sensibilidade da distribuição a priori . . . . . . . . . .
88
Comparação com o modelo agregado . . . . . . . . . . . . . . . . . . . .
91
4.4.1
Simulação baseada no desenho amostral . . . . . . . . . . . . . .
92
4.4.2
Simulação baseada no modelo . . . . . . . . . . . . . . . . . . . .
95
Modelo de mistura sob amostragem adaptativa dupla . . . . . . . . . . .
97
4.5.1
Amostragem adaptativa dupla . . . . . . . . . . . . . . . . . . . .
98
4.5.2
Modelo proposto sob amostragem dupla com variável auxiliar
4.2
4.3
4.4
4.5
indicadora de presença . . . . . . . . . . . . . . . . . . . . . . . .
4.5.3
99
Avaliação do modelo proposto sob amostragem adaptativa e
adaptativa dupla . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.6
Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5 Conclusões e trabalhos futuros
5.1
108
Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.1.1
Planejamento amostral ótimo . . . . . . . . . . . . . . . . . . . . 110
xi
A Resultados dos modelos ajustados no Capı́tulo 3
112
A.1 Modelo (3.1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
A.2 Modelo de crescimento (3.4) . . . . . . . . . . . . . . . . . . . . . . . . . 116
B Cálculos envolvidos na inferência para o modelo proposto
118
B.1 Distribuições condicionais completas . . . . . . . . . . . . . . . . . . . . 118
B.2 Probabilidade de aceitação do algoritmo RJMCMC . . . . . . . . . . . . 121
xii
Lista de Tabelas
3.1
RaEQM e RaVAR dos estimadores para α, β, γ e T , entre os valores
obtidos no ajuste usando a probabilidade de seleção da amostra na função
de verossimilhança (3.3) e sem usá-la, sob 100 amostras artificiais. . . .
3.2
36
Estudo simulado com a população de marrecos da asa azul: eficiência
relativa para o estimador do total populacional com base no desenho
amostral adaptativo (estimador de Horvitz-Thompson modificado) e no
ajuste do modelo (3.1), com relação à amostragem aleatória simples de
tamanho n. A eficiência do estimador Bayesiano com relação ao estimador
de Horvitz-Thompson também é apresentada na última coluna. . . . . . .
3.3
40
Sumário da distribuição a posteriori dos parâmetros do modelo de
crescimento proposto: são apresentados o EQM e EAM, a amplitude média
dos intervalos HPD de 95% e a probabilidade de cobertura para as 100
populações geradas. Os resultados estão separadas para as populações em
crescimento e decrescimento. . . . . . . . . . . . . . . . . . . . . . . . . .
4.1
55
Análise da convergência das cadeias a posteriori dos parâmetros do modelo
proposto supondo distribuição a priori independente e dependente para λ
para uma população artificial. . . . . . . . . . . . . . . . . . . . . . . . .
4.2
78
Sumário a posteriori da estimação pontual e intervalar dos parâmetros do
modelo proposto e de T sob as 500 simulações, para diferentes valores de
α, β e N = 200. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xiii
82
4.3
Sumário a posteriori da estimação pontual e intervalar dos parâmetros do
modelo proposto e de T sob as 500 simulações, para diferentes valores de
α, β e N = 400. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4
83
Sumário a posteriori da estimação pontual e intervalar dos parâmetros do
modelo proposto e de T sob as 500 simulações, para diferentes valores de
α, β e N = 600. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5
84
Sumário para a estimação pontual e intervalar dos parâmetros do
modelo e o total populacional para as 500 populações, variando o nı́vel
de homogeneidade nas redes, a partir do valor do CV fixado para a
distribuição de λ, para N = 400. . . . . . . . . . . . . . . . . . . . . . .
4.6
Análise da convergência das cadeias com a distribuição a posteriori dos
parâmetros dos modelos de mistura e agregado para a população real. . .
4.7
94
Sumário da estimação pontual e intervalar do total populacional obtido do
ajuste do modelo de mistura e do modelo agregado.
4.8
87
. . . . . . . . . . . .
95
Sumário a posteriori para a estimação pontual e intervalar dos parâmetros
dos modelos sob as 500 simulações onde λ foi gerado de uma distribuição
Gama com CV=50% e CV=25%, para N = 400 e (α, β) = (0.15, 0.10). .
4.9
96
Sumário a posteriori do total populacional T para os quatro planejamentos
considerados com base nas 500 amostras simuladas.
. . . . . . . . . . . 104
4.10 Resumo das principais conclusões acerca dos estudos simulados realizados
com o modelo de mistura proposto em (4.4). . . . . . . . . . . . . . . . . 107
xiv
Lista de Figuras
2.1
Ilustração do procedimento de amostragem adaptativa por conglomerados
para uma população rara e agrupada distribuı́da em uma região com 400
unidades.
No painel à esquerda temos uma amostra inicial de n1 =
10 unidades representadas pelos quadrados em cinza.
A partir desta
amostra, vizinhos são adicionados à amostra sempre que há pelo menos
uma observação (pontos em preto) na unidade selecionada, configurando
finalmente o plano amostral da direita. . . . . . . . . . . . . . . . . . . .
2.2
11
Ilustração dos conceitos importantes na amostragem adaptativa por
conglomerados: os quadrados com borda em negrito correspondem ao
conglomerado observado, os quadrados em cinza são as unidades da
rede e a parte hachurada as unidades da borda. A unidade selecionada
inicialmente está em cinza mais escuro. . . . . . . . . . . . . . . . . . . .
3.1
13
Populações artificiais geradas a partir do modelo proposto por Rapley e
Welsh (2008), para alguns valores fixos para os parâmetros α e β e para
γ = 10, numa grade regular de tamanho N = 400. . . . . . . . . . . . . .
3.2
31
População real de marrecos da asa azul na região da Flórida, nos Estados
Unidos, no ano de 1992, disposta numa grade regular de tamanho N = 200. 38
3.3
Ilustração da evolução dinâmica de interesse de uma população rara e
agrupada numa região sobreposta a uma grade regular com N = 400
unidades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xv
44
3.4
Curvas de crescimento e decrescimento de interesse para αt , t = 1, . . . , 50.
Em (a) fixou-se a = −1.73, b = −1.41 e c = −0.15, e em (b) a = −2.20,
b = 0.94 e c = −0.15, o que resulta no parâmetro αt variando de 0.05 e
0.15 e de 0.2 a 0.1, respectivamente. . . . . . . . . . . . . . . . . . . . . .
47
3.5
Distribuição a priori conjunta para o vetor (a, b)0 . . . . . . . . . . . . . .
49
3.6
Sumário da distribuição a posteriori de αt e do total populacional para
uma população em crescimento e decrescimento ao longo do tempo. Em
preto está a média a posteriori de αt e total populacional Tt , t = 1, . . . , 50,
com intervalo HPD de 95% em cinza e valor verdadeiro em azul. . . . . .
3.7
54
Sumário da distribuição a posteriori do total populacional a cada instante
de tempo T para 100 populações em crescimento e outras 100 em
decrescimento geradas. São apresentados os EQMR, EAR, probabilidade
de cobertura e amplitude média dos intervalos HPD de 95%. . . . . . . .
3.8
56
Comparação do modelo proposto de crescimento exponencial (3.4) com o
ajuste independente ao longo do tempo do modelo (3.1). Em (a) estão
as probabilidades de cobertura dos intervalos HPD de 95%, em (b) a
amplitude média destes intervalos, em (c) está a REQMR para cada
abordagem utilizada e em (d) as REQMR para todos os tempos incluindo
na comparação o estimador de Horvitz-Thompson. . . . . . . . . . . . . .
4.1
Comparação das médias da distribuição de Poisson e Poisson truncada no
zero. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2
58
75
Densidade a posteriori para alguns parâmetros do modelo proposto e para o
total populacional T com base em um dado artificial supondo distribuição
a priori para λ independente. A linha vertical cheia representa o valor
verdadeiro e a linha pontilhada o intervalo HPD de 95%. . . . . . . . . .
4.3
79
Densidade a posteriori para alguns parâmetros do modelo proposto e para o
total populacional T com base em um dado artificial supondo distribuição
a priori para λ dependente. A linha vertical cheia representa o valor
verdadeiro e a linha pontilhada o intervalo HPD de 95%. . . . . . . . . .
xvi
80
4.4
Erro relativo para λs e λs̄ ao longo de 500 simulações, para N = 400 e
diferentes configurações de α e β. . . . . . . . . . . . . . . . . . . . . . .
4.5
Distribuição a priori para λj usada nas simulações variando o valor do
CV da distribuição. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6
85
85
Sumário da distribuição a posteriori de R assumindo diferentes
distribuições a priori para λ.
As cruzes representam a mediana da
distribuição a posteriori, o cı́rculo o valor verdadeiro de R e a linha o
intervalo HPD de 95%. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7
89
EMQR para cada λj assumindo diferentes distribuições a priori para λ. Os
resultados com a distribuição a priori independente são representados pelos
cı́rculos vazios e a linha cheia, os resultados para a distribuição dependente
com τ = 5 são representados pelos triângulos e a linha tracejada, as cruzes
com a linha pontilhada representam os resultados quando τ = 10 e τ = 20
são os cı́rculos cheios e a linha traço e ponto. . . . . . . . . . . . . . . .
4.8
90
EQMR, probabilidade de cobertura e amplitude média do intervalo HPD
de 95% para o total populacional T sob cada distribuição a priori assumida
para λ e para cada valor de R fixado.
Os cı́rculos vazios e a linha
representam os resultados para R = 5, os triângulos com a linha tracejada
quando R = 6 e as cruzes com a linha pontilhada para R = 7. . . . . . .
4.9
91
Traço das cadeias com a distribuição a posteriori para α, β e T obtida do
ajuste do modelo de mistura (a) e do modelo agregado (b). A linha em
cinza representa o valor verdadeiro de T . . . . . . . . . . . . . . . . . . .
93
4.10 ER para T para as 500 amostras obtidos a partir do ajuste do modelo de
mistura e do modelo agregado. . . . . . . . . . . . . . . . . . . . . . . . .
95
4.11 Boxplot com o ER para T , a partir do modelo de mistura e do modelo
agregado para as 500 populações, tal que λ foi gerado de uma distribuição
Gama com CV=50% e CV=25%. . . . . . . . . . . . . . . . . . . . . . .
97
4.12 Sumário a posteriori de λs2 para os planejamentos (i) e (ii-a) com base
nas 500 amostras simuladas. . . . . . . . . . . . . . . . . . . . . . . . . . 105
xvii
1.1
Traços das cadeias dos parâmetros α, β, γ e total populacional T para um
dado artificial gerado fixando α = 0.05 e β ∈ {0.05, 0.1, 0.15, 0.2}, com
respectivos valores verdadeiros em cinza. . . . . . . . . . . . . . . . . . . 113
1.2
Traços das cadeias dos parâmetros α, β, γ e total populacional T para
um dado artificial gerado fixando α = 0.1 e β ∈ {0.05, 0.1, 0.15, 0.2}, com
respectivos valores verdadeiros em cinza. . . . . . . . . . . . . . . . . . . 113
1.3
Traços das cadeias dos parâmetros α, β, γ e total populacional T para um
dado artificial gerado fixando α = 0.15 e β ∈ {0.05, 0.1, 0.15, 0.2}, com
respectivos valores verdadeiros em cinza. . . . . . . . . . . . . . . . . . . 114
1.4
Traços das cadeias dos parâmetros α, β, γ e total populacional T para
um dado artificial gerado fixando α = 0.2 e β ∈ {0.05, 0.1, 0.15, 0.2}, com
respectivos valores verdadeiros em cinza. . . . . . . . . . . . . . . . . . . 114
1.5
Sumário da distribuição a posteriori dos parâmetros α, β, γ e T para
100 populações em 16 cenários com amostra inicial de 5%N e 10%N . Em
(a) os triângulos representam as probabilidades de cobertura dos intervalos
HPD de 95% para a amostra de 5%, os cı́rculos cheios para a amostra de
10% e a linha tracejada em vermelho o nı́vel nominal de 95%. Em (b)
estão o EQM para cada parâmetro e o EQMR para T . . . . . . . . . . . . 115
1.6
Sumário da distribuição a posteriori de Θ e do total populacional para
uma população em crescimento ao longo do tempo. Em (a)-(e) estão os
traços das cadeias da distribuição a posteriori dos parâmetros a, b, c, β e
γ. De (f )-(j) estão os traços das cadeias para os totais em alguns tempos.
A linha em cinza representa o valor verdadeiro usado na geração dos dados
artificiais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
1.7
Sumário da distribuição a posteriori de Θ e do total populacional para
uma população em decrescimento ao longo do tempo. Em (a)-(e) estão
os traços das cadeias da distribuição a posteriori dos parâmetros a, b, c,
β e γ. De (f )-(j) estão os traços das cadeias para os totais em alguns
tempos. A linha em cinza representa o valor verdadeiro usado na geração
dos dados artificiais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
xviii
Capı́tulo 1
Introdução
Em diversos levantamentos estatı́sticos é possı́vel deparar-se com dificuldades na
coleta de dados, devido ao objeto de estudo ser difı́cil de ser observado. Isto pode ocorrer
simplesmente por ser um subconjunto pequeno da população toda, exibir um padrão de
grupos esparsamente distribuı́dos numa região, ou ainda por apresentar uma mobilidade
ao longo do tempo. São alguns exemplos de populações com estas caracterı́sticas: animais
e plantas em extinção, minorias étnicas, usuários de drogas, indivı́duos com doenças
raras e imigrantes recentes numa região. Problemas de monitoramento de populações
raras tornaram-se uma prioridade para muitos órgãos públicos, como por exemplo o
monitoramento de espécies ameaçadas de extinção para as agências de conservação.
Em geral detectar e estimar a abundância ou distribuição de populações com estas
caracterı́sticas é uma tarefa difı́cil.
Kalton e Anderson (1986) afirmam que populações raras são definidas basicamente
como uma pequena fração da população total, como por exemplo em estudos de
doenças raras, em que o interesse se concentra em grupos especı́ficos de sexo e idade.
No entanto, McDonald (2004) afirma que populações raras não são necessariamente
aquelas que possuem poucos indivı́duos, e sim aquelas em que os indivı́duos apresentam
comportamento elusivo ou estão esparsamente distribuı́dos em grandes espaços. Nesta
abordagem estão as populações raras e agrupadas, as quais apresentam um padrão de
distribuição espacial altamente concentrado, com grupos esparsos em uma região. Assim,
uma população com comportamento em forma de grupos espalhados em um espaço
1
geográfico grande tem uma raridade geográfica maior do que uma população de mesmo
tamanho confinada em um espaço geográfico menor.
A amostragem de populações raras é uma tarefa árdua, porque os custos de localização
de tais populações são substanciais e podem exceder os recursos disponı́veis. Além disso,
em geral, a densidade populacional média é pequena com relação à área total, mas quando
uma abundância substancial em alguns pontos é localizada, concentrações em vizinhanças
tendem a ser detectadas, e ao aplicar-se um planejamento amostral tradicional, muitas
unidades podem apresentar zeros na contagem, enquanto a maior parte das unidades
com contagens diferentes de zero se mantém concentrada em alguns locais que não foram
amostrados. Este fenômeno resulta em estimadores altamente imprecisos. Por esses
motivos, métodos especı́ficos têm sido desenvolvidos para a amostragem de populações
raras e agrupadas.
Em meio ao surgimento de diversas técnicas de amostragem para populações raras,
como as revisadas em Sudman e Kalton (1986), Kalton e Anderson (1986) e Kalton
(2001), a amostragem proposta por Thompson (1990) ganhou destaque na literatura
como uma técnica eficiente para levantamentos estatı́sticos em populações deste tipo.
Denominada como amostragem adaptativa por conglomerados, a técnica aproveita a ideia
intuitiva de que se os elementos da população foram encontrados em uma área, as áreas
vizinhas têm maior probabilidade de possuı́rem elementos com as mesmas caracterı́sticas.
Extensões desta técnica de amostragem podem ser vistas em Thompson e Seber (1996)
e Turk e Borkowski (2005).
Por outro lado, a biosfera está constituı́da de sistemas que mudam com o passar
do tempo, dependendo da organização do sistema e dos recursos disponı́veis. Kalton
(1991) revisa métodos de amostragem para populações móveis. O estudo da dinâmica
das populações naturais é importante para compreender o que ocorre nos ecossistemas em
equilı́brio. Da mesma forma, populações raras e agrupadas também podem apresentar
uma dinâmica populacional ao longo do tempo e tal fator pode ser gerador de dificuldades
maiores ainda nos levantamentos estatı́sticos.
McDonald (2004) apresenta estudos
por amostragem que produzem estimativas inadequadas simplesmente pelo fato do
pesquisador perder a população-alvo em um curto intervalo de tempo, devido ao grande
2
poder de deslocamento, mortes, entre outros fatores. Estudos acerca de populações de
animais selvagens constituem um campo de aplicação que em muitos aspectos difere de
levantamentos com uma população de árvores, por exemplo. Os animais podem circular
e se esconder naturalmente, e além disso o próprio processo de amostragem em si pode
induzir a esta mobilidade. Assim, um planejamento amostral eficiente pode não existir
e a probabilidade de inclusão de um animal na amostra é calculada depois da amostra
ter sido planejada. Por isso, a probabilidade de obter erros amostrais é também maior
em pesquisas com uma população de animais ou outra com esta mesma caracterı́stica.
Para estes e outros casos, um levantamento estatı́stico por amostragem, que considera
esta dinâmica da população e trabalha com coletas de amostras ao longo de um perı́odo
de tempo, pode produzir resultados mais precisos que planejamentos que não levem tal
dinâmica em consideração.
Todas as técnicas citadas acima fundamentam-se na teoria de amostragem baseada
na aleatorização do desenho amostral, ou seja, o mecanismo probabilı́stico de seleção da
amostra define um procedimento predeterminado de aleatorização, denominado desenho
amostral. Como apontado por Skinner et al. (1989), a principal razão desta abordagem
é sua caracterização como livre de distribuição.
Em algumas situações especı́ficas, como em estimação em pequenos domı́nios, esta
abordagem, baseada no desenho amostral, pode mostrar-se ineficiente, fornecendo
preditores inadequados. Isto porque neste caso, o tamanho da amostra resultante de
uma pesquisa é muito pequeno para que estimadores baseados somente no desenho
amostral apresentem precisão aceitável. Além disso, em termos de estimação intervalar,
é necessário recorrer ao Teorema Central do Limite, o qual não pode ser aplicado em
muitas situações práticas, em que o tamanho da amostra não é suficientemente grande
e/ ou no caso em que suposições de independência das variáveis aleatórias envolvidas
não são realistas. Uma possı́vel solução para estes casos é a utilização de modelos de
superpopulação. Nesta abordagem são usadas suposições explı́citas, buscando realizar
inferência sobre a parte desconhecida, que não seja baseada apenas na parte observada,
mas na distribuição conjunta das variáveis de interesse.
3
Com base nestas ideias, é possı́vel também fazer inferência em populações raras e
agrupadas usando as técnicas de amostragem citadas, mas sob a abordagem baseada
em modelos, em particular sob o enfoque Bayesiano. Nestes problemas a perspectiva
Bayesiana pode ter grandes vantagens sobre abordagens baseadas em desenho amostral
ou em modelos frequentistas, tais como: (i) podem-se obter estimativas para quantidades
para as quais a amostra coletada é pequena, incorporando informações a priori do
comportamento da população; (ii) a incerteza inerente ao procedimento de estimação
é levada em consideração na previsão, pois seguindo o paradigma de Bayes, é possı́vel
obter uma distribuição preditiva, entre outras.
Neste contexto, Rapley e Welsh (2008) propõem, de forma pioneira, um modelo,
sob o enfoque Bayesiano, que incorpora o planejamento da amostragem adaptativa por
conglomerados, a fim de inferir sobre o total populacional em uma região de interesse.
Uma caracterı́stica importante de tal modelo é que a unidade de análise é dada por um
nı́vel agregado de unidades menores, dessa forma trata-se de uma alternativa à introdução
das localizações espaciais, a fim de facilitar a inferência. No entanto, não incorporar
efeitos espaciais e estimar parâmetros populacionais em nı́veis agregados pode trazer
perdas de informações de interesse em nı́veis menores e na precisão das estimativas. Além
disso, duas suposições fortes deste modelo são que em média as unidades da população são
homogêneas com relação ao fenômeno de interesse e que o total esperado de ocorrências
do fenômeno em um determinado grupo é proporcional ao tamanho deste grupo na região.
1.1
Contribuições da tese
O objetivo deste trabalho é fazer previsões em populações raras, agrupadas e móveis
usando amostragem adaptativa por conglomerados, sob uma abordagem baseada em
modelos de superpopulação, sob o enfoque Bayesiano.
Primeiramente, o interesse está em estender o modelo de Rapley e Welsh (2008) com
o objetivo de fazer inferências sobre populações dinâmicas. Em particular, o interesse
está em populações em crescimento ou decrescimento que atingem a uma estabilização
com a evolução do tempo.
4
Em seguida, sem considerar evolução no tempo, é proposto um modelo para
populações raras e agrupadas, alternativo ao de Rapley e Welsh (2008). baseado em
misturas de distribuições.
Tal modelagem possibilita fazer inferência em um nı́vel
desagregado da população e suposições mais realistas, como por exemplo heterogeneidade
entre unidades que compõem grupos distintos.
Finalmente, esta proposta é estendida para problemas em que a amostragem
adaptativa por conglomerados torna-se muito custosa e faz-se necessário o uso de um
planejamento alternativo. Em particular, será considerada a amostragem adaptativa
dupla por conglomerados proposta por Felix-Medina e Thompson (2004). Neste contexto,
é considerada também a inserção de variáveis auxiliares que podem ajudar na estimação.
O software livre R (R Core Team, 2013) foi utilizado tanto para programar os
algoritmos quanto para a construção dos gráficos apresentados.
1.2
Organização da tese
No Capı́tulo 2 é introduzida a notação de amostragem de população finita, a qual
será utilizada ao longo do texto, e é feita uma ampla revisão de literatura sobre
planos amostrais informativos, modelos de superpopulação e amostragem adaptativa por
conglomerados.
No Capı́tulo 3 é apresentado o modelo proposto por Rapley e Welsh (2008), descrito
acima, o qual serviu-nos de inspiração para as propostas deste trabalho. Um estudo
simulado é apresentado, a fim de verificar o desempenho do modelo para alguns cenários.
Além disso, é apresentada uma população real, a qual é utilizada ao longo deste trabalho,
e em particular neste capı́tulo, esta é usada em uma avaliação do desempenho do modelo
em questão. Finalmente, é proposta uma extensão deste modelo para uma classe de
populações móveis e, em crescimento ou decrescimento, ao longo do tempo.
No Capı́tulo 4 é proposto um novo modelo de mistura de probabilidades para previsão
em populações deste tipo. Este modelo é mais geral que o proposto por Rapley e Welsh
(2008) pois modela as unidades desagregadas, o que permite prever neste nı́vel menor
e incorporar estruturas que acomodem suposições mais complexas para a população.
5
Alguns estudos simulados são apresentados a fim de avaliar o desempenho do modelo
proposto.
Experimentos baseados em modelos e desenho são feitos com o objetivo
de comparar o modelo proposto neste trabalho com o modelo de Rapley e Welsh
(2008).
Finalmente, é feita uma aplicação do modelo de mistura ao planejamento
amostral apresentado em Felix-Medina e Thompson (2004), o qual permite a realização
de pesquisas com um custo mais controlado e o uso de variáveis auxiliares.
Finalmente, o Capı́tulo 5 conclui o trabalho, resumindo o que foi desenvolvido e
apresentando propostas futuras.
6
Capı́tulo 2
Inferência em população finita
Neste capı́tulo são apresentados a notação e definições importantes na teoria de
amostragem de população finita que serão utilizadas ao longo deste trabalho. Neste
contexto, existem duas possı́veis abordagens: (i) a baseada na aleatorização do desenho
amostral, com a população fixa, e (ii) modelos de superpopulação (detalhes em Bolfarine
e Zacks (1992)). Na Seção 2.1 a primeira abordagem é apresentada. Em particular,
a Seção 2.2 apresenta um plano amostral utilizado para populações raras e agrupadas
proposto por Thompson (1990) e algumas extensões. Finalmente, na Seção 2.3 a segunda
abordagem é apresentada, com ênfase a modelos, para os quais o planejamento amostral
é relevante para a análise Bayesiana do modelo.
2.1
Introdução
Segundo Cassel et al. (1977), uma população finita é uma coleção de N unidades
denotada pelo conjunto de ı́ndices P = {1, . . . , N }, para a qual temos interesse numa
caracterı́stica y, para N supostamente conhecido. Associada à unidade i, i = 1, . . . , N ,
tem-se o valor yi . Se a unidade i é observada, não é somente o valor de yi que é registrado
mas, também, o fato de que foi exatamente a unidade i que gerou essa medida. Denote
a observação completa pelo par (i, yi ) e, portanto, existem N pares, (i, yi ), i = 1, . . . , N ,
para a população toda.
7
Defina y = (y1 , . . . , yN )0 como o parâmetro populacional da população finita. Por
exemplo, o número de pessoas com alguma doença em N bairros, ou o número de animais
de uma determinada uma espécie em N localizações. No contexto de populações finitas,
em geral o objetivo é estimar funções de y, como por exemplo o total populacional
P
0
T = N
i=1 yi = 1N y, onde 1N é o vetor unitário de dimensão N × 1, a média populacional
P
2
µ = T /N e a variância populacional σ 2 = N
i=1 (yi − µ) /N . Em particular, o interesse
neste trabalho concentrar-se-á em estimar o total populacional.
A inferência sobre estes parâmetros é feita com base em informações obtidas sobre
o vetor y por meio de uma amostra ordenada s ⊂ P , de tamanho n, dada por s =
{i1 , . . . , in }. A amostragem de população finita baseada na aleatorização do desenho
amostral distingue-se de outras partes da estatı́stica, pois trata a população de forma
fixa. Nesta abordagem, o mecanismo probabilı́stico de seleção da amostra define um
procedimento predeterminado de aleatorização, denominado desenho amostral. Este é
representado por uma função de probabilidade, conhecida como planejamento amostral,
definida no conjunto S de todas as possı́veis amostras s, onde [s] fornece a probabilidade
de selecionar a amostra s. Um desenho amostral [.] é chamado não informativo se, e
somente se, [.] é uma função que não depende dos valores de y associados a s. Denote
um planejamento amostral informativo por [s | y].
Uma vez que s é selecionada, o resultado observado pode ser especificado como o
conjunto de pares d = {(i, yi ) : i ∈ s}. Em alguns casos, o interesse está apenas nos
valores de y e não no par completo, por isso defina ys = {yi : i ∈ s}. Sejam s̄ = P − s e
portanto ys̄ = {yi : i ∈ P − s}, os valores de y que não pertencem à amostra.
Neste contexto, um conceito importante que virá a facilitar expressões mais à frente
é o conceito de consistência. De acordo com Cassel et al. (1977), uma amostra s é
0 0
dita consistente com uma particular população y0 = (y10 , . . . , yN
) se, e somente se,
yi = yi0 para todo i ∈ s. Em outras palavras uma amostra é consistente com uma
particular população se, e somente, se os valores de y das unidades amostradas coincidem
com os valores de y das mesmas unidades na população. Dessa forma, para qualquer
planejamento amostral dado por [.] e, qualquer vetor populacional y, tem-se que a
8
probabilidade de uma quantidade aleatória D tomar um valor d é dada por: [s], se
s é consistente com y e 0, caso contrário.
Analogamente, pode-se definir I como o vetor de dimensão N indicador de inclusão
na amostra s ⊂ S, de cada unidade da população, isto é Ii = 1 se i ∈ s e Ii = 0 se
i ∈
/ s. Note que Ii segue uma distribuição de Bernoulli com probabilidade de sucesso
πi , i = 1, . . . , N, tal que πi é a probabilidade de inclusão da unidade i na amostra.
Assim, por exemplo, o estimador de Horvitz-Thompson (Horvitz e Thompson (1952))
para o total T e sua variância podem ser escritos como:
T̂HT =
N
X
yi Ii
i=1
πi
,
V (T̂HT ) =
N
X
1 − πi
πi
i=1
yi2
N X
X
πij − πi πj
+2
yi yj ,
πi πj
i=1 j>i
(2.1)
tal que πij representa a probabilidade de inclusão das unidades i e j conjuntamente na
amostra.
A outra técnica usada na inferência em populações finitas é a baseada em modelos
de superpopulação, na qual a amostra permanece fixa, e as observações populacionais
são representadas por realizações de variáveis aleatórias, e a inferência se refere a uma
superpopulação hipotética, na qual uma lei de probabilidade governa as variáveis de
interesse. Esta metodologia também será vista com detalhes na Seção 2.3.
Na próxima seção é apresentado um planejamento amostral especı́fico, voltado para
levantamentos em populações raras e agrupadas.
2.2
Amostragem adaptativa por conglomerados
Em pesquisas dentro de regiões pode-se sobrepor uma grade regular e a seleção da
amostra envolve a seleção de um subconjunto de células da grade. Para populações
esparsas e agrupadas, a maioria das amostras de tamanho pequeno consistem de células
vazias, resultando em muitas amostras que geram estimativas imprecisas da quantidade
de interesse. A amostragem adaptativa por conglomerados é uma alternativa para esta
dificuldade pois trata-se de um planejamento voltado para populações raras e agrupadas.
Proposta inicialmente por Thompson (1990), o método mostrou-se eficiente em pesquisas
epidemiológicas, sobre doenças raras, com animais, plantas e de caráter social.
9
A técnica utiliza informações dos valores observados para ter mais êxito na coleta
de unidades da população, aumentado assim a eficiência dos estimadores. Isso se deve
ao fato de que se espera ser mais provável encontrar um elemento com caracterı́sticas
semelhantes a outro na sua vizinhança, quando a população é agrupada. Dessa forma,
este desenho caracteriza-se como informativo, pois a probabilidade de seleção da amostra
depende dos valores de y.
Na Figura 2.1 o método é ilustrado para uma população distribuı́da em uma região
particionada em uma grade regular no plano com N = 400 quadrados. Assim como
em Thompson (1990), defina os quadrados como unidades de observação primária e a
vizinhança de um quadrado como o conjunto de quadrados que apresentam um lado
contı́guo a este. Daqui em diante no lugar do termo quadrado será utilizado unidade. O
procedimento de amostragem inicia-se com a amostragem aleatória simples sem reposição
de n1 = 10 unidades, as quais estão dispostas em cinza na grade. Suponha que uma
unidade é classificada como de interesse se pelo menos uma observação é encontrada
nesta. Note que das 10 unidades selecionadas, apenas 2 satisfazem esta condição. Em
seguida, as unidades vizinhas a estas 2 unidades são também incluı́das na amostra.
O processo continua até que todas as unidades vizinhas com observações de interesse
sejam adicionadas à amostra e finaliza nas unidades vizinhas que não apresentem tais
observações. Observe na Figura 2.1 à direita o processo finalizado com n = 45 unidades
amostrais, representados pelas unidades em destaque.
Ainda que no exemplo descrito na Figura 2.1, a vizinhança tenha sido definida dessa
forma, outros tipos de vizinhanças podem ser consideradas, como por exemplo uma grade
sistemática em torno da unidade inicial, ligações genéticas e sociais no caso de populações
humanas, entre outras.
A condição para adição de vizinhos à amostra pode ser também definida de forma
mais geral como ter mais observações que um número mı́nimo fixado.
Além disso, note que à medida que as unidades vizinhas são agregadas à amostra,
em torno da primeira unidade selecionada é formado um grupo de unidades amostrais,
estes grupos formados são denominados conglomerados. Tal conglomerado só tem sua
fronteira finalizada até que vizinhos observados não satisfaçam a condição de interesse,
10
●
●
●
●●●●●
● ●●●
●
●
●
●● ●● ●● ●
●
●
●
●
●
●
●
●
●●●●●
● ●●●
●
●
●
●● ●● ●● ●
●
●
●
●
●
●
●
●●
●●
● ● ●●●
● ●●
●
●
●
●
●● ● ●
●● ●
● ●●●
●●●●●
●
●
●
●
●
●●●●
●● ●●●● ●
●●
●●
●
● ●
●
●
●
●●
●
●
●●
●●
● ● ●●●
● ●●
●
●
●
●
●● ● ●
●● ●
● ●●●
●●●●●
●
●
●
●
●
●●●●
●● ●●●● ●
●●
●●
●
● ●
●
●
●
●●
●
●
● ●●
●
●
● ●●●●●
●
● ● ●●● ●● ●
●
●● ●●
●
● ●
●
● ●●
●
●
● ●●●●●
●
● ● ●●● ●● ●
●
●● ●●
●
● ●
●
Figura 2.1: Ilustração do procedimento de amostragem adaptativa por conglomerados para
uma população rara e agrupada distribuı́da em uma região com 400 unidades. No painel à
esquerda temos uma amostra inicial de n1 = 10 unidades representadas pelos quadrados
em cinza. A partir desta amostra, vizinhos são adicionados à amostra sempre que há
pelo menos uma observação (pontos em preto) na unidade selecionada, configurando
finalmente o plano amostral da direita.
portanto todo conglomerado é formado por unidades na fronteira que não satisfazem tal
condição. Estas unidades são chamadas unidades de borda. Se uma unidade selecionada
na amostra inicial não é de interesse, não há acréscimos de vizinhos na amostra a partir
desta unidade.
Um conglomerado, descontadas as unidades de borda, é denominado rede. Note
que neste planejamento uma rede é sempre a mesma, independente da unidade da rede
selecionada na amostragem inicial.
Embora as unidades da amostra inicial selecionadas via amostragem aleatória simples
sem reposição sejam distintas, seleções repetidas podem ocorrer na amostra final quando
um conglomerado inclui mais de uma unidade na amostra inicial. Ou seja, se duas
unidades que não sejam de borda no mesmo conglomerado são selecionadas inicialmente,
então este conglomerado pode ocorrer duas vezes na amostra final. Uma unidade i da
11
população pode ser incluı́da na amostra tanto se qualquer unidade da rede a qual i
pertence é selecionada na amostra inicial, ou se qualquer unidade da rede a qual i é
uma unidade de borda é selecionada. Por definição as unidades que não satisfazem a
condição de interesse, assim como as unidades de borda, são também redes de tamanho
1. Portanto, uma amostra adaptativa por conglomerados, que se inicia com a seleção sem
reposição de n1 unidades iniciais, tem no final um número de redes não vazias distintas
sempre menor ou igual a n1 , mas note que o tamanho final da amostra é uma variável
aleatória e, portanto, não pode ser fixado.
A fim de ilustrar os conceitos de conglomerado, de rede e unidades de borda descritos,
na Figura 2.2 está uma parte da amostra vista na Figura 2.1. Os quadrados com borda
em negrito correspondem ao conglomerado observado, os quadrados em cinza compõem
a rede não vazia e a parte hachurada são as unidades da borda. A unidade selecionada
inicialmente está em cinza mais escuro.
Em geral, as redes é que são usadas como unidades de análise no lugar das células
da grade, pois as células da grade dentro de redes têm uma estrutura de dependência
e trabalhar no nı́vel de rede permite-nos evitar fazer esta estrutura de dependência de
forma explı́cita.
Segundo Cassel et al. (1977) um desenho amostral é chamado não informativo ou
ignorável se, e só se, a função planejamento amostral [.] não depende dos valores de y
associados aos ı́ndices em s. Desenhos informativos podem afetar as inferências quando
são erroneamente ignorados.
Note que o desenho adaptativo é informativo, pois a
probabilidade de seleção de uma amostra depende dos valores da variável de interesse.
Este tipo de planejamento será descrito com mais detalhes na Seção 2.3.
Estimadores convencionais sob este planejamento amostral tendem a ser viesados,
pois as unidades com observação de interesse são amostradas desproporcionalmente. Com
base nesta ideia, Thompson (1990) obteve um estimador não viesado sob este desenho
amostral para a média populacional, o qual está brevemente descrito a seguir.
12
●
●
●
●
●
●
●
●
●
●
●
●●
●●● ●
●
● ● ●●
●
●
●
●
●●
●
●
● ●●
●
●●●
●●
●
● ● ●●
●
●
●
●
●
● ●● ●
●
●●
●●
●
●
●
●
●
● ●
●
●
●
●
●●
●●
Figura 2.2:
Ilustração dos conceitos importantes na amostragem adaptativa por
conglomerados: os quadrados com borda em negrito correspondem ao conglomerado
observado, os quadrados em cinza são as unidades da rede e a parte hachurada as unidades
da borda. A unidade selecionada inicialmente está em cinza mais escuro.
2.2.1
Estimador do tipo Horvitz-Thompson modificado
Thompson (1990) apresentou um estimador não viesado para a média populacional
que corresponde a uma modificação do estimador de Horvitz-Thompson, no qual cada
observação yi na unidade amostral é dividida pela sua probabilidade de inclusão. Em
particular, será descrito a seguir o estimador do total populacional, que é uma simples
transformação da média.
Nesse caso uma unidade i é incluı́da na amostra se qualquer unidade da rede a qual
i pertence (incluindo ela mesma) é observada na amostra inicial, ou se qualquer unidade
da rede a qual i é uma unidade de borda é selecionada. Dessa forma, defina ai como o
número de unidades na rede para os conglomerados em que i é uma unidade de borda e
ci como o número de unidades na rede que contém i. Note que se i satisfaz a condição
de interesse, ou seja se i é uma unidade em cinza na Figura 2.2, tem-se ai = 0 e ci = 10.
Mas se i não satisfaz a condição de interesse, ou seja se i é uma unidade hachurada na
Figura 2.2, ci = 1 e ai = 10.
13
A probabilidade de inclusão da unidade i para qualquer uma das n1 seleções é dada
por
N − c i − ai
N
πi = 1 −
/
.
n1
n1
(2.2)
Note que, ao final do processo de amostragem, ci é uma quantidade conhecida para
as unidades amostradas, enquanto que ai pode ser maior do que o observado na amostra,
pois não temos o conhecimento se existe outra rede na qual i seja unidade de borda,
i = 1, . . . , N , tal que N é o número de unidades da grade. Portanto, o estimador de
Horvitz-Thompson para o total populacional em (2.1), com probabilidade de inclusão πi
dado por (2.2) não deve ser usado sob este desenho amostral.
Um estimador não-viesado para este caso pode ser obtido como uma modificação
do estimador de Horvitz-Thompson, apresentado em (2.1). O estimador faz uso das
observações que não satisfazem a condição de interesse só quando estas são observadas na
amostra inicial. Assim, a probabilidade de que uma unidade seja utilizada no estimador
pode ser calculada, mesmo se sua verdadeira probabilidade de inclusão seja desconhecida.
Portanto, defina a probabilidade de inclusão neste caso por:
N − ck
N
∗
πk = 1 −
/
,
n1
n1
em que ck é o número de unidades na rede que inclui a unidade k.
Seja a variável indicadora Ik∗ que assume o valor 0 se a unidade k na amostra s não
satisfaz a condição de interesse ou se k não foi selecionada na amostra inicial, e caso
contrário assume o valor 1. O estimador modificado portanto é dado por:
T̂HT ∗ =
ν
X
yk I ∗
k=1
k
∗
πk
,
(2.3)
em que ν é o tamanho efetivo da amostra final, ou seja o número de unidades distintas.
Para obter a expressão da variância do estimador é mais conveniente formulá-lo em
termo das redes do que das unidades individuais. Denote por N ∗ o número de redes na
população. Note que para toda unidade k da rede j, j = 1, . . . , N ∗ , Ik∗ é sempre a mesma,
portanto Ij∗ seria uma variável indicadora que assume o valor 0 se a rede j é vazia ou
se não foi observada na amostra, caso contrário assume o valor 1. A probabilidade de
14
inclusão πk∗ de uma unidade k é igual para todas as unidades na mesma rede j. Denote a
probabilidade de inclusão de uma rede j na amostra por αj . O total na rede j é definido
X
como yj∗ =
yk , em que Uj é o conjunto de unidades que compõem a rede j.
{k:k∈Uj }
Dessa forma, (2.3) pode ser reescrito como:
∗
T̂HT ∗ =
N
X
yj∗ Ij∗
j=1
αj
.
(2.4)
Note que como as redes são as unidades de análise neste caso, a fim de compatibilizar
∗
0
a notação com a Seção 2.1, o vetor populacional agora seria dado por y∗ = (y1∗ , . . . , yN
∗)
e o tamanho da população de interesse então deixaria de ser N um número conhecido e
passaria a ser N ∗ , um número desconhecido.
Para calcular a variância do estimador é necessário calcular a probabilidade αjl de
se selecionar duas redes simultaneamente, e dessa forma tem-se (detalhes em Thompson
(1990)):
∗
V (T̂HT ∗ ) =
∗
N X
N
X
yj∗ yl∗
j=1 l=1
em que αjl = 1 −
N −cj
n1
/
N
n1
−
N −cl
n1
/
N
n1
αj αl
−
(αjl − αj αl ),
N −cj −cl
n1
/
N
n1
.
A partir do trabalho de Thompson (1990), algumas extensões deste planejamento
amostral, além da seleção inicial baseada na amostragem aleatória simples, surgiram na
literatura e serão apresentadas a seguir.
2.2.2
Amostragem estratificada adaptativa por conglomerados
Uma das extensões naturais desta técnica de amostragem seria considerar o primeiro
estágio de amostragem não como uma amostra aleatória simples, mas como amostragem
estratificada. Tal extensão foi proposta em Thompson (1991). A amostragem adaptativa
tira vantagens de tendências de agrupamento da população, quando a localização e forma
dos conglomerados não podem ser previstos a priori. Enquanto a tradicional amostragem
estratificada (detalhes em Bolfarine e Zacks (1992)) é usada a fim de agrupar unidades
mais homogêneas entre si, baseada em informação a priori sobre a população ou na
15
simples proximidade das unidades. O planejamento amostral proposto combina estes
dois métodos.
Nesta abordagem a população é divida na grade em estratos e unidades dentro destes
estratos são selecionadas por amostragem aleatória simples. Se a unidade selecionada
satisfaz a condição, todas as unidades na sua vizinhança são observadas e a amostragem
adaptativa é realizada.
2.2.3
Amostragem adaptativa por conglomerados em dois
estágios
Proposta por Salehi e Seber (1997), esta é uma extensão do método introduzido em
Thompson (1991). Neste caso, a grade de tamanho N é particionada em M (M < N )
unidades primárias. Num primeiro estágio uma amostra de m das M unidades primárias é
selecionada sem reposição, num segundo estágio, observa-se nas m unidades maiores uma
amostra de unidades sem reposição. A partir destas unidades secundárias observadas,
a amostragem nas m unidades segue usando a técnica de amostragem adaptativa por
conglomerados. Note que quando m = M voltamos à metodologia de amostragem
estratificada adaptativa por conglomerados, pois todas as partições teriam amostras
coletadas.
2.2.4
Custo operacional do plano amostral
Assim como a amostragem por conglomerados convencional, a amostragem adaptativa
por conglomerados possui a vantagem de agrupar as unidades de análise em
conglomerados, o que minimiza o tempo e os custos de deslocamento. Mas se muitas
unidades na vizinhança satisfazem a condição de interesse, a amostra pode consistir da
maioria das unidades na população e, portanto, ser muito custosa. Logo, o esforço na
obtenção da amostra está associado à estrutura da população, e por isso é importante
que a população seja rara.
Algumas sugestões para a limitação do esforço na amostragem adaptativa são descritas
em Thompson e Seber (1996). Além disso, Brown e Manly (1998) propõem um método
16
chamado de amostragem adaptativa restrita por conglomerados, o qual limita o esforço
na obtenção da amostra e permite que uma aproximação para o tamanho da amostra final
seja obtida previamente. Na proposta, uma amostra inicial de tamanho fixo é selecionada
e amostragem adaptativa por conglomerados é feita. Se o tamanho da amostra final é
menor que um limite pré-definido, então outra unidade “inicial” é selecionada. Se incluir
esta unidade e sua vizinhança, caso a condição de interesse seja cumprida, resultar numa
amostra de tamanho maior que o limite pré-definido, então o conglomerado é incluı́do
na amostra mas nenhuma outra unidade é observada. Logo, esta metodologia exige
uma redução do tamanho da amostra inicial, para que esta produza uma amostra final
com tamanho próximo do limite desejado. Dessa forma, a variação no tamanho final é
reduzida e o planejamento dos esforços envolvidos na coleta de observações pode ser feito
com menos incerteza.
Por outro lado, também com o objetivo principal de controlar o número de medidas
da variável de interesse, Felix-Medina e Thompson (2004) introduziram a técnica de
amostragem adaptativa dupla por conglomerados, a qual combina ideias de amostragem
em dois estágios e amostragem adaptativa por conglomerados e exige a disponibilidade
de uma variável auxiliar mais fácil de medir. Na primeira fase a variável auxiliar é
usada para selecionar uma amostra adaptativa por conglomerados. Com a rede obtida
nesta primeira fase, são selecionadas subamostras subsequentes, as quais são obtidas
usando planos amostrais convencionais. Apenas nesta última fase os valores da variável
de interesse são registrados e estimativas para a média populacional, por exemplo, são
obtidas usando um estimador do tipo regressão.
Este plano amostral proposto permite ao pesquisador controlar o número de medições
da variável de interesse, alocar a subamostra na fase final próximo a lugares interessantes,
iniciar a coleta da segunda fase antes da primeira estar concluı́da e usar a variável auxiliar
na estimação.
Note que podem ser usados diferentes tipos de variáveis auxiliares neste caso, como
as de avaliação rápida que levam o pesquisador para as áreas mais promissoras, onde
observações exatas da variável podem ser feitas. Por exemplo, numa pesquisa sobre
mexilhões de água doce, a amostragem é feita a partir de mergulho para observar a
17
abundância de mexilhões. Assim, a variável auxiliar pode ser uma avaliação preliminar
da presença ou ausência de mexilhões, e a variável de interesse o número de mexilhões,
a qual é uma variável difı́cil de ser medida porque alguns mexilhões são parcialmente
escondidos pela areia e pedras no fundo do rio.
Note que este procedimento não controla o número de observações da variável auxiliar
e sim da variável de interesse. No entanto, em geral, procura-se escolher variáveis
auxiliares correlacionadas com a variável de pesquisa mas que sejam mais fáceis de serem
observadas e que produzam menos custos.
2.2.5
Eficiência do plano amostral
Ao comparar a eficiência da amostragem adaptativa por conglomerados com a
amostragem aleatória simples, por exemplo, Thompson e Seber (1996) notam que um
fator decisivo para uma maior eficiência relativa é a variabilidade dentro da rede.
Os estimadores sob o desenho da amostragem adaptativa por conglomerados, como o
apresentado em (2.4), não levam em conta a variabilidade dentro das redes pois a variável
resposta é dada pelos valores agregados dentro destas. Quanto maior essa variabilidade,
maior a vantagem, em termos de eficiência relativa, em usar amostragem adaptativa por
conglomerados do que a aleatória simples.
Portanto, conclui-se que, para que a amostragem adaptativa por conglomerados seja
um plano amostral eficiente em termos de precisão e custos é necessário que a população
de estudo exiba de fato um comportamento raro e agrupado. Logo, antes de propor
um planejamento amostral complexo como este, é importante conhecimentos a priori da
população em análise. Neste contexto, supondo que a variável y seja uma variável de
contagem do número de elementos que apresentam o atributo de interesse, para avaliar
a raridade da população pode ser utilizada a proporção de unidades contendo ao menos
um elemento da população rara, definida como:
PR =
N
1 X
I(yi > 0),
N i=1
18
(2.5)
onde I(.) é a função indicadora que assume o valor 1, se a unidade i apresenta ao menos
um elemento de interesse, e 0 caso contrário. Para avaliar a variabilidade dentro das
redes defina
PN ∗ P
V IR =
j=1
2
{i:i∈Uj } (yi − µj(i) )
,
PN
2
i=1 (yi − µ)
(2.6)
em que µj(i) é a média dos valores de yi nas unidades da rede que contém a unidade i e µ
é a média global da população. Note que se não há redes de tamanho maior que 1, tem-se
que V IR = 0, mas caso todas as unidades estejam numa única rede, V IR = 1. Dessa
forma, V IR pode ser considerada uma medida relacionada ao grau de agrupamento da
população.
Apresentamos portanto o método de amostragem adaptativa por conglomerados e
suas extensões propostas na literatura.
Vimos que o método é flexı́vel e pode ser
aplicado a diversos problemas estatı́sticos reais. No entanto, é importante ressaltar que a
eficiência do método depende da raridade e agrupamento espacial da população, portanto
é interessante o conhecimento prévio da população em estudo, dada a complexidade desta
metodologia. Smith et al. (2004) apresentam estas e outras questões práticas que devem
ser tratadas antes da proposta de tal planejamento num estudo por amostragem.
Alguns trabalhos na literatura mostram a eficiência deste tipo de amostragem
comparado a outros planos convencionais em aplicações a problemas reais, entre eles
podemos citar Thompson e Collins (2002), Danaher e King (1994), Smith et al. (1995),
Roesch (1993) e Conners e Schwager (2002).
A amostragem adaptativa por conglomerados fornece uma forma de lidar com
populações agrupadas sob o paradigma baseado no desenho amostral. Entretanto, sob
a abordagem baseada em modelo a metodologia de Rapley e Welsh (2008) é até então
a única proposta na literatura para este cenário. Na próxima seção é apresentada a
abordagem de modelos de superpopulação para um contexto geral.
19
2.3
Modelos de superpopulação
Outra abordagem de inferência, amplamente utilizada na literatura, para populações
finitas é a baseada em modelos de superpopulação.
Basicamente, o processo de
inferência estatı́stica a partir de uma amostra compreende um conjunto de princı́pios
e procedimentos que podem envolver, por exemplo, o conhecimento de algum processo
aleatório que possa ter gerado o verdadeiro valor desconhecido da caracterı́stica de
interesse para cada unidade da população. Esse processo é representado por um modelo
que é utilizado como base para se fazer inferência.
Enquanto na teoria convencional de amostragem as unidades da população são
tratadas como constantes fixas, não expressando nenhuma relação entre as unidades da
amostra e as unidades não amostradas, sob o enfoque de modelos de superpopulação, os
valores das caracterı́sticas de interesse são considerados realizações de variáveis aleatórias,
para os quais existe uma distribuição conjunta de todos os valores da população, a qual
é uma forma de expressar uma relação entre as unidades amostradas e não amostradas.
Logo, este enfoque complementa o planejamento amostral não informativo em relação às
unidades não amostradas. O vetor populacional y = (y1 , . . . , yN )0 é, portanto, tratado
como uma realização do vetor aleatório Y = (Y1 , . . . , YN )0 . A inferência clássica sobre
uma função do vetor populacional de interesse y procede com respeito à distribuição
amostral de uma estatı́stica, sob repetidas realizações geradas pelo modelo, com a amostra
selecionada permanecendo fixa. Esta forma de inferência em populações finitas pode ser
vista com maiores detalhes em Cassel et al. (1977).
Segundo o modelo, suponha que Y dado θ ∈ Θ segue uma distribuição de
probabilidades dada por [Y | θ]. Seja y = (y1 , . . . , yN )0 o vetor populacional gerado
segundo a distribuição [Y | θ]. Pode-se definir uma matriz H = (H1 , . . . , HN ) de
dimensão N × k, tal que Hi = (Hi1 , . . . , Hik )0 representa variáveis adicionais associadas
com a estrutura da população. Suponha que a distribuição conjunta de H, a qual depende
de um parâmetro φ ∈ Φ ∈ Rk , é dada por [H | φ].
20
2.3.1
Desenho amostral informativo
De forma mais complexa, o mecanismo de seleção amostral pode depender dos valores
das variáveis de interesse na população, ou seja, as probabilidades de inclusão das
unidades na amostra estariam relacionadas com as variáveis respostas. Tal situação
caracteriza um plano amostral informativo. Um exemplo tı́pico são os estudos de casocontrole, em que a amostra é selecionada de tal forma que haja casos (unidades com
determinada condição de interesse) e controles (unidades sem essa condição), sendo de
interesse a modelagem do indicador de presença ou ausência da condição em função de
variáveis preditoras. Esse indicador é uma das variáveis de pesquisa e é considerado no
mecanismo de seleção da amostra.
Sob a abordagem de modelos de superpopulação, é importante antes de propor
o modelo, analisar se as probabilidades de seleção dos elementos da população estão
relacionadas com as variáveis respostas, mesmo condicionado a covariáveis do modelo.
Neste caso, é relevante para inferência levar em consideração o plano amostral, seja na
definição do modelo ou na construção da função de verossimilhança.
Segundo, Gelman et al. (1995) é natural nestes casos expandir o espaço amostral e
incluir na verossimilhança o planejamento amostral. A verossimilhança completa, da
amostra s, do vetor Y, e das variáveis H pode ser escrita como:
[s, Y, H | θ, φ] = [s | Y, H][Y | H, θ][H | φ].
(2.7)
A expressão em (2.7) é avaliada em todos os valores da variável, mas na verdade a
real informação que tem-se a partir de uma amostra é (s, Ys , Hs ). A verossimilhança dos
dados observados, supondo continuidade, é dada por:
Z Z
[s, Ys , Hs | θ, φ] =
[s, Y, H | θ, φ]dYs̄ dHs̄
Z Z
=
[s | Y, H][Y | H, θ][H | φ]dYs̄ dHs̄ .
(2.8)
Já no caso discreto tem-se:
[s, Ys , Hs | θ, φ] =
X
X
{Yi :i∈s̄} {Hi1 :i∈s̄}
X
···
{Hik :i∈s̄}
21
[s | Y, H][Y | H, θ][H | φ].
(2.9)
Em particular, escolheu-se apresentar os demais resultados supondo variáveis
contı́nuas. Sob o enfoque Bayesiano, o interesse está na obtenção da distribuição a
posteriori do vetor paramétrico. Neste caso, a distribuição conjunta a posteriori dos
parâmetros (θ, φ), é dada por:
[θ, φ | s, Ys , Hs ] ∝ [θ, φ][s, Ys , Hs | θ, φ]
Z Z
= [θ, φ]
[s, Y, H | θ, φ]dYs̄ dHs̄
Z Z
= [θ, φ]
[s | Y, H][Y | H, θ][H | φ]dYs̄ dHs̄ .
A distribuição a posteriori de θ, em geral é a de maior interesse, e é obtida integrando
a expressão acima em φ, da seguinte forma:
Z Z Z
[θ | s, Ys , Hs ] ∝ [θ]
[φ | θ][s | Y, H][Y | H, θ][H | φ]dYs̄ dHs̄ dφ.
(2.10)
No caso de optar-se por ignorar o mecanismo de seleção da amostra, a distribuição a
posteriori de θ é dada por:
[θ | Ys , Hs ] ∝ [θ][Ys | Hs , θ][Hs | φ]
Z Z
= [θ]
[Y | H, θ][H | φ]dYs̄ dHs̄ .
(2.11)
Quando os dados não observados não fornecem informação adicional, ou seja, quando
[θ | Ys , Hs ] dada em (2.11) se iguala a [θ | s, Ys , Hs ] dada em (2.10), diz-se que o
desenho amostral é ignorável, por exemplo no caso da amostragem aleatória simples
com reposição. Entretanto, esquemas amostrais desse tipo são raramente empregados
na prática, por razões de eficiência e custo. Em vez disso, são geralmente empregados
planos amostrais que envolvem algum conhecimento da estrutura da população, como
a estratificação, conglomeração e probabilidades desiguais de seleção (amostragem
complexa).
Duas condições neste caso são suficientes para garantir ignorabilidade do desenho: (i)
[s | Y, H] = [s | Ys , Hs ]; (ii) [φ | θ] = [φ]. A importante consequência destas definições
é que, de (2.10), segue que, de fato, se o plano amostral é ignorável com respeito ao
parâmetro de interesse θ, [θ | s, Ys , Hs ] = [θ | Ys , Hs ]. Logo, a informação adicional
trazida por s pode ser descartada quando se deseja fazer inferência sobre θ, caso contrário
22
não pode ser eliminada. Ignorar erroneamente o plano amostral informativo na inferência
pode trazer consequências na estimação dos parâmetros.
Como consequência ainda se tem os seguintes resultados:
(i) se s é consistente com y então [s | Y] = [s | Ys ], e assim [s | Y] = [s] se, e somente
se, [s | Ys ] = [s];
(ii) se s é consistente com y, [s | Y, H] = [s | Ys , H] e diz-se que o planejamento
amostral é não informativo em relação a Ys̄ ;
(iii) se em (2.7) [s, Y, H | θ, φ] = [s | H][Y | H, θ][H | φ], diz-se que o planejamento é
informativo para H, mas não informativo para Y. Neste caso, se H é conhecido a
expressão em (2.8) pode ser reescrita da forma:
Z
[s, Ys , H | θ, φ] = [s | H][H | φ]
[Y | H, θ]dYs̄ .
Neste trabalho será amplamente utilizada a abordagem baseada em modelos de
superpopulação, discutindo a inferência sobre os parâmetros do modelo e previsão de
ys̄ a partir de dados obtidos por amostragem adaptativa por conglomerados, o qual é um
plano amostral informativo.
Como visto, a inferência para populações raras e agrupadas é usualmente abordada
com base no desenho amostral. De forma alternativa, Rapley e Welsh (2008) propõem
uma inferência neste contexto baseada em modelos usando a amostragem adaptativa.
Este plano amostral é informativo e, portanto, as ideias discutidas na Seção 2.3.1
são aplicadas a este modelo. Esta metodologia será apresentada no próximo capı́tulo,
juntamente com uma proposta de extensão do modelo para populações dinâmicas.
2.4
Conclusões
Neste capı́tulo foi feita uma revisão das duas possı́veis abordagens de inferência em
população finita. Como o objetivo deste trabalho é inferir acerca de populações raras
e agrupadas, o foco deste capı́tulo foi apresentar o plano amostral adaptativo e suas
extensões na literatura, por ser um plano amostral cabı́vel a este tipo de população. A
23
eficiência e o custo desta metodologia estão relacionados diretamente com a estrutura da
população em questão, portanto um conhecimento a priori pode auxiliar na construção
do planejamento amostral. Em particular, com relação ao custo operacional do método,
existem propostas na literatura, e algumas destas foram apresentadas neste capı́tulo.
Por outro lado, como o interesse deste trabalho é propor um modelo de
superpopulação para este contexto, fez-se necessário apresentar o conceito de plano
amostral informativo, pois este deverá ser relevante na construção da função de
verossimilhança do modelo neste caso.
24
Capı́tulo 3
Amostragem adaptativa por
conglomerados baseada em modelos
Como uma alternativa à inferência sobre o total populacional baseada nos planos
amostrais descritos anteriormente, Rapley e Welsh (2008) tratam tal problema sob uma
perspectiva baseada em modelos.
A inferência para este modelo fundamenta-se no
paradigma Bayesiano e leva em consideração o fato de que as unidades foram amostradas
de forma adaptativa por conglomerados, um plano informativo.
Na Seção 3.1 esta
metodologia é apresentada, o ajuste do modelo é estudado em alguns cenários e sua
eficácia é ilustrada para uma população real.
Na Seção 3.2 é proposta uma extensão deste modelo para populações em crescimento
ou decrescimento ao longo do tempo. Tal proposta é comparada com o ajuste do modelo
de Rapley e Welsh (2008) de forma independente ao longo do tempo.
3.1
Um modelo agregado
Rapley e Welsh (2008) propõem um modelo complexo, que usa as redes como unidades
de análise, de forma a não ter que introduzir componentes espaciais no modelo, o que
pode vir a facilitar a inferência. Portanto, por este motivo, nos referimos a este modelo
como um modelo agregado. O uso da abordagem Bayesiana é uma extensão natural da
ideia da amostragem adaptativa por conglomerados, pois incorpora o conhecimento a
25
priori de que a população é rara e agrupada tanto para a inferência como para o desenho
amostral. A fim de ilustrar a eficiência de sua proposta, Rapley e Welsh (2008) comparam
seus estimadores com os estimadores desenvolvidos em Thompson (1990) por meio de
um estudo de simulação, mostrando ser mais eficiente, principalmente num contexto de
conhecimento a priori. O modelo está descrito a seguir.
Seja Ω uma região que contém uma população esparsa e agrupada, na qual sobrepõese uma grade regular com N unidades. Uma unidade é dita não vazia se esta contém pelo
menos uma observação, e vazia caso contrário. Seja X ≤ N o número de unidades não
vazias em Ω. Seja R ≤ X o número de redes não vazias em Ω, Ci o número de unidades
não vazias dentro da rede i não vazia e portanto C = (C1 , . . . , CR )0 é o vetor com o número
P
de unidades não vazias dentro de cada rede não vazia. Logo X = R
i=1 Ci . Como existem
N − X unidades vazias, as quais são definidas como redes vazias de tamanho 1, então
há N − X + R redes em Ω. Dessa forma, pode-se estender o vetor de dimensão R para
Z = (C0 , 10N −X )0 em que 10N −X é um vetor de 1’s de dimensão N − X, logo Zi = Ci , se i
é uma rede não vazia e Zi = 1, caso contrário, para i = 1, . . . , N − X + R.
Seja Yi∗ o total observado na rede não vazia i e, portanto, Y∗ = (Y1∗ , . . . , YR∗ )0 denota
o vetor com o total populacional em cada uma das R redes não vazias. Também podemos
estender neste caso o vetor de dimensão R para um de dimensão N − X + R da forma
(Y∗ 0 , 00N −X )0 , em que 00N −X é um vetor de 0’s de dimensão N − X, o qual representa o
número de observações em cada rede vazia. O objetivo é fazer inferência sobre o total da
P
∗
população de interesse T = R
i=1 Yi .
Fazendo uma analogia com a notação definida na Seção 2.3 do Capı́tulo 2, note que
é possı́vel obter a seguinte relação: N ∗ = N − X + R, Hi1 = Ci e Hi2 = X, θ = γ,
φ = (α, β)0 e n = m. Note que apesar do tamanho da grade N ser conhecido, o tamanho
da população de interesse (redes não vazias), a qual está sendo modelada, ou seja, R,
é desconhecido e precisa ser estimado, portanto também pode ser interpretado como
Hi3 = R.
Isto é feito especificando a distribuição conjunta de X, R, C e Y∗ para a população
toda e o mecanismo de amostragem que fornece uma particular amostra s = {i1 , . . . , im }
de m redes das N − X + R redes na população. Um aspecto importante desta proposta
26
é que a estrutura da rede é totalmente determinada por X, R e C e não se faz necessário
modelar as localizações espaciais das redes.
Primeiramente modela-se a estrutura de rede vazia/ não vazia e então, condicional à
estrutura de rede, modela-se a contagem nas redes não vazias. Como o modelo aplica-se a
unidades não vazias, para evitar problemas de degeneração assume-se que há pelo menos
uma célula não vazia em Ω e, portanto uma rede não vazia, logo as distribuições são
truncadas à esquerda no valor igual a 1. Dessa forma, o modelo é dado por:
Yi∗ | Ci , R, γ ∼ Poisson Truncada independente (γCi ), Yi∗ ≥ Ci , i = 1, . . . , R,
R
X
1
C | X, R ∼ 1R + Multinomial X − R, 1R , Ci = 1, . . . , X − R + 1,
Ci = X
R
i=1
R | X, β ∼ Binomial Truncada (X, β), R = 1, . . . , X,
(3.1)
X | α ∼ Binomial Truncada (N, α), X = 1, . . . , N.
O truncamento na distribuição de Poisson também faz-se necessário para levar em
conta o fato de que cada unidade em uma rede não vazia deve conter ao menos uma
observação de interesse, logo Yi∗ ≥ Ci , i = 1, . . . , R.
Note que o parâmetro γ é
interpretado como o número médio de observações em cada célula não vazia, dentro
de cada rede não vazia na população. Vale ressaltar que a distribuição de Poisson pode
ser trocada por outro modelo, mas Rapley e Welsh (2008) mantiveram-se nesta proposta.
Além disso, um modelo log-linear comum não foi adotado para a variável resposta por
questões de custo computacional e problemas numéricos no ajuste, mas o uso de técnicas
mais eficientes de aproximação, tais como em Gilks e Wild (1992), poderia facilitar a
implementação deste modelo.
Este modelo é aplicado a amostras coletadas segundo o método adaptativo descrito
na Seção 2.2. Lembrando que o procedimento de amostragem consiste em observar Yi
para i ∈ s e seu delineamento depende da estrutura da população, a qual é desconhecida,
portanto este plano amostral caracteriza-se como informativo e deve ser incorporado à
função de verossimilhança do modelo para realização de inferência.
Logo, o próximo passo é definir a probabilidade de selecionar uma amostra s =
{i1 , . . . , im }, ou seja, [s]. Já vimos que tal mecanismo utiliza o argumento de que se
27
uma célula dentro de uma rede é amostrada, então toda a rede deve ser observada e,
portanto, a probabilidade de selecionar uma rede é proporcional ao seu tamanho. Para
motivar a construção da probabilidade de seleção de uma amostra, considere o seguinte
exemplo: seja uma população com 8 redes de tamanhos {5, 5, 1, 1, 1, 3, 3, 1} dos quais
obtemos a amostra {5, 1, 5, 3}. A probabilidade de selecionar a primeira unidade é igual
à probabilidade de selecionar uma unidade de tamanho 5, que é igual a 5 × 2/20, a
probabilidade de selecionar uma unidade de tamanho 1 no segundo passo, dado o anterior
é de 1 × 4/15 e, assim a probabilidade de seleção da particular amostra é igual a
1×4
× 20−5
×
5×1
20−5−1
×
5×2
20
×
3×2
.
20−5−1−5
Portanto, a probabilidade de seleção de uma particular amostra pode ser generalizada
da forma:
[s | C, R, X] =
m
Y
Zij × gij ,j
,
P
PN −X+R
Zi − j−1
k=0 Zik
i=1
j=1
(3.2)
onde gij ,j é o número de redes de tamanho Zij que restam após j − 1 redes terem sido
selecionadas e Zi0 = 0. Note que a probabilidade da seleção de s depende apenas das
variáveis associadas com a estrutura da população e não diretamente com Y∗ , logo, o
resultado (iii) da Subseção 2.3.1 se aplicaria neste caso e diz-se que o plano amostral é
informativo com relação a H.
Incorporando esta probabilidade de seleção da amostra ao modelo, tem-se por (2.7)
com [s | Y∗ , H] = [s | H], a seguinte função de verossimilhança global:
[s,Y∗ , C, R, X | α, β, γ] = [s | C, R, X][Y∗ | C, R, X, γ][C, R, X | α, β, γ]


m
Y
N
Zij × gij ,j
αX (1 − α)N −X


=
×
PN −X+R
Pj−1
1 − (1 − α)N
Zi − k=0
Zik
X
i=1
j=1


Ci −1
R
Y
X
β R (1 − β)X−R
1
1


×
× (X − R)!
X
1 − (1 − β)
(Ci − 1)! R
R
i=1
×
R
Y
i=1
(3.3)
exp{−γCi + Yi∗ log(γCi )}
.
P
i −1
Yi∗ ![1 − C
exp{−γC
+
j
log(γC
)
−
log(j!)}]
i
i
j=0
Com a amostra coletada, parte das variáveis do modelo é conhecida. Usando o ı́ndice s
para identificar a parte observada e s̄ a parte não observada, os vetores são particionados
da seguinte forma: Y∗ = (Ys∗ 0 , Ys̄∗ 0 )0 , C = (C0s , C0s̄ )0 , R = Rs + Rs̄ e X = Xs + Xs̄ .
28
A função de verossimilhança marginal dos dados observados é obtida somando a
expressão acima sob todas as quantidades desconhecidas, como visto em (2.9).
3.1.1
Possı́veis cenários gerados pelo modelo
A distribuição espacial da população ao longo da região é caracterizada no modelo
pelos parâmetros α e β. O parâmetro α controla o número esperado de unidades não
vazias, pois E(X | α) = N α/{1 − (1 − α)N } e β o número esperado condicional de redes
não vazias pois, E(R | X, β) = Xβ/{1 − (1 − β)X }. Note que se α se aproxima de 0 então
E(X | α) se aproxima de 1, que é o menor valor que X pode assumir segundo o modelo
proposto, mas se α está próximo de 1 então E(X | α) tende a N . De forma análoga
temos que, condicional a X, se β está próximo de 0 então E(R | β) está próximo de 1,
mas para valores de β perto de 1, E(R | β) tende a X, o número total de unidades não
vazias.
Como tratamos de populações esparsas, ambos os parâmetros são pequenos em
geral, e combinados, controlam a raridade e agrupamento destas. Populações raras são
caracterizadas pelo modelo para valores pequenos de α, enquanto populações agrupadas
estão caracterizadas para valores pequenos de β, mas este nı́vel de agrupamento depende
também do valor de X, o qual depende de α devido à estrutura condicional do modelo.
Além disso, as probabilidades da distribuição multinomial são tratadas como
conhecidas e iguais. Sob o modelo, o tamanho esperado, condicional a X e R, da rede é
1 + (X − R)/R = X/R.
Para ilustrar o impacto dos parâmetros no modelo, na Figura 3.1 temos alguns dados
artificiais gerados a partir do modelo para alguns valores fixos de α e β, γ = 10 e uma
grade regular de tamanho N = 400.
Observe que para α e β iguais a 0.05 tem-se uma população altamente rara, portanto,
intuitivamente, espera-se dificuldades de estimação numa população deste tipo, mesmo
utilizando a técnica de amostragem adaptativa por conglomerados.
Em contrapartida, para α e β iguais a 0.20 terı́amos uma população altamente dispersa
na região, o que estaria descaracterizando a raridade e agrupamento geográfico. Logo, o
uso deste modelo complexo não seria justificável.
29
Note também que fixando α igual a 0.05 e aumentando β, isto reflete uma população
com poucas unidades com observações, porém mais espalhada que o primeiro caso.
Finalmente, aumentando o valor de α e fixando β igual a 0.05, há um maior número de
unidades não vazias, o que ainda assim resulta em mais redes que o primeiro caso devido
à estrutura de condicionamento do modelo, diminuindo o grau de raridade espacial, mas
sem destruir o comportamento agrupado da população.
Note que como a partir do modelo não temos informação sobre a localização das redes,
na Figura 3.1 a localização destas foi feita de forma arbitrária e sem perda de generalidade,
sem comprometer a ilustração. Além disso, como estas populações foram geradas sob o
modelo agregado, não é possı́vel verificar o agrupamento da população usando a medida
em (2.6), pois nesta necessita-se da contagem em cada unidade da grade, o que não é
obtido na geração dos dados. Portanto, esta ilustração do comportamento do modelo
será feita apenas de forma visual.
A partir desta ilustração espera-se que populações raras e agrupadas possam ser
geradas a partir deste modelo para valores controlados de α e β. Lembre-se que temos
particular interesse em populações deste tipo, pois o interesse é explorar cenários em que,
com um custo controlado, a amostragem adaptativa possa ser mais eficiente, em termos
de precisão, que qualquer plano amostral não informativo e mais comumente utilizado.
3.1.2
Estudo simulado para alguns cenários
Como o procedimento de inferência baseia-se na metodologia Bayesiana, a fim de
avaliar o modelo apresentado por Rapley e Welsh (2008), foram analisadas amostras das
distribuição a posteriori dos parâmetros do modelo e do total populacional T . Para
isso o modelo proposto deve ser completado com uma distribuição a priori para o vetor
(α, β, γ). Supondo independência a priori entre estes, assume-se:
α ∼ Beta(aα , bα ), β ∼ Beta(aβ , bβ ) e γ ∼ Gama(aγ , bγ ),
em que Beta(a, b) representa a distribuição Beta parametrizada com média igual a
variância
a
a
b
ab
(a+b+1)(a+b)2
e variância
a
a+b
e
e Gama(a, b) a distribuição Gama parametrizada com média igual
a
.
b2
30
●
●
● ●
● ●
●
●
●●●
●
●● ●●●
●●
● ●
●
●●●
●
●●
●●
●
● ●●
●● ●
●
● ● ●●
● ● ●●
●
●
●
●●●●
● ●●
●
●
●
●
●
●
●
●
●
● ●
●
●
● ●● ●
●
●
●
●● ● ●
●●
●●●
●
● ● ● ●
●●
●
●● ●●
●●
●●
●
●●●● ●
●
● ●● ●●●
●●
●
●●
● ●●
●
●●●
●
●●●
● ●
●
●
●●●●●
●●
●●
●●●●
●●
●
●●
●
●
●●
●
●
●
●●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●●
● ● ● ●●
● ●
●
●
●
●
●
●
●●
●
●●●
●
●
●● ●
●
●●●
●
●
●
●
●●
●
● ● ●
●● ●
● ●
● ●
●●●●● ●
●
●
●
● ●●
●●●
●
●
●
●
●●
●
● ● ●
●●●
●●
● ● ● ●●
●
●● ●● ●
●
● ● ●●●
●
●
● ●●
●
●●
●
●●
●
● ●●●
●
●●
●
●●
●
●●● ●●
(α,β)=(0.05,0.05)
●
●
(α,β)=(0.05,0.20)
●● ●
● ●
● ●
●
●●
●
●
●●
●
●●
●
●
●●●
●●
●
●●●
●●
●
●
●●
●
●
●
●●●
●
●
●●
●
●●●
● ●●
●
●●
●●● ●
●
●
●
●
●
●
●●
● ●●
●
●● ●
●
●
●●
●●●
●●
●
●
●
●
●
● ●●
●
●
●●●
●
●
●
●
● ●●
●
●
●
●
●
●
● ●●
●
●
●●
●
●
●
●●
●●
●
●●
●
●
●●
●
●●
●
● ●●●
●
●●
●
●
●
●
●
●
●
●●● ●
●●
●●
●● ●
●
●●
●●●
●
●●●
●●
●
●●
●●
●●●
●
●
●●
●●
●
●● ●
●●●
●● ●● ●
●
●
●●
●
●
●● ●
●●● ●
●●
●
● ●●
●
●
●
●
●
●
●
●
●●
●● ● ●
●
●● ●
●
●
●●
●●●
●
●● ●
●
●●●●●
●●
●●●
●
●●●
●● ●
●●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
●
● ●●
●
●
●●
●●●●
●
●●● ●
●
●
●
●● ● ●
●● ●●
●
●
●●
● ●
●●
●
●
●
●●
●
●
●
●●●
●
●
●
●
●●
● ● ●
●●
●
●
●
●
●
●●
●
●
● ●
●●
●
●
●●●
●
●
●●●
●
●
●●●●
●
●
●● ●
●
●●
●
●
●●●
●
●
●● ● ●
●
● ● ●●
●●
●●●
●●
●
●●● ●
●●
●
●
●
●
●
●
●●
●●
●
●
●● ●●
● ●●●
● ●●
●
●
●
●
●
●● ●
●
●●●● ● ●●
● ●●
●
●● ●
● ●●
●
●
●
●
● ●
● ●
●
●
●●●●
●●●●
●
● ●●
●
●● ●
●
●
●
●
●
●●
●● ● ● ●
●
●
●
●
●● ●
●
●●
● ●
●● ●
● ●●
●
●
●
● ●●
●● ●
●●●●
●
●
●
●
●
●● ●●●●● ●
●
●●
●
● ●●
● ●●
●
●●
● ●●●
● ● ● ●● ●
● ●●
●
●●
●●● ●
●
●●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
● ● ●
● ● ● ●●●●
●
●
●
●●
●
●●● ●●
●
●●
●●
●
●●●
●●●●●●
●
●
●
●
●
●
● ●
●
●
● ●
●●● ●
●
●
● ● ●●
● ●●
●● ●
● ●●
●● ●
● ● ●
●●
●● ●
●
●●● ●
●● ●
●● ●
●●
●
●●● ● ●●●
● ●● ●●
●
●
●
●
●
●
●
● ● ●●●●
●●
●●
●● ● ●●●
●●
●
● ●
●●● ●●● ● ●
●
●
●
● ●● ●●
●● ●●
●●
● ●● ●
●
●●
●●
● ●●
●
●●
● ●● ● ● ● ●●
●
●
●●
●
●
●
●
●
● ● ●
● ● ●●
●
●●
●
●
●●
●●●
●● ●
● ●
●
● ●●
●
●● ●
●
●
●
●●●● ●●
●
●●●●
● ●
●
●
●
●
●● ●
●●
●●
●
●
●
●
●●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ● ●●
● ●●
● ●
●●
●
●●●
●
●●
●
●
●
●
●
●
●●
●●
●●
●
●
●
●●●
●
●
●
●
●
●●
●●●●
●
●
●
●
●
●
●
●
●
●●
●●
●
● ●●
●
●●
●
●
●
●● ●●
●
●●
●
●
● ●● ●
●
●
●●
●
● ●●
●●
●
●
● ●●
●●
●
●
●
●
●
● ●●● ●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●● ●
●●
● ●●
●
● ●● ●
● ●●
●● ●
● ● ●●
●●
●●
●
● ●● ●
●
●
●
●●
●
● ●
●
● ● ●
● ●●● ● ● ●
●
●●
●● ● ●●
●
●●●
● ●
●● ●
●●
●
● ●●●
●●
● ●
●●
●
●
●
●● ●
●
● ●●
●●●
●●
●●
●●●●●
●●● ●
●
●●
●
●●●●●
●●
●● ●
●
●●
●●●
●●
●●●
● ●●●
●
●●●●
●
●● ●
●●
●
●●
●
●●
●●
●
●
●
●
●
● ●●●
●
●
●
●●●
●●
●
●●
●
●
●
●
●
●● ●
●●●
●●
●
●
●●●
●
●
●
●
●●
●
●●●
●
●●
●
●●
●
●●
●●
●● ●
●●
●●
●
●●● ●●●
●● ●●
●
●●●● ●●
●●●● ●
●●
●● ●
●●
● ● ●●●
●
●
●
●
●
●●
●
●
●
●●
●
●
● ● ●●
●●●●● ●●
●● ●●
●●
●
●
● ●
● ●
●● ●●● ●
●
●● ● ●
● ●●
●
●
●
●
● ●
●
● ●●
●● ●
● ● ● ●● ●●●
●●●●●
●
● ● ●●
●●●● ●
●● ●
● ●●
●● ●
●
●
●
●
●
● ●
●
●●
●●●● ●●
●
●
● ●
●●●
● ● ● ●●
●●●● ●
●
● ●
●
● ●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●● ●● ●
●
●
●●● ●●●
● ●●●●
●●
●
●● ●●
●●
●
● ● ●●
●
●
● ●
●
●
(α,β)=(0.20,0.05)
●
●
●
●
●
●
●
●● ● ●
●
●●●●
● ●●
● ●
●●●
● ●●
●●
●
●●
●
●
●
● ● ●● ●
● ●● ●
●
●
●
● ●●●
●●● ●●
●
●
● ●
●
●
●
● ●●
● ●
●●●● ●
●● ●
●● ●●
●
● ●
●● ●●●
●
●●●● ●
● ●
●●
● ●● ●●
●
●
●
● ● ●
● ●
●● ● ●
●
●
●
●
(α,β)=(0.20,0.20)
Figura 3.1: Populações artificiais geradas a partir do modelo proposto por Rapley e Welsh
(2008), para alguns valores fixos para os parâmetros α e β e para γ = 10, numa grade
regular de tamanho N = 400.
Rapley e Welsh (2008) fazem um estudo de elicitação da distribuição a priori para
estes parâmetros, avaliando a sensibilidade dos estimadores. Vale ressaltar que, ainda
sob distribuições a priori não informativas, o modelo fornece estimativas razoáveis para
os parâmetros e para o total populacional. No entanto, visto que o modelo é voltado
para aplicações a populações raras e agrupadas e dada a análise ilustrativa feita na
Figura 3.1, foram utilizados os seguintes valores: aα = aβ = 2 e bα = bβ = 9,
caracterizando distribuições a priori para α e β informativas. No entanto, neste contexto,
31
esta distribuição com alta probabilidade centrada em um intervalo apenas reflete a
priori a estrutura rara e agrupada da população, o que é o mı́nimo de conhecimento
para justificar o uso de tal modelo complexo. Para γ utilizou-se aγ = 1 e bγ = 0.1,
caracterizando assim uma distribuição a priori pouco informativa para γ, mas com
mais massa de probabilidade no valor médio de unidades por rede com base na amostra
selecionada, ou seja pela média do vetor Ys∗ /Cs .
Como a distribuição a posteriori do vetor paramétrico Θ = (Xs̄ , Rs̄ , Cs̄ , Ys̄∗ , α, β, γ)
não possui forma analı́tica fechada faz-se necessário o uso de métodos de simulação
estocástica, como o método de Monte Carlo via Cadeias de Markov (MCMC). Em
particular, o amostrador de Gibbs com passos de Metropolis-Hastings foi utilizado. Além
disso, o preditor do total populacional T é dado por:
T̂ = 10Rs Ys∗ + 10R̂s̄ Ŷs̄∗ ,
cuja amostra da distribuição a posteriori também pode ser obtida via MCMC.
Os passos da amostragem são descritos por:
(1) faça j = 1 e especifique valores iniciais para Xs̄ , Rs̄ , Cs̄ e Ys̄∗ ;
(2) sorteie α da distribuição condicional completa [α | X, R, C, Y∗ , β, γ] = [α | X];
(3) sorteie β de [β | X, R, C, Y∗ , α, γ] = [β | X, R];
(4) sorteie γ de [γ | X, R, C, Y∗ , α, β] = [γ | R, C, Y∗ ];
(5) sorteie (Xs̄ , Rs̄ , Cs̄ , Ys̄∗ ) de [Xs̄ , Rs̄ , Cs̄ , Ys̄∗ | Xs , Rs , Cs , Ys∗ , α, β, γ];
(6) faça j = j + 1 e volte ao passo (2).
As condicionais completas e as distribuições propostas podem ser vistas com
detalhes em Rapley e Welsh (2008). A fim de mostrar a eficiência do modelo para a
previsão do total populacional, foram geradas algumas populações raras e agrupadas
artificiais, para alguns valores fixos dos parâmetros, e o modelo (3.1) foi ajustado a tais
dados. Dessa forma é possı́vel comparar a estimativa do total com o valor verdadeiro
gerado. Cada população foi simulada numa grade regular com N = 400 unidades.
32
Populações foram geradas para 16 cenários diferentes a partir das combinações de
α, β ∈ {0.05, 0.10, 0.15, 0.20} e γ = 10. Para cada valor dos parâmetros gerou-se 100
populações, e de cada uma selecionou-se uma amostra adaptativa com dois tamanhos
iniciais distintos de 5%N e 10%N . Vale ressaltar que, apesar da amostra aleatória simples
inicial ser de 20 ou 40 unidades, o número de redes observadas ao final da amostragem
adaptativa era menor ou igual a esse número, pois em alguns casos duas ou mais unidades
selecionadas faziam parte da mesma rede na população.
As Figuras 1.1, 1.2, 1.3 e 1.4 no Apêndice A apresentam as trajetórias das cadeias
obtidas para cada parâmetro e para o total populacional T com o respectivo valor
verdadeiro em cinza, para uma das 100 populações geradas com amostra inicial de
tamanho 10%N . Para todas as cadeias foram geradas 200.000 iterações, sendo as 10.000
primeiras descartadas como aquecimento e foram tomadas amostras de 190 em 190, a
fim de obter-se 1.000 amostras independentes. Há indı́cios de convergência para todos
os 16 cenários simulados, visto que as cadeias são estacionárias e movem-se em torno do
valor verdadeiro fixado na geração dos dados. O mesmo ocorre quando seleciona-se uma
amostra adaptativa de tamanho inicial n1 = 5%N .
Na Figura 1.5 no Apêndice A estão um sumário da distribuição a posteriori dos
parâmetros α, β, γ e de T para as 100 populações artificiais para cada um dos 16 cenários
gerados a partir do modelo e para os dois tamanhos de amostra distintos. Tais cenários
estão na seguinte ordem na figura: fixa-se um valor de α e depois varia-se β. A Figura
1.5 (a) apresenta uma análise de propriedades frequentistas dos estimadores. Nela estão
as probabilidades de cobertura dos intervalos HPD de 95% para as amostra de 5%N e
10%N , o erro quadrático médio (EQM) para cada parâmetro e o erro quadrático médio
relativo (EQMR) para o total populacional. Os intervalos HPD apresentados ao longo
deste trabalho foram obtidos usando o comando emp.hpd do pacote TeachingDemos do
software R.
Note que em termos da cobertura média dos intervalos, enquanto os parâmetros β e γ
apresentam resultados próximos do desejado para todos os cenários, o parâmetro α tem
maior variabilidade e resultados mais satisfatórios são obtidos no geral à medida que o
valor de α aumenta, para β não muito pequeno. O mesmo se passa com a estimação do
33
total populacional T . Isto ocorre pois quanto maior α, mais unidades com observações de
interesse, o que traz mais informações que auxiliam na estimação e previsão. Por outro
lado, analisando o EQMR de T , que é o nosso maior interesse, observa-se também que,
fixado α, no geral os valores do EQM e EQMR diminuem à medida que β aumenta. Isto
ocorre pois o parâmetro β está associado ao número de redes e à medida que β aumenta,
cresce o número de redes, fazendo com que os grupos na população se espalhem mais, o
que também facilita o procedimento de inferência com base numa amostra. Neste mesmo
caso, observe que, mesmo com uma amostra de 5%N o modelo já se ajusta bem aos
dados e as conclusões são análogas.
Uma alternativa para melhorar o ajuste deste modelo sob cenários em que α e β são
extremamente pequenos é elicitar outras distribuições a priori independentes para α e β.
Rapley (2004) apresenta uma lista de distribuições a priori utilizadas e que resultaram
num melhor desempenho do modelo em populações geradas para diferentes valores de α e
β. Neste trabalho, foi utilizada apenas uma distribuição a priori informativa para todos
os cenários, com o único interesse de garantir que o desenho amostral seja razoável ao
problema e a robustez desta para diferentes valores de α e β num intervalo. Portanto, é
uma possı́vel distribuição a priori a ser utilizada quando o único conhecimento prévio que
se tem a respeito da população é que esta é rara e agrupada. No entanto, se informações
mais precisas sobre o tipo ou estrutura da população estão disponı́veis, resultados mais
vantajosos podem ser obtidos para alguns casos especı́ficos.
É importante mencionar que este estudo simulado foi feito sob todas as possı́veis
amostras. Por exemplo, nos casos em que α = β = 0.05 a população é extremamente rara
e agrupada, portanto é alta a probabilidade de selecionar uma amostra que não contenha
unidade alguma com observação ou que contenha todas as unidades não vazias da
população. Isso prejudica a qualidade das estimativas. Esta é mais uma explicação para
o fato de que os resultados são mais próximos do desejado para populações menos raras
e agrupadas. Uma possibilidade para este caso é repetir o estudo simulado descartando
estas amostras não representativas, no entanto, como elas têm alta chance de ocorrer
em alguns casos optou-se por mantê-las, a fim de não mascarar estes problemas nos
resultados.
34
Conclui-se desta forma que, em termos de estimativas pontuais e intervalares, a
eficiência do modelo aumenta à medida que os valores de α e β aumentam. Entretanto,
é importante lembrar que a amostragem adaptativa pode ser custosa, portanto esta é
razoável em cenários de raridade e agrupamento da população. Logo, recomenda-se o
uso de tal modelo complexo nestes cenários, mas com um número esperado controlado
de unidades e redes com a caracterı́stica de interesse, de forma que a amostra adaptativa
coletada seja a mais representativa possı́vel sem altos custos.
Por outro lado, já foi visto que como o plano amostral adaptativo por conglomerados é
não-ignorável, a probabilidade de seleção deve ser incluı́da na função de verossimilhança,
pois esta também traz informações para a estimação dos parâmetros do modelo. O
objetivo agora é simplesmente verificar o ajuste do modelo para o caso em que o plano
amostral é erroneamente considerado ignorável, ou seja, quando a probabilidade de
seleção é descartada da função de verossimilhança completa em (3.3).
Para isso, o modelo em (3.1) foi ajustado para as mesmas 100 amostras do estudo
anterior, mas, agora, desconsiderando a probabilidade de seleção da amostra em (3.3).
Na Tabela 3.1 é apresentada uma comparação entre as duas abordagens usando
a razão dos EQM (RaEQM) e das variâncias (RaVAR) entre os estimadores obtidos
considerando a probabilidade de seleção e sem considerá-la, para n1 = 10%N .
Portanto, valores menores que 1 indicam que considerar o plano amostral na função de
verossimilhança produz resultados mais vantajosos sob ambos os critérios. Vale informar
que as probabilidades de cobertura para os intervalos HPD de 95% gerados para os dois
métodos apresentam-se próximo do nı́vel nominal desejado, logo não seriam um critério
relevante na comparação e, por isso, não foram apresentadas.
Observando a Tabela 3.1 é possı́vel verificar que desconsiderar esta parcela na função
de verossimilhança completa, gera na grande maioria das vezes, estimativas viesadas
e com maior variância, principalmente para o parâmetro α e para o total T . Apenas
para dados artificiais gerados a partir do modelo fixando α = β = 0.20 esta conclusão
é diferente em termos do EQM para todos os parâmetros. Contudo, a variância ainda
permanece menor quando incluı́da a probabilidade de seleção. Isso ocorre pois, este
cenário gera uma população mais esparsa, e menos rara que os outros cenários estudados.
35
Logo, fazer uma amostragem não informativa, como a aleatória simples por exemplo, ou
adaptativa, teria o mesmo efeito, e não justificaria assim o uso do modelo complexo.
Tabela 3.1: RaEQM e RaVAR dos estimadores para α, β, γ e T , entre os valores obtidos
no ajuste usando a probabilidade de seleção da amostra na função de verossimilhança
(3.3) e sem usá-la, sob 100 amostras artificiais.
(α, β) fixos
α
β
γ
T
RaEQM RaVAR
RaEQM RaVAR
RaEQM RaVAR
RaEQM RaVAR
(0.05, 0.05)
0.26
0.10
1.16
1.32
0.69
0.97
0.25
0.07
(0.05, 0.10)
0.23
0.10
1.08
1.31
1.17
3.22
0.23
0.12
(0.05, 0.15)
0.24
0.11
1.12
1.26
1.07
2.28
0.23
0.10
(0.05, 0.20)
0.21
0.13
1.08
1.25
0.72
1.26
0.19
0.10
(0.10, 0.05)
0.38
0.12
1.13
1.38
1.21
3.41
0.37
0.10
(0.10, 0.10)
0.30
0.13
1.03
1.31
0.84
1.04
0.32
0.10
(0.10, 0.15)
0.21
0.15
0.83
1.15
0.80
3.12
0.27
0.14
(0.10, 0.20)
0.25
0.17
1.23
1.28
0.93
3.47
0.30
0.16
(0.15, 0.05)
0.45
0.15
0.88
1.35
0.99
0.99
0.51
0.09
(0.15, 0.10)
0.38
0.16
1.21
1.21
0.91
1.02
0.45
0.12
(0.15, 0.15)
0.42
0.16
0.89
1.29
1.18
1.04
0.51
0.13
(0.15, 0.20)
0.63
0.21
1.13
1.21
0.89
1.02
0.75
0.20
(0.20, 0.05)
0.52
0.17
1.13
1.29
1.11
0.98
0.53
0.10
(0.20, 0.10)
0.49
0.19
0.83
1.10
0.83
0.96
0.55
0.15
(0.20, 0.15)
0.83
0.28
1.10
1.15
0.97
0.99
0.81
0.24
(0.20, 0.20)
1.48
0.40
1.25
1.08
1.23
1.02
1.17
0.39
Esta conclusão pode ser vista na forma analı́tica da expressão (3.2). Por exemplo,
numa situação extrema, suponha que a população esteja totalmente espalhada numa
região, dessa forma é razoável supor que todas as redes existentes (vazias e não vazias)
sejam de tamanho 1, ou seja, Z1 = · · · = ZN −X+R = 1. Neste caso, o número de redes
36
não vazias passa a ser o número de unidades não vazias na população, ou seja, R = X.
PN −X+R
Portanto, para todo j = 1, . . . , m, Zij = 1, gij ,j = N − (j − 1),
Zi = N e
i=1
Pj−1
k=0 Zik = m − [m − (j − 1)]. Portanto, a probabilidade de seleção em (3.2) se reduz a:
[s | C, R, X] =
1×N
1 × (N − 1)
1 × [N − (m − 1)]
×
× ··· ×
= 1,
N −0
N −1
N − (m − 1)
para qualquer amostra s sorteada.
Logo, a probabilidade de inclusão da amostra
permanece inalterada para qualquer amostra s selecionada desta população.
3.1.3
Estudo simulado com população real
A fim de ilustrar a eficiência do modelo em (3.1), será feita a seguir uma comparação
do estimador obtido do ajuste de tal modelo com o estimador de Horvitz-Thompson
modificado, dado em (2.4), obtido com base no desenho amostral adaptativo por
conglomerados. Além disso, ambos serão comparados à amostragem aleatória simples
sem reposição. Esta ilustração será feita a partir de sorteios de repetidas amostras de
uma população verdadeira. Tal população constitui-se de marrecos da asa azul na região
da Flórida, nos Estados Unidos, no ano de 1992. Em particular, esta é uma espécie
rara de aves aquáticas com um comportamento agrupado. Esta mesma população e
outras duas espécies, as quais apresentam diferentes graus de agrupamento, foram usadas
para comparação da eficiência da amostragem adaptativa com relação a outros planos
amostrais em Smith et al. (1995).
A Figura 3.2 corresponde à área de estudo, dada em Smith et al. (1995), a qual foi
subdividida em N = 200 unidades de uma grade regular, tal que cada unidade apresenta
o número de indivı́duos da população de marrecos da asa azul naquela região. Observe
que esta população caracteriza-se com um aspecto raro e extremamente agrupado.
Além disso, usando as expressões em (2.5) e (2.6) para avaliar numericamente estas
propriedades na população, obteve-se P R = 0.11 e V IR = 0.71, o que também indica
que a população em estudo tem estas caracterı́sticas, justificando assim o uso do plano
amostral adaptativo.
Para avaliar a eficiência dos métodos de amostragem citados, para esta particular
população, foram sorteadas 100 amostras e para cada amostra obtivemos uma estimativa
37
1
7144 6399
103 150
6
10
2
60
122 114
14
3
2
3
12
2
4
20
5
2
3
Figura 3.2: População real de marrecos da asa azul na região da Flórida, nos Estados
Unidos, no ano de 1992, disposta numa grade regular de tamanho N = 200.
do total populacional T . Tal estimativa foi obtida com base no estimador não viesado
para o total sob os planos adaptativo e aleatória simples, e no caso do ajuste do modelo
Bayesiano em (3.1) são obtidas amostras da distribuição a posteriori, e tal estimativa
pontual é dada pela média a posteriori de T .
Em cada uma das 100 amostras, sorteia-se aleatoriamente e sem reposição n1 unidades
iniciais na grade e, se pelo menos um marreco da asa azul é observado, as unidades
vizinhas, ou seja, as de lado contı́guo, são incluı́das na amostra, e o procedimento é
repetido até o momento em que uma unidade de borda, ou seja, sem qualquer marreco
de asa azul, é obtida. Dessa forma, cada amostra adaptativa possui n unidades divididas
em m redes (m ≤ n1 ). E com base nestas n unidades, estimamos o total populacional
a partir do estimador em (2.4) e no modelo (3.1). Além disso, também foram obtidas
estimativas para T considerando amostras aleatórias simples de tamanho n, com base no
estimador T̂AAS = N ȳ.
A mesma distribuição a priori descrita anteriormente para o modelo (3.1) foi utilizada
neste estudo, exceto a distribuição de γ, para o qual foram usados aγ = 5 e bγ =
2, como recomendado em Rapley e Welsh (2008) para a maioria dos casos. Notouse que ao atribuir distribuições para γ com alta massa de probabilidade em valores
38
maiores, surgiram problemas de superestimação do total populacional, devido às amostras
coletadas conterem na sua maioria a rede de maior tamanho, a qual apresenta maiores
valores de Y , diferente dos dados artificiais que eram gerados de um modelo que supõe
homogeneidade entre as unidades.
Na Tabela 3.2 temos a eficiência de cada estimador para alguns tamanhos de amostra
iniciais. A eficiência de um estimador é dada pela razão entre as variâncias para cada
estimador em questão, logo se esta razão é maior que 1 significa que, em termos de
precisão, o estimador do denominador é mais eficiente do que o outro. Em particular,
AAS
defina, ef(T̂HT
∗ ) a eficiência do estimador da amostragem aleatória simples com relação ao
estimador de Horvitz-Thompson modificado descrito pela expressão em (2.4), ef(T̂BAAS )
a eficiência do estimador da amostragem aleatória simples com relação ao estimador
∗
Bayesiano e ef(T̂BHT ) denota a eficiência do estimador de Horvitz-Thompson modificado
com relação ao estimador Bayesiano. Além disso, E(n) denota o valor esperado do
tamanho final da amostra adaptativa utilizando as 100 amostras geradas, portanto, é o
tamanho médio das amostras aleatórias simples selecionadas para a comparação.
Observe que, para qualquer tamanho de amostra, as duas abordagens que usam o
plano amostral adaptativo são mais eficientes que a amostragem aleatória simples. Exceto
para n1 = 4, em que a conclusão se inverte quando compara-se T̂AAS com relação a
T̂HT ∗ . Quando comparados entre si, o modelo em (3.1) apresenta maior eficiência que a
estimação com base no desenho amostral adaptativo.
Portanto, conclui-se que o modelo (3.1) é eficiente e apresenta vantagens quando
comparado com as outras metodologias. Com base nesta conclusão, o interesse agora
é estender este modelo para outros contextos usuais. Na próxima seção é proposta
uma extensão do modelo (3.1) para populações que apresentam constante mobilidade,
incorporando esta caracterı́stica ao próprio modelo.
Vale ressaltar que um modelo inflacionado de zeros poderia ser uma alternativa para
previsão nestas populações raras, devido ao excesso de zeros. Esta classe de modelos
ganhou destaque com Lambert (1992). A ideia geral desta classe de modelos é baseada
na inclusão de massa de probabilidade no ponto zero, inflacionando suas possibilidades
de existir no modelo, por meio de uma mistura de distribuições. No entanto, neste
39
Tabela 3.2: Estudo simulado com a população de marrecos da asa azul: eficiência
relativa para o estimador do total populacional com base no desenho amostral adaptativo
(estimador de Horvitz-Thompson modificado) e no ajuste do modelo (3.1), com relação à
amostragem aleatória simples de tamanho n. A eficiência do estimador Bayesiano com
relação ao estimador de Horvitz-Thompson também é apresentada na última coluna.
∗
AAS
ef(T̂HT
ef(T̂BAAS ) ef(T̂BHT )
∗ )
n1
E(n)
4
16.74
0.44
14.37
33.33
10
25.23
1.68
12.36
7.14
20
39.91
2.60
7.12
2.70
40
66.63
3.19
4.30
1.35
trabalho o objetivo é fazer previsão acerca de uma população dividida em redes, as quais
por definição são unidades não vazias, portanto não é contemplada a possibilidade de ser
zero. A amostragem adaptativa por conglomerados é portanto uma abordage, totalmente
cabı́vel a esta situação e não fornece informações sobre as unidades vazias, apenas sobre
as não vazias. Por isso o modelo de Rapley e Welsh (2008) é formulado apenas para as
redes não vazias.
3.2
Um
modelo
para
populações
móveis,
em
crescimento ou decrescimento
A biosfera está constituı́da de sistemas que mudam com o passar do tempo. O modo
pelo qual o sistema muda depende de sua organização e dos recursos disponı́veis a ele. Por
exemplo, alguns ecossistemas aumentam em tamanho e complexidade, enquanto outros
detêm seu crescimento. O estudo da dinâmica das populações naturais é importante para
compreender o que ocorre nos ecossistemas em equilı́brio. Este tipo de comportamento,
em geral, é observado em populações de animais, habitats ou outra espécie sensı́vel a
mudanças.
40
Neste caso, o mais comum é trabalhar com modelos espaço-temporais, mas quando
trata-se de populações raras e agrupadas podemos ter grandes dificuldades em ajustar tais
modelos comumente vistos na literatura, principalmente se a elaboração do planejamento
amostral não levar este fator em consideração na coleta dos dados.
McDonald
(2004) apresenta estudos por amostragem que resultaram em estimativas altamente
imprecisas simplesmente pelo fato do pesquisador em curto intervalo de tempo “perder”
a população-alvo, devido ao grande poder de deslocamento, mortes, entre outros fatores.
Inclusive, o próprio procedimento de coleta dos dados pode ser um fator gerador de
dispersão da população de interesse. Uma opção para estes cenários é a replicação
da coleta de dados ao longo de um perı́odo de tempo, com o objetivo de ganhar mais
informações sobre este comportamento móvel, difı́cil de ser estudado. Dessa forma, além
de gerar estimativas mais precisas, tal abordagem pode ser altamente relevante para
possibilitar possı́veis intervenções mais precisas no futuro neste tipo de população, em
casos de epidemia, por exemplo.
O objetivo desta seção é propor para situações como as descritas acima, modelos
de previsão que incorporem o plano de amostragem adaptativa, mas que leve em conta
não só a raridade e esparsidade geográfica, como o modelo proposto por Rapley e Welsh
(2008), mas que também levem em conta a mobilidade da população ao longo de um
perı́odo de tempo.
3.2.1
Amostragem adaptativa para populações móveis
Um comportamento de mobilidade, crescimento ou decrescimento em um espaço ao
longo de um perı́odo de tempo é comumente visto em populações biológicas. Em geral,
esta caracterı́stica é algo natural da espécie em estudo, ou pode simplesmente surgir
num estudo por levantamentos estatı́sticos, pelo fato do método de amostragem utilizado
alterar seu habitat natural, incentivando esta dinâmica populacional.
Por outro lado, estas populações biológicas, por exemplo, também em geral são uma
fração pequena da população e estão distribuı́das numa região em grupos. Já foi visto que,
para populações com tais comportamentos, a amostragem adaptativa por conglomerados
pode ser bastante eficiente quando comparada a outros planos mais comuns e menos
41
custosos. Mas, segundo McDonald (2004), se a população, além destas caracterı́sticas,
tem alta mobilidade por fatores naturais, ou se move ou se destrói na coleta dos dados,
adaptações neste planejamento devem ser realizadas. O mesmo ocorre se a população de
interesse tende a crescer, indicando situações de alastramento.
McDonald (2004) apresenta algumas alternativas para o problema da mobilidade,
tais como: redefinir a vizinhança de forma que não inclua somente unidades de lado
contı́guo e a criação de um ı́ndice de presença de espécies, que não seja a observação
direta. Este último recai na amostragem adaptativa dupla, proposta por Felix-Medina
e Thompson (2004) e apresentada na Seção 2.2.4. Um exemplo desta é um estudo de
monitoramento da abundância de gambás na Nova Zelândia. Para detectar a região
de interesse, são colocados de forma adaptativa blocos de cera com algum atrator e a
frequência de mordidas neste bloco é um indicador da distribuição de gambás na região.
Em seguida, uma subamostra desta amostra adaptativa é observada nestes locais a fim
de obter uma estimativa do total de gambás na região.
Por outro lado, sob o ponto de vista de inferência baseada em modelos de
superpopulação, o modelo (3.1), proposto por Rapley e Welsh (2008) e apresentado
na seção anterior, não se ajusta explicitamente a populações com esta dinâmica. A
princı́pio, para inferência num único instante de tempo, as alternativas descritas acima
e apresentadas por McDonald (2004) podem ser facilmente inseridas na função de
verossimilhança do modelo, com mudanças somente na definição da vizinhança e redes.
Uma outra alternativa, que pode gerar estimativas ainda mais confiáveis é a coleta de
dados ao longo de um perı́odo de tempo e uso destas amostras repetidas para inferir sobre
os parâmetros populacionais. Esta abordagem pode ser útil também para o entendimento
do comportamento elusivo da população em perı́odos de tempo, além de previsão para
tempos futuros. Neste caso, para cada tempo terı́amos uma amostra coletada, e para cada
tempo terı́amos uma estimativa calculada com base no estimador de Horvitz-Thompson
dado em (2.4), por exemplo. No caso da abordagem baseada em modelo, o modelo (3.1)
seria ajustado para cada tempo de forma independente. E poucas são as alternativas na
literatura para dados deste tipo. Em particular, temos interesse em estender o modelo
42
(3.1), proposto por Rapley e Welsh (2008), incorporando este comportamento móvel para
que se ajuste a populações deste tipo.
3.2.2
Incorporando estrutura de crescimento e decrescimento
ao modelo
Como o objetivo é propor um modelo para previsão em populações que evoluem
dinamicamente, de forma que a amostragem adaptativa por conglomerados ainda seja
um plano amostral eficiente, serão tratadas apenas situações em que este crescimento
se dá em sua maior parte dentro das redes, de forma a não descaracterizar a raridade
e agrupamento da população, os quais são os principais motivos para o uso deste plano
amostral.
Na Figura 3.3 temos uma ilustração da dinâmica de uma população artificial
sobreposta a uma grade regular com N = 400 unidades. Para gerar esta população
foi utilizado o processo pontual conglomerado de Poisson (ver Diggle et al. (1983)), o
qual gera configurações de eventos agregados, onde os conglomerados são interpretados
como grafos e, portanto, formados por pais e filhos. Em particular, fixou-se o número de
redes e de observações em cada rede na geração. Dessa forma, dado o número R de redes
não-vazias, as coordenadas dos centroides (pais) destas R redes (grafos) são sorteadas de
uma distribuição Uniforme definida neste espaço. A partir destas R localizações, com
o número de observações Yi (filhos), para cada rede i, i = 1, . . . , R, as localizações dos
Yi − 1 filhos são gerados para cada rede de uma distribuição Normal com média nas
coordenadas dos pais e variância fixada. O número Yi para cada rede i foi gerado de uma
distribuição Poisson. Como o objetivo era apenas ilustrar uma população dinâmica de
interesse, observe que para tal ilustração não foram necessárias as variáveis número de
células não-vazias e número de células em cada rede que fazem parte do modelo (3.1), pois
o processo utilizado na geração é um processo pontual, e processos deste tipo independem
da divisão da área, no caso da grade regular, o que não comprometeu de forma alguma
a ilustração.
43
Observe na Figura 3.3 que ao longo do tempo o número de unidades com observações
aumenta e o número de redes varia de forma estável.
●
●
●
●
● ●
●
● ●
●
●● ● ● ●
●
●●
●
●●
●●●
●
●
●●●●●
●
●
●●
● ●
● ● ●●
● ● ● ●
●
●● ●
●●
●●
●
● ●
● ●
●
●
●
●
●
●
●
●
● ●
●
●
●
●●
●
●●
●●
●
●●
●
●
● ●● ●
●
●●● ● ●
●●
●
●
● ● ●●
●● ●●
●
●
●
●
●● ●●
●
●● ●●
●●●●
●●● ●●
●
●●
●
●●
●● ●
● ● ●● ● ●
● ●● ●
●
●●●
●
●●● ●●
●●
●●
●
●
●●●
●●
●● ●●●● ●
● ●● ●
●●
●
●
● ●
●● ●
●
●●●●●●● ● ●
● ●
●● ●● ●
●
●
●● ● ●● ● ●
●
● ●
●
● ●●
●
●
●
●
●●
●
●
●● ●● ●● ● ● ●
●
●●
●●
●
● ●
● ●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●
●● ● ●● ●● ●
●● ●
● ●● ●●
● ● ●
● ●●
●
●●●● ●●● ●
● ●●●
●●
●
●
●
●● ●
●●●
●
●
●
●●
● ●
●●
●● ●
●● ●
●●
●
●
●●
●
●
●●●●
● ●●
● ●●●
●●
●●● ●
●
● ●● ●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
● ●●
●●
●
●
●●
●
●
●● ● ●
●● ● ●
● ●●
●
●
●
● ● ●● ● ●
●
●
● ●
●●
● ●●
●
●● ●
● ●
●
t=1
●
●
●
● ●
●
●
●
● ●●● ●
●
●● ● ●
●● ● ●
● ● ● ●●
●●● ●
●
●●●
●
● ●●
●●
●●● ●
● ●●
●●
● ●
●
●●●
●●●● ●●● ●
●
● ●
●
●
●
●● ●
●
●
●●
●
●
●
●
● ●● ● ● ●
●
●● ● ● ●
●
●●
● ●
●●● ● ●
●●
● ● ●
● ●●
● ● ●
● ●● ● ●●
●●● ● ●●
●●
● ●●
●
● ● ● ● ●●
●●●●
●
●
●
●●
● ●●● ●
●
●
● ●●
● ●
●● ●
●● ●
● ● ●
●●● ●● ●
●
●
●●
●● ●●● ●
●●
●
●
●
●●
● ●
●
●
●
●
●●
●
●
●
●
●
t=2
●
●
●
●
●
● ● ●
●
●
●
●
●●
● ●●
● ●
●●
●●
●●
● ●●
●
● ●
●● ●●
●● ●
●● ●●●
●● ●●
● ●● ●●●●
●●● ● ●
●
●●
●
●●●●●
● ● ●
●●●●
●
●● ●●
● ●
●●●●●●
●
●●●
●●
●●
●●
●● ●●
●
● ●
●●●
●●
●●●
● ●● ●
●● ●
●
●●
●
●
●
●●
●
●
●
● ●
●●
●●●
●●
●●
●
●●
●
●
●
●
●●
●
●●
●
●●●
●●
●
●
● ●●●
●●
● ● ●● ●●●●
●
●
●
●●
●
●●●
●
●
●●
●●
●
●●
●●
●
● ●●
●
●●
●●
●●
●●
●●
●
●
●●●●
●
●●
●
●●
● ●●●
●● ●●●
●
●●
●
●
●●
●●●● ●
●● ● ●●
●● ●
●
●●
●
●●●
●●●
●
● ●●●● ●
●● ●
●●
● ●●
●● ●● ●
●
● ●
●
●
●●
●
●
●● ●
●
● ● ●
●● ●
●
●
●
●
●● ● ● ●
●
●●
●● ●
●
●
●● ● ● ●
● ●●
●● ● ● ●
● ●● ● ● ●
●
●
●
●
●
● ●
●● ●
● ●
●●
●●
●●
●
●
●
●
●● ●●
●● ●
●●●
●● ●
● ● ● ●●●
●●● ● ● ●
●
●
●●●●
●
●●
●● ●
●●●
●
●●● ●●
●●
●
●●●
●
●
●●
●
● ● ●
●● ● ● ●
● ●
●●
● ●● ●●
●●●●●
●●
●
●●●
●●
●
●●●
●
●●
●●
● ● ●●●●●
●
● ●
●●●
●●
●●●
●
●
●
●
●
●
●
●●
●●
●
●
●
● ●●●
● ●●
●●
●
●● ●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ● ● ●
●
● ●
●●●
●
● ●
●
●●●●●
●
●
● ●●●
● ● ●●●
●
●●
●
●●
●●
●●
●
●
● ●●●
●●
●
● ●
●
●
● ●●
●●● ●●
●●
●
●●
●
●
●
●●
●
●
●● ●●●●
●●
●●
●
●
●
●●
●
●
●●● ●●● ●
●
●
●
●● ● ●
●
●●● ● ●
●
● ●●
● ●●
●● ● ●
●
●
●● ● ●● ● ●
●
●
●
●●● ●
●●
●
●
●
●
●
●
●
● ●●
● ● ●
●
●
●
●
●
●
●● ● ●
●
●
● ●
●
●
●● ●
●
●
●● ● ●
●
●
●●
●●
●
● ●
●
●
●● ●● ●●
● ●
●
●
●
●●●●● ●
●
●
●
●
● ●●●● ●
●
●●
●●
●
●
●
● ●
●●
●● ●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●● ● ●● ●● ●
●● ●
● ●● ●●
● ● ●
● ●●
●
●●●● ●●● ●
● ●●●
●●
●
●
●
●● ●
●●●
●
●
●
●●
● ●
●●
●● ●
●● ●
●●
●
●
●●
●
●
●●●●
● ●●
● ●●●
●●
●●● ●
●
● ●● ●
●●
●
●
●
●●
●
●
●
●
●
●
●
● ●● ●●
●
●
●
●
●● ● ● ● ●
●●
●●●● ●● ●
● ●
●
●●●
●●
●●
●
●●
●●●● ●
●
●
●●
●
●
●●
● ●●●
●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●●
●
● ●● ●
●●
●
●●
● ●● ●● ●
●
●
●
● ●●
●● ●
●●
●
●
●
●
●●●●
●
●
●●●●●●●●
●
●
●●
●
●
●
●●●●
●●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●● ● ●
●
●●
● ●●
●
●
●
●●
●
●
●
●●
●
●
●
●●●
●● ● ●
●
●●●●●●
●●
●
●●
●●
●
●
●●●
●
●
●
●●
●●●●● ●
●
●
●●
●●●●
● ●●
●
●●
●●
●
●●● ●●
●●● ●●
●●● ●●
●
●
●●●
●●●
●
● ●●
●●●●
●
●
●
●
●
●●
●
●●
● ●
●
●
●
● ●
●
● ● ●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
● ●
● ● ● ●● ●
●
●● ●
● ●
●
●
● ● ●●
●
●
● ●
● ● ●●
●
● ●●● ●● ●
● ●
● ● ●●●
● ● ●● ●
●
● ● ● ●●
●●
●●
●
●
● ●●●●
●
●●●
●
●●● ●●● ●
●
●
●
●●● ●
● ●
● ●● ● ●●
●●●
●●
●
●
●●● ●
●●
●
●
●●●
●
●
● ●●
● ●
●● ●
●
●
●
●
●●
●● ●
●●●●
●
● ●
●●
●
● ●●●●●
● ●
●
●
●
●●
●
●
●●●●● ●
●
●
●
●
●●● ●
●● ● ●
●
● ● ●●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●● ●● ●
●●● ● ●
●●
● ● ● ●●●
● ●
●●
● ●●● ● ●●●
●
●
●●● ● ●●
●●
● ●● ●
●
●
●
●● ●●
● ●
●
●●
●●●
●
●●● ●● ●
●●●
●
●
●
●
● ●●● ●
●
●
●●
●●
●●
●
●● ●
●
●●● ●
●
●●
● ● ●
●●● ●
● ● ●●●
●
● ●
● ●●●
●●
●●
● ●● ●● ● ●
●●●
●●
●
●●● ●● ● ●
●●
● ●●● ● ●
● ●●
● ●
●●
● ●
● ●
●
●
●● ●
● ●
●
●
●●●
●
●
●
● ●●
●
●
●
●
●
●
● ●
●
●
● ●
● ●● ●●
●
●●●
●●●
●●
●
●●
●●● ● ●● ●●
●●●● ●
●
●●
●
● ●● ●●
●
●●
●
●●
●
●
●
●
● ●●
●
●●
●
●
●●●●
●●●●
●
●
●
●●
●
●● ●●●
●●
●
●
● ●●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●● ●●●
●
●
●
●●
●
●●
●
●
●
●●
●●
●●
●●
●
●
●
●●
●●
●
●
●
●●
●
●●●●●●●
●●
●
●●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●●
●●●
●●
●●
●●
●
● ●
● ●● ●
●
●
●
●●
●
●
●
●
●●
●
●
●● ●
●●
●●
●●
●●
●
●●
●
●
●●●
●
●
●
●
●
●
●
●
● ● ●●
●
●● ●
●
●● ●●
●● ●
● ●●●
● ●●
●
● ●●
● ●●
● ● ●
●●
● ●
● ●●
●●
●● ●
● ●
●
●●
●
●
●
●
●
●
t=3
t=4
●
●
● ●
●●
●● ●
●
●
● ●●
●●
●
●
●
●
●
● ● ●
●●
● ●●
● ●●●●
●● ●
●
●
●●● ●●●
●●
●
●● ●
●
●
●●
●
●●●
●
● ●
●●
●●
●
●
●●
●●●
●
●●
●●
●●
●
●
●●●●●
●
●
●●● ●
●●
●●
●
● ●●
●
●
● ●
●
●●
●
●
●
●●
●●● ●
● ● ●
●●
●●●
●● ●
●
●●
●
●
●
● ●
●●●
●
●●●●●● ●
●●
● ●
●●
● ●
● ●●
●
●
●
●
●
● ●
●
●
●●
● ●
●
● ●●
●
● ●●
● ●●● ● ●
●
● ● ●●
●
● ● ●●
● ●
●
● ●
●●●
●●
●●● ●●●●
●●
●●●●●●
●
●●●
●
●
●
●●●
●
●●●●●●●●●
●●●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●●●
●●●
●●
●
●
●●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●●
●●●
●
●●●
●●
●
●
●
●
●●
●
●● ●
●●● ●
●●
●●
●
● ●
●●
● ●●●● ●
●●●
●● ● ●
●
●
●●●●●● ●●●
●
●
● ●●
●●
●
●
●
●
●
● ●
●
●
●
●
●
● ●●
●
● ●● ●●
● ●●
●● ●
●
●
●●
●●
● ●●●●
●● ●
●●
●
●●
●
●
●●
●
●
●●
● ●●
●
●●
●●
●
●
●
●
●●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●● ● ●● ●●
●●
●
●
●
●●● ●
●
●
●
●
●
●●
●
●
●
●
●
●● ●● ●
●●
●
●
●
●
●
●
●
●●
●
●●
●
● ●●
●● ●
●
●
●
●
●●●●●●
●●
●
●
●
●
●
●●●
● ●●
●●
●
●
●
●
●●
●
● ●● ●
●
●
●●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●● ●●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●●
●●
● ●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
● ●●
● ●●●
●●
●●
●
●
●
●●●
●●●●
●●● ●●●
●●●● ●●
●●
●
●●
●●
●
● ●●●
●●●●
●
●
●
● ●
●
● ●
●●
●
●
●
●
●● ●
●
●●
●●
●●
●
●
●●
●
● ●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●●
● ●●
●●
●
●● ●
● ●●
●
●●
●
●
●●
●●
●
●
●
●
●●
●● ●● ●
●
●
●●
●● ●●
●
●●●
●●
●
●
●
● ●●
●
●
●
●
●●
●
● ●●
●●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●●
●
●
●●●●
●
●●
●
●●
●
●
●●●
●
●
●
●
●
●●
●●
● ●
●●●
●
●
● ●●●●
●
●
●
●
●
●
●
●
●
●
●●●
●●●
●
●
●
●●
●
●
●
●
●
●
●●
●●
●●
● ● ●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●●
●
●
●●
●●
●
●●
●
●
●
●
●●
●●●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●●
●
●●
●
●
●●
●
●
●
●●
●
●
●●
●
●●
●
●●
● ●●
●
●
●
●
●
● ●●
●
●
●●
●
●
●
●●
●● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
● ●● ●
●●
● ●●
●●
●
● ●
●
●
●
●
●
●● ●
● ●
● ●
●● ● ●●
● ●
● ● ●
●
● ●●
●
●
●
t=5
Figura 3.3: Ilustração da evolução dinâmica de interesse de uma população rara e
agrupada numa região sobreposta a uma grade regular com N = 400 unidades.
44
Note que a partir do modelo em (3.1) é possı́vel incorporar esta dinâmica populacional
acrescentando alguma estrutura temporal aos parâmetros α e β.
Se tornarmos o
parâmetro α dinâmico, deixando β fixo, o número de unidades não-vazias na população
se altera ao longo do tempo e, portanto, pela estrutura de condicionamento do modelo,
o número de redes também pode se alterar.
Se for feito o contrário, ou seja tornar o parâmetro β dinâmico, deixando α fixo,
teremos uma população cujo número médio de unidades não-vazias não se altera ao longo
do tempo, mas sua disposição dentro das redes sim, o que pode criar novas redes com
o número de unidades reduzido, ou ainda desaparecer redes com o número de unidades
crescendo dentro de algumas redes.
Uma outra possibilidade intuitiva é a incorporação de dinâmica nos dois parâmetros α
e β ao mesmo tempo, isso geraria uma população menos estável que em qualquer um dos
dois cenários citados anteriormente. Isto porque estarı́amos alterando diretamente tanto
o número de unidades na população, quanto o número de redes. Note que a estrutura
dinâmica a ser imposta deve ser de forma controlada, a fim de que a população-alvo rara
e agrupada não se descaracterize ao longo do tempo.
Neste trabalho temos particular interesse na primeira extensão, onde cresce o número
total de unidades na população ao longo do tempo e, por conta do condicionamento do
modelo, o número de redes varia, mas de forma mais estável que as outras duas opções.
Dessa forma, serão contemplados comportamentos de mobilidade caracterizados pelo
surgimento e desaparecimento de redes, e ainda pelo crescimento ou decrescimento do
número de observações nas redes que permanecem, mas com uma estabilização no final
do tempo. Portanto, não serão considerados cenários com alastramento desordenado
ou desaparecimento global da observação de interesse, como uma epidemia, no caso de
doença, por exemplo.
3.2.3
Modelo de crescimento exponencial
Como o interesse está em modelar populações que apresentam um crescimento ou
decrescimento médio de observações dentro das redes, mas com uma estabilização ao longo
do tempo, em particular, modelos de crescimento exponencial podem gerar populações
45
com esta estrutura, além de serem amplamente utilizados em problemas reais em diversas
áreas, como na ecologia. Considere que as observações obtidas a partir de um processo Yt
ao longo de perı́odos de tempo t = 1, . . . , L são modeladas a partir de uma distribuição
de probabilidade na famı́lia exponencial, tal que E(Yt | θ t ) = λt , onde θ t é um vetor de
parâmetros. Modelos caracterizados pela parametrização θ t = (a, b, c)0 e por uma função
de ligação h tal que
h(λt ) = a + b exp(ct) e


λφt , se φ 6= 0
h(λt ) =
 log(λ ), se φ ≈ 0
t
são chamados modelos de crescimento exponencial generalizados e podem ser vistos com
detalhes em Migon e Gamerman (2006).
O parâmetro c está relacionado com a velocidade de crescimento/decrescimento (ou
curvatura), o parâmetro b com a intensidade do crescimento/decrescimento e a com a
localização da curva. Derivando a expressão a+b exp(ct) em relação a t, podemos concluir
que a curva será crescente se b e c tiverem o mesmo sinal e decrescente caso contrário.
Pela derivada segunda, podemos concluir que a curva tem concavidade voltada para cima
se b > 0 e para baixo se b < 0. Vale notar ainda que se c < 0 então a curva tem um
comportamento não explosivo, convergindo para a quando t → ∞.
A principal vantagem em utilizar estes modelos é a possibilidade de manter as
medições de Yt na escala original, transformando apenas a trajetória de Yt , o que torna
a interpretação dos resultados mais simples. Além disso, os intervalos de tempo não
precisam ser igualmente espaçados, permitindo que se trabalhe com dados provenientes
de pesquisas com datas de referência distintas através de uma codificação do ı́ndice t de
tempo.
A proposta, portanto, é modelar o parâmetro α do modelo (3.1) a partir de uma
curva de crescimento exponencial. Como este parâmetro é uma probabilidade, é natural
usar-se na modelagem uma função de ligação logı́stica, portanto o modelo apresenta-se
da seguinte forma:
logit(αt ) = log
αt
1 − αt
= a + b exp(ct), t = 1, . . . , L.
46
Em particular, ao modelar o parâmetro α desta forma, os possı́veis valores que os
parâmetros da curva exponencial a, b e c podem assumir devem estar compatı́veis com
o contexto de populações raras e agrupadas e, portanto, serão usados os resultados
apresentados na Seção 3.1 para efetuar esta escolha.
O interesse neste trabalho
concentrar-se-á em dois casos: (i) crescimento da população e estabilização com a
evolução do tempo; (ii) população decrescente ao longo do tempo e estabilização, de
forma que a população não desapareça. Na Figura 3.4 estão as duas curvas de crescimento
que caracterizam os dois cenários de interesse neste trabalho, para L = 50. Para obter
a curva crescente (a) assumiu-se a = −1.73, b = −1.41 e c = −0.15, o que resulta no
parâmetro αt iniciando em 0.05 e estabilizando em 0.15, os quais são valores razoáveis
para este parâmetro no modelo (3.1) no contexto de populações raras e agrupadas. Já
a curva (b) é obtida para a = −2.20, b = 0.94 e c = −0.15, produzindo uma curva
decrescente para αt iniciando em 0.20 e estabilizando em 0.10.
0.18
●
●
●
●
0.14
αt
0.10
αt
0.14
●●●●●●●●●●●●●●●●
●●●●●●●●●
●●●●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●●
●●●●
●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●
0.10
0.06
●
●
●
●
0
10
20
30
40
50
0
t
10
20
30
40
50
t
(a) Crescimento
(b) Decrescimeno
Figura 3.4: Curvas de crescimento e decrescimento de interesse para αt , t = 1, . . . , 50.
Em (a) fixou-se a = −1.73, b = −1.41 e c = −0.15, e em (b) a = −2.20, b = 0.94
e c = −0.15, o que resulta no parâmetro αt variando de 0.05 e 0.15 e de 0.2 a 0.1,
respectivamente.
Desta forma, uma extensão do modelo (3.1) para populações que evoluem ao longo do
tempo com uma dinâmica semelhante à descrita anteriormente é dada, para t = 1, . . . , L,
por:
47
Yit∗ | Cit , Rt , γ ∼ Poisson Truncada independente (γCit ), Yit∗ ≥ Cit , i = 1, . . . , Rt ,
Rt
X
1
Ct | Xt , Rt ∼ 1Rt + Multi Xt − Rt , 1Rt , Cit = 1, . . . , Xt − Rt + 1,
Cit = Xt ,
Rt
i=1
Rt | Xt , β ∼ Binomial Truncada (Xt , β), Rt = 1, . . . , Xt ,
(3.4)
Xt | αt ∼ Binomial Truncada (N, αt ), Xt = 1, . . . , N,
logit(αt ) = a + b exp(ct), t = 1, . . . , L,
em que Xt é o número de células não vazias no tempo t, Rt é o número de redes não vazias
no tempo t, Ct é o vetor com o número de células não vazias em cada uma das Rt redes
não vazias no tempo t, Yit∗ é o número de observações na rede não vazia i no tempo t,
P t ∗
t = 1, . . . , L. O maior interesse está em prever T = (T1 , . . . , TL )0 , em que Tt = R
i=1 Yit .
Além disso, a variável resposta neste caso segue uma distribuição de Poisson, pois o
interesse concentra-se em dados de contagem, embora seja possı́vel estender esta ideia
para outras distribuições na famı́lia exponencial, assim como (3.1).
Como trata-se de inferência Bayesiana, o modelo (3.4) deve ser completado com a
distribuição a priori para o vetor paramétrico (a, b, c, β, γ). Neste caso, ao ajustar o
modelo, sob distribuições a priori não-informativas para os parâmetros a, b e c, surgiram
problemas de identificabilidade, pois estes parâmetros devem estar restritos a valores de
αt pequenos. Portanto, conclui-se que para o ajuste razoável do modelo (3.4) é necessário
atribuir uma distribuição a priori informativa para estes parâmetros. Por outro lado,
há interesse em permitir ao modelo que verifique se os dados fornecem um cenário de
crescimento ou decrescimento da população, o que é fornecido pelos valores de a e b, para
c negativo, afim de garantir cenários de estabilização com o passar do tempo. Portanto,
supondo independência entre os parâmetros a priori, será atribuı́da a priori para c uma
distribuição Normal truncada nos reais negativos, denotada por c ∼ N(−∞,0) (µc , σc2 ).
Para (a, b) será atribuı́da a priori uma mistura de distribuições normais bivariadas que
contemplam os dois possı́veis cenários, da seguinte forma:
(a, b) ∼ w1 N(µ1 , Σ1 ) + (1 − w1 )N(µ2 , Σ2 ),
48
em que µ1 = (−2.20, 0.94)0 e µ2 = (−1.73, −1.41)0 são os vetores de média para cada
Normal e Σ1 e Σ2 são as matrizes de covariância de cada componente da mistura e
caracterizam o quanto esta distribuição é informativa a priori. Note que a primeira
distribuição da mistura caracteriza a curva de decrescimento e a segunda de crescimento.
Logo, o valor de w1 reflete o peso que será dado às duas distribuições. Neste caso, se não
há informação a priori para dar mais probabilidade de ocorrência a uma das situações,
fixar w1 em 0.5 é uma forma de ser não-informativo e permitir ao modelo que recupere o
comportamento da população ao longo do tempo. Na Figura 3.5 está a distribuição para
os parâmetros (a, b), fixando Σ1 = Σ2 = diag(0.01, 0.01).
Densidade
a
b
Figura 3.5: Distribuição a priori conjunta para o vetor (a, b)0 .
Além disso, supõe-se a priori que β ∼ Beta(aβ , bβ ) e γ ∼ Gama(aγ , bγ ), como no
modelo em (3.1).
Note que os parâmetros a, b e c controlam os valores que αt assumem ao longo
do tempo e, usando o argumento de que as populações-alvo são raras e agrupadas, é
necessário atribuir distribuições a priori para estes informando que αt assume valores
pequenos. O conhecimento a priori mı́nimo para aplicabilidade das técnicas propostas
neste trabalho é que as populações em estudo são raras e agrupadas, portanto a
distribuição a priori deve ser ao menos informativa sobre este comportamento.
Vale lembrar que as variáveis do modelo são compostas por uma parte conhecida e
outra desconhecida como descrito na Seção 3.1, no entanto agora devemos definir esta
partição para cada tempo t, da seguinte forma: Yt∗ = (Ys∗t 0 , Ys̄∗t 0 )0 , Ct = (C0st , C0s̄t )0 ,
49
Zt = (C0t , 10N −Xt )0 , Rt = Rst + Rs̄t e Xt = Xst + Xs̄t , para t = 1, . . . , L. Sejam então
X = (X1 , . . . , XL )0 , R = (R1 , . . . , RL )0 , C = (C01 , . . . , C0L )0 e Y∗ = (Y1∗ 0 , . . . , YL∗ 0 )0 .
Além disso, a cada tempo t uma amostra é selecionada de forma adaptativa e
independente dos outros tempos. Note que o modelo escrito desta forma agregada apenas
nos fornece informações numéricas sobre as redes, portanto não seria possı́vel incorporar
a este modelo um planejamento amostral que não fosse aplicado independentemente
ao longo do tempo, caso contrário necessitarı́amos de informações adicionais, como
localização das unidades que foram selecionadas. Desta forma, a probabilidade de seleção
de uma amostra st = {i1t , . . . , imt } de mt redes no tempo t, t = 1, . . . , L, é dada por:
[st | Xt , Rt , Ct ] =
mt
Y
Zijt × gijt ,jt
,
PN −Xst −Xs̄t +Rst +Rs̄t
P
Z
Zit − jktt−1
i
jt =1
it =1
k
=0
t
onde mt é o número de redes na amostra no tempo t, gijt ,jt é o número de redes de
tamanho Zijt que restam após jt − 1 redes terem sido selecionadas e Zi0 = 0.
Portanto, a função de verossimilhança completa é dada por:
L Y
mt
Y
Zij gij ,jt
PN −Xt +Rt t t Pjt −1
Zit − kt =0 Zikt
it =1
t=1 jt =1




N −Xt
Xt
Xt −Rt
Rt
N
X
 αt (1 − αt )
 t  β (1 − β)
×
×
1 − (1 − αt )N
1 − (1 − β)X
t
Xt
Rt
Cit −1
Rt
Y
1
1
× (Xt − Rt )!
(Ci − 1)! Rt
i=1
[s,X, R, C, Y∗ | a, b, c, β, γ] =
×
Rt
Y
i=1
para logit(αt ) = log
exp{−γCit + Yit∗ log(γCit )}
,
P
it −1
Yit∗ ![1 − C
j=0 exp{−γCit + j log(γCit ) − log(j!)}]
αt
1−αt
= a + b exp(ct), t = 1, . . . , L e s = (s1 , . . . , sL ).
Como a distribuição a posteriori do vetor paramétrico Θ = (X, R, C, Y∗ , a, b, c, β, γ)
não possui forma analı́tica fechada, faz-se necessário o uso de métodos de simulação
estocástica, como o MCMC. Em particular, o amostrador de Gibbs com passos de
Metropolis-Hastings foi utilizado. Além disso, o preditor de T = (T1 , . . . , TL )0 é obtido
da seguinte forma:
T̂t = 10Rst Ys∗t + 10R̂s̄ Ŷs̄∗t ,
t
50
para t = 1, . . . , L cuja amostra da distribuição pode ser obtida via MCMC.
Os passos do algoritmo MCMC são descritos como:
(1) Faça j = 1 e especifique valores iniciais para X1t , Rs̄t , Cs̄t e Ys̄∗t , para t = 1, . . . , L;
(2) Gere a da distribuição [a | X, R, C, Y∗ , b, c, β, γ] = [a | X, b, c];
(3) Gere b da distribuição [b | X, R, C, Y∗ , a, c, β, γ] = [b | X, a, c];
(4) Gere c da distribuição [c | X, R, C, Y∗ , a, b, β, γ] = [c | X, a, b];
(5) Gere β da distribuição [β | X, R, C, Y∗ , a, b, c, γ] = [β | X, R];
(6) Gere γ da distribuição [γ | X, R, C, Y∗ , a, b, c] = [γ | R, C, Y∗ ];
(7) Gere (Xs̄t , Rs̄t , Cs̄t , Ys̄∗t ) da distribuição [Xs̄t , Rs̄t , Cs̄t , Ys̄∗t | Xst , Rst , Cst , Ys∗t ,
a, b, c, β, γ], para t = 1, . . . , L;
(8) Faça j = j + 1 e volte ao passo (2).
Note que este modelo é usado para estimação do total populacional após a observação
de todos os tempos. Se optássemos por uma estimação sequencial dos parâmetros do
modelo e de T à medida que as observações fossem coletadas, algumas dificuldades
poderiam surgir. Os parâmetros do modelo de crescimento exponencial estão associados
ao crescimento e estabilização da população, portanto, só serão realmente bem estimados
após coletadas todas as observações ao longo dos tempos. Logo, recomenda-se que, se o
ajuste de tal modelo for feito de forma sequencial, já tenham sido observados um número
razoável de instantes de tempo, para que o limite do crescimento tenha sido ao menos
atingido.
3.2.4
Estudo simulado
A fim de examinar o desempenho do modelo proposto, foram geradas 100 populações
artificiais com N = 400 unidades ao longo de L = 50 tempos, a partir do modelo
(3.4) com parâmetros (c, β, γ) fixados em (−0.15, 0.10, 10). Para contemplar os dois
tipos de evolução ao longo do tempo de interesse para algumas populações, fixou-se
51
(a, b) = (−1.73, −1.41), o que caracteriza um cenário de crescimento ao longo do tempo,
e para outras (a, b) = (−2.20, 0.94), o que caracteriza um decrescimento. Estes valores
foram escolhidos de modo a representar as mesmas situações descritas na Figura 3.4 e
com cenários de raridade e agrupamento semelhantes aos apresentados na Subseção 3.1.2.
Para cada tempo t, inicialmente 5% das unidades amostrais foram selecionadas
por amostragem aleatória simples sem reposição e uma amostra adaptativa por
conglomerados para cada tempo foi selecionada de forma independente.
A distribuição a priori utilizada para (a, b, c, β, γ) é descrita a seguir. Supondo
independência a priori para cada parâmetro, para β e γ foram utilizadas as mesmas
distribuições descritas na Subseção 3.1.2. Os parâmetros a, b e c controlam os valores
que αt assume ao longo do tempo e, usando o argumento de que as populações-alvo são
raras e agrupadas, será atribuı́da uma distribuição a priori para estes que informe que αt
é um parâmetro com valor pequeno e que a está relacionado com a convergência da curva
e b e c com o crescimento. Além disso, note que a + b é igual ao valor inicial da curva
de crescimento. Portanto, foram atribuı́das distribuições a priori informativas para estes
parâmetros. No entanto, na distribuição a priori para (a, b), usou-se w1 = 0.5, logo a
priori não está sendo informado se, com a evolução do tempo, a população passou por
um crescimento ou decrescimento.
Para verificar o ajuste do modelo foram geradas 200.000 iterações, sendo as 10.000
primeiras descartadas como aquecimento e tomamos amostras de 190 em 190, a fim de
obtermos 1.000 amostras independentes. Nas Figuras 1.6 e 1.7, apresentadas no Apêndice
A, está um sumário da distribuição a posteriori para duas das 100 populações geradas.
Na Figura 1.6 está o resultado a posteriori para uma população que cresce ao londo tempo
e na Figura 1.7 para uma população que decresce. Na Figura 1.6 (a)-(e) e na Figura 1.7
(a)-(e) estão os traços das cadeias da distribuição a posteriori dos parâmetros a, b, c, β e
γ. As Figuras 1.6 e 1.7 (f)-(j) mostram as cadeias para o total em alguns instantes de
tempo arbitrários. A linha em cinza representa o valor verdadeiro usado na geração dos
dados artificiais. Observe que há indı́cios de convergência para todos os parâmetros do
modelo.
52
Como temos amostras das distribuições a posteriori de a, b e c, temos uma amostra
da distribuição de αt , t = 1, . . . , L. Nas Figuras 3.6 (a) e (b) estão em preto a média a
posteriori de αt , em azul o valor verdadeiro e em cinza o intervalo HPD de 95%. Pela
proximidade das linhas azuis e preta e pela linha azul estar contemplada pelo intervalo de
95% é possı́vel concluir que este parâmetro é bem estimado. Finalmente, as Figuras 3.6
(c) e (d) apresentam os valores estimados para o total populacional para os 50 instantes
de tempo. Em preto está a média a posteriori do total para cada tempo, as cruzes em
azul representam os valores verdadeiros do total populacional para cada tempo e em
cinza o intervalo HPD de 95%. Em sua grande maioria os pontos em azul pertencem ao
intervalo, portanto podemos concluir que os totais estão sendo bem estimados para cada
tempo. Note que em ambos os casos o modelo recupera a estrutura ao longo do tempo
dos dados.
Na Tabela 3.3 temos um sumário da distribuição a posteriori dos parâmetros do
modelo de crescimento proposto para as 100 populações geradas. São apresentadas o
EQMR, erro médio absoluto relativo (EAR), a amplitude média dos intervalos HPD de
95% relativizada com relação ao verdadeiro valor e respectiva probabilidade de cobertura.
Note que todos os parâmetros do modelo são bem estimados, pois os respectivos EQMR
e EAR são pequenos. As probabilidades de cobertura dos intervalos na maioria das vezes
se apresentam abaixo do nı́vel nominal desejado de 95%, com exceção dos parâmetros γ,
β e c no caso de população em decrescimento. Uma explicação plausı́vel para este caso é
o fato de que as populações artificiais em decrescimento foram geradas de forma que em
todos os 50 instantes de tempo o número de unidades não vazias estivesse em torno de
10% e 20%, portanto de uma maneira geral estas populações apresentam-se menos raras
e agrupadas que as populações geradas para o cenário de crescimento.
Na Figura 3.7 estão os EQMR, EAR, cobertura e amplitude média relativizada com
relação ao valor verdadeiro dos intervalos HPD de 95% para os totais populacionais para
cada tempo para as populações simuladas de crescimento e decrescimento. Por questões
de melhor visualização gráfica, a amplitude média apresentada é dada pela média dos
valores da amplitude obtida, para cada simulação, dividida pelo valor verdadeiro do total
53
800
600
0.14
400
T
αt
0.10
200
0.06
0
10
20
30
40
50
0
10
20
t
30
40
50
t
(b) T - crescimento
200
0.10
400
αt
0.14
T
600
0.18
800
(a) αt - crescimento
0
10
20
30
40
50
0
t
10
20
30
40
50
t
(c) αt - decrescimento
(d) T - decrescimento
Figura 3.6: Sumário da distribuição a posteriori de αt e do total populacional para uma
população em crescimento e decrescimento ao longo do tempo. Em preto está a média
a posteriori de αt e total populacional Tt , t = 1, . . . , 50, com intervalo HPD de 95% em
cinza e valor verdadeiro em azul.
populacional. Desta forma, é possı́vel uniformizar a escala destes valores para os dois
modelos.
Note que para ambos os cenários, o EQMR e EAR diminuem à medida que a
população torna-se menos rara e agrupada. Portanto, no caso de uma população em
crescimento os erros diminuem com a evolução do tempo e no caso de decrescimento
os erros tendem a ter um ligeiro aumento com o passar do tempo. Com relação à
probabilidade de cobertura dos intervalos HPD de 95% para T nota-se uma subestimação
do nı́vel de 95% para ambos os casos e observando a amplitude média dos intervalos
nota-se um aumento na precisão do intervalo com a evolução do tempo, no caso de
uma população em crescimento, e uma diminuição da mesma, no caso de decrescimento.
54
Tabela 3.3:
Sumário da distribuição a posteriori dos parâmetros do modelo de
crescimento proposto: são apresentados o EQM e EAM, a amplitude média dos intervalos
HPD de 95% e a probabilidade de cobertura para as 100 populações geradas. Os resultados
estão separadas para as populações em crescimento e decrescimento.
parâm
EQMR
EAR
cob
ampl EQMR
Pop. em cresc.
EAR
cob
ampl
Pop. em decresc.
a
0.02
0.10
0.83
0.13
0.02
0.11
0.82
0.10
b
0.01
0.06
0.86
0.21
0.04
0.16
0.85
0.29
c
0.02
0.14
0.80
0.43
0.01
0.08
0.96
0.52
β
0.01
0.06
0.88
0.25
0.01
0.07
0.94
0.30
γ
0
0.01
0.96
0.04
0
0.01
0.94
0.04
Este fato já era esperado e ocorre devido ao aumento e diminuição, respectivamente, do
número de observações com a caracterı́stica de interesse, com a evolução do tempo.
Logo, dada a dificuldade de previsão em populações raras, agrupadas e móveis, no
geral o modelo (3.4) proposto parece ser eficiente para estimar o total populacional para
este tipo de população.
3.2.5
Comparação do modelo de crescimento com outras
abordagens
Outras duas possı́veis abordagens para previsão do total populacional neste cenário
ao longo de instantes de tempo, cujos dados são obtidos por amostragem adaptativa
por conglomerados, são: o simples ajuste de forma independente ao longo do tempo do
modelo (3.1); estimação para cada tempo com base no estimador de Horvitz-Thompson
modificado (2.4).
O objetivo desta seção é comparar o modelo de crescimento com as abordagens citadas
acima. Desta forma, para cada tempo t uma amostra adaptativa é selecionada e: (i)
com base em todas as amostras observadas o modelo (3.4) é ajustado; (ii) à medida
que uma amostra é coletada, o modelo (3.1) é ajustado com base nestes dados e assim
55
0.4
0.3
Erro para T
EAR
EQMR
0.1
0.2
0.4
0.3
0.2
0.1
Erro para T
EAR
EQMR
0
10
20
30
40
50
0
10
20
t
20
50
30
40
0.7
0.6
Amplitude média (T)
50
Decrescimento
Crescimento
0.5
0.90
0.80
0.70
Cobertura de T
Decrescimento
Crescimento
10
40
(b) EQMR e EAR para T (decrescimento)
0.8
(a) EQMR e EAR para T (crescimento)
0
30
t
0
t
10
20
30
40
50
t
(c) Cobertura T (cresc. e decresc.)
(d) Amplitude T (cresc. e decresc.)
Figura 3.7: Sumário da distribuição a posteriori do total populacional a cada instante de
tempo T para 100 populações em crescimento e outras 100 em decrescimento geradas.
São apresentados os EQMR, EAR, probabilidade de cobertura e amplitude média dos
intervalos HPD de 95%.
sucessivamente para todo t = 1, . . . , L; (iii) estima-se o total com base no estimador de
Horvitz-Thompsom para cada tempo separadamente. Note que, exceto para a primeira
metodologia, não estarı́amos incluindo a estrutura dinâmica à estimação em nenhuma
das outras abordagens e, portanto, não seria possı́vel usar todos os dados coletados ao
longo de L tempos para estimar o total populacional, ao contrário da proposta em (3.4).
Utilizando as mesmas 100 populações geradas no estudo anterior foram analisados
o modelo de crescimento proposto (3.4) e as duas abordagens descritas acima. Para
os modelos considerados foram usadas as mesmas distribuições a priori descritas nas
Subseções 3.2.4 e 3.1.2.
56
Dado que a convergência foi obtida para todos os parâmetros e como nosso maior
interesse está na previsão do total populacional com base em modelos, na Figura (3.8)
estão em (a) as probabilidades de cobertura dos intervalos HPD de 95% para T e em (b)
as amplitudes médias relativizadas destes intervalos para todos os 50 tempos, usando o
modelo proposto em (3.4) e as replicações ao longo do tempo do modelo (3.1). Chamamos
de “Crescimento”o modelo proposto em (3.4), “Estático”o modelo estático em (3.1) e “HT”o estimador de Horvitz-Thompson.
Note que apesar do ajuste independente fornecer uma probabilidade de cobertura
em média mais próxima do nı́vel desejado de 95% que a extensão proposta, temos
uma incerteza significativamente maior. Por outro lado, em (c) temos um gráfico de
dispersão com a raiz quadrada do erro quadratico médio relativo (REQMR) sob as
mesmas abordagens. Como todos os pontos encontram-se abaixo da reta, conclui-se que
a extensão proposta em (3.4) produz erros menores, logo em termos de estimação pontual
parece ser mais vantajoso. Finalmente, em (d) estão os diagramas boxplot com os REQMR
para todos os tempos sob as duas abordagens baseadas em modelos e adicionalmente
para o estimador de Horvitz-Thompson modificado. É possı́vel concluir que o ajuste
baseado em modelos de superpopulação produz erros menores que a abordagem usando
a aleatorização do plano amostral e que o modelo proposto é o mais eficiente neste caso,
já que usamos as observações coletadas até o tempo L na estimação dos parâmetros.
Portanto, conclui-se que a extensão em (3.4) proposta para populações dinâmicas é
vantajosa em relação ao estimador de Horvitz-Thompson e ao ajuste repetido ao longo
do tempo do modelo (3.1).
57
5
●
4
●
●
3
●
●
1
2
Amplitude média
6
0.95
0.90
0.85
0.80
Probabilidade de cobertura
●
Estático
Crescimento
●
●
●
Estático
(b)
●
●
●
●
2
3
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
●
●
●● ●●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
1
1.0
REQMR para T
4
1.5
●
0.5
REQMR para T (Crescimento)
(a)
Crescimento
0.5
1.0
1.5
H_T
Estático Crescimento
REQMR para T (Estático)
(c)
(d)
Figura 3.8: Comparação do modelo proposto de crescimento exponencial (3.4) com o
ajuste independente ao longo do tempo do modelo (3.1). Em (a) estão as probabilidades
de cobertura dos intervalos HPD de 95%, em (b) a amplitude média destes intervalos,
em (c) está a REQMR para cada abordagem utilizada e em (d) as REQMR para todos
os tempos incluindo na comparação o estimador de Horvitz-Thompson.
3.3
Conclusões
Neste capı́tulo foi apresentada a proposta de inferência baseada em modelos
introduzida por Rapley e Welsh (2008) para populações raras e agrupadas cujas amostras
são selecionadas de forma adaptativa por conglomerados. O modelo foi avaliado sob
58
diversos estudos simulados, variando o grau de esparsidade e agrupamento da população,
o tamanho da amostra selecionada e ainda quando na inferência o plano amostral
não é incorporado erroneamente na expressão da verossimilhança. O modelo teve um
bom desempenho em todos os casos, principalmente para valores de α e β que gerem
populações raras com um número mı́nimo de redes não vazias.
O modelo de Rapley e Welsh (2008) é construı́do em um nı́vel agregado da população,
o que produz algumas facilidades na inferência, no entanto, esta estrutura agregada induz
a algumas restrições nas hipóteses do modelo, como a homogeneidade entre grupos e a
hipótese de que o número de observações numa rede está relacionado diretamente com
seu tamanho.
É comum que as populações consideradas neste trabalho, além de terem um
comportamento raro e agrupado, apresentem uma constante mobilidade dentro de uma
região ao longo de um perı́odo de tempo. Visando a este problema, foi introduzida uma
extensão dinâmica do modelo agregado. O modelo se ajusta a amostras adaptativas
coletadas de forma independente ao longo do tempo e supõe uma dinâmica populacional
de crescimento e decrescimento ao longo do tempo. Na inferência sob o modelo de
crescimento é preciso observar as amostras ao longo de todos os tempos, ou de pelo
menos uma quantidade razoável destes, o que exige maior custo operacional. Por outro
lado, o modelo em (3.1) só permite o uso de amostras independentes ao longo do tempo
e previsão para cada tempo separadamente, isto porque o modelo escrito desta forma
agregada apenas nos fornece informações numéricas sobre as redes, portanto não seria
possı́vel incorporar a este modelo um planejamento amostral diferente, caso contrário
necessitarı́amos de informações adicionais, como a localização das unidades que foram
selecionadas. Por esta e outras razões, um modelo desagregado que informe as localizações
pode ser de interesse. No próximo capı́tulo será proposto um modelo que atenda a estas
necessidades.
59
Capı́tulo 4
Modelo de mistura para populações
raras e agrupadas sob amostragem
adaptativa
O modelo proposto por Rapley e Welsh (2008) usa as redes como unidades de análise,
de forma a não ter que introduzir componentes espaciais no modelo, o que pode vir a
facilitar a inferência.
Neste caso, a modelagem é feita supondo que em média a distribuição do total
das redes seja proporcional ao tamanho das redes. Isto equivale a tratar as unidades
populacionais como sendo homogêneas e que a intensidade do fenômeno em uma rede
depende do seu tamanho, ou seja, redes maiores apresentam em média sempre maior total.
No entanto, esta suposição nem sempre é válida. Por exemplo, é comum que a intensidade
de um fenômeno em uma unidade varie de acordo com a rede à qual ela pertence devido
à influência da vizinhança. Ou ainda, dentro de uma mesma rede é possı́vel que as
unidades de borda apresentem menor taxa de ocorrência do que as unidades no centro da
rede. Além disso, uma rede pode ter maior incidência do fenômeno em suas unidades não
somente por ser maior, mas por outros fatores externos que influenciem na sua disposição.
Mas o fato de agregar a informação para todas as unidades dentro de uma mesma
rede, além de não permitir previsão do total populacional em cada unidade da grade
regular, impossibilita a incorporação de estruturas mais complexas úteis na inserção das
60
suposições descritas acima. Ou ainda, num contexto de populações móveis, como visto
na Seção 3.2, o modelo não possibilita a inserção de um planejamento amostral que ao
longo do tempo use informações de tempos anteriores, pois o modelo não apresenta uma
variável de identificação das unidades i da rede j que pertencem à amostra, e sim uma
variável que agrega numericamente estas informações para cada rede. Por estas razões,
a proposta de um modelo desagregado pode ser interessante em muitos contextos com
populações raras e agrupadas.
Por outro lado, a modelagem de eventos raros usando distribuição de Poisson algumas
vezes revela uma significante sobredispersão, a qual pode ser diminuı́da usando modelos
mistos hierárquicos. Esta abordagem vem sendo usada em muitas aplicações, como por
exemplo na modelagem de doenças raras, em que o número de casos por área é pequeno,
como pode ser visto em Clayton e Bernardinelli (1992). Viallefont et al. (2002) sugerem
para a modelagem de eventos deste tipo um modelo de mistura Poisson, cujo número de
componentes de mistura é desconhecido.
O objetivo deste capı́tulo é propor um modelo de mistura desagregado que suponha
heterogeneidade entre unidades pertencentes a redes distintas e, portanto, o total em
cada rede não dependeria somente do tamanho desta. A proposta é que este modelo se
aplique a populações raras e agrupadas, que são amostradas usando o desenho adaptativo
por conglomerados, portanto a probabilidade de seleção deve ser incorporada à função
de verossimilhança dos parâmetros do modelo. Note que o fato de modelar cada unidade
da grade permite também construir um modelo com suposição de heterogeneidade entre
as células de uma mesma rede, o qual será nosso interesse futuro.
Na Seção 4.1 é definida a classe de modelos de mistura de distribuições de
probabilidades e uma forma de fazer inferência sob o enfoque Bayesiano para modelos
deste tipo. Na Seção 4.2 é apresentado o modelo proposto neste trabalho, discutindo
pontos como elicitação de distribuição a priori, inferência e convergência das cadeias
com as amostras da distribuição a posteriori do vetor paramétrico. Vários estudos
simulados são realizados com o objetivo de avaliar o desempenho do modelo sob diferentes
configurações da população. Finalmente, na Seção 4.4 o modelo proposto neste capı́tulo
é comparado ao modelo de Rapley e Welsh (2008), a partir de experimentos baseado em
61
modelos e no desenho amostral usando a população real de marrecos da asa azul, descrita
na Seção 3.1.3 do Capı́tulo 3. Daqui em diante, o modelo de Rapley e Welsh (2008) será
referido como “modelo agregado”.
4.1
Uma revisão sobre modelos de mistura de
distribuições
Modelos com mistura de distribuições são frequentemente utilizados para modelar
fenômenos cujas observações são provenientes de uma população composta por k
subpopulações, onde k pode ser conhecido ou desconhecido. Um modelo com mistura é
dado por uma soma ponderada de distribuições de probabilidades. Vejamos a definição
a seguir.
Definição 4.1.1 Qualquer combinação linear convexa
k
X
wj f (Y | φj ), com 0 < wj < 1 e
j=1
k
X
wj = 1,
(4.1)
j=1
das distribuições f (· | φj ) pertencentes a uma famı́lia de distribuições paramétricas
indexadas pelo vetor paramétrico φj , é denominada uma mistura de distribuições com
k componentes, tal que wj , j = 1, . . . , k são os pesos da mistura.
O modelo em (4.1) assume que temos uma população heterogênea, com k
subpopulações, de tamanhos proporcionais aos pesos wj , j = 1, . . . , k.
Em Marin et al. (2005) pode-se ver uma revisão desta modelagem e exemplos de
dados aos quais se aplica esta abordagem, como os dados de peso de militares recrutados
na França, que apresentam um comportamento bimodal de acordo com seu lugar de
origem. Assim, cada peso yi é proveniente a priori da densidade f1 ou f2 , em que f1 está
modelando os pesos dos homens das planı́cies e f2 os pesos dos homens das montanhas,
com probabilidades w1 e w2 = 1 − w1 . Note que a diferença fundamental entre uma
regressão simples usando o lugar de origem como covariável, para um modelo de mistura
deste tipo, é que as observações são coletadas indiscriminadamente para toda a população,
ou seja, não se conhece o lugar de origem de todos os militares, apenas supõe-se a priori
62
que a variável resposta (peso) é influenciada por fatores (origem) que podem ou não
ser conhecidos. Logo, a estrutura de mistura é cabı́vel neste caso devido à perda de
informação sobre a origem de cada homem.
A função de verossimilhança de um modelo de mistura com k componentes, para uma
amostra y = (y1 , . . . , yn )0 é dada por:
[y | w, φ] =
n X
k
Y
wj f (yi | φj ),
(4.2)
i=1 j=1
onde φ = (φ1 , . . . , φk )0 e w = (w1 , . . . , wk )0 . Esta função tem uma forma complexa
pois envolve uma expansão em k n termos, o que torna computacionalmente custoso o
desenvolvimento de estimadores de máxima verossimilhança, ou no contexto Bayesiano,
a obtenção da distribuição a posteriori do vetor paramétrico.
Como uma alternativa a este problema, a estrutura oculta é explorada para facilitar o
procedimento de estimação dos parâmetros. Utilizando o fato de que, para todo o vetor
aleatório Y, proveniente de um modelo com mistura de distribuições com k componentes,
é possı́vel associar uma variável latente Z, de dimensão n, que indica a componente da
qual a observação Yi é proveniente, isto é Zi = j, se a unidade i é proveniente da
componente j, i = 1, . . . , n, j = 1, . . . , k.
O vetor de dados observados em conjunto com as variáveis latentes produz mais
informação para o modelo e passa a ser chamado de dados aumentados. Segundo Tanner
(1993), o objetivo de aumentar os dados é simplificar a forma analı́tica da função de
verossimilhança, condicionando-os à variável latente. Condicional a Z = (Z1 , . . . , Zn )0 ,
a função de verossimilhança em (4.2) passa a ser escrita em termos de produtórios de
densidades simples, da forma:
[y | Z, w, φ] =
k
Y
Y
f (yi | φj ),
j=1 {i:Zi =j}
tal que Zi ’s são supostamente independentes, com função de probabilidade dada por
P (Zi = j) = wj ,
para j = 1, . . . , k e i = 1, . . . , n. Ao integrar sobre as variáveis latentes Z, retorna-se à
expressão em (4.1).
63
Finalmente, estimar o número de componentes de mistura é uma questão importante
e complexa. Ao atribuir um número menor que o necessário, o modelo não consegue
capturar a verdadeira estrutura dos dados. Por outro lado, se esse número for superior
ao ideal, o modelo torna-se menos parcimonioso e atribui massa de probabilidade
desnecessária em algumas regiões do espaço e, consequentemente, a densidade fica
subestimada e não identificável.
4.1.1
Inferência Bayesiana em modelos de mistura
Abordagens Bayesianas para inferência em modelos de mistura têm despertado grande
interesse entre pesquisadores. Além de permitir a inclusão de conhecimento a priori sobre
os parâmetros do modelo na análise, diminui a complexidade do modelo decompondo-o
em estruturas mais simples. Segundo Richardson e Green (1997) o paradigma Bayesiano
é o mais adequado ao contexto de misturas, principalmente quando o número de
componentes é desconhecido e deve ser estimado.
No contexto Bayesiano o modelo de mistura deve ser completado com uma distribuição
a priori para o vetor paramétrico Θ = (k, w, φ). Como pode ser visto em Richardson
e Green (1997), supondo independência a priori e que [φ | Z, w, k] = [φ | k] e [y |
φ, Z, w, k] = [y | φ, Z] a distribuição conjunta das variáveis do modelo é dada por:
[k, w, Z, φ, y] = [k][w | k][Z | w, k][φ | k][y | φ, Z].
Para completa flexibilidade, atribuem-se aos hiperparâmetros da distribuição a priori
também distribuições a priori independentes.
4.1.1.1
Identificabilidade do modelo
Uma caracterı́stica importante de um modelo de mistura é que este apresenta-se
invariante sob permutações dos ı́ndices dos seus componentes.
Isto implica que os
parâmetros φi não são marginalmente identificáveis, ou seja a partir da função de
verossimilhança não é possı́vel distinguir por exemplo φi de φj , para i 6= j. Nesta classe
de modelos, esta identificabilidade é tratada na realização da inferência Bayesiana.
64
Primeiramente, note que se (φ1 , . . . , φk )0 é máximo local, logo qualquer permutação
dentro deste vetor também o é, portanto existem “k!” modas. Além disso, se é utilizada
uma distribuição a priori para φ permutável, todas as condicionais completas são
idênticas para todas as componentes, então a distribuição a posteriori para φ se apresenta
multimodal o que dificulta a análise e interpretação dos resultados.
Considere por
exemplo, uma população constituı́da de duas distribuições Normais, inequivocamente
rotuladas. A distribuição a posteriori das duas médias irão se sobrepor, mas a extensão
desta sobreposição depende da separação entre elas e do tamanho da amostra. Quando as
médias são bem diferentes, o rótulo na distribuição a posteriori ao ordenar suas médias
geralmente coincidem com a rotulagem da população. Mas, se a diferença diminui, o
fenômeno conhecido como label switching tende a ocorrer.
Portanto, uma alternativa usada neste problema é a imposição de um único tipo
de rótulo para as componentes. Por exemplo, num caso de mistura de distribuições
normais, em que φj = (µj , σj2 ), tal que µj e σj2 são respectivamente a média e a variância
da distribuição para a componente j, pode-se identificar as componentes de acordo
com a ordem crescente da média. Desta forma, a distribuição a priori conjunta é “k!
multiplicado pela distribuição original com a restrição para identificabilidade imposta”.
Vale ressaltar que em alguns casos a melhor alternativa será impor tal restrição na média,
outras vezes na variância, outras ainda no peso, como pode ser visto em Richardson e
Green (1997).
4.1.1.2
Algoritmo MCMC para modelos de mistura supondo k desconhecido
Em geral, os métodos de MCMC são utilizados para amostrar da distribuição a
posteriori do vetor paramétrico. Os métodos de MCMC inicialmente eram utilizados
apenas para problemas em que a distribuição a posteriori tivesse uma densidade com
respeito a uma medida subjacente fixa e, portanto, não podiam ser utilizados em casos,
como na mistura de distribuições, em que o tamanho do espaço paramétrico é também
um parâmetro desconhecido. Alguns trabalhos na literatura surgiram propondo métodos
de MCMC para problemas de dimensão variante, entre elas a abordagem denominada
MCMC com saltos reversı́veis (do inglês, Reversible Jump Markov Chain Monte Carlo,
65
RJMCMC) ganhou destaque. Proposto em Green (1995), o algoritmo RJMCMC é como
um algoritmo de Metropolis-Hastings que permite a movimentação entre modelos que
possuem espaços paramétricos de diferentes dimensões.
Em particular, Richardson e Green (1997) desenvolveram uma metodologia Bayesiana
para estimação em modelos de mistura com número de componentes desconhecido usando
métodos de RJMCMC. O método é brevemente descrito a seguir.
Considere que temos os modelos M1 , . . . ,Mm , em que o modelo Mj , j = 1, . . . , m
é indexado pelo vetor paramétrico Θj pertencente ao espaço paramétrico Φj . Suponha
que a distribuição a priori para (Θj ,Mj ) é dada pelo produto entre [Θj |Mj ] e [Mj ].
Para este estado corrente, propõe-se um movimento do modelo Mj para o modelo Ml ,
tal que l = 1, . . . , m, j 6= l com probabilidade pl|j . Como os espaços paramétricos Θj e Θl
possuem dimensões diferentes, é preciso completar um dos espaços com espaços artificiais
adequados, para criar assim uma bijeção entre eles. Isto é feito, em geral, aumentando
o espaço paramétrico do modelo com menor dimensão. Ou seja, se dim(Θj ) < dim(Θl ),
gera-se um vetor aleatório u, independente de Θj , de uma distribuição q(u) de dimensão
igual à diferença dim(Θl ) − dim(Θj ) e obtém-se Θl usando uma transformação ϕ : j → l
definida por T (Θj , u) = Θl . Este movimento proposto é aceito com probabilidade igual
a min(1, A), tal que
[y | Θl , Ml ] [Θl | Ml ] [Ml ] pj|l ∂Θl A=
,
[y | Θj , Mj ] [Θj | Mj ] [Mj ] pl|j q(u) ∂(Θj , u) (4.3)
onde o último termo é o Jacobiano da transformação ϕ : j → l.
O movimento contrário, ou seja de Θl para Θj , supondo dim(Θj ) < dim(Θl ), é feito
usando a transformação inversa, logo o valor proposto para u é determinı́stico. Assim, o
movimento inverso é aceito com probabilidade min(1, A−1 ).
Em geral, as probabilidades pj|l são construı́das de forma que qualquer um dos
movimentos tenham a mesma probabilidade de serem propostos, a não ser que no passo
corrente o valor de k seja 1 ou kmax , em que kmax é o maior valor que k pode assumir a
priori. Se k = 1 não seria possı́vel excluir alguma componente e diminuir a dimensão do
66
espaço paramétrico, e se k = kmax não seria possı́vel incluir alguma. Nesses casos, então
só é possı́vel propor um dos dois movimentos.
Richardson e Green (1997) apresentam o método de inferência RJMCMC para um
modelo de mistura normal. Restritos a uma vizinhança de modelos Ml e Mp , tais que
dim(Θl ) = k + 1 e dim(Θp ) = k − 1, Richardson e Green (1997) utilizam o algoritmo
RJMCMC com os movimentos de “divisão”/ “combinação” e “inclusão”/ “exclusão”
para estimar o valor de k. A parte de “inclusão”/ “exclusão” é inicialmente usada no
método, com o objetivo de tratar de amostras finitas que não apresentem observações de
todos os grupos da população.
A proposta de “inclusão” consiste em adicionar uma nova componente j ∗ vazia na
mistura, com novos parâmetros (wj ∗ , φj ∗ ) gerados de distribuições propostas. Além disso,
os pesos devem ser reescalados para somar 1, fazendo wj0 = wj (1 − wj ∗ ), para todo j 0 .
A proposta de “exclusão” consiste em remover uma componente vazia da mistura e
reescalar os pesos para somar 1, fazendo wj0 =
wj
.
1−wj ∗
Estes passos são aceitos ou não
com probabilidade dadas respectivamente por min(1, A) e min(1, A−1 ), para A como
descrito em (4.3).
Para evitar problemas de alta taxa de rejeição da proposta “inclusão” sob distribuição
a priori não informativas, Richardson e Green (1997) propõem ainda o uso de movimentos
do tipo “divisão”/ “combinação” de componentes existentes.
No movimento de
“divisão”propõe-se a passagem de um modelo Mj de dimensão k para um modelo Ml
de dimensão k + 1 da seguinte forma: escolhe-se aleatoriamente uma componente de
mistura indexada por j ∗ e propõe-se a divisão desta única em um par (j1 , j2 ). Neste caso,
é necessário além de realocar as observações Yi tais que zi = j ∗ em zi = j1 e zi = j2 ,
definir os novos valores de (wj1 , wj2 , φj1 , φj2 )0 . Estas componentes devem ser adjacentes
em relação aos valores de φ, por conta da identificabilidade do modelo, como já discutido
anteriormente. Por outro lado, ao propor o movimento de Mj para Mp , precisa-se
diminuir a dimensão do espaço paramétrico correspondente em 1 unidade. De forma
análoga, isto é feito a partir da escolha aleatória de um par de componentes de mistura
indexados por (j1 , j2 ) e propondo a combinação deste par em uma única componente j ∗ .
Este movimento é chamado de “combinação”.
67
A probabilidade de aceitação das propostas “divisão” e “combinação” também são
dadas, respectivamente por min(1, A) e min(1, A−1 ), para A dado em (4.3).
A inferência prossegue usando MCMC para amostrar da distribuição a posteriori dos
parâmetros. Em Richardson e Green (1997) podem ser vistos maiores detalhes sobre esta
metodologia, incluindo a elicitação da distribuição a priori para o vetor paramétrico, a
eficiência dos passos do RJMCMC para modelos de mistura e uma aplicação a dados
reais.
Dentre os aspectos observados no uso do RJMCMC para estimação em modelos de
mistura normais, em Richardson e Green (1997) destaca-se o fenômeno conhecido como
label switching. Este comportamento pode ocorrer mesmo que a restrição no rótulo dos
parâmetros seja imposta na distribuição a priori e caracteriza-se pela invariância da
função de verossimilhança sob nova rotulagem das componentes da mistura, conduzindo
a uma distribuição a posteriori dos parâmetros sendo altamente simétrica e multimodal,
dificultando assim sua sumarização.
O modelo proposto neste trabalho é um modelo de mistura de distribuições de Poisson.
Na literatura, o trabalho de Viallefont et al. (2002) é um dos que usam esta classe de
modelos. No entanto, vale ressaltar que em todos os modelos citados supõe-se que o plano
amostral é não informativo e, portanto, a forma de seleção da amostra não contribui
para a função de verossimilhança do modelo. Com esse objetivo, na próxima seção
será proposto um modelo de superpopulação de mistura, aplicável a populações raras e
agrupadas, para dados coletados por amostragem adaptativa por conglomerados.
4.2
Modelo de mistura Poisson proposto
O modelo proposto a seguir pode ser aplicado a populações raras e agrupadas,
dispostas sobre uma grade regular, sob o enfoque Bayesiano. Tal modelo apresentase como uma alternativa mais flexı́vel ao modelo agregado, pois usa como unidade de
análise as próprias unidades da grade e supõe heterogeneidade entre as redes, e assim
também não necessariamente redes maiores devem ter mais observações, ou vice-versa.
Além disso, tratar a modelagem no nı́vel da unidade primária, permitiria incorporar
68
estruturas na média que supõem heterogeneidade para unidades dentro de uma mesma
rede. Por enquanto, o interesse está apenas no primeiro caso.
Diferentemente dos modelos de mistura anteriormente apresentados, como o de
Viallefont et al. (2002), o modelo proposto é ajustado a dados obtidos sob um plano
amostral informativo, logo deve-se incluir a probabilidade de seleção da amostra na função
de verossimilhança e, além disso, as interpretações das variáveis mudam com relação aos
problemas comuns de mistura. Em geral, o objetivo, ao ajustar um modelo de mistura,
é fazer inferência acerca de: k, φj , wj , para j = 1, . . . , k, no entanto, neste caso, como
se trata de um modelo de superpopulação, o vetor paramétrico do modelo é composto
também por partes das variáveis que não foram observadas e o principal objetivo é fazer
previsão. O modelo proposto é descrito a seguir.
Considere uma população rara com N unidades, das quais X apresentam uma
caracterı́stica de interesse, ou seja são unidades não-vazias e estão divididas em R redes
não-vazias. Logo, tem-se N − X redes vazias. Seja Yi a contagem deste determinado
fenômeno de interesse na unidade não-vazia i, i = 1, . . . , X, logo Yi ≥ 1. Como se tratam
de populações raras, ou seja, cujo número de unidades vazias é extremamente alto, assim
como Rapley e Welsh (2008), vamos modelar apenas as unidades não-vazias da grade.
Suponha que a rede j não-vazia é composta por Cj unidades primárias, j = 1, . . . , R. Para
facilitar o procedimento de inferência, é natural definir uma variável aleatória latente de
alocação i , supostamente independentes para todo i e tais que P (i = j) = wj = Cj /X,
j = 1, . . . , R. Dado o valor da variável i , as contagens Yi nas redes não-vazias seguem
uma distribuição de Poisson truncada em 0 independente, cuja média se altera de acordo
com a rede à qual pertence. O modelo, para j = 1, . . . , R, pode ser escrito da seguinte
forma:
69
Yi | i = j, λj , X ∼
Poisson Truncada independente(λj ), Yi ≥ 1,
(4.4a)
P (i = j) = wj = Cj /X,
(4.4b)
λ | θ ∼ [. | θ, R],
(4.4c)
R
X
1
Ci = X,
C | X, R ∼ 1R + Multinomial (X − R, 1R ),
R
i=1
(4.4d)
R | X, β ∼
Binomial Truncada (X, β), R = 1, . . . , X,
(4.4e)
X|α ∼
Binomial Truncada (N, α), X = 1, . . . , N,
(4.4f)
em que [. | θ, R] representa a distribuição a priori de λ = (λ1 , . . . , λR )0 , a qual
depende do número de grupos R e de um vetor de hiperparâmetros θ. Lembrando que
esta distribuição deve satisfazer alguma restrição no ı́ndice, devido à identificabilidade
do modelo. Além disso, os parâmetros α, β e θ podem ser desconhecidos e, portanto,
são atribuı́das distribuições a priori independentes a estes também. Denote por [.] cada
uma destas distribuições.
Este modelo, somente aplicável às X unidades não-vazias de uma população,
apresenta a estrutura de uma mistura de probabilidades, cujas componentes são as R
redes não-vazias, supostamente heterogêneas, e seus pesos são proporcionais ao número de
unidades nas redes, Cj , j = 1, . . . , R. No entanto, o fato do modelo proposto ser ajustado
a dados provenientes de amostragem adaptativa por conglomerados cria uma grande
diferença nas variáveis entre um modelo de mistura comum e este modelo proposto. Num
modelo de mistura, a amostra selecionada somente traz informações acerca da variável
Y ; por exemplo, não é possı́vel saber a qual grupo a unidade i observada pertence, pois
isto é uma divisão artificial. No entanto, neste modelo, a amostragem por conglomerados
adaptativos traz informações acerca de todas as variáveis. Ao coletar-se uma amostra
adaptativa, além de observar a variável Y para as unidades amostradas, sabe-se as redes
às quais elas pertencem e o tamanho desta rede, pois de acordo com este plano amostral
se uma unidade não-vazia é selecionada aleatoriamente, toda a rede é observada.
Dessa forma, é adequado dividir as variáveis indicando pelo ı́ndice s a parte observada
e por s̄ a parte não observada. Sejam então X = Xs + Xs̄ , R = Rs + Rs̄ , = (0s , 0s̄ )0 ,
70
C = (C0s , C0s̄ )0 , Y = (Ys0 , Ys̄0 )0 . Neste caso, o objetivo está em não somente estimar os
parâmetros do modelo com base numa amostra, mas também fazer previsão das partes
X
X
não-observadas. O objetivo final é prever o total populacional T =
Yi .
i=1
Finalmente, como o modelo aplica-se a dados coletados de forma adaptativa e este
planejamento amostral é não-ignorável, a probabilidade de seleção deve ser acrescentada
à função de verossimilhança completa, de forma a trazer mais informações ao processo
de estimação dos parâmetros. Como no modelo (3.1), a probabilidade de seleção de uma
particular amostra s = {i1 , . . . , im }, composta por m redes, é dada por:
[s | X, R, C] =
m
Y
l=1
Zi × gil ,l
,
PN −X+R l
P
Zi − j−1
i=1
k=0 Zik
(4.5)
onde gil ,l é o número de redes de tamanho Zil que restam após a seleção de j − 1 redes e
Zi0 = 0. O vetor Z é construı́do de forma a ter os tamanhos de todas as redes vazias e
não-vazias, ou seja Z = (C0 , 10X−R )0 .
A função de verossimilhança completa é dada por:
[s, X, R, , C, Y | λ, α, β] = [s | X, R, C][Y | , λ, X][ | C, R, X]
× [C | R, X][R | X, β][X | α]
=
m
Y
l=1
RY
s +Rs̄
Y
λYj i exp(−λj )
zil × gil ,l
×
Pj−1
PN −X+R
Y ![1 − exp(−λj )]
Zik
zi − k=0
i=1
j=1 {i:i =j} i
Cj −1
RY
RY
s +Rs̄
s +Rs̄
1
1
1
Cj
×
C × (Xs + Xs̄ − Rs − Rs̄ )!
(Xs + Xs̄ )Xs +Xs̄ j=1 j
(Cj − 1)! Rs + Rs̄
j=1




Xs +Xs̄
Rs +Rs̄
Xs + Xs̄
N
(1 − β)Xs +Xs̄ −Rs −Rs̄ 
(1 − α)N −Xs −Xs̄
β
α
.
×
×
1 − (1 − β)Xs +Xs̄
1 − (1 − α)N
Rs + Rs̄
Xs + Xs̄
A função de verossimilhança marginal é obtida da seguinte forma:
[Xs , Rs , s , Cs , Ys | λ, α, β] =
X
[s, X, R, , C, Y | λ, α, β]
{Ys̄ ,Cs̄ ,s̄ ,Rs̄ ,Xs̄ }
=
X
{Ys̄ ,Cs̄ ,s̄ ,Rs̄ ,Xs̄ }
71
[s, X, R, C | α, β][Y | , λ, X].
4.2.1
Distribuição a priori para λ
Segundo Richardson e Green (1997) usar distribuição a priori completamente não
informativa e gerar distribuição a posteriori própria não é possı́vel em modelos de mistura.
Como existem componentes da mistura que não apresentam observações na amostra,
distribuições a priori independentes impróprias e não informativas não podem ser usadas.
A alternativa neste caso é manter-se com a estrutura de independência a priori usando
distribuições pouco informativas, as quais podem ou não depender dos dados observados,
o que pode ser feito, por exemplo, inserindo estruturas a priori para os hiperparâmetros.
Por outro lado, existe uma relação direta entre a distribuição a priori de λ e a
distribuição a posteriori de R. Uma sugestão neste caso é considerar distribuições a
priori dependentes para λ, de forma a modelar a distância entre λj s consecutivos. Esta
distribuição a priori foi introduzida por Roeder e Wasserman (1997) para misturas de
normais e é muito utilizada quando deseja-se ser não informativo.
Note que, neste caso, o vetor λ pode ser definido como λ = (λ0s , λ0s̄ )0 , em que λs
refere-se à parte associada às redes observadas na amostra, para o qual espera-se obter
melhores resultados, e λs̄ refere-se à parte associada às variáveis não observadas. A fim
de garantir a identificabilidade, será imposta sobre a distribuição a priori de λ alguma
restrição sobre o ı́ndice dos parâmetros. Mas esta restrição é necessária apenas aos
elementos de λ que estão associadas às redes não amostradas, ou seja à λs̄ .
Com base nestas ideias serão utilizados dois tipos de distribuições a priori para o
parâmetro λ em (4.4c), as quais estão descritas a seguir.
4.2.1.1
Distribuição a priori independente
Primeiramente, será considerada a independência entre os λj ’s, tal que a distribuição
conjunta de λ é dada por:
[λ | θ, R] = Rs̄ ![λ1 | θ] . . . [λR | θ], tal que λj < λj+1 , para todo j ∈ [Rs + 1, Rs + Rs̄ ).
Em particular, será considerado, que
λj ∼ Gama(d, ν), j = 1, . . . , R, para θ = (d, ν)
72
e introduz-se um nı́vel hierárquico adicional assumindo que ν ∼ Gama(e, f ).
Gelman (2006) apresenta formas de elicitar a priori esta distribuição Gama. Uma
forma usual de ser não informativo é escolher valores pequenos para seus dois parâmetros,
como 0.01.
No entanto, deve-se evitar distribuições que tenham altas massas de
probabilidade no zero, o que pode incluir componentes com médias pequenas, tornando
difı́cil estimar o modelo de mistura.
Viallefont et al. (2002) relatam uma sensibilidade da distribuição a posteriori de
outros parâmetros do modelo de mistura Poisson de acordo com a escolha dos parâmetros
da Gama. Foi usada então uma distribuição a priori pouco informativa descrita em
Viallefont et al. (2002). Para d escolhe-se um valor maior que 1, por exemplo 1.1, pois
isso permite evitar a forma exponencial da distribuição sem reduzir muito o coeficiente
de variação (CV). Para o parâmetro ν escolhe-se e e f a priori tal que a aproximação
a média de λj , d/(e/f ) seja igual ao ponto médio das observações com variância e/f 2
controlada.
4.2.1.2
Distribuição a priori dependente
Esta distribuição leva em conta a informação da distância entre dois parâmetros da
Poisson para duas componentes que são consecutivas em termos dos valores de λj . Neste
caso o hiperparâmetro θ em (4.4c) é igual a uma constante positiva τ e a distribuição a
priori conjunta para λ é dada por:
[λ | τ 2 , R] = [λR | λR−1 , τ 2 ][λR−1 | λR−2 , τ 2 ] . . . [λ1 ],
onde [λj | λj−1 , τ 2 ] é N(λj−1 ,∞) (λj−1 , τ 2 ), que denota a densidade de uma Normal centrada
em λj−1 com variância τ 2 , truncada para ser maior que λj−1 e [λ1 ] ∝ 1, o que garante a
identificabilidade do modelo. Esta distribuição indica baixa probabilidade a priori que
duas redes vizinhas sejam mais distantes que τ desvio padrões.
Segundo Viallefont et al. (2002) uma vantagem deste modelo é que o hiperparâmetro
τ 2 , o qual controla a distância entre as médias de duas componentes e sua variabilidade,
é explı́cito, e controla o número de grupos. Eles discutem as dificuldades de elicitar τ 2 e
a influência deste hiperparâmetro na distribuição a posteriori do vetor paramétrico, em
73
especial na de R. Por exemplo, se τ 2 é pequeno quando comparado à verdadeira distância
entre dois λj s consecutivos, há uma tendência em ajustar componentes intermediários
entre os verdadeiros e assim obter uma distribuição a posteriori favorecendo valores
mais altos para R. Baseado num estudo de simulação, Roeder e Wasserman (1997)
recomendam assumir τ = 5, pois esta escolha resulta em resultados razoáveis.
O modelo proposto (4.4) é um modelo de superpopulação e seu ajuste depende
da estimação de parâmetros e previsão de quantidades populacionais que não foram
observadas na amostra. Além disso, tal modelo aplica-se a cenários com populações
que podem ser extremamente raras e agrupadas. Logo, para um tamanho de amostra
relativamente pequeno, podem ser selecionadas amostras com poucas unidades nãovazias e pouco representativas, o que deve produzir estimativas inadequadas para o total
populacional. Para estes casos, recomenda-se elicitar distribuições a priori informativas.
4.2.2
Inferência para o modelo
Como o modelo é descrito por um vetor paramétrico Θ = (Xs̄ , Rs̄ , s̄ , Cs̄ , Ys̄ , α, β, λ)
de dimensão desconhecida, o algoritmo RJMCMC será também utilizado neste caso,
como apresentado na Seção 4.1.1.2 para modelos normais. Basicamente o procedimento
de estimação consiste dos seguintes passos:
(1) atualização de α, β, θ e λ;
(2) atualização das variáveis não observadas Xs̄ e Ys̄ ;
(3) atualização da alocação s̄ e diretamente Cs̄ é atualizado;
(4) proposta de “divisão” de uma rede em duas ou “combinação” de duas redes em
uma.
As distribuições condicionais completas podem ser vistas no Apêndice B. Será descrito
a seguir com detalhes o passo (4).
De forma análoga ao procedimento de inferência descrito em Viallefont et al. (2002),
serão utilizados os momentos de ordem zero e primeira ordem na proposta de “divisão”
de uma componente da mistura j ∗ em duas novas j1 e j2 , mas como a distribuição da
74
variável Yi , i = 1, . . . , X é Poisson Truncada, diferentemente de Viallefont et al. (2002),
o momento de primeira ordem não é λj , j = 1, . . . , R, e sim λ0j = λj /{1 − exp(−λj )}.
Logo, os parâmetros propostos satisfazem as seguintes equações:
wj ∗ = wj1 + wj2 ,
wj ∗ λ0j ∗ = wj1 λ0j1 + wj2 λ0j2 ,
tal que λ0j−1 < λ0j1 < λ0j2 < λ0j+1 , devido a questões de identificabilidade do modelo.
Mas, para valores de λj razoavelmente grandes, λj e λ0j se aproximam, como podemos
ver na Figura 4.1, logo nestes casos as equações acima podem ser escritas em função
dos λj ’s.
Por outro lado, para os casos em que esta aproximação não é válida, a
solução é estimar λ0j , e quando necessário expressar λj em função de λ0j , como na
função de verossimilhança, uma aproximação numérica faz-se útil como, por exemplo,
a aproximação de Taylor. Isto porque esta função, apesar de ser inversı́vel, envolve um
polinômio com uma exponencial, para a qual, em geral, é impossı́vel obter uma solução
analı́tica exata. Neste trabalho, utilizamos a aproximação pela própria função identidade
7
em todos os exemplos, pois são estudados casos em que λj é razoavelmente grande.
λ
6
λ
0
1
2
3
4
5
1 − exp(− λ)
0
1
2
3
4
5
6
7
λ
Figura 4.1: Comparação das médias da distribuição de Poisson e Poisson truncada no
zero.
Para determinar os parâmetros associados a estas novas componentes, basta resolver
o sistema de equações anterior. Mas, como tem-se um sistema com 4 incógnitas e 2
equações, para resolvê-lo é preciso completá-lo gerando um vetor aleatório u = (u1 , u2 ).
Viallefont et al. (2002) consideram 3 formas diferentes de fazer isso, as quais baseiam-se
75
em diferentes intuições de como induzir a positividade dos parâmetros da Poisson. Neste
trabalho, será utilizada apenas uma destas, a qual baseia-se em adição de vizinhos de λj ∗
dependentes e está descrita a seguir.
São geradas duas variáveis auxiliares u1 ∼ U(0, 1) e u2 ∼ U(0, 1) e então define-se as
seguintes transformações determinı́sticas:
wj2 = wj ∗ (1 − u1 ),
w j1 = w j ∗ u 1 ,
λj1 = λj ∗ − ρu2 (1 − u1 ), λj2 = λj ∗ + ρu2 u1 ,
onde



min{(λj ∗ − λj ∗ −1 )/(1 − u1 ), (λj ∗ +1 − λj ∗ )/u1 },




 min{λ /(1 − u ), (λ − λ )/u },
1
1
2
1
1
ρ=


(λj ∗ − λj ∗ −1 )/(1 − u1 ),




 λ /(1 − u ),
1
1
1 < j ∗ < Rs̄ ,
1 = j ∗ < Rs̄ ,
1 < j ∗ = Rs̄ ,
1 = j ∗ = Rs̄ .
No Apêndice B é apresentada a expressão da probabilidade de aceitação do movimento
descrito.
4.2.2.1
Diagnóstico de convergência
Para verificar que a convergência é atingida no ajuste do modelo serão apresentados
histogramas com a distribuição a posteriori dos parâmetros e medidas que avaliam a
convergência propostas por Geweke (1992) e Raftery e Lewis (1992). A primeira medida
baseia-se em um teste de igualdade das médias da primeira e última partes da cadeia de
Markov. Se as amostras são resultantes de uma distribuição estacionária, as duas médias
devem ser iguais e a estatı́stica de teste tem assintoticamente uma distribuição Normal
padrão. A outra medida verifica a independência entre os valores gerados para a cadeia
baseado num fator de dependência, se este for maior que 5 pode-se dizer que existe forte
autocorrelação entre os valores da cadeia.
A fim de examinar o desempenho do modelo em (4.4), foram analisadas amostras da
distribuição a posteriori dos parâmetros. Para isso, gerou-se uma população artificial em
uma grade regular de tamanho N = 400 para α = 0.15 e β = 0.1 fixados. Os valores
76
de λ foram gerados aleatoriamente de uma distribuição Gama centrada em 8.5 com CV
√
fixado em 95%. Como o CV de uma distribuição Gama(d,ν) é dado por 1/ d, sob
estas condições tem-se d = 1.1 e ν = 0.13. Foi selecionada uma amostra adaptativa por
conglomerados com tamanho inicial 5%N e, em particular, a população gerada apresenta
R = 8 redes e as redes observadas na amostra são s = {2, 4, 7}, de acordo com a ordem
crescente de λ.
Assumindo que os parâmetros α, β e λ são independentes a priori considerouse a priori que α ∼ Beta(3, 15) e β ∼ Beta(1, 9).
Estas distribuições, apesar de
informativas, neste caso estão trazendo o mı́nimo de informação necessária para aplicação
deste modelo complexo, ou seja que a população é rara e agrupada. Isto porque, como
visto no Capı́tulo 3, α e β são parâmetros relacionados ao número de células não-vazias
e redes não-vazias. Para λ foram consideradas as duas distribuições a priori citadas
na Seção 4.2.1, i.e. : (i) λj | ν ∼ Gama(d, ν), para j = 1, . . . , R, independentes; (ii)
λj | λj−1 ∼ N(λj−1 ,∞) (λj−1 , τ 2 ), para j = 1, . . . , R. Para a segunda distribuição de λ
assumiu-se τ = 5, que é uma das sugestões de Roeder e Wasserman (1997).
Para a obtenção de amostras da distribuição a posteriori do vetor paramétrico
Θ = (Xs̄ , Rs̄ , s̄ , Cs̄ , Ys̄ , α, β, λ, ν) é necessário o uso de métodos de simulação estocástica,
em particular como a dimensão de Θ é também um parâmetro, utiliza-se o método
de RJMCMC, como descrito na Seção 4.2.2, com passos de Metropolis-Hastings e
Amostrador de Gibbs. Foram geradas 200.000 amostras, sendo as 10.000 primeiras
descartadas como aquecimento e amostras de 190 em 190 foram tomadas, a fim de obterse 1.000 amostras independentes resultantes.
A Tabela 4.1 apresenta o valor da estatı́stica de teste de Geweke e do fator de
dependência do critério de Raftery-Lewis. Todos os resultados mostram a convergência
das cadeias e a ausência de forte autocorrelação.
Nas Figuras 4.2 e 4.3 estão os histogramas com as densidades a posteriori para
os parâmetros α, β, ν, λ e o total populacional T , supondo distribuição a priori
para λ independente e dependente, respetivamente.
O respectivo valor verdadeiro
está representado pela linha cheia e intervalo HPD de 95% pela linha pontilhada. A
77
Tabela 4.1: Análise da convergência das cadeias a posteriori dos parâmetros do modelo
proposto supondo distribuição a priori independente e dependente para λ para uma
população artificial.
α
β
ν
T
λ1
λ2
λ3
λ4
λ5
λ6
λ7
λ8
indep.
0.7
-0.4
-1.6
0.4
1.4
-1.3
1.4
-0.4
1.5
1.5
1.2
1.5
dep.
-1.1
0.4
-
-0.8
-0.3
-1.0
1.2
1.0
0.6
-0.4
-1.0
1.2
indep.
1.3
1.1
1.1
1.8
0.9
1.0
1.0
1.0
0.9
1.0
1.1
1.1
dep.
2.5
1.1
-
3.2
0.9
1.0
1.0
1.1
1.0
0.9
1.4
1.0
Geweke
R-L
distribuição a posteriori de λj para j ∈ s̄ apresentada é condicional às amostras em que
R é estimado como o valor verdadeiro.
Note que a maioria dos parâmetros são bem estimados sob as duas distribuições a
priori, com maior densidade a posteriori em torno do valor verdadeiro e o mesmo contido
no intervalo HPD de 95%. O parâmetro populacional β apresenta um pequeno viés,
mas em todos os casos ainda contido no intervalo HPD de 95%. Alguns λj ’s para j ∈ s̄
apresentam um comportamento bimodal e baixa precisão, um comportamento que pode
ser esperado em modelos de mistura. Neste caso esta bimodalidade não influenciou na
convergência dos outros parâmetros e principalmente do total T , portanto não afetou o
desempenho do modelo.
Por outro lado, λj ’s para j ∈ s apresentam estimativas melhores, o que também era
esperado já que existem informações adicionais com respeito às redes amostradas.
78
0.3
4
5
6
7
8
200
5
10
15
20
800
0.4
0.2
Densidade
5
10
15
20
25
4
5
6
7
8
9 10
λ4
Densidade
0.00
8
λ6
600
0.0
0
Densidade
0
400
T
0.0 0.1 0.2 0.3
0.20
0.10
Densidade
40
0.4
λ3
0.00
30
λ5
0.3
0.10
Densidade
3
0.002
Densidade
0.2
0.00
2
λ2
0.12
20
0.1
ν
0.4
20
0.06
10
0.000
0.0
0.0
15
0.00
0
4
0.4
0.2
Densidade
0.20
Densidade
0.10
10
λ1
Densidade
0.2
0.10
0.1
β
0.00
5
2
Densidade
0
0.0
α
0
6
8
6
4
0
2
Densidade
12
8
4
Densidade
0
0.05 0.10 0.15 0.20
9
11
λ7
13
0
5
10
15
20
25
λ8
Figura 4.2: Densidade a posteriori para alguns parâmetros do modelo proposto e para o
total populacional T com base em um dado artificial supondo distribuição a priori para
λ independente. A linha vertical cheia representa o valor verdadeiro e a linha pontilhada
o intervalo HPD de 95%.
79
0.25
0.0
0.2
0.6
5
10
15
0.20
0.10
15
4
6
8
15
10
14
5
10
Densidade
15
20
λ5
λ4
0.00
0.00
10
λ6
0.10
Densidade
20
0.30
Densidade
0.20
0.10
0.00
Densidade
10
λ1
0.20
0
5
5
0.00
Densidade
12
λ3
0
0
0.20
10
800
0.10
8
λ2
0.15
6
600
0.0 0.1 0.2 0.3
0.20
0.00
4
400
T
0.10
Densidade
0.30
0.15
0.00
2
Densidade
200
β
α
Densidade
0.4
0.00
0.000
0
0.15
0.002
Densidade
3
2
1
Densidade
4
12
Densidade
0 2 4 6 8
0.05
8
10
12
λ7
14
16
0
5
10
15
20
λ8
Figura 4.3: Densidade a posteriori para alguns parâmetros do modelo proposto e para o
total populacional T com base em um dado artificial supondo distribuição a priori para
λ dependente. A linha vertical cheia representa o valor verdadeiro e a linha pontilhada
o intervalo HPD de 95%.
4.3
Estudo simulado
Para examinar o desempenho da metodologia proposta e a influência da distribuição a
priori nos resultados, foram feitos alguns estudos de simulação sob repetidas populações.
O objetivo é verificar o desempenho do modelo para diferentes cenários que possam
existir.
80
4.3.1
Considerando diferentes configurações
Foram geradas 500 populações considerando diferentes configurações para alguns
parâmetros variando os valores de N , R e X, assim como o nı́vel de homogeneidade/
heterogeneidade da população. Primeiramente, N foi fixado em 200, 400 e 600, e para
cada um destes valores, os valores de α e β foram fixados, com o objetivo de criar
diferentes populações raras e agrupadas e variar R e X na simulação. Em particular,
as populações foram simuladas para 4 pares de (α, β) com α, β ∈ {0.1, 0.15}. Portanto
neste estudo são apresentados resultados para 12 diferentes configurações. Neste caso,
foi considerada para λ apenas a distribuição a priori independente, portanto, para cada
população λ foi gerado a partir de uma distribuição Gama com d = 1.1 e ν = 0.13, o
que produz um CV igual a 95%. Desta maneira, estes valores fixados permitem gerar
populações raras e agrupadas com redes heterogêneas entre si. Finalmente, uma amostra
adaptativa foi selecionada de cada população, com primeiro estágio caracterizado por
uma amostra aleatória simples sem reposição de tamanho 5%N .
As Tabelas 4.2, 4.3 e 4.4 mostram um sumário com algumas propriedades frequentistas
da distribuição a posteriori dos parâmetros do modelo proposto após a convergência,
para cada configuração testada. São apresentados o EQMR, o EAR, a probabilidade de
cobertura (em porcentagem) dos intervalos HPD de 95%, com sua respectiva amplitude
média ao longo das 500 simulações. Em particular, as amplitudes dos intervalos para
T e para λs e λs̄ estão relativizadas com relação ao valor verdadeiro. Os resultados
para λj ’s estão sumarizados em relação a λs e λs̄ , pois na simulação o valor de R não
foi fixado, R foi gerado de sua distribuição, condicional ao valor de β, portanto para
cada população foi simulado um valor de R distinto, o que impede a apresentação de
propriedades frequentistas para cada λj separadamente.
No geral, é possı́vel observar que os parâmetros são bem estimados. A cobertura
dos intervalos de 95% é próxima do nı́vel nominal desejado. O EQMR e o EAR são
pequenos para a maior parte dos parâmetros, exceto para β em alguns casos especı́ficos.
Entretanto, este fato não tem um impacto significante na previsão de T , o qual é o maior
81
interesse deste trabalho. Como esperado, os resultados para λj , para j ∈ s mostram
erros menores e maior precisão do que para para j ∈ s̄.
À medida que o valor de N cresce, o EQMR e o EAR da maioria dos parâmetros
diminui. Isto ocorre porque nestes casos existe um maior número de redes não-vazias
do que para um valor menor de N , melhorando assim as estimativas de α e β, e
consequentemente de outros parâmetros. Uma sugestão de melhoria nestes casos é o
aumento do tamanho da amostra. Por outro lado, pela mesma razão, para um valor fixo
de N , os erros diminuem para valores maiores de α e β.
Tabela 4.2: Sumário a posteriori da estimação pontual e intervalar dos parâmetros do
modelo proposto e de T sob as 500 simulações, para diferentes valores de α, β e N = 200.
(α, β) = (0.10, 0.10)
(α, β) = (0.10, 0.15)
T
α
β
ν
λs
λs̄
T
α
β
ν
λs
λs̄
EQMR
0.21
0.38
0.53
0.56
0.03
0.29
0.22
0.29
0.29
0.39
0.03
0.28
RAE
0.35
0.17
0.25
0.60
0.12
0.46
0.36
0.16
0.35
0.47
0.13
0.45
Cob.
95.0
91.1
96.7
89.5
91.7
87.8
93.8
93.7
98.1
89.7
90.3
87.7
Ampl.
1.60
0.20
0.31
0.28
0.58
1.23
1.60
0.19
0.31
0.28
0.57
1.26
(α, β) = (0.15, 0.1)
(α, β) = (0.15, 0.15)
EQMR
0.09
0.20
0.50
0.22
0.02
0.31
0.06
0.10
0.19
0.32
0.02
0.27
RAE
0.24
0.31
0.45
0.40
0.11
0.46
0.21
0.27
0.21
0.47
0.10
0.41
Cob.
94.6
90.9
97.1
90.2
93.6
89.1
97.3
97.0
98.5
90.5
94.1
89.8
Ampl.
1.22
0.19
0.21
0.22
0.50
1.33
1.24
0.20
0.23
0.21
0.56
1.51
82
Tabela 4.3: Sumário a posteriori da estimação pontual e intervalar dos parâmetros do
modelo proposto e de T sob as 500 simulações, para diferentes valores de α, β e N = 400.
(α, β) = (0.10, 0.10)
(α, β) = (0.10, 0.15)
T
α
β
ν
λs
λs̄
T
α
β
ν
λs
λs̄
EQMR
0.06
0.15
0.42
0.14
0.02
0.29
0.05
0.08
0.15
0.10
0.02
0.31
RAE
0.21
0.32
0.35
0.28
0.10
0.43
0.20
0.23
0.29
0.21
0.12
0.43
Cob.
96.7
91.1
96.0
90.8
94.2
91.0
96.8
95.1
98.1
90.5
94.3
91.8
Ampl.
1.04
0.09
0.20
0.19
0.47
1.38
1.05
0.10
0.21
0.18
0.55
1.64
(α, β) = (0.15, 0.1)
(α, β) = (0.15, 0.15)
EQMR
0.04
0.06
0.35
0.04
0.02
0.30
0.05
0.03
0.15
0.03
0.02
0.36
RAE
0.18
0.18
0.39
0.18
0.09
0.42
0.20
0.15
0.21
0.15
0.10
0.43
Cob.
93.4
91.2
96.9
96.7
94.2
93.9
92.4
97.0
98.7
96.5
93.5
95.6
Ampl.
0.79
0.11
0.15
0.14
0.45
1.43
0.77
0.11
0.16
0.13
0.51
1.77
83
Tabela 4.4: Sumário a posteriori da estimação pontual e intervalar dos parâmetros do
modelo proposto e de T sob as 500 simulações, para diferentes valores de α, β e N = 600.
(α, β) = (0.10, 0.10)
(α, β) = (0.10, 0.15)
T
α
β
ν
λs
λs̄
T
α
β
ν
λs
λs̄
EQMR
0.04
0.05
0.25
0.10
0.02
0.32
0.05
0.03
0.11
0.09
0.02
0.35
RAE
0.17
0.17
0.28
0.12
0.09
0.42
0.20
0.14
0.26
0.11
0.11
0.42
Cob.
96.3
91.8
98.1
98.0
93.5
93.1
92.8
97.5
98.3
97.0
93.8
96.1
Ampl.
0.79
0.08
0.22
0.20
0.46
1.40
0.78
0.08
0.23
0.19
0.52
1.70
(α, β) = (0.15, 0.10)
(α, β) = (0.15, 0.15)
EQMR
0.05
0.04
0.21
0.06
0.01
0.37
0.09
0.08
0.06
0.05
0.02
0.35
RAE
0.19
0.17
0.30
0.09
0.09
0.44
0.29
0.24
0.18
0.09
0.10
0.43
Cob.
90.4
91.1
98.7
98.9
95.3
96.0
90.0
90.5
98.8
98.4
95.5
96.8
Ampl.
0.78
0.08
0.17
0.18
0.43
1.49
0.53
0.08
0.20
0.17
0.53
1.79
Como mencionado acima, não foi possı́vel apresentar os resultados para cada λj pois
o valor de R não foi fixado para as simulações e portanto a dimensão de λ varia em
cada simulação. Portanto na Figura 4.4 é apresentado um diagrama boxplot com o erro
relativo (ER) para λs e λs̄ para todas as redes e todas as populações, para diferentes
valores de α e β e para N = 400. Note que em todos os casos o ER está em torno de
zero e o ER para λs é menor que para λs̄ , como esperado. Além disso λs̄ é ligeiramente
subestimado com respeito à mediana da distribuição a posteriori.
4.3.2
Considerando diferentes nı́veis de heterogeneidade
As 500 populações usadas neste estudo de simulação foram geradas para alguns valores
dos parâmetros fixados, em particular foi assumido que λj segue uma distribuição Gama
com hiperparâmeros d = 1.1 e ν = 0.13. Como mencionado acima, com esses valores, esta
distribuição Gama tem um CV de aproximadamente 95%, o que geraria populações com
redes heterogêneas, com respeito à média do número de observações dentro das unidades
que as compõem. A partir de agora o interesse é avaliar o desempenho do modelo proposto
com respeito ao nı́vel de homogeneidade e heterogeneidade da população. Para realizar
84
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
ER
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
(α,β)=(0.1,0.1)
(α,β)=(0.1,0.15)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1
●
●
●
●
●
●
●
●
●
●
●
2
●
●
●
●
●
−0.4
0
ER
0.0 0.2 0.4 0.6
●
●
●
●
●
●
●
●
●
(α,β)=(0.1,0.1)
(α,β)=(0.1,0.15)
●
●
●
●
●
●
●
●
●
●
●
●
●
(α,β)=(0.15,0.1) (α,β)=(0.15,0.15)
(a) RE - λs
(α,β)=(0.15,0.1) (α,β)=(0.15,0.15)
(b) RE - λs̄
Figura 4.4: Erro relativo para λs e λs̄ ao longo de 500 simulações, para N = 400 e
diferentes configurações de α e β.
esta análise geramos outros dois cenários fixando o CV da distribuição Gama de λ em
50% e 25% com média fixada em 8.5. Ao fixar o valor do CV em 50% obtém-se d = 4 e
ν = 0.47 e para CV igual a 25%, d = 16 e ν = 1.89.
A Figura 4.5 apresenta as curvas das distribuições de λj para cada um dos valores de
CV fixado nesta análise. Note que à medida que o CV diminui a distribuição a priori
para λj se torna simétrica e mais concentrada em torno da média da distribuição, e
portanto as redes se tornam mais homogêneas com respeito ao total de observações em
0.10
CV=95%
CV=50%
CV=25%
0.00
Densidade
0.20
cada unidade.
0
5
10
20
30
λj
Figura 4.5: Distribuição a priori para λj usada nas simulações variando o valor do CV
da distribuição.
85
Desta forma, a análise apresentada a seguir é feita a partir de outras 500 populações
geradas fixando o CV da distribuição de λj em 50% e outras 500 com CV fixado em 25%.
Em particular, esta simulação foi feita apenas para o valor de N = 400 pois o interesse
neste era apenas verificar o desempenho do modelo variando o nı́vel de homogeneidade.
Além disso, de acordo com a Tabela 4.3 já foi visto que este valor para N apresentou
resultados razoáveis segundo as propriedades frequentistas analisadas.
Na Tabela 4.5 é apresentado novamente um sumário com algumas propriedades
frequentistas dos estimadores obtidos a partir da distribuição a posteriori para as 500
populações geradas com CV da distribuição de λj fixada em 50% e 25%. Note que ainda
para casos mais homogêneos o modelo proposto em (4.4) tem um bom desempenho,
resultando em estimadores para todos os parâmetros com pequenos EQMR e EAR
e intervalos HPD de 95% com probabilidade de cobertura próxima do nı́vel nominal
desejado.
Em particular, observe que os EQMR e EAR para T são muito semelhantes aos valores
apresentados na Tabela 4.3 quando o CV da distribuição de λj foi fixado em 95%, exceto
para o caso em que (α, β) = (0.10, 0.10), para o qual existe um número pequeno de redes
não vazias na população, e portanto um número de redes ainda menor na amostra de
5%. O EQMR e o EAR para λs̄ são menores que os observados na Tabela 4.3, apesar
dos mesmos para ν serem maiores. Além disso, à medida que o CV diminui a cobertura
empı́rica dos intervalos de 95% é subestimada, principalmente as obtidas para ν e λ. Uma
possı́vel explicação para estes resultado é que a distribuição Gama com um CV pequeno
se aproxima de uma distribuição Normal, o que parece complicar a inferência para seus
hiperparâmetros, portanto para λ e consequentemente os outros parâmetros do modelo.
Logo, uma alternativa neste caso pode ser assumir uma outra distribuição a priori para
λ. No entanto, vale destacar que ainda para esses casos estudados os EQMR e EAR são
pequenos para a maioria dos parâmetros e principalmente para o total populacional, o
qual é o maior interesse neste trabalho.
86
Tabela 4.5:
Sumário para a estimação pontual e intervalar dos parâmetros do modelo
e o total populacional para as 500 populações, variando o nı́vel de homogeneidade nas
redes, a partir do valor do CV fixado para a distribuição de λ, para N = 400.
CV = 50%
(α, β) = (0.10, 0.10)
(α, β) = (0.10, 0.15)
T
α
β
ν
λs
λs̄
T
α
β
ν
λs
λs̄
EQMR
0.13
0.15
0.52
0.16
0.02
0.04
0.06
0.09
0.18
0.10
0.02
0.03
EAR
0.26
0.32
0.27
0.30
0.10
0.15
0.18
0.24
0.36
0.23
0.11
0.15
Cob.
95.3
87.2
97.0
95.3
94.7
97.0
96.7
95.0
98.2
95.0
94.5
97.6
Ampl.
1.38
0.11
0.26
0.91
0.51
1.27
1.24
0.11
0.27
0.82
0.55
1.31
(α, β) = (0.15, 0.1)
(α, β) = (0.15, 0.15)
EQMR
0.03
0.04
0.40
0.08
0.02
0.03
0.03
0.03
0.10
0.06
0.02
0.03
EAR
0.15
0.15
0.50
0.21
0.10
0.12
0.16
0.14
0.26
0.18
0.10
0.13
Cob.
96.5
94.7
97.3
97.8
95.6
98.0
95.8
97.3
98.0
97.5
95.8
97.9
Ampl.
0.95
0.11
0.23
0.75
0.48
1.28
0.92
0.11
0.24
0.70
0.53
1.36
CV = 25%
(α, β) = (0.10, 0.10)
(α, β) = (0.10, 0.15)
EQMR
0.09
0.30
0.50
0.36
0.03
0.08
0.05
0.18
0.12
0.34
0.03
0.08
EAR
0.23
0.48
0.37
0.47
0.13
0.24
0.19
0.37
0.29
0.44
0.14
0.26
Cob.
89.7
86.8
98.0
75.0
79.7
90.1
94.7
90.1
98.2
74.9
74.5
90.0
Ampl.
0.96
0.12
0.25
3.01
0.47
0.70
0.91
0.12
0.27
2.83
0.51
0.75
(α, β) = (0.15, 0.1)
(α, β) = (0.15, 0.15)
EQMR
0.03
0.08
0.41
0.25
0.02
0.03
0.04
0.05
0.07
0.19
0.02
0.04
EAR
0.14
0.22
0.49
0.34
0.10
0.15
0.17
0.15
0.21
0.24
0.11
0.17
Cob.
96.6
91.7
97.5
80.8
84.6
94.4
91.9
92.5
98.3
83.2
83.8
93.9
Ampl.
0.70
0.12
0.22
2.48
0.46
0.74
0.70
0.12
0.23
2.25
0.50
0.79
87
4.3.3
Análise de sensibilidade da distribuição a priori
O interesse agora é comparar o desempenho do modelo sob uma outra alternativa de
distribuição a priori para λ usada na literatura, que é a distribuição a priori dependente.
Neste caso, o estudo de análise de sensibilidade é feita com a geração de 500 populações
e uma amostra adaptativa de tamanho inicial de 5% selecionada de cada uma. Como
o maior interesse está na comparação da influência de ambas as distribuições a priori
para λ nos resultados, foi escolhido efetuar a análise para somente alguns valores fixos de
R, a fim de viabilizar a apresentação dos resultados para cada λj separadamente e não
somente para para os parâmetros sumarizados em λs e λs̄ . Em particular, para gerar as
populações usadas neste estudo, fixou-se N = 400 e buscou-se uma configuração para α e
β que produz uma população rara e agrupada que tenha apresentado um bom desempenho
no estudo simulado realizado na Subseção 4.3.1. Portanto, fixou-se (α, β) = (0.15, 0.10)
e gerou-se um grande número de populações até obter 500 populações com R = 5, outras
500 com R = 6 e 500 com R = 7. Estes valores de R foram escolhidos porque, de acordo
com sua distribuição no modelo, dada pela equação em (4.4e), estes são valores com alta
probabilidade para (α, β) = (0.15, 0.10). Finalmente, como estão sendo especificadas
neste estudo duas distribuições a priori para λ, na geração dos dados fixou-se para todas
as populações λ em um valor arbitrário gerado de uma distribuição Uniforme definida
no intervalo (3,15).
Todos os resultados apresentados a seguir correspondem a 1.000 amostras
independentes da distribuição a posteriori do vetor paramétrico, geradas de 200.000
iterações do RJMCMC, com um aquecimento de 10.000 e um espaçamento de 190. As
mesmas distribuições a priori usadas para α e β no estudo de simulação apresentado na
Subseção 4.3.1. Para λ foi considerada então a distribuição a priori Gama e a Normal
truncada dependente com desvio padrão τ ∈ {1, 5, 10, 20}, ambas descritas na Seção 4.2.1
Primeiramente, para uma única população gerada ajustamos o modelo proposto com
as distribuições a priori a fim de visualizarmos de forma preliminar o desempenho das
distribuições a priori consideradas e se os valores de τ considerados eram razoáveis. Dessa
forma, foi visto que o maior impacto da distribuição a priori de λ está na distribuição
88
a posteriori de R. A Figura 4.6 apresenta o intervalo HPD de 95% obtido para R para
cada distribuição a priori de λ considerada. Note que a distribuição a posteriori de R
é altamente imprecisa quando τ = 1, no entanto à medida que o valor de τ assumindo
aumenta este comportamento melhora, e com τ = 20 tem-se inclusive um comportamento
similar ao obtido no caso da distribuição a priori independente. Logo, deste momento
em diante decidiu-se descartar a distribuição a priori Normal truncada dependente com
τ = 1.
_
15
R
20
25
_
_
_
5
10
_
●
●
●
●
●
_
_
_
_
_
Indep
τ=1
τ=5
τ = 10
τ = 20
Distribuições a priori
Figura 4.6: Sumário da distribuição a posteriori de R assumindo diferentes distribuições
a priori para λ. As cruzes representam a mediana da distribuição a posteriori, o cı́rculo
o valor verdadeiro de R e a linha o intervalo HPD de 95%.
Para as 500 populações geradas foi feita uma análise de sensibilidade com respeito
à distribuição a posteriori de cada λj . A Figura 4.7 apresenta o EQMR para cada
λj em ordem crescente, mas separados para as amostras em que a rede j é observada
(a) e quando não é (b). Os resultados com a distribuição a priori independente são
representados pelos cı́rculos vazios e pela linha cheia, já os resultados para a distribuição
dependente com τ = 5 são representados pelos triângulos e a linha tracejada, já as cruzes
e linha pontilhada representam τ = 10 e τ = 20 é representado pelos cı́rculos cheios e a
linha traço e ponto. Pela Figura 4.7 (a) é possı́vel concluir que a distribuição a priori
independente produz na maioria dos casos EQMR menor que a distribuição dependente,
principalmente para os λj ’s com valor absoluto menor. Os resultados mostram-se muito
similares para os diferentes valores de τ . Para λj para o caso em que a rede j não pertence
à amostra o EQMR é maior do que quando j pertence à amostra, como esperado, e neste
89
caso os resultados sob cada distribuição considerada tornam-se mais similares entre si
0.00
●
●
λ1
λ2
λ3
●
●
●
●
λ4
λ5
●
λ2
●
●
●
●
λ3
λ4
●
●
●
●
λ5
λ6
●
0.04
0.06
●
●
λ1
EQMR
●
0.00
EQMR
●
0.00
0.02
EQMR
●
0.02
0.04
●
●
0.02
0.04
para maiores valores de R.
●
●
●
●
●
●
●
●
●
●
●
●
λ1 λ2 λ3 λ4 λ5 λ6 λ7
●
●
●
●
0.0
0.0
●
●
●
λ1
λ2
λ3
λ4
λ5
λ1
λ2
●
●
●
λ3
λ4
●
●
0.4
●
●
●
EQMR
●
●
●
●
●
0.0
●
0.8
0.6
EQMR
●
0.2
●
0.4
●
0.4
EQMR
0.8
(a) RMSE for λj , j ∈ s
λ5
λ6
●
●
●
●
●
●
●
λ1 λ2 λ3 λ4 λ5 λ6 λ7
(b) RMSE for λj , j ∈ s̄
Figura 4.7: EMQR para cada λj assumindo diferentes distribuições a priori para λ. Os
resultados com a distribuição a priori independente são representados pelos cı́rculos vazios
e a linha cheia, os resultados para a distribuição dependente com τ = 5 são representados
pelos triângulos e a linha tracejada, as cruzes com a linha pontilhada representam os
resultados quando τ = 10 e τ = 20 são os cı́rculos cheios e a linha traço e ponto.
Finalmente, como prever o total populacional é o maior interesse neste trabalho, foi
avaliado também o impacto destas distribuições a priori na distribuição a posteriori de
T . Na Figura 4.8 estão os EQMR de T para cada valor de R considerado, a cobertura
dos intervalos HPD de 95% e sua respectiva amplitude média relativa. Os cı́rculos vazios
e a linha representam neste caso os resultados para R = 5, os triângulos com a linha
tracejada para R = 6 e as cruzes com a linha pontilhada para R = 7. Observe que o
EQMR obtido no caso em que se assume uma distribuição a priori Gama independente
para λ é sempre maior do que quando se assume a distribuição dependente. No geral, os
90
intervalos de 95% apresentam maior probabilidade de cobertura do que o nı́vel desejado e
no caso da hipótese de independência a priori estes são mais precisos, quando comparados
aos obtidos sob hipótese de dependência a priori. Note que condicional ao valor de R,
●
96
Amplitude
●
●
92
●
●
94
●
Cobertura
0.04
●
0.02
EQMR
●
Indep
τ=5
τ = 10
τ = 20
Distribuições a priori
Indep
τ=5
τ = 10
τ = 20
Distribuições a priori
0.6 0.8 1.0 1.2 1.4
98
0.06
os resultados para a distribuição dependente são bastante similares quando varia-se τ .
●
●
τ=5
τ = 10
●
●
Indep
τ = 20
Distribuições a priori
Figura 4.8: EQMR, probabilidade de cobertura e amplitude média do intervalo HPD de
95% para o total populacional T sob cada distribuição a priori assumida para λ e para
cada valor de R fixado. Os cı́rculos vazios e a linha representam os resultados para R = 5,
os triângulos com a linha tracejada quando R = 6 e as cruzes com a linha pontilhada
para R = 7.
Portanto, sob alguns critérios considerar uma distribuição a priori independente
parece ser mais eficiente que a distribuição a priori dependente e vice-versa. No entanto,
vale destacar que a distribuição dependente é mais fácil de interpretar, o que torna sua
elicitação mais intuitiva em muitos casos, em que não há conhecimento a priori adequado
sobre a população.
4.4
Comparação com o modelo agregado
O modelo de mistura em (4.4) foi proposto neste trabalho como uma alternativa ao
modelo agregado, principalmente quando não é adequada a suposição de homogeneidade
entre redes com respeito ao número de observações dentro destas e quando o número
esperado de observações não é proporcional à sua área. O objetivo deste modelo proposto
é, portanto, aprimorar as estimativas populacionais obtidas com o ajuste do modelo
91
agregado através do uso de um modelo que leve em conta na sua formulação a suposição
de heterogeneidade entre redes. Isto é realizado na proposta através da modelagem no
nı́vel das unidades primárias, no lugar das redes.
Para acessar a eficiência da metodologia proposta, nesta seção é feita uma comparação
do desempenho do modelo de mistura com o modelo agregado em duas situações. A
primeira comparação consiste de um experimento de simulação baseado no desenho
amostral com uma população real, já o outro estudo é baseado em simulações sob o
modelo.
Para ajustar ambos os modelos, foram assumidas as mesmas distribuições a priori
usadas na Subseção 4.3.
Na execução dos métodos de MCMC e RJMCMC foram
realizadas 200.000 iterações cada, 10.000 foram descartadas como aquecimento da cadeia
e as amostras finais foram tomadas de 190 em 190, a fim de obter 1.000 amostras
independentes.
4.4.1
Simulação baseada no desenho amostral
O estudo apresentado a seguir baseia-se em verificar propriedades frequentistas dos
estimadores obtidos do ajuste de cada modelo, a partir da seleção de várias amostras
de uma população real. Tal população está descrita na Seção 3.1.3 e é composta por
marrecos da asa azul na região da Flórida, Estados Unidos, no ano de 1992.
O estudo consiste em selecionar 500 amostras adaptativas com tamanho inicial de
10%N desta população real. Note que esta população, a qual pode ser vista na Figura
3.2, é composta por 3 principais redes, as quais apresentam no geral um número médio de
marrecos diferente para cada rede. E o total em cada rede não é proporcional ao número
de unidades em cada uma. Logo, as hipóteses do modelo agregado não seriam adequadas
a este conjunto de dados. Por outro lado, o modelo de mistura assume heterogeneidade
entre redes, o que parece mais razoável ao observar a Figura 3.2.
Além disso, observe que existem duas unidades com um número discrepante de
marrecos da asa azul, logo se as amostras selecionadas não contivessem estas unidades,
seria extremamente difı́cil estimar o total populacional próximo do valor verdadeiro.
92
Portanto, optou-se por fixar esta rede na amostra, de modo que a probabilidade de
seleção desta fosse igual a 1.
A Figura 4.9 apresenta os traços das cadeias com a distribuição a posteriori de α,
β e T , partindo de dois pontos iniciais distintos, sob ambos os modelos para uma das
amostras selecionadas. A linha cinza representa o valor verdadeiro do total. Note que o
modelo agregado tende a sobreestimar o total populacional, um comportamento esperado
neste caso devido a heterogeneidade presente nos dados. Além disso, observe que o
parâmetro α é estimado num valor mais alto quando ajustado o modelo agregado que
quando ajustado o modelo de mistura. Como este parâmetro está relacionado com o
número de unidades não-vazias, o modelo agregado estima um número maior de unidades
0
200
600
T
1000
0
200
iterações
600
14200 14400 14600
0.0
0.02
0.2
β
α
0.4
0.06
0.6
não vazias na população que o modelo de mistura.
1000
0
200
iterações
600
1000
iterações
T
14200
0.0
0
200
600
1000
0
iterações
14800
0.4
0.2
β
0.15
0.05
α
15400
(a) Modelo de mistura
200
600
1000
iterações
0
200
600
1000
iterações
(b) Modelo agregado
Figura 4.9: Traço das cadeias com a distribuição a posteriori para α, β e T obtida do
ajuste do modelo de mistura (a) e do modelo agregado (b). A linha em cinza representa
o valor verdadeiro de T .
A Tabela 4.6 apresenta os valores da estatı́stica de Geweke e do fator de dependência
do diagnóstico de Raftery-Lewis.
Sob ambos os critérios é possı́vel observar que
93
a convergência foi alcançada.
Esta mesma conclusão vale para todas as amostras
selecionadas.
Tabela 4.6:
Análise da convergência das cadeias com a distribuição a posteriori dos
parâmetros dos modelos de mistura e agregado para a população real.
Geweke
Mistura
Raftery-Lewis
Agregado Mistura
Agregado
α
0.54
-0.12
1.05
0.95
β
-0.75
-0.93
1.03
1.01
T
0.32
0.27
1.55
1.08
Na Tabela 4.7 apresenta-se uma comparação com base em propriedades frequentistas
dos estimadores obtidos para o total populacional T , sob os dois modelos. Como temos
a população inteira de marrecos da asa azul e selecionamos amostras desta população, é
possı́vel usar critérios de comparação entre os modelos que usam o valor verdadeiro. Logo
são apresentados o EQMR, o EAR, as probabilidades de cobertura dos intervalos HPD
de 95%, a média das amplitudes relativas destes intervalos, expressa pela razão entre
seu valor e o valor verdadeiro de T . É apresentado também a eficiência do estimador do
total obtido do ajuste do modelo de mistura com relação ao modelo agregado, sob as 500
amostras. Observe que o modelo proposto apresenta menores valores para os EQMR e
EAR, além de probabilidade de cobertura dos intervalos mais próxima do nı́vel nominal
desejado de 95%, mesmo tendo uma amplitude menor, portanto os intervalos gerados
sob esta abordagem são mais precisos. Além disso, como a eficiência é menor que 1,
isto indica que a variância do estimador para o total sob o modelo (4.4) proposto neste
trabalho é menor que sob o modelo agregado.
Finalmente, na Figura 4.10 é apresentado um diagrama boxplot com os ER para o
total populacional para as 500 amostras sorteadas sob os dois modelos em questão. Note
que os ER obtidos com base no modelo de mistura são inferiores aos obtidos com o
modelo agregado, apesar de ambos no geral sobrestimarem o valor verdadeiro de T .
94
Tabela 4.7: Sumário da estimação pontual e intervalar do total populacional obtido do
ajuste do modelo de mistura e do modelo agregado.
EQMR
EAR
Cobertura Amplitude ef(T̂ )
Modelo proposto
0.02
0.05
97.7
0.45
Modelo agregado
0.05
0.18
84.5
0.63
0.15
−0.05
0.05
ER
0.25
0.78
Modelo de mistura Modelo agregado
Figura 4.10: ER para T para as 500 amostras obtidos a partir do ajuste do modelo de
mistura e do modelo agregado.
4.4.2
Simulação baseada no modelo
O interesse neste estudo é avaliar o desempenho do modelo agregado sob populações
mais homogêneas simuladas do modelo de mistura em (4.4). Portanto, para as mesmas
500 populações usadas no estudo simulado apresentado na Subseção 4.3.1 ajustou-se
o modelo agregado.
Em particular este estudo destina-se as simulações realizadas
assumindo (α, β) = (0.15, 0.10) e a distribuição Gama para λ com CV=50% e 25%,
que caracterizam populações com redes mais homogêneas.
Na Tabela 4.8 são apresentadas propriedades frequentistas dos estimadores obtidos
do ajuste do modelo agregado. A fim de facilitar a comparação, os resultados obtidos
do ajuste do modelo de mistura com as mesmas 500 populações são apresentados em
parênteses na tabela. Os resultados para T indicam um maior EAR e EQMR no ajuste
do modelo agregado, mas essa diferença parece diminuir à medida que o CV diminui. Por
outro lado, o estimador para β produzido no ajuste do modelo agregado apresenta para
95
todos os casos um menor EAR e EQMR do que o estimador obtido do ajuste do modelo
de mistura. Portanto, de acordo com este critério, é possı́vel concluir que à medida que o
nı́vel de heterogeneidade aumenta os resultados são favoráveis ao modelo de mistura com
relação a previsão de T , e para populações mais homogêneas os resultados tendem a se
tornar mais semelhantes. Entretanto, com relação a estimação de β o modelo agregado
apresenta um melhor desempenho.
Tabela 4.8: Sumário a posteriori para a estimação pontual e intervalar dos parâmetros
dos modelos sob as 500 simulações onde λ foi gerado de uma distribuição Gama com
CV=50% e CV=25%, para N = 400 e (α, β) = (0.15, 0.10).
CV=50%
CV=25%
T
α
β
T
α
β
EQMR
0.05 (0.03)
0.04 (0.04)
0.10 (0.40)
0.03 (0.03)
0.05 (0.08)
0.18 (0.41)
EAR
0.21 (0.15)
0.19 (0.15)
0.37 (0.50)
0.17 (0.14)
0.16 (0.22)
0.32 (0.49)
Cob.
95.6 (96.5)
98.1 (94.7)
97.4 (97.3)
96.8 (96.6)
97.1 (91.7)
95.6 (97.5)
Ampl.
0.85 (0.95)
0.16 (0.11)
0.18 (0.23)
0.86 (0.70)
0.16 (0.12)
0.19 (0.22)
Finalmente, na Figura 4.11 são apresentados os diagramas boxplot com o ER para
T sob ambos os modelos. Note que um maior ER é obtido quando ajustado o modelo
agregado, em particular T é subestimado se a mediana dos ER é observada. Entretanto,
este comportamento tende a ser atenuado à medida que o grau de homogeneidade
aumenta.
Portanto, a partir destes resultados pode-se concluir que à medida que o nı́vel de
heterogeneidade entre as redes diminui, o desempenho dos modelos torna-se similar, com
relação a previsão de T , o qual é o maior interesse neste trabalho. A principal diferença
seria o número de parâmetros a estimar e o custo computacional na implementação dos
métodos de aproximação necessários no ajuste de cada modelo.
96
0.3
0.4
0.1
0.2
−0.1
ER
0.0
ER
−0.3
−0.2
−0.4
Modelo de mistura Modelo agregado
Modelo de mistura Modelo agregado
(a) CV = 50%
(b) CV = 25%
Figura 4.11: Boxplot com o ER para T , a partir do modelo de mistura e do modelo
agregado para as 500 populações, tal que λ foi gerado de uma distribuição Gama com
CV=50% e CV=25%.
4.5
Modelo de mistura sob amostragem adaptativa
dupla
Apesar do planejamento amostral adaptativo por conglomerados mostrar-se
apropriado em levantamentos cuja população-alvo se comporta de forma rara e agrupada,
uma de suas principais desvantagens é a impossibilidade de controlar o tamanho da
amostra final. Neste sentido, algumas alternativas surgiram na literatura visando impor
um limite a este tamanho final para amostras coletadas de forma adaptativa. Neste
trabalho, temos particular interesse na abordagem de Felix-Medina e Thompson (2004),
chamada amostragem adaptativa dupla por conglomerados.
O interesse agora está em aplicar o modelo de mistura (4.4) à populações raras e
agrupadas, cujas amostras são provenientes do planejamento amostral elaborado por
Felix-Medina e Thompson (2004). Com essa mudança, algumas adaptações devem ser
feitas no modelo proposto. A probabilidade de seleção dada em (4.5) deve ser recalculada
e o método de inferência reescrito. Veremos também que, sob algumas condições, a
amostragem adaptativa por conglomerados pode ser tratada como um caso particular da
amostragem dupla. Além disso, como com este desenho é possı́vel aumentar o tamanho
97
da amostra e usar informações auxiliares, espera-se uma melhora na qualidade das
estimativas dos parâmetros do modelo e do total populacional sem exceder abusivamente
os custos disponı́veis.
4.5.1
Amostragem adaptativa dupla
Proposto por Felix-Medina e Thompson (2004), este plano amostral trata-se de uma
variação com múltiplos estágios da amostragem adaptativa por conglomerados. Chamado
amostragem adaptativa dupla, o método permite ao pesquisador atingir aos seguintes
objetivos: controlar o número de observações da variável de interesse; alocar a amostra
final próxima a locais interessantes; e utilizar uma variável auxiliar na estimação do
parâmetro populacional de interesse.
A metodologia pode ser decomposta em três estágios e está descrita a seguir. Seja
H uma variável auxiliar menos custosa que a variável de interesse e mais fácil de medir.
Suponha que nada se conhece sobre os valores desta variável auxiliar antes do inı́cio da
coleta da amostra.
A primeira fase do método consiste em selecionar uma amostra adaptativa por
conglomerados s1 baseada nos valores da variável auxiliar H, gerando m1 diferentes
redes, vazias e não-vazias.
A segunda fase consiste em selecionar uma subamostra s2 de m2 redes das m1
diferentes redes que estão na amostra s1 . Esta seleção pode ser feita segundo planos
amostrais probabilı́sticos convencionais.
Finalmente, a terceira fase consiste em selecionar uma subamostra de unidades
primárias dentro de cada uma das redes em s2 e observar o valor da variável de interesse
Y associada em cada uma destas. Denote por s3i (i = 1, . . . , m2 ) a amostra de unidades
S 2
observada na rede i, cujo tamanho é dado por n3i , e portanto, s3 = m
i=1 s3i .
Segundo Felix-Medina e Thompson (2004), existem várias possibilidades de variações
dentro destas três fases.
Uma destas é omitir a segunda fase e subamostrar toda
rede em s1 . Cada rede pode ser subamostrada antes mesmo do pesquisador terminar
o planejamento s1 .
Neste último caso, há necessidade em controlar o tamanho da
amostra antes de iniciar as outras fases. Outra possibilidade é combinar diferentes planos
98
probabilı́sticos para selecionar s2 e s3i (i = 1, . . . , m2 ). A maioria das combinações
permite ao pesquisador um controle sobre custos e número de medidas da variável de
interesse.
Além disso, com relação às variáveis auxiliares, podem ser usadas variáveis quaisquer
correlacionadas com a variável de interesse e mais fáceis de medir, ou ainda por exemplo
variáveis de avaliação rápida, as quais conduzem o pesquisador para as áreas mais
promissoras, onde observações exatas da variável podem ser feitas posteriormente. Por
exemplo, numa pesquisa sobre mexilhões de água doce, cujo interesse é estimar o total
de mexilhões numa região, a variável de interesse, ou seja o número de mexilhões, é uma
variável difı́cil de ser medida porque alguns mexilhões são parcialmente escondidos pela
areia e pedras no fundo do rio. Desta forma pode-se recorrer a amostragem adaptativa
dupla, com primeiro estágio caracterizada por uma amostra adaptativa somente para
detectar a presença ou ausência de mexilhões, e esta ser usada como uma variável auxiliar
no método.
4.5.2
Modelo proposto sob amostragem dupla com variável
auxiliar indicadora de presença
O modelo de mistura em (4.4) deve ser ajustado a populações raras e agrupadas, as
quais são amostradas de forma adaptativa. Por outro lado, como o desenho amostral
adaptativo por conglomerados é informativo, à verossimilhança completa do modelo
(4.4) acrescenta-se a probabilidade de inclusão da amostra, dada em (4.5).
Neste
momento a ideia é substituir este desenho amostral, pelo proposto por Felix-Medina
e Thompson (2004). Esta pequena mudança traz adaptações na verossimilhança, por
conta da probabilidade de inclusão, e em alguns aspectos do procedimento de inferência,
os quais serão descritos a seguir.
Assim como no exemplo do mexilhão, há particular interesse em uma variável auxiliar
H binária, que assume o valor 1 se há ao menos uma observação de interesse, ou seja se
Yi > 0, e 0 caso contrário. Além disso, suponha que s2 e s3i , (i = 1, . . . , m2 ) são sorteadas
99
segundo um desenho amostral aleatório simples. Este estudo será restrito a um plano
amostral adaptativo duplo com estas caracterı́sticas.
Desta forma, a amostra final s é composta pelas unidades que compõem s1 e s3 .
Ou seja, pelas m1 redes amostradas de forma adaptativa na primeira fase e pelas n3i ,
i = 1, . . . , m2 unidades selecionadas dentro das m2 redes amostradas no segundo estágio.
Note que de s1 só se extrai informações acerca da estrutura das redes, sem observar Y
dentro destas. Enquanto que de s3i , para i = 1, . . . , m2 , se extrai informações acerca da
variável de interesse Y dentro das unidades primárias selecionadas. Por esse motivo s é
caracterizada pela união de s1 e s3 .
Portanto, ao selecionar uma amostra adaptativa dupla as informações observadas
surgem em etapas. Na primeira fase, a amostragem adaptativa com a variável auxiliar do
tipo presença/ ausência, fornece informações acerca das variáveis X, R e C. Portanto,
de s1 tem-se Xs , Rs e Cs no modelo (4.4). O segundo estágio não fornece nenhuma
informação a mais sobre as variáveis do modelo. Finalmente, na terceira fase uma parte
da variável de interesse Y é observada, ou seja Ys , o qual neste caso indica os totais
observados em uma subamostra de unidades de uma subamostra de redes não-vazias.
Portanto, ao aplicar este planejamento amostral ao modelo proposto, este continua
com a mesma estrutura descrita em (4.4). Entretanto, a probabilidade de seleção de uma
amostra s deve ser revista, pois o planejamento amostral foi alterado. Em particular,
à probabilidade de inclusão dada em (4.5), devem ser acrescentadas a probabilidade de
inclusão de s2 e s3 . Em particular, neste caso, em que consideramos s2 e s3 selecionadas
aleatoriamente, esta probabilidade é obtida da seguinte forma:
m1
Y
m
Y2
zi × gil ,l
1
[s | X, R, C] =
×
×
PN −X+Rl
Pj−1
m
−
(h
−
1)
z
−
z
1
i
i
k
i=1
k=0
l=1
h=1
n3h
m2 Y
Y
1
.
×
C
h − (i − 1)
i=1
h=1
(4.6)
O segundo termo da multiplicação na equação em (4.6) refere-se justamente à amostra
s2 , e é a probabilidade de seleção de m2 redes dentre m1 sob amostragem aleatória simples
sem reposição. O terceiro fator refere-se à amostra s3 , ou seja é a probabilidade de seleção
de n3h unidades, h = 1, . . . , m2 , dentro das m2 redes observadas na segunda fase. Observe
100
que como os planos amostrais da segunda e terceira fases constituem-se de amostragem
aleatória simples, os quais são desenhos ignoráveis, estes não fornecem informação a mais
para a previsão das variáveis não observadas. A única parcela que depende das variáveis
não observadas vem da expressão em (4.5), logo as outras parcelas são constantes na
distribuição a posteriori.
4.5.2.1
Inferência
O procedimento de inferência baseia-se na obtenção da distribuição a posteriori para
o vetor paramétrico Θ = (Xs̄ , Rs̄ , s̄ , Cs̄ , Ys̄ , Ys∩s̄3 , α, β, λ). Note que, à primeira vista,
a diferença entre aplicar o modelo a este planejamento ou ao anterior está na inserção de
Ys∩s̄3 . Pois neste caso, além da previsão de Yi para as unidades i ∈ s̄, também devem
ser preditos Yi para as unidades i que apesar de fazerem parte da amostra s, não foram
observadas em s3 e portanto são desconhecidas, ou seja, para i ∈ s ∩ s̄3 . Uma vantagem
é que, com este plano amostral menos custoso, a amostra s pode aumentar, portanto s̄
diminui e, portanto a dimensão do vetor paramétrico diminui. Esta e outras diferenças
serão apresentadas a seguir.
Note que, diferente da amostragem adaptativa por conglomerados, o atual
planejamento induz uma nova partição, de Y, tal que Y = (Ys3 , Ys∩s̄3 , Ys̄ )0 . Note
que apesar de usarmos a notação de s para as unidades que pertencem a amostra, como
a amostra é formada pela união de subamostras e apenas em s3 é que valores de Y
são observados, Ys3 é a única parte conhecida de Y e portanto Ys∩s̄3 e Ys̄ devem ser
preditos. A diferença entre estes dos últimos é que existem informações adicionais sobre
a estrutura das redes que contém as unidades em s ∩ s̄3 , o que auxilia na previsão de
Ys∩s̄3 , melhorando assim a qualidade das previsões dos totais nestas unidades, quando
comparado a s̄. Portanto, no processo de inferência com base na obtenção da distribuição
a posteriori, é necessário incluir às distribuições condicionais completas do Apêndice B a
distribuição de Ys∩s̄3 . Dessa forma a expressão em (2.2) dada no Apêndice B é reescrita
da seguinte maneira:
101
[Ys∩s̄3 , Ys̄ | ·] ∝

 Y


Y
{j:j∈Λ} {i:i =j}
λYj i  
Yi !  

Y
Y
λYj i 
{j:j∈s2 } {i∈s̄3 :i =j}
Yi ! 
,
tal que Λ = s̄ ∪ {s1 ∩ s̄2 }.
Com relação a estimação de λ também existe uma diferença.
O atual desenho
amostral induz a uma partição deste parâmetro um pouco diferente da obtida quando
se realiza somente a amostragem adaptativa por conglomerados em um único estágio.
No caso da amostragem dupla terı́amos uma partição da forma λ = (λs2 , λs1 ∩s̄2 , λs̄ )0 ,
onde λs2 está associado às redes que foram amostradas em s2 e portanto apresentam
informação adicional Y para algumas unidades que as compõem, λs1 ∩s̄2 às redes que foram
amostradas em s1 , mas que não fazem parte de s2 , e λs̄ continua se referindo a parte de
λ associada às redes não amostradas, sequer no primeiro estágio. Observe a distribuição
condicional completa de λ na equação (2.1) no Apêndice B, esta depende das variáveis
Y e C, logo quanto maior o conhecimento acerca destas variáveis, melhor a estimação
deste parâmetro. Portanto, espera-se que λs2 seja o parâmetro melhor estimado, pois
além do conhecimento de uma parte de C proveniente de s1 , s3 fornece adicionalmente
informações sobre Y para as redes selecionadas em s2 . Por outro lado, λs1 ∩s̄2 deve ser o
segundo melhor estimado pois para as redes em s1 ∩ s̄2 há apenas o conhecimento de uma
parte de C. Finalmente, o subvetor λs̄ continua sendo o mais difı́cil de ser estimado, por
falta de informação.
Portanto, como este planejamento amostral permite aumentar o número de
observações com um custo controlado, espera-se melhorar a estimação de parâmetros e
previsão de quantidades populacionais que apresentaram alguma dificuldade. Isso porque
com este método é possı́vel diminuir o número de redes não-vazias para as quais não se tem
nenhum conhecimento. Com o desenho amostral construı́do em 3 estágios, é possı́vel ao
menos conhecer para algumas redes o tamanho destas, mesmo sem observar diretamente
a variável de interesse Y . Inclusive esta foi a maior motivação para estendermos o modelo
(4.4) para um plano amostral alternativo que extraı́sse maiores informações da população,
sem extrapolar os custos operacionais. Neste caso escolheu-se a amostragem adaptativa
dupla, com variável auxiliar do tipo ausência/ presença da caracterı́stica de interesse.
102
4.5.3
Avaliação
do
modelo
proposto
sob
amostragem
adaptativa e adaptativa dupla
Este estudo baseia-se na avaliação do modelo de mistura proposto em (4.4) quando
se considera os dois planejamentos amostrais estudados neste trabalho: amostragem
adaptativa por conglomerados e a amostragem dupla. Note que neste particular estudo
optou-se por não utilizar a população real de marrecos da asa azul, descrito na Subseção
3.1.3, pois seu tamanho é relativamente pequeno para fins desta comparação. Portanto,
foram geradas 500 populações com N = 600 unidades, X = 15%N unidades não-vazias
e R = 10%X = 9 redes não-vazias, e de cada uma destas foram simuladas as seguintes
amostras:
(i) adaptativa por conglomerados com tamanho inicial n1 = 10%N produzindo m1
redes na amostra;
(ii) adaptativa dupla por conglomerados com tamanho inicial n1 = 10%N produzindo
m1 redes na amostra e
(a) m2 = 100%m1 e n3i = 70%Ci , i = 1, . . . , m2 ;
(b) m2 = 70%m1 e n3i = 100%Ci , i = 1, . . . , m2 ;
(c) m2 = 70%m1 e n3i = 70%Ci , i = 1, . . . , m2 .
O interesse é comparar o ajuste do modelo sob estes quatro planejamentos. Os
cenários (ii-a), (ii-b), (ii-c) tratam-se de variações do plano amostral duplo. Observe que,
apesar do cenário (ii-b) estar caracterizado como uma amostragem adaptativa dupla,
este também pode ser tratado como o planejamento (i), porém com um menor tamanho
inicial de amostra.
Para este estudo, foi utilizada a mesma distribuição a priori usada na Subseçção 4.3,
supondo a distribuição a priori para λ independente. Após 200000 iterações, com um
burn-in de 10000 e espaçamento de 190, foram obtidas 1000 amostras independentes da
distribuição a posteriori do vetor paramétrico Θ. Para todos os parâmetros observou-se
a convergência.
103
Na Tabela 4.9 estão os EQMR, EAR, probabilidade de cobertura do intervalo
HPD de 95% e sua respectiva amplitude média relativizada para a previsão do total
populacional T . Note que para todos os planejamentos temos erros pequenos e intervalos
HPD com probabilidade de cobertura próxima do nı́vel desejado de 95%. Mesmo no
planejamento (ii-c), em que se reduz de forma mais significante o tamanho da amostra
quando comparado aos demais, tem-se resultados que mostram boas previsões neste caso.
Portanto, mesmo com um número menor de observações da variável de interesse é possı́vel
obter resultados tão eficientes quanto os obtidos usando a amostragem adaptativa em um
estágio.
Tabela 4.9: Sumário a posteriori do total populacional T para os quatro planejamentos
considerados com base nas 500 amostras simuladas.
Amostra
EQMR
EAR
Cobertura (%)
Amplitude relativa
(i)
0.02
0.12
96.0
0.61
(ii-a)
0.03
0.14
95.9
0.62
(ii-b)
0.02
0.12
93.3
0.69
(ii-c)
0.03
0.13
95.8
0.62
Com relação aos planos amostrais (i) e (ii-a) a diferença está no número de unidades
que são observadas dentro das redes amostradas. O segundo observa um número menor
de unidades com relação a variável de interesse, portanto em contextos em que observar
Y é altamente custoso, pode-se preferir o plano (ii-a). Desta forma, o interesse agora
concentrar-se-á em comparar a performance do modelo de mistura sob estes dois planos
em particular. Quando comparados ambos os planejamentos com relação a previsão do
total populacional T , não foram observadas grandes diferenças, portanto com base neste
critério ambos mostraram-se eficientes. Portanto, será feita uma comparação de ambas
as metodologias a partir da estimação do parâmetro λs2 . A ideia em usar λ como critério
de comparação dá-se pois este é um parâmetro importante para a previsão do total e está
relacionado diretamente com as informações extraı́das dentro das redes.
104
Na Figura 4.12 está um sumário da distribuição a posteriori de λ ao longo das
500 simulações.
Nesta são apresentados o EAR, a probabilidade de cobertura do
intervalo HPD de 95% e sua respectiva amplitude média relativizada com relação ao valor
verdadeiro. O triângulo com linha cheia representa o plano amostral (i) e o cı́rculo cheio
com linha pontilhada o plano amostral (ii-a). Note que o plano (i) produz erros relativos
ligeiramente menores que o plano (ii-a), o que era de se esperar pois este apresenta
um maior tamanho de amostra final. Além disso, os intervalos HPD de 95% são mais
precisos para todos os λj s sob o plano amostral (i). Com relação as probabilidades de
cobertura não há nada conclusivo sobre qual plano é mais eficiente, ora um se apresenta
mais próximo do nı́vel desejado, ora outro se apresenta. Observe que λ6 apresenta
uma subestimação da probabilidade de cobertura, mas este fato ocorre para os dois
planejamentos em questão.
●
●
●
λ1 λ2 λ3 λ4 λ5 λ6 λ7 λ8 λ9
●
●
●
0.9
0.7
●
●
●
●
●
0.5
●
●
●
●
●
●
λ1 λ2 λ3 λ4 λ5 λ6 λ7 λ8 λ9
0.3
●
●
●
Amplitude
●
0.92
●
●
Cobertura
●
0.96
●
0.88
0.03
0.01
EAR
0.05
●
●
λ1 λ2 λ3 λ4 λ5 λ6 λ7 λ8 λ9
Figura 4.12: Sumário a posteriori de λs2 para os planejamentos (i) e (ii-a) com base nas
500 amostras simuladas.
4.6
Conclusões
Neste capı́tulo apresentou-se a principal contribuição deste trabalho, que foi a
proposta de um modelo desagregado que se ajuste a amostras adaptativas selecionadas
de populações raras e agrupadas. O modelo é construı́do no nı́vel das unidades da grade,
o que permitiu a inserção da suposição de heterogeneidade entre redes distintas. A
inferência Bayesiana para o modelo é feita usando o método RJMCMC, pois neste caso o
tamanho do espaço paramétrico é desconhecido. Portanto, o ajuste do modelo proposto
105
necessita de métodos mais custosos computacionalmente do que o modelo agregado, onde
apenas o MCMC é necessário.
No geral, o modelo apresentou uma boa performance nos estudos de simulação
realizados e ao ajustá-lo com a população real do marreco da asa azul, resultados
mais satisfatórios foram obtidos quando comparado com o modelo agregado. Por outro
lado, foi possı́vel observar que ao diminuir o grau de heterogeneidade da população
o desempenho do modelo agregado com relação a estimação de T , o qual é o maior
interesse neste trabalho, tende a melhorar e a tornar-se mais próximo ao obtido quando
ajustado o modelo de mistura. Portanto, recomenda-se o uso do modelo proposto quando
de fato a heterogeneidade é um comportamento presente nos dados, visto que o custo
computacional é maior neste caso.
Um sumário das conclusões mais relevantes extraı́das dos estudos de simulação
realizados neste capı́tulo é apresentado na Tabela 4.10.
Finalmente, com o propósito de melhorar a previsão e estimação do modelo de
mistura, foi apresentada uma aplicação do modelo de mistura ao plano amostral
adaptativo duplo.
Este planejamento tende a fornecer mais informações sobre a
população de pesquisa, com um custo operacional controlado. Nesta extensão verificou-se
que é possı́vel obter resultados eficientes ainda que com um número menor de observações
da variável de interesse e usando uma variável auxiliar indicadora de presença da
caracterı́stica de interesse.
106
Tabela 4.10: Resumo das principais conclusões acerca dos estudos simulados realizados
com o modelo de mistura proposto em (4.4).
Variando N , α e β
(1) Melhores resultados à medida que os valores de N , α e β aumentam.
(2) Maiores dificuldades de estimação de λs̄ que λs̄ .
Distribuição a priori de λ
(1) Distribuição a posteriori de R sensı́vel à escolha de τ .
(2) Escolha de τ não afeta a distribuição a posteriori de T .
(3) Os EQMR obtidos na previsão de T são menores quando assume-se distribuição
a priori dependente para λ.
Nı́vel de heterogeneidade
(1) Mesmo sob nı́veis mais intensos de homogeneidade bons resultados são
atingidos na previsão de T , mas surgem problemas na estimação de ν e β.
(2) Comparando com o modelo agregado, percebe-se que o modelo proposto é adequado
principalmente para populações heterogêneas. Sob maiores nı́veis de homogeneidade,
o desempenho dos modelos torna-se similar.
107
Capı́tulo 5
Conclusões e trabalhos futuros
Ao longo deste trabalho foram revisadas duas possı́veis formas de fazer previsão em
populações raras e agrupadas: a inferência baseada na aleatorização do plano amostral e
a abordagem baseada em modelos de superpopulação. No primeiro caso, apresentouse o planejamento amostral adaptativo por conglomerados e, no segundo, o modelo
proposto por Rapley e Welsh (2008), o qual é ajustado sob o enfoque Bayesiano. Estudos
simulados com base em populações artificiais e real foram apresentados e ambas as
abordagens foram comparadas principalmente em nı́veis de eficiência da previsão do
total populacional. Tendo em vista um bom desempenho do modelo de Rapley e Welsh
(2008), as metodologias propostas neste trabalho permanecem no contexto de inferência
em população finita baseada em modelos.
Realizar pesquisas em populações raras e agrupadas é uma tarefa árdua e necessita em
geral de metodologias especı́ficas que usem na sua formulação a estrutura da população.
No entanto, estas populações podem ser ainda mais problemáticas se apresentarem
uma dinâmica populacional, o que é uma caracterı́stica também comum neste contexto.
Buscando tratar situações como esta, foi apresentada uma extensão do modelo de Rapley
e Welsh (2008). Em particular, a extensão é voltada principalmente para populações em
crescimento ou decrescimento e final estabilização com a evolução do tempo.
Por outro lado, questões como a modelagem no nı́vel agregado das redes, suposições
de homogeneidade entre as redes e de relação direta entre a frequência esperada de
um fenômeno e o tamanho de uma rede no qual ele é observado, restringem o modelo
108
de Rapley e Welsh (2008) a algumas especı́ficas populações com estas caracterı́sticas.
Com o objetivo de tratar destas questões, foi proposto um modelo de mistura a nı́vel
desagregado que supõe heterogeneidade entre as redes, e consequentemente que o número
de ocorrências de um fenômeno em uma rede não depende necessariamente apenas do
tamanho desta. Como foi visto, para fazer inferência para este modelo fez-se necessário
técnicas mais sofisticadas, pois a dimensão do vetor paramétrico é também um parâmetro.
Em particular, foi utilizado o método de RJMCMC. O modelo mostrou-se mais eficiente
que o modelo agregado em casos de heterogeneidade. Por outro lado, à medida que o
nı́vel de heterogeneidade diminui a performance dos modelos torna-se semelhante.
Finalmente, a metodologia proposta foi aplicada ao plano amostral adaptativo duplo
por conglomerados, com o objetivo de adquirir mais informações que auxiliem a estimar
os parâmetros do modelo de mistura proposto em (4.4) associados às unidades que não
foram observadas. Em particular, a variável auxiliar utilizada nesta extensão caracterizase como uma indicadora da ausência ou presença da observação de interesse, ou seja, está
totalmente relacionada com a variável de pesquisa.
5.1
Trabalhos futuros
Na extensão apresentada na Seção 3.2 do Capı́tulo 3 supor uma amostra independente
a cada instante de tempo pode não ser viável em algumas situações práticas. No entanto,
como o modelo é formulado de forma agregada, isto traz dificuldades a incorporar outros
planejamentos mais viáveis. Com isso, há interesse em aplicar o modelo de mistura
proposto a planos amostrais que apresentem dependência temporal.
Com relação ao desenho amostral adaptativo duplo, seria interessante investigar
um tamanho de amostra ótimo na primeira e/ou na segunda fase, de modo a ser
eficiente e minimizar o custo operacional. Além disso, há interesse também em aplicar a
metodologia, supondo outras variáveis auxiliares relacionadas com a variável de interesse
que não somente indicadoras de presença da caracterı́stica de interesse.
Além disso, dentro de uma rede é comum que unidades tenham frequência de
observações que varia de acordo com a distância ao centroide da rede. Por exemplo,
109
espera-se que unidades dentro de uma rede tenham frequência de observações que varia de
acordo com a distância ao centroide da rede. O processo pontual conglomerado de Poisson
(ver Diggle et al. (1983)) é um exemplo de população com este comportamento. Dessa
forma, uma ideia futura para o modelo de mistura proposto é a inserção de componentes
espaciais na média da distribuição da variável resposta que dependam da distância. Um
importante aspecto a ser considerado nesta proposta futura é a definição do centroide,
visto que uma rede em geral não é regular. Além disso, a proposta seria incorporar esta
estrutura espacial na parte do modelo que se ajusta à amostra coletada, pois para a parte
não amostrada não há conhecimento da localização e nem das unidades que compõem as
redes, o que inviabilizaria a ideia nestas unidades.
5.1.1
Planejamento amostral ótimo
Como o desenho amostral adaptativo caracteriza-se pela seleção da amostra em fases,
seria razoável estudar a incorporação de um planejamento amostral ótimo, a fim de buscar
unidades amostrais que possam ser mais promissoras para a estimação do parâmetro
populacional de interesse.
Em desenhos amostrais convencionais a amostra completa é planejada de uma vez,
antes mesmo da seleção. Um exemplo de planejamento em duas fases é aquele em
que a amostra inicial de n1 unidades é selecionada e os valores de Y são observados
e, posteriormente, uma amostra adicional de n2 unidades é selecionada, cujo tamanho
depende dos valores observados na primeira amostra. A amostragem adaptativa seria
uma classe de desenhos com L fases, em que L é uma variável aleatória.
De forma geral, um planejamento ótimo é uma tarefa que costuma envolver
metodologias para obtenção de máximos e mı́nimos de funções objetivo. Estas funções
objetivo quantificam os ganhos e perdas associados às possı́veis decisões a serem tomadas.
A ideia de um planejamento ótimo com duas fases é descrito a seguir e pode ser visto
com maiores detalhes em Thompson e Seber (1996).
Suponha um desenho com tamanho amostral fixo em n unidades e suponha que
dessas unidades n1 foram selecionadas e observadas. Seja ys1 os valores de Y associados
a esta amostra inicial. A amostra restante a ser observada é s2 e de forma análoga
110
defina ys2 . Logo, a amostra completa é dada por s = (s1 , s2 ), com respectivos ys =
(ys1 , ys2 ). O objetivo é prever uma função populacional qualquer W = w(Y), como
o total populacional por exemplo, a partir de uma função da amostra H(d), tal que
d = (s, ys ). Deseja-se que H seja não viesado de acordo com o modelo. A função que
minimiza o erro quadrático médio de previsão E ((H − W )2 | s) é a esperança condicional
H(d) = E (W | d).
Finalmente, a questão é se a seleção das n2 unidades restantes deve depender dos
valores de ys1 . Neste caso, a ideia seria selecionar uma amostra s2 que minimize a função
objetivo:
gs2 (s1 , ys1 ) = E (h(s1 , ys1 , s2 , Ys2 ) − w(Y))2 | s1 , ys1
Z
= (h − w)2 [ys̄1 | s1 , ys1 ]dys̄1 .
Este mesmo argumento pode ser estendido para desenhos com múltiplas fases.
Portanto, um interesse futuro seria incorporar o planejamento amostral ótimo nos
modelos estudados neste trabalho. Por exemplo, ao selecionar uma amostra adaptativa
inicial e verificar alguns locais mais informativos na região, é possı́vel continuar o processo
de seleção da amostra propondo outros locais mais eficientes do que uma amostra aleatória
simples inicial. Ou ainda no plano adaptativo duplo, onde a segunda fase depende da
primeira. Nessa mesma proposta é possı́vel também avaliar um tamanho de amostra
ótimo.
111
Apêndice A
Resultados dos modelos ajustados
no Capı́tulo 3
A.1
Modelo (3.1)
Neste apêndice são apresentados os traços das cadeias dos parâmetros para o modelo
(3.1) e uma ilustração do sumário da distribuição a posteriori dos parâmetros obtido para
100 populações em 16 cenários gerados.
112
400
1000
3000
T
2000
T
1000
0
400
1000
iteração
T
400
500
7 9
0
1000
1000
0
iteração
1000
0
T
γ
400
iteração
8 12
0.4
0.1
β
0.3
1000
1000
12
400
iteração
0.0
400
400
iteração
γ
0
iteração
0
400
iteração
500
0
1000
0.1 0.3
β
400
0
14
γ
0
iteração
0.05 0.30
0
1000
7 10
β
0.1
1000
400
iteração
0.4
0.4
α
400
iteração
α
0
1000
iteração
0.1
0
α
400
0
γ
0
1500
1000
iteração
0 20
β
0.0
400
0.4
0.3
α
0.0
0
0
iteração
400
0
1000
400
1000
0
iteração
iteração
400
1000
iteração
Figura 1.1: Traços das cadeias dos parâmetros α, β, γ e total populacional T para um
dado artificial gerado fixando α = 0.05 e β ∈ {0.05, 0.1, 0.15, 0.2}, com respectivos valores
T
400
0
T
9
400
0
1000
400
1000
0
iteração
1000
T
γ
8
0.1
400
iteração
12
β
0.3
0
0
400
1000
0
400
iteração
iteração
1000
400
1000
iteração
0.4
iteração
400
iteração
500 1500
γ
β
0
1500
1000
iteração
0.05
1000
iteração
1000
0
0
1000
400
iteração
T
γ
400
iteração
0.25
0.4
α
400
0
6
0
0.1
0
1000
10
β
1000
400
iteração
0.1
400
iteração
0.0
0
1000
0.4
0.4
α
0.1
0
α
400
iteração
1000
500 2000
0
500 1500
γ
1000
iteração
12
400
8
0.05
0.1
0
10 12
β
α
0.4
0.25
verdadeiros em cinza.
0
400
1000
iteração
Figura 1.2: Traços das cadeias dos parâmetros α, β, γ e total populacional T para um
dado artificial gerado fixando α = 0.1 e β ∈ {0.05, 0.1, 0.15, 0.2}, com respectivos valores
verdadeiros em cinza.
113
400
2000
1000
0
T
400
1000
0
iteração
iteração
400
1000
iteração
11
0
1000
1000
T
400
iteração
γ
0
iteração
400
iteração
500
γ
0
1000
8
β
0.05
1000
0
8
400
0.30
0.4
α
400
1000
10 12
0.25
0.05
0
iteração
0.1
0
400
iteração
β
0.4
1000
iteração
1000
0
0
1000
400
iteração
T
γ
400
iteração
0.1
400
0
6
0
iteração
0
1000
12
0.5
1000
400
iteração
0.1
400
T
0
1000
β
0.3
α
0.0
0
α
400
iteração
1500
0
500 1500
1000
600 1600
γ
β
0.05
400
iteração
9.0 10.5
0.4
α
0.1
0
400
1000
iteração
Figura 1.3: Traços das cadeias dos parâmetros α, β, γ e total populacional T para um
dado artificial gerado fixando α = 0.15 e β ∈ {0.05, 0.1, 0.15, 0.2}, com respectivos valores
400
400
2000
0
400
1000
0
iteração
1000
T
γ
10
7
0.1
400
iteração
0
400
1000
0
400
iteração
iteração
1000
400
1000
iteração
0.4
β
α
0.1
0
400
iteração
2500
0
1000
iteração
0.4
1000
T
γ
0
1000
500
0.30
0.05
1000
400
iteração
β
0.4
400
iteração
400
iteração
T
0
1000
iteração
0.1
0
0
500
γ
0
1000
8.5 10.5
0.20
1000
iteração
400
iteração
0.05
400
T
0
1000
β
0.4
α
0.1
0
α
400
iteração
2000
0
1000
500 2000
1000
9 11
400
iteração
500
γ
0.05
0
8.0 10.0
0.20
β
0.4
0.1
α
verdadeiros em cinza.
0
400
1000
iteração
Figura 1.4: Traços das cadeias dos parâmetros α, β, γ e total populacional T para um
dado artificial gerado fixando α = 0.2 e β ∈ {0.05, 0.1, 0.15, 0.2}, com respectivos valores
verdadeiros em cinza.
114
●
●
●
●
●
EQM − α
●
●
●
0.050
●
●
●
●
●
●
0.020
●
●
●
●
●
●
●
●
●
●
●
●
●
●
α=0.10
●
●
●
●
●
●
●
α=0.05
●
0.8
●
●
●
●
α=0.20
●
0.6
EQM − γ
●
●
●
●
●
●
●
●
●
●
α=0.05
●
●
●
α=0.15
●
α=0.10
●
α=0.15
●
●
α=0.20
1.5
●
●
●
●
●
0.7
EQMR − T
●
●
●
1.0
●
α=0.10
●
●
●
α=0.20
●
0.5
0.9
●
●
α=0.15
●
●
●
0.4
0.7
0.5
α=0.10
α=0.20
●
●
●
●
α=0.05
α=0.15
●
●
α=0.20
●
●
●
●
●
0.02
0.9
●
●
1.0
●
●
α=0.15
●
●
●
●
α=0.10
●
●
0.08
●
●
EQM − β
●
α=0.05
0.5
●
α=0.05
0.7
0.9
●
●
●
α=0.20
0.5
Cobertura − β
●
α=0.15
0.06
α=0.10
●
Cobertura média − γ
●
0.04
α=0.05
●
●
●
●
●
0.0
0.3
Cobertura − T
●
0.035
1.0
0.8
0.6
●
●
●
0.4
Cobertura − α
●
●
α=0.05
α=0.10
(a)
α=0.15
α=0.20
α=0.05
●
●
α=0.10
●
●
●
α=0.15
●
●
●
●
●
α=0.20
(b)
Figura 1.5: Sumário da distribuição a posteriori dos parâmetros α, β, γ e T para 100
populações em 16 cenários com amostra inicial de 5%N e 10%N . Em (a) os triângulos
representam as probabilidades de cobertura dos intervalos HPD de 95% para a amostra
de 5%, os cı́rculos cheios para a amostra de 10% e a linha tracejada em vermelho o nı́vel
nominal de 95%. Em (b) estão o EQM para cada parâmetro e o EQMR para T .
115
A.2
Modelo de crescimento (3.4)
Nas Figuras 1.6 e 1.7 estão os resultados do ajuste do modelo (3.4) para duas das
populações artificiais geradas. A primeira é para uma população em crescimento ao longo
1000
1000
1000
400
0
1000
400
1000
iteração
T49
800
(e) γ
T37
800
0
10.2
9.8
400
(d) β
400
400
0
iteração
T25
800
700
0
γ
β
0.09
1000
(c) c
T13
(f) T1
1000
400
iteração
300
400
iteração
0
(b) b
T1
300
100
400
iteração
(a) a
0
0.12
−0.10
c
−1.3
0
0
400
1000
400
1000
400
400
iteração
−0.20
0
−1.7
b
−1.6
−1.9
a
do tempo e a segunda para uma que decresce.
0
400
iteração
iteração
iteração
iteração
(g) T13
(h) T25
(i) T37
(j) T49
1000
Figura 1.6: Sumário da distribuição a posteriori de Θ e do total populacional para uma
população em crescimento ao longo do tempo. Em (a)-(e) estão os traços das cadeias
da distribuição a posteriori dos parâmetros a, b, c, β e γ. De (f )-(j) estão os traços das
cadeias para os totais em alguns tempos. A linha em cinza representa o valor verdadeiro
usado na geração dos dados artificiais.
116
1000
400
10.2
9.6
0.08
γ
β
1000
400
1000
400
1000
400
1000
iteração
(e) γ
T37
450
0
0
(d) β
T25
500
0
0
iteração
200
200
1000
(c) c
T13
500
900
T1
(f) T1
1000
400
iteração
(b) b
500
400
iteração
0
T49
500
400
iteração
(a) a
0
0.13
−0.10
0
0
400
1000
200
1000
200
400
iteração
−0.20
c
1.0
0.7
b
−2.1
a
−2.4
0
0
400
iteração
iteração
iteração
iteração
(g) T13
(h) T25
(i) T37
(j) T49
1000
Figura 1.7: Sumário da distribuição a posteriori de Θ e do total populacional para uma
população em decrescimento ao longo do tempo. Em (a)-(e) estão os traços das cadeias
da distribuição a posteriori dos parâmetros a, b, c, β e γ. De (f )-(j) estão os traços das
cadeias para os totais em alguns tempos. A linha em cinza representa o valor verdadeiro
usado na geração dos dados artificiais.
117
Apêndice B
Cálculos envolvidos na inferência
para o modelo proposto
Neste apêndice são apresentadas expressões importantes envolvidas no algoritmo
RJMCMC, utilizado para inferência a posteriori para o modelo de mistura proposto (4.4).
Primeiramente estão as distribuições condicionais completas para o vetor paramétrico
Θ = (Xs̄ , Rs̄ , s̄ , Cs̄ , Ys̄ , α, β, λ, ν). Dessa forma, a variável resposta Ys̄ , por exemplo,
é também considerada um parâmetro e portanto é estimada da mesma maneira que
as demais quantidades. Além disso, será apresentada a probabilidade de aceitação do
algoritmo RJMCMC, passando por alguns cálculos importantes.
B.1
Distribuições condicionais completas
Para as distribuições condicionais completas que apresentam forma analı́tica
conhecida, o Amostrador de Gibbs pode ser utilizado. Para as que não apresentam
forma fechada um método indireto de amostragem é necessário, em particular, passos
de Metropolis-Hastings podem caracterizar a obtenção dessas amostras a posteriori. As
118
distribuições apresentadas a seguir são obtidas ao assumir-se as seguintes distribuições a
priori independentes para o modelo (4.4):
λj ∼ Gama(d, ν), j = 1, . . . , R,
ν ∼ Gama(e, f ),
α ∼ Beta(aα , bα ),
β ∼ Beta(aβ , bβ ).
A seguir estão as distribuições condicionais completas.
• De α:
[α | ·] ∝
αXs +Xs̄ (1 − α)N −Xs −Xs̄ aα −1
α
(1 − α)bα −1 .
N
1 − (1 − α)
Para gerar amostras desta distribuição deve-se utilizar passos de Metropolis-Hastings,
visto que esta não apresenta forma analı́tica conhecida.
• De β:
[β | ·] ∝
β Rs +Rs̄ (1 − β)Xs +Xs̄ −Rs −Rs̄ aβ −1
β
(1 − β)bβ −1 .
1 − (1 − β)Xs +Xs̄
Como [β | ·] também não possui forma analı́tica fechada, deve-se utilizar passos de
Metropolis-Hastings, para amostrar desta distribuição de probabilidade.
• De λ: Para j = 1, . . . , Rs + Rs̄ ,
P
[λj | ·] ∝
λj
{i:i =j}
Yi +d−1
exp{−λj (ν + Cj )}
.
1 − exp(−λj )
(2.1)
Observe que [λj | ·] não possui forma fechada conhecida. Para gerar amostras de sua
distribuição a posteriori é necessário utilizar um passo de Metropolis-Hastings.
• De s̄ : Para i, j ∈ s̄,
119
λYj i exp(−λj )
Cj
[i = j | ·] ∝
.
Xs + Xs̄ Yi ![1 − exp(−λj )]
Neste caso, i é amostrado diretamente dos possı́veis valores, com a probabilidade
acima. Note que o modelo proposto é aplicável a populações divididas em redes nãovazias, logo toda rede deve ter pelo menos uma observação. Portanto, na condicional
completa de i ainda é incluı́do uma indicadora de que todas as Rs̄ redes tenham pelo
menos uma unidade alocada.
• De (Xs̄ , Cs̄ ):
m
Y
αXs̄ (1 − α)−Xs̄
Zi × gil ,l
(1 − β)Xs̄
Pl−1
PN −X+R l
Zi − k=0 Zik (N − Xs − Xs̄ )! (1 − (1 − β)Xs +Xs̄ )
i=1
l=1
Y C Y
1
R−(Xs̄ −Rs̄ )
× (Xs + Xs̄ )−(Xs +Xs̄ )
Cj j
(Cj − 1)!
[Xs̄ , Cs̄ | ·] ∝
{j:j∈s̄}
×
Y
{j:j∈s̄}
{j:j∈s̄}
exp{−λj Cj }
.
[1 − exp(−λj )]Cj
A amostragem de (Xs̄ , Cs̄ ) é feita de forma conjunta, e como a distribuição condicional
completa não tem forma analı́tica fechada, o algoritmo de Metropolis-Hastings é utilizado.
A proposta de Xs̄ é baseada num passeio aleatório em torno do valor corrente de Xs̄ e a
proposta de Cs̄ baseia-se na Multinomial(Xs̄ − Rs̄ , R1s̄ 1Rs̄ ).
• De Ys̄ :
P
Y λj
Q
[Ys̄ | ·] ∝
{j:j∈s̄}
{i:i =j}
{i:i =j}
Yi
Yi !
.
(2.2)
Portanto, Ys̄i ∼ Poisson truncada(λs̄i ), j ∈ s̄. Logo, para amostrar desta distribuição
podemos utilizar o Amostrador de Gibbs.
• De ν:
[ν | ·] ∝ ν
(Rs +Rs̄ )d+e−1
exp{−ν(f +
RX
s +Rs̄
λj )}.
j=1
Logo, ν ∼ Gamma ((Rs + Rs̄ )d + e, f +
PRs +Rs̄
j=1
podemos utilizar o Amostrador de Gibbs.
120
λj ) e para amostrar desta distribuição
B.2
Probabilidade
de
aceitação
do
algoritmo
RJMCMC
Se é proposto um movimento de “divisão”, ou seja que leva de (Cj ∗ , j ∗ , λj ∗ ) a
(Cj1 , Cj2 , j1 , j2 , λj1 , λj2 ), para j ∗ , j1 e j2 pertencentes a s̄, o movimento é aceito com
probabilidade dada por min(1, A), tal que A é dada por (4.3), e para este modelo tem a
seguinte forma:
P
A=
exp{−(Cj1 λj1 + Cj2 λj2 )}λj1
{i:i =j1 }
Yi
P
λj 2
P
exp{−Cj ∗ λj ∗ }λj ∗
{i:i =j2 }
{i:i =j ∗ }
Yi
Yi
(1 − exp(−λj1 ))−Cj1 (1 − exp(−λj2 ))−Cj2
(1 − exp(−λj ∗ ))−Cj∗
C
C
Cj1j1 Cj2j2
[{ij1 , ij2 }] p(Rs̄ + 1)
(Cj ∗ − 1)!
−(Cj1 +Cj2 −Cj ∗ )
×
×
(Rs + Rs̄ )
×
× (Rs̄ + 1)
C ∗
[{ij ∗ }]
p(Rs̄ )
(Cj1 − 1)!(Cj2 − 1)!
Cj ∗j
d−1
νd
λj1 λj2
exp{−ν(λj1 + λj2 − λj ∗ )}
×
Γ(d)
λj ∗
pk|k+1
Cj ∗
×ρ
,
×
pk+1|k Palloc q(u1 )q(u2 )
Xs + Xs̄
onde a primeira linha consiste da razão das verossimilhança avaliada nestes pontos, a
segunda e terceira linha apresentam a distribuição a priori dos parâmetros. No final da
segunda linha, o termo Rs̄ +1 vem da razão (Rs̄ +1)!/Rs̄ !, devido a ordem dos parâmetros.
A última linha apresenta a razão das probabilidades de transição entre os espaços, onde
Palloc é a probabilidade desta particular alocação ser feita, e o último termo é o jacobiano
da transformação.
121
Referências Bibliográficas
Besag, J. (1974) Spatial interaction and the statistical analysis of lattice systems. Journal
of the Royal Statistical Society. Series B (Methodological), 36, 192–236.
Bolfarine, H. e Zacks, S. (1992) Prediction theory for finite populations. Springer-Verlag
New York:.
Brown, J. A. e Manly, B. J. F. (1998) Restricted adaptive cluster sampling.
Environmental and Ecological Statistics, 5, 49–63.
Cassel, C.-M., Särndal, C.-E. e Wretman, J. H. (1977) Foundations of inference in survey
sampling. Wiley New York.
Clayton, D. e Bernardinelli, L. (1992) Bayesian methods for mapping disease risk.
Geographical and environmental epidemiology: methods for small area studies, 205–
220.
Conners, M. e Schwager, S. (2002) The use of adaptive cluster sampling for hydroacoustic
surveys. ICES Journal of Marine Science: Journal du Conseil, 59, 1314–1325.
Danaher, P. e King, M. (1994) Estimating rare household characteristics using adaptive
sampling. NZ Stat, 29, 14–23.
Diggle, P. J. et al. (1983) Statistical analysis of spatial point patterns. Academic Press.
Felix-Medina, M. H. e Thompson, S. K. (2004) Adaptive cluster double sampling.
Biometrika, 91, 877.
122
Gelman, A. (2006) Prior distributions for variance parameters in hierarchical models
(comment on article by browne and draper). Bayesian analysis, 1, 515–534.
Gelman, A., Carlin, J. B., Stern, H. S. e Rubin, D. B. (1995) Bayesian data analysis.
Chapman & Hall.
Geweke, J. (1992) Evaluating the accuracy of sampling-based approaches to the
calculations of posterior moments. Em Bayesian Statistics (eds. A. D. J. Bernardo,
J. Berger e A. Smith). Oxford University Press, New York.
Gilks, W. R. e Wild, P. (1992) Adaptive rejection sampling for Gibbs sampling. Applied
Statistics, 337–348.
Green, P. (1995) Reversible jump markov chain monte carlo computation and bayesian
model determination. Biometrika, 82, 711–732.
Horvitz, D. e Thompson, D. (1952) A generalization of sampling without replacement
from a finite universe. Journal of the American Statistical Association, 47, 663–685.
Kalton, G. (1991) Sampling flows of mobile human populations. Survey Methodology,
17, 183–194.
— (2001) Practical methods for sampling rare and mobile populations. Em Proceedings
of the Annual Meeting of the American Statistical Association, 5–9.
Kalton, G. e Anderson, D. (1986) Sampling rare populations. Journal of the Royal
Statistical Society. Series A (General), 149, 65–82.
Lambert, D. (1992) Zero-inflated poisson regression, with an application to defects in
manufacturing. Technometrics, 34, 1–14.
Marin, J.-M., Mengersen, K. e Robert, C. P. (2005) Bayesian modelling and inference on
mixtures of distributions. Handbook of statistics, 25, 459–507.
McDonald, L. L. (2004) Sampling rare populations.
Em Sampling rare or elusive
species: concepts, designs, and techniques for estimating population parameters (ed.
W. Thompson), cap. 4, 11–42. Island Press Washington, DC, USA.
123
Migon, H. e Gamerman, D. (2006) Generalized exponential growth models a bayesian
approach. Journal of Forecasting, 12, 573–584.
Neyman, J. e Scott, E. (1958) Statistical approach to problems of cosmology. Journal of
the Royal Statistical Society. Series B (Methodological), 20, 1–43.
R Core Team (2013) R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria. URLhttp://www.R-project.
org.
Raftery, A. E. e Lewis, S. M. (1992) One long run with diagnostics: Implementation
strategies for markov chain monte carlo. Statistical Science, 7, 493–497.
Rapley, V. (2004) Model-Based Adaptive Cluster Sampling. Tese de Doutorado, University
of Southampton.
Rapley, V. e Welsh, A. (2008) Model-based inferences from adaptive cluster sampling.
Bayesian Analysis, 3, 717–736.
Richardson, S. e Green, P. (1997) On bayesian analysis of mixtures with an unknown
number of components. Journal of the Royal Statistical Society, Series B, 59, 731–792.
Roeder, K. e Wasserman, L. (1997) Practical bayesian density estimation using mixtures
of normals. Journal of the American Statistical Association, 92, 894–902.
Roesch, F. (1993) Adaptive cluster sampling for forest inventories. Forest Science, 39,
655–669.
Salehi, M. M. e Seber, G. (1997) Two-stage adaptive cluster sampling. Biometrics, 53,
959–970.
Skinner, C., Holt, D. e Smith, T. (1989) Analysis of complex surveys. John Wiley &
Sons.
Smith, D., Brown, J. e Lo, N. (2004) Application of adaptive sampling to biological
populations. Em Sampling rare or elusive species: concepts, designs, and techniques for
124
estimating population parameters. Island, Washington, DC, USA (ed. W. Thompson),
cap. 5, 77–122. Island Press Washington, DC, USA.
Smith, D., Conroy, M. e Brakhage, D. (1995) Efficiency of adaptive cluster sampling for
estimating density of wintering waterfowl. Biometrics, 51, 777–788.
Spiegelhalter, D. J., Best, N. G., Carlin, B. P. e Van Der Linde, A. (2002) Bayesian
measures of model complexity and fit. Journal of the Royal Statistical Society: Series
B (Statistical Methodology), 64, 583–639.
Sudman, S. e Kalton, G. (1986) New developments in the sampling of special populations.
Annual Review of Sociology, 12, 401–429.
Tanner, M. A. (1993) Tools for Statistical Inference: Methods for the Exploration of
Posterior Distributions and Likelhood Functions. Springer-Verlag.
Thompson, S. e Collins, L. (2002) Adaptive sampling in research on risk-related
behaviors. Drug and Alcohol Dependence, 68, 57–67.
Thompson, S. K. (1990) Adaptive cluster sampling. Journal of the American Statistical
Association, 85, 1050–1059.
— (1991) Stratified adaptive cluster sampling. Biometrika, 78, 389–397.
Thompson, S. K. e Seber, G. A. F. (1996) Adaptive sampling. Wiley New York.
Turk, P. e Borkowski, J. (2005) A review of adaptive cluster sampling: 1990–2003.
Environmental and Ecological Statistics, 12, 55–94.
Viallefont, V., Richardson, S. e Green, P. J. (2002) Bayesian analysis of Poisson mixtures.
Journal of Nonparametric Statistics, 14, 181–202.
125
Download

Modelos de Previs˜ao para Populaç˜oes Raras e Agrupadas sob