Trabalho 3
49. Para a mesma população que no problema anterior [U = U1 ∪U2 := {1, 3, 5}∪{2, 4}] decidimos
escolher as unidades a integrar a amostra de tamanho 3 de seguinte forma:
(a) escolhe-se ao acaso um dos grupos e, também ao acaso, uma unidade dentro desse grupo;
(b) para seleccionar a segunda unidade, repete-se o passo 1 até encontrar uma unidade
distinta da primeira;
(c) para seleccionar a terceira unidade, repete-se o passo 1 até encontrar uma unidade
distinta das duas primeiras.
Descreva o plano de amostragem e o estimador de Horvitz-Thompson que lhe está associado.
50. O que acontece no problema anterior se seleccionarmos o grupo 1 com probabilidade 0.6
(logo o grupo 2 é seleccionado com probabilidade 0.4) e mantivermos o resto do esquema de
amostragem?
51. Mostre que num plano de amostragem é uni-cluster se e só se para todo o par de unidades
i, j ∈ U se tiver que πij = 0 ou que πij = πi = πj .
Proposta de solução:
49. Representemos por Q(i) a probabilidade de, ao executar o passo 1 do procedimento descrito,
escolhermos a unidade i. Então

 1×1 = 1

se i ∈ U1

 2
3
6
Q(i) =



 1×1 = 1
se i ∈ U2
2 2
4
Representemos agora por P(s) a probabilidade de obtermos a amostra s, executando o procedimento descrito. Dadas as unidades i1 , i2 , i3 , distintas entre si, temos
P(i1 , i2 , i3 )
k
= P(i1 , i2 )Q(i3 ) + P(i1 , i2 ) Q(i1 ) + Q(i2 ) Q(i3 ) + · · · + P(i1 , i2 ) Q(i1 ) + Q(i2 )
= P(i1 , i2 )Q(i3 )
∞ X
Q(i3 ) + · · ·
k
Q(i1 ) + Q(i2 )
k=0
P(i1 , i2 )Q(i3 )
=
,
1 − Q(i1 ) − Q(i2 )
correspondendo à probabilidade de já ter escolhido as unidades i1 e i2 e prevendo a possibilidade de repetição de algumas destas duas unidades até que finalmente seleccionemos a
unidade i3 . Há agora que calcular P(i1 , i2 ) procedendo de forma análoga:
P(i1 , i2 )
= Q(i1 )Q(i2 ) + Q(i21 )Q(i2 ) + · · · + Q(i1 )k Q(i3 ) + · · ·
= Q(i2 )
∞
X
Q(i1 )k
k=1
Q(i1 )Q(i2 )
,
=
1 − Q(i1 )
1
pelo que se segue finalmente que
P(i1 , i2 , i3 ) =
Q(i1 )Q(i2 )Q(i3 )
.
(1 − Q(i1 ))(1 − Q(i1 ) − Q(i2 ))
(1)
A expressão obtida torna evidente a necessidade de distinguir amostras em função da ordem
pela qual as unidades aparecem. Assim o suporte do plano de amostragem é constituı́do pelos
arranjos das 5 unidades da população escolhidas 3 a 3. O suporte do plano de amostragem
5!
é constituı́do por (5−2)!
= 60 amostras. Atendendo à expressão da Q é evidente que, para
o cálculo das probabilidades, basta indicar a que grupo pertence cada uma da unidades da
amostra. Temos assim os seguintes casos possı́veis e respectivas probabilidades:
i1
i2
i3
U1 U1 U1
1
6
1
6
U1 U1 U2
1
6
U1 U2 U1
U1 U2 U2
P(i1 , i2 , i3 )
× × 16
1
=
5
4
120
6 × 6
1
6
1
6
×
1
6
×
5
6
×
4
6
× 14 ×
5
7
6 × 12
× 14 ×
5
7
6 × 12
1
4
1
4
1
6
i1
i2
i3
U2 U1 U1
=
1
80
U2 U1 U2
=
1
70
U2 U2 U1
=
1
4
P(i1 , i2 , i3 )
× × 16
1
=
3
7
63
4 × 12
1
6
1
4
× 16 ×
3
7
4 × 12
1
4
1
4
×
1
4
×
1
6
×
2
4
3
4
=
1
42
=
1
36
3
140
Note-se que não há lugar ao caso U2 , U2 , U2 pois este grupo apenas tem 2 unidades. Para
completar as descrição do plano de amostragem há que enumerar as amostras correspondentes
a cada caso.
U1 , U1 , U1 (6 amostras)
U1 , U1 , U2 (12 amostras)
U1 , U2 , U1 (12 amostras)
U1 , U2 , U2 (6 amostras)
U2 , U1 , U1 (12 amostras)
U2 , U1 , U2 (6 amostras)
U2 , U2 , U1 (6 amostras)
(1,3,5),
(5,3,1)
(1,3,2),
(5,1,2),
(3,5,4),
(1,2,3),
(5,2,1),
(3,4,5),
(1,2,4),
(5,4,2)
(2,1,3),
(2,5,1),
(4,3,5),
(2,1,4),
(4,5,2)
(2,4,1),
(4,2,5)
(1,5,3), (3,1,5), (3,5,1), (5,1,3),
(3,1,2),
(1,5,4),
(5,3,4)
(3,2,1),
(1,4,5),
(5,4,3)
(1,4,2),
(1,3,4), (3,1,4), (1,5,2),
(5,1,4), (3,5,2), (5,3,2),
(1,4,3), (3,4,1), (1,2,5),
(5,4,1), (3,2,5), (5,2,3),
(3,2,4), (3,4,2), (5,2,4),
(2,3,1), (4,1,3), (4,3,1), (2,1,5),
(4,1,5), (4,5,1), (2,3,5), (2,5,3),
(4,5,3)
(4,1,2), (2,3,4), (4,3,2), (2,5,4),
(4,2,1), (2,4,3), (4,2,3), (2,4,5),
É imediato verificar que obtivemos de facto uma distibuição de probabilidade sobre o suporte
2
do plano de amostragem:
6×
1
1
1
3
1
1
1
+ 12 ×
+ 12 ×
+6×
+ 12 ×
+6×
+6×
= 1.
120
80
70
140
63
42
36
Finalmente, a descrição do estimador de Horvitz-Thompson obtém-se desde que se descrevam
as probabilidades de inclusão de primeira ordem. Ora, com as tabelas precedentes encontramos de forma imediata os seguintes valores:
π1 = π3 = π5 =
π2 = π4 =
6
8
8
2×3
8
2
2
+
+
+
+
+
+
≈ 0.5373
120 80 70
140
63 42 63
6
6
6×3
6
6
6
+
+
+
+
+
≈ 0.6940.
80 70
140
63 42 63
50. Com as mesmas notações que no problema anterior, as probabilidades associadas ao passo 1
do procedimento são

1
1


se i ∈ U1
0.6 × =


3
5
Q(i) =



 0.4 × 1 = 1
se i ∈ U2
2
5
A expressão genérica para a probabilidade de cada amostra continua a ser descrita por (1),
utilizando-se agora a nova função Q. O suporta do plano de amostragem é, evidentemente, o
mesmo que foi descrito no problema anterior. Substituindo-se os valores obtemos
P(i1 , i2 , i3 ) =
1
5
×
4
5
1
5
×
× 53
1
50
1
.
60
para qualquer amostra (i1 , i2 , i3 ). Isto é, todas as amostras são igualmente prováveis pelo que
estamos na presença da versão completa de um SRS(5, 3). Segue-se então que
πi =
3
= 0.6,
5
i = 1, 2, 3, 4, 5,
o que descreve o estimador de Horvtiz-Thompson.
51. Suponhamos que o plano de amostragem (S, P) é uni-cluster. Consideremos duas unidades
distintas i, j ∈ U tais que πij 6= 0. Então existe uma amostra s1 ∈ S tal que i, j ∈ s1 . Se
existe s2 ∈ S tal que i ∈ s2 então, como o plano é uni-cluster e s1 ∩ s2 6= ∅, segue-se que
j ∈ s2 . Analogamente, se existe s3 ∈ S tal que j ∈ s3 , também se conclui que i ∈ s3 . Isto é
{s ∈ S : i ∈ s} = {s ∈ S : j ∈ s} que são então iguais ao conjunto {s ∈ S : i, j ∈ s}. Ou seja,
concluı́mos que πi = πj = πij . Se não existir nenhuma amostra além de s1 que contenha i (ou
j) a argumentação anterior também impede que exista alguma outra amostra que contenha
j (ou i) e neste caso πi = πj = πij = P(s1 ).
Suponhamos agora que, para quaisquer unidades i, j ∈ U se tem que πij = 0 ou πi = πj = πij .
Consideremos duas amostras s1 , s2 ∈ S tais que s1 ∩ s2 6= ∅ e suponhamos que s1 6≈ s2 . Então
existem duas unidades i ∈ s1 ∩ s2 e, sem perda de generalidade, j ∈ s1 mas j 6∈ s2 , pelo
que πij ≥ P(s1 ) > 0. Então terá de acontecer que πij = πi = πj , pelo que se segue que
P
s:i∈s,j6∈s P(s) = 0, isto é, que em S não existem amostras tais que i ∈ s e j 6∈ s, pelo que
concluı́mos que j ∈ s2 , o que está em contradição com a suposição inicial.
3
Download

proposta de resolução