Trabalho 3 49. Para a mesma população que no problema anterior [U = U1 ∪U2 := {1, 3, 5}∪{2, 4}] decidimos escolher as unidades a integrar a amostra de tamanho 3 de seguinte forma: (a) escolhe-se ao acaso um dos grupos e, também ao acaso, uma unidade dentro desse grupo; (b) para seleccionar a segunda unidade, repete-se o passo 1 até encontrar uma unidade distinta da primeira; (c) para seleccionar a terceira unidade, repete-se o passo 1 até encontrar uma unidade distinta das duas primeiras. Descreva o plano de amostragem e o estimador de Horvitz-Thompson que lhe está associado. 50. O que acontece no problema anterior se seleccionarmos o grupo 1 com probabilidade 0.6 (logo o grupo 2 é seleccionado com probabilidade 0.4) e mantivermos o resto do esquema de amostragem? 51. Mostre que num plano de amostragem é uni-cluster se e só se para todo o par de unidades i, j ∈ U se tiver que πij = 0 ou que πij = πi = πj . Proposta de solução: 49. Representemos por Q(i) a probabilidade de, ao executar o passo 1 do procedimento descrito, escolhermos a unidade i. Então 1×1 = 1 se i ∈ U1 2 3 6 Q(i) = 1×1 = 1 se i ∈ U2 2 2 4 Representemos agora por P(s) a probabilidade de obtermos a amostra s, executando o procedimento descrito. Dadas as unidades i1 , i2 , i3 , distintas entre si, temos P(i1 , i2 , i3 ) k = P(i1 , i2 )Q(i3 ) + P(i1 , i2 ) Q(i1 ) + Q(i2 ) Q(i3 ) + · · · + P(i1 , i2 ) Q(i1 ) + Q(i2 ) = P(i1 , i2 )Q(i3 ) ∞ X Q(i3 ) + · · · k Q(i1 ) + Q(i2 ) k=0 P(i1 , i2 )Q(i3 ) = , 1 − Q(i1 ) − Q(i2 ) correspondendo à probabilidade de já ter escolhido as unidades i1 e i2 e prevendo a possibilidade de repetição de algumas destas duas unidades até que finalmente seleccionemos a unidade i3 . Há agora que calcular P(i1 , i2 ) procedendo de forma análoga: P(i1 , i2 ) = Q(i1 )Q(i2 ) + Q(i21 )Q(i2 ) + · · · + Q(i1 )k Q(i3 ) + · · · = Q(i2 ) ∞ X Q(i1 )k k=1 Q(i1 )Q(i2 ) , = 1 − Q(i1 ) 1 pelo que se segue finalmente que P(i1 , i2 , i3 ) = Q(i1 )Q(i2 )Q(i3 ) . (1 − Q(i1 ))(1 − Q(i1 ) − Q(i2 )) (1) A expressão obtida torna evidente a necessidade de distinguir amostras em função da ordem pela qual as unidades aparecem. Assim o suporte do plano de amostragem é constituı́do pelos arranjos das 5 unidades da população escolhidas 3 a 3. O suporte do plano de amostragem 5! é constituı́do por (5−2)! = 60 amostras. Atendendo à expressão da Q é evidente que, para o cálculo das probabilidades, basta indicar a que grupo pertence cada uma da unidades da amostra. Temos assim os seguintes casos possı́veis e respectivas probabilidades: i1 i2 i3 U1 U1 U1 1 6 1 6 U1 U1 U2 1 6 U1 U2 U1 U1 U2 U2 P(i1 , i2 , i3 ) × × 16 1 = 5 4 120 6 × 6 1 6 1 6 × 1 6 × 5 6 × 4 6 × 14 × 5 7 6 × 12 × 14 × 5 7 6 × 12 1 4 1 4 1 6 i1 i2 i3 U2 U1 U1 = 1 80 U2 U1 U2 = 1 70 U2 U2 U1 = 1 4 P(i1 , i2 , i3 ) × × 16 1 = 3 7 63 4 × 12 1 6 1 4 × 16 × 3 7 4 × 12 1 4 1 4 × 1 4 × 1 6 × 2 4 3 4 = 1 42 = 1 36 3 140 Note-se que não há lugar ao caso U2 , U2 , U2 pois este grupo apenas tem 2 unidades. Para completar as descrição do plano de amostragem há que enumerar as amostras correspondentes a cada caso. U1 , U1 , U1 (6 amostras) U1 , U1 , U2 (12 amostras) U1 , U2 , U1 (12 amostras) U1 , U2 , U2 (6 amostras) U2 , U1 , U1 (12 amostras) U2 , U1 , U2 (6 amostras) U2 , U2 , U1 (6 amostras) (1,3,5), (5,3,1) (1,3,2), (5,1,2), (3,5,4), (1,2,3), (5,2,1), (3,4,5), (1,2,4), (5,4,2) (2,1,3), (2,5,1), (4,3,5), (2,1,4), (4,5,2) (2,4,1), (4,2,5) (1,5,3), (3,1,5), (3,5,1), (5,1,3), (3,1,2), (1,5,4), (5,3,4) (3,2,1), (1,4,5), (5,4,3) (1,4,2), (1,3,4), (3,1,4), (1,5,2), (5,1,4), (3,5,2), (5,3,2), (1,4,3), (3,4,1), (1,2,5), (5,4,1), (3,2,5), (5,2,3), (3,2,4), (3,4,2), (5,2,4), (2,3,1), (4,1,3), (4,3,1), (2,1,5), (4,1,5), (4,5,1), (2,3,5), (2,5,3), (4,5,3) (4,1,2), (2,3,4), (4,3,2), (2,5,4), (4,2,1), (2,4,3), (4,2,3), (2,4,5), É imediato verificar que obtivemos de facto uma distibuição de probabilidade sobre o suporte 2 do plano de amostragem: 6× 1 1 1 3 1 1 1 + 12 × + 12 × +6× + 12 × +6× +6× = 1. 120 80 70 140 63 42 36 Finalmente, a descrição do estimador de Horvitz-Thompson obtém-se desde que se descrevam as probabilidades de inclusão de primeira ordem. Ora, com as tabelas precedentes encontramos de forma imediata os seguintes valores: π1 = π3 = π5 = π2 = π4 = 6 8 8 2×3 8 2 2 + + + + + + ≈ 0.5373 120 80 70 140 63 42 63 6 6 6×3 6 6 6 + + + + + ≈ 0.6940. 80 70 140 63 42 63 50. Com as mesmas notações que no problema anterior, as probabilidades associadas ao passo 1 do procedimento são 1 1 se i ∈ U1 0.6 × = 3 5 Q(i) = 0.4 × 1 = 1 se i ∈ U2 2 5 A expressão genérica para a probabilidade de cada amostra continua a ser descrita por (1), utilizando-se agora a nova função Q. O suporta do plano de amostragem é, evidentemente, o mesmo que foi descrito no problema anterior. Substituindo-se os valores obtemos P(i1 , i2 , i3 ) = 1 5 × 4 5 1 5 × × 53 1 50 1 . 60 para qualquer amostra (i1 , i2 , i3 ). Isto é, todas as amostras são igualmente prováveis pelo que estamos na presença da versão completa de um SRS(5, 3). Segue-se então que πi = 3 = 0.6, 5 i = 1, 2, 3, 4, 5, o que descreve o estimador de Horvtiz-Thompson. 51. Suponhamos que o plano de amostragem (S, P) é uni-cluster. Consideremos duas unidades distintas i, j ∈ U tais que πij 6= 0. Então existe uma amostra s1 ∈ S tal que i, j ∈ s1 . Se existe s2 ∈ S tal que i ∈ s2 então, como o plano é uni-cluster e s1 ∩ s2 6= ∅, segue-se que j ∈ s2 . Analogamente, se existe s3 ∈ S tal que j ∈ s3 , também se conclui que i ∈ s3 . Isto é {s ∈ S : i ∈ s} = {s ∈ S : j ∈ s} que são então iguais ao conjunto {s ∈ S : i, j ∈ s}. Ou seja, concluı́mos que πi = πj = πij . Se não existir nenhuma amostra além de s1 que contenha i (ou j) a argumentação anterior também impede que exista alguma outra amostra que contenha j (ou i) e neste caso πi = πj = πij = P(s1 ). Suponhamos agora que, para quaisquer unidades i, j ∈ U se tem que πij = 0 ou πi = πj = πij . Consideremos duas amostras s1 , s2 ∈ S tais que s1 ∩ s2 6= ∅ e suponhamos que s1 6≈ s2 . Então existem duas unidades i ∈ s1 ∩ s2 e, sem perda de generalidade, j ∈ s1 mas j 6∈ s2 , pelo que πij ≥ P(s1 ) > 0. Então terá de acontecer que πij = πi = πj , pelo que se segue que P s:i∈s,j6∈s P(s) = 0, isto é, que em S não existem amostras tais que i ∈ s e j 6∈ s, pelo que concluı́mos que j ∈ s2 , o que está em contradição com a suposição inicial. 3