INTERVALOS DE CONFIANÇA PARA A MÉDIA POPULACIONAL
USANDO AMOSTRAGEM EM CONJUNTOS ORDENADOS
1
Cesar Augusto TACONELI
Maria Cecilia Mendes BARRETO1
RESUMO: A amostragem em conjuntos ordenados convém ser aplicada nas situações em que se
pretende inferir sobre uma variável de difícil mensuração, havendo, no entanto, a possibilidade de
ordenação das unidades amostrais de maneira simples e eficaz dentro das amostras. Para os
diversos estimadores usados em amostragem de conjuntos ordenados, propriedades como vício e
eficiência relativa a outros planejamentos amostrais têm sido estudadas. Pouca atenção, entretanto,
tem sido dada ao estudo de propriedades assintóticas. Neste trabalho foi feita uma revisão das
propriedades do estimador média via amostragem por conjuntos ordenados com o objetivo de
estudar através de simulação suas propriedades assintóticas. Considerando a distribuição normal,
foi verificada a normalidade do estimador tanto para ordenação perfeita como imperfeita e também
a adequabilidade, no caso de ordenação perfeita ou pequenos erros de ordenação, do uso de
intervalos de confiança assintóticos usando a distribuição normal. Considerando a distribuição
exponencial, verificou-se que a distribuição empírica da média da amostra por conjuntos ordenados
é gama, e na obtenção de intervalos assintóticos de confiança a não adequabilidade no uso de
distribuição gama.
PALAVRAS-CHAVE: Amostragem em conjuntos ordenados; intervalos de confiança; propriedades
assintóticas; estatísticas de ordem.
1 Introdução
Possíveis restrições à obtenção de uma amostra numerosa, decorrentes de dificuldades
de mensuração da variável de interesse, seja pelos altos custos ou difícil acesso a tal medida,
tornam necessária a utilização de esquemas amostrais que produzam estimadores mais
precisos com um pequeno número de mensurações tomadas. A amostragem por conjuntos
ordenados (ranked set sampling - RSS) é uma boa alternativa, cujo desenvolvimento recente
tem em vista aplicações em estudos no meio ambiente.
A amostragem por conjuntos ordenados é propícia quando a variável de interesse é de
difícil obtenção (por exemplo, altura de árvores numa região densamente arborizada), mas há
uma variável concomitante cuja mensuração seja facilmente obtida e seu valor esteja de
alguma forma associado ao valor da variável de interesse (neste caso, o diâmetro do tronco a
uma determinada distância do solo poderia prover condições de ordenar as árvores
amostradas, desde que existam indícios de forte correlação entre as duas variáveis). Essa
1
Departamento de Estatística, Universidade Federal de São Carlos - UFSCar, CEP: 13565-905, São Carlos, SP,
Brasil. E-mail: [email protected] / [email protected].
Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003
41
variável “ajuda” pode ser também, por exemplo, a própria estimativa do valor pelo qual
estamos interessados, fornecida por um especialista, sem que de fato a meçamos. A grande
vantagem da amostragem em conjuntos ordenados está no aumento da precisão da média da
amostra em conjuntos ordenados em relação a média da amostra aleatória simples (AAS)
como estimador da média populacional (Dell e Clutter, 1972).
Outros esquemas amostrais também úteis em estudos ambientais são, por exemplo,
amostragem adaptativa e captura-recaptura. A amostragem adaptativa é apropriada quando o
objetivo é estimar o tamanho populacional de uma determinada espécie de animais ou
plantas que habitam uma certa região. Consiste na divisão da região em N partes de mesma
área. Seleciona-se, então, uma amostra de n divisões, nas quais verifica-se a existência de
animais ou plantas da espécie de interesse. Caso a existência seja verificada, realiza-se
naquela divisão a contagem e, adicionalmente, seleciona-se as divisões ao redor para
posterior verificação e possível contagem. O processo de amostragem continua até que nas
novas divisões não existam animais ou plantas de interesse. Ao final têm-se n ′ > n divisões
selecionadas.
Com objetivo semelhante ao da amostragem adaptativa, a amostragem por capturarecaptura tem como primeiro passo a captura de uma amostra de X animais, que são
marcados e soltos em seu ambiente. Uma segunda amostra de y animais é extraída
posteriormente, na qual verifica-se a presença de x animais marcados. A estimação do total
populacional parte do pressuposto de que a proporção de animais marcados na segunda
amostra é consistente com a proporção de animais marcados na população, embora possíveis
distorções na proporção amostral possam ser identificadas e controladas pelo pesquisador.
Estimadores apropriados para esses tipos de amostragem são apresentados em
Thompson (1992).
A amostragem por conjuntos ordenados foi introduzida na década de 50 por McIntyre
(1952) e vem sendo desenvolvida desde então por pesquisadores como Stokes (1995), Sinha
et al. (1996), Barnett e Moore (1997) e Kaur et al. (1997), Barnett (1999), Barreto (2000),
Barnett e Barreto (2001) e Nahhas et al. (2002).
Pouca atenção, entretanto, tem sido dada ao estudo das propriedades assintóticas de
estimadores baseado em amostragem em conjuntos ordenados. Uma aplicação imediata é a
obtenção de intervalos de confiança.
Por exemplo, Chen (1999) apresenta uma maneira de estimar a função densidade de
uma distribuição considerando amostragem por conjuntos ordenados. Um estudo sobre as
propriedades dos quantis de amostras em conjuntos ordenados é apresentado em
Chen (2000), que demonstra sua consistência forte e a normalidade assintótica. Como uma
das aplicações desses resultados, é apresentada a construção de um intervalo de confiança
para o quantil p baseado em amostragem por conjuntos ordenados.
No presente trabalho inicia-se um estudo que visa avaliar as propriedades assintóticas e
o uso de intervalos de confiança usuais para a média populacional a partir do estimador
média amostral em conjuntos ordenados. Para isso, realiza-se um estudo desse estimador
considerando ordenação perfeita e imperfeita. Por meio de simulação, procurou-se identificar
sua distribuição empírica, para ambos os tipos de ordenação, considerando uma população
com distribuição simétrica (normal) e uma outra com distribuição assimétrica (exponencial)
e verificar a adequabilidade da utilização de intervalos assintóticos baseados na distribuição
Normal e t-Student.
42
Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003
2 Amostragem por conjuntos ordenados (RSS) e alguns estimadores da média
populacional
A primeira etapa na obtenção de uma amostra por RSS consiste em selecionar n
amostras contendo cada uma n unidades. A seleção das diferentes amostras é feita com
reposição.
Num segundo passo, ordenam-se as unidades amostrais, dentro de cada amostra, de
acordo com uma informação auxiliar, por exemplo, o valor de uma variável concomitante, ou
informação subjetiva de pesquisador da área, agrupando os elementos em ordem crescente
do possível valor da variável de interesse. Repare que até aqui nenhuma unidade amostral foi
medida quanto à variável de interesse.
Finalmente, mensura-se na primeira amostra a primeira observação, isto é, aquela que,
de acordo com o julgamento, apresenta o menor valor quanto à variável de interesse; na
segunda, a que tiver a segunda menor medida e assim por diante, até a n-ésima amostra, onde
é mensurada aquela que apresenta a n-ésima menor medida, ou seja, a maior. Esses
elementos formam a amostra final, representada por:
x1(1) , x2(2) ,..., xn (n ) .
Dessa forma, dos n 2 elementos amostrados inicialmente, apenas n são de fato
mensurados. Note que os elementos da amostra final são não-correlacionados, uma vez que
provêm de amostras independentemente escolhidas. Acrescente-se também que esses
mesmos elementos não são identicamente distribuídos.
Quando a variável de interesse, x, pertence à família locação-escala de distribuições,
F(θ1 ,θ 2 ) (dx) , onde θ 1 e θ 2 são, respectivamente os parâmetros de locação e de escala, sua
função de distribuição e sua função densidade podem ser expressas na forma:
F(0,1)
x − θ1
dF(θ1,θ 2 ) (dx)
e
θ2
dx
=
1
θ2
f (0,1)
x − θ1
θ2
.
Em conseqüência, se a variável x tem distribuição F(θ1 ,θ 2 ) (dx) , então:
y=
x − θ1
θ2
tem distribuição livre de parâmetros.
Sejam x(1) , x(2) ,..., x( n) estatísticas de ordem de uma amostra de tamanho n e
U (r ) =
X (r ) − µ
σ
r = 1,
,
as variáveis reduzidas ordenadas. Então, para r = 1,
,n
,n,
E (U (r ) ) = α r , Var (U (r ) ) = ν r
(1)
dependem apenas do tamanho da amostra, n , da ordem, r , e da função distribuição, f ( x ) .
Os valores de α r e ν r encontram-se tabelados para diversas distribuições em Pearson e
Hartley (1976), entre outros.
Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003
43
Usando algumas propriedades de estatísticas de ordem (David, 1981), os valores de α r
e ν r podem ser obtidos através de programação em R ou S-Plus. Nesse caso, assumindo que
x é uma variável aleatória contínua com função distribuição de probabilidade P( x ) , o valor
esperado da r-ésima estatística de ordem é dado por:
(
)
E X (r ) = x
1
P r −1 ( x )[1 − P ( x )]n − r f ( x ) dx .
B ( r , n − r + 1)
(2)
De maneira análoga obtém-se E( X (2r ) ). A variância da r-ésima estatística de ordem
pode ser obtida, finalmente, fazendo-se Var ( X (r ) ) = E( X (2r ) ) – (E( X ( r ) ))2.
Dentre os estimadores da média populacional mais usados em amostragem por
conjuntos ordenados, pode-se destacar o estimador proposto por McIntyre (1952), o
estimador BLUE para amostras de conjuntos ordenados (Barnett e Moore, 1997) e o
estimador proposto por Kaur et al. (1997).
Um primeiro estimador da média populacional para amostras de conjuntos ordenados é
o elaborado por McIntyre (1952), dado por
X =
1 n
xr ( r )
n r =1
que é não-viciado, sendo n o tamanho da. Sua variância é dada por
Var ( X ) =
1
n2
Var (
n
r =1
x r (r ) ) =
1
n2
Var (
n
(µ + σ U ( r ) ) =
r =1
1
n2
σ2
n
νr
(3)
r =1
sendo νi definido como em (1) e lembrando que as estatísticas de ordem provêm de amostras
selecionadas aleatoriamente, e, portanto, são independentes.
Takahasi e Wakimoto (1968) demonstraram matematicamente a maior eficiência deste
estimador, se comparado ao estimador da média via AAS, ou seja,
n
σ2 n
σ2
1
1 n
Var ( X ) = 2 Var
X r ( r ) = 2 Var ( X r ( r ) ) = 2 ν r ≤
= Var ( X ), n > 2
n
n
n r =1
n r =1
r =1
em que X é a média obtida via AAS. Desse modo,
e( X , X ) =
Var ( X )
Var ( X )
=
n
n
≥1
ν rr
i =1
comprovando o ganho, em eficiência, decorrente do uso de uma RSS.
O BLUE (best linear unbiased estimator) para RSS consiste em dar diferentes pesos às
diferentes estatísticas de ordem que compõe a amostra. O estimador da média populacional e
sua variância foram obtidos por Barnett e Moore (1997) e seu uso resulta, na prática, em um
grande ganho em termos de eficiência ao ser comparado com a média da amostra de
conjuntos ordenados.
Um outro estimador é o proposto por Kaur et al. (1997). Este estimador provém de
observações únicas, tomadas de x1(1) , x 2( 2) , ..., xt −1(t −1) , e q>1 observações de
44
Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003
xt (t ) j (j=1, 2, ..., q) provenientes de q amostras distintas, onde n = t − 1 + q . Desse modo,
em vez de tomar o valor de uma única unidade amostral que apresenta maior valor quanto à
variável de interesse, utiliza-se a média de q unidades, pertencentes a r amostras. Tal medida
tende a evitar possíveis distorções do valor do estimador de interesse causadas por outliers.
Stokes (1980) propôs como estimador da variância populacional a variância amostral
dada por:
σ̂ 2 =
m n
( X ( r )i − X ) 2 /(mn − 1)
(4)
i =1 r =1
onde m é o número de vezes em que a amostra foi replicada, e nesse caso X ( r )i representa a
i-ésima replicação da r-ésima estatística de ordem.
O resultado obtido em (3) supõe que a ordenação das unidades amostrais é perfeita.
Segundo Nahhas et al. (2002), existem na literatura dois modelos que incorporam erros de
ordenação no cálculo da variância da média da amostra por conjuntos ordenados. Dell e
Clutter (1972) adotaram o modelo de erros de ordenação por inspeção visual (visual ranked
set sampling). Quando a ordenação é baseada em uma variável concomitante altamente
relacionada com a variável de interesse, Stokes (1977) elaborou um modelo que leva em
consideração a correlação entre as duas varáveis para o cálculo da variância da média da
amostra por conjuntos ordenados.
3 Intervalos de confiança para a média populacional usando o estimador X
Para a construção de intervalos de confiança para a média populacional, utiliza-se no
presente trabalho o estimador média amostral via RSS em duas situações: ordenação perfeita
dos elementos da amostra antes de sua mensuração e ordenação imperfeita por inspeção
visual (Dell e Clutter, 1972).
O estudo por simulação apresentado a seguir detalha a distribuição desse estimador a
fim de estabelecer se esses intervalos poderão ser obtidos com base em alguma distribuição
já conhecida ou não.
Diferentes situações foram consideradas, entre elas, o tipo de distribuição base, ou seja,
as amostras são geradas a partir de uma distribuição simétrica (normal) e a partir de outra
assimétrica (exponencial). Além disso, foram abordados os casos em que a ordenação dos
elementos dentro de cada amostra se dá de forma correta (ordenação perfeita) e incorreta
(ordenação imperfeita). Considerou-se também, para a população com distribuição normal, o
fato da variância populacional ser conhecida ou não. Diferentes tamanhos de amostras (n) e
número de replicações das amostras em cada realização do procedimento de estimação (m)
foram analisados. Através da simulação pode-se construir intervalos de confiança para o
parâmetro a partir dos quantis obtidos, além de realizar uma análise gráfica da distribuição
do estimador em questão.
Considerando que um dos objetivos deste estudo é adotar intervalos usuais, sem a
devida correção da variância da média da amostra por conjuntos ordenados quando da
ordenação imperfeita, usamos como correta a expressão (3).
Para as amostras simuladas de uma distribuição normal com variância conhecida
considerou-se o seguinte intervalo com (1 − α )% de confiança:
Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003
45
σ2
X ± zα / 2
νr .
m * n2
(5)
Já para o caso em que a variância populacional é desconhecida, considerou-se,
inicialmente o seguinte intervalo:
σˆ 2
X ± zα / 2
νr .
m * n2
(6)
sendo σ̂ 2 como definido em (4).
Uma outra hipótese para o caso de variância populacional desconhecida é a
aproximação com uma distribuição t Student com graus de liberdade b, o que forneceria
intervalos de confiança como segue:
X ± tb,α / 2
σˆ 2
m*n
νr .
2
(7)
Já para as amostras provenientes de uma população com distribuição exponencial, uma
primeira alternativa a ser testada é a construção de intervalos de confiança baseados numa
distribuição normal, como visto para a população normal (5).
Outra proposta a ser avaliada é a obtenção de intervalos baseados nos quantis de uma
distribuição gama, com parâmetros estimados pelas amostras. Essa idéia é baseada no fato de
que a soma de variáveis independentes e exponencialmente distribuídas tem distribuição
gama (Mood et al. 1974). Sabemos que na amostra de conjuntos ordenados as variáveis
aleatórias são independentes, mas não identicamente distribuídas.
Se uma variável aleatória X tem distribuição gama com parâmetros r e λ, então
E[X]=
r
λ
r
e Var[X]=
λ2
.
(8)
Avaliou-se, então, a conveniência da utilização de intervalos de confiança baseados nos
quantis de uma distribuição gama, com parâmetros estimados via amostra, da seguinte
maneira:
λˆ =
X
Vaˆr[ X ]
e
rˆ =
X2
Vaˆr[ X ]
(9)
em que Vaˆr[ X ] é obtida substituindo (4) em (3).
4 Resultados
Primeiramente estudou-se o caso em que as unidades amostrais são ordenadas sem
erros dentro de cada amostra de conjuntos ordenados (ordenação perfeita).
O procedimento utilizado consiste em gerar n amostras de tamanho n de uma
distribuição normal (0,1) ou de uma exponencial (1), de acordo com a distribuição de
interesse. Usando o mesmo procedimento descrito na seção 2 para obter a amostra de
conjuntos ordenados, os elementos em cada amostra foram ordenados em ordem crescente de
nossa variável de interesse e, na amostra 1, selecionou-se o menor elemento, na segunda
46
Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003
amostra, o segundo menor elemento e assim por diante. Esse procedimento de geração de
amostras de conjuntos ordenados é repetido m vezes, tendo-se então, uma amostra final de
nm elementos.
Como existem m replicações de cada estatística de ordem, o estimador da média
populacional é dado por:
X =
1
m
m
n
j =1 r =1
x r (r ) j
n
.
No total, foram geradas 5.000 amostras, a partir das quais construiu-se histogramas e
gráficos probabilísticos na determinação da distribuição de interesse.
Os valores usados para os tamanhos de amostra foram n = 3, 5 e 10, já que a utilização
de amostras maiores acarretaria complicações quanto à ordenação dos elementos. Essa
limitação é contornada com a replicação do processo de amostragem. Aqui, foram
considerados os números de replicações m = 1, 3, 6 e 10.
Estes gráficos são então julgados para verificar a conveniência da construção de
intervalos de confiança para o parâmetro em estudo baseado nas distribuições citadas, tanto
para dados vindos de distribuição normal como para a distribuição exponencial.
Quando a distribuição foi adequada, procedeu-se então à simulação de 5000 intervalos
de 90, 95 e 99% de confiança, para verificar a probabilidade de cobertura a ser obtida em
cada situação. Se a proporção de intervalos que incluem o real valor do parâmetro estiver
próxima da confiança utilizada, a construção de intervalos de confiança será considerada
satisfatória.
Se a distribuição do estimador média amostral por RSS não se aproxima da distribuição
postulada, o procedimento de simulação utilizado para obter a probabilidade de cobertura
será deixado de lado para que se busque uma distribuição com a qual seja possível construir
intervalos de confiança mais precisos para o parâmetro em estudo.
Quanto ao caso em que a ordenação é imperfeita, o modelo de ordenação visual (Dell e
Clutter, 1972) considera que os erros se dão ao escolher aqueles elementos que devem fazer
parte da amostra antes de mensuração, ou seja, incorreções na ordenação dos elementos.
Esquematicamente, a geração de amostras de conjuntos ordenados considerando
ordenação imperfeita pode ser representada pelo seguinte algoritmo:
1. Geração de uma amostra aleatória simples da distribuição de interesse: X 1 , X 2 ,..., X n ;
2. Geração de erros aleatórios segundo uma N( 0, σ ε2 ): e1, e2 ,..., en ;
3. Soma das duas amostras: X1 + e1, X 2 + e2 ,..., X n + en ;
4. Calculo do posto da soma : r1, r2 ,..., rn , onde r j são números entre 1 e n que não se
repetem;
5. Definição de X 1(1) como o valor gerado no passo 1, cujo posto obtido no passo 4 é 1;
6. O passo 5 é repetidos mais n − 1 vezes, definindo-se X i (i ) como o valor gerado no
primeiro passo cujo posto obtido no passo 4 é i , i = 2,..., n ;
7. Os passos 1 a 6 são repetidos m vezes. A amostra de conjuntos ordenados com m
replicações de cada posição i é formada por
X (1)1, X ( 2)1,..., X ( n )1, X (1) 2 , X ( 2) 2 , X ( n) 2 ,..., X (1) m , X ( 2) m ,..., X ( n ) m
cujo termo geral, X (i ) j é uma forma abreviada de X i (i ) j .
Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003
47
Note que nesse procedimento os erros são conseqüentes de ordenação, e não de medida.
Repetindo esse procedimento 5.000 vezes, procedeu-se da mesma forma adotada para o caso
de ordenação perfeita, na busca de uma distribuição adequada.
No caso de ordenação imperfeita, foram atribuídos diversos valores para σ ε2 : 0,05,
0,15, 0,30 e 0,50, para os quais se estudou as possíveis combinações destas variâncias com
três tamanhos de amostras (n=3,5 e 10) e quatro possíveis replicações (m = 1, 3, 6 e 10).
4.1 Resultados das simulações para população com distribuição normal (0,1)
4.1.1 Ordenação perfeita
A Figura 1 apresenta os gráficos probabilísticos normais para as médias amostrais
obtidas em cada situação. Há um forte indício da normalidade do estimador média amostral,
sugerindo seu uso na obtenção de intervalos de confiança.
Procedeu-se, então, com o cálculo da probabilidade de cobertura, para intervalos de 90,
95 e 99% de confiança para o parâmetro de locação.
A Tabela 1 apresenta os resultados referentes ao caso em que a variância populacional é
conhecida e os intervalos são baseados na expressão (5). A construção de intervalos baseados
na distribuição normal se mostra bastante eficaz, já que os valores obtidos via simulação são
bem próximos dos valores esperados.
Na Tabela 2, a variância populacional é dada como desconhecida e os intervalos são
baseados em (6) que usa a distribuição normal. Verifica-se que os valores obtidos estão
bastante próximos dos esperados para as configurações 6*5, 6*10, 10*3, 10*5 e 10*10, ou
seja, quando o tamanho final da amostra é igual ou superior a 30. A existência de grandes
diferenças para os casos de tamanhos pequenos de amostras finais (menores do que 30)
sugere que a utilização da distribuição normal não é adequada.
Tabela 1 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) para
as 5.000 amostras por conjuntos ordenados simuladas que contém o verdadeiro
valor do parâmetro (distribuição normal (0,1) e variância conhecida),
considerando ordenação perfeita
m\n
1
3
6
10
48
3
confiança
90%
95%
99%
90%
95%
99%
90%
95%
99%
90%
95%
99%
PC
90,52
95,10
98,72
89,38
94,56
99,04
89,98
94,88
98,78
89,56
94,80
99,02
5
NIC
4.526
4.755
4.936
4.469
4.728
4.952
4.499
4.744
4.939
4.478
4.740
4.951
PC
89,90
94,88
98,86
90,36
95,04
98,88
90,08
95,00
99,00
89,68
94,92
99,00
10
NIC
4.495
4.744
4.943
4.518
4.752
4.944
4.504
4.750
4.950
4.484
4.746
4.950
PC
90,02
94,82
98,92
90,90
95,36
99,28
90,58
95,42
98,96
90,42
95,30
99,06
NIC
4.501
4.741
4.946
4.545
4.768
4.964
4.529
4.771
4.948
4.521
4.765
4.953
Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003
0.4
1.0
-1.0
-0.4
0.0
0.0
0.0
-1.5
-4
-2
0
2
4
-4
-2
0
2
4
0
2
4
0
2
4
2
4
2
4
2
4
0.2
0.0
-0.3
-0.4
-2
-2
m=1, n=10
0.0
0.5
-0.5
-4
-4
m=1, n=5
0.4
m=1, n=3
-4
-2
0
2
4
-4
-2
m=3, n=5
0
m=3, n=10
0.0
-0.2
-0.4
-0.6
0.0
0.0
0.4
0.2
m=3, n=3
-4
-2
0
2
4
-4
-2
0
2
4
0
2
4
0
0.15
0.0
0.2
-0.15
-0.3
-2
-2
m=6, n=10
0.0
0.0
-0.4
-4
-4
m=6, n=5
0.4
m=6, n=3
-4
m=10, n=3
-2
0
m=10, n=5
2
4
-4
-2
0
m=10, n=10
FIGURA 1 - Gráfico probabilístico normal para as 5.000 médias de amostras de conjuntos ordenados
simuladas de uma normal (0,1) para diferentes tamanhos de amostras, replicações e
ordenação perfeita.
Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003
49
Tabela 2 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) dentre
as 5.000 amostras por conjuntos ordenados simuladas (população com
distribuição normal (0,1) e variância populacional desconhecida), considerando
ordenação perfeita
m\n
1
3
6
10
3
5
10
confiança
PC
NIC
PC
NIC
PC
NIC
90%
95%
99%
90%
95%
99%
90%
95%
99%
90%
95%
99%
82,56
87,40
92,62
87,50
92,72
97,58
89,20
93,86
98,10
89,64
94,26
98,90
4.128
4.370
4.631
4.375
4.636
4.879
4.460
4.693
4.905
4.482
4.713
4.945
88,38
92,98
97,22
89,60
94,26
98,46
89,54
94,90
98,98
90,10
95,02
98,76
4.419
4.649
4.861
4.480
4.713
4.923
4.477
4.745
4.949
4.505
4.751
4.938
90,50
95,34
98,76
90,96
95,50
99,26
90,74
95,36
98,90
90,62
95,36
99,02
4.525
4.767
4.938
4.548
4.775
4.963
4.537
4.768
4.945
4.531
4.768
4.951
Outra possibilidade a ser averiguada é a conveniência da utilização da distribuição tStudent na construção de intervalos de confiança. Na Tabela 3 relata-se os resultados
obtidos, referentes às probabilidades de cobertura, para intervalos baseados numa t com m*n1 graus de liberdade. Verifica-se que os valores obtidos para as configurações de tamanhos
de amostra final grande, ou seja, maior que 30, são bastante próximos dos valores esperados.
Para n=3 e m=1 e 3, o uso da distribuição t produz intervalos mais condizentes com a
confiança desejada, se comparado com os resultados obtidos pelo uso da distribuição normal.
Tabela 3 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) dentre
as 5.000 amostras por conjuntos ordenados simuladas (distribuição normal (0,1) e
variância populacional desconhecida), considerando ordenação perfeita, baseados
numa distribuição t-student com m*n-1 graus de liberdade
m\n
1
3
6
10
50
3
confiança
90%
95%
99%
90%
95%
99%
90%
95%
99%
90%
95%
99%
5
10
PC
NIC
PC
NIC
PC
NIC
93,80
97,14
99,62
91,11
95,90
99,38
90,64
95,44
98,96
90,38
94,70
98,96
4.690
4857
4.981
4.555
4.795
4.969
4.532
4.772
4.948
4.519
4.735
4.948
94,58
97,94
99,86
91,96
96,42
99,34
91,00
95,62
99,26
90,70
95,32
99,20
4.729
4.897
4.993
4.598
4.821
4.967
4.550
4.781
4.963
4.535
4.766
4.960
93,96
98,08
99,76
91,92
96,38
99,60
91,00
95,90
99,10
90,56
95,44
99,86
4.698
4.904
4.988
4.596
4.819
4.980
4.550
4.792
4.955
4.528
4.772
4.953
Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003
Esses resultados, análogos aos da Tabela 2, indicam que por questão de simplicidade
pode-se usar a aproximação à distribuição normal para tamanhos finais de amostra maior ou
igual a 30, uma vez que a distribuição t com mn-1 graus de liberdade é próxima da normal.
4.1.2 Ordenação imperfeita
Utilizando o mesmo procedimento adotado para a população com distribuição normal
(0,1) com ordenação perfeita, examinou-se o caso em que há a possibilidade de existência de
erros de ordenação.
Com as médias obtidas das amostras simuladas de cada uma das possíveis combinações
de m, n e σ ε2 , seguindo o algoritmo apresentado, foram construídos gráficos probabilísticos
normais, que são apresentados nas Figuras 2 e 3. Seu exame ratifica a hipótese de
normalidade do estimador.
Desse modo, pelas análises realizadas até então, é possível afirmar que a distribuição
empírica de X , quando a população sob estudo tem distribuição normal com média 0 e
variância 1, também é normal, seja com ordenação perfeita ou imperfeita das unidades
amostrais e, neste último caso, independente do grau de imperfeição presente na ordenação
das amostras. Tendo ratificado a conveniência do ajuste da distribuição normal para a
variável de interesse, nos casos considerados, prosseguiu-se com o cálculo das
probabilidades de cobertura com os diferentes valores da variabilidade dos erros de
ordenação. Os resultados estão ilustrados nas Tabelas 4 e 5.
Pode-se observar que os resultados obtidos se afastam dos valores esperados à medida
que se aumenta o grau de imperfeição na ordenação das unidades amostrais. Essa
característica também é observada para tamanhos de amostras grandes, indicando uma não
adequação dos intervalos propostos.
Tabela 4 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) das
5.000 amostras por conjuntos ordenados simuladas (distribuição normal (0,1) e
variância populacional conhecida), considerando ordenação imperfeita
( ε i ~ N (0 , 0,50) )
m\n
1
3
6
10
3
confiança
90%
95%
99%
90%
95%
99%
90%
95%
99%
90%
95%
99%
5
10
PC
NIC
PC
NIC
PC
NIC
88,14
93,76
98,54
89,04
94,40
98,84
88,80
93,96
98,56
88,94
94,82
98,86
4.407
4.688
4.927
4.452
4.720
4.942
4.440
4.698
4.928
4.447
4.741
4.943
89,24
94,40
98,76
88,58
93,90
98,62
88,12
93,62
98,56
88,22
94,14
98,76
4.462
4.720
4.938
4.429
4.695
4.931
4.406
4.681
4.928
4.411
4.707
4.938
86,58
92,62
98,00
86,20
92,52
98,12
87,30
93,30
98,32
87,12
93,12
98,22
4.329
4.631
4.900
4.310
4.626
4.906
4.365
4.665
4.916
4.356
4.656
4.911
Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003
51
0.4
1.0
0.0
0.0
1
0
-2
0
2
4
-0.6
-1.0
-1
-4
-4
-2
2
4
-4
-2
m=1, n=5
0
2
4
2
4
2
4
2
4
m=1, n=10
-1.0
-0.2
-0.4
0.0
0.0
0.2
0.4
1.0
m=1, n=3
0
-4
-2
0
2
4
-4
-2
0
2
4
0
2
4
0.0
-4
-2
m=6, n=3
0
2
4
-4
-2
m=6, n=5
0
m=6, n=10
-4
-2
0
m=10, n=3
2
4
-0.1
-0.4
-0.2
0.0
0.1
0.2
0.4
0
-0.2
0.0
-0.4
-2
-2
m=3, n=10
0.4
0.4
0.0
-0.6
-4
-4
m=3, n=5
0.2
m=3, n=3
-4
-2
0
2
m=10, n=5
4
-4
-2
0
m=10, n=10
FIGURA 2 - Gráficos probabilísticos normais para as 5.000 médias de amostras de conjuntos
ordenados simuladas de uma normal (0,1) para diferentes tamanhos de amostras,
replicações e variância dos erros de ordenação ( σ ε2 ) igual a 0,05.
52
Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003
0.0
1.0
0.0
1
0
-2
0
2
4
-1.0
-1.0
-1
-4
-4
-2
0
2
4
-4
-2
m=1, n=5
0
2
4
2
4
2
4
2
4
m=1, n=10
-1.0
-0.4
-0.5
0.0
0.0
0.5
0.4
m=1, n=3
-4
-2
0
2
4
-4
-2
0
2
4
0
2
4
0.2
0.0
-4
-2
0
2
4
0.2
-0.2
0.0
2
4
0
m=6, n=10
-0.4
0
-2
0.0
0.6
0.2
-0.4
-2
-4
m=6, n=5
0.4
m=6, n=3
-4
0
-0.3
-0.4
-2
-2
m=3, n=10
0.0
0.4
-0.2
-0.8
-4
-4
m=3, n=5
0.4
m=3, n=3
-4
m=10, n=3
-2
0
m=10, n=5
2
4
-4
-2
0
m=10, n=10
FIGURA 3 - Gráficos probabilísticos normais para as 5.000 médias de amostras de conjuntos
ordenados simuladas de uma normal (0,1) para diferentes tamanhos de amostras,
replicações e variância dos erros de ordenação ( σ ε2 ) igual a 0,50.
Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003
53
Tabela 5 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) das
5.000 amostras por conjuntos ordenados simuladas (distribuição normal (0,1) e
variância populacional conhecida), considerando ordenação imperfeita
( ε i ~ N ( 0 , 0 ,50 ) )
m\n
1
3
6
10
3
5
10
confiança
PC
NIC
PC
NIC
PC
NIC
90%
95%
99%
90%
95%
99%
90%
95%
99%
90%
95%
99%
83,56
90,40
97,14
84,94
91,54
97,64
85,16
91,50
97,74
85,88
92,24
97,64
4.178
4.520
4.857
4.247
4.577
4.882
4.258
4.575
4.887
4.294
4.612
4.882
80,72
87,46
95,96
81,72
88,82
96,52
80,52
87,50
95,70
81,28
88,50
96,04
4.036
4.373
4.798
4.086
4.441
4.826
4.026
4.375
4.785
4.064
4.425
4.802
72,64
80,64
91,58
73,44
81,66
91,98
70,94
80,00
91,56
71,80
80,04
91,68
3.632
4.032
4.579
3.672
4.083
4.599
3.547
4.000
4.578
3.590
4.002
4.584
Pode-se explicar isso pelo fato de que quanto maior o tamanho das amostras, maior será
a possibilidade de haver erros na ordenação. Quando se tem altas taxas de erros de
ordenação, dificilmente será possível ordenar uma amostra de tamanho grande de forma
correta. A utilização de amostras de tamanho 10, como visto nas tabelas citadas, não seria
benéfica, uma vez que sua utilização não acrescentaria precisão, mas somente aumentaria
custos e dificuldades ao processo de amostragem.
É importante verificar se há correspondência entre os quantis α/2 e (1-α/2) da amostra,
sendo α o nível de significância dos intervalos e aqueles calculados para uma distribuição
normal. Primeiramente, quando se compara os quantis da distribuição empírica padronizada
das médias simuladas com os valores previstos de uma distribuição normal.
Dada uma determinada configuração, seja X i a i-ésima média de conjuntos ordenados e
X =
Var ( X ) =
5000
j =1
X i / 5000
5000
1
(X i − X )2
5000 − 1 i =1
usadas para obter a variável padronizada z,
zi =
Xi − X
.
Var (X )
Como a média via amostragem por conjuntos ordenados tem distribuição normal,
pertencente à família locação escala, espera-se que a variável z também seja normal, com
média igual a zero e variância um. A Tabela 6 apresenta a comparação dos quantis da
54
Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003
variável z, para cada uma das situações em estudo, com os quantis de uma distribuição
normal (0,1).
Tabela 6 - Comparação dos intervalos obtidos através da distribuição empírica padronizada
das médias simuladas em cada configuração, usando como parâmetros a média e a
variância das 5.000 médias, em relação aos valores previstos de acordo com uma
distribuição normal (0,1)
σ ε2 \(m,n)
0
0,05
0,50
prob
(0,05 , 0,95)
(0,025 , 0,975)
(0,005 , 0,995)
(0,05 , 0,95)
(0,025 , 0,975)
(0,005 , 0,995)
(0,05 , 0,95)
(0,025 , 0,975)
(0,005 , 0,995)
(1 , 3)
normal
(-1,64 , 1, 64)
(-1,96 , 1,96)
(-2,58 , 2,58)
(-1,64 , 1, 64)
(-1,96 , 1,96)
(-2,58 , 2,58)
(-1,64 , 1, 64)
(-1,96 , 1,96)
(-2,58 , 2,58)
(-1,67 , 1,62)
(-2,00 , 1,92)
(-2,52 , 2,56)
(-1,67 , 1,62)
(-2,00 , 1,92)
(-2,53 , 2,56)
(-1,64 , 1,68)
(-1,94 , 1,98)
(-2,58 , 2,64)
(3 , 3)
(-1,67 , 1,60)
(-1,97 , 1,91)
(-2,66 , 2,57)
(-1,67 , 1,60)
(-1,97 , 1,91)
(-2,66 , 2,57)
(-1,65 , 1,61)
(-1,98 , 1,94)
(-2,51 , 2,63)
(1 , 5)
(-1,64 , 1,65)
(-1,95 , 1,99)
(-2,73 , 2,55)
(-1,65 , 1,64)
(-1,95 , 1,99)
(-2,72 , 2,65)
(-1,61 , 1,66)
(-1,99 , 2,01)
(-2,68 , 2,66)
(3 , 5)
(-1,65 , 1,66)
(-1,98 , 1,94)
(-2,57 , 2,51)
(-1,65 , 1,66)
(-1,98 , 1,94)
(-2,57 , 2,50)
(-1,63 , 1,67)
(-1,96 , 1,94)
(-2,58 , 2,57)
Uma outra possibilidade a se estudar é a distribuição das médias simuladas
padronizadas, dadas por:
Xi
ti =
σ 2 ν i / n2
Os quantis de interesse das médias simuladas padronizadas, bem como aqueles
fornecidos por uma distribuição normal padronizada, encontram-se na Tabela 7, para efeito
de comparação.
Tabela 7 - Comparação dos intervalos obtidos através da distribuição empírica das médias
simuladas padronizadas, em cada configuração, em relação aos valores previstos
de acordo com uma distribuição normal
σ ε2 \(m,n)
0
0,05
0,50
prob
normal
(0,05 , 0,95)
(0,025 , 0,975)
(0,05 , 0,95)
(0,05 , 0,95)
(0,025 , 0,975)
(0,05 , 0,95)
(0,05 , 0,95)
(0,025 , 0,975)
(0,05 , 0,95)
(-1,64 , 1, 64)
(-1,96 , 1,96)
(-2,58 , 2,58)
(-1,64 , 1, 64)
(-1,96 , 1,96)
(-2,58 , 2,58)
(-1,64 , 1, 64)
(-1,96 , 1,96)
(-2,58 , 2,58)
(1,3)
(3,3)
(1,5)
(3,5)
(-1,65 , 1,64)
(-1,90 , 1,94)
(-2,51 , 2,44)
(-1,70 , 1,66)
(-2,07 , 1,99)
(-2,60 , 2,57)
(-1,83 , 1,88)
(-2,18 , 2,27)
(-2,91 , 3,07)
(-1,61 , 1,62)
(-1,94 , 1,97)
(-2,63 , 2,52)
(-1,67 , 1,72)
(-2,02 , 2,02)
(-2,69 , 2,56)
(-1,88 , 1,82)
(-2,30 , 2,19)
(-2,92 , 2,92)
(-1,63 , 1,63)
(-1,99 , 1,95)
(-2,54 , 2,52)
(-1,78 , 1,67)
(-2,06 , 2,02)
(-2,71 , 2,71)
(-2,10 , 2,02)
(-2,51 , 2,46)
(-3,21 , 3,27)
(-1,66 , 1,61)
(-1,99 , 1,94)
(-2,61 , 2,56)
(-1,73 , 1,73)
(-2,03 , 2,09)
(-2,66 , 2,82)
(-2,13 , 2,06)
(-2,55 , 2,52)
(-3,35 , 3,32)
Verifica-se que os quantis da distribuição padronizada são praticamente idênticos
àqueles associados a uma distribuição normal, ao contrário do que ocorre com os quantis da
distribuição das médias simuladas padronizadas, em que fica nítido o afastamento dos
Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003
55
valores obtidos da distribuição normal à medida que se aumenta a variância dos erros de
ordenação.
Os resultados alcançados nas Tabelas de 4 a 7 permitem concluir que apesar de a
distribuição do estimador da média populacional via RSS ser normal, independente dos
tamanhos de amostras e graus de imperfeição, os intervalos de confiança para a situação de
ordenação imperfeita se mostram imprecisos, principalmente para altos valores da
variabilidade dos erros. Isso se deve ao fato de que o erro padrão utilizado nos cálculos dos
intervalos foi o mesmo do caso de ordenação perfeita. Na prática, no entanto, esses dois
valores não são iguais, uma vez que se deve acrescentar à variabilidade o erro decorrente da
imperfeição na ordenação das unidades amostrais.
Conclui-se, portanto, que a distribuição normal é a melhor alternativa para a obtenção
dos intervalos de confiança, quando a população é normalmente distribuída, necessitando, no
entanto, de uma correção do estimador da variância quando há erros de ordenação.
4.2 Resultados das simulações para uma população com distribuição
exponencial (1)
4.2.1 Ordenação perfeita
Para averiguar a distribuição da média da amostra de conjuntos ordenados quando a
distribuição de base é exponencial, através das amostras simuladas foram construídos
gráficos probabilísticos normais apresentados na Figura 4. À medida que aumenta o valor de
m*n esta distribuição apresenta uma tendência de normalidade.
É necessário ressaltar, no entanto, que nem mesmo para a combinação do maior
tamanho amostral com o maior número de replicações pode-se concluir que o estimador X
apresenta de fato distribuição normal.
Como detalhado nas fórmulas (8 e 9), uma segunda alternativa seria avaliar se a
distribuição gama, com parâmetros estimados via amostra, é uma boa alternativa de
aproximação para a distribuição empírica do estimador. Para isso, procedeu-se com a
construção de gráficos probabilísticos gama para as 5.000 médias, com ordenação perfeita,
para as diferentes configurações. Os resultados estão expostos na Figura 5.
A distribuição gama fornece um bom ajuste à distribuição empírica de X ,
independente do tamanho de amostra e do número de replicações. A seguir verificou-se se a
distribuição gama forneceria ou não intervalos de confiança precisos para o estimador.
A Tabela 8 traz os resultados do calculo das probabilidades de cobertura. Tais
intervalos foram obtidos de uma distribuição gama com parâmetros estimados pelas
amostras, como visto em (9).
Apesar de se ter comprovado graficamente o fato de a distribuição do estimador ser
uma gama, fica evidente, pela Tabela 8, que o intervalo de confiança proposto, baseado nessa
mesma distribuição, não é adequado. A causa mais provável para essa distorção é relativa ao
desconhecimento da variância populacional. O uso do estimador σ̂ 2 faz com que os limites
de confiança sejam deslocados de tal maneira a não mais englobar o valor de µ. Perceba que,
assintoticamente, o intervalo proposto mostra-se conveniente, principalmente nas situações
onde o tamanho das amostras (n) é igual a 10.
56
Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003
1.8
1.5
1.2
2.5
2.5
1.5
-2
0
2
4
0.6
0.5
0.5
-4
-4
-2
0
2
4
-4
-2
m=1, n=5
2
4
2
4
2
4
2
4
1.2
0.8
0.4
0.5
1.0
1.5
0
m=1, n=10
1.6
m=1, n=3
-4
-2
0
2
4
-4
-2
0
2
4
-4
-2
m=3, n=5
0
m=3, n=10
-4
-2
0
2
4
1.2
0.8
0.5
0.8
1.0
1.0
1.2
1.5
2.0
m=3, n=3
-4
-2
0
2
4
-4
-2
m=6, n=5
0
m=6, n=10
0.8
0.6
0.8
1.0
1.0
1.2
1.4
1.2
m=6, n=3
-4
-2
0
2
4
-4
-2
m=10, n=3
0
m=10, n=5
2
4
-4
-2
0
m=10, n=10
FIGURA 4 - Gráfico probabilístico normal para as 5.000 médias de amostras de conjuntos ordenados
simuladas de uma exponencial (1) para diferentes tamanhos de amostras, replicações e
ordenação perfeita.
Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003
57
1.8
1.5
1.2
2.5
2.5
1.5
1
2
0.6
0.5
0.5
0
3
0.5
1.0
1.5
2.0
2.5
0.6 0.8 1.0 1.2 1.4 1.6 1.8
m=1, n=5
m=1, n=10
1.2
0.8
0.4
0.5
1.0
1.5
1.6
m=1, n=3
0.5
1.0
1.5
2.0
0.6 0.8 1.0 1.2 1.4 1.6 1.8
m=3, n=5
1.0
1.2
1.4
m=3, n=10
0.6 0.8 1.0 1.2 1.4 1.6 1.8
1.2
0.8
0.5
0.8
1.0
1.0
1.2
1.5
2.0
m=3, n=3
0.8
0.6
0.8
1.0
1.2
1.4
0.8
0.9
m=6, n=5
1.0
1.1
1.2
1.3
m=6, n=10
0.6
0.8
1.0
1.2
m=10, n=3
1.4
1.6
0.8
0.6
0.8
1.0
1.0
1.2
1.4
1.2
m=6, n=3
0.8
1.0
1.2
m=10, n=5
1.4
0.8
0.9
1.0
1.1
1.2
m=10, n=10
FIGURA 5 - Gráfico probabilístico gama, com parâmetros estimados via resultados obtidos por
simulação, para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma
exponencial (1) para diferentes tamanhos de amostras, replicações e ordenação perfeita.
58
Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003
Tabela 8 - Probabilidade de cobertura e número de intervalos de confiança das 5.000
amostras por conjuntos ordenados simuladas (distribuição exponencial (1) e
variância populacional desconhecida), considerando ordenação perfeita, baseados
numa distribuição gama
m\n
1
3
6
10
3
confiança
90%
95%
99%
90%
95%
99%
90%
95%
99%
90%
95%
99%
PC
77,14
81,84
88,14
84,60
89,12
94,66
87,42
92,24
97,64
88,00
93,24
97,64
5
NIC
3.857
4.092
4.497
4.230
4.456
4.733
4.371
4.612
4.882
4.400
4.662
4.882
PC
82,90
88,32
94,22
91,16
94,62
98,02
88,18
93,26
97,80
89,42
93,90
98,28
10
NIC
4.145
4.416
4.711
4.558
4.731
4.901
4.409
4.663
4.890
4.471
4.695
4.914
PC
88,22
92,62
97,10
90,78
95,06
98,56
90,18
94,88
98,72
89,62
94,80
98,80
NIC
4.411
4.631
4.855
4.539
4.753
4.928
4.509
4.744
4.936
4.481
4.740
4.940
4.2.2 Ordenação imperfeita
As Figuras 6 e 7 apresentam os gráficos probabilísticos gama para o estimador, quando
a ordenação é imperfeita, para os diferentes valores de σ ε2 considerados. Pode-se verificar
aqui também o bom ajuste fornecido pela distribuição gama para os 5.000 valores simulados
em cada configuração. Têm-se condições de concluir, portanto, que a distribuição empírica
do estimador média amostral via amostragem por conjuntos ordenados, neste caso, é uma
gama, tanto para ordenação perfeita quanto para ordenação imperfeita.
Prosseguiu-se com a comparação dos quantis referentes à distribuição empírica com os
quantis de uma distribuição gama, com os parâmetros obtidos como visto em (9). Os
resultados alcançados são apresentados na Tabela 9. Os quantis da distribuição empírica
pouco diferem daqueles previstos de acordo com uma distribuição gama. Fica claro, mais
uma vez, o fato de X , em qualquer situação daquelas averiguadas, ter distribuição gama.
Concluídas as análises relativas à distribuição do estimador em estudo, verificou-se,
então, se é ou não conveniente a construção de intervalos de confiança para o parâmetro
baseados na distribuição gama, quando a ordenação é feita com a presença de erros. Mais
uma vez foram obtidos intervalos com 90, 95 e 99% de confiança para as 5.000 médias
simuladas em cada uma das combinações em estudo. Os parâmetros da distribuição gama
utilizados foram estimados como visto em (8). As Tabelas 10 e 11 apresentam o número de
intervalos de confiança que contém o real valor do parâmetro, acompanhado pela respectiva
proporção, apresentada na forma percentual.
À medida que a imperfeição na ordenação das amostras aumenta, constata-se um
afastamento da proporção de intervalos que contém o real valor do parâmetro em relação à
probabilidade de cobertura estipulada. Aumentando a variabilidade do erro, a tendência é que
os estimadores se afastem, um maior número de vezes, dos valores dos parâmetros de
interesse, fazendo com que, no caso da estimação intervalar, um maior número de intervalos
não contenham o valor do parâmetro. Mais uma vez ressalta-se a necessidade de procurar um
Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003
59
0
1
2
2.0
1.5
0.5
0.0
0.5
1.0
1.0
1.5
2.0
3.0
2.5
fator de correção na significância dos intervalos de confiança, buscando estabelecer os
valores para os quais têm-se resultados próximos dos ideais.
3
0.5
1.0
1.5
2.0
2.5
m=1, n=10
1.0
1.5
2.0
1.2
0.8
0.60000
1.5
0.5
0.5
0.6 0.8 1.0 1.2 1.4 1.6 1.8
m=1, n=5
1.39998
m=1, n=3
0.6 0.8 1.0 1.2 1.4 1.6 1.8
0.8
1.4
1.0
0.8
0.6
0.6
0.8
1.0
1.2
1.4
0.8
0.9
m=6, n=5
1.0
1.1
1.2
1.3
m=6, n=10
0.6
0.8
0.9
1.0
1.2
1.1
m=6, n=3
1.4
1.2
1.2
1.4
1.0
1.2
0.6
0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8
1.0
m=3, n=10
1.4
m=3, n=5
1.8
m=3, n=3
0.6
0.8
1.0
1.2
m=10, n=3
1.4
1.6
0.8
1.0
1.2
m=10, n=5
1.4
0.8
0.9
1.0
1.1
1.2
m=10, n=10
FIGURA 6 - Gráfico probabilístico gama, com parâmetros estimados via resultados obtidos por
simulação, para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma
exponencial (1) para diferentes tamanhos de amostras, replicações e variância dos erros
de ordenação ( σ ε2 ) igual a 0,05.
60
Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003
1.5
2.5
1.5
3
2
0.5
0.5
1
0
0
1
2
3
4
0.5
1.0
1.5
2.0
2.5
0.5
1.0
m=1, n=5
1.5
2.0
m=1, n=10
1.4
1.0
0.6
0.5
0.5
1.0
1.5
1.5
2.5
2.0
m=1, n=3
0.5
1.0
1.5
2.0
2.5
0.5
1.0
1.5
2.0
1.4
1.5
1.0
1.2
1.4
1.6
0.8
0.6
1.0
0.8
m=3, n=10
1.0
1.5
0.5
0.5
0.6
m=3, n=5
1.2
m=3, n=3
0.6
0.8
1.0
1.2
1.4
1.6
0.8
1.0
m=6, n=5
1.2
1.4
m=6, n=10
0.6 0.8 1.0 1.2 1.4 1.6
0.6
0.8
0.6
0.8
1.0
1.0
1.2
1.4
1.2
m=6, n=3
0.8
m=10, n=3
1.0
1.2
m=10, n=5
1.4
0.8
0.9
1.0
1.1
1.2
1.3
m=10, n=10
FIGURA 7 - Gráfico probabilístico gama, com parâmetros estimados via resultados obtidos por
simulação, para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma
exponencial (1) para diferentes tamanhos de amostras, replicações e variância dos erros
de ordenação ( σ ε2 ) igual a 0,50.
Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003
61
Tabela 9 - Comparação dos quantis das amostras simuladas com os respectivos quantis de uma distribuição gama com parâmetros
estimados pelas 5.000 amostras
(m , n)
(1 , 3)
(3 , 3)
(1 , 5)
(3 , 5)
σ ε2 (m,n)
0
0,05
0,15
0,30
0,50
62
prob
gama
simulado
gama
simulado
gama
simulado
gama
simulado
(0,05 , 0,95)
(0,38 , 1,81)
(0,40 , 1,83)
(0,57 , 1,52)
(0,58 , 1,51)
(0,62 , 1,45)
(0,63 , 1,45)
(0,73 , 1,31)
(0,74 , 1,31)
(0,025 , 0,975)
(0,31 , 2,03)
(0,34 , 2,06)
(0,51 , 1,64)
(0,53 , 1,68)
(0,56 , 1,56)
(0,58 , 1,55)
(0,69 , 1,37)
(0,69 , 1,38)
(0,005 , 0,995)
(0,21 , 2,50)
(0,23 , 2,59)
(0,40 , 1,90)
(0,44 , 2,01)
(0,46 , 1,76)
(0,48 , 1,82)
(0,61 , 1,51)
(0,62 , 1,51)
(0,05 , 0,95)
(0,38 , 1,90)
(0,38 , 1,89)
(0,60 , 1,47)
(0,60 , 1,47)
(0,55 , 1,56)
(0,56 , 1,64)
(0,72 , 1,31)
(0,73 , 1,31)
(0,025 , 0,975)
(0,31 , 2,13)
(0,31 , 2,13)
(0,55 , 1,58)
(0,55 , 1,56)
(0,48 , 1,69)
(0,50 , 1,69)
(0,68 , 1,38)
(0,68 , 1,38)
(0,005 , 0,995)
(0,20 , 2,64)
(0,21 , 2,72)
(0,45 , 1,80)
(0,46 , 1,85)
(0,38 , 1,98)
(0,39 , 2,04)
(0,60 , 1,52)
(0,59 , 1,55)
(0,05 , 0,95)
(0,37 , 1,89)
(0,37 , 1,89)
(0,61 , 1,48)
(0,60 , 1,48)
(0,53 , 1,60)
(0,53 , 1,60)
(0,71 , 1,33)
(0,71 , 1,33)
(0,025 , 0,975)
(0,30 , 2,12)
(0,30 , 2,11)
(0,55 , 1,59)
(0,53 , 1,58)
(0,47 , 1,74)
(0,46 , 1,74)
(0,67 , 1,41)
(0,67 , 1,41)
(0,005 , 0,995)
(0,20 , 2,63)
(0,17 , 2,67)
(0,45 , 1,82)
(0,43 , 1,80)
(0,36 , 2,05)
(0,35 , 2,04
(0,58 , 1,56)
(0,59 , 1,67)
(0,05 , 0,95)
(0,36 , 1,92)
(0,35 , 1,90)
(0,58 , 1,52)
(0,58 , 1,52)
(0,50 , 1,63)
(0,49 , 1,62)
(0,70 , 1,34)
(0,69 , 1,34)
(0,025 , 0,975)
(0,29 , 2,16)
(0,26 , 2,14)
(0,52 , 1,64)
(0,51 , 1,62)
(0,43 , 1,79)
(0,43 , 1,79)
(0,66 , 1,42)
(0,65 , 1,41)
(0,005 , 0,995)
(0,18 , 2,69)
(0,16 , 2,72)
(0,42 , 1,90)
(0,40 , 1,89)
(0,32 , 2,12)
(0,31 , 2,14)
(0,57 , 1,58)
(0,57 , 1,55)
(0,05 , 0,95)
(0,34 , 1,98)
(0,32 , 1,98)
(0,58 , 1,51)
(0,57 , 1,49)
(0,49 , 1,65)
(0,48 , 1,64)
(0,68 , 1,37)
(0,68 , 1,37)
(0,025 , 0,975)
(0,27 , 2,24)
(0,25 , 2,23)
(0,52 , 1,64)
(0,50 , 1,64)
(0,42 , 1,81)
(0,42 , 1,81)
(0,64 , 1,45)
(0,63 , 1,44)
(0,005 , 0,995)
(0,17 , 2,81)
(0,15 , 2,79)
(0,41 , 1,90)
(0,40 , 1,89)
(0,31 , 2,15)
(0,28 , 2,08)
(0,55 , 1,62)
(0,53 , 1,60)
Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003
Tabela 10 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) das
5.000 amostras por conjuntos ordenados simuladas (distribuição exponencial (1)
e variância populacional desconhecida) considerando ordenação imperfeita
( ε i ~ N (0 , 0,05) ), baseados numa distribuição gama
m\n
1
3
6
10
3
confiança
90%
95%
99%
90%
95%
99%
90%
95%
99%
90%
95%
99%
PC
77,04
82,16
87,86
84,18
89,14
94,48
86,52
91,44
96,76
86,90
92,12
97,34
5
NIC
3.852
4.108
4.393
4.209
4.457
4.724
4.326
4.572
4.838
4.345
4.606
4.867
PC
82,54
87,78
93,38
85,42
91,32
96,08
87,20
92,90
97,52
87,60
92,82
97,70
10
NIC
4.127
4.389
4.669
4.271
4.566
4.804
4.360
4.645
4.876
4.380
4.641
4.885
PC
85,42
90,52
95,38
86,64
91,84
97,30
87,76
93,12
98,22
87,36
93,60
98,18
NIC
4.271
4.526
4.769
4.332
4.592
4.865
4.388
4.656
4.911
4.368
4.680
4.909
Tabela 11 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC)
dentre
os
5.000 simulados,
considerando
ordenação
imperfeita
( ε i ~ N (0 , 0,50) ), baseados numa distribuição gama, que contêm o verdadeiro
valor do parâmetro (população com distribuição exponencial (1) e variância
populacional desconhecida)
m\n
1
3
6
10
3
5
10
confiança
PC
NIC
PC
NIC
PC
NIC
90%
95%
99%
90%
95%
99%
90%
95%
99%
90%
95%
99%
71,48
76,78
83,72
80,14
86,30
93,04
83,24
89,26
95,52
83,94
90,02
95,88
3.574
3.839
4.186
4.007
4.315
4.652
4.162
4.463
4.776
4.197
4.501
4.794
75,12
81,30
88,92
80,40
86,76
93,96
81,32
88,16
95,00
81,32
88,58
96,10
3.756
4.065
4.446
4.020
4.338
4.698
4.066
4.408
4.750
4.066
4.429
4.805
74,72
82,30
90,66
77,04
84,50
93,04
77,62
85,08
94,14
77,28
84,70
93,62
3.736
4.115
4.553
3.852
4.225
4.652
3.881
4.254
4.707
3.864
4.235
4.681
Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003
63
Conclusões
O estudo do estimador média amostral via amostragem por conjuntos ordenados foi
realizado a partir da geração de amostras com distribuição normal (0,1) e exponencial (1).
Através de gráficos probabilísticos e tabelas comparativas (quantis amostrais vs quantis da
distribuição de interesse) conclusões foram extraídas acerca de sua distribuição.
Ficou claro, pelos resultados obtidos, que na situação em que as amostras são geradas
com distribuição normal, a distribuição de X também é normal, enquanto para as amostras
exponencialmente distribuídas, a distribuição desse estimador é gama. Vale ressaltar que tais
conclusões são válidas para os dois tipos de ordenação considerados (perfeita e imperfeita).
Os intervalos de confiança propostos foram avaliados de acordo com as probabilidades
de cobertura fornecidas na estimação do parâmetro de interesse. Foi verificada a boa
adequação da distribuição normal na obtenção dos limites de confiança quando a população
tem distribuição normal, com ordenação perfeita e variância populacional conhecida.
Quando σ 2 é desconhecido, a distribuição normal só é conveniente quando o tamanho final
das amostras (m*n) é igual ou superior a 30. Para amostras pequenas (principalmente para
n=3 e m= 1 e 3), a distribuição t-Student apresenta melhores resultados, se comparada com a
normal, na construção dos intervalos.
Para o caso de ordenação imperfeita, a distribuição normal não produz intervalos de
confiança precisos. Isso se deve à utilização do mesmo estimador do erro padrão da média da
amostra por conjuntos ordenados utilizado no caso de ordenação perfeita. Deve-se pesquisar
um acréscimo no estimador da variância da média amostral, decorrente do aumento da
variabilidade causado pelas falhas de ordenação, adotando-se, como primeiras sugestões, o
modelo de inspeção visual (Dell e Clutter, 1972) ou o modelo de variável concomitante
(Stokes, 1977).
Quando as amostras têm distribuição exponencial, a distribuição gama não possibilita a
construção de intervalos adequados, devido ao uso da estimativa da variância populacional
(para tamanhos grandes de amostra, tais intervalos passam a apresentar confiança bastante
próxima da desejada). Acrescente-se a isso, no caso de ordenação imperfeita, um problema
análogo ao ocorrido com a distribuição normal, ou seja, a sub-estimação da variância de X .
Portanto intervalos de confiança para a média populacional, baseados na distribuição
Normal, quando do uso de amostras por conjuntos ordenados, são adequados apenas na
situação em que a distribuição da variável de interesse é Normal, a ordenação é perfeita e a
variância populacional conhecida, para qualquer tamanho de amostra e replicação. Quando a
variância é desconhecida, intervalos baseados na distribuição t-Student são adequados para
tamanhos de amostras pequenos, enquanto os intervalos baseados na distribuição Normal são
adequados para tamanhos de amostras maiores.
Agradecimentos. À FAPESP, Processo número 01/04862-0, pela bolsa concedida (agosto
de 2001 a julho de 2002) para o desenvolvimento deste trabalho. Aos pareceristas, cujos
comentários contribuíram para o aperfeiçoamento deste artigo.
TACONELI, C. A.; BARRETO, M. C. M Confidence intervals for population mean using
ranked set sampling. Rev. Mat. Estat., São Paulo, v.21, n.3, p. 41-66, 2003.
64
Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003
ABSTRACT: Ranked set sampling is adequate when the variable of interesting is expensive to
measure, but is possible to make some considerations about the order of possible outcomes. For
several estimators of the population mean properties like bias or relative precision have been
studied. This paper presents a simulation study of the asymptotic properties of the ranked set sample
mean estimator and the performance of usual confidence intervals.
KEYWORDS: ranked set sampling, confidence intervals, asymptotic properties, order statistics.
Referências
BARNETT,V. Ranked set sampling design for environmental investigations. Environ. Ecol.
Stat., Nottingham, v.6, p. 59-74, 1999.
BARNETT, V.; MOORE, K. Best linear unbiased estimates in ranked set sampling with
particular reference to imperfect ordering. J. Appl. Stat., Abingdom, v.24, p.697-710, 1997.
BARNETT, V.; BARRETO, M.C.M. Estimator for a Poisson parameter using ranked set
sampling, J. Appl. Stat., Abingdom, v.28, p.929-941, 2001.
BARRETO, M.C.M. Planejamentos eficientes em pesquisa no meio ambiente usando
amostragem em conjuntos ordenados. In: RELATÓRIO técnico do DES/UFSCar, série A:
teoria e métodos. São Carlos: UFSCar, 2000.11p.
BREIMAN, L. Statistics with a view toward aplications. 2.ed. Boston: Houghton Mifflin,
1969. p.34-39.
CHEN Z. Density estimation using ranked-set sampling data. Environ. Ecol. Stat.,
Amsterdam, v.6, p.135-146, 1999.
CHEN Z. On ranked-set sampling quantiles and their applications. J. Stat. Plann. Inf.,
Amsterdam, v.83, p.125-135, 2000.
DAVID,H. Order statistics. 2.ed. New York: John Wiley, 1981. p.1-49.
DELL, T.R.; CUTTLER, J.L. Ranked set sampling theory whit order statistics background.
Biometrics, Washington, v.28, p.545-555, 1972.
KAUR, A.; PATIL, G.P.; TAILLIE, C. Unequal allocation models for ranked set sampling
with skew distributions Biometrics, Washington, v.53, p. 123-130,1997.
MCINTYRE, G.A A method for unbiased seletive sampling, using ranked sets. Aust. J.
Agric. Res., Victoria, v.3, p.385-390, 1952.
MOOD, A.M.; GRAYBILL, F.A.; BOES, D.C. Introduction of theory of statistics. 3.ed. São
Paulo : McGraw-Hill, 1974. 564p.
NAHHAS, R.W.; WOLFE, D.A.; CHEN, H. Ranked set sampling: cost and optimal set size.
Biometrics, Washington, v.58, p.964-971, 2002.
PEARSON, E.S.; HARTLEY, H.O. Biometrika tables for statisticians. London: Griffin,
1976. v.2
Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003
65
SINHA, BIMAL K.; SINHA, BIKAS K.; PURKAYASTHA, S. On some aspects of ranked
set sampling for estimation of normal and exponential parameters. Stat. Decis., München,
v.14, p. 223-240, 1996.
STOKES, S.L. Ranked set sampling with concomitant variables. Commun. Stat. Theory
Meth., New York, v.36, p. 35-42, 1977.
STOKES, S.L. Estimation of variance using judgnment ordered ranked set sampling.
Biometrics, Washington, v.36, p.35-42, 1980.
STOKES, L. Parametric ranked set sampling. Ann. Inst. Stat. Math., Tokyo, v.47, p. 465482, 1995.
TAKAHASHI, K.; WAKIMOTO, K. On biased estimates of population mean based on
sample stratified by means of ordering. Ann. Inst. Stat. Math., Tokyo, v.20, p.1-31, 1968.
THOMPSON, S.K. Sampling . New York: John Wiley, 1992. 343p.
YU, P.L.H.; LAM,K. Regression estimator in ranked set sampling. Biometrics, Washington,
v.53, p.1070-1080, 1997.
Recebido em 10.10.2002.
Aprovado após revisão em 06.06.2003.
66
Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003