INTERVALOS DE CONFIANÇA PARA A MÉDIA POPULACIONAL USANDO AMOSTRAGEM EM CONJUNTOS ORDENADOS 1 Cesar Augusto TACONELI Maria Cecilia Mendes BARRETO1 RESUMO: A amostragem em conjuntos ordenados convém ser aplicada nas situações em que se pretende inferir sobre uma variável de difícil mensuração, havendo, no entanto, a possibilidade de ordenação das unidades amostrais de maneira simples e eficaz dentro das amostras. Para os diversos estimadores usados em amostragem de conjuntos ordenados, propriedades como vício e eficiência relativa a outros planejamentos amostrais têm sido estudadas. Pouca atenção, entretanto, tem sido dada ao estudo de propriedades assintóticas. Neste trabalho foi feita uma revisão das propriedades do estimador média via amostragem por conjuntos ordenados com o objetivo de estudar através de simulação suas propriedades assintóticas. Considerando a distribuição normal, foi verificada a normalidade do estimador tanto para ordenação perfeita como imperfeita e também a adequabilidade, no caso de ordenação perfeita ou pequenos erros de ordenação, do uso de intervalos de confiança assintóticos usando a distribuição normal. Considerando a distribuição exponencial, verificou-se que a distribuição empírica da média da amostra por conjuntos ordenados é gama, e na obtenção de intervalos assintóticos de confiança a não adequabilidade no uso de distribuição gama. PALAVRAS-CHAVE: Amostragem em conjuntos ordenados; intervalos de confiança; propriedades assintóticas; estatísticas de ordem. 1 Introdução Possíveis restrições à obtenção de uma amostra numerosa, decorrentes de dificuldades de mensuração da variável de interesse, seja pelos altos custos ou difícil acesso a tal medida, tornam necessária a utilização de esquemas amostrais que produzam estimadores mais precisos com um pequeno número de mensurações tomadas. A amostragem por conjuntos ordenados (ranked set sampling - RSS) é uma boa alternativa, cujo desenvolvimento recente tem em vista aplicações em estudos no meio ambiente. A amostragem por conjuntos ordenados é propícia quando a variável de interesse é de difícil obtenção (por exemplo, altura de árvores numa região densamente arborizada), mas há uma variável concomitante cuja mensuração seja facilmente obtida e seu valor esteja de alguma forma associado ao valor da variável de interesse (neste caso, o diâmetro do tronco a uma determinada distância do solo poderia prover condições de ordenar as árvores amostradas, desde que existam indícios de forte correlação entre as duas variáveis). Essa 1 Departamento de Estatística, Universidade Federal de São Carlos - UFSCar, CEP: 13565-905, São Carlos, SP, Brasil. E-mail: [email protected] / [email protected]. Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003 41 variável “ajuda” pode ser também, por exemplo, a própria estimativa do valor pelo qual estamos interessados, fornecida por um especialista, sem que de fato a meçamos. A grande vantagem da amostragem em conjuntos ordenados está no aumento da precisão da média da amostra em conjuntos ordenados em relação a média da amostra aleatória simples (AAS) como estimador da média populacional (Dell e Clutter, 1972). Outros esquemas amostrais também úteis em estudos ambientais são, por exemplo, amostragem adaptativa e captura-recaptura. A amostragem adaptativa é apropriada quando o objetivo é estimar o tamanho populacional de uma determinada espécie de animais ou plantas que habitam uma certa região. Consiste na divisão da região em N partes de mesma área. Seleciona-se, então, uma amostra de n divisões, nas quais verifica-se a existência de animais ou plantas da espécie de interesse. Caso a existência seja verificada, realiza-se naquela divisão a contagem e, adicionalmente, seleciona-se as divisões ao redor para posterior verificação e possível contagem. O processo de amostragem continua até que nas novas divisões não existam animais ou plantas de interesse. Ao final têm-se n ′ > n divisões selecionadas. Com objetivo semelhante ao da amostragem adaptativa, a amostragem por capturarecaptura tem como primeiro passo a captura de uma amostra de X animais, que são marcados e soltos em seu ambiente. Uma segunda amostra de y animais é extraída posteriormente, na qual verifica-se a presença de x animais marcados. A estimação do total populacional parte do pressuposto de que a proporção de animais marcados na segunda amostra é consistente com a proporção de animais marcados na população, embora possíveis distorções na proporção amostral possam ser identificadas e controladas pelo pesquisador. Estimadores apropriados para esses tipos de amostragem são apresentados em Thompson (1992). A amostragem por conjuntos ordenados foi introduzida na década de 50 por McIntyre (1952) e vem sendo desenvolvida desde então por pesquisadores como Stokes (1995), Sinha et al. (1996), Barnett e Moore (1997) e Kaur et al. (1997), Barnett (1999), Barreto (2000), Barnett e Barreto (2001) e Nahhas et al. (2002). Pouca atenção, entretanto, tem sido dada ao estudo das propriedades assintóticas de estimadores baseado em amostragem em conjuntos ordenados. Uma aplicação imediata é a obtenção de intervalos de confiança. Por exemplo, Chen (1999) apresenta uma maneira de estimar a função densidade de uma distribuição considerando amostragem por conjuntos ordenados. Um estudo sobre as propriedades dos quantis de amostras em conjuntos ordenados é apresentado em Chen (2000), que demonstra sua consistência forte e a normalidade assintótica. Como uma das aplicações desses resultados, é apresentada a construção de um intervalo de confiança para o quantil p baseado em amostragem por conjuntos ordenados. No presente trabalho inicia-se um estudo que visa avaliar as propriedades assintóticas e o uso de intervalos de confiança usuais para a média populacional a partir do estimador média amostral em conjuntos ordenados. Para isso, realiza-se um estudo desse estimador considerando ordenação perfeita e imperfeita. Por meio de simulação, procurou-se identificar sua distribuição empírica, para ambos os tipos de ordenação, considerando uma população com distribuição simétrica (normal) e uma outra com distribuição assimétrica (exponencial) e verificar a adequabilidade da utilização de intervalos assintóticos baseados na distribuição Normal e t-Student. 42 Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003 2 Amostragem por conjuntos ordenados (RSS) e alguns estimadores da média populacional A primeira etapa na obtenção de uma amostra por RSS consiste em selecionar n amostras contendo cada uma n unidades. A seleção das diferentes amostras é feita com reposição. Num segundo passo, ordenam-se as unidades amostrais, dentro de cada amostra, de acordo com uma informação auxiliar, por exemplo, o valor de uma variável concomitante, ou informação subjetiva de pesquisador da área, agrupando os elementos em ordem crescente do possível valor da variável de interesse. Repare que até aqui nenhuma unidade amostral foi medida quanto à variável de interesse. Finalmente, mensura-se na primeira amostra a primeira observação, isto é, aquela que, de acordo com o julgamento, apresenta o menor valor quanto à variável de interesse; na segunda, a que tiver a segunda menor medida e assim por diante, até a n-ésima amostra, onde é mensurada aquela que apresenta a n-ésima menor medida, ou seja, a maior. Esses elementos formam a amostra final, representada por: x1(1) , x2(2) ,..., xn (n ) . Dessa forma, dos n 2 elementos amostrados inicialmente, apenas n são de fato mensurados. Note que os elementos da amostra final são não-correlacionados, uma vez que provêm de amostras independentemente escolhidas. Acrescente-se também que esses mesmos elementos não são identicamente distribuídos. Quando a variável de interesse, x, pertence à família locação-escala de distribuições, F(θ1 ,θ 2 ) (dx) , onde θ 1 e θ 2 são, respectivamente os parâmetros de locação e de escala, sua função de distribuição e sua função densidade podem ser expressas na forma: F(0,1) x − θ1 dF(θ1,θ 2 ) (dx) e θ2 dx = 1 θ2 f (0,1) x − θ1 θ2 . Em conseqüência, se a variável x tem distribuição F(θ1 ,θ 2 ) (dx) , então: y= x − θ1 θ2 tem distribuição livre de parâmetros. Sejam x(1) , x(2) ,..., x( n) estatísticas de ordem de uma amostra de tamanho n e U (r ) = X (r ) − µ σ r = 1, , as variáveis reduzidas ordenadas. Então, para r = 1, ,n ,n, E (U (r ) ) = α r , Var (U (r ) ) = ν r (1) dependem apenas do tamanho da amostra, n , da ordem, r , e da função distribuição, f ( x ) . Os valores de α r e ν r encontram-se tabelados para diversas distribuições em Pearson e Hartley (1976), entre outros. Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003 43 Usando algumas propriedades de estatísticas de ordem (David, 1981), os valores de α r e ν r podem ser obtidos através de programação em R ou S-Plus. Nesse caso, assumindo que x é uma variável aleatória contínua com função distribuição de probabilidade P( x ) , o valor esperado da r-ésima estatística de ordem é dado por: ( ) E X (r ) = x 1 P r −1 ( x )[1 − P ( x )]n − r f ( x ) dx . B ( r , n − r + 1) (2) De maneira análoga obtém-se E( X (2r ) ). A variância da r-ésima estatística de ordem pode ser obtida, finalmente, fazendo-se Var ( X (r ) ) = E( X (2r ) ) – (E( X ( r ) ))2. Dentre os estimadores da média populacional mais usados em amostragem por conjuntos ordenados, pode-se destacar o estimador proposto por McIntyre (1952), o estimador BLUE para amostras de conjuntos ordenados (Barnett e Moore, 1997) e o estimador proposto por Kaur et al. (1997). Um primeiro estimador da média populacional para amostras de conjuntos ordenados é o elaborado por McIntyre (1952), dado por X = 1 n xr ( r ) n r =1 que é não-viciado, sendo n o tamanho da. Sua variância é dada por Var ( X ) = 1 n2 Var ( n r =1 x r (r ) ) = 1 n2 Var ( n (µ + σ U ( r ) ) = r =1 1 n2 σ2 n νr (3) r =1 sendo νi definido como em (1) e lembrando que as estatísticas de ordem provêm de amostras selecionadas aleatoriamente, e, portanto, são independentes. Takahasi e Wakimoto (1968) demonstraram matematicamente a maior eficiência deste estimador, se comparado ao estimador da média via AAS, ou seja, n σ2 n σ2 1 1 n Var ( X ) = 2 Var X r ( r ) = 2 Var ( X r ( r ) ) = 2 ν r ≤ = Var ( X ), n > 2 n n n r =1 n r =1 r =1 em que X é a média obtida via AAS. Desse modo, e( X , X ) = Var ( X ) Var ( X ) = n n ≥1 ν rr i =1 comprovando o ganho, em eficiência, decorrente do uso de uma RSS. O BLUE (best linear unbiased estimator) para RSS consiste em dar diferentes pesos às diferentes estatísticas de ordem que compõe a amostra. O estimador da média populacional e sua variância foram obtidos por Barnett e Moore (1997) e seu uso resulta, na prática, em um grande ganho em termos de eficiência ao ser comparado com a média da amostra de conjuntos ordenados. Um outro estimador é o proposto por Kaur et al. (1997). Este estimador provém de observações únicas, tomadas de x1(1) , x 2( 2) , ..., xt −1(t −1) , e q>1 observações de 44 Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003 xt (t ) j (j=1, 2, ..., q) provenientes de q amostras distintas, onde n = t − 1 + q . Desse modo, em vez de tomar o valor de uma única unidade amostral que apresenta maior valor quanto à variável de interesse, utiliza-se a média de q unidades, pertencentes a r amostras. Tal medida tende a evitar possíveis distorções do valor do estimador de interesse causadas por outliers. Stokes (1980) propôs como estimador da variância populacional a variância amostral dada por: σ̂ 2 = m n ( X ( r )i − X ) 2 /(mn − 1) (4) i =1 r =1 onde m é o número de vezes em que a amostra foi replicada, e nesse caso X ( r )i representa a i-ésima replicação da r-ésima estatística de ordem. O resultado obtido em (3) supõe que a ordenação das unidades amostrais é perfeita. Segundo Nahhas et al. (2002), existem na literatura dois modelos que incorporam erros de ordenação no cálculo da variância da média da amostra por conjuntos ordenados. Dell e Clutter (1972) adotaram o modelo de erros de ordenação por inspeção visual (visual ranked set sampling). Quando a ordenação é baseada em uma variável concomitante altamente relacionada com a variável de interesse, Stokes (1977) elaborou um modelo que leva em consideração a correlação entre as duas varáveis para o cálculo da variância da média da amostra por conjuntos ordenados. 3 Intervalos de confiança para a média populacional usando o estimador X Para a construção de intervalos de confiança para a média populacional, utiliza-se no presente trabalho o estimador média amostral via RSS em duas situações: ordenação perfeita dos elementos da amostra antes de sua mensuração e ordenação imperfeita por inspeção visual (Dell e Clutter, 1972). O estudo por simulação apresentado a seguir detalha a distribuição desse estimador a fim de estabelecer se esses intervalos poderão ser obtidos com base em alguma distribuição já conhecida ou não. Diferentes situações foram consideradas, entre elas, o tipo de distribuição base, ou seja, as amostras são geradas a partir de uma distribuição simétrica (normal) e a partir de outra assimétrica (exponencial). Além disso, foram abordados os casos em que a ordenação dos elementos dentro de cada amostra se dá de forma correta (ordenação perfeita) e incorreta (ordenação imperfeita). Considerou-se também, para a população com distribuição normal, o fato da variância populacional ser conhecida ou não. Diferentes tamanhos de amostras (n) e número de replicações das amostras em cada realização do procedimento de estimação (m) foram analisados. Através da simulação pode-se construir intervalos de confiança para o parâmetro a partir dos quantis obtidos, além de realizar uma análise gráfica da distribuição do estimador em questão. Considerando que um dos objetivos deste estudo é adotar intervalos usuais, sem a devida correção da variância da média da amostra por conjuntos ordenados quando da ordenação imperfeita, usamos como correta a expressão (3). Para as amostras simuladas de uma distribuição normal com variância conhecida considerou-se o seguinte intervalo com (1 − α )% de confiança: Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003 45 σ2 X ± zα / 2 νr . m * n2 (5) Já para o caso em que a variância populacional é desconhecida, considerou-se, inicialmente o seguinte intervalo: σˆ 2 X ± zα / 2 νr . m * n2 (6) sendo σ̂ 2 como definido em (4). Uma outra hipótese para o caso de variância populacional desconhecida é a aproximação com uma distribuição t Student com graus de liberdade b, o que forneceria intervalos de confiança como segue: X ± tb,α / 2 σˆ 2 m*n νr . 2 (7) Já para as amostras provenientes de uma população com distribuição exponencial, uma primeira alternativa a ser testada é a construção de intervalos de confiança baseados numa distribuição normal, como visto para a população normal (5). Outra proposta a ser avaliada é a obtenção de intervalos baseados nos quantis de uma distribuição gama, com parâmetros estimados pelas amostras. Essa idéia é baseada no fato de que a soma de variáveis independentes e exponencialmente distribuídas tem distribuição gama (Mood et al. 1974). Sabemos que na amostra de conjuntos ordenados as variáveis aleatórias são independentes, mas não identicamente distribuídas. Se uma variável aleatória X tem distribuição gama com parâmetros r e λ, então E[X]= r λ r e Var[X]= λ2 . (8) Avaliou-se, então, a conveniência da utilização de intervalos de confiança baseados nos quantis de uma distribuição gama, com parâmetros estimados via amostra, da seguinte maneira: λˆ = X Vaˆr[ X ] e rˆ = X2 Vaˆr[ X ] (9) em que Vaˆr[ X ] é obtida substituindo (4) em (3). 4 Resultados Primeiramente estudou-se o caso em que as unidades amostrais são ordenadas sem erros dentro de cada amostra de conjuntos ordenados (ordenação perfeita). O procedimento utilizado consiste em gerar n amostras de tamanho n de uma distribuição normal (0,1) ou de uma exponencial (1), de acordo com a distribuição de interesse. Usando o mesmo procedimento descrito na seção 2 para obter a amostra de conjuntos ordenados, os elementos em cada amostra foram ordenados em ordem crescente de nossa variável de interesse e, na amostra 1, selecionou-se o menor elemento, na segunda 46 Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003 amostra, o segundo menor elemento e assim por diante. Esse procedimento de geração de amostras de conjuntos ordenados é repetido m vezes, tendo-se então, uma amostra final de nm elementos. Como existem m replicações de cada estatística de ordem, o estimador da média populacional é dado por: X = 1 m m n j =1 r =1 x r (r ) j n . No total, foram geradas 5.000 amostras, a partir das quais construiu-se histogramas e gráficos probabilísticos na determinação da distribuição de interesse. Os valores usados para os tamanhos de amostra foram n = 3, 5 e 10, já que a utilização de amostras maiores acarretaria complicações quanto à ordenação dos elementos. Essa limitação é contornada com a replicação do processo de amostragem. Aqui, foram considerados os números de replicações m = 1, 3, 6 e 10. Estes gráficos são então julgados para verificar a conveniência da construção de intervalos de confiança para o parâmetro em estudo baseado nas distribuições citadas, tanto para dados vindos de distribuição normal como para a distribuição exponencial. Quando a distribuição foi adequada, procedeu-se então à simulação de 5000 intervalos de 90, 95 e 99% de confiança, para verificar a probabilidade de cobertura a ser obtida em cada situação. Se a proporção de intervalos que incluem o real valor do parâmetro estiver próxima da confiança utilizada, a construção de intervalos de confiança será considerada satisfatória. Se a distribuição do estimador média amostral por RSS não se aproxima da distribuição postulada, o procedimento de simulação utilizado para obter a probabilidade de cobertura será deixado de lado para que se busque uma distribuição com a qual seja possível construir intervalos de confiança mais precisos para o parâmetro em estudo. Quanto ao caso em que a ordenação é imperfeita, o modelo de ordenação visual (Dell e Clutter, 1972) considera que os erros se dão ao escolher aqueles elementos que devem fazer parte da amostra antes de mensuração, ou seja, incorreções na ordenação dos elementos. Esquematicamente, a geração de amostras de conjuntos ordenados considerando ordenação imperfeita pode ser representada pelo seguinte algoritmo: 1. Geração de uma amostra aleatória simples da distribuição de interesse: X 1 , X 2 ,..., X n ; 2. Geração de erros aleatórios segundo uma N( 0, σ ε2 ): e1, e2 ,..., en ; 3. Soma das duas amostras: X1 + e1, X 2 + e2 ,..., X n + en ; 4. Calculo do posto da soma : r1, r2 ,..., rn , onde r j são números entre 1 e n que não se repetem; 5. Definição de X 1(1) como o valor gerado no passo 1, cujo posto obtido no passo 4 é 1; 6. O passo 5 é repetidos mais n − 1 vezes, definindo-se X i (i ) como o valor gerado no primeiro passo cujo posto obtido no passo 4 é i , i = 2,..., n ; 7. Os passos 1 a 6 são repetidos m vezes. A amostra de conjuntos ordenados com m replicações de cada posição i é formada por X (1)1, X ( 2)1,..., X ( n )1, X (1) 2 , X ( 2) 2 , X ( n) 2 ,..., X (1) m , X ( 2) m ,..., X ( n ) m cujo termo geral, X (i ) j é uma forma abreviada de X i (i ) j . Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003 47 Note que nesse procedimento os erros são conseqüentes de ordenação, e não de medida. Repetindo esse procedimento 5.000 vezes, procedeu-se da mesma forma adotada para o caso de ordenação perfeita, na busca de uma distribuição adequada. No caso de ordenação imperfeita, foram atribuídos diversos valores para σ ε2 : 0,05, 0,15, 0,30 e 0,50, para os quais se estudou as possíveis combinações destas variâncias com três tamanhos de amostras (n=3,5 e 10) e quatro possíveis replicações (m = 1, 3, 6 e 10). 4.1 Resultados das simulações para população com distribuição normal (0,1) 4.1.1 Ordenação perfeita A Figura 1 apresenta os gráficos probabilísticos normais para as médias amostrais obtidas em cada situação. Há um forte indício da normalidade do estimador média amostral, sugerindo seu uso na obtenção de intervalos de confiança. Procedeu-se, então, com o cálculo da probabilidade de cobertura, para intervalos de 90, 95 e 99% de confiança para o parâmetro de locação. A Tabela 1 apresenta os resultados referentes ao caso em que a variância populacional é conhecida e os intervalos são baseados na expressão (5). A construção de intervalos baseados na distribuição normal se mostra bastante eficaz, já que os valores obtidos via simulação são bem próximos dos valores esperados. Na Tabela 2, a variância populacional é dada como desconhecida e os intervalos são baseados em (6) que usa a distribuição normal. Verifica-se que os valores obtidos estão bastante próximos dos esperados para as configurações 6*5, 6*10, 10*3, 10*5 e 10*10, ou seja, quando o tamanho final da amostra é igual ou superior a 30. A existência de grandes diferenças para os casos de tamanhos pequenos de amostras finais (menores do que 30) sugere que a utilização da distribuição normal não é adequada. Tabela 1 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) para as 5.000 amostras por conjuntos ordenados simuladas que contém o verdadeiro valor do parâmetro (distribuição normal (0,1) e variância conhecida), considerando ordenação perfeita m\n 1 3 6 10 48 3 confiança 90% 95% 99% 90% 95% 99% 90% 95% 99% 90% 95% 99% PC 90,52 95,10 98,72 89,38 94,56 99,04 89,98 94,88 98,78 89,56 94,80 99,02 5 NIC 4.526 4.755 4.936 4.469 4.728 4.952 4.499 4.744 4.939 4.478 4.740 4.951 PC 89,90 94,88 98,86 90,36 95,04 98,88 90,08 95,00 99,00 89,68 94,92 99,00 10 NIC 4.495 4.744 4.943 4.518 4.752 4.944 4.504 4.750 4.950 4.484 4.746 4.950 PC 90,02 94,82 98,92 90,90 95,36 99,28 90,58 95,42 98,96 90,42 95,30 99,06 NIC 4.501 4.741 4.946 4.545 4.768 4.964 4.529 4.771 4.948 4.521 4.765 4.953 Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003 0.4 1.0 -1.0 -0.4 0.0 0.0 0.0 -1.5 -4 -2 0 2 4 -4 -2 0 2 4 0 2 4 0 2 4 2 4 2 4 2 4 0.2 0.0 -0.3 -0.4 -2 -2 m=1, n=10 0.0 0.5 -0.5 -4 -4 m=1, n=5 0.4 m=1, n=3 -4 -2 0 2 4 -4 -2 m=3, n=5 0 m=3, n=10 0.0 -0.2 -0.4 -0.6 0.0 0.0 0.4 0.2 m=3, n=3 -4 -2 0 2 4 -4 -2 0 2 4 0 2 4 0 0.15 0.0 0.2 -0.15 -0.3 -2 -2 m=6, n=10 0.0 0.0 -0.4 -4 -4 m=6, n=5 0.4 m=6, n=3 -4 m=10, n=3 -2 0 m=10, n=5 2 4 -4 -2 0 m=10, n=10 FIGURA 1 - Gráfico probabilístico normal para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma normal (0,1) para diferentes tamanhos de amostras, replicações e ordenação perfeita. Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003 49 Tabela 2 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) dentre as 5.000 amostras por conjuntos ordenados simuladas (população com distribuição normal (0,1) e variância populacional desconhecida), considerando ordenação perfeita m\n 1 3 6 10 3 5 10 confiança PC NIC PC NIC PC NIC 90% 95% 99% 90% 95% 99% 90% 95% 99% 90% 95% 99% 82,56 87,40 92,62 87,50 92,72 97,58 89,20 93,86 98,10 89,64 94,26 98,90 4.128 4.370 4.631 4.375 4.636 4.879 4.460 4.693 4.905 4.482 4.713 4.945 88,38 92,98 97,22 89,60 94,26 98,46 89,54 94,90 98,98 90,10 95,02 98,76 4.419 4.649 4.861 4.480 4.713 4.923 4.477 4.745 4.949 4.505 4.751 4.938 90,50 95,34 98,76 90,96 95,50 99,26 90,74 95,36 98,90 90,62 95,36 99,02 4.525 4.767 4.938 4.548 4.775 4.963 4.537 4.768 4.945 4.531 4.768 4.951 Outra possibilidade a ser averiguada é a conveniência da utilização da distribuição tStudent na construção de intervalos de confiança. Na Tabela 3 relata-se os resultados obtidos, referentes às probabilidades de cobertura, para intervalos baseados numa t com m*n1 graus de liberdade. Verifica-se que os valores obtidos para as configurações de tamanhos de amostra final grande, ou seja, maior que 30, são bastante próximos dos valores esperados. Para n=3 e m=1 e 3, o uso da distribuição t produz intervalos mais condizentes com a confiança desejada, se comparado com os resultados obtidos pelo uso da distribuição normal. Tabela 3 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) dentre as 5.000 amostras por conjuntos ordenados simuladas (distribuição normal (0,1) e variância populacional desconhecida), considerando ordenação perfeita, baseados numa distribuição t-student com m*n-1 graus de liberdade m\n 1 3 6 10 50 3 confiança 90% 95% 99% 90% 95% 99% 90% 95% 99% 90% 95% 99% 5 10 PC NIC PC NIC PC NIC 93,80 97,14 99,62 91,11 95,90 99,38 90,64 95,44 98,96 90,38 94,70 98,96 4.690 4857 4.981 4.555 4.795 4.969 4.532 4.772 4.948 4.519 4.735 4.948 94,58 97,94 99,86 91,96 96,42 99,34 91,00 95,62 99,26 90,70 95,32 99,20 4.729 4.897 4.993 4.598 4.821 4.967 4.550 4.781 4.963 4.535 4.766 4.960 93,96 98,08 99,76 91,92 96,38 99,60 91,00 95,90 99,10 90,56 95,44 99,86 4.698 4.904 4.988 4.596 4.819 4.980 4.550 4.792 4.955 4.528 4.772 4.953 Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003 Esses resultados, análogos aos da Tabela 2, indicam que por questão de simplicidade pode-se usar a aproximação à distribuição normal para tamanhos finais de amostra maior ou igual a 30, uma vez que a distribuição t com mn-1 graus de liberdade é próxima da normal. 4.1.2 Ordenação imperfeita Utilizando o mesmo procedimento adotado para a população com distribuição normal (0,1) com ordenação perfeita, examinou-se o caso em que há a possibilidade de existência de erros de ordenação. Com as médias obtidas das amostras simuladas de cada uma das possíveis combinações de m, n e σ ε2 , seguindo o algoritmo apresentado, foram construídos gráficos probabilísticos normais, que são apresentados nas Figuras 2 e 3. Seu exame ratifica a hipótese de normalidade do estimador. Desse modo, pelas análises realizadas até então, é possível afirmar que a distribuição empírica de X , quando a população sob estudo tem distribuição normal com média 0 e variância 1, também é normal, seja com ordenação perfeita ou imperfeita das unidades amostrais e, neste último caso, independente do grau de imperfeição presente na ordenação das amostras. Tendo ratificado a conveniência do ajuste da distribuição normal para a variável de interesse, nos casos considerados, prosseguiu-se com o cálculo das probabilidades de cobertura com os diferentes valores da variabilidade dos erros de ordenação. Os resultados estão ilustrados nas Tabelas 4 e 5. Pode-se observar que os resultados obtidos se afastam dos valores esperados à medida que se aumenta o grau de imperfeição na ordenação das unidades amostrais. Essa característica também é observada para tamanhos de amostras grandes, indicando uma não adequação dos intervalos propostos. Tabela 4 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) das 5.000 amostras por conjuntos ordenados simuladas (distribuição normal (0,1) e variância populacional conhecida), considerando ordenação imperfeita ( ε i ~ N (0 , 0,50) ) m\n 1 3 6 10 3 confiança 90% 95% 99% 90% 95% 99% 90% 95% 99% 90% 95% 99% 5 10 PC NIC PC NIC PC NIC 88,14 93,76 98,54 89,04 94,40 98,84 88,80 93,96 98,56 88,94 94,82 98,86 4.407 4.688 4.927 4.452 4.720 4.942 4.440 4.698 4.928 4.447 4.741 4.943 89,24 94,40 98,76 88,58 93,90 98,62 88,12 93,62 98,56 88,22 94,14 98,76 4.462 4.720 4.938 4.429 4.695 4.931 4.406 4.681 4.928 4.411 4.707 4.938 86,58 92,62 98,00 86,20 92,52 98,12 87,30 93,30 98,32 87,12 93,12 98,22 4.329 4.631 4.900 4.310 4.626 4.906 4.365 4.665 4.916 4.356 4.656 4.911 Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003 51 0.4 1.0 0.0 0.0 1 0 -2 0 2 4 -0.6 -1.0 -1 -4 -4 -2 2 4 -4 -2 m=1, n=5 0 2 4 2 4 2 4 2 4 m=1, n=10 -1.0 -0.2 -0.4 0.0 0.0 0.2 0.4 1.0 m=1, n=3 0 -4 -2 0 2 4 -4 -2 0 2 4 0 2 4 0.0 -4 -2 m=6, n=3 0 2 4 -4 -2 m=6, n=5 0 m=6, n=10 -4 -2 0 m=10, n=3 2 4 -0.1 -0.4 -0.2 0.0 0.1 0.2 0.4 0 -0.2 0.0 -0.4 -2 -2 m=3, n=10 0.4 0.4 0.0 -0.6 -4 -4 m=3, n=5 0.2 m=3, n=3 -4 -2 0 2 m=10, n=5 4 -4 -2 0 m=10, n=10 FIGURA 2 - Gráficos probabilísticos normais para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma normal (0,1) para diferentes tamanhos de amostras, replicações e variância dos erros de ordenação ( σ ε2 ) igual a 0,05. 52 Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003 0.0 1.0 0.0 1 0 -2 0 2 4 -1.0 -1.0 -1 -4 -4 -2 0 2 4 -4 -2 m=1, n=5 0 2 4 2 4 2 4 2 4 m=1, n=10 -1.0 -0.4 -0.5 0.0 0.0 0.5 0.4 m=1, n=3 -4 -2 0 2 4 -4 -2 0 2 4 0 2 4 0.2 0.0 -4 -2 0 2 4 0.2 -0.2 0.0 2 4 0 m=6, n=10 -0.4 0 -2 0.0 0.6 0.2 -0.4 -2 -4 m=6, n=5 0.4 m=6, n=3 -4 0 -0.3 -0.4 -2 -2 m=3, n=10 0.0 0.4 -0.2 -0.8 -4 -4 m=3, n=5 0.4 m=3, n=3 -4 m=10, n=3 -2 0 m=10, n=5 2 4 -4 -2 0 m=10, n=10 FIGURA 3 - Gráficos probabilísticos normais para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma normal (0,1) para diferentes tamanhos de amostras, replicações e variância dos erros de ordenação ( σ ε2 ) igual a 0,50. Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003 53 Tabela 5 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) das 5.000 amostras por conjuntos ordenados simuladas (distribuição normal (0,1) e variância populacional conhecida), considerando ordenação imperfeita ( ε i ~ N ( 0 , 0 ,50 ) ) m\n 1 3 6 10 3 5 10 confiança PC NIC PC NIC PC NIC 90% 95% 99% 90% 95% 99% 90% 95% 99% 90% 95% 99% 83,56 90,40 97,14 84,94 91,54 97,64 85,16 91,50 97,74 85,88 92,24 97,64 4.178 4.520 4.857 4.247 4.577 4.882 4.258 4.575 4.887 4.294 4.612 4.882 80,72 87,46 95,96 81,72 88,82 96,52 80,52 87,50 95,70 81,28 88,50 96,04 4.036 4.373 4.798 4.086 4.441 4.826 4.026 4.375 4.785 4.064 4.425 4.802 72,64 80,64 91,58 73,44 81,66 91,98 70,94 80,00 91,56 71,80 80,04 91,68 3.632 4.032 4.579 3.672 4.083 4.599 3.547 4.000 4.578 3.590 4.002 4.584 Pode-se explicar isso pelo fato de que quanto maior o tamanho das amostras, maior será a possibilidade de haver erros na ordenação. Quando se tem altas taxas de erros de ordenação, dificilmente será possível ordenar uma amostra de tamanho grande de forma correta. A utilização de amostras de tamanho 10, como visto nas tabelas citadas, não seria benéfica, uma vez que sua utilização não acrescentaria precisão, mas somente aumentaria custos e dificuldades ao processo de amostragem. É importante verificar se há correspondência entre os quantis α/2 e (1-α/2) da amostra, sendo α o nível de significância dos intervalos e aqueles calculados para uma distribuição normal. Primeiramente, quando se compara os quantis da distribuição empírica padronizada das médias simuladas com os valores previstos de uma distribuição normal. Dada uma determinada configuração, seja X i a i-ésima média de conjuntos ordenados e X = Var ( X ) = 5000 j =1 X i / 5000 5000 1 (X i − X )2 5000 − 1 i =1 usadas para obter a variável padronizada z, zi = Xi − X . Var (X ) Como a média via amostragem por conjuntos ordenados tem distribuição normal, pertencente à família locação escala, espera-se que a variável z também seja normal, com média igual a zero e variância um. A Tabela 6 apresenta a comparação dos quantis da 54 Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003 variável z, para cada uma das situações em estudo, com os quantis de uma distribuição normal (0,1). Tabela 6 - Comparação dos intervalos obtidos através da distribuição empírica padronizada das médias simuladas em cada configuração, usando como parâmetros a média e a variância das 5.000 médias, em relação aos valores previstos de acordo com uma distribuição normal (0,1) σ ε2 \(m,n) 0 0,05 0,50 prob (0,05 , 0,95) (0,025 , 0,975) (0,005 , 0,995) (0,05 , 0,95) (0,025 , 0,975) (0,005 , 0,995) (0,05 , 0,95) (0,025 , 0,975) (0,005 , 0,995) (1 , 3) normal (-1,64 , 1, 64) (-1,96 , 1,96) (-2,58 , 2,58) (-1,64 , 1, 64) (-1,96 , 1,96) (-2,58 , 2,58) (-1,64 , 1, 64) (-1,96 , 1,96) (-2,58 , 2,58) (-1,67 , 1,62) (-2,00 , 1,92) (-2,52 , 2,56) (-1,67 , 1,62) (-2,00 , 1,92) (-2,53 , 2,56) (-1,64 , 1,68) (-1,94 , 1,98) (-2,58 , 2,64) (3 , 3) (-1,67 , 1,60) (-1,97 , 1,91) (-2,66 , 2,57) (-1,67 , 1,60) (-1,97 , 1,91) (-2,66 , 2,57) (-1,65 , 1,61) (-1,98 , 1,94) (-2,51 , 2,63) (1 , 5) (-1,64 , 1,65) (-1,95 , 1,99) (-2,73 , 2,55) (-1,65 , 1,64) (-1,95 , 1,99) (-2,72 , 2,65) (-1,61 , 1,66) (-1,99 , 2,01) (-2,68 , 2,66) (3 , 5) (-1,65 , 1,66) (-1,98 , 1,94) (-2,57 , 2,51) (-1,65 , 1,66) (-1,98 , 1,94) (-2,57 , 2,50) (-1,63 , 1,67) (-1,96 , 1,94) (-2,58 , 2,57) Uma outra possibilidade a se estudar é a distribuição das médias simuladas padronizadas, dadas por: Xi ti = σ 2 ν i / n2 Os quantis de interesse das médias simuladas padronizadas, bem como aqueles fornecidos por uma distribuição normal padronizada, encontram-se na Tabela 7, para efeito de comparação. Tabela 7 - Comparação dos intervalos obtidos através da distribuição empírica das médias simuladas padronizadas, em cada configuração, em relação aos valores previstos de acordo com uma distribuição normal σ ε2 \(m,n) 0 0,05 0,50 prob normal (0,05 , 0,95) (0,025 , 0,975) (0,05 , 0,95) (0,05 , 0,95) (0,025 , 0,975) (0,05 , 0,95) (0,05 , 0,95) (0,025 , 0,975) (0,05 , 0,95) (-1,64 , 1, 64) (-1,96 , 1,96) (-2,58 , 2,58) (-1,64 , 1, 64) (-1,96 , 1,96) (-2,58 , 2,58) (-1,64 , 1, 64) (-1,96 , 1,96) (-2,58 , 2,58) (1,3) (3,3) (1,5) (3,5) (-1,65 , 1,64) (-1,90 , 1,94) (-2,51 , 2,44) (-1,70 , 1,66) (-2,07 , 1,99) (-2,60 , 2,57) (-1,83 , 1,88) (-2,18 , 2,27) (-2,91 , 3,07) (-1,61 , 1,62) (-1,94 , 1,97) (-2,63 , 2,52) (-1,67 , 1,72) (-2,02 , 2,02) (-2,69 , 2,56) (-1,88 , 1,82) (-2,30 , 2,19) (-2,92 , 2,92) (-1,63 , 1,63) (-1,99 , 1,95) (-2,54 , 2,52) (-1,78 , 1,67) (-2,06 , 2,02) (-2,71 , 2,71) (-2,10 , 2,02) (-2,51 , 2,46) (-3,21 , 3,27) (-1,66 , 1,61) (-1,99 , 1,94) (-2,61 , 2,56) (-1,73 , 1,73) (-2,03 , 2,09) (-2,66 , 2,82) (-2,13 , 2,06) (-2,55 , 2,52) (-3,35 , 3,32) Verifica-se que os quantis da distribuição padronizada são praticamente idênticos àqueles associados a uma distribuição normal, ao contrário do que ocorre com os quantis da distribuição das médias simuladas padronizadas, em que fica nítido o afastamento dos Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003 55 valores obtidos da distribuição normal à medida que se aumenta a variância dos erros de ordenação. Os resultados alcançados nas Tabelas de 4 a 7 permitem concluir que apesar de a distribuição do estimador da média populacional via RSS ser normal, independente dos tamanhos de amostras e graus de imperfeição, os intervalos de confiança para a situação de ordenação imperfeita se mostram imprecisos, principalmente para altos valores da variabilidade dos erros. Isso se deve ao fato de que o erro padrão utilizado nos cálculos dos intervalos foi o mesmo do caso de ordenação perfeita. Na prática, no entanto, esses dois valores não são iguais, uma vez que se deve acrescentar à variabilidade o erro decorrente da imperfeição na ordenação das unidades amostrais. Conclui-se, portanto, que a distribuição normal é a melhor alternativa para a obtenção dos intervalos de confiança, quando a população é normalmente distribuída, necessitando, no entanto, de uma correção do estimador da variância quando há erros de ordenação. 4.2 Resultados das simulações para uma população com distribuição exponencial (1) 4.2.1 Ordenação perfeita Para averiguar a distribuição da média da amostra de conjuntos ordenados quando a distribuição de base é exponencial, através das amostras simuladas foram construídos gráficos probabilísticos normais apresentados na Figura 4. À medida que aumenta o valor de m*n esta distribuição apresenta uma tendência de normalidade. É necessário ressaltar, no entanto, que nem mesmo para a combinação do maior tamanho amostral com o maior número de replicações pode-se concluir que o estimador X apresenta de fato distribuição normal. Como detalhado nas fórmulas (8 e 9), uma segunda alternativa seria avaliar se a distribuição gama, com parâmetros estimados via amostra, é uma boa alternativa de aproximação para a distribuição empírica do estimador. Para isso, procedeu-se com a construção de gráficos probabilísticos gama para as 5.000 médias, com ordenação perfeita, para as diferentes configurações. Os resultados estão expostos na Figura 5. A distribuição gama fornece um bom ajuste à distribuição empírica de X , independente do tamanho de amostra e do número de replicações. A seguir verificou-se se a distribuição gama forneceria ou não intervalos de confiança precisos para o estimador. A Tabela 8 traz os resultados do calculo das probabilidades de cobertura. Tais intervalos foram obtidos de uma distribuição gama com parâmetros estimados pelas amostras, como visto em (9). Apesar de se ter comprovado graficamente o fato de a distribuição do estimador ser uma gama, fica evidente, pela Tabela 8, que o intervalo de confiança proposto, baseado nessa mesma distribuição, não é adequado. A causa mais provável para essa distorção é relativa ao desconhecimento da variância populacional. O uso do estimador σ̂ 2 faz com que os limites de confiança sejam deslocados de tal maneira a não mais englobar o valor de µ. Perceba que, assintoticamente, o intervalo proposto mostra-se conveniente, principalmente nas situações onde o tamanho das amostras (n) é igual a 10. 56 Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003 1.8 1.5 1.2 2.5 2.5 1.5 -2 0 2 4 0.6 0.5 0.5 -4 -4 -2 0 2 4 -4 -2 m=1, n=5 2 4 2 4 2 4 2 4 1.2 0.8 0.4 0.5 1.0 1.5 0 m=1, n=10 1.6 m=1, n=3 -4 -2 0 2 4 -4 -2 0 2 4 -4 -2 m=3, n=5 0 m=3, n=10 -4 -2 0 2 4 1.2 0.8 0.5 0.8 1.0 1.0 1.2 1.5 2.0 m=3, n=3 -4 -2 0 2 4 -4 -2 m=6, n=5 0 m=6, n=10 0.8 0.6 0.8 1.0 1.0 1.2 1.4 1.2 m=6, n=3 -4 -2 0 2 4 -4 -2 m=10, n=3 0 m=10, n=5 2 4 -4 -2 0 m=10, n=10 FIGURA 4 - Gráfico probabilístico normal para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma exponencial (1) para diferentes tamanhos de amostras, replicações e ordenação perfeita. Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003 57 1.8 1.5 1.2 2.5 2.5 1.5 1 2 0.6 0.5 0.5 0 3 0.5 1.0 1.5 2.0 2.5 0.6 0.8 1.0 1.2 1.4 1.6 1.8 m=1, n=5 m=1, n=10 1.2 0.8 0.4 0.5 1.0 1.5 1.6 m=1, n=3 0.5 1.0 1.5 2.0 0.6 0.8 1.0 1.2 1.4 1.6 1.8 m=3, n=5 1.0 1.2 1.4 m=3, n=10 0.6 0.8 1.0 1.2 1.4 1.6 1.8 1.2 0.8 0.5 0.8 1.0 1.0 1.2 1.5 2.0 m=3, n=3 0.8 0.6 0.8 1.0 1.2 1.4 0.8 0.9 m=6, n=5 1.0 1.1 1.2 1.3 m=6, n=10 0.6 0.8 1.0 1.2 m=10, n=3 1.4 1.6 0.8 0.6 0.8 1.0 1.0 1.2 1.4 1.2 m=6, n=3 0.8 1.0 1.2 m=10, n=5 1.4 0.8 0.9 1.0 1.1 1.2 m=10, n=10 FIGURA 5 - Gráfico probabilístico gama, com parâmetros estimados via resultados obtidos por simulação, para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma exponencial (1) para diferentes tamanhos de amostras, replicações e ordenação perfeita. 58 Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003 Tabela 8 - Probabilidade de cobertura e número de intervalos de confiança das 5.000 amostras por conjuntos ordenados simuladas (distribuição exponencial (1) e variância populacional desconhecida), considerando ordenação perfeita, baseados numa distribuição gama m\n 1 3 6 10 3 confiança 90% 95% 99% 90% 95% 99% 90% 95% 99% 90% 95% 99% PC 77,14 81,84 88,14 84,60 89,12 94,66 87,42 92,24 97,64 88,00 93,24 97,64 5 NIC 3.857 4.092 4.497 4.230 4.456 4.733 4.371 4.612 4.882 4.400 4.662 4.882 PC 82,90 88,32 94,22 91,16 94,62 98,02 88,18 93,26 97,80 89,42 93,90 98,28 10 NIC 4.145 4.416 4.711 4.558 4.731 4.901 4.409 4.663 4.890 4.471 4.695 4.914 PC 88,22 92,62 97,10 90,78 95,06 98,56 90,18 94,88 98,72 89,62 94,80 98,80 NIC 4.411 4.631 4.855 4.539 4.753 4.928 4.509 4.744 4.936 4.481 4.740 4.940 4.2.2 Ordenação imperfeita As Figuras 6 e 7 apresentam os gráficos probabilísticos gama para o estimador, quando a ordenação é imperfeita, para os diferentes valores de σ ε2 considerados. Pode-se verificar aqui também o bom ajuste fornecido pela distribuição gama para os 5.000 valores simulados em cada configuração. Têm-se condições de concluir, portanto, que a distribuição empírica do estimador média amostral via amostragem por conjuntos ordenados, neste caso, é uma gama, tanto para ordenação perfeita quanto para ordenação imperfeita. Prosseguiu-se com a comparação dos quantis referentes à distribuição empírica com os quantis de uma distribuição gama, com os parâmetros obtidos como visto em (9). Os resultados alcançados são apresentados na Tabela 9. Os quantis da distribuição empírica pouco diferem daqueles previstos de acordo com uma distribuição gama. Fica claro, mais uma vez, o fato de X , em qualquer situação daquelas averiguadas, ter distribuição gama. Concluídas as análises relativas à distribuição do estimador em estudo, verificou-se, então, se é ou não conveniente a construção de intervalos de confiança para o parâmetro baseados na distribuição gama, quando a ordenação é feita com a presença de erros. Mais uma vez foram obtidos intervalos com 90, 95 e 99% de confiança para as 5.000 médias simuladas em cada uma das combinações em estudo. Os parâmetros da distribuição gama utilizados foram estimados como visto em (8). As Tabelas 10 e 11 apresentam o número de intervalos de confiança que contém o real valor do parâmetro, acompanhado pela respectiva proporção, apresentada na forma percentual. À medida que a imperfeição na ordenação das amostras aumenta, constata-se um afastamento da proporção de intervalos que contém o real valor do parâmetro em relação à probabilidade de cobertura estipulada. Aumentando a variabilidade do erro, a tendência é que os estimadores se afastem, um maior número de vezes, dos valores dos parâmetros de interesse, fazendo com que, no caso da estimação intervalar, um maior número de intervalos não contenham o valor do parâmetro. Mais uma vez ressalta-se a necessidade de procurar um Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003 59 0 1 2 2.0 1.5 0.5 0.0 0.5 1.0 1.0 1.5 2.0 3.0 2.5 fator de correção na significância dos intervalos de confiança, buscando estabelecer os valores para os quais têm-se resultados próximos dos ideais. 3 0.5 1.0 1.5 2.0 2.5 m=1, n=10 1.0 1.5 2.0 1.2 0.8 0.60000 1.5 0.5 0.5 0.6 0.8 1.0 1.2 1.4 1.6 1.8 m=1, n=5 1.39998 m=1, n=3 0.6 0.8 1.0 1.2 1.4 1.6 1.8 0.8 1.4 1.0 0.8 0.6 0.6 0.8 1.0 1.2 1.4 0.8 0.9 m=6, n=5 1.0 1.1 1.2 1.3 m=6, n=10 0.6 0.8 0.9 1.0 1.2 1.1 m=6, n=3 1.4 1.2 1.2 1.4 1.0 1.2 0.6 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 1.0 m=3, n=10 1.4 m=3, n=5 1.8 m=3, n=3 0.6 0.8 1.0 1.2 m=10, n=3 1.4 1.6 0.8 1.0 1.2 m=10, n=5 1.4 0.8 0.9 1.0 1.1 1.2 m=10, n=10 FIGURA 6 - Gráfico probabilístico gama, com parâmetros estimados via resultados obtidos por simulação, para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma exponencial (1) para diferentes tamanhos de amostras, replicações e variância dos erros de ordenação ( σ ε2 ) igual a 0,05. 60 Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003 1.5 2.5 1.5 3 2 0.5 0.5 1 0 0 1 2 3 4 0.5 1.0 1.5 2.0 2.5 0.5 1.0 m=1, n=5 1.5 2.0 m=1, n=10 1.4 1.0 0.6 0.5 0.5 1.0 1.5 1.5 2.5 2.0 m=1, n=3 0.5 1.0 1.5 2.0 2.5 0.5 1.0 1.5 2.0 1.4 1.5 1.0 1.2 1.4 1.6 0.8 0.6 1.0 0.8 m=3, n=10 1.0 1.5 0.5 0.5 0.6 m=3, n=5 1.2 m=3, n=3 0.6 0.8 1.0 1.2 1.4 1.6 0.8 1.0 m=6, n=5 1.2 1.4 m=6, n=10 0.6 0.8 1.0 1.2 1.4 1.6 0.6 0.8 0.6 0.8 1.0 1.0 1.2 1.4 1.2 m=6, n=3 0.8 m=10, n=3 1.0 1.2 m=10, n=5 1.4 0.8 0.9 1.0 1.1 1.2 1.3 m=10, n=10 FIGURA 7 - Gráfico probabilístico gama, com parâmetros estimados via resultados obtidos por simulação, para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma exponencial (1) para diferentes tamanhos de amostras, replicações e variância dos erros de ordenação ( σ ε2 ) igual a 0,50. Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003 61 Tabela 9 - Comparação dos quantis das amostras simuladas com os respectivos quantis de uma distribuição gama com parâmetros estimados pelas 5.000 amostras (m , n) (1 , 3) (3 , 3) (1 , 5) (3 , 5) σ ε2 (m,n) 0 0,05 0,15 0,30 0,50 62 prob gama simulado gama simulado gama simulado gama simulado (0,05 , 0,95) (0,38 , 1,81) (0,40 , 1,83) (0,57 , 1,52) (0,58 , 1,51) (0,62 , 1,45) (0,63 , 1,45) (0,73 , 1,31) (0,74 , 1,31) (0,025 , 0,975) (0,31 , 2,03) (0,34 , 2,06) (0,51 , 1,64) (0,53 , 1,68) (0,56 , 1,56) (0,58 , 1,55) (0,69 , 1,37) (0,69 , 1,38) (0,005 , 0,995) (0,21 , 2,50) (0,23 , 2,59) (0,40 , 1,90) (0,44 , 2,01) (0,46 , 1,76) (0,48 , 1,82) (0,61 , 1,51) (0,62 , 1,51) (0,05 , 0,95) (0,38 , 1,90) (0,38 , 1,89) (0,60 , 1,47) (0,60 , 1,47) (0,55 , 1,56) (0,56 , 1,64) (0,72 , 1,31) (0,73 , 1,31) (0,025 , 0,975) (0,31 , 2,13) (0,31 , 2,13) (0,55 , 1,58) (0,55 , 1,56) (0,48 , 1,69) (0,50 , 1,69) (0,68 , 1,38) (0,68 , 1,38) (0,005 , 0,995) (0,20 , 2,64) (0,21 , 2,72) (0,45 , 1,80) (0,46 , 1,85) (0,38 , 1,98) (0,39 , 2,04) (0,60 , 1,52) (0,59 , 1,55) (0,05 , 0,95) (0,37 , 1,89) (0,37 , 1,89) (0,61 , 1,48) (0,60 , 1,48) (0,53 , 1,60) (0,53 , 1,60) (0,71 , 1,33) (0,71 , 1,33) (0,025 , 0,975) (0,30 , 2,12) (0,30 , 2,11) (0,55 , 1,59) (0,53 , 1,58) (0,47 , 1,74) (0,46 , 1,74) (0,67 , 1,41) (0,67 , 1,41) (0,005 , 0,995) (0,20 , 2,63) (0,17 , 2,67) (0,45 , 1,82) (0,43 , 1,80) (0,36 , 2,05) (0,35 , 2,04 (0,58 , 1,56) (0,59 , 1,67) (0,05 , 0,95) (0,36 , 1,92) (0,35 , 1,90) (0,58 , 1,52) (0,58 , 1,52) (0,50 , 1,63) (0,49 , 1,62) (0,70 , 1,34) (0,69 , 1,34) (0,025 , 0,975) (0,29 , 2,16) (0,26 , 2,14) (0,52 , 1,64) (0,51 , 1,62) (0,43 , 1,79) (0,43 , 1,79) (0,66 , 1,42) (0,65 , 1,41) (0,005 , 0,995) (0,18 , 2,69) (0,16 , 2,72) (0,42 , 1,90) (0,40 , 1,89) (0,32 , 2,12) (0,31 , 2,14) (0,57 , 1,58) (0,57 , 1,55) (0,05 , 0,95) (0,34 , 1,98) (0,32 , 1,98) (0,58 , 1,51) (0,57 , 1,49) (0,49 , 1,65) (0,48 , 1,64) (0,68 , 1,37) (0,68 , 1,37) (0,025 , 0,975) (0,27 , 2,24) (0,25 , 2,23) (0,52 , 1,64) (0,50 , 1,64) (0,42 , 1,81) (0,42 , 1,81) (0,64 , 1,45) (0,63 , 1,44) (0,005 , 0,995) (0,17 , 2,81) (0,15 , 2,79) (0,41 , 1,90) (0,40 , 1,89) (0,31 , 2,15) (0,28 , 2,08) (0,55 , 1,62) (0,53 , 1,60) Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003 Tabela 10 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) das 5.000 amostras por conjuntos ordenados simuladas (distribuição exponencial (1) e variância populacional desconhecida) considerando ordenação imperfeita ( ε i ~ N (0 , 0,05) ), baseados numa distribuição gama m\n 1 3 6 10 3 confiança 90% 95% 99% 90% 95% 99% 90% 95% 99% 90% 95% 99% PC 77,04 82,16 87,86 84,18 89,14 94,48 86,52 91,44 96,76 86,90 92,12 97,34 5 NIC 3.852 4.108 4.393 4.209 4.457 4.724 4.326 4.572 4.838 4.345 4.606 4.867 PC 82,54 87,78 93,38 85,42 91,32 96,08 87,20 92,90 97,52 87,60 92,82 97,70 10 NIC 4.127 4.389 4.669 4.271 4.566 4.804 4.360 4.645 4.876 4.380 4.641 4.885 PC 85,42 90,52 95,38 86,64 91,84 97,30 87,76 93,12 98,22 87,36 93,60 98,18 NIC 4.271 4.526 4.769 4.332 4.592 4.865 4.388 4.656 4.911 4.368 4.680 4.909 Tabela 11 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) dentre os 5.000 simulados, considerando ordenação imperfeita ( ε i ~ N (0 , 0,50) ), baseados numa distribuição gama, que contêm o verdadeiro valor do parâmetro (população com distribuição exponencial (1) e variância populacional desconhecida) m\n 1 3 6 10 3 5 10 confiança PC NIC PC NIC PC NIC 90% 95% 99% 90% 95% 99% 90% 95% 99% 90% 95% 99% 71,48 76,78 83,72 80,14 86,30 93,04 83,24 89,26 95,52 83,94 90,02 95,88 3.574 3.839 4.186 4.007 4.315 4.652 4.162 4.463 4.776 4.197 4.501 4.794 75,12 81,30 88,92 80,40 86,76 93,96 81,32 88,16 95,00 81,32 88,58 96,10 3.756 4.065 4.446 4.020 4.338 4.698 4.066 4.408 4.750 4.066 4.429 4.805 74,72 82,30 90,66 77,04 84,50 93,04 77,62 85,08 94,14 77,28 84,70 93,62 3.736 4.115 4.553 3.852 4.225 4.652 3.881 4.254 4.707 3.864 4.235 4.681 Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003 63 Conclusões O estudo do estimador média amostral via amostragem por conjuntos ordenados foi realizado a partir da geração de amostras com distribuição normal (0,1) e exponencial (1). Através de gráficos probabilísticos e tabelas comparativas (quantis amostrais vs quantis da distribuição de interesse) conclusões foram extraídas acerca de sua distribuição. Ficou claro, pelos resultados obtidos, que na situação em que as amostras são geradas com distribuição normal, a distribuição de X também é normal, enquanto para as amostras exponencialmente distribuídas, a distribuição desse estimador é gama. Vale ressaltar que tais conclusões são válidas para os dois tipos de ordenação considerados (perfeita e imperfeita). Os intervalos de confiança propostos foram avaliados de acordo com as probabilidades de cobertura fornecidas na estimação do parâmetro de interesse. Foi verificada a boa adequação da distribuição normal na obtenção dos limites de confiança quando a população tem distribuição normal, com ordenação perfeita e variância populacional conhecida. Quando σ 2 é desconhecido, a distribuição normal só é conveniente quando o tamanho final das amostras (m*n) é igual ou superior a 30. Para amostras pequenas (principalmente para n=3 e m= 1 e 3), a distribuição t-Student apresenta melhores resultados, se comparada com a normal, na construção dos intervalos. Para o caso de ordenação imperfeita, a distribuição normal não produz intervalos de confiança precisos. Isso se deve à utilização do mesmo estimador do erro padrão da média da amostra por conjuntos ordenados utilizado no caso de ordenação perfeita. Deve-se pesquisar um acréscimo no estimador da variância da média amostral, decorrente do aumento da variabilidade causado pelas falhas de ordenação, adotando-se, como primeiras sugestões, o modelo de inspeção visual (Dell e Clutter, 1972) ou o modelo de variável concomitante (Stokes, 1977). Quando as amostras têm distribuição exponencial, a distribuição gama não possibilita a construção de intervalos adequados, devido ao uso da estimativa da variância populacional (para tamanhos grandes de amostra, tais intervalos passam a apresentar confiança bastante próxima da desejada). Acrescente-se a isso, no caso de ordenação imperfeita, um problema análogo ao ocorrido com a distribuição normal, ou seja, a sub-estimação da variância de X . Portanto intervalos de confiança para a média populacional, baseados na distribuição Normal, quando do uso de amostras por conjuntos ordenados, são adequados apenas na situação em que a distribuição da variável de interesse é Normal, a ordenação é perfeita e a variância populacional conhecida, para qualquer tamanho de amostra e replicação. Quando a variância é desconhecida, intervalos baseados na distribuição t-Student são adequados para tamanhos de amostras pequenos, enquanto os intervalos baseados na distribuição Normal são adequados para tamanhos de amostras maiores. Agradecimentos. À FAPESP, Processo número 01/04862-0, pela bolsa concedida (agosto de 2001 a julho de 2002) para o desenvolvimento deste trabalho. Aos pareceristas, cujos comentários contribuíram para o aperfeiçoamento deste artigo. TACONELI, C. A.; BARRETO, M. C. M Confidence intervals for population mean using ranked set sampling. Rev. Mat. Estat., São Paulo, v.21, n.3, p. 41-66, 2003. 64 Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003 ABSTRACT: Ranked set sampling is adequate when the variable of interesting is expensive to measure, but is possible to make some considerations about the order of possible outcomes. For several estimators of the population mean properties like bias or relative precision have been studied. This paper presents a simulation study of the asymptotic properties of the ranked set sample mean estimator and the performance of usual confidence intervals. KEYWORDS: ranked set sampling, confidence intervals, asymptotic properties, order statistics. Referências BARNETT,V. Ranked set sampling design for environmental investigations. Environ. Ecol. Stat., Nottingham, v.6, p. 59-74, 1999. BARNETT, V.; MOORE, K. Best linear unbiased estimates in ranked set sampling with particular reference to imperfect ordering. J. Appl. Stat., Abingdom, v.24, p.697-710, 1997. BARNETT, V.; BARRETO, M.C.M. Estimator for a Poisson parameter using ranked set sampling, J. Appl. Stat., Abingdom, v.28, p.929-941, 2001. BARRETO, M.C.M. Planejamentos eficientes em pesquisa no meio ambiente usando amostragem em conjuntos ordenados. In: RELATÓRIO técnico do DES/UFSCar, série A: teoria e métodos. São Carlos: UFSCar, 2000.11p. BREIMAN, L. Statistics with a view toward aplications. 2.ed. Boston: Houghton Mifflin, 1969. p.34-39. CHEN Z. Density estimation using ranked-set sampling data. Environ. Ecol. Stat., Amsterdam, v.6, p.135-146, 1999. CHEN Z. On ranked-set sampling quantiles and their applications. J. Stat. Plann. Inf., Amsterdam, v.83, p.125-135, 2000. DAVID,H. Order statistics. 2.ed. New York: John Wiley, 1981. p.1-49. DELL, T.R.; CUTTLER, J.L. Ranked set sampling theory whit order statistics background. Biometrics, Washington, v.28, p.545-555, 1972. KAUR, A.; PATIL, G.P.; TAILLIE, C. Unequal allocation models for ranked set sampling with skew distributions Biometrics, Washington, v.53, p. 123-130,1997. MCINTYRE, G.A A method for unbiased seletive sampling, using ranked sets. Aust. J. Agric. Res., Victoria, v.3, p.385-390, 1952. MOOD, A.M.; GRAYBILL, F.A.; BOES, D.C. Introduction of theory of statistics. 3.ed. São Paulo : McGraw-Hill, 1974. 564p. NAHHAS, R.W.; WOLFE, D.A.; CHEN, H. Ranked set sampling: cost and optimal set size. Biometrics, Washington, v.58, p.964-971, 2002. PEARSON, E.S.; HARTLEY, H.O. Biometrika tables for statisticians. London: Griffin, 1976. v.2 Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003 65 SINHA, BIMAL K.; SINHA, BIKAS K.; PURKAYASTHA, S. On some aspects of ranked set sampling for estimation of normal and exponential parameters. Stat. Decis., München, v.14, p. 223-240, 1996. STOKES, S.L. Ranked set sampling with concomitant variables. Commun. Stat. Theory Meth., New York, v.36, p. 35-42, 1977. STOKES, S.L. Estimation of variance using judgnment ordered ranked set sampling. Biometrics, Washington, v.36, p.35-42, 1980. STOKES, L. Parametric ranked set sampling. Ann. Inst. Stat. Math., Tokyo, v.47, p. 465482, 1995. TAKAHASHI, K.; WAKIMOTO, K. On biased estimates of population mean based on sample stratified by means of ordering. Ann. Inst. Stat. Math., Tokyo, v.20, p.1-31, 1968. THOMPSON, S.K. Sampling . New York: John Wiley, 1992. 343p. YU, P.L.H.; LAM,K. Regression estimator in ranked set sampling. Biometrics, Washington, v.53, p.1070-1080, 1997. Recebido em 10.10.2002. Aprovado após revisão em 06.06.2003. 66 Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003