MINISTÉRIO DA EDUCAÇÃO E DO DESPORTO UNIVERSIDADE FEDERAL DO PARANÁ S E T O R D E C I Ê N C I A S E X A T A S DEPARTAMENTO DE ESTATÍSTICA Distribuições Amostrais 1 – Introdução Já foi visto como resumir descritivamente um conjunto de dados. Visto também, como construir modelos probabilísticos para descrever alguns fenômenos. E a partir de agora, iremos ver como reunir os dois tópicos para estudar uma ramo muito importante da Estatística conhecido como Inferência Estatística, ou seja, como fazer afirmações sobre características de uma população, baseando-se em resultados de uma amostra. O uso de informações da amostra para concluir sobre o todo faz parte da atividade diária da maioria das pessoas. Basta observar como uma cozinheira verifica se o prato que está preparando tem ou não a qualidade adequada de sal. Ou ainda, quando uma dona-de-casa, após experimentar um pedaço de laranja numa banca de feira, decide se as compra ou não. Essas decisões baseadas em procedimentos amostrais. 2 – População e Amostra Em discussões anteriores, tomamos conhecimento de alguns modelos probabilísticos que procuram medir a variabilidade de fenômenos casuais de acordo com suas ocorrências: as distribuições de probabilidades de variáveis aleatórias (qualitativas ou quantitativas). Na prática, raramente o pesquisador sabe qual distribuição representa a sua variável (variável de interesse). Por exemplo, parece razoável supor que a distribuição das alturas dos brasileiros adultos possa ser representada por um modelo normal. Mas esta afirmação não é suficiente para determinar qual a distribuição normal correspondente; precisaríamos conhecer os parâmetros (média e variância) desta normal para que ela ficasse muito bem caracterizada. O propósito do pesquisador seria, então, descobrir os parâmetros da distribuição para sua posterior utilização. Se pudéssemos medir as alturas de todos os brasileiros adultos, teríamos meios de obter a sua distribuição exata e, daí, produzir os correspondentes parâmetros. Prof. Mário Luiz F. da Silva – Distribuições Amostrais 2 Contudo, raramente se consegue obter a distribuição exata de alguma variável, ou porque isto é muito dispendioso, ou muito demorado ou às vezes porque consiste num processo destrutivo. Por exemplo, se estivéssemos observando a durabilidade de lâmpadas e testássemos todas até queimarem, não restaria nenhuma para ser vendida. Assim, a solução é selecionar parte dos elementos (amostra), analisá-la e inferir propriedades para o todo (população). Este é o objetivo da Inferência Estatística. Assim, os dois conceitos básicos são necessários para o desenvolvimento da Inferência Estatística: população e amostra. População é o conjunto de indivíduos, objetos ou característica, tendo pelo menos uma variável observável. Amostra é qualquer subconjunto da população. Vejamos outros exemplo para caracterizar essas definições: Exemplo 2.1 – Considere uma pesquisa para estudar os salários dos 500 funcionários da Cia. Milsa. Seleciona-se uma amostra de 36 indivíduos, e anotam-se os seus salários. A variável a ser observada é o salários. A população é formada pelos 500 funcionários da cia. A amostra é constituída pelos 36 indivíduos selecionados. Na realidade, estamos interessados nos salários; portanto, para sermos mais precisos, devemos considerar como população os 500 salários correspondentes aos 500 funcionários. Consequentemente, a amostra será formada pelos 36 salários dos indivíduos selecionados. Podemos estudar a distribuição dos salários na amostra, e esperamos que a mesma reflita a distribuição de todos os salários, desde que a amostra tenha sido colhida com cuidado. Exemplo 2.2 – Queremos estudar a proporção de indivíduos na cidade A que são favoráveis a um certo projeto governamental. Uma amostra de 200 pessoas é sorteada, e a opinião de cada uma é registrada. Então, a variável de interesse é a resposta: a favor ou contra o projeto. A população consiste em todos os moradores da cidade, e a amostra é formada pelas 200 pessoas selecionadas. Exemplo 2.3 – Queremos investigar a duração de vida de um novo tipo de lâmpada, pois acreditamos que ela tenha uma duração maior do que as lâmpadas fabricadas atualmente. Cem lâmpadas do novo tipo são deixadas acesas até queimarem. A duração em horas de cada lâmpada é registrada. Aqui a variável é a duração em horas de cada lâmpada. A população é formada por todas as lâmpadas fabricadas ou que venhas as ser fabricadas por esta fábrica. A amostra é formada pelas 100 lâmpadas selecionadas. Notem que, neste caso, não podemos observar a população, ou seja, a distribuição da duração de vida das lâmpadas na população, pois corresponderia a queimar todas as lâmpadas. Prof. Mário Luiz F. da Silva – Distribuições Amostrais 3 Assim, em alguns casos, não podemos observar os elementos da população, pois isso corresponderia a danificar todos os elementos da população. Esse problema geralmente é contornado, atribuindo-se um modelo teórico para a distribuição da variável. Incidentalmente, neste caso, o modelo geralmente adotado é o modelo exponencial, isto é, o conhecimento do problema físico sugere a adoção do modelo exponencial para a duração das lâmpadas. Exemplo 2.4 – Em alguns casos, fazemos suposições mais precisas sobre a população (variável). Digamos que X represente o peso real de pacotes de café, enchidos automaticamente. Sabe-se que X tem distribuição normal. Sorteamos 100 pacotes e medimos seus pesos. A variável de interesse é X, peso de cada pacote. A população será o conjunto de todos os pacotes enchidos ou que virão a ser enchidos pela máquina, e que obedece a um modelo normal. E, finalmente, a amostra será formada pelas 100 medidas obtidas dos pacotes selecionados. Exemplo 2.5 – Para investigar a “honestidade” de uma moeda, lançamos 50 vezes, e contamos o números de caras observadas. A população, pode ser considerada como a distribuição da variável X, assumindo o valor 1 com probabilidade p se ocorrer cara, e assumindo o valor 0 com probabilidade 1-p se ocorrer coroa. A amostra será uma seqüência de 50 números zeros ou uns. 3 – Distribuições Amostrais O problema da Inferência Estatística é fazer uma afirmação sobre parâmetros da população através da amostra. Digamos que nossa afirmação deva ser feita sobre um parâmetro θ da população (média, variância ou qualquer outra medida). Decidimos utilizar uma amostra aleatória simples, com reposição, de n elementos sorteados dessa população. Também decidimos que a nossa decisão será baseada na estatística T, que será uma função da amostra (X1, X2, ..., Xn), ou seja, T = f (X1, X2, ..., Xn). Colhida uma amostra, teremos observado um particular valor de T, digamos t0, e baseados nesse valor é que faremos a afirmação sobre θ, o parâmetro populacional. A validade da nossa resposta seria melhor compreendida se soubéssemos o que acontece com a estatística T, quando retiramos todas as amostras de uma população conhecida segundo o plano amostral adotado. Isto é, qual a distribuição de T quando (X1, X2, ..., Xn) assume todos os valores possíveis. Esta distribuição é chamada de distribuição amostral da estatística T e desempenha papel fundamental na teoria de Inferência Estatística. Esquematicamente, teríamos o procedimento representado na figura 3.1 abaixo: Prof. Mário Luiz F. da Silva – Distribuições Amostrais 4 Figura 3.1 – Distribuição Amostral da estatística T em que, temos: (i) Uma população X, com um certo parâmetro θ de interesse. (ii) Todas as amostras retiradas da população, de acordo com um certo procedimento. (iii) Para cada amostra, calculamos o valor de t da estatística T. (iv) Os valores de t formam uma nova população, cuja distribuição recebe o nome de distribuição amostral de T. Vejamos alguns exemplos simples para aclarar um pouco melhor o conceito de distribuição amostral. Exemplo 3.1 – Colher todas as possíveis amostras de tamanho 2, com reposição, da população {1, 3, 5, 5, 7}. Defina a variável X = valor assumido pelo elemento na população, temos que a distribuição de X é dada por: x P(X = x) 1 1/5 3 1/5 5 2/5 7 1/5 Indicando por X1 o número selecionado na primeira extração e por X2 o número extraído na segunda extração. Assim, as 25 possíveis amostras de tamanho 2 que podemos extrair dessa população correspondem a observar uma particular realização da variável aleatória (X1, X2), X1 e X2 independentes, e tais que P(X1 = x) = P(X2 = x) = P(X = x), ∀ x. Prof. Mário Luiz F. da Silva – Distribuições Amostrais A distribuição conjunta da variável bidimensional (X1, X2) é dada por: X1 X2 1 3 5 7 Total 1 3 5 7 Total 1/25 1/25 2/25 1/25 1/5 1/25 1/25 2/25 1/25 1/5 2/25 2/25 4/25 2/25 2/5 1/25 1/25 2/25 1/25 1/5 1/5 1/5 2/5 1/5 1 5 Vejamos qual a distribuição amostral da estatística X + X2 X= 1 2 Por exemplo, quando a amostra selecionada é o par (1, 1), corresponderá à média 1; então, temos P( X = 1) = 1/25. Obteremos média igual a 3 quando ocorrer o evento A = {(1, 5), (3, 3), (5, 1)}, logo, 2 1 2 5 1 P(X = 3) = P(A ) = + + = = . 25 25 25 25 5 Procedendo de modo análogo, obtemos a distribuição amostral da estatística X . A distribuição obtida: Distribuição amostral da estatística X 1 2 3 4 5 6 7 Total x P( X = x ) 1,00 Figura 3.2 – Distribuição de X (linha cheia) e de X (linha tracejada) Prof. Mário Luiz F. da Silva – Distribuições Amostrais Com um procedimento análogo, podemos determinar a distribuição amostral da amplitude total W: w P(W = w) Distribuição amostral de W 0 2 4 6 Total 1,00 18 Total 1,00 6 Ou, ainda, da variância S2 s2 P(S2 = s2) 0 2 8 3.1 – Amostras com e sem reposição Amostras com reposição é aquela em que o elemento extraído é devolvido à população após ano tadas suas características. Amostra sem reposição é aquela em que o elemento extraído não é devolvido à população após anotadas suas características. Prof. Mário Luiz F. da Silva – Distribuições Amostrais 7 É importante entender a diferença entre a amostragem com e sem reposição. Enquanto nas amostras com reposição é possível que um mesmo elemento seja considerado várias vezes, nas amostras sem reposição é impossível formar uma amostra onde o mesmo componente apareça mais de uma vez. Extraído um elemento qualquer de uma população, a importância da distinção entre amostragem com e sem reposição está em que esse fato pode interferir significativamente (ou não, dependendo do tamanho da amostra) nas probabilidades de os demais itens daquela população comporem – ou não – a amostra que está sendo formada. 3.2 – Número de amostras O número de amostras possíveis com e sem reposição é dado pelas seguintes relações: • se a amostragem for com reposição: → k = Nn • se a amostragem for sem reposição: → k = N! ( N − n )! • se for distintas sem reposição: → k = N! n!( N − n )! em que: N n k → → → é o número de elementos da população é o número de elementos da amostra é o número de amostras possíveis No estudo das distribuições amostrais, devemos distinguir populações finitas de infinitas. Na prática, populações suficientemente grandes podem ser consideradas como infinitas. Uma população finita, cuja a amostragem seja feita com reposição, pode ser considerada teoricamente, como infinita, pois qualquer número de amostras que for extraído não consegue exaurir a população. Prof. Mário Luiz F. da Silva – Distribuições Amostrais 8 4 – Estatísticas e Parâmetros Obtida uma amostra, muitas vezes desejamos usá-la para produzir alguma característica da amostra. Por exemplo, se queremos calcular a média da amostra (X1, X2, ..., Xn) esta será dada por: 1 1 n X = (X1 + X 2 + ... + X n ) = ∑ X i n n i=1 É fácil verificar que X é também uma variável aleatória. Podemos também estar interessados em qualquer outra característica da amostra, que sempre será uma função do vetor aleatório (X1, X2, ..., Xn). Uma estatística é uma característica da amostra, ou seja, uma estatística T é uma função de X1, X2, ..., Xn, T = f (X1, X2, ..., Xn). As estatísticas mais comuns são: 1 n X = ∑ Xi → média da amostra n i=1 1 n 2 S = (X i − X) 2 → variância da amostra ∑ n − 1 i=1 X(1) = min (X1, X2, ..., Xn) → o menor valor da amostra X(n) = máx (X1, X2, ..., Xn) → o maior valor da amostra W = X(n) – X(1) → amplitude total da amostra X(i) → i-ésima maior observação da amostra Para facilitar a linguagem usada em Inferência Estatística, iremos diferenciar as características da amostra e da população. Um parâmetro é uma medida usada para descrever uma característica da população. Assim, se estamos colhendo amostras de uma população identificada pela variável aleatória X, seriam parâmetros a média E(X) ou, ainda, sua variância V(X). Os símbolos mais comuns são dados na tabela a seguir: Média Variância N.º elementos Proporção Parâmetro µ σ2 N p Estatística X S2 n ) p Prof. Mário Luiz F. da Silva – Distribuições Amostrais 9 5 – Distribuição Amostral da Média Vamos estudar a distribuição amostral da estatística X ; a média de uma amostra de n elementos. Consideremos uma população identificada pela variável X, cujos os parâmetros média populacional µ = E(X) e a variância populacional σ2 = V(X) são supostamente conhecidos. Vamos retirar todas as possíveis amostras aleatórias simples de tamanho n dessa população, e para cada uma calcular a média X . Em seguida, construiremos a distribuição amostral e estudaremos as suas propriedades. Exemplo 5.1 – A população {1, 3, 5, 5, 7} tem média µ = 4,2 e σ2 = 4,16, e a distribuição amostral de X para n = 2, nas tabelas a seguir: Tabela 5.1 - Distribuição Conjunta (X1, X2) X1 X2 1 3 5 7 Total 1 3 5 7 Total 1/25 1/25 2/25 1/25 1/5 1/25 1/25 2/25 1/25 1/5 1/25 1/25 4/25 1/25 2/5 1/25 1/25 2/25 1/25 1/5 1/5 1/5 2/5 1/5 1 Tabela 5.2 - Distribuição amostral da estatística X para n = 2 x P( X = x ) 1 1/25 2 2/25 3 5/25 4 6/25 5 6/25 Baseando-se nos dados, podemos verificar que: E( X ) = 4,20 De modo análogo, encontramos V( X ) = 2,08 6 4/25 7 1/25 Total 1,00 Prof. Mário Luiz F. da Silva – Distribuições Amostrais 10 Será que foi coincidência o fato de que a média das médias amostrais Ter coincidido com a média populacional ? E a variância de X ser igual à V(X) dividida por 2 ? Não, mostraremos que isso sempre acontece. (i) Distribuição de X para n = 1; a distribuição coincide com a distribuição de X (ii) Distribuição de X para n = 2 (iii) Distribuição de X para n = 3 Observe que, conforme n vai aumentando, o histograma vais ficando mais serrilhado e tende a concentrar-se cada vez mais em torno de E( X ). Os casos Prof. Mário Luiz F. da Silva – Distribuições Amostrais 11 extremos passam a ter pouca probabilidade de ocorrência. Quando n for suficientemente grande, o histograma alisado aproxima-se da distribuição normal. Esta convergência é melhor verificada, analisando-se os resultados da figura 3.3, que mostra o comportamento do histograma de X para várias populações e diversos valores do tamanho da amostra n. Figura 3.3 – Histogramas correspondentes à distribuição amostral de algumas populações Os exemplos vistos sugerem-nos que, quando o tamanho da amostra aumenta, independendo da distribuição da população original, a distribuição amostral de X aproxima-se cada vez mais de uma distribuição normal. Esse resultado, fundamental na teoria da Inferência Estatística, é conhecido como Teorema Central do Limite1. 1 Alguns textos referem-se, erroneamente, ao Teorema do Limite Central; o que é central é o teorema, e não o limite. Prof. Mário Luiz F. da Silva – Distribuições Amostrais 5.1 – Teorema Central do Limite 12 Seguem-se dois resultados importantes, que mencionaremos sem demonstrar: (i) se a população tem distribuição normal, a distribuição das suas médias amostrais será normal para qualquer tamanho da amostra, isto é, quando a população é normal N(µ, σ2), a média amostral X de amostras de tamanho n tem distribuição também normal com média µ e variância σ2/n. (ii) se a população tem distribuição não normal, a distribuição das suas médias amostrais será normal para amostras grandes, isto é, para uma população não normal com média µ e variância σ2, a distribuição da média amostral X para amostras de tamanho n suficientemente grande é aproximadamente normal com média µ e variância σ2/n, ou desvio padrão σ2 X−µ , isto é, ~ N (0, 1) . n σ/ n O segundo resultado, bastante surpreendente, constitui o chamado Teorema Central do Limite. Esse resultado é muito útil em estimação intervalar, ou melhor, na Inferência Estatística. Vamos esclarecer melhor esses resultados ! Sendo da população infinita ou a amostragem feita com reposição, resulta que os diversos valores da amostra podem ser considerados como valores de variáveis aleatórias independentes, com a mesma distribuição de probabilidade da população, portanto com a mesma média µ e mesma variância σ2 da população. Do Cálculo de Probabilidades, sabemos que: (a) multiplicando os valores de uma variável aleatória por uma constante, a média fica multiplicada por essa constante; (b) a média de uma soma de variáveis aleatórias é igual à soma das médias dessas variáveis. Usando as propriedades, temos µ X = E(X) = µ Vemos portanto, que a média em torno da qual devem variar os possíveis valores da estatística X é a própria média µ da população. Um resultado que não deixa de ser intuitivo. Prof. Mário Luiz F. da Silva – Distribuições Amostrais 13 Esse resultado é extensivo ao caso de amostragem sem reposição de populações finitas, pois a aplicação da propriedade (b) não exige independência das variáveis Xi e todas essas variáveis têm a mesma distribuição de probabilidade quando aprioristicamente consideradas em relação ao processo de amostragem. Quanto à variância, o Cálculo de Probabilidades nos ensina que: (a) multiplicando os valores de uma variável aleatória por uma constante, a variância fica multiplicada pelo quadrado dessa constante; (b) a variância de uma soma de variáveis aleatórias independentes é igual à soma das variâncias. Usando as propriedades, temos σ2 2 σ X = V(X) = n Vemos, portanto, que a variância com que se dispersam os possíveis valores da estatística X é n vezes menor que a variância da população de onde é retirada a amostra. Isso se deve à essência do processo aleatório, que faz com que haja, dentro da amostra, uma natural compensação entre valores mais elevados e valores mais baixos, produzindo valores de X que tendem a ser tanto mais próximos da média µ da população quanto maior o tamanho da amostra n. No caso de amostragem sem reposição de populações finitas, em que a independência entre os valores Xi não se verifica, demonstra-se que: σ2 N − n 2 σ (X) = V(X ) = ⋅ n N −1 em que, N é o número de elementos da população, n é o número de elementos da amostra e o fator N−n N −1 é chamado de fator de correção de população finita. Note-se que esse fator tende à unidade quando o tamanho da população tende ao infinito. Quanto à forma da distribuição amostral de X , seremos também auxiliados por dois importantes resultados do Cálculo de Probabilidades. Esses resultados são dados pelo teorema das combinações lineares2 (de variáveis normais independentes) e pelo teorema central do limite3. 2 Esse teorema afirma que se uma variável aleatória obtida pela combinação linear de variáveis aleatórias normais independentes tem distribuição normal. 3 Esse teorema, em geral apresentado sob diversas formas, afirma, em essência, que, sob condições bastante gerais, uma variável aleatória, resultante de uma soma de n variáveis aleatórias independentes, no limite, quando n tende ao infinito, tem distribuição normal. Prof. Mário Luiz F. da Silva – Distribuições Amostrais 14 Assim, se a distribuição for normal, a distribuição amostral de X será também normal para qualquer tamanho de amostra, devido ao primeiro teorema, pois X será, então, uma combinação linear de variáveis normais independentes4. Na figura 5.1 abaixo, procuramos representar um caso genérico envolvendo a distribuição amostral de X no caso de população normal. Figura 5.1 – Distribuição amostral de X - população normal Por outro lado, se a distribuição da população não for normal, mas amostra for suficientemente grande, resultará, do teorema do limite central, que, no caso de população infinita ou amostragem com reposição, a distribuição amostral de X será aproximadamente normal, pois o valor de X resultará de uma soma de um número grande de variáveis aleatórias independentes. Sendo aproximada, essa conclusão é extensível ao caso de amostragem sem reposição de populações finitas, porém razoavelmente grandes. Na prática, uma amostra suficientemente grande para que já se possa aproximar a distribuição de X por uma normal não necessita ser muito grande, especialmente quanto mais simétrica ou próxima da normalidade for a distribuição da população. Na figura 5.2 abaixo temos uma distribuição populacional não normal e a correspondente distribuição amostral de X para um tamanho de amostra suficientemente grande. Figura 5.2 – Distribuição Amostral de X - população não-normal e amostra suficientemente grande 4 Note-se que considerar normal a distribuição da população implica, a rigor, admitir que a população é infinita. Entretanto a aplicação desse resultado a populações finitas é válida, em termos práticos, em muitos casos. Prof. Mário Luiz F. da Silva – Distribuições Amostrais 15 Exemplo 5.2 – Voltemos ao exemplo 2.4, onde a máquina enchia pacotes de café cujos pesos seguiam uma N(500, 100). Colhendo uma amostra de 100 pacotes e pesando-os, sabemos que pelo Teorema Central do Limite que X terá distribuição normal, com média 500 e variância 100/100 = 1 g2. Assim, se a máquina estiver regulada, a probabilidade de encontrarmos a média de 100 pacotes diferindo de 500 com menos de 2 gramas será P( | X - 500 | < 2) = P(498 < X < 502) = P( -2,00 < Z < 2,00) ≅ 95% Ou seja, dificilmente 100 pacotes terão uma média fora do intervalo ]498, 502[. Caso 100 pacotes apresentem uma média fora desse intervalo, podemos considerar como sendo um evento raro, e será razoável desconfiar que a máquina esteja desregulada. 5.2 – Parâmetros da Distribuição Se o parâmetro estudado é a média populacional µ, a estatística a ela correspondente, representada por X , é chamada de estatística amostral de X e a distribuição a ela associada é chamada de distribuição amostral das médias. A média da distribuição amostral das médias é sempre igual à média populacional, independentemente do tamanho da amostra e do fato de a amostragem ser com ou sem reposição. Observe-se que a igualdade entre as médias amostrais e a populacional só é verdadeira se forem consideradas todas as amostras possíveis de serem extraídas da população. No caso de tomarmos apenas algumas amostras, tal igualdade não pode ser tão plenamente assegurada. Também existem relações numéricas entre as variâncias populacional e a amostral, com e sem reposição. Essas relações são as seguintes: (a) Se a população é infinita ou se a amostragem é com reposição: σ 2X σ2 = V(X ) = n (b) Se a população é finita e a amostragem é sem reposição: σ 2X σ2 N − n = V (X) = ⋅ n N −1 Prof. Mário Luiz F. da Silva – Distribuições Amostrais EXERCÍCIOS 16 Exercício 1: Admita uma população formada pelos números 3, 5, 7, 9 e 11. (a) Escreva o conjunto de todas as amostras, com e sem reposição, que se pode formar com dois elementos quaisquer da população dada. (b) Calcule as médias dessas amostras, e obtenha a distribuição amostral (c) Da população e de suas distribuições amostrais obtenha os seguintes parâmetros: (i) Médias média populacional: média das médias da distribuição amostral: • com reposição • sem reposição (ii) Variâncias variância populacional: variância da amostra: • com reposição: • sem reposição: Exercício 2 – Considere como população os seguintes números: 3, 6, 9, 12 e 15. As amostras de três elementos que se pode formar são: (a) Dados populacionais e amostrais tamanho da população: tamanho da amostra: Número de amostras: com reposição: sem reposição: distintas sem reposição: (b) médias amostrais com reposição: sem reposição: distintas sem reposição: (c) esboce os histogramas para as distribuições amostrais das médias Prof. Mário Luiz F. da Silva – Distribuições Amostrais 6 – Distribuição Amostral da Proporção 17 Consideremos agora o caso em que o parâmetro a ser estudado é a proporção p de uma população, que apresenta certa característica. Extrai-se da população uma amostra de tamanho n. X será o número de elementos da amostra que apresentam a característica em estudo. ) Assim, a proporção amostral p é dada por: X p̂ = n Isto é, uma população em que a proporção de elementos portadores de uma certa característica é p. Assim, a população pode ser considerada como a variável X, tal que: se o indivíduo é portador da característica 1, X= 0, se o indivíduo não é portador da característica logo, µ = E(X) = p e σ2 = V(X) = p (1 – p) As observações dos n elementos podem ser consideradas como n provas de Bernoulli com probabilidade de sucesso p, ou seja, X tem distribuição Binomial b(n; p) com média np e variância npq. A proporção populacional é igual à média das proporções nas amostras com o sem reposição. 1 X 1 E (p̂) = E = E(X ) = ⋅ np = p n n n A variância da distribuição amostral está relacionada com a proporção populacional do seguinte modo: • com reposição 1 pq X 1 V(p̂) = V = 2 V (X) = 2 ⋅ npq = n n n n • sem reposição pq N − n V(p̂) = ⋅ n N −1 Se a freqüência f com que foi observada alguma característica na amostra. Essa característica poderá ser uma das classificações de uma variável qualitativa, um ou mais valores de uma variável quantitativa discreta, ou o fato de um valor de uma variável quantitativa contínua cair em um dado intervalo. A freqüência f é uma estatística, pois é determinada em função dos elementos da amostra. Extraindo-se uma amostra aleatória de n elementos da população, Prof. Mário Luiz F. da Silva – Distribuições Amostrais 18 suponha-se que tenha ocorrido X vezes o evento sucesso. Então X (freqüência absoluta), número de sucessos, é uma variável aleatória Binomial de X média np e variância npq. Logo, a distribuição da freqüência relativa f r = n pq será: E(fr) = p e V(f r ) = . n Evidentemente, podemos, para cada elemento da amostra, considerar a ocorrência de um sucesso, caso a característica desejada se verifique, e de um fracasso, caso contrário. Seja p a probabilidade de ocorrência de sucesso para cada elemento da amostra. Se a população é infinita ou a amostragem é feita com reposição, p é constante para todos os elementos da amostra, e os resultados observados para todos eles serão independentes. Nessas condições, o Cálculo de Probabilidades nos ensina que a distribuição amostral da freqüência f será uma distribuição binomial de parâmetros n e p. A freqüência relativa fr, por sua vez, sendo simplesmente o quociente de f pelo tamanho da amostra n, terá média e variância facilmente obtidas pela aplicação das propriedades da média e da variância. O tipo de distribuição de fr continua, para todos os efeitos, sendo uma distribuição binomial, porém cujos os valores foram comprimidos entre 0 e 1 com intervalos de 1/n, ao invés de variarem de 0 a n segundo os números naturais, o que ocorreria na distribuição binomial propriamente dita. Sendo a amostra suficientemente grande, podemos aproximar as distribuições de f e fr por distribuições normais de mesma média e mesma variância. Em termos práticos, em geral, podemos considerar que a amostra será suficientemente grande, para efeito dessa aproximação, se np ≥ 5 e np(1-p) ≥ 5. Exemplo 6.1: A Cactus Cola resolveu lançar no mercado o refrigerante do deserto: mata qualquer sede. Em razão disso, encomendou uma pesquisa de marcado, cujo principal resultado foi que 20% dos provadores manifestaram real interesse em sua aquisição. Dado que a empresa só se dispõe a lançar esse novo produto se mais de 25% do mercado estiver interessado nele, calcule a probabilidade de que uma amostra de 500 consumidores apresente proporção de interessados superior ao piso requerido pela empresa. Exemplo 6.2: Um procedimento de controle de qualidade foi planejado para garantir um máximo de 10% de itens defeituosos na produção. A cada 15 minutos sorteia-se uma amostra de 20 peças, e, havendo mais de 15% de defeituosos, para-se a produção para verificações. Qual a probabilidade de uma parada desnecessária ? Prof. Mário Luiz F. da Silva – Distribuições Amostrais 19 Exemplo 6.3: Supondo que a produção do exemplo anterior esteja sob controle, isto é, p = 10%, e que os itens sejam vendidos em caixas de 100, qual a probabilidade de que uma caixa tenha mais do que 10% de defeituosos ? 7 – Distribuição Amostral das Somas ou Diferenças Se X1 ~ N(µ1, σ12) e X2 ~ N(µ2, σ22), então X1 e X2 são independentes, σ12 σ 22 com X1 ~ N µ1 , e X 2 ~ N µ1 , . n1 n2 Teremos, pois, que a distribuição amostral das somas ou diferenças será uma normal com: E (X1 ± X 2 ) = E (X1 ) ± E (X 2 ) = µ1 ± µ 2 σ12 σ 22 V ( X1 ± X 2 ) = V ( X1 ) + V ( X 2 ) = + n1 n 2 Dessa forma, σ12 σ 22 . (X1 ± X 2 ) ~ N µ1 ± µ 2 , + n n 1 2 8 – Outras Distribuições Amostrais Do mesmo modo que estudamos a distribuição amostral de X , podemos estudar a distribuição amostral de qualquer estatística T = f (X1, X2, ..., Xn). Mas, quanto mais complexa for essa relação f, mais difícil será a derivação matemática das propriedades dessa estatística. Vejamos algumas ilustrações de distribuições empíricas de algumas estatísticas. 8.1 – Distribuição Amostral de S2 – Distribuição Qui Quadrado χ2 Já sabemos que a variância de uma amostra deve ser calculada por 1 n S2 = (X i − X) 2 ∑ n − 1 i=1 ou por expressões equivalentes. A distribuição amostral da estatística S2 está relacionada com uma família de distribuições de probabilidades de grande importância em diversos problemas da Inferência Estatística, que são distribuições do tipo χ2. Diremos que a estatística Prof. Mário Luiz F. da Silva – Distribuições Amostrais 2 20 x −µ 2 χ 2υ = ∑ i = ∑ zi , σ i =1 i =1 em que xi são valores aleatórios independentemente retirados de uma população normal de média µ e variância σ2, tem distribuição χ2 com υ graus de liberdade. Tal denominação deve-se a Karl Pearson. Os valores de zi são correspondentes valores da variável normal reduzida. Podemos, portanto, considerar a distribuição da variável χ2 com υ graus de liberdade como a soma dos quadrados de υ valores independentes da variável normal reduzida. Então, seja X uma população normal de média µ e variância σ2, demostrase que: υ υ n ∑ (X i − X) 2 = σ 2 ⋅ χ 2n−1 i =1 em que os valores Xi são conhecidos e σ2 é uma constante. Partindo dessa expressão, tem-se 1 n 1 2 2 (X i − X) 2 = σ ⋅ χ n −1 ∑ n − 1 i=1 n −1 1 n σ2 2 2 como S2 = ( X − X ) , vem: S = ⋅ χ 2n −1 isto é, S2 tem distribuição ∑ i n − 1 i=1 n −1 2 χ , com (n-1) graus de liberdade. Usando esse resultado, pode-se calcular os parâmetros da distribuição amostral de S2, ou seja: σ2 2 σ2 σ2 2 2 χ n −1 = E (S ) = E E (χ n −1 ) = ⋅ (n − 1) = σ 2 n −1 n −1 n −1 σ2 σ4 σ4 2σ 4 2 2 V(S ) = V ⋅ χ n −1 = V(χ n −1 ) = ⋅ 2(n − 1) = 2 n −1 (n − 1) 2 n −1 (n − 1) 2 8.2 – Distribuição t de Student Suponhamos que, a partir de uma amostra de n valores retirados de uma população normal de média µ e variância σ2, fosse definida a estatística X−µ z= σ n Como a distribuição amostral de X seria precisamente normal, com média µ e desvio padrão σ n , segue-se que essa estatística teria simplesmente distribuição normal reduzida, o que justifica o uso do símbolo z. Prof. Mário Luiz F. da Silva – Distribuições Amostrais 21 Entretanto, se usarmos na expressão acima o desvio padrão da amostra (raiz quadrada da variância da amostra calculada com n-1 no denominador), obteremos uma estatística cuja distribuição não mais é normal. De fato, conforme mostrou Student5, a estatística X−µ t= s n distribui-se simetricamente, com média 0, porém não normalmente. É claro que, para amostras grandes, s deve ser próximo de σ, e as correspondentes distribuições t devem estar próximas da normal reduzida. Vemos, pois, que existe uma família de distribuições t cuja forma tende à distribuição normal reduzida quando n cresce. A figura abaixo ilustra comparativamente uma distribuição t e a distribuição normal reduzida z. Vemos que uma distribuição t genérica é mais alongada que a normal reduzida. 8.3 – Distribuição F de Snedecor Suponhamos que duas amostras independentes retiradas de populações normais forneçam variâncias S12 e S22, e que desejamos conhecer a distribuição amostral do quociente S12 S22 . Isso será possível através do conhecimento das distribuições F de Snedecor6. Define-se a variável F com ν1 graus de liberdade no numerador e ν2 graus de liberdade no denominador, ou simplesmente, Fν1 ,ν 2 , por χ ν21 Fν1 ,ν 2 = ν1 , χ ν22 ν2 5 6 W.S. Gosset, estatístico inglês que publicou seus trabalhos sob o pseudônimo de Student. G. Snedecor adaptou convenientemente essas distribuições – já antes estudadas sob outra forma por Fisher – adotando a denotação F em homenagem a esse grande estatístico. Prof. Mário Luiz F. da Silva – Distribuições Amostrais 22 em que, conforme a própria notação indica, χ ν2i designa uma variável aleatória com distribuição χ 2 com νi graus de liberdade. As distribuições χ 2 consideradas devem ser independentes. Evidentemente, a definição geral precedente engloba uma família de distribuições de probabilidade para cada par de valores (ν1, ν2). Imaginemos agora que duas populações normais com mesma variância σ2 (ou, o que seria equivalente, de uma mesma população normal), sejam extraídas duas amostras independentes com, respectivamente, n1 e n2 elementos e tomemos o quociente S12 S22 das variâncias dessas amostras. Utilizando a seguinte expressão podemos concluir que a distribuição desse quociente será uma distribuição Fn1 −1, n 2 −1 , pois σ2 2 χ 2n1 −1 ⋅ χ n −1 S12 n1 − 1 1 n1 − 1 = Fn1 −1, n 2 −1 = = S22 σ 2 2 χ 2n 2 −1 ⋅ χ n 2 −1 − n 1 n2 −1 2 2 As distribuições χ , t e F são de grande importância para a solução dos problemas da Inferência Estatística, conforme será visto nos assuntos subseqüentes. 8.4 – Relações particulares entre as distribuições z, t, χ2 e F A família de distribuições t de Student converge para a distribuição normal padronizada de z quando ν cresce. Logo, a distribuição z equivale à distribuição t∞. A distribuição χ2 surge de uma soma de ν valores independentes de z2. Logo, a distribuição de χ12 equivale à distribuição do quadrado de z. Quanto à distribuição F, temos, da definição que F1, ν 2 = χ12 ⋅ ν2 . Como χ ν2 2 χ12 = z2, temos que, a distribuição F1, ν 2 equivale à distribuição do quadrado de t ν2 . Prof. Mário Luiz F. da Silva – Distribuições Amostrais 23 Por outro lado, = ν e, aplicando à um resultado do Cálc ulo de Probabilidades conhecido como a Lei Forte dos Grandes Números7, temos que, χ ν21 quando ν2 tende ao infinito, a distribuição de Fν1 ,ν 2 tende à : ν1 E( χ ν2 ) Fν1 ,∞ = χ ν21 ν1 . Em particular, a distribuição de F1, ∞ equivale à de χ12 , ou z2. *********** ********* ******* ****** ***** **** *** ** * 7 Esse resultado não será apresentado na presente disciplina.