Aula 12 – Teste de hipótese sobre proporções – amostras grandes Objetivos Na aula anterior, você aprendeu a construir testes de hipóteses sobre a média de uma população normal com variância σ2 conhecida. O procedimento baseou-se na distribuição amostral da média amostral que, com as hipóteses de normalidade e conhecimento da variância populacional, sabemos ser normal com a mesma média e variância σ2/n. Nesta aula, iremos fazer uso do Teorema Central do Limite para construir testes de hipóteses sobre proporções com base em amostras grandes. Vimos que, para amostras grandes, a distribuição amostral da proporção amostral pode ser aproximada por uma distribuição normal e, assim, o procedimento de teste de hipótese será idêntico ao estudado na aula anterior. Estimação de uma proporção populacional O contexto de interesse é o seguinte: temos uma população em que cada elemento é classificado de acordo com a presença ou ausência de determinada característica. Em termos de variável aleatória, essa população é representada por uma v.a. de Bernoulli, isto é: X = 1 se elemento possui a característica de interesse; X= 0 se elemento não possui a característica de interesse Então, Pr(X = 1) = p, E(X) = p e Var(X) = p(1−p). O parâmetro p é também a proporção de elementos da população que possuem a característica de interesse. Em geral, esse parâmetro é desconhecido e queremos testar hipóteses feitas sobre seu possível valor. Suponha, então, que dessa população seja extraída uma amostra aleatória simples X1,X2, . . . ,Xn com reposição. Vimos que a proporção P de elementos na amostra que possuem a característica de interesse, definida por é um estimador não-viesado para p com variância p(1−p)/n . Mais precisamente, Como a proporção amostral é uma média de uma amostra aleatória simples de uma população com distribuição de Bernoulli com parâmetro p, o Teorema Central do Limite nos diz, então, que a distribuição de P se aproxima de uma normal com média p e variância p(1−p)/n . Como visto, a aproximação deve ser feita se np ≥ 5 e n(1−p) ≥ 5 e, em geral, essas condições são satisfeitas se n ≥ 30. Note que, com n = 30, np ≥ 5 sempre que p ≥ 0, 1667; logo, essa indicação n ≥ 30 em geral funciona, desde que a característica de interesse não seja extremamente rarefeita na população (em estatística, usa-se o termo populações raras nos casos em que p é muito pequeno). Caso haja suspeitas de que p seja muito pequeno, deve-se aumentar o tamanho da amostra. Resumindo, temos o seguinte resultado: Vamos ver, agora, como usar esse resultado para construir testes de hipóteses sobre a verdadeira proporção populacional p. Teste de hipóteses sobre proporções A hipótese nula que consideraremos será uma hipótese simples: H0 : p = p0 As hipóteses alternativas possíveis são: Bilateral: H1 : p ≠ p0 Unilateral à Direita: H1 : p > p0 Página 1 de 6 Unilateral à Esquerda: H1 : p < p0 Como no caso da média, a escolha das hipóteses nula e alternativa deve ser feita levando-se em conta que a hipótese nula deve ser uma hipótese simples. Assim, você deve “traduzir” a situação de interesse do problema em uma desigualdade envolvendo a proporção p. Em seguida, determine a desigualdade que nega a desigualdade anterior. A hipótese alternativa envolve a desigualdade que não inclui o sinal de =. A estatística de teste é Dado um nível de significância α, a região crítica é definida como o conjunto de valores que têm probabilidade pequena de ocorrerem sob a veracidade da hipótese nula, ou seja, é o conjunto de valores “muito afastados” de p0. Bilateral: RC : P > p0 + k ou P < p0 − k Unilateral à Direita: RC : P > p0 + k Unilateral à Esquerda: RC : P < p0 − k O valor k é encontrado impondo-se a condição de a probabilidade do erro tipo I ser igual a α : Pr ( p ∈ RC|H0 verdadeira) = α Como essa probabilidade é calculada sob a hipótese de veracidade de H0, a variância de P é estimada por Teste bilateral Com nível de significância α = Pr(erro I), temos de ter: Ou seja, a região crítica para o teste bilateral é Testes unilaterais Com desenvolvimento análogo, obtemos as seguintes regiões críticas: Página 2 de 6 Teste Unilateral à Direita : Teste Unilateral à Esquerda : Exemplo 12.1 Uma amostra de 64 elementos é usada para testar H0 : p = 0, 35 H1 : p ≠ 0, 35 Estabeleça a região crítica para o nível de significância de 1%. Solução A região crítica é Logo, a região crítica é Exemplo 12.2 Um fabricante afirma que no máximo 10% dos seus produtos são defeituosos. Um órgão de defesa do consumidor testa uma amostra de 81 desses itens, detectando 13,8% de defeituosos. 1. Encontre a região crítica para um nível de significância de 5%. 2. Calcule o valor P. Solução A afirmativa de interesse para o fabricante é p ≤ 0, 10. A negação de tal afirmativa (questionamento do órgão de defesa do consumidor) é p > 0, 10. Logo, nossas hipóteses são: H0 : p = 0, 10 H1 : p > 0, 10 Note que todas as proporções estão na forma decimal. Não trabalhe com percentagens! A região crítica é Com α = 0, 05, temos: Página 3 de 6 A região crítica é P > 0, 155 ou 15,5%. Como p = 13, 8% não está na região crítica, não podemos rejeitar a hipótese nula. Ou seja, nossos dados não fornecem evidência contra o fabricante. 2. Logo, rejeitamos H0 apenas para níveis de significância maiores que 12,7%. Assim, aos níveis de significância usuais, não devemos rejeitar H0, o que é uma evidência de que o fabricante está dizendo a verdade. Exercícios 1. Em uma pesquisa com 800 estudantes universitários, 385 afirmaram possuir computador. Teste a hipótese de que pelo menos 50% dos estudantes universitários possuem computador. Use α = 0, 10. 2. Uma pesquisa entre 700 trabalhadores revela que 15,8 obtiveram seus empregos por meio de indicações de amigos ou parentes. Teste a hipótese de que mais de 10% dos trabalhadores conseguem seus empregos por indicação de amigos ou parentes, utilizando 5% como nível de significância. 3. O nível de aprovação da qualidade das refeições servidas em um restaurante universitário era 20%, quando houve uma movimentação geral dos estudantes que forçou a direção do restaurante a fazer mudanças. Feitas as mudanças, sorteou-se uma amostra de 64 estudantes usuários do restaurante e 25 aprovaram a qualidade da comida. Você diria, ao nível de significância de 5%, que as mudanças surtiram efeito? 4. Deseja-se testar a honestidade de uma moeda. Para isso, lança-se a moeda 200 vezes, obtendo-se 115 caras. Qual é a sua conclusão sobre a honestidade da moeda? Para responder a essa questão, calcule e interprete o valor P. 5. A direção de um grande jornal nacional afirma que 25% dos seus leitores são da classe A. Se, em uma amostra de 740 leitores, encontramos 156 da classe A, qual é a conclusão que tiraríamos sobre a afirmativa da direção do jornal? Solução dos Exercícios Página 4 de 6 A afirmativa de interesse é “pelo menos 50% dos estudantes possuem computador”, ou seja, p ≥ 0, 5. Logo, as hipóteses são H0 : p = 0, 50 H1 : p < 0, 50 α = 0, 10 =⇒ z0,1 = 1, 28 e a região crítica é Como o valor observado não pertence à região crítica, não podemos rejeitar a hipótese nula. Ou seja, os dados trazem evidência de que a proporção de estudantes que possuem computador é de pelo menos 50%. 2. As hipóteses são H0 : p = 0, 10 H1 : p > 0, 10 α = 5% =⇒ z0,05 = 1, 64. Logo, a região crítica é Rejeita-se, assim, a hipótese nula de que 10% ou menos dos trabalhadores conseguem seus empregos por indicação de parentes ou amigos. 3. O interesse é verificar se p > 0, 20. Logo, H0 : p = 0, 20 H1 : p > 0, 20 Como α = 5% e o teste é unilateral, resulta que z0,05 = 1, 64. Logo, a região crítica é Como o valor observado p = 25/64 = 0, 39063 está na região crítica, rejeita-se a hipótese nula, ou seja, as evidências amostrais indicam que houve melhora com as mudanças. 4. As hipóteses são H0 : p = 0, 5 H1 : p ≠ 0, 5 Como o valor P é pequeno, a probabilidade de obtermos 115 caras em 200 lançamentos de uma moeda é pequena, o que nos leva a suspeitar da honestidade da moeda. 5. Com as informações disponíveis, nossas hipóteses são: H0 : p = 0, 25 H1 : p ≠ 0, 25 Página 5 de 6 O valor obtido é p =156/740 = 0, 2108 < 0, 25. Nesse caso, Como o valor P é bastante pequeno, devemos rejeitar a hipótese nula de que a proporção de leitores da classe A é igual a 25%. Bibliografia [1] ANDERSON, David R.; SWEENEY, Dennis J.; WILLIAMS, Thomas A. Estatística Aplicada à Administração e à Economia. São Paulo: Pioneira Thomson Learning, 2002 [2] MOORE, David S.; McCabe, George P.; DUCKWORTH, William M.; SCLOVE, Stanley L. A Prática da Estatística Empresarial – Como Usar Dados para Tomar Decisões. Rio de Janeiro: LTC Editora, 2006 [3] MORETTIN, Pedro Alberto; BUSSAB, Wilton de Oliveira. Estatística Básica, 5a Edição. São Paulo: Saraiva, 2006 [4] TRIOLA, Mario F. Introdução à Estatística, 9a. Edição. Rio de Janeiro: LTC Editora, 2005 [5] FARIAS, Ana M.; Métodos Estatísticos I. Rio de Janeiro. Fundação CECIERJ, 2009. Página 6 de 6