Testes de Hipóteses Henrique Dantas Neder I I I I I Vimos no capítulo anterior como construir intervalos de conança para parâmetros da população. Um outro procedimento muito utilizado em inferência é o estabelecimento de um teste de hipóteses referente ao valor de um dado parâmetro. Da mesma forma como quando contruimos um intervalo de conança para o valor do parâmetro, quando fazemos um teste de hipóteses a respeito do valor do parâmetro, jamais saberemos o valor verdadeiro deste parâmetro. Um teste de hipóteses refere-se a uma determinada armativa (hipótese) a respeito do parâmetro. Por exemplo, queremos testar a hipótese de que o valor do parâmetro média populacional µ é igual a 50 (µ = 50). Quando testamos o valor deste parâmetro, podemos aceitar uma hipótese central ou rejeitá-la. Desta forma um teste de hipóteses será realizado com base em uma regra de decisão. O primeiro passo em um teste de hipóteses é o da formulação das hipóteses. Sempre trabalhamos com uma hipótese central (ou hipótese nula) e uma hipótese alternativa. I I I I I X Quando aceitamos a hipótese nula (de acordo com a nossa regra de decisão) automaticamente rejeitamos a hipótese alternativa e vice-versa (as duas hipóteses são excludentes e opostas). Vejamos um exemplo: suponhamos que queiramos testar (para uma dada população) a hipótese de que sua média é igual a 50. A hipótese nula será: H0 {µX = 50 A hipótese alternativa será Ha {µX 6= 50 Para testar estas hipóteses selecionamos aleatoriamente (amostra aleatória simples) uma amostra da população e calculamos sua média amostral e seu desvio padrão amostral: P = ni=1 Xi /n e I s= r Pn 2 i =1 (Xi −X ) n −1 Suponhamos que após os cálculos (baseados nos valores amostrais de X) uma amostra de tamanho n = 40 produziu os seguintes resultados: X = 53 e s = 10 I I I I I I √ 0 tem distribuição normal padrão (z) onde Sabemos que Xs /−µ n µ0 é o valor considerado na hipótese nula (no caso deste exemplo 50). Devemos denir um nível de signicância para o nosso teste de hipóteses. Por exemplo, denimos α = 0.05 (um nível de signicância de 5%). Estabelecemos uma regra decisão: se z > −1, 96 e z < 1, 96 aceitamos a hipótese nula e em caso contrário rejeitamos a hipótese nula e aceitamos a hipótese alternativa. Calculamos o valor da estatística de teste: √ 0 = 53− √50 = 1.8973 z = Xs /−µ n 10/ 40 Neste caso, como z cai dentro da região de aceitação da hipótese nula (−1.96 < z < 1.96) aceitamos esta hipótese ou seja aformamos que µ = 50. Desta forma para realizar um teste de hipóteses temos que seguir os seguintes passos: 1. Primeiro etapa: Denir as hipóteses 2. Segunda etapa: Escolher uma estatística de teste (no caso do exemplo, a estatística de teste é X que através da padronização se transforma na estatística z . 3. Denir uma regra de decisão: criar as regiões de aceitação de H0 (ou rejeição de Ha ) e de rejeição de H0 (ou de aceitação de Ha ). 4. Selecionar uma amostra e calcular o valor da estatística de teste (no exemplo anterior X ). 5. Comparar o valor da estatística de teste com as regiões de aceitação e de rejeição de Ho e tomar uma decisão (aceitar ou rejeitar H0 ). I Um teste de hipóteses é semelhante a decisão de um juri em um tribunal: o juri pode condenar ou inocentar o reu. Suponhamos que a hipótese nula do julgamento (H0 ) seja {o reu é inocente}. Então rejeitar a hipótese nula signica declar o reu inocente e a hipótese alternativa signica que o juri toma a decisão de declarar o reu culpado. I I I I I O juri pode cometer dois tipos de erro: decidir que o reu é culpado quando na verdade o reu é inocente ou decidir que o reu é inocente quando na verdade o reu é culpado. Da mesma forma em um teste de hipóteses estatístico podemos também cometer dois tipos de erro: rejeitar H0 quando H0 é verdadeira (chamado de erro tipo I) ou aceitar H0 quando H0 é falsa. A probabilidade de cometer um erro tipo I é chamada de nível de signicância (α) do teste de hipóteses. No exemplo anterior aceitamos a hipótese nula ao nível de signicância (α) de 5 % (ou 0.05). Isto porque determinamos as regiões de aceitação e de rejeição de H0 com base neste valor de signicância. Mas se deníssemos um nível de signicância α = 0.10 para o teste decidiriamos aceitar H0 caso −1.6448 < z < 1.6448. Como o valor de zcalculado =1.8963 caimos fora da região de aceitação de H0 . Isto quer dizer que ao nível de signicância α = 0.10 rejeitamos a hipótese nula. I I I Neste caso poderíamos estar cometendo o erro tipo I (ao rejeitar H0 quando na verdade H0 é verdadeira). Qual seria a probabilidade exata de estarmos cometendo erro tipo I quando rejeitamos a hipótese nula? Esta probabilidade seria igual a P (z < −1.8973 ∪ z > 1.8973) = 2 × φ(−1.8973) = .057788. Esta seria a probabilidade exata de estarmos cometendo um erro tipo I ao rejeitarmos H0 quando o valor de zcalculado = 1.8963 ou (o que é o mesmo) quando o valor de X = 53. Exemplo: Os empregados de uma determinada empresa deveriam trabalhar, em média, 8h diárias. De forma a investigar se os empregados estão a trabalhar mais do que as horas previstas, o sindicato registou o número de horas que 150 trabalhadores (escolhidos ao acaso) trabalharam num dia qualquer, tendo obtido os seguintes resultados: P150 P150 2 i =1 Xi = 1260 e i =1 (Xi − X ) = 1000 a) Teste ao nível de signicância de 5%, se a empresa deverá ser punida por exigir que os seus empregados trabalhem mais do que deviam. b) Qual o tipo de erro que pode cometer relativamente à decisão que tomou? Solução: H0 {µX = 8 Ha {µX > 8 Este é um caso de teste unilateral porque estamos considerando como hipótese alternativa apenas uma das caudas (a cauda direita) da distribuição. Caso a hipótese alternativa fosse Ha {µX 6= 8 teriamos uma situação de teste bilateral. Isto inuencia a determinação das regiões de aceitação e de rejeição de H0 : no caso do teste unilateral consideramos todo o valor do nível de signicância em uma das caudas somente e assim denimos a seguinte regra de decisão: −1 Se z < zcr ı́tico = φ (.95) = 1.6448 aceitamos H0 e em caso contrário z > 1.6448 rejeitamos H0 De acordo com os valores dados temos: (1260/150)−8 0 √0 = √ √ = sXx −µ = 1.8910 zcalculado = X s−µ / n 1000/149/ 150 X Neste caso rejeitamos H0 ao nível de signicância de 5% pois o valor de zcalculado cai na região de rejeição de H0 . Mas podemos estar cometendo um erro tipo I. Qual é a probabilidade exata de estarmos cometendo este tipo de erro? Podemos calcular esta probabilidade como: P (erro tipo I ) = P (z > 1.8910|H0 é verdadeiro ) = P (z > 1.8910) = 1 − φ(1.8910) = .02931 A conclusão é que devemos tomar a decisão de rejeitar H0 mas estando cientes de que podemos estar cometendo um erro tipo I (rejeitar H0 quando H0 é verdadeira) com uma probabilidade exata de 2,93%. Como esta probabilidade é relativamente baixa, podemos rejeitar H0 . Esta probabilidade exata é chamada de p − value do teste. É o valor do menor nível de signicância para o qual podemos rejeitar H0 . Exemplo: Numa determinada empresa pensa-se importar um grande lote de instrumentos de precisão, para os quais o fabricante garante um peso médio igual a 100 gr. Sendo o peso uma característica importante para a qualidade do produto, resolveu-se testar a veracidade da armação do fabricante. Para tal, o departamento técnico da empresa importadora obteve uma amostra de 15 instrumentos, através da qual se obtiveram os seguintes valores: P15 P15 2 i =1 Xi = 1407 e i =1 (Xi − X ) = 1674 Admitindo a normalidade dos pesos, qual a sua opinião, ao nível de signicância de 1%, relativamente à armação do fabricante. Solução: Denição das hipóteses: H0 {µX = 100 contra Ha {µX 6= 100 Como a amostra é pequena (n < 30) não podemos utilizar a distribuição normal padrão z . Temos que usar a distribuição t de Student porque sabemos que a distribuição de X na população é normal. O valor crítico de t ao nível de signicância de 0.01 e para um número de graus de liberdade n − 1 = 14 é igual a 2.9768. Este valor pode ser obtido através do comando Stata disp invttail(14,.005) ou por uma tabela para a t de Student. Colocamos 0.005 no argumento da probabilidade porque devemos considerar que as duas caudas da distribuição somam 1%. As regiões de aceitação e de rejeição de H0 são denidas como: Aceitar H0 se −2.9768 < tcalculado < 2.9768 Rejeitar H0 se tcalculado ≤ −2.9768 ou tcalculado ≥ 2.9768 O valor de t calculado, de acordo com os resultados da amostra, pode ser obtido como: /15)−100 0 q tcalculado = X s−µ = −2.1959 = (1407 1674 √ X 14 / 15 Caimos na região de aceitação de H0 . Exemplo:Suponha que determinado canal de televisão deseja saber qual tinha sido a percentagem de pessoas que viram determinado programa. Para tal, realizou uma sondagem tendo sido inquiridas 220 pessoas, das quais 132 disseram ter visto o referido programa. a) Determine um intervalo de conança de nível 95% para percentagem de pessoas em toda a população que viu esse programa. b) Qual deveria ser o número de pessoas inquiridas para se obter um intervalo de conança de nível 95% com metade da amplitude do anterior? (Admita que a proporção das pessoas que viram o programa se mantém.) c) Poder-se-á armar, ao nível de 5%, que mais de metade das pessoas viram o programa? Solução: a) P (p̂ − z1−.05/2 × σp̂ < p <p̂ + z1−.05/2 × σp̂ ) = 0.95 q 132 132 220 ×(1− 220 ) < P ( 132 220 − 1.96 × q220 132 ×(1− 132 ) 220 220 ) = 0.95 + z × p < 132 1 −. 05 / 2 220 220 P (.5352 < p < .6647) = 0.95 b) amplitude = (.6647 − .5352)/2 = .06475 erro de amostragem = amplitude /2 = .032375 q Utilizamos a expressão: e = z1−α/2 × σp̂ = z1−α/2 × p̂×(n1−p̂) Para isolar n, temos: e 2 = (z1−α/2 )2 × p̂×(n1−p̂) 132 ×(1− 132 ) 2 ×(1−p̂ ) 1.962 × 220 220 = 879.8 ≈ 880 n = (z1−α/2 ) e×p̂ = 2 .0323752 c) Formulação das hipóteses: H0 {p = 0.50 contra Ha {p > .50 (o teste é unilateral ou unicaudal) Denição da região de aceitaçao e de rejeição de H0 : Aceita-se H0 se zcalculado for menor do que zcr ı́tico = φ−1 (0.95) = 1.6448 Observe que jogamos todo o valor do nível de signicância do teste em apenas uma das caudas da distribuição porque o teste é unilateral. Se o teste fosse bilateral teriamos que calcular φ−1 (.975): teriamos que distribuir igualmente o nível de signicância nas duas caudas da distribuição. Cálculo do valor de zcalculado : 132 zcalculado = p̂−σp̂p0 = r 132220×(−10−.5132 ) = 3.0276 220 220 220 Rejeitamos H0 ao nível de signicância de 5%. Exemplo: Admita que a direcção comercial de uma determinada empresa pretende lançar um novo serviço de telecomunicações. De acordo com critérios empresariais, o serviço só deverá ser lançado no mercado se houver mais de 80% de potenciais compradores. Assim, para averiguar o eventual lançamento do serviço, a empresa decidiu efectuar um inquérito a 400 grandes clientes, tendo 340 sido favoráveis à aquisição do novo serviço. a) Para um nível signicância de 5%, poder-se-á concluir que a empresa opta pelo lançamento do serviço? E para um nível de signicância de 1%? b) Determine o valor p do teste e interprete-o. Solução: a) Denição das hipóteses: H0 {p ≤ 0.8 contra Ha {p > 0.8 Determinação das regiões de aceitação e de rejeição de H0 : Como o teste é unilateral zcr ı́tico para um nível de signicância de 5% é calculado como φ−1 (.95) = 1.6448 Aceita-se H0 se zcalculado < zcr ı́tico = 1.6448 340 zcalculado = r 340400 −0.8340 = 2.800 400 ×(1− 400 ) 400 Rejeitamos H0 ao nível de signicância de 5% Ao nível de 1% de signicância o valor de zcr ı́tico é φ−1 (.99) = 2.3263. Neste caso também rejeitamos H0 ao nível de signicância de 1% pois zcalculado > zcr ı́tico . b) O valor p do teste é calculado como:p = 1 − φ(2.8) = .00255. Existe uma chance exata de 0.255% de cometermos o chamado erro tipo I, ao rejeitarmos H0 . Exemplo: Admita que uma amostra aleatória de 400 domicílios de uma determinada cidade revelou que 8% destes são casas de aluguel, enquanto que, numa outra cidade, uma amostra de 270 domicílios revelou que 37 eram casas de aluguel. a) Construa um intervalo de conança de nível 99% para a percentagem de casas de aluguel em cada cidade. b) Suponha que os intervalos de conança, obtidos na alínea anterior, sejam considerados pouco precisos. Qual deverá ser o tamanho das amostras para que o erro de estimativa não exceda 2%? c) Poderá armar estatisticamente, ao nível de 5%, que há maior percentagem de casas de aluguel em alguma das duas cidades? Justique. Solução: a) primeira cidade: p̂ − z1−.01/2 × σqp̂ < p < p̂ + z1−.01/2 × σp̂ q 1−0.08) 1−0.08) < p < 0.08 − 2.5758 × 0.08×(400 0.08 − 2.5758 × 0.08×(400 0.0451 < p < 0.1149 segunda cidade: p̂ − z1−.01/2 × σq p̂ < p < p̂ + z1−.01/2 × σp̂ q 37 37 37 ×(1− 37 ) 37 37 270 270 270 ×(1− 270 ) − 2 . 5758 × < p < + 2 . 5758 × 270 270 270 270 0.0831 < p < 0.1909 b) primeira cidade 2 2 ×(1−p̂ ) .08×(1−.08) n = (z1−α/2 ) e×p̂ = 1.5758 ×0.02 = 456.89 ≈ 457 2 2 37 37 ) 2 2 (z1−α/2 ) ×p̂ ×(1−p̂ ) 1.5758 × 270 ×(1− 270 n= = = 734.12 ≈ 734 e2 .022 c) esta pergunta se refere a um teste de diferença de proporções. Ha {pA = pB contra Ha {pa 6= pb ou Ha {pA − pB = 0 contra Ha {pa − pb 6= 0 A estatística de teste é a diferença de proporções das duas 37 amostras p̂a − p̂b = .08 − 270 = −.0570 A variância de p̂a − p̂b será dado por 37 ×(1− 37 ) p̂a (1−p̂a ) + p̂b (1−p̂b ) = .08×(1−.08) + 270 270 = .00062199 na nb 400 √ 270 O erro padrão de p̂a − p̂b é igual a .00062199 = .0249 Então o valor de zcalculado será 37 b −0 = .08− 270 = −2.2906 zcalculado = p̂σa −p̂ .0249 p̂a −p̂b Para um nível de signicância a região de aceitação de H0 é −1.96 < zcalculado < 1.96 Portanto rejeitamos H0 ao nível de signicância de 5 %. O p-value deste teste pode ser calculado ocmo sendo igual a φ(−2.2906) × 2 = .02198. Multiplicamos por 2 porque o teste é bilateral e temos que considerar a área das duas caudas da distribuição. Interpretação do p-value: 2,20% é o nível de siginicância exato do teste - ao rejeitarmos H0 existe uma probabilidade exata de estarmos rejeitando quando na verdade H0 é verdadeira.