Estatística II - Inferência 1 Teste de Hipóteses 1. COMPREENDENDO OS TESTES DE HIPÓTESES O objetivo dos testes de hipóteses é verificar se são verdadeiras as afirmações sobre os parâmetros de uma população. Por exemplo, ao afirmarmos que a amostra de um produto tem como média de uma medida o valor 70, consideramos 70 como sendo a média da população de onde foi retirada a amostra. Determinar se tal informação é verdadeira constitui um exemplo de teste de hipóteses. Os testes de hipóteses são realizados com base na informação das amostras, e a estatística usada é chamada estatística de teste. Em qualquer teste, existem duas hipóteses: a hipótese nula H 0 e a hipótese alternativa H 1 . A H 0 nula representa o status quo, ou seja, a circunstância que está sendo testada, e o objetivo dos testes de hipóteses é sempre tentar rejeitar a hipótese nula. A hipótese alternativa representa o que se deseja provar ou estabelecer, sendo formulada para contradizer a hipótese nula. Usualmente, as hipóteses são formuladas do seguinte modo: H 0 : parâmetro da população = valor numérico. H 1 : parâmetro da população ≠ valor numérico. Esse é um exemplo de teste bilateral, em que a hipótese alternativa é estipulada para detectar afastamentos, em ambos os sentidos, de um parâmetro, a partir de um valor especificado. Graficamente, representa-se uma região de não-rejeição de 100 (1 − α ) % de confiança para os testes bilaterais conforme a figura abaixo (representação da região de não-rejeição no teste bilateral): α α 2 2 Região de não-rejeição Deve-se lembrar que o objetivo do teste de hipóteses é sempre tentar rejeitar a hipótese nula com base em uma amostra. Se não se conseguiu rejeitar a hipótese nula em determinado teste, é porque aquela amostra não forneceu elementos suficientes para se consegui a rejeição. Caso haja interesse em se determinar apenas se o parâmetro excede determinado valor, as hipóteses são formuladas como: H 0 : parâmetro da população = valor numérico. H 1 : parâmetro da população > valor numérico. Prof. Mirtênio Estatística II - Inferência 2 Esse é um exemplo de teste unilateral superior, em que a hipótese alternativa indica afastamento do parâmetro em relação a um valor no sentido da direita conforme figura abaixo (representação da região de não-rejeição no teste unilateral superior): α 2 Região de não-rejeição De modo semelhante, no teste unilateral inferior, o objetivo é verificar se o parâmetro é menor que determinado valor, e as hipóteses são formuladas como: conforme figura abaixo (representação da região de não-rejeição no teste unilateral inferior): H 0 : parâmetro da população = valor numérico. H 1 : parâmetro da população < valor numérico. α 2 Região de não-rejeição Observe que, ao contrário do que usualmente apresentam os livros de Estatística, não se deve ilustrar a região de não-rejeição como se fosse uma distribuição de DeMoivre-Laplace-Gauss porque os conceitos de região de não-rejeição e rejeição independem da distribuição estatística que modela o problema. Nos testes de hipótese nula é considerada verdadeira, a menos que se prove o contrário. Se existir uma evidência contrária estatisticamente significativa para a hipótese nula, ela será rejeitada; caso contrário, não será rejeitada. Definir o que vem a ser estatisticamente significativo depende da decisão a ser tomada em relação ao erro que se admite cometer. Considere, por exemplo, o seguinte teste: H 0 : µ = 70 H 1 : µ < 70 Com o desvio padrão da população σ , considerado conhecido e igual a 2. Deseja-se testar se a média é igual a 70. Ao se retirar uma amostra de tamanho 36, a média amostral calculada é 65. A diferença entre os valores 65 e 70 é estatisticamente significante? De acordo com o teorema central do limite, para amostras consideradas grandes (dependendo de diversos autores de livros de estatística, maior que 30, 50, ou mesmo 120 unidades), a distribuição de X é modelada, aproximadamente, pela distribuição de DeMoivreLaplace- Gauss. A questão importante para o teste formulado é a seguinte: a média amostral 65 é, em termos estatísticos, significativamente menor que o valor 70, admitido como sendo o parâmetro da população? Para responder a essa pergunta, é preciso determinar um ponto de corte (ou limite) abaixo do qual a hipótese nula será rejeitada. Isto é, quão mínima deve ser a média amostral para que se conclua que a média da população é menor que 70? Prof. Mirtênio Estatística II - Inferência 3 Sendo assim, usando-se a média amostral como uma estatística de teste, existirá um valor crítico, nesse caso, no lado esquerdo, tal que, se a média amostral estiver abaixo dele, a hipótese nula será rejeitada. Esse valor define a região de rejeição da hipótese nula. Se o valor amostral não se encontra na região de rejeição, não há evidência significativa para concluir que a média da população é menor que 70 e, portanto, a hipótese nula não será rejeitada. Porém, qual é a localização precisa do valor crítico selecionado e, consequentemente, da região de rejeição? Quão pequeno é o valor da média da amostra para ser considerado significativamente menor que 70? Determina-se a resposta pela escolha do chamado nível de significância do teste. A região de rejeição é tal que, se a hipótese nula é verdadeira, a probabilidade de a hipótese testada encontrar-se nessa região é pequena (comumente, de 1 a 5%); esta probabilidade, denominada nível de significância do teste, é denominada por α . Portanto, a escolha de α é primordial para se estabelecer a região rejeitada. No exemplo, para α = 5 % obtém-se um valor crítico de 1,645 na tabela da distribuição de σ 2 DeMoivre-Laplace-Gauss. Como σ x = com n = 2, vem: σ x = ⇒ σ x = 0,333 , então n 36 1,645 x 0,333 = 0,548 abaixo de 70 marcará o limite inferior do corte. A região de rejeição é, pois, X < 69,452 . Como a média da amostra é 65, decide-se rejeitar a hipótese nula. No caso da média amostral, se o desvio padrão da população é considerado conhecido, o x−µ valor normalizado da média amostral é dado por: Z teste = . α n Legenda da fórmula: Z = Estatística de teste. x = Média obtida da amostra. µ = Média da população. σ = Desvio padrão da população. n = Número de elementos da amostra. Se o desvio padrão da população é desconhecido, o valor padronizado da média amostral é x − µ0 dado por: t = . S n Prof. Mirtênio Estatística II - Inferência 4 Legenda da fórmula: Z = Estatística de teste. x = Média obtida da amostra. µ0 = Média da população. S = Desvio padrão da população. n = Número de elementos da amostra. Assim sendo, a região de rejeição não é especificamente delimitada. Supõe-se que a hipótese nula é verdadeira e calcula-se a probabilidade de se retirar aquela determinada amostra. Se a probabilidade for muito baixa e a amostra foi selecionada, então a hipótese nula deve ser falsa, ou seja, deve ser rejeitada. Esta probabilidade é conhecida como valor p, associado a essa estatística de teste. Esse valor p, também conhecido como nível de significância observado, é então comparado a α , o nível de significância escolhido. Se o valor p é menor que α , a hipótese nula é rejeitada. 2. IDENTIFICANDO ERROS NOS TESTES DE HIPÓTESES Há dois tipos de erros nos testes de hipóteses: tipo I e tipo II. O erro do tipo I ocorre quando se rejeita uma hipótese nula sendo a hipótese nula verdadeira. A probabilidade de um erro de tipo I é indicada por α , o nível de significância do teste, ou seja, α = Pr (erro do tipo I) = Pr (rejeitar H 0 quando H 0 é verdadeira ) . O erro do tipo II ocorre quando a hipótese nula é rejeitada apesar de ser falsa. A probabilidade de um erro de tipo II é simbolizada por β . Portanto β = Pr (erro do tipo II) = Pr (não rejeitar H 0 quando H 0 é falsa ) . Para calcular a probabilidade de um erro do II necessita-se de informação adicional sobre o parâmetro da população (ou, pelo menos, de uma afirmativa sobre ele). Os valores α e β são relacionados entre si de tal sorte que, se todos os demais parâmetros permanecerem constantes, o erro β diminuirá com o aumento do erro α , e vice-versa. A idéia do teste de hipótese é julgar se o resultado amostral é muito raro de ocorrer, no caso de o estado da natureza descrito pela hipótese nula ser verdadeira. Para um teste bilateral, se a média amostral é “muito pequena” ou “muito grande” a hipótese nula será rejeitada. Há, porém, uma pequena chance de que a hipótese nula seja rejeitada mesmo sendo verdadeira. A probabilidade desse tipo de erro acontecer (chamado erro de tipo I) é α , cujo valor, Prof. Mirtênio Estatística II - Inferência 5 estabelecido previamente pelo tomador de decisão, determina a regra de decisão para um teste de hipóteses porque define as regiões de rejeição e de não-rejeição. Em um teste bilateral, α é dividido entre as duas extremidades, inferior e superior, com a região de não-rejeitado ocorrendo entre os valores críticos de X que delineiam a região de rejeição. Uma vez calculada, a estatística amostral pode ser comparada com um valor crítico para determinar a rejeição ou não da hipótese nula. O valor p é o nível mais alto para α para o qual ainda não se rejeitará uma hipótese nula para um dado conjunto de dados. O valor p é calculado tipicamente pelos pacotes estatísticos para relatar resultados de testes de hipóteses, os quais podem facilmente ser analisados pelos tomadores de decisão, independentemente do nível de significância que os livros clássicos sugiram. 3. PASSOS PARA A REALIZAÇÃO DE UM TESTE DE HIPÓTESES Os passos para se realizar um teste de hipóteses são os seguintes: √ Passo 1: determine a população e o parâmetro de interesse; √ Passo 2: estabeleça a hipótese nula (em português e em termos estatísticos); √ Passo 3: estabeleça a hipótese alternativa (de forma natural e em termos estatísticos); √ Passo 4: escolha o tamanho n da amostra; √ Passo 5: determine a técnica estatística apropriada e o correspondente teste estatístico; √ Passo 6: estabeleça o(s) valor(es) crítico(s) que divide(m) as regiões de rejeição ou de não-rejeição; √ Passo 7: colete os dados e calcule o valor amostral do teste estatísticos adequado; √ Passo 8: determine se o valor do teste estatístico está na região de rejeição ou de nãorejeição √ Passo 9: decida estatisticamente se rejeita ou não rejeita a hipótese nula; √ Passo 10: expresse a decisão estatística em termos do problema. Prof. Mirtênio Estatística II - Inferência 6 Exemplo resolvido 1.Um banco está num processo de compra de monitores para todas suas agências. Um fabricante de monitores para computador afirma que seus equipamentos operam em média durante 25920 horas antes da ocorrência de falha. O fabricante diz ainda que o desvio padrão do número de horas antes da primeira falha de seus monitores (toda população) é igual a 720 horas. O número de monitores disponibilizados para amostragem é 64 equipamentos, onde foi obtida uma média de 25800 horas. Avaliar a afirmação do fabricante de que seus monitores operam sem falhas em média 25920 horas, considerando a estrutura de um Teste de Hipóteses. Prof. Mirtênio Estatística II - Inferência 7 2.A altura dos adultos de uma certa cidade tem distribuição normal com média de 164 cm e desvio padrão de 5,82 cm. Deseja-se saber se as condições sociais desfavoráveis vigentes na parte pobre dessa cidade causam um retardamento no crescimento dessa população. Para isso, levantou-se uma amostra de 144 adultos dessa parte da cidade, obtendo-se a média de 162 cm. Pode esse resultado indicar que os adultos residentes na área são em média mais baixos que os demais habitantes da cidade ao nível de 5%. Prof. Mirtênio Estatística II - Inferência 1º 8 PASSO H 0 : µ = 164 Formular H0 e H1 → H 1 : µ < 164 2º PASSO Identificamos o número da amostra que é maior que 30 (neste caso 144 adultos), o que indica o uso da distribuição normal. 3º PASSO O nível de significância já foi informado e igual a α = 5 % . Conhecendo a área que nos dá 90% de confiança no resultado, vamos até a tabela para a Distribuição Normal Padronizada e encontramos o valor mais próximo de 0,45, que é 0,4494974. Para este valor temos (considerando a linha e a coluna) z = 1,64. Z α = Z 5 % = 1,64 4º PASSO Neste passo iremos calcular a estatística de teste como sabemos o tamanho da amostra que é 144 adultos, sabe-se que a média amostral que é 162 e conhecemos o desvio padrão da população x−µ , então vem: 5,82, portanto utilizaremos a fórmula: Z teste = α n Z teste = 162 − 164 5,82 144 ⇒ Z teste = −2 5,82 12 ⇒ Z teste = −2 ∴ ⇒ Z teste = − 4,124 0,485 Prof. Mirtênio Estatística II - Inferência 5º 9 PASSO Comparando o valor teste com a região crítica, podemos observar: Como o valor do teste é menor que o valor da tabela, então, neste caso a afirmação é verdadeira, podemos comparar que Z teste < Z α , rejeita-se H 0 : µ = 164 , isto é, podemos admitir que as condições sociais desfavoráveis provocam um retardamento no crescimento da população da parte estudada ao nível de 5%. 6º PASSO Podemos determinar ainda o número máximo e mínimo de adultos, com intervalo de confiança de 95%. Utilizando a fórmula: µ ± z . 164 ± 1,64 . 5,82 144 σx n , então vem: ⇒ 164 ± 0,7954 P (163,2046 ≤ x ≤ 164,7954) = 95 % , como a x = 162 , então rejeita-se a H0 a 5%. Prof. Mirtênio Estatística II - Inferência 10 3.Um fabricante de lajotas de cerâmica introduz um novo material em sua fabricação e acredita que aumentará a resistência média, que é de 206 kg. A resistência das lajotas tem distribuição normal com desvio padrão de 12 kg. Retira-se uma amostra de 30 lajotas, obtendo x = 210 kg . Ao nível de 10%, pode o fabricante aceitar que a resistência média de suas lajotas tenha aumentado? 1º PASSO H 0 : µ = 206 kg Formular H0 e H1 → H 1 : µ > 206 kg 2º PASSO Identificamos o número da amostra que é igual a 30, o que indica o uso da distribuição t de Student. 3º PASSO O nível de significância já foi informado e igual a α = 10 % . Conhecendo a área que nos dá 80% de confiança no resultado, vamos até a tabela para a Distribuição Normal Padronizada e encontramos o valor mais próximo de 0,4, que é 0,399727. Para este valor temos (considerando a linha e a coluna) z = 1,28. Z α = Z 10 % = 1,28 4º PASSO Neste passo iremos calcular a estatística de teste como sabemos o tamanho da amostra que é 30 lajotas, sabe-se que a média amostral que é 210 kg e conhecemos o desvio padrão da população x−µ 12 kg, portanto utilizaremos a fórmula: Z teste = , então vem: α n Prof. Mirtênio Estatística II - Inferência Z teste = 11 210 − 206 12 ⇒ Z teste = 30 5º 4 12 5,4772 ⇒ Z teste = 4 ∴ ⇒ Z teste = 1,826 2,191 PASSO Comparando o valor teste com a região crítica, podemos observar: Como o valor do teste é menor que o valor da tabela, então, neste caso a afirmação é verdadeira, podemos comparar que Z teste > Z α , rejeita-se H 0 : µ = 206 , isto é, podemos admitir que o fabricante pode concluir que a resistência média de suas lajotas aumentou ao nível de 10%. 6º PASSO Podemos determinar ainda o número máximo e mínimo de resistência das lajotas, com intervalo de confiança de 90%. Utilizando a fórmula: µ ± z . 206 ± 1,28 . 12 30 σx n , então vem: ⇒ 206 ± 2,8043 P (203,1957 ≤ x ≤ 208,8043) = 90 % , como a x = 210 kg , então rejeita-se a H0 a 10%. Prof. Mirtênio Estatística II - Inferência 12 4.Uma fábrica de automóveis anuncia que seus carros consomem, em média 11 litros por 100 km, com desvio padrão de 0,8 litro. Uma revista especializada em automobilismo decide testar essa afirmação e analisa 35 carros dessa marca, obtendo 11,4 litros por 100 km, como consumo médio. Admitindo que o consumo tenha distribuição normal, ao nível de 10% o que a revista concluirá sobre o anúncio da fábrica? 1º PASSO H 0 : µ = 11 Formular H0 e H1 → H 1 : µ ≠ 11 2º PASSO Identificamos o número da amostra que é maior que 30 (neste caso 35 carros), o que indica o uso da distribuição normal. 3º PASSO O nível de significância já foi informado e igual a α = 10 % . Conhecendo a área que nos dá 90% de confiança no resultado, vamos até a tabela para a Distribuição Normal Padronizada e encontramos o valor mais próximo de 0,45, que é 0,4494974. Para este valor temos (considerando a linha e a coluna) z = 1,64. Z α = Z 5 % = 1,64 4º PASSO Neste passo iremos calcular a estatística de teste como sabemos o tamanho da amostra que é 35 carros, sabe-se que a média amostral que é 11,4 litros por 100 km e conhecemos o desvio padrão x−µ , então vem: da população 0,8 litro, portanto utilizaremos a fórmula: Z teste = α n Prof. Mirtênio Estatística II - Inferência Z teste = 11,4 − 11 0,8 ⇒ Z teste = 35 5º 13 0,4 0,8 5,916 ⇒ Z teste = 0,4 ∴ ⇒ Z teste = 2,96 0,135 PASSO Comparando o valor teste com a região crítica, podemos observar: Como o valor do teste é menor que o valor da tabela, então, neste caso a afirmação é verdadeira, podemos comparar que Z teste < Z α , rejeita-se H 0 : µ =11 , isto é, podemos admitir que as condições sociais desfavoráveis provocam um retardamento no crescimento da população da parte estudada ao nível de 10%. 6º PASSO Podemos determinar ainda o número máximo e mínimo de adultos, com intervalo de confiança de 95%. Utilizando a fórmula: µ ± z . 11 ± 1,64 . 0,8 35 σx n , então vem: ⇒ 11 ± 0,2217 P (10,7783 ≤ x ≤ 11,2217 ) = 95 % , como a x = 11,4 , então rejeita-se a H0 a 10%, pois a revista pode concluir que o anúncio não é verdadeiro. Prof. Mirtênio