Estatística II - Inferência
1
Teste de Hipóteses
1. COMPREENDENDO OS TESTES DE HIPÓTESES
O objetivo dos testes de hipóteses é verificar se são verdadeiras as afirmações sobre os
parâmetros de uma população.
Por exemplo, ao afirmarmos que a amostra de um produto tem como média de uma medida
o valor 70, consideramos 70 como sendo a média da população de onde foi retirada a amostra.
Determinar se tal informação é verdadeira constitui um exemplo de teste de hipóteses.
Os testes de hipóteses são realizados com base na informação das amostras, e a estatística
usada é chamada estatística de teste.
Em qualquer teste, existem duas hipóteses: a hipótese nula H 0 e a hipótese alternativa H 1 .
A H 0 nula representa o status quo, ou seja, a circunstância que está sendo testada, e o objetivo dos
testes de hipóteses é sempre tentar rejeitar a hipótese nula.
A hipótese alternativa representa o que se deseja provar ou estabelecer, sendo formulada
para contradizer a hipótese nula. Usualmente, as hipóteses são formuladas do seguinte modo:
H 0 : parâmetro da população = valor numérico.
H 1 : parâmetro da população ≠ valor numérico.
Esse é um exemplo de teste bilateral, em que a hipótese alternativa é estipulada para
detectar afastamentos, em ambos os sentidos, de um parâmetro, a partir de um valor especificado.
Graficamente, representa-se uma região de não-rejeição de 100 (1 − α ) % de confiança para
os testes bilaterais conforme a figura abaixo (representação da região de não-rejeição no teste
bilateral):
α
α
2
2
Região de não-rejeição
Deve-se lembrar que o objetivo do teste de hipóteses é sempre tentar rejeitar a hipótese nula
com base em uma amostra. Se não se conseguiu rejeitar a hipótese nula em determinado teste, é
porque aquela amostra não forneceu elementos suficientes para se consegui a rejeição.
Caso haja interesse em se determinar apenas se o parâmetro excede determinado valor, as
hipóteses são formuladas como:
H 0 : parâmetro da população = valor numérico.
H 1 : parâmetro da população > valor numérico.
Prof. Mirtênio
Estatística II - Inferência
2
Esse é um exemplo de teste unilateral superior, em que a hipótese alternativa indica
afastamento do parâmetro em relação a um valor no sentido da direita conforme figura abaixo
(representação da região de não-rejeição no teste unilateral superior):
α
2
Região de não-rejeição
De modo semelhante, no teste unilateral inferior, o objetivo é verificar se o parâmetro é
menor que determinado valor, e as hipóteses são formuladas como: conforme figura abaixo
(representação da região de não-rejeição no teste unilateral inferior):
H 0 : parâmetro da população = valor numérico.
H 1 : parâmetro da população < valor numérico.
α
2
Região de não-rejeição
Observe que, ao contrário do que usualmente apresentam os livros de Estatística, não se
deve ilustrar a região de não-rejeição como se fosse uma distribuição de DeMoivre-Laplace-Gauss
porque os conceitos de região de não-rejeição e rejeição independem da distribuição estatística que
modela o problema.
Nos testes de hipótese nula é considerada verdadeira, a menos que se prove o contrário. Se
existir uma evidência contrária estatisticamente significativa para a hipótese nula, ela será rejeitada;
caso contrário, não será rejeitada.
Definir o que vem a ser estatisticamente significativo depende da decisão a ser tomada em
relação ao erro que se admite cometer. Considere, por exemplo, o seguinte teste:
H 0 : µ = 70
H 1 : µ < 70
Com o desvio padrão da população σ , considerado conhecido e igual a 2. Deseja-se testar
se a média é igual a 70. Ao se retirar uma amostra de tamanho 36, a média amostral calculada é 65.
A diferença entre os valores 65 e 70 é estatisticamente significante?
De acordo com o teorema central do limite, para amostras consideradas grandes
(dependendo de diversos autores de livros de estatística, maior que 30, 50, ou mesmo 120
unidades), a distribuição de X é modelada, aproximadamente, pela distribuição de DeMoivreLaplace- Gauss.
A questão importante para o teste formulado é a seguinte: a média amostral 65 é, em termos
estatísticos, significativamente menor que o valor 70, admitido como sendo o parâmetro da
população?
Para responder a essa pergunta, é preciso determinar um ponto de corte (ou limite) abaixo do
qual a hipótese nula será rejeitada. Isto é, quão mínima deve ser a média amostral para que se
conclua que a média da população é menor que 70?
Prof. Mirtênio
Estatística II - Inferência
3
Sendo assim, usando-se a média amostral como uma estatística de teste, existirá um valor
crítico, nesse caso, no lado esquerdo, tal que, se a média amostral estiver abaixo dele, a hipótese
nula será rejeitada. Esse valor define a região de rejeição da hipótese nula.
Se o valor amostral não se encontra na região de rejeição, não há evidência significativa para
concluir que a média da população é menor que 70 e, portanto, a hipótese nula não será rejeitada.
Porém, qual é a localização precisa do valor crítico selecionado e, consequentemente, da
região de rejeição? Quão pequeno é o valor da média da amostra para ser considerado
significativamente menor que 70?
Determina-se a resposta pela escolha do chamado nível de significância do teste.
A região de rejeição é tal que, se a hipótese nula é verdadeira, a probabilidade de a hipótese
testada encontrar-se nessa região é pequena (comumente, de 1 a 5%); esta probabilidade,
denominada nível de significância do teste, é denominada por α . Portanto, a escolha de α é
primordial para se estabelecer a região rejeitada.
No exemplo, para α = 5 % obtém-se um valor crítico de 1,645 na tabela da distribuição de
σ
2
DeMoivre-Laplace-Gauss. Como σ x =
com n = 2, vem: σ x =
⇒ σ x = 0,333 , então
n
36
1,645 x 0,333 = 0,548 abaixo de 70 marcará o limite inferior do corte.
A região de rejeição é, pois, X < 69,452 . Como a média da amostra é 65, decide-se rejeitar
a hipótese nula.
No caso da média amostral, se o desvio padrão da população é considerado conhecido, o
x−µ
valor normalizado da média amostral é dado por: Z teste =
.
α
n
Legenda da fórmula:
Z
=
Estatística de teste.
x
=
Média obtida da amostra.
µ
=
Média da população.
σ
=
Desvio padrão da população.
n
=
Número de elementos da amostra.
Se o desvio padrão da população é desconhecido, o valor padronizado da média amostral é
x − µ0
dado por: t =
.
S
n
Prof. Mirtênio
Estatística II - Inferência
4
Legenda da fórmula:
Z
=
Estatística de teste.
x
=
Média obtida da amostra.
µ0
=
Média da população.
S
=
Desvio padrão da população.
n
=
Número de elementos da amostra.
Assim sendo, a região de rejeição não é especificamente delimitada. Supõe-se que a hipótese
nula é verdadeira e calcula-se a probabilidade de se retirar aquela determinada amostra. Se a
probabilidade for muito baixa e a amostra foi selecionada, então a hipótese nula deve ser falsa, ou
seja, deve ser rejeitada.
Esta probabilidade é conhecida como valor p, associado a essa estatística de teste. Esse valor
p, também conhecido como nível de significância observado, é então comparado a α , o nível de
significância escolhido. Se o valor p é menor que α , a hipótese nula é rejeitada.
2. IDENTIFICANDO ERROS NOS TESTES DE HIPÓTESES
Há dois tipos de erros nos testes de hipóteses: tipo I e tipo II.
O erro do tipo I ocorre quando se rejeita uma hipótese nula sendo a hipótese nula verdadeira.
A probabilidade de um erro de tipo I é indicada por α , o nível de significância do teste, ou
seja, α = Pr (erro do tipo I) = Pr (rejeitar H 0 quando H 0 é verdadeira ) .
O erro do tipo II ocorre quando a hipótese nula é rejeitada apesar de ser falsa. A
probabilidade de um erro de tipo II é simbolizada por β .
Portanto β = Pr (erro do tipo II) = Pr (não rejeitar H 0 quando H 0 é falsa ) .
Para calcular a probabilidade de um erro do II necessita-se de informação adicional sobre o
parâmetro da população (ou, pelo menos, de uma afirmativa sobre ele).
Os valores α e β são relacionados entre si de tal sorte que, se todos os demais parâmetros
permanecerem constantes, o erro β diminuirá com o aumento do erro α , e vice-versa.
A idéia do teste de hipótese é julgar se o resultado amostral é muito raro de ocorrer, no caso
de o estado da natureza descrito pela hipótese nula ser verdadeira. Para um teste bilateral, se a
média amostral é “muito pequena” ou “muito grande” a hipótese nula será rejeitada.
Há, porém, uma pequena chance de que a hipótese nula seja rejeitada mesmo sendo
verdadeira. A probabilidade desse tipo de erro acontecer (chamado erro de tipo I) é α , cujo valor,
Prof. Mirtênio
Estatística II - Inferência
5
estabelecido previamente pelo tomador de decisão, determina a regra de decisão para um teste de
hipóteses porque define as regiões de rejeição e de não-rejeição.
Em um teste bilateral, α é dividido entre as duas extremidades, inferior e superior, com a
região de não-rejeitado ocorrendo entre os valores críticos de X que delineiam a região de rejeição.
Uma vez calculada, a estatística amostral pode ser comparada com um valor crítico para
determinar a rejeição ou não da hipótese nula.
O valor p é o nível mais alto para α para o qual ainda não se rejeitará uma hipótese nula
para um dado conjunto de dados. O valor p é calculado tipicamente pelos pacotes estatísticos para
relatar resultados de testes de hipóteses, os quais podem facilmente ser analisados pelos tomadores
de decisão, independentemente do nível de significância que os livros clássicos sugiram.
3. PASSOS PARA A REALIZAÇÃO DE UM TESTE DE HIPÓTESES
Os passos para se realizar um teste de hipóteses são os seguintes:
√ Passo 1: determine a população e o parâmetro de interesse;
√ Passo 2: estabeleça a hipótese nula (em português e em termos estatísticos);
√ Passo 3: estabeleça a hipótese alternativa (de forma natural e em termos estatísticos);
√ Passo 4: escolha o tamanho n da amostra;
√ Passo 5: determine a técnica estatística apropriada e o correspondente teste estatístico;
√ Passo 6: estabeleça o(s) valor(es) crítico(s) que divide(m) as regiões de rejeição ou de
não-rejeição;
√ Passo 7: colete os dados e calcule o valor amostral do teste estatísticos adequado;
√ Passo 8: determine se o valor do teste estatístico está na região de rejeição ou de nãorejeição
√ Passo 9: decida estatisticamente se rejeita ou não rejeita a hipótese nula;
√ Passo 10: expresse a decisão estatística em termos do problema.
Prof. Mirtênio
Estatística II - Inferência
6
Exemplo resolvido
1.Um banco está num processo de compra de monitores para todas suas agências. Um fabricante
de monitores para computador afirma que seus equipamentos operam em média durante 25920
horas antes da ocorrência de falha. O fabricante diz ainda que o desvio padrão do número de horas
antes da primeira falha de seus monitores (toda população) é igual a 720 horas. O número de
monitores disponibilizados para amostragem é 64 equipamentos, onde foi obtida uma média de
25800 horas. Avaliar a afirmação do fabricante de que seus monitores operam sem falhas em média
25920 horas, considerando a estrutura de um Teste de Hipóteses.
Prof. Mirtênio
Estatística II - Inferência
7
2.A altura dos adultos de uma certa cidade tem distribuição normal com média de 164 cm e desvio
padrão de 5,82 cm. Deseja-se saber se as condições sociais desfavoráveis vigentes na parte pobre
dessa cidade causam um retardamento no crescimento dessa população. Para isso, levantou-se uma
amostra de 144 adultos dessa parte da cidade, obtendo-se a média de 162 cm. Pode esse resultado
indicar que os adultos residentes na área são em média mais baixos que os demais habitantes da
cidade ao nível de 5%.
Prof. Mirtênio
Estatística II - Inferência
1º
8
PASSO
 H 0 : µ = 164
Formular H0 e H1 → 
 H 1 : µ < 164
2º
PASSO
Identificamos o número da amostra que é maior que 30 (neste caso 144 adultos), o que
indica o uso da distribuição normal.
3º
PASSO
O nível de significância já foi informado e igual a α = 5 % .
Conhecendo a área que nos dá 90% de confiança no resultado, vamos até a tabela para a
Distribuição Normal Padronizada e encontramos o valor mais próximo de 0,45, que é 0,4494974.
Para este valor temos (considerando a linha e a coluna) z = 1,64.
Z α = Z 5 % = 1,64
4º
PASSO
Neste passo iremos calcular a estatística de teste como sabemos o tamanho da amostra que é
144 adultos, sabe-se que a média amostral que é 162 e conhecemos o desvio padrão da população
x−µ
, então vem:
5,82, portanto utilizaremos a fórmula: Z teste =
α
n
Z teste =
162 − 164
5,82
144
⇒ Z teste =
−2
5,82
12
⇒ Z teste =
−2
∴ ⇒ Z teste = − 4,124
0,485
Prof. Mirtênio
Estatística II - Inferência
5º
9
PASSO
Comparando o valor teste com a região crítica, podemos observar:
Como o valor do teste é menor que o valor da tabela, então, neste caso a afirmação é
verdadeira, podemos comparar que Z teste < Z α , rejeita-se H 0 : µ = 164 , isto é, podemos admitir
que as condições sociais desfavoráveis provocam um retardamento no crescimento da população da
parte estudada ao nível de 5%.
6º
PASSO
Podemos determinar ainda o número máximo e mínimo de adultos, com intervalo de
confiança de 95%.
Utilizando a fórmula: µ ± z .
164 ± 1,64 .
5,82
144
σx
n
, então vem:
⇒ 164 ± 0,7954
P (163,2046 ≤ x ≤ 164,7954) = 95 % , como a x = 162 , então rejeita-se a H0 a 5%.
Prof. Mirtênio
Estatística II - Inferência
10
3.Um fabricante de lajotas de cerâmica introduz um novo material em sua fabricação e acredita
que aumentará a resistência média, que é de 206 kg. A resistência das lajotas tem distribuição
normal com desvio padrão de 12 kg. Retira-se uma amostra de 30 lajotas, obtendo x = 210 kg . Ao
nível de 10%, pode o fabricante aceitar que a resistência média de suas lajotas tenha aumentado?
1º
PASSO
 H 0 : µ = 206 kg
Formular H0 e H1 → 
 H 1 : µ > 206 kg
2º
PASSO
Identificamos o número da amostra que é igual a 30, o que indica o uso da distribuição t de
Student.
3º
PASSO
O nível de significância já foi informado e igual a α = 10 % .
Conhecendo a área que nos dá 80% de confiança no resultado, vamos até a tabela para a
Distribuição Normal Padronizada e encontramos o valor mais próximo de 0,4, que é 0,399727. Para
este valor temos (considerando a linha e a coluna) z = 1,28.
Z α = Z 10 % = 1,28
4º
PASSO
Neste passo iremos calcular a estatística de teste como sabemos o tamanho da amostra que é
30 lajotas, sabe-se que a média amostral que é 210 kg e conhecemos o desvio padrão da população
x−µ
12 kg, portanto utilizaremos a fórmula: Z teste =
, então vem:
α
n
Prof. Mirtênio
Estatística II - Inferência
Z teste =
11
210 − 206
12
⇒ Z teste =
30
5º
4
12
5,4772
⇒ Z teste =
4
∴ ⇒ Z teste = 1,826
2,191
PASSO
Comparando o valor teste com a região crítica, podemos observar:
Como o valor do teste é menor que o valor da tabela, então, neste caso a afirmação é
verdadeira, podemos comparar que Z teste > Z α , rejeita-se H 0 : µ = 206 , isto é, podemos admitir
que o fabricante pode concluir que a resistência média de suas lajotas aumentou ao nível de 10%.
6º
PASSO
Podemos determinar ainda o número máximo e mínimo de resistência das lajotas, com
intervalo de confiança de 90%.
Utilizando a fórmula: µ ± z .
206 ± 1,28 .
12
30
σx
n
, então vem:
⇒ 206 ± 2,8043
P (203,1957 ≤ x ≤ 208,8043) = 90 % , como a x = 210 kg , então rejeita-se a H0 a 10%.
Prof. Mirtênio
Estatística II - Inferência
12
4.Uma fábrica de automóveis anuncia que seus carros consomem, em média 11 litros por 100 km,
com desvio padrão de 0,8 litro. Uma revista especializada em automobilismo decide testar essa
afirmação e analisa 35 carros dessa marca, obtendo 11,4 litros por 100 km, como consumo médio.
Admitindo que o consumo tenha distribuição normal, ao nível de 10% o que a revista concluirá
sobre o anúncio da fábrica?
1º
PASSO
 H 0 : µ = 11
Formular H0 e H1 → 
 H 1 : µ ≠ 11
2º
PASSO
Identificamos o número da amostra que é maior que 30 (neste caso 35 carros), o que indica o
uso da distribuição normal.
3º
PASSO
O nível de significância já foi informado e igual a α = 10 % .
Conhecendo a área que nos dá 90% de confiança no resultado, vamos até a tabela para a
Distribuição Normal Padronizada e encontramos o valor mais próximo de 0,45, que é 0,4494974.
Para este valor temos (considerando a linha e a coluna) z = 1,64.
Z α = Z 5 % = 1,64
4º
PASSO
Neste passo iremos calcular a estatística de teste como sabemos o tamanho da amostra que é
35 carros, sabe-se que a média amostral que é 11,4 litros por 100 km e conhecemos o desvio padrão
x−µ
, então vem:
da população 0,8 litro, portanto utilizaremos a fórmula: Z teste =
α
n
Prof. Mirtênio
Estatística II - Inferência
Z teste =
11,4 − 11
0,8
⇒ Z teste =
35
5º
13
0,4
0,8
5,916
⇒ Z teste =
0,4
∴ ⇒ Z teste = 2,96
0,135
PASSO
Comparando o valor teste com a região crítica, podemos observar:
Como o valor do teste é menor que o valor da tabela, então, neste caso a afirmação é
verdadeira, podemos comparar que Z teste < Z α , rejeita-se H 0 : µ =11 , isto é, podemos admitir que
as condições sociais desfavoráveis provocam um retardamento no crescimento da população da
parte estudada ao nível de 10%.
6º
PASSO
Podemos determinar ainda o número máximo e mínimo de adultos, com intervalo de
confiança de 95%.
Utilizando a fórmula: µ ± z .
11 ± 1,64 .
0,8
35
σx
n
, então vem:
⇒ 11 ± 0,2217
P (10,7783 ≤ x ≤ 11,2217 ) = 95 % , como a x = 11,4 , então rejeita-se a H0 a 10%, pois a
revista pode concluir que o anúncio não é verdadeiro.
Prof. Mirtênio
Download

Teste de Hipóteses