CAPÍTULO 6 - Teste de hipótese
Sumário
6.1 Introdução
6.2 Hipótese nula
6.3 Hipótese alternativa H1
6.4 Erros tipo I e tipo II: escolhendo entre a hipótese nula e alternativa
6.5 Exemplo: testando a estabilidade da linha de produção. A média do processo está
no alvo?
6.6 Exemplo: teste de hipótese da diferença entre duas médias
6.7 Exemplo: teste de hipótese de diferença entre duas médias com amostras
pareadas
6.8 Exemplo: teste de hipótese para a normalidade das variáveis
6.9 Teste de hipótese visual de normalidade
6.10 Teste de hipótese com atributos, a distribuição binomial e a aceitação por
amostragem.
6.11 Exercícios e discussão.
6.12 Referências
1
6.1 Introdução
•
•
•
•
Teoricamente, o teste de hipótese e o intervalo de confiança são
muito parecidos em termos dos seus objetivos de compreender
(a palavra técnica é inferir) determinadas características da
população através de amostras representativas desta
população.
A hipótese é uma conjectura (presunção, proposição,
suposição) a partir do pensamento do pesquisador que pode ou
não pode ser verdadeira na realidade.
Geralmente, hipóteses vêm de uma teoria científica ou da
engenharia ou até mesmo da própria experiência, mas ainda
não tem comprovações muito rigorosas.
As comprovações estatísticas podem ocorrer quando a
hipótese é bem definida e passível de mensurações. decisões
erradas.
2
6.2 Hipótese nula – Ho
• Alguns séculos atrás, a hipótese nula muito
disputada era que a terra é plana. Com o
trabalho de muitos cientistas da época a ciência
avançou enquanto as evidências foram
acumuladas e a hipótese nula rejeitada.
• Quer dizer, anular a hipótese nula é a meta do
cientista, pois é assim que novas descobertas
são produzidas.
• Geralmente, desde que a hipótese nula é uma
“verdade” científica aceita no momento, a
sua derrubada significa que conhecimento velho
é repensado e novos conhecimentos se
instalam para tomar conta do cenário.
3
Continuação da 6.2 Hipótese nula – Ho
•
•
•
•
•
Quando o procedimento de testar hipóteses foi originalmente lançado pelo
Inglês R. A. Fisher no início do século 20, ele estava preocupado em diferenciar
dois tipos de eventos na base da metodologia cientifica.
Os que ocorreram apenas por puro acaso e os eventos que apareciam como
fruto de algum grau de causalidade com outros fatores.
Por exemplo, se uma moeda foi jogada obtendo dez vezes seguidas cara, qual
seria o procedimento estatístico para testar a suposição de a moeda ser
desonesta e o resultado não simplesmente ser devido ao acaso?
Na área de saúde, testes laboratoriais raramente mostram igualdade exata entre
tratamentos diferenciados, mas para comprovar uma diferença contundente
entre tratamentos e julgar com confiança que um tratamento é superior, quanta
diferença precisa aparecer nos resultados para indicar diferenças decisivas no
tratamento?
Assim, na presença de certa ignorância sobre o assunto sob
investigação e falta de informação contundente para ajudar na
tomada de decisão, a hipótese nula apela pela igualdade ou por
efeito zero ou nulo.
4
Continuação da 6.2 Hipótese nula – Ho
•
•
•
•
Finalmente, a hipótese nula é definida pelo risco de errar na sua rejeição
e causar enormes prejuízos.
O caso clássico é a hipótese nula de que o réu é inocente. Veja que o
prejuízo de cometer o erro de culpar a pessoa inocente é enorme. O
custo de errar rejeitando a hipótese nula é muito grande e deve ser
evitado. Portanto, o ato de rejeição é tomado com muita cautela e com
evidências contundentes e muito claras.
Em ambientes empresariais a situação é muito parecida. A hipótese nula
segue os exemplos: o lote é caracterizado por conformidades (como
se o lote fosse inocente até provado culpado); a linha de produção se
mostra estável e sob controle; o funcionário trabalha com
desempenho adequado.
Nesses casos, se a hipótese nula for rejeitada, então os resultados
são muito sérios, como a parada forçada da linha de produção ou a
demissão de funcionário. Se a rejeição for errada, o custo de errar é
extremamente alto.
5
6.3 Hipótese alternativa H1
• A hipótese alternativa é o contrário da hipótese nula: o réu
é culpado, o lote é não conforme, a moeda não é honesta.
• Há uma complicação quando as possíveis hipóteses
alternativas não são únicas, mas sim existem várias opções.
No caso de comparar o desempenho de duas máquinas, a
hipótese alternativa pode tomar duas possibilidades, uma
que as duas máquinas são simplesmente desiguais e a
outra que uma máquina específica (talvez mais nova) é
melhor que a outra velha e de tecnologia superada.
• A hipótese alternativa de desigualdade é chamada de
bicaudal e a hipótese alternativa que favorece um único lado
da questão é chamada de uni caudal, assunto de próxima
sessão do capítulo.
6
6.4 Erros tipo I e tipo II: escolhendo entre a
hipótese nula e alternativa
Existem dois tipos de erro em torno da decisão
de optar pela hipótese nula ou pela hipótese
alternativa.
O pesquisador pode errar no ato de rejeitar uma
hipótese nula verdadeira cometendo o erro tipo
I, ou pelo contrário pode errar rejeitando a
hipótese alternativa verdadeira cometendo o
erro tipo II.
7
Tabela 6.1 – Teste de hipótese e erros
tipo I e II.
Pesquisador opta entre estados da hipótese nula
(H0: doença existe; lote é bom; estacionamento é seguro;
réu é inocente)
Estados reais da hipótese
nula na população
Rejeita (negativo)
Não rejeita (positivo)
Verdadeiro
Erro tipo I (erro do produtor;
alarme falso; falso negativo)
OK (sensibilidade)
Falso
OK (especificidade; poder do
teste)
Erro tipo II (erro do
consumidor; alarme não
disparado; falso positivo)
8
Valor-p
•
O valor da probabilidade de ocorrer erro tipo I é presente em todos os
softwares da área de Estatística e é chamado valor-p (“p value” em
inglês). Um valor-p alto significa que existe uma perspectiva forte de errar
rejeitando a hipótese nula.
•
•
A montagem de teste de hipótese é o seguinte:
1. Uma questão ou dúvida é levantada sobre uma realidade concreta mas
não totalmente conhecida.
2. As hipóteses nula e alternativa são construídas dando ênfase ao papel
da hipótese nula. A hipótese nula rejeitada significa ou um ganho em
termos de conhecimento científico, ou se for rejeitada erroneamente (erro
tipo I) o custo deste erro seria muito grande.
3. A hipótese nula é rejeitada baseada no valor-p extremamente
pequeno, minimizando a probabilidade de rejeições erradas.
Então, rejeição é resultado de evidências muito fortes,
valor-p muito pequeno.
•
•
9
6.5 Exemplo: testando a estabilidade da linha de
produção. A média do processo está no alvo?
O engenheiro da linha de produção periodicamente (mais ou
menos de hora em hora) levanta amostras de 9 carcaças (n = 9)
de motores elétricos para mensurar o diâmetro interno da carcaça,
uma das características mais importantes do motor. O alvo do
diâmetro é 150 mm.
H0: µ = 150 mm
H1: µ > 150 mm
O desvio padrão do processo e o das médias são
σ = 0,15 mm; σ/√n = 0,15/3 mm = 0,05 mm
O valor da média da última amostra é = 150,20 mm.
150,20150,00
0,15
9
 4  Zi
Valor-p, o tamanho da cauda direita nesse
caso, é igual a 1 - 0,99997 = 0,00003
CONCLUSÃO - REJEITAR Ho
10
Figura 6.1 – A distância da média amostral (150,20 mm)
em desvios padrão até o alvo do processo (µ = 150 mm).
0,45
0,4
0,35
A área na
cauda à direita
de 150,20 é
0,00003 =
valor-p.
0,3
0,25
0,2
0,15
0,1
0,05
0
H0: µ = 150 mm
4
Zi = desvios padrão
0
150,20
10
4,00
.
150,20150,00
15
 4  Zi
9
11
6.6 Exemplo: teste de hipótese da diferença entre
duas médias
É muito comum na fábrica a comparação entre o desempenho de duas máquinas
ou duas operadoras ou dois setores da empresa.
Dependendo da área, são chamados ou fatores ou variáveis ou blocos.
Nesse exemplo, vamos apresentar um teste de hipótese para decidir se uma
máquina velha tem desempenho realmente inferior a uma máquina nova, mas da
mesma categoria.
• H0: μ1 – μ2 = 0
• H1: μ1 – μ2 > 0
12
X
Tabela 6.2 – Máquina nova e máquina velha, duas
amostras, dados codificados de desempenho.
n=
n2 = 8
(1) nova
(2) velha
7998
8002
8004
7994
8002
7998
8004
7997
8003
7997
8003
8003
8004
7995
7997
7997
8005
8003
8002
8000
n1 = 13
8002
Média ( )
8002,077
7997,875
Variância (S2)
5,744
9,839
13
Cálculos a partir da Tabela 6.2
S12 S22
S12 S22
5,744 9,839
S   ; Sc 




n1 n2
n1 n2
13
8
2
c
t

X 1  X 2   1  2 
2
1
2
2
S S

n1 n2


X1  X 2
S12 S22

n1 n2

1,293
8002,077 7997,875

 3,25
1,293
2
 S12
S 22 

 n n 

1
2 

gl 
 12
2
2
 S12 
 S 22 


 n 

n 

 1   2 
n1  1
n2  1
A diferença entre as duas médias se transforma no valor de t de 3,25. O
valor de t é alto considerando que é definida a partir deste valor t uma
cauda fina de valor-p igual a 0,0035. Então, rejeita-se a hipótese nula
de igualdade entre máquinas sem preocupação de que a rejeição possa
ser um engano.
14
Figura 6.2 – A distância da média amostral da diferença
das duas médias em desvios padrão até o valor da
hipótese nula.
0,45
0,4
0,35
A área na
cauda à
direita de
4,202 tem
0,0035 =
valor-p.
0,3
0,25
0,2
0,15
0,1
0,05
0
4
medidas originais
t
H0: μ1 – μ2 = 0
0
4,202
10
3,25
.
15
Simplificações: variâncias iguais e
tamanho das amostras igual
t

X1  X 2
S12 S 22

n1 n2



X1  X 2

2
S
n
gl = 2n - 2
Desde que hoje em dia os cálculos são feitos em
computadores com software amigável e rápido,
prefere-se as formulações mais gerais e menos
dependentes de suposições matemáticas
simplificadoras que facilitam o cálculo manual.
16
dX 12
6.7 Exemplo: teste de hipótese de diferença
entre duas médias com amostras pareadas
Vendas em lojas com ou sem propaganda
R$ milhares
lojas sem
lojas com
Diferença
(X1)
(X2)
(d)
33
43
10
40
39
-1
26
33
7
19
22
3
31
36
5
27
34
7
média
= 29,3
= 34,5
= 5,17
desvio
S1 = 7,12
S2 = 7,12
Sd = 3,8
padrão
t

d
  d   
d
S
n
S
n
2
d
2
d

5,17
 3,32
14,44
6
H0: μd = 0
H1: μd > 0
valor-p = 0,01
17
6.8 Exemplo: teste de hipótese para a normalidade das
variáveis – Bera-Jarque
Ho: A variável segue a distribuição normal;
H1: A variável segue outra distribuição.
A fundamentação estatística utilizada como base do teste de
Bera-Jarque é dada pelas equações comentadas abaixo.
 ass 2 (curt - 3) 2 
+
N

24
6


ass =
curt =

 χ 22  6,0
3
/N
μ)
(x
 i
(x i - μ) 2 /N

;

3
4
/N
μ)
(x
 i
(x i - μ) 2 /N

4
.
18
Assimetria
M3 =
3
(x
μ)
 i
N
ass =
M3
σ3
Na distribuição normal, ass = 0
19
Curtose
M4 =
4
(x
-μ)

N
M4
curt = 4
σ
Na distribuição normal, curt = 3
20
Tabela 6.4 – Estatística descritiva dos dados da
figura 3.1
tempo
95,41
58,17
123,21
Média
Mediana
Desvio padrão
Variância da
amostra
15181,74
Curtose (curt)
31,58
Assimetria
(ass)
4,50
Intervalo
1448,39
Mínimo
2,60
Máximo
1450,99
Contagem
1000
ln(tempo)
10,05
10,06
1,03
1,05
0,01
-0,09
6,33
6,95
13,28
1000
 ass2 (curt - 3)2 
2
N
+
  χ 2  6,0
24
 6

 4, 52 31, 582 
1000 

  6, 0
24 
 6
valor p = 0,000
A hipótese nula pode ser rejeitada com muita segurança,
concluindo que a distribuição não é normal.
21
Vamos prosseguir com o mesmo cálculo com
os valores transformados da coluna ln(tempo).
 0, 092 0, 012 
1000 

  1, 237
24 
 6
valor p = 0,539
O valor da estatística de Bera-Jarque baixou
para muito menos que 6,0 indicando a não
rejeição da hipótese nula de normalidade dos
dados transformados pelo logaritmo.
22
6.9 Teste de hipótese visual de normalidade
299,62
299,65
299,72
299,72
299,72
299,74
299,74
299,74
299,75
299,76
299,76
299,76
299,76
299,76
299,77
299,78
299,78
299,79
299,79
299,79
299,80
299,80
299,80
299,80
299,80
299,81
299,81
299,81
299,81
299,81
299,81
299,81
299,81
299,81
299,81
299,82
299,82
299,83
299,83
299,84
299,84
299,84
299,84
299,84
299,84
299,84
299,84
299,85
299,85
299,85
299,85
299,85
299,85
299,85
299,85
299,86
299,86
299,86
299,87
299,87
299,87
299,87
299,88
299,88
299,88
299,88
299,88
299,88
299,88
299,88
299,88
299,88
299,89
299,89
299,89
Média
Desvio padrão =
curt =
ass =
299,90
299,90
299,91
299,91
299,92
299,93
299,93
299,94
299,94
299,94
299,95
299,95
299,95
299,96
299,96
299,96
299,96
299,97
299,98
299,98
299,98
300,00
300,00
300,00
300,07
299,85
0,08
0,34
-0,02
Tabela 6.5 – 100 mensurações da
velocidade da luz
Os dados, n = 100, são
das famosas experiências
do Albert Abraham
Michelson para medir a
velocidade da luz em mil
quilômetros por segundo
H0: Os dados
seguem a
distribuição normal
H1: não seguem
23
Figura 6.6 – Comparação dados observados e
teóricos.
Lembre-se do
capítulo 3 que a
distribuição
normal depende
de apenas dois
parâmetros, a
média e o desvio
padrão. Com os
valores dos dois
parâmetros,
podemos gerar
dados que
seguem a
distribuição
normal
24
Explicação da figura 6.6
• Para gerar dados teóricos usa-se a média de 299,85 e o desvio
padrão 0,08 da tabela 6.5.
• Como foi colocado em cima, se os dados observados tiverem
características da distribuição normal eles não devem desviar
dos valores teóricos.
• Isso pode ser constatado graficamente, na figura 6.6.
• Veja nesse gráfico que os dados teóricos (eixo vertical) e
observados (eixo horizontal) caem numa linha reta quase
perfeita.
• Não há nenhum dado ou grupo de dados em posição de
anomalia severa e podemos concluir que os dados observados
seguem a distribuição normal.
• Este tipo de teste visual é muito comum no chão de fábrica, em
função da facilidade de uso e sua presença em quase todos os
softwares da área, mesmo admitindo a sua subjetividade e
portanto a vulnerabilidade a errar.
25
6.10 Teste de hipótese com atributos, a distribuição
binomial e a aceitação por amostragem.
• Um fabricante de parafusos de alta precisão para instrumentos cirúrgicos fornece
lotes de tamanho 100.000 impossibilitando qualquer tentativa de inspeção de
100%.
• No contrato com os clientes, o fabricante garante, seguindo o histórico da fábrica,
que no máximo 0,4% do lote não é conforme.
• Ele quer fazer uma inspeção do lote no momento da saída da fábrica, mas não
tem recursos suficientes e nem o tempo disponível para inspeções detalhadas de
amostras grandes que aproximam o tamanho do lote.
• Depois de discussões com os engenheiros sobre os custos e o tempo disponível,
o tamanho da amostra foi fixado em 500 elementos. As hipóteses são as
seguintes:
H0: p = 0,004 (lote bom)
H1: p > 0,004 (lote não conforme)
Já vimos na tabela 6.1 que a rejeição da hipótese nula verdadeira nesse caso é
chamada de risco de produtor (fornecedor). Segundo as determinações dos
engenheiros, a amostra de tamanho 500 é tirada do lote e aparecem 3 parafusos
ruins na amostra . Esperamos na média 2 parafusos não-conformes em amostras
de 500 (0,004*500 = 2), mas apareceram 3.
Com esse resultado, o lote é rejeitado?Tudo vai depender do valor-p.
26
Figura 6.7 – Probabilidades para certo número de defeituosas
com p = 0,004 e tamanho da amostra = 500.
0,3
0,25
0,2
0,15
0,1
0,05
0
0
1
2
3
4
5
6
7
número de peças defeituosas
É esperado com probabilidade de 27% dois parafusos
defeituosos na amostra de 500.
27
Cálculos da figura 6.7
n!
n d
d


P (d ) 
p 1 p
d!(n  d)!
500!
P(2) 
0, 0042 (1  0, 004)100  2  0,27
2!(500  2)!
P(3) 
500!
0, 0043 (1  0, 004)100  3  0,18
3!(500  3)!
Em nosso exemplo, o valor-p é o acúmulo de probabilidades
para 3 e mais peças defeituosas, 18% + 9% + 4% + 1% + ... >
32%. O valor-p de 32% não permite a rejeição da hipótese nula
e o lote passa como aceitável pela inspeção por amostragem.
PL(100.000; 500; 5; 6)
NBR 5426 - Planos de amostragem e procedimentos na inspeção por
atributos. Associação Brasileira de Normas Técnicas - ABNT.
28
Download

Capítulo 4 As distribuições de probabilidade mais importantes em