CAPÍTULO 6 - Teste de hipótese
Sumário
6.1 Introdução
6.2 Hipótese nula
6.3 Hipótese alternativa H1
6.4 Erros tipo I e tipo II: escolhendo entre a hipótese nula e alternativa
6.5 Exemplo: testando a estabilidade da linha de produção. A média do processo está
no alvo?
6.6 Exemplo: teste de hipótese da diferença entre duas médias
6.7 Exemplo: teste de hipótese de diferença entre duas médias com amostras
pareadas
6.8 Exemplo: teste de hipótese para a normalidade das variáveis
6.9 Teste de hipótese visual de normalidade
6.10 Teste de hipótese com atributos, a distribuição binomial e a aceitação por
amostragem.
6.11 Exercícios e discussão.
6.12 Referências
1
6.1 Introdução
• Teoricamente, o teste de hipótese e o intervalo de
confiança são muito parecidos em termos dos seus
objetivos de compreender (a palavra técnica é inferir)
determinadas características da população através de
amostras representativas desta população.
• A hipótese é uma conjectura (presunção, proposição,
suposição) a partir do pensamento do pesquisador que
pode ou não pode ser verdadeira na realidade.
• Geralmente, hipóteses vêm de uma teoria científica
ou da engenharia ou até mesmo da própria
experiência, mas ainda não tem comprovações muito
rigorosas.
• As comprovações estatísticas podem ocorrer quando a
hipótese é bem definida e passível de mensurações.
2
6.2 Hipótese nula – Ho
• Alguns séculos atrás, a hipótese nula muito
disputada era que a terra é plana. Com o
trabalho de muitos cientistas da época a ciência
avançou enquanto as evidências foram
acumuladas e a hipótese nula rejeitada.
• Quer dizer, anular a hipótese nula é a meta do
cientista, pois é assim que novas descobertas
são produzidas.
• Geralmente, desde que a hipótese nula é uma
“verdade” científica aceita no momento, a
sua derrubada significa que conhecimento velho
é repensado e novos conhecimentos se instalam
para tomar conta do cenário.
3
Continuação da 6.2 Hipótese nula – Ho
•
•
•
•
•
Quando o procedimento de testar hipóteses foi originalmente lançado pelo
Inglês R. A. Fisher no início do século 20, ele estava preocupado em diferenciar
dois tipos de eventos na base da metodologia cientifica.
Os que ocorreram apenas por puro acaso e os eventos que apareciam como
fruto de algum grau de causalidade com outros fatores.
Por exemplo, se uma moeda foi jogada obtendo dez vezes seguidas cara, qual
seria o procedimento estatístico para testar a suposição de a moeda ser
desonesta e o resultado não simplesmente ser devido ao acaso?
Na área de saúde, testes laboratoriais raramente mostram igualdade exata entre
tratamentos diferenciados, mas para comprovar uma diferença contundente
entre tratamentos e julgar com confiança que um tratamento é superior, quanta
diferença precisa aparecer nos resultados para indicar diferenças
decisivas no tratamento?
Assim, na presença de certa ignorância sobre o assunto sob
investigação e falta de informação contundente para ajudar na
tomada de decisão, a hipótese nula apela pela igualdade ou por
efeito zero ou nulo.
4
Continuação da 6.2 Hipótese nula – Ho
• Finalmente, a hipótese nula é definida pelo risco de errar na sua
rejeição e causar enormes prejuízos.
• O caso clássico é a hipótese nula de que o réu é inocente. Veja
que o prejuízo de cometer o erro de culpar a pessoa inocente é
enorme. Portanto, o ato de rejeição é tomado com muita cautela e
somente com evidências contundentes e muito claras.
• Em ambientes empresariais a situação é muito parecida. A
hipótese nula segue os exemplos: o lote é caracterizado por
conformidades (como se o lote fosse inocente até provado
culpado); a linha de produção se mostra estável e sob
controle.
• Nesses casos, se a hipótese nula for rejeitada, então os
resultados são muito sérios, como a parada forçada da linha
de produção ou a demissão de funcionário. Se a rejeição for
errada, o custo de errar é extremamente alto.
5
6.3 Hipótese alternativa H1
• A hipótese alternativa é o contrário da hipótese nula: o réu
é culpado, o lote é não conforme, a moeda não é honesta.
• Há uma complicação quando as possíveis hipóteses
alternativas não são únicas, mas sim existem várias opções.
No caso de comparar o desempenho de duas máquinas, a
hipótese alternativa pode tomar duas possibilidades, uma
que as duas máquinas são simplesmente desiguais e a
outra que uma máquina específica (talvez mais nova) é
melhor que a outra velha e de tecnologia superada.
• A hipótese alternativa de desigualdade é chamada de
bicaudal e a hipótese alternativa que favorece um único lado
da questão é chamada de uni caudal, assunto de próxima
sessão do capítulo.
6
6.4 Erros tipo I e tipo II: escolhendo entre a
hipótese nula e alternativa
Existem dois tipos de erro em torno da
decisão de optar pela hipótese nula ou
pela hipótese alternativa.
O pesquisador pode errar no ato de
rejeitar uma hipótese nula verdadeira
cometendo o erro tipo I, ou pelo
contrário pode errar rejeitando a
hipótese alternativa verdadeira
cometendo o erro tipo II.
7
Tabela 6.1 – Teste de hipótese e erros
tipo I e II.
Pesquisador opta entre estados da hipótese nula
(H0: doença não existe; lote é bom; estacionamento é
seguro; réu é inocente)
Estados reais da hipótese
nula na população
Rejeita (positivo)
Não rejeita (negativo)
Verdadeiro
Erro tipo I (erro do produtor;
alarme falso; falso positivo)
OK (sensibilidade)
Falso
OK (especificidade; poder do
teste)
Erro tipo II (erro do
consumidor; alarme não
disparado; falso negativo)
8
Valor-p
•
O valor da probabilidade de ocorrer erro tipo I é presente em todos os
softwares da área de Estatística e é chamado valor-p (“p value” em
inglês). Um valor-p alto significa que existe uma perspectiva forte de errar
rejeitando a hipótese nula.
•
•
A montagem de teste de hipótese é o seguinte:
1. Uma questão ou dúvida é levantada sobre uma realidade concreta mas
não totalmente conhecida.
2. As hipóteses nula e alternativa são construídas dando ênfase ao papel
da hipótese nula. A hipótese nula rejeitada significa ou um ganho em
termos de conhecimento científico, ou se for rejeitada erroneamente (erro
tipo I) o custo deste erro seria muito grande.
3. A hipótese nula é rejeitada baseada no valor-p extremamente
pequeno, minimizando a probabilidade de rejeições erradas.
Então, rejeição é resultado de evidências muito fortes,
valor-p muito pequeno.
•
•
9
6.5 Exemplo: testando a estabilidade da linha de
produção. A média do processo está no alvo?
O engenheiro da linha de produção periodicamente (mais ou menos de
hora em hora) levanta amostras de 9 carcaças (n = 9) de motores
elétricos para mensurar o diâmetro interno da carcaça, uma das
características mais importantes do motor. O alvo do diâmetro é 150
mm.
H0: µ = 150 mm
H1: µ > 150 mm
Valor-p, o tamanho da
cauda direita nesse
caso, é igual a 1 0,99997 = 0,00003
O desvio padrão do processo e o das médias são
σ = 0,15 mm; σ/√n = 0,15/3 mm = 0,05 mm
O valor da média da última amostra é = 150,20 mm.
150,20150,00
0,15
 4  Zi
CONCLUSÃO - REJEITAR Ho
9
10
Figura 6.1 – A distância da média amostral (150,20 mm)
em desvios padrão até o alvo do processo (µ = 150 mm).
0,45
0,4
0,35
A área na
cauda à direita
de 150,20 é
0,00003 =
valor-p.
0,3
0,25
0,2
0,15
0,1
0,05
0
H0: µ = 150 mm
4
Zi = desvios padrão
0
150,20
10
4,00
.
150,20150,00
15
 4  Zi
9
11
6.6 Exemplo: teste de hipótese da diferença entre
duas médias
É muito comum na fábrica a comparação entre o desempenho
de duas máquinas ou duas operadoras ou dois setores da
empresa.
Dependendo da área, são chamados ou fatores ou variáveis
ou blocos.
Nesse exemplo, vamos apresentar um teste de hipótese para
decidir se uma máquina velha tem desempenho realmente
inferior a uma máquina nova, mas da mesma categoria.
• H0: μ1 – μ2 = 0
• H1: μ1 – μ2 > 0
12
X
Tabela 6.2 – Máquina nova e máquina velha, duas
amostras, dados codificados de desempenho.
n=
n2 = 8
n1 = 13
Média ( )
Variância (S2)
(1) nova
7998
8004
8002
8004
8003
8003
8004
7997
8005
8003
8002
8000
8002
8002,077
5,744
(2) velha
8002
7994
7998
7997
7997
8003
7995
7997
7997,875
9,839
13
Cálculos a partir da Tabela 6.2
S12 S22
S12 S22
5,744 9,839
S   ; Sc 




n1 n2
n1 n2
13
8
2
c
t

X 1  X 2   1  2 
2
1
2
2
S S

n1 n2


X1  X 2
S12 S22

n1 n2

1,293
8002,077 7997,875

 3,25
1,293
2
 S12
S 22 

 n n 

1
2 

gl 
 12
2
2
 S12 
 S 22 


 n 

n 

 1   2 
n1  1
n2  1
A diferença entre as duas médias se transforma no valor de t de 3,25. O
valor de t é alto considerando que é definida a partir deste valor t uma
cauda fina de valor-p igual a 0,0035. Então, rejeita-se a hipótese nula
de igualdade entre máquinas sem preocupação de que a rejeição possa
ser um engano.
14
Figura 6.2 – A distância da média amostral da diferença
das duas médias em desvios padrão até o valor da
hipótese nula.
0,45
0,4
0,35
A área na
cauda à
direita de
4,202 tem
0,0035 =
valor-p.
0,3
0,25
0,2
0,15
0,1
0,05
0
4
medidas originais
t
H0: μ1 – μ2 = 0
0
4,202
10
3,25
.
15
Simplificações: variâncias iguais e
tamanho das amostras igual
t

X1  X 2
S12 S 22

n1 n2



X1  X 2

2
S
n
gl = 2n - 2
Desde que hoje em dia os cálculos são feitos em
computadores com software amigável e rápido,
prefere-se as formulações mais gerais e menos
dependentes de suposições matemáticas
simplificadoras que facilitam o cálculo manual.
16
dX 12
6.7 Exemplo: teste de hipótese de diferença
entre duas médias com amostras pareadas
Vendas em lojas com ou sem propaganda
R$ milhares
lojas sem
lojas com
Diferença
(X1)
(X2)
(d)
33
43
10
40
39
-1
26
33
7
19
22
3
31
36
5
27
34
7
média
= 29,3
= 34,5
= 5,17
desvio
S1 = 7,12
S2 = 7,12
Sd = 3,8
padrão

t
d   d
S d2
n
 
d
S d2
n

5,17
 3,32
14,44
6
H0: μd = 0
H1: μd > 0
valor-p = 0,01
17
6.8 Exemplo: teste de hipótese para a normalidade das
variáveis – Bera-Jarque
Ho: A variável segue a distribuição normal;
H1: A variável segue outra distribuição.
A fundamentação estatística utilizada como base do teste de
Bera-Jarque é dada pelas equações comentadas abaixo.
 ass 2 (curt - 3) 2 
+
N

24
6


ass =
curt =

 χ 22  6,0
3
/N
μ)
(x
 i
(x i - μ) 2 /N

;

3
4
/N
μ)
(x
 i
(x i - μ) 2 /N

4
.
18
Assimetria
M3 =
 (xi
- μ)
3
N
ass =
M3
σ3
Na distribuição normal, ass = 0
19
Curtose
M4 =
4
(x
-μ)

N
M4
curt =
σ4
Na distribuição normal, curt = 3
20
Tabela 6.4 – Estatística descritiva dos dados da
figura 3.1
tempo
95,41
58,17
123,21
Média
Mediana
Desvio padrão
Variância da
amostra
15181,74
Curtose (curt)
31,58
Assimetria
(ass)
4,50
Intervalo
1448,39
Mínimo
2,60
Máximo
1450,99
Contagem
1000
ln(tempo)
10,05
10,06
1,03
1,05
0,01
-0,09
6,33
6,95
13,28
1000
 ass2 (curt - 3)2 
2
N
+
  χ 2  6,0
24
 6

 4, 52 31, 582 
1000 

  6, 0
24 
 6
valor p = 0,000
A hipótese nula pode ser rejeitada com muita
segurança, concluindo que a distribuição não é normal.
21
Vamos prosseguir com o mesmo cálculo com
os valores transformados da coluna ln(tempo).
 0, 092 0, 012 
1000 

  1, 237
24 
 6
valor p = 0,539
O valor da estatística de BeraJarque baixou para muito menos
que 6,0 indicando a não rejeição da
hipótese nula de normalidade dos
dados transformados pelo logaritmo.
22
6.9 Teste de hipótese visual de normalidade
299,62
299,65
299,72
299,72
299,72
299,74
299,74
299,74
299,75
299,76
299,76
299,76
299,76
299,76
299,77
299,78
299,78
299,79
299,79
299,79
299,80
299,80
299,80
299,80
299,80
299,81
299,81
299,81
299,81
299,81
299,81
299,81
299,81
299,81
299,81
299,82
299,82
299,83
299,83
299,84
299,84
299,84
299,84
299,84
299,84
299,84
299,84
299,85
299,85
299,85
299,85
299,85
299,85
299,85
299,85
299,86
299,86
299,86
299,87
299,87
299,87
299,87
299,88
299,88
299,88
299,88
299,88
299,88
299,88
299,88
299,88
299,88
299,89
299,89
299,89
Média
Desvio padrão =
curt =
ass =
299,90
299,90
299,91
299,91
299,92
299,93
299,93
299,94
299,94
299,94
299,95
299,95
299,95
299,96
299,96
299,96
299,96
299,97
299,98
299,98
299,98
300,00
300,00
300,00
300,07
299,85
0,08
0,34
-0,02
Tabela 6.5 – 100 mensurações da
velocidade da luz
Os dados, n = 100, são
das famosas experiências
do Albert Abraham
Michelson para medir a
velocidade da luz em mil
quilômetros por segundo
H0: Os dados
seguem a
distribuição normal
H1: não seguem
23
Figura 6.6 – Comparação dados observados e
teóricos.
Lembre-se do
capítulo 3 que a
distribuição
normal depende
de apenas dois
parâmetros, a
média e o desvio
padrão. Com os
valores dos dois
parâmetros,
podemos gerar
dados que
seguem a
distribuição
normal
24
Explicação da figura 6.6
• Para gerar dados teóricos usa-se a média de 299,85 e o desvio
padrão 0,08 da tabela 6.5.
• Como foi colocado em cima, se os dados observados tiverem
características da distribuição normal eles não devem desviar
dos valores teóricos.
• Isso pode ser constatado graficamente, na figura 6.6.
• Veja nesse gráfico que os dados teóricos (eixo vertical) e
observados (eixo horizontal) caem numa linha reta quase
perfeita.
• Não há nenhum dado ou grupo de dados em posição de
anomalia severa e podemos concluir que os dados observados
seguem a distribuição normal.
• Este tipo de teste visual é muito comum no chão de
fábrica, em função da facilidade de uso e sua presença em
quase todos os softwares da área, mesmo admitindo a sua
subjetividade e portanto a vulnerabilidade a errar.
25
6.10 Teste de hipótese com atributos, a distribuição
binomial e a aceitação por amostragem.
• Um fabricante de parafusos de alta precisão para instrumentos cirúrgicos fornece
lotes de tamanho 100.000 impossibilitando qualquer tentativa de inspeção de
100%.
• No contrato com os clientes, o fabricante garante, seguindo o histórico da fábrica,
que no máximo 0,4% do lote não é conforme.
• Ele quer fazer uma inspeção do lote no momento da saída da fábrica, mas não
tem recursos suficientes e nem o tempo disponível para inspeções detalhadas de
amostras grandes que aproximam o tamanho do lote.
• Depois de discussões com os engenheiros sobre os custos e o tempo disponível,
o tamanho da amostra foi fixado em 500 elementos. As hipóteses são as
seguintes:
H0: p = 0,004 (lote bom)
H1: p > 0,004 (lote não conforme)
Já vimos na tabela 6.1 que a rejeição da hipótese nula verdadeira nesse caso é
chamada de risco de produtor (fornecedor). Segundo as determinações dos
engenheiros, a amostra de tamanho 500 é tirada do lote e aparecem 3 parafusos
ruins na amostra . Esperamos na média 2 parafusos não-conformes em amostras
de 500 (0,004*500 = 2), mas apareceram 3.
Com esse resultado, o lote é rejeitado?Tudo vai depender do valor-p.
26
Figura 6.7 – Probabilidades para certo número de defeituosas
com p = 0,004 e tamanho da amostra = 500.
0,3
0,25
0,2
0,15
0,1
0,05
0
0
1
2
3
4
5
6
7
número de peças defeituosas
É esperado com probabilidade de 27% dois parafusos
defeituosos na amostra de 500.
27
Cálculos da figura 6.7
n!
n d
d


P (d ) 
p 1 p
d!(n  d)!
500!
P(2) 
0, 0042 (1  0, 004)100  2  0,27
2!(500  2)!
P(3) 
500!
0, 0043 (1  0, 004)100  3  0,18
3!(500  3)!
Em nosso exemplo, o valor-p é o acúmulo de probabilidades
para 3 e mais peças defeituosas, 18% + 9% + 4% + 1% + ... >
32%. O valor-p de 32% não permite a rejeição da hipótese nula
e o lote passa como aceitável pela inspeção por amostragem.
PL(100.000; 500; 5; 6)
NBR 5426 - Planos de amostragem e procedimentos na inspeção por
atributos. Associação Brasileira de Normas Técnicas - ABNT.
28
Download

a hipótese nula é uma - Controle Estatístico de Processo