CAPÍTULO 6 - Teste de hipótese Sumário 6.1 Introdução 6.2 Hipótese nula 6.3 Hipótese alternativa H1 6.4 Erros tipo I e tipo II: escolhendo entre a hipótese nula e alternativa 6.5 Exemplo: testando a estabilidade da linha de produção. A média do processo está no alvo? 6.6 Exemplo: teste de hipótese da diferença entre duas médias 6.7 Exemplo: teste de hipótese de diferença entre duas médias com amostras pareadas 6.8 Exemplo: teste de hipótese para a normalidade das variáveis 6.9 Teste de hipótese visual de normalidade 6.10 Teste de hipótese com atributos, a distribuição binomial e a aceitação por amostragem. 6.11 Exercícios e discussão. 6.12 Referências 1 6.1 Introdução • • • • Teoricamente, o teste de hipótese e o intervalo de confiança são muito parecidos em termos dos seus objetivos de compreender (a palavra técnica é inferir) determinadas características da população através de amostras representativas desta população. A hipótese é uma conjectura (presunção, proposição, suposição) a partir do pensamento do pesquisador que pode ou não pode ser verdadeira na realidade. Geralmente, hipóteses vêm de uma teoria científica ou da engenharia ou até mesmo da própria experiência, mas ainda não tem comprovações muito rigorosas. As comprovações estatísticas podem ocorrer quando a hipótese é bem definida e passível de mensurações. decisões erradas. 2 6.2 Hipótese nula – Ho • Alguns séculos atrás, a hipótese nula muito disputada era que a terra é plana. Com o trabalho de muitos cientistas da época a ciência avançou enquanto as evidências foram acumuladas e a hipótese nula rejeitada. • Quer dizer, anular a hipótese nula é a meta do cientista, pois é assim que novas descobertas são produzidas. • Geralmente, desde que a hipótese nula é uma “verdade” científica aceita no momento, a sua derrubada significa que conhecimento velho é repensado e novos conhecimentos se instalam para tomar conta do cenário. 3 Continuação da 6.2 Hipótese nula – Ho • • • • • Quando o procedimento de testar hipóteses foi originalmente lançado pelo Inglês R. A. Fisher no início do século 20, ele estava preocupado em diferenciar dois tipos de eventos na base da metodologia cientifica. Os que ocorreram apenas por puro acaso e os eventos que apareciam como fruto de algum grau de causalidade com outros fatores. Por exemplo, se uma moeda foi jogada obtendo dez vezes seguidas cara, qual seria o procedimento estatístico para testar a suposição de a moeda ser desonesta e o resultado não simplesmente ser devido ao acaso? Na área de saúde, testes laboratoriais raramente mostram igualdade exata entre tratamentos diferenciados, mas para comprovar uma diferença contundente entre tratamentos e julgar com confiança que um tratamento é superior, quanta diferença precisa aparecer nos resultados para indicar diferenças decisivas no tratamento? Assim, na presença de certa ignorância sobre o assunto sob investigação e falta de informação contundente para ajudar na tomada de decisão, a hipótese nula apela pela igualdade ou por efeito zero ou nulo. 4 Continuação da 6.2 Hipótese nula – Ho • • • • Finalmente, a hipótese nula é definida pelo risco de errar na sua rejeição e causar enormes prejuízos. O caso clássico é a hipótese nula de que o réu é inocente. Veja que o prejuízo de cometer o erro de culpar a pessoa inocente é enorme. O custo de errar rejeitando a hipótese nula é muito grande e deve ser evitado. Portanto, o ato de rejeição é tomado com muita cautela e com evidências contundentes e muito claras. Em ambientes empresariais a situação é muito parecida. A hipótese nula segue os exemplos: o lote é caracterizado por conformidades (como se o lote fosse inocente até provado culpado); a linha de produção se mostra estável e sob controle; o funcionário trabalha com desempenho adequado. Nesses casos, se a hipótese nula for rejeitada, então os resultados são muito sérios, como a parada forçada da linha de produção ou a demissão de funcionário. Se a rejeição for errada, o custo de errar é extremamente alto. 5 6.3 Hipótese alternativa H1 • A hipótese alternativa é o contrário da hipótese nula: o réu é culpado, o lote é não conforme, a moeda não é honesta. • Há uma complicação quando as possíveis hipóteses alternativas não são únicas, mas sim existem várias opções. No caso de comparar o desempenho de duas máquinas, a hipótese alternativa pode tomar duas possibilidades, uma que as duas máquinas são simplesmente desiguais e a outra que uma máquina específica (talvez mais nova) é melhor que a outra velha e de tecnologia superada. • A hipótese alternativa de desigualdade é chamada de bicaudal e a hipótese alternativa que favorece um único lado da questão é chamada de uni caudal, assunto de próxima sessão do capítulo. 6 6.4 Erros tipo I e tipo II: escolhendo entre a hipótese nula e alternativa Existem dois tipos de erro em torno da decisão de optar pela hipótese nula ou pela hipótese alternativa. O pesquisador pode errar no ato de rejeitar uma hipótese nula verdadeira cometendo o erro tipo I, ou pelo contrário pode errar rejeitando a hipótese alternativa verdadeira cometendo o erro tipo II. 7 Tabela 6.1 – Teste de hipótese e erros tipo I e II. Pesquisador opta entre estados da hipótese nula (H0: doença existe; lote é bom; estacionamento é seguro; réu é inocente) Estados reais da hipótese nula na população Rejeita (negativo) Não rejeita (positivo) Verdadeiro Erro tipo I (erro do produtor; alarme falso; falso negativo) OK (sensibilidade) Falso OK (especificidade; poder do teste) Erro tipo II (erro do consumidor; alarme não disparado; falso positivo) 8 Valor-p • O valor da probabilidade de ocorrer erro tipo I é presente em todos os softwares da área de Estatística e é chamado valor-p (“p value” em inglês). Um valor-p alto significa que existe uma perspectiva forte de errar rejeitando a hipótese nula. • • A montagem de teste de hipótese é o seguinte: 1. Uma questão ou dúvida é levantada sobre uma realidade concreta mas não totalmente conhecida. 2. As hipóteses nula e alternativa são construídas dando ênfase ao papel da hipótese nula. A hipótese nula rejeitada significa ou um ganho em termos de conhecimento científico, ou se for rejeitada erroneamente (erro tipo I) o custo deste erro seria muito grande. 3. A hipótese nula é rejeitada baseada no valor-p extremamente pequeno, minimizando a probabilidade de rejeições erradas. Então, rejeição é resultado de evidências muito fortes, valor-p muito pequeno. • • 9 6.5 Exemplo: testando a estabilidade da linha de produção. A média do processo está no alvo? O engenheiro da linha de produção periodicamente (mais ou menos de hora em hora) levanta amostras de 9 carcaças (n = 9) de motores elétricos para mensurar o diâmetro interno da carcaça, uma das características mais importantes do motor. O alvo do diâmetro é 150 mm. H0: µ = 150 mm H1: µ > 150 mm O desvio padrão do processo e o das médias são σ = 0,15 mm; σ/√n = 0,15/3 mm = 0,05 mm O valor da média da última amostra é = 150,20 mm. 150,20150,00 0,15 9 4 Zi Valor-p, o tamanho da cauda direita nesse caso, é igual a 1 - 0,99997 = 0,00003 CONCLUSÃO - REJEITAR Ho 10 Figura 6.1 – A distância da média amostral (150,20 mm) em desvios padrão até o alvo do processo (µ = 150 mm). 0,45 0,4 0,35 A área na cauda à direita de 150,20 é 0,00003 = valor-p. 0,3 0,25 0,2 0,15 0,1 0,05 0 H0: µ = 150 mm 4 Zi = desvios padrão 0 150,20 10 4,00 . 150,20150,00 15 4 Zi 9 11 6.6 Exemplo: teste de hipótese da diferença entre duas médias É muito comum na fábrica a comparação entre o desempenho de duas máquinas ou duas operadoras ou dois setores da empresa. Dependendo da área, são chamados ou fatores ou variáveis ou blocos. Nesse exemplo, vamos apresentar um teste de hipótese para decidir se uma máquina velha tem desempenho realmente inferior a uma máquina nova, mas da mesma categoria. • H0: μ1 – μ2 = 0 • H1: μ1 – μ2 > 0 12 X Tabela 6.2 – Máquina nova e máquina velha, duas amostras, dados codificados de desempenho. n= n2 = 8 (1) nova (2) velha 7998 8002 8004 7994 8002 7998 8004 7997 8003 7997 8003 8003 8004 7995 7997 7997 8005 8003 8002 8000 n1 = 13 8002 Média ( ) 8002,077 7997,875 Variância (S2) 5,744 9,839 13 Cálculos a partir da Tabela 6.2 S12 S22 S12 S22 5,744 9,839 S ; Sc n1 n2 n1 n2 13 8 2 c t X 1 X 2 1 2 2 1 2 2 S S n1 n2 X1 X 2 S12 S22 n1 n2 1,293 8002,077 7997,875 3,25 1,293 2 S12 S 22 n n 1 2 gl 12 2 2 S12 S 22 n n 1 2 n1 1 n2 1 A diferença entre as duas médias se transforma no valor de t de 3,25. O valor de t é alto considerando que é definida a partir deste valor t uma cauda fina de valor-p igual a 0,0035. Então, rejeita-se a hipótese nula de igualdade entre máquinas sem preocupação de que a rejeição possa ser um engano. 14 Figura 6.2 – A distância da média amostral da diferença das duas médias em desvios padrão até o valor da hipótese nula. 0,45 0,4 0,35 A área na cauda à direita de 4,202 tem 0,0035 = valor-p. 0,3 0,25 0,2 0,15 0,1 0,05 0 4 medidas originais t H0: μ1 – μ2 = 0 0 4,202 10 3,25 . 15 Simplificações: variâncias iguais e tamanho das amostras igual t X1 X 2 S12 S 22 n1 n2 X1 X 2 2 S n gl = 2n - 2 Desde que hoje em dia os cálculos são feitos em computadores com software amigável e rápido, prefere-se as formulações mais gerais e menos dependentes de suposições matemáticas simplificadoras que facilitam o cálculo manual. 16 dX 12 6.7 Exemplo: teste de hipótese de diferença entre duas médias com amostras pareadas Vendas em lojas com ou sem propaganda R$ milhares lojas sem lojas com Diferença (X1) (X2) (d) 33 43 10 40 39 -1 26 33 7 19 22 3 31 36 5 27 34 7 média = 29,3 = 34,5 = 5,17 desvio S1 = 7,12 S2 = 7,12 Sd = 3,8 padrão t d d d S n S n 2 d 2 d 5,17 3,32 14,44 6 H0: μd = 0 H1: μd > 0 valor-p = 0,01 17 6.8 Exemplo: teste de hipótese para a normalidade das variáveis – Bera-Jarque Ho: A variável segue a distribuição normal; H1: A variável segue outra distribuição. A fundamentação estatística utilizada como base do teste de Bera-Jarque é dada pelas equações comentadas abaixo. ass 2 (curt - 3) 2 + N 24 6 ass = curt = χ 22 6,0 3 /N μ) (x i (x i - μ) 2 /N ; 3 4 /N μ) (x i (x i - μ) 2 /N 4 . 18 Assimetria M3 = 3 (x μ) i N ass = M3 σ3 Na distribuição normal, ass = 0 19 Curtose M4 = 4 (x -μ) N M4 curt = 4 σ Na distribuição normal, curt = 3 20 Tabela 6.4 – Estatística descritiva dos dados da figura 3.1 tempo 95,41 58,17 123,21 Média Mediana Desvio padrão Variância da amostra 15181,74 Curtose (curt) 31,58 Assimetria (ass) 4,50 Intervalo 1448,39 Mínimo 2,60 Máximo 1450,99 Contagem 1000 ln(tempo) 10,05 10,06 1,03 1,05 0,01 -0,09 6,33 6,95 13,28 1000 ass2 (curt - 3)2 2 N + χ 2 6,0 24 6 4, 52 31, 582 1000 6, 0 24 6 valor p = 0,000 A hipótese nula pode ser rejeitada com muita segurança, concluindo que a distribuição não é normal. 21 Vamos prosseguir com o mesmo cálculo com os valores transformados da coluna ln(tempo). 0, 092 0, 012 1000 1, 237 24 6 valor p = 0,539 O valor da estatística de Bera-Jarque baixou para muito menos que 6,0 indicando a não rejeição da hipótese nula de normalidade dos dados transformados pelo logaritmo. 22 6.9 Teste de hipótese visual de normalidade 299,62 299,65 299,72 299,72 299,72 299,74 299,74 299,74 299,75 299,76 299,76 299,76 299,76 299,76 299,77 299,78 299,78 299,79 299,79 299,79 299,80 299,80 299,80 299,80 299,80 299,81 299,81 299,81 299,81 299,81 299,81 299,81 299,81 299,81 299,81 299,82 299,82 299,83 299,83 299,84 299,84 299,84 299,84 299,84 299,84 299,84 299,84 299,85 299,85 299,85 299,85 299,85 299,85 299,85 299,85 299,86 299,86 299,86 299,87 299,87 299,87 299,87 299,88 299,88 299,88 299,88 299,88 299,88 299,88 299,88 299,88 299,88 299,89 299,89 299,89 Média Desvio padrão = curt = ass = 299,90 299,90 299,91 299,91 299,92 299,93 299,93 299,94 299,94 299,94 299,95 299,95 299,95 299,96 299,96 299,96 299,96 299,97 299,98 299,98 299,98 300,00 300,00 300,00 300,07 299,85 0,08 0,34 -0,02 Tabela 6.5 – 100 mensurações da velocidade da luz Os dados, n = 100, são das famosas experiências do Albert Abraham Michelson para medir a velocidade da luz em mil quilômetros por segundo H0: Os dados seguem a distribuição normal H1: não seguem 23 Figura 6.6 – Comparação dados observados e teóricos. Lembre-se do capítulo 3 que a distribuição normal depende de apenas dois parâmetros, a média e o desvio padrão. Com os valores dos dois parâmetros, podemos gerar dados que seguem a distribuição normal 24 Explicação da figura 6.6 • Para gerar dados teóricos usa-se a média de 299,85 e o desvio padrão 0,08 da tabela 6.5. • Como foi colocado em cima, se os dados observados tiverem características da distribuição normal eles não devem desviar dos valores teóricos. • Isso pode ser constatado graficamente, na figura 6.6. • Veja nesse gráfico que os dados teóricos (eixo vertical) e observados (eixo horizontal) caem numa linha reta quase perfeita. • Não há nenhum dado ou grupo de dados em posição de anomalia severa e podemos concluir que os dados observados seguem a distribuição normal. • Este tipo de teste visual é muito comum no chão de fábrica, em função da facilidade de uso e sua presença em quase todos os softwares da área, mesmo admitindo a sua subjetividade e portanto a vulnerabilidade a errar. 25 6.10 Teste de hipótese com atributos, a distribuição binomial e a aceitação por amostragem. • Um fabricante de parafusos de alta precisão para instrumentos cirúrgicos fornece lotes de tamanho 100.000 impossibilitando qualquer tentativa de inspeção de 100%. • No contrato com os clientes, o fabricante garante, seguindo o histórico da fábrica, que no máximo 0,4% do lote não é conforme. • Ele quer fazer uma inspeção do lote no momento da saída da fábrica, mas não tem recursos suficientes e nem o tempo disponível para inspeções detalhadas de amostras grandes que aproximam o tamanho do lote. • Depois de discussões com os engenheiros sobre os custos e o tempo disponível, o tamanho da amostra foi fixado em 500 elementos. As hipóteses são as seguintes: H0: p = 0,004 (lote bom) H1: p > 0,004 (lote não conforme) Já vimos na tabela 6.1 que a rejeição da hipótese nula verdadeira nesse caso é chamada de risco de produtor (fornecedor). Segundo as determinações dos engenheiros, a amostra de tamanho 500 é tirada do lote e aparecem 3 parafusos ruins na amostra . Esperamos na média 2 parafusos não-conformes em amostras de 500 (0,004*500 = 2), mas apareceram 3. Com esse resultado, o lote é rejeitado?Tudo vai depender do valor-p. 26 Figura 6.7 – Probabilidades para certo número de defeituosas com p = 0,004 e tamanho da amostra = 500. 0,3 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 7 número de peças defeituosas É esperado com probabilidade de 27% dois parafusos defeituosos na amostra de 500. 27 Cálculos da figura 6.7 n! n d d P (d ) p 1 p d!(n d)! 500! P(2) 0, 0042 (1 0, 004)100 2 0,27 2!(500 2)! P(3) 500! 0, 0043 (1 0, 004)100 3 0,18 3!(500 3)! Em nosso exemplo, o valor-p é o acúmulo de probabilidades para 3 e mais peças defeituosas, 18% + 9% + 4% + 1% + ... > 32%. O valor-p de 32% não permite a rejeição da hipótese nula e o lote passa como aceitável pela inspeção por amostragem. PL(100.000; 500; 5; 6) NBR 5426 - Planos de amostragem e procedimentos na inspeção por atributos. Associação Brasileira de Normas Técnicas - ABNT. 28