1 PUCRS –FAMAT – DEPTº DE ESTATÍSTICA Estimação e Teste de Hipótese- Prof. Sérgio Kato 1. Estimação: O objetivo da inferência estatística é obter conclusões a respeito de populações através de uma amostra extraída dessa população. Uma variável aleatória é caracterizada por sua distribuição de probabilidade. Em alguns casos, no controle estatístico da qualidade, por exemplo, a distribuição de probabilidade é usada para descrever ou modelar alguma característica de qualidade, como por exemplo, uma dimensão crítica de um produto ou a proporção de defeituosos de um processo de manufatura. Assim, estamos interessados em fazer inferências a respeito dos parâmetros da distribuição de probabilidade. Como estes parâmetros quase sempre são desconhecidos, iremos estimá-los a partir dos dados de uma amostra. A Estatística Inferencial compreende a Estimação e os Testes de hipóteses. A estimação é um processo que consiste em utilizar dados amostrais (retirados segundo amostragem probabilística) a fim de obter conclusões sobre os parâmetros da população que são desconhecidos. A estimação pode ser feita por ponto ou por intervalo. Principais estimadores por ponto: Parâmetro µ Estimador σ2 σ S2 π X S P ESTIMAÇÃO POR INTERVALO DE CONFIANÇA A estimação por intervalo nos fornece um intervalo de valores centrados na estatística amostral, no qual julgamos estar o parâmetro com uma probabilidade conhecida de erro. Vimos que para uma população podemos retirar K amostras diferentes para um determinado tamanho de amostra n. Cada amostra possível tem um valor como estimativa e cada estimativa fornecerá um intervalo diferente para o parâmetro. Assim, temos uma probabilidade (1-α) de que o valor do parâmetro esteja contido no intervalo estimado, chamado nível de confiança. Por esta razão, chamamos de intervalos de confiança. O intervalo de confiança dependerá da distribuição amostral do estimador que foi utilizado para estimar o parâmetro. 2 ESTIMAÇÃO POR INTERVALO PARA A MÉDIA POPULACIONAL Sabemos que as médias se distribuem segundo uma distribuição normal com média µ e desvio-padrão σ quando estas médias provêm de uma distribuição n populacional normal ou quando o tamanho da amostra é suficientemente grande. Quando retiramos uma amostra, a média X é uma das muitas médias possíveis de se obter de uma população. Assim, por exemplo, se adotarmos um nível de confiança de 95%, poderemos dizer que 95% das médias amostrais estarão dentro de 1,96 erros padrão. Sabendo que o intervalo de confiança tem centro na média amostral, é determinado da seguinte maneira: [X ± ε ] onde ε=z σ n Quando n é pequeno e σ desconhecido, usamos a distribuição t-student com n-1 graus de liberdade, sendo ε = t. s n CASO 1: INTERVALO DE CONFIANÇA PARA MÉDIA COM VARIÂNCIA POPULACIONAL CONHECIDA. Para uma variável aleatória X normalmente distribuída, com média 2 desconhecida e variância conhecida σ , uma amostra aleatória é retirada e calculase X . O intervalo de confiança com nível de confiança 1 − α é dado por: X − Zα . 2 σ n ≤ µ ≤ X + Zα . 2 σ = X ± Zα . n n 2 σ 2 Exemplo: Uma máquina enche pacotes de café com uma variância igual a 100 g . Ela estava regulada para enchê-los com 500g, em média. Agora ela se desregulou, e queremos saber qual a nova média µ . Uma amostra de 25 pacotes apresentou média igual a 485g. Estime a média por intervalo de 95% de confiança. R: [481,08; 488,92] 3 CASO 2: INTERVALO DE CONFIANÇA PARA MÉDIA DE UMA DISTRIBUIÇÃO 2 NORMAL COM VARIÂNCIA σ DESCONHECIDA. Suponha que X seja uma variável aleatória de uma distribuição normal com 2 média µ desconhecida e variância σ desconhecida, retira-se um amostra aleatória e calcula-se a média amostral X e a variância amostral t-Student tem-se: s 2 . Utilizando a distribuição s s s X − tα ,n−1 . ≤ µ ≤ X + tα ,n−1 . = X ± tα ,n−1 . n n n 2 2 2 OBS: Quando n for grande, podemos utilizar a distribuição normal. Exemplo: Um pesquisador está estudando a resistência de um determinado material sob determinadas condições. Ele sabe que essa variável é normalmente distribuída. Foi retirado uma amostra de 9 unidades 4,9 ; 7,0 ; 8,1; 4,5 ; 5,6; 6,8 ; 7,2 ; 5,7; 6,2. a) Determine um intervalo de 90% de confiança para a resistência média populacional. b) Determine um intervalo de 95% de confiança. para a resistência média populacional. c) Verifique os resultados de a) e b), e conclua a respeito do erro de estimação e o nível de confiança. R: a) [5,50; 6,94] b) [5,33; 7,11] c) Quanto maior o nível de confiança maior é o intervalo e menor é a precisão CASO 3: ESTIMAÇÃO POR INTERVALO DE CONFIANÇA PARA A PROPORÇÃO Para a estimativa pontual da proporção ( p̂ ), é utilizada a distribuição Binomial, onde p̂ é a razão entre o número de sucesso (itens que apresentam uma determinada característica) e o número total da amostra (n). A estimativa intervalar da proporção populacional (π), para grandes amostras, é simétrica em relação à proporção amostral, tal como ocorre com o intervalo para a média populacional em relação a média amostral. A principal diferença entre as estimativa de médias e de proporções está nos desvios padrões das distribuições amostrais. O desvio padrão se baseia na distribuição binomial e é dada por: σ pˆˆ = pˆ .(1 − pˆ ) n Se n é grande e p>=0,1, então a aproximação Normal para Binomial pode ser usada, resultando: pˆ − Z α . 2 pˆ .(1 − pˆ ) pˆ .(1 − pˆ ) pˆ .(1 − pˆ ) ≤ π ≤ pˆ + Z α . = pˆ ± Z α . 2 2 n n n Exemplo: De 80 entrevistados, 48 acreditam que o dólar estará com o preço mais baixo daqui a um mês. Construa um intervalo de 95% de confiança para a verdadeira proporção de pessoas que acreditam que o dólar estará abaixo do valor atual. R: [0,4926; 0,7074] 4 LISTA DE ESTIMAÇÃO POR INTERVALO DE CONFIANÇA 1. O gerente de um banco em uma cidade pequena gostaria de determinar a proporção de seus correntistas que recebem salários semanalmente. Determine uma estimativa, com 90% de confiança, da proporção, na população, de correntistas do banco que são pagos por semana, se uma amostra de 145 apresentou 29 que recebiam por semana. R: [0,1455; 0,2645]. 2. Uma moeda foi jogada 400 vezes, obtendo-se 136 caras. Construa um intervalo de 95% e 99% de confiança para o resultado cara nessa moeda. R: [0,2936; 0,3864] e [0,2789; 0,4011] 3. Em uma pesquisa realizada com 200 habitantes de uma cidade, 40 se mostraram favoráveis a pena de morte. Estime, por ponto e por intervalo de 99% de confiança para a verdadeira proporção de moradores favoráveis a pena de morte nesta cidade. R: [0,1270; 0,2730] 4. A distribuição dos diâmetros de parafusos produzidos por uma certa máquina é normal, com desvio padrão igual a 0,17mm. Uma amostra de 6 parafusos retiradas ao acaso da produção apresentou os seguintes diâmetros (em mm): 25,4; 25,2; 25,6; 25,3; 25,0; 25,4. Estime a média da população e construa um intervalo de 95% de confiança para a média populacional, interprete estes resultados. R: [25,18; 25,45] 5. A largura interna de um entalhe usinado em um pistão apresenta variância igual a 0,0015. Uma amostra aleatória de 12 pistões indicou média igual a 12,258mm. Construa um intervalo de 99% de confiança para a largura média do entalhe. R: [12,23; 12,29] 6. Solicitou-se a uma amostra de 100 estudantes de um colégio que anotassem suas despesas com alimentação e bebidas no período de uma semana. O resultado foi uma despesa média de R$60,00 e desvio padrão de 5,00. Construa o intervalo de 98% de confiança para a despesa média de todos os alunos do colégio. R: [58,835; 61,165] 7. Em uma amostra de 4 leituras de um comercial de 30 segundos, um locutor levou em média 29,2 segundos com variância de 5,76 segundos. Construa o intervalo de 90% de confiança para a média. R: [26,3764; 32,0236] 8. A Industrial ABC S/A, fabricante de lâmpadas elétricas, desejando conhecer o tempo médio de duração de seu produto, selecionou uma amostra aleatória de 10 unidades, apurando os seguintes valores, em horas: 220 – 249 - 236 – 224 – 251 – 218 – 232 – 254 – 238 – 278. Determine um intervalo de 95% de confiança para a estimação desejada. R. [ 226,74 ; 253,20] 9. Uma pesquisa em 17 cinemas de São Paulo, indicou que o ingresso custava, em média, US$ 5,50, com um desvio padrão de US$ 0,50. Com base nesses resultados, determine a estimativa do preço médio dos ingresso de cinema em São Paulo, em nível de confiança de 95% para a estimativa; R. [5,24 ; 5,76] 10. O Secretário de Saúde do Império Romano propôs-se a melhorar o atendimento médico à plebe. Como não há dinheiro para contratar mais médicos, ele decidiu tornar o atendimento mais eficiente. Para estimar o tempo médio gasto em cada consulta ele sorteou 64 pacientes de um hospital público aleatoriamente escolhido: essa amostra indicou que o tempo médio de atendimento era de 10 minutos, com um desvio padrão de 3 minutos. Com base nisso, determine o tempo médio de atendimento a um nível de confiança de 90% . R. [9,38 ; 10,62] 5 2. Teste de Hipótese: Trata-se de uma técnica para se fazer inferência estatística, ou seja, a partir de um teste de hipóteses, realizado com os dados amostrais, pode-se inferir sobre a população. No caso das inferências através do Intervalo de Confiança, busca-se “cercar” o parâmetro populacional desconhecido. Aqui formula-se uma hipótese quanto ao valor do parâmetro, e pelos elementos amostrais faz-se um teste que indicará a aceitação ou rejeição da hipótese formulada. Hipótese Estatística: Hipótese, em estatística, é uma suposição formulada a respeito dos parâmetros de uma distribuição de probabilidade de uma ou mais populações. Esta hipótese será testada com base em resultados amostrais, sendo aceita ou rejeitada. Ela somente será rejeitada se o resultado da amostra for claramente improvável de ocorrer quando a hipótese for verdadeira. Consideremos Ho a hipótese nula, e H1 a hipótese alternativa a ser testada (complementar de Ho). O teste pode levar a aceitação ou rejeição de Ho que corresponde, respectivamente à negação ou afirmação de H1. Exemplo: Suponhamos que uma indústria compre de certo fabricante parafusos cuja a carga média de ruptura por tração é especificada em 50 Kg, o desvio-padrão das cargas de ruptura é suposto ser igual a 4 Kg. O comprador deseja verificar se um grande lote de parafusos recebidos deve ser considerado satisfatório, no entanto existe alguma razão para se temer que a carga média de ruptura seja eventualmente inferior à 50 Kg. Se for superior não preocupa o comprador pois neste caso os parafusos seriam de melhor qualidade que a especificada. Neste exemplo, a hipótese do comprador é que a carga média da ruptura é inferior a 50 Kg. O comprador pode ter o seguinte critério para decidir se compra ou não o lote: Resolve tomar uma amostra aleatória simples de 25 parafusos e submetê-los ao ensaio de ruptura. Se a carga média de ruptura observada nesta amostra for maior que 48 Kg ele comprará o lote, caso contrário se recusará a comprar. PASSOS PARA REALIZAR UM TESTE DE HIPÓTESE 1. HIPÓTESES: Hipótese Nula (H0): É um valor suposto para um parâmetro. No exemplo acima, H0:µ=50. Hipótese Alternativa(H1) : É uma hipótese que contraria a hipótese nula, complementar de H0, no exemplo, H1: µ <50. ou seja, no exemplo, Ho: µ = 50 H1: µ < 50 6 Supondo H0 verdadeira, X da amostra aleatória de 25 valores será uma v.a com média também de 50 Kg e desvio padrão No exemplo, σ x = σ . n 4 = 0,8 25 Sabemos que X é aproximadamente normal, então podemos calcular a probabilidade de obtermos um valor inferior a 48. P( X <48) = P( x−µ σ n < 48 − 50 ) = (P(Z<-2,5) = 0,0062 0,8 Existe pois uma probabilidade de 0,0062 de que, mesmo sendo a hipótese H0 verdadeira, X assuma um valor na região que leva à rejeição de H0, conforme critério adotado anteriormente. 2. NÍVEL DE SIGNIFICÂNCIA DE UM TESTE: É a probabilidade máxima de rejeitar Ho. Se, por exemplo, utilizarmos o nível de significância de 5%, a hipótese nula (Ho) será rejeitada somente se o resultado da amostra for tão diferente do valor suposto que uma diferença igual ou maior ocorreria com uma probabilidade máxima de 0,05. Na prática, o valor de α é fixo. (Geralmente α = 0,01 ou 0,05 ou 0,10.) No exemplo, fixado α = 0,05, levaria à rejeição de Ho, pois 0,0062 < 0,05. Uma outra maneira de tomar-se uma decisão é comparar o valor tabelado com a estatística do teste. 3. ESTATÍSTICA DO TESTE: É o valor calculado a partir da amostra que será usado na tomada de decisão. No exemplo, Zcalc = -2,5. Zcalc = valor da estimativa - valor alegado para o parâmetro desvio-padrão do estimador 7 4. REGIÃO CRÍTICA: Região onde os valores da estatística dos teste levam à rejeição da hipótese nula. A sua área é igual ao nível de significância, e sua direção é a mesma da hipótese alternativa. Unilateral à esquerda: H0: µ = 50 H1: µ < 50 Unilateral à direita: H0: µ = 50 H1: µ > 50 Bilateral: H0: µ = 50 H1: µ ≠ 50 5. REGRA DE DECISÃO: Se o valor da estatística do teste cair dentro da região crítica, rejeita-se H0. Ao rejeitar a hipótese nula (H0) existe uma forte evidência de sua falsidade. Ao contrário, quando aceitamos, dizemos que não houve evidência amostral significativa no sentido de permitir a rejeição de Ho. 6. CONCLUSÃO: O que significa, na situação de pesquisa, aceitar ou rejeitar Ho. 8 TIPOS DE ERROS Pelo fato de estarmos usando resultados amostrais para fazermos inferência sobre a população, estamos sujeito a erros. Digamos que existe uma probabilidade α de que mesmo sendo Ho verdadeiro, X assuma um valor que leva Zcalc à rejeição de Ho. As probabilidades desses erros são chamadas α e β respectivamente. α = P(erro tipo I) = P(rejeitar H0/ H0 é verdadeiro) β = P(erro tipo II) = P(aceitar H0/ H0 é falso) DECISÃO Aceitar H0 Rejeitar H0 REALIDADE H0 verdadeira H0 falsa Decisão Correta (1-α) Erro do tipo II (β) Erro do tipo I (α) Decisão Correta (1-β) A probalidade de erro tipo I é determinada pelo pesquisador, mas para determinar a probabilidade de erro tipo II, devemos considerar a hipótese nula como falsa e, então determinar qual a verdadeira distribuição da característica em estudo. Exemplo: O peso médio de litros de leite de embalagens enchidas em uma linha de produção está sendo estudado. O padrão prevê um conteúdo médio de 1000 ml por embalagem. Sabe-se que o desvio padrão é de 10 ml e que a variável tem distribuição normal. Para encontrar a probabilidade de erro tipo II, quando testamos a média ser diferente de 1000 ml ao nível de 5% de significância com 4 unidades amostrais, e sendo o real conteúdo médio da embalagem de 1012 ml, temos: H0: µ = 1000 H1: µ ≠ 1000 P (erro tipo II) = P (aceitar H0/ H0 é falsa) = ? Zα/2 = Z0,025 = 1,96 1,96 = X − 1000 10 4 ⇔ X = 1009,8 9 0,025 1000 1009,8 1012 P (aceitar H0/ H0 é falsa) = P ( X < 1009,8 / µ = 1012) =P( x − µ 1009 ,8 − 1012 ) < σ n 10 4 = P ( Z < -0,44) = 0,33 Ou seja, a probabilidade de não rejeitarmos Ho, quando a média real da embalagem é de 1012 ml é de 0,33. A partir dessa informação podemos obter o poder do teste é de 1-β =1-0,33=0,67. 1. Teste de Hipótese para uma Média com variância pop.conhecida HIPÓTESES: H0: µ = µ 0 H1: µ ≠ µ 0 ou ESTATÍSTICA DO TESTE: H1: µ > µ 0 ou H1: µ < µ 0 x − µ0 Z = cal σ n Região crítica unilateral à esquerda: Rejeita-se H0 se Zcalc < Z∝ Região crítica unilateral à direita: Rejeita-se H0 se Zcalc > Z1-∝ Região crítica bilateral: Rejeita-se H0 se Zcalc < Z∝/2 ou Zcalc > Z(1-∝/2) Exemplo 1: A resistência à tração do aço inoxidável produzido numa certa usina permanecia estável, com uma resistência média de 72 Kg/mm2 e um desvio padrão de 2,0 Kg/mm2 . Recentemente, a máquina foi ajustada. A fim de determinar o efeito do ajuste, 10 amostras foram testadas. As resistências médias são apresentadas a seguir: 76,2 78,3 76,4 74,7 72,6 78,4 75,7 70,2 73,3 74,2. Presuma que o desvio padrão seja o mesmo que antes do ajuste. Podemos concluir que o ajuste mudou a resistência à tração de aço? (Adote 5% de significância). 10 2. Teste de Hipótese para uma Média com variância pop. desconhecida HIPÓTESES: H0: µ = µ 0 H1: µ ≠ µ 0 ou ESTATÍSTICA DO TESTE: H1: µ > µ 0 ou H1: µ < µ 0 x − µ0 t = cal s n Região crítica unilateral à esquerda: Rejeita-se H0 se tcalc < − tα , n −1 Região crítica unilateral à direita: Rejeita-se H0 se Zcalc > t α , n −1 Região crítica bilateral: Rejeita-se H0 se Zcalc < − tα 2 , n −1 ou Zcalc > tα , n −1 2 A percentagem média da receita municipal dos quase 600 municípios Exemplo 2: de um estado têm sido 7%. O governo pretende melhorar este índice e, para isso, está estudando alguns incentivos. Para verificar os efeitos destes incentivos, sorteou 10 cidades e estudou quais seriam as percentagens investidas neles. Os resultados foram: 8, 10, 9, 11, 8, 12, 16, 9, 12, 10. Admitindo que estes números venham a ocorrer, os dados trazem evidência de melhoria? (Adote 5% de significância). 3. Teste de Hipótese para a proporção HIPÓTESES: H0: π = π H1: π ≠ π 0 0 H1: π < π ou 0 ou H1: π > π 0 ^ ESTATÍSTICA DO TESTE: Z = cal ( p−π 0) ^ ^ p .(1 − p) n Região crítica unilateral à esquerda: Rejeita-se H0 se Zcalc < Z∝ Região crítica unilateral à direita: Rejeita-se H0 se Zcalc > Z1-∝ Região crítica bilateral: Rejeita-se H0 se Zcalc < Z∝/2 ou Zcalc > Z(1-∝/2) Exemplo 3: O presidente do Clube A, afirma que 58% da população de sua cidade torce para seu time. O presidente do clube rival com o intuito de desmentir a afirmação, contrata uma pesquisa que entrevistou 200 pessoas na qual 107 afirmaram realmente torcer para o clube A. Formule a hipótese e realize o teste ao nível de significância de 10%. 11 Lista Teste de Hipótese 1) Uma amostra de 25 elementos resultou média 13,5 com desvio padrão de 4,4. Efetuar o teste ao nível de 1% para a hipótese que a média seja inferior a 16. 2) As estaturas de 20 recém nascidos foram tomadas no Departamento de Pediatria da FMRP, cujos resultados são em cm: 41 50 52 49 49 54 50 47 52 49 50 52 50 47 49 51 46 50 49 50 a) suponha inicialmente que a população das estaturas é normalmente distribuída com variância 2 cm2; Teste a hipótese de que a média seja diferente de 50cm (∝=0,05) b) Faça o mesmo teste para a média, mas agora desconhecendo a variância (∝=0,05). 3) Um processo deveria produzir mesas com 0,85m de altura. O engenheiro desconfia que as mesas que estão sendo produzidas são menores que o especificado. Uma amostra de 8 mesas foi coletada e indicou média 0,847m. Sabendo que o desvio padrão é σ=0,010m, teste a hipótese do engenheiro usando um nível de significância de 3%. 4) As condições de mortalidade de uma região são tais que a proporção de nascidos que sobrevivem até 60 anos é de 0,6. Testar essa hipótese ao nível de 5% se em 1000 nascimentos amostrados aleatoriamente, verificou-se 530 sobreviventes até 60 anos. 5) A experiência tem comprovado que mais de 40% dos estudantes são reprovados em uma prova de estatística. Se 45 de 90 estudantes amostrados fossem reprovados, o que se pode concluir a respeito desta afirmação. Teste esta hipótese ao nível de significância de 4%. 12 Lista Complementar de Teste de Hipótese 1) Na indústria de cerâmica, avalia-se sistematicamente a resistência de amostras de massas cerâmicas, após o processo de queima. Sabe-se que essas massas tem resistência mecânica com média igual a 53 e variância 16. Após a troca de fornecedores de matéria prima, deseja-se verificar se houve alteração na média. Uma amostra de 15 corpos de prova de massa cerâmica acusou média igual 50. Teste a hipótese ao nível de significância de 5%. R: z=-2,90; Rejeita Ho 2) Funcionários de uma grande firma de contabilidade alegam que seu salário médio anual é menor que o de seu concorrente que é de R$ 45.000, sabe-se também que o desvio padrão de ambas as empresas são iguais a R$ 5200. Uma amostra de 30 contadores da empresa gera um salário médio de R$ 43500. Teste a alegação dos empregados ao nível de significância de 1%. R: z=-1,58; Aceita Ho 3) A indústria ABC S/A, fabricante de certo equipamento eletrônico, substituiu certo componente importado pelo similar nacional. Um comprador da referida indústria supõe que tal substituição tenha diminuído a duração do produto que antes era anunciada como sendo, em média, 200 horas. Para julgar sua suposição, o comprador testou uma amostra de 10 unidades, verificando média de 197 horas, com desvio padrão de 6,32 h. Com α=5%, estabeleça a conclusão alcançada pelo comprador. R: t=-1,50; Aceita Ho 4) Uma cadeia de lanchonetes se propõe a instalar uma nova filial se, pelo local, passarem mais de 200 carros por hora, em certo período do dia. Em 20 horas escolhidas ao acaso, passaram pelo local, no período de interesse, em média 208,5 carros com desvio padrão de 30 carros. Com α=5%, a nova filial deve ser instalada? R: t=1,267; Aceita Ho 5) Uma companhia de seguros está disposta a iniciar uma campanha de colocação de apólices no mercado se verificar que a quantia média segurada por família da região alvo é inferior a 10.000 u.m. Uma amostra casual de 20 famílias da referida região acusou média de 9.600 u.m. , com desvio padrão de 1.000 u.m. Usando 5% de significância, decida sobre se a campanha deve ou não iniciar, admitindo normalidade para a população. R: t=-1,789; Rej. Ho 6) Certo fabricante de parafusos anuncia que 90% do seu produto não apresenta qualquer tipo de defeito. Um comprador acredita que a percentagem de parafusos perfeitos é diferente da anunciada pelo fabricante. Para verificar tal hipótese, examinou 400 parafusos, verificando que 344 eram perfeitos. Com α=2%, realize o teste correspondente. R: z=-2,30; Aceita. Ho 7) Certa organização médica afirma que um novo medicamento é de qualidade superior ao até então existente, que é 80% eficaz na cura de determinada doença. Examinada uma amostra de 300 pessoas que sofriam da doença, constatou-se que 249 ficaram curadas com o novo medicamento. Com α=5%, teste a afirmação da organização. R: z=1,38; Aceita Ho 8) Uma agência de viagens tem um tradicional plano de férias que é oferecido a todos os possíveis clientes que procuram a agência. O índice de respostas positivas é historicamente 20%. Este ano, uma amostra de 50 potenciais clientes mostrou que 15 adquiriam o plano de férias. Teste, α=6%, a hipótese de que o percentual de respostas positivas tenha aumentado este ano. R. z=1.54 Aceita. Ho