Teste de Hipótese Introdução Em estatística, uma hipótese é uma afirmativa sobre uma propriedade da população. Um teste de hipótese (ou teste de significância) é um procedimento padrão para testar uma afirmativa sobre uma propriedade da população. Exemplos Um repórter afirma que a maioria dos motoristas americanos passa com sinal vermelho. Médicos afirmam que a temperatura do corpo de adultos saudáveis não é igual a 98,6ºF. Exemplos A proporção de motoristas que admitem passar com sinal vermelho e maior do que 0,5. A afirmativa é p > 0,5. Se p > 0,5 for falso então p ≤ 0,5 deve ser verdadeira. Tomamos p > 0,5 como hipótese alternativa e p=0,5 como hipótese nula. Exemplos A altura média de jogadores profissionais de basquete é, no máximo, 7 pés. A afirmativa é μ ≤ 7. Se μ ≤ 7 for falso então μ > 7 deve ser verdadeira. Tomamos μ > 7 como hipótese alternativa e μ = 7 como hipótese nula. Componentes de um teste de Hipótese: Hipótese nula (Representada por Ho) é uma afirmativa de que o valor do parâmetro populacional é igual a algum valor especificado. Hipótese alternativa (Representada por H1 ou Ha) é a afirmativa de que o parâmetro tem um valor que, de alguma forma, difere da hipótese nula. Identificação das Hipóteses 1. 2. 3. Identifique a afirmativa ou hipótese específica a ser testada e expresse-a em forma simbólica. Dê a forma simbólica que tem que ser verdadeira quando a afirmativa original é falsa Hipótese alternativa é a que não contém a igualdade, e a hipótese nula iguala o parâmetro ao valor fixo sendo considerado Estatística de teste A estatística de teste é um valor calculado a partir dos dados amostrais e é usada para se tomar uma decisão sobre a rejeição da hipótese nula. Principais estatísticas de teste ^ Para proporção: p p z pq n Para a média: z _ x ou t x s n Para a variância: x2 n (n 1) s 2 2 Região Crítica. A região crítica é o conjunto de todos os valores da estatística de teste que nos fazem rejeitar a hipótese nula. Nível de significância O nível de significância (representado por α) é probabilidade de que a estatística de teste cairá na região crítica quando a hipótese nula for realmente verdadeira. Valor Crítico Um valor crítico é qualquer valor que separa a região crítica (onde rejeitamos a hipótese nula) dos valores da estatística de teste que não levam a rejeição da hipótese nula. O valor P O valor P (ou valor de Probabilidade) é a probabilidade de se obter um valor da estatística de teste que seja no mínimo tão extremo quanto o que representa os dados amostrais, supondo que a hipótese nula seja verdadeira. Fundamentos. Dada uma afirmativa, identificar a hipótese nula e a hipótese alternativa, e expressá-las, em forma simbólica. Dados uma afirmativa e dados amostrais, calcular o valor da estatística de teste. Dado um nível de significância, identificar o(s) valor(es) crítico(s). Dado um nível da estatística de teste, identificar o valor P. Estabelecer a conclusão de um teste de hipótese em termos simples. Identificar os erros tipo I e tipo II que podem ser cometidos ao se testar uma dada afirmativa. Decisões e Conclusões Critério de Decisão: a decisão de rejeitar ou deixar de rejeitar a hipótese nula é feita, em geral, usando o método tradicional (ou clássico) de teste de hipótese, o método do valor P, ou as vezes a decisão se baseia em intervalos de confiança. Método Tradicional Rejeite Ho se a estatística de teste ficar dentro da região crítica. Deixa de rejeitar Ho se a estatística de teste não ficar dentro da região crítica. Método do valor P Rejeite Ho se o valor P ≤ α (onde α é o nível de significância). Deixe de rejeitar Ho se o valor P > α. Intervalos de confiança. Como uma estatística de intervalo de confiança de um parâmetro populacional contém os valores prováveis do parâmetro, rejeite uma afirmativa de que o parâmetro populacional tenha um valor que não esteja incluído no intervalo de confiança. Identificação de erros Tipo I e Tipo II Ao testar uma hipótese nula, chegamos a uma conclusão de rejeita-la ou de deixar de rejeita-la. Tais conclusões são as vezes corretas as vezes erradas Apresentamos dois tipos de erros que podem ser cometidos. Erro Tipo I O erro de rejeitar a hipótese nula quando ela é, de fato, verdadeira. O símbolo α (alfa) é usado para representar a probabilidade de um erro do tipo I. Erro Tipo II O erro de deixar de rejeitar a hipótese nula quando ela é, de fato, falsa. O símbolo β (Beta) é usado para representar a probabilidade de um erro tipo II. Teste de Hipótese – Erros I e II Hipóteses H0 : = 0 H1: > 0 XX 0 zcrít crít0 X crít 0 zcrít n n n Existe a possibilidade de se selecionar uma amostra de uma população com média 0 e obter X alto de forma que leve a conclusão errada de que H0 é falsa? 0,14 N ( 0 , 0,12 2 n ) 0,1 0,08 0,06 Sim. Este erro é chamado de erro do tipo I e equivale ao nível de significância . 1 0,04 0,02 0 0 P(rejeitar H0 / H0 é verdadeira) = P(aceitar H0 / H0 é verdadeira) = 1 - - 5 0 10 X crít 15 + 20 Teste de Hipótese – Erros I e II Hipóteses H0 : = 0 H1: > 0 Existe a possibilidade de se selecionar uma amostra de uma população com média 1 (> 0) e obter X de forma que leve a conclusão errada de que H0 é verdadeira? N ( 0 , 2 n N ( 1 , ) 2 n ) 0,14 0,12 0,1 0,08 0,06 1 Sim. Este erro é chamado de erro do tipo II ou erro . 0,04 0,02 0 0 - 5 0 X crít 10 P(aceitar H0 / H1 é verdadeira) = P(rejeitar H0 / H1 é verdadeira) = 1 - (poder aceitação de H0 do teste) 1 15 20 + Teste de Hipótese – Erros I e II Hipóteses H0 : = 0 H1: > 0 H0 é verd. Aceita H0 H0 é falso 1- N ( 0 , 0,14 2 n N ( 1 , ) 2 n ) 0,12 Rejeita H0 1 - 0,1 0,08 0,06 1 0,04 Alternativas para diminuir : • distanciar 1 de 0 • aumentar • aumentar n 0,02 0 0 - 5 0 X crít 10 1 15 20 + Resumo Parâmetro Condições Proporção Média Desvio Padrão ou Variância np ≥ 5 e nq ≥ 5 σ conhecido e população normalmente distribuída ou n>30 Distribuição e Estatística de teste Normal: Normal: ^ z Tabela A-2 p p pq n z Valores P e Críticos x Tabela A-2 n _ σ desconhecido e população normalmente distribuída ou n>30 t-Student: População normalmente distribuída Qui-Quadrado: x t s Tabela A-3 n x2 Tabela A-4 (n 1) s 2 2 Resumo Parâmetr o Condições Distribuição e Erro Proporçã o np ≥ 5 e nq ≥ 5 Normal: ^ ^ pq n lo z 2 Média Desvio Padrão ou Variância σ conhecido e população normalmente distribuída ou n>30 Normal: σ desconhecido e população normalmente distribuída ou n>30 t-Student: População normalmente distribuída Qui-Quadrado: 2 l0 z 2 (n 1)s XD 2 2 Tabela A-2 n 2 l0 t Tabela A-2 Tabela A-3 s n (n 1)s XE 2 2 Tabela A-4 Resumo Possíveis resultados de um Realidade T.H. e suas probabilidades condicionadas à realidade H verdadeira H falsa 0 0 Decisão Aceitar H0 Decisão correta (1-α) Erro tipo II β Rejeitar H0 Erro tipo I α Decisão correta (1-β)