Teste de Significância & P-valor Ivan Balducci Faculdade de Odontologia São José dos Campos UNESP Conceito fundamental: Hipótese nula (H0) Numa comparação de dois grupos: Controle vs Tratado, por exemplo, a hipótese a ser testada é denominada de H0. Ela é definida tradicionalmente como a hipótese de nenhuma diferença entre as médias dos grupos H0 não tem nada a ver com a igualdade H0 tem tudo a ver com a chance Conceito fundamental: Hipótese nula (H0) mas H0 deve ser definida de outra forma. JUSTIFICATIVA H0 representa a distribuição de que a chance (o acaso) é o fator de influência responsável pela ocorrência dos dados obtidos H0 representa as circunstâncias para as quais quaisquer diferenças observadas nos dados são devidas ao acaso, ou como formalmente conhecidas na estatística como “sampling error”, flutuação amostral. Por que, então, definimos comumente H0 como diferença de médias? Sempre sabemos, antes de realizar o experimento, que as médias diferem: nada é absolutamente igual na natureza. A correta definição de H0 é “a hipótese onde quaisquer diferenças encontradas são devidas ao acaso” R.A. Fisher no livro Design of Experiments, de 1966, na pág. 35: “a posição mais geral de nossa Ho é, portanto, a condições às quais duas médias tendem a ser iguais” É nessa frase que a noção de igualdade de médias se tornou (infelizmente) uma propriedade que define H0. H0 poderia ser corretamente definida como “hipótese da chance” no lugar de hipótese de “nenhuma diferença”. O p-valor quantifica a discrepância entre um conjunto conhecido de dados e a hipótese nula (H0), se a probabilidade dos resultados é tão discrepante ou mais, sob a hipótese nula (H0). Se uma observação é rara (improvável) sob determinada Hipótese (a H0), então é evidência contra essa hipótese (H0). o p-valor avalia o grau de inconsistência entre a hipótese nula e os dados observados. Nota histórica. Fisher (1925) Segundo Ronald Aylmer Fisher: o p-valor deve ser interpretado como uma medida de evidência Fisher concebeu os testes para confrontar uma hipótese nula com as observações e, para ele, um valor p indicava a força da evidência contra H0. Para Fisher o p valor, medida de evidência, deveria ser combinado com outras fontes de informação sobre o fenômeno em estudo. Se um limite de significância fosse estabelecido, deveria ser flexível e deveria depender do conhecimento anterior do “background”, sobre o fenômeno em estudo. Para Fischer, se o resultado é significante você rejeita H0. se o resultado é não significante, nenhuma conclusão pode ser estabelecida. O p-valor é a probabilidade de obter o resultado particular ou outro mais extremo (quando H0 é verdadeira) e não existem outros fatores possíveis que influenciem o resultado. Se houver outros fatores, que possam intervir explicando o resultado particular, então, o p-valor deixaria de ser uma medida de evidência contra H0. Um resultado significativo, para Fisher, significa que os dados proporcionam evidência contra H0 • Os pesquisadores querem saber: • “Quão provável é que os resultados obtidos ocorreram pela sampling error ou by chance?” • P(Ho | D) = ??? … essa pergunta não é respondida diretamente pelos testes de significância. Conclusão Os métodos estatísticos devem: “orientar e disciplinar o nosso pensamento, mas não devem determiná-lo”. Wilkinson and Task Force on Statistical Inference (1999), p.603 Termos que devem ser familiares Testes de Significância Ho P-valor