Testes de Hipóteses
Como o próprio nome já diz, iremos testar, verificar, realizar um procedimento, com o objetivo de tomarmos uma decisão, chegarmos a
uma conclusão a respeito de alguma(s) hipótese(s), suposição, de algum fato que é importante para a nossa pesquisa, quando não o principal motivo da pesquisa.
Exemplos: Será que os obesos possuem valores equivalentes a não
obesos para escalas de ansiedade ? Será que a droga X diminui a dor
de cabeça mais do que a droga Y ? Há menos homens do que mulheres
ingressando nas universidades ?
Para cada situação acima colhemos uma amostra e a partir daí desejamos verificar, TESTAR, se a nossa suposição, a HIPÓTESE, é ou não
verdadeira.
O teste de hipótese é composto por duas hipóteses:
A- A 1a. hipótese é conhecida por H0, hipótese nula, na grande maiorias das vezes refere-se a uma igualdade (=), “não há diferença”; normalmente é aquilo que o pesquisador não deseja que aconteça.
B - A 2a. hipótese é conhecida por H1, hipótese alternativa, é complementar a H0 (refere-se a uma diferença, se H0 tem =, H1 tem  ; se H0
, H1 tem <; se H0 tem , H1 tem >.), normalmente é a conclusão que
o pesquisador desejaria que acontecesse, que ele comprovasse.
Exemplos: H0: Valores dos obesos (média) = Valores dos não-ob.
H1: Valores dos obesos (média)  Valores dos não-ob.
H0: A droga X cura cefaléia  A droga Y
H1: A droga X cura cefaléia < A droga Y
Resultados de um teste de hipótese:
Só há dois possíveis resultados para um teste de hipótese:
-REJEITAR H0, não chegarmos à conclusão nela expressa, ou
-NÃO REJEITARMOS H0, chegarmos à conclusão nela expressa.
Não se utiliza a expressão “Aceitar Ho”, o fato de não rejeitarmos H0
não implica que H0 seja verdadeiro, ou aceito; apenas que os dados não
confirmam aquela hipótese.
No exemplo:
Podemos rejeitar que os obesos são equivalentes aos não-obesos
(Rejeito HO, há uma diferença) OU não rejeitar que os obesos
são equivalentes (Não rejeito HO, não há uma diferença)
Tipos de erro no teste de hipótese
Depois que chegamos a uma conclusão do nosso teste temos a seguinte
situação:
H0
(Só Deus, a Natureza, sabe se é verdade ou não)
VERDADE
FALSO
Con
REJEITO H0
Erro do tipo 1
Não há erro
clu
()
são
NÃO REJEITO H0 Não há erro
Erro do tipo 2
()
No exemplo, se rejeito que os obesos são equivalentes aos não-obesos
(Rej. H0), mas na verdade são equivalentes, COMETO O ERRO DO
TIPO 1.
Se não rejeito que os obesos são equivalentes aos não-obesos (Não rej.
H0), mas na verdade não são equivalentes, COMETO O ERRO DO
TIPO 2.
Então temos dois possíveis tipos de erro:
Erro do tipo 1 () : Rejeitar H0 quando na verdade ela é verdadeira;
Erro do tipo 2 () : Não Rejeitar H0 quando na verdade ela é falsa.
Nunca saberemos se erramos ou não, apenas temos meios para calcularmos as probabilidades de cada um destes erros.
Como podemos rejeitar uma hipótese verdadeira ? Problemas que podem ir desde uma amostragem mal feita (com vícios, erros, tamanho insuficiente) até problemas com a tabulação dos dados, aplicação de testes incorretos e etc...
Não temos como evitar os erros, mas temos como minimizá-los,
porém quando tentamos diminuir um acabamos aumentando o outro.
Os testes são elaborados de modo que se fixe o erro do tipo I (que se
está disposto a aceitar) e o erro do tipo II seja o menor possível, normalmente isto é feito via aumento de tamanho de amostra, quanto maior a
amostra menor será o erro do tipo 2.
O “poder” de um teste de hipótese é definido como a probabilidade
de rejeitar-se um H0 falsa
Desejável, quanto maior meu poder do teste, melhor. Ele é expresso por 1 -  .
Poder do teste também pode ser interpretado como a chance de
detectar-se uma real diferença.
Se o poder de um teste é muito baixo, possivelmente nossos resultados serão inconclusivos. Um valor utilizado frequentemente para
poder do teste é de uma probabilidade de 0.80.
Tipos de testes de hipóteses:
Bicaudal (Two tail): Quando testa se há alguma diferença,
independente do sentido da diferença. Ex: H0: Salário dos dentistas =
Salário dos psicólogos X H1 Salário dos dentistas  Salário dos
psicólogos .
Monocaudal (One tail): Quando testa se há alguma diferença e em que
sentido, direção, ela está. Ex: A pressão arterial dos motoristas taxis 
a pressão arterial dos motoristas não taxistas. X H1: A pressão taxistas >
pressão dos não-taxistas.
O teste monocaudal dificilmente é utilizado, via de regra utiliza-se o
bicaudal, por uma série de fatores técnicos. O teste monocaudal só deve ser
utilizado quando o pesquisador , a priori, só esta interessado em saber
se determinada situação é superior (ou inferior) a outra. Isto na prática dificilmente ocorre. Normalmente utiliza-se o teste BICAUDAL.
Se no teste monocaudal do exemplo eu não rejeito HO, eu só posso
inferir que a pressão dos taxistas não é superior, mas não posso afirmar
se é menor ou igual. Já no teste bicaudal se rejeito H0 eu afirmo que é
igual. Logo os testes bicaudais são mais ‘completos’ que os mono.
Conceito de nível de significância (ou rejeição)
Nível de significância nada mais é que o valor máximo de erro do tipo I
() que estamos dispostos a aceitar, a probabilidade de rejeitar H0 quando
H0 é verdadeiro. Por mera convenção usualmente adota-se o valor 0.05.
Então dizer que o nível de significância adotado foi   0.05 quer dizer que a chance de rejeitarmos H0 quando verdadeiro não será superior
a 5%. Nos determinamos este valor a priori.
Etapas de um teste de hipóteses:
1 -Formular as hipóteses (H0 e H1) de interesse.
:H0: Os valores de colesterol dos negros são equivalentes aos dos brancos;
X
H1: //
//
//
// não são //
// // //.
2 -Fixar um erro do tipo I () aceitável, na prática em 99.9% será 0.05.
Estamos estabelecendo nosso nível de significância.
3 -Quando possível, em situações em que é viável calcular-se um tamanho de amostra a priori, fixar o erro do tipo II (), usualmente = 0.20 .
O que quer dizer, mais importante, que estamos fixando nosso poder do
teste em 80%
Pode-se posteriormente calcular a probabilidade deste erro
4 -Escolher e realizar um teste estatístico apropriado, que varia conforme
os tipos das variáveis envolvidas, a distribuição das mesmas e o tamanho
da amostra.
O teste estatístico nos fornecera um valor conhecido por “p” ou o
“valor de p” (p value), que também é uma probabilidade; é a chance de,
supondo HO verdadeiro, as diferenças encontradas serem ao acaso.
Exemplo: Média colesterol negros = 30, Média dos brancos = 40,
resultado do teste estatístico = p = 0.20.
Então a chance da diferença de 10 ser meramente ao acaso (função da
coleta da minha amostra) é de 20%
5 - Obtido o valor de p temos as seguintes decisões:
- Se p >  (chance grande da diferença ser ao acaso) Não rejeito HO, a
hipótese nula, da igualdade, é compatível com os dados.
- SE p   (chance pequena da diferença ser ao acaso) Rejeito HO, a
hipótese nula, da igualdade, não é compatível com os dados.
Repare que como adotamos  = 0.05, só rejeitaremos H0 quando a
chance da diferença ser casual for menor que 5% CONSERVADOR
Iremos demonstrar as bases teóricas da realização de um teste estatístico, sem nos prendermos as demonstrações matemáticas (fora do objetivo do
curso). A demonstração será realizada apenas uma vez, para os demais testes
abordados no curso ela será, na grande parte, omitida.
Exemplo: A freq. cardíaca na população em geral tem média de 69.8 com dp =
1.86. Suspeita-se que uma droga tem aumentado este valor, para verificar este fato coletou-se uma amostra de 50 pessoas que obteve média de 70.5
H0: 70.5 = 69.8 X H1: 70.5 ≠ 69.8 .
Teorema do Limite Central: Se retirarmos x amostras de tamanho n de uma
população, e calcularmos as suas médias, a distribuição das médias será uma
distribuição Normal com média =  e dp = /rq(n) = EPM
Amostra 1
Universo
população
com média 
e dp 
Amostra 2
Amostra n
Cada amostra
tem uma média
e a dist. destas
médias é Normal
com  e /rq(n)
Então se retirarmos todas as possíveis amostras de tamanho 50, com média
69.8 e dp = 1.86 a distribuição das médias destas amostras será Normal com
média 69.8 e dp = 1.86/rq(50) = 0.26.
Normal reduzida: Se X é uma variável com distribuição Normal então
(X - Média)/dp tem uma distribuição Normal reduzida, isto é, com média 0 e dp = 1, que é tabelada.
Então se faço (70.5 - 69.8)/(1.86/rq50) tenho uma dist. Normal (0,1).
Veja, 69.8 é a média já conhecida, 1.86/rq(50) = 0.26 é o dp, e 70.5 é valor
que obtive na minha amostra e quero testar.
Efetuando o cálculo tenho z = 2.69
Agora posso tomar uma decisão.
1.96
Como fixei  = 0.05, o valor
correspondente a prob. 0.05
na normal é 1.96. Portanto
2.69 > 1.96 Rejeito HO.
Por outro lado o 2.69 corresponde a uma ’p’ = 0.01 logo
Rejeito HO
Todo teste estatístico ( teste de hipótese) segue a mesma lógica:
- Obtém-se uma estatística, que irá variar conforme as variáveis e os parâmetros do estudo (no caso anterior uma variável contínua e um valor conhecido de média e dp, utilizamos a Normal reduzida).
- Esta estatística tem, segue, uma distribuição conhecida e tabelada (Normal, Binomial, t, F , X2 ...).
- Compara-se o valor fornecido pelo teste estatístico com o valor da distribuição conhecida , SOB A HIPÓTESE H0, correspondente a uma probabilidade de 5% (a velha probabilidade de cometer o erro do tipo I, e também o nível de significância).
- Se o valor obtido pelo teste for superior (em módulo) ao valor da distribuição conhecida sob HO a 5% , rejeito H0. Caso contrário não rejeito H0
Atualmente os programas já fornecem a probabilidade (p value) de se
obter o valor resultante do teste estatístico na distribuição conhecida, daí
basta verificar se este valor é inferior a 0.05 (nível de significância)
O exemplo anterior é conhecido por ‘teste z’ e testa se uma média amostral
difere ou não significativamente de uma média conhecida com dp conhecido,
coisa raríssima.
Na realidade é bem mais comum depararmo-nos com a situação onde desejamos testar um média amostral contra uma média conhecida mas de dp desconhecido.
Exemplo: Queremos verificar se a média de obtida por 20 alunas de psicologia
para um teste de QI é ou não equivalente a média do Campus, que é de 76.
H0: A média = 76 X H1: A média  76
Na estatística (X - Média)/(dp/rqn) tínhamos a média e o dp conhecidos,
como não conheço o dp da população vou substituí-lo pelo da amostra.
Depois de coletar as 20 amostras obtive um média = de 80.85 e dp = 8.87
Agora substituo os valores na fórmula: (80.85 - 76)/(8.87/rq20)
Veja, antes o dp era conhecido, agora ele foi estimado a partir da amostra, então a estatística (X - Média)/(dp/rqn) não possui mais distribuição
Normal e sim a distribuição conhecida por “t”.
2.09
d.f. =graus
de liberdade.
É um parâmetro na distribuição t relacionado ao tamanho da
amostra
2.45 0.025
O final do procedimento é sempre semelhante, verifico o valor correspondente a uma probabilidade de 0.05 (nível de significância) na tabela da dist. t com 19 graus de liberdade ( tamanho da amostra -1) = 2.09.
A estatística (80.85 - 76)/(8.87/rq20) = 2.45. Como 2.45 > 2.09 portanto
REJEITO H0, as psicólogas possuem média superior à do Campus.
O valor 2.45 corresponde a um p = 0.025, menor que 0.05.
Diferença significante estatística
Diferença significante prática
É um fato notório que a altura dos homens é superior a das mulheres,
para a indústria automobilística esta informação é irrelevante, ela não
produz carros para com tamanho para homem ou mulher.
Já para a indústria de roupas esta informação é fundamental, ela produz roupas de tamanhos diferentes para cada sexo. A informação é fun
damental pois ela causou uma mudança de procedimento, de comportamento no processo da fabricação da roupa.
Então temos uma diferença significativa estatística que para uns acarreta uma mudança dos padrões existentes (diferença prática) e para outros não. Então é importante que a seguinte pergunta seja feita quando
obtemos um resultado “estatisticamente significativo” :
ESTA DIFERENÇA ESTATISTICAMENTE SIGNIFICANTE LEVA A ALGUMA MUDANÇA DE COMPORTAMENTO, SUA UTILIZAÇÃO PODE MELHORAR O PADRÃO ATUAL ?
Se a resposta for NÃO, de que serve a diferença estatística ? Será meramente um diferença probabilística.
Então atenção, nem sempre uma diferença estatística tem como consequência uma diferença prática, que acrescente uma informação valiosa.
Os dois tipos de ‘diferença’ não são equivalentes, a prática é sem dúvida mais importante.
Boa pergunta para vcs responderem p vcs mesmos:
Se eu efetivamente conseguir provar as hipóteses do meu trabalho, qual
a diferença prática que estarei promovendo.
Download

Aula 3 - FMRP/USP