Estatísticas
Testes estatísticos
 Paramétricos (calcula as diferenças numéricas
exactas entre os resultados)
 não paramétricos (apenas consideram se certos
resultados são superiores ou inferiores a outros
resultados)
Requisitos para utilização de testes paramétricos
Quando se pretende empregar um teste t de Student
ou uma análise da variância para fazer comparações
entre amostras (testes paramétricos), existe uma lista
de requisitos que inclui, entre outros:
 que a variável tenha sido mensurada num
nível mínimo intervalar
 que a distribuição seja simétrica e
mesocurtica
 a característica estudada (variável) tem
distribuição normal numa dada população
Opção
Sempre que não se pode, honestamente,
admitir a simetria e a normalidade de
distribuição, ou os dados foram
recolhidos num nível de mensuração
inferior ao intervalar, devemos recorrer
a testes que não incluem a normalidade
da distribuição ou nível intervalar de
mensuração.
Esses testes chamam-se não paramétricos
Vantagens dos testes não-paramétricos
 Podem ser utilizados, mesmo quando os
seus dados só podem ser medidos num
nível ordinal, i.é, quando for apenas possível
ordená-los por ordem de grandeza)
 podem ser utilizados mesmo quando os
seus dados são apenas nominais, i.e.,
quando os sujeitos podem apenas ser
classificados em categorias.
Poder de um teste
•Para se entender a importância dos testes, é
necessário entender o conceito de poder.
o poder de um teste é a probabilidade
de rejeitarmos a H0 quando ela é
realmente nula
Como varia o poder de um teste
• O poder varia de um teste para o outro
• os testes mais poderosos (os que têm maior
probabilidade) de rejeição de H0, são testes que
possuem pré-requisitos mais difíceis de satisfazer
(testes paramétricos como t e F).
• As alternativas não paramétricas exigem muito
menos pré-requisitos mas produzem testes de
significância com menos poder que os
correspondentes paramétricos.
Em consequência
• Ao rejeitar-se a H0 sem preencher as
exigências mínimas dos testes paramétricos, é
mais provável que essa rejeição seja falsa (se
rejeitar a H0 quando ela é verdadeira comete
um erro de tipo I; se aceitar a H0 quando ela
é falsa comete um erro de tipo II). Quando os
requisitos de um teste paramétrico são
violados, torna-se impossível conhecer o seu
poder e a sua dimensão ()
Os investigadores querem ...
• É obvio que os investigadores querem, a
todo o custo, rejeitar a H0 quando ela é
mesmo falsa, evitando um erro de tipo I.
• O teste ideal seria aquele que =0 e
=1, o que implicaria que o teste
conduziria sempre à decisão
correcta, contudo este teste ideal
raramente existe.
•Deste modo, tem-se 0 e 1.
Os investigadores querem ...
• A probabilidade do erro de 1ª espécie deve
ser reduzida, fixando  teórico em 0,1;
0,05 ou 0,01. o valor fixado para 
depende da importância que se dá ao facto
de rejeitar a H0 quando esta é verdadeira.
• Uma ilustração deste ponto de vista pode
ser feita com o exemplo do próximo slide:
Uma pessoa é inocente até prova do contrário
• H0: A pessoa é inocente
• H1: A pessoa é culpada
• Erro I: A pessoa é condenada mas está inocente
• Erro II: A pessoa é absolvida mas é culpada
• Naturalmente a justiça procura reduzir a possibilidade de
ocorrer o erro de 1ª espécie, pois entende-se que é mais
grave condenar inocentes que absolver criminosos.
• Para certos sistemas judiciais um  = 0,1 é demasiado
elevado, optando por =0,01; noutros sistemas
judiciais pode admitir que = 0,05 é um valor
razoável.
• ASSIM …
Teste mais Potente
• Fixada a probabilidade do erro de tipo I
(dimensão do teste), o teste mais potente é
aquele em que a escolha da região critica
minimiza a probabilidade do erro de 2ª
espécie. Diz-se também que esta região critica
é a mais potente.
• Facilmente se conclui que o teste mais potente
é aquele que, uma vez fixada a probabilidade
de rejeitar a H0, quando ela é verdadeira,
maximiza a potência ou a capacidade para
rejeitar a mesma hipótese quando esta é falsa.
Pressupostos
•No spss o procedimento é
•
Para saber se uma variável
é simétrica dividimos o
coeficiente Skewness pelo
erro padrão e se o
resultado estiver entre 2
e -2 a distribuição é
simétrica.
•
Para saber se uma variável
é mesocurtica dividimos o
coeficiente Kurtosis pelo
erro padrão e se o
resultado estiver entre 2
e -2 a distribuição é
mesocurtica.
•No spss …
•No spss …
•No spss …
0,837/0,536=1,562
0,411/1,038=0,396
Como os valores estão entre 2 e -2 variável é simétrica e mesocurtica
•No spss …junto com a tabela anterior vem
o teste de normalidade
H0: a distribuição é normal
H1: a distribuição não é normal
Como a significância é superior aos  teóricos (0,01; 0,05 e 0,1),
aceitamos a H0 e podemos continuar com as estatísticas
paramétricas
ESCOLHA
• Mas se os resultados de um teste paramétrico,
não cumpriram com os requisitos (no mínimo
dados intervalares; distribuição simétrica,
mesocurtica e normal), então não têm
interpretação significativa.
• Quando acontecem estes factos, a maioria dos
investigadores opta por testes de significância
não-paramétricos
•De facto
•muitos dos dados pertencem ao nível nominal ou
ordinal e nem sempre é fácil ter a certeza de que
as características estudadas na amostra tem uma
distribuição normal na população onde foi estudada
Para escolher qualquer tipo de teste estatístico
• distinguir se a nossa amostra é
constituída pelos mesmos sujeitos em
todas as situações ou se é formada por
diferentes sujeitos para cada situação
Inter-sujeitos ou design não-relacionado
• este tipo de design é utilizado quando um
indivíduo ou objecto é avaliado apenas uma
vez.
• a comparação é efectuado entre os grupos de
sujeitos/ objectos cujos resultados são nãorelacionados
– Desvantagem:
conjunto
das
diferenças
individuais na forma como os sujeitos reagem ou
respondem à tarefa
Intra-sujeitos ou design relacionado
• A comparação é feita entre os mesmos sujeitos
(sujeitos do mesmo grupo).
• A importância destes designs é a eliminação de
quaisquer particularidades individuais, uma vez
que ficam igualizadas em todas as situações.
– Desvantagem:
aprendizagem
Efeito
de
memória
e
Amostras emparelhadas
• Igualizam-se sujeitos diferentes mas emparelhados, em
termos de idade, sexo, profissão e outras características
gerais que parecem importantes para cada pesquisa em
particular
• estes tipos de designs podem ser considerados de
designs relacionados, uma vez que é controlado nas
suas características relevantes
– Desvantagem:
Dificuldade em encontrar sujeitos que
permitam o emparelhamento de todas as características
relevantes
– Dificuldades arranjar grandes amostras
Resumo
Desenho
Vantagens
Desvantagens
Inter sujeitos ou designs
não relacionados
(sujeitos diferentes na
mesma situação)
Utilização de grupos
naturais
Diferenças individuais que
podem afectar os
resultados
Intra-sujeitos ou designs
relacionados (os mesmos
sujeitos em situações
diferentes)
As diferenças individuais
Não pode ser utilizado
quando os sujeitos são
diferentes
Pares Emparelhados
(sujeitos diferentes na
mesma situação)
Grupos naturais
Diferenças individuais
Efeitos de memória e
aprendizagem pelo
conhecimento da tarefa
Incerteza sobre se os
sujeitos são
emparelhados em todas
variáveis que
provavelmente afectam
os resultados
Testes não paramétricos
Ordenamento dos resultados
• Cada teste não paramétrico permite calcular
uma estatística que indica a quantidade de
diferenças existentes nos ordenamentos entre
as situações experimentais;
• 1.º Passo da estatística não-paramétrica –
ordenar os resultados em função da sua
grandeza relativa de forma ascendente ou
descendente, embora nenhuma se use a
ascendente
Quadro 1 – Ordenamento dos resultados
N.º de Factores
de risco
6
Ordem
4
3
1
12
7
4
2
7
5
5
3
8
6
• Se existir um
zero este deve
ser considerado
o valor mais
baixo.
•Nos casos em que existem resultados
iguais utiliza-se a  dos lugares que devia
ocupar
Exemplo
N.º de Freq.
Ordem
1
2
2
4
1
2
4
6,5
1
2
3
5
4
6,5
6
9
5
8
• Assim os sujeitos com um Factor de risco
são 3 (1+1+1) que ocupariam o 1.º - 2.º
- 3.º lugar
• então 3+2+1=6:(1+1+1)=2
• com 4 factores de risco temos 2 sujeitos
que ocupariam o 6.º e 7.º lugar
• então 6+7=13:(1+1)=6,5
Ordenamento de diferenças entre resultados
(relacionados)
•Como é possível fazer comparações directas
entre os resultados. Procedemos ao cálculo
das diferenças dos resultados de cada sujeito.
•Exemplo:
Sujeitos
Nº de frases correctas
antes do aparelho
auditivo
Nº de frases correctas
depois do aparelho
auditivo
diferenças
ordem
1
5
6
1
2
2
5
7
2
4
3
2
3
1
2
4
1
5
4
6,5
5
4
5
1
2
6
2
5
3
5
7
1
5
4
6,5
8
4
4
0
-
9
1
7
6
9
10
1
6
5
8
•Ao contrário do que acontece nos casos das
amostras relacionadas quando a diferença
entre 2 situações é nula nas amostras
relacionas a este tipo de resultado não é
atribuída nenhuma ordem, sendo que o
resultado nem sequer é considerado na
análise.
•Ordenamento de resultados
negativos: ignoram-se os sinais
quando se ordenam os resultados.
•Exercício 1: Ordem dos Seguintes Resultados
Sujeitos
1
2
3
4
5
Nº de factores
de risco
1
0
2
1
3
ordem
•Exercício 2:
10; 15; 13; 22; 21; 9; 22; 14; 8; 14; 12;
17; 22; 22; 9; 14
•É razoável admitir que a amostra tenha sido
extraída de uma população com uma
determinada forma?
•Os testes utilizados para fazer estas
provas são:
Teste Binomial;
Quiquadrado de uma amostra
Kolmogorov-Smirnov
Teste de iterações
Testes para uma Amostra
•Prova da aderência – diz-nos se uma
determinada amostra provém de uma
população especificada.
•Exemplo: existem diferenças
significativas entre o tipo de transporte
utilizado para doentes urgentes, entre a
amostra e a População?
•Existem diferenças significativas entre as Fo e
as Fe?
•No spss …
•No spss …
•No spss …
•No spss …
•No spss …
•No spss …
•No spss …
•No spss …
•No spss …
A distribuição da
amostra não difere
da População (H0)
•Teste da Independência baseada no 2
•Apropriado quando o nível de numeração é
nominal;
•Quando se tratam de grupos de sujeitos
diferentes (não relacionados)
•Amostras =>20
Exemplo
•Suponha que quer estudar a frequência à
consulta de planeamento familiar depende da
zona de residência (rural ou urbana)
•Recolhemos 2 grupos: um composto por 50
mulheres de zona rural e outro por 50 de zona
urbana.
•Enviámos um questionário anónimo, um
envelope e selo para resposta, pedindo-lhes
que assinalassem em qual das seguintes
categorias se enquadrava a sua frequência à
consulta:
•Quando responderam
•Nas datas indicadas pelo médico
•classificámos como regular
•Quando me apetece ir à consulta marcada
•classificamos como irregular
•Nas datas indicadas pelo médico e quando
preciso de alguma coisa, no intervalo das
consultas
•classificámos como misto
•Os resultados são apresentados na forma de uma
tabela 2x3 designada por tabela de contingência.
Grupo 1
Rural
Grupo 2
Urbano
Regular
Irregular
Misto
1
2
3
6
15
44
Fe=8,19 Fe=11,77 Fe=24,05
4
5
6
10
8
Fe=7,81 Fe=11,23
Total parcial
23
Total
parcial
16
23
24
42
22,95
47
86
•As células representando cada uma das categorias estão
numeradas de um a seis. Após colocarmos o n.º de indivíduos em
cada contingência (fo) temos que estimar as frequências esperadas
(fe) a partir dos totais parciais.
•Assim sabemos que temos 44 mulheres que vivem na
zona rural e 42 que vivem em zonas urbanas, que temos
16 que têm uma frequência regular às consultas de
planeamento, 23 irregular e 47 em padrão misto. A partir
daqui podemos calcular a proporção das 44 residentes
rurais e após o cálculo das fo e da numeração das células
passamos então ao cálculo das fe
Fe1= (16*44)/86=8,19
Fe2=
Fe3= (47*44)/86=24,05 Fe4=
Fe5=
Fe6=
(f0-fe)2
X2= ____________
Fe
(6 - 8,19)2
X2= ____________ +
8,19
Download

nao-parametricas