Verificação da Normalidade
Para verificarmos se um conjunto de dados, uma amostra, possui distrib.
NORMAL, realizamos um teste de hipótese que cujas hipóteses são:
H0: A distribuição dos dados (a variável) pode ser considerada
como tendo distribuição Normal;
X
H1:A distribuição dos dados (a variável) NÃO pode ser
considerada como tendo distribuição Normal.
Vários testes foram desenvolvidos para verificar a hipótese acima, teste
do Qui-Quadrado para Normalidade, teste de Kolmogorov-Smirnov, teste
de Shapiro-Wilkin (indicado quando a amostra for ≤ 20)dentre outros.
Verificaremos a seguir como realizar um testes de normalidade no
MINITAB.
Em Basics Statistics vamos em
Normality Test...,
Na tela nova selecionamos a var.
que desejamos testar (via Select)
e optamos por um dos 3 testes
disponíveis. Kolmogorov-Smirnov
é o mais conhecido, porém
realizaremos o teste Shapiro-Wilk,
por estar sendo mais requisitado
atualmente.
Então seleciono a var. dpeso e
vou testar se ela possui ou não
dist. Normal. OK
O resultado é um gráfico
cujos pontos em devem estar
bastante próximos da reta
em vermelho. MAS acredite
mesmo no p-value fornecido
pelo teste.
Neste caso um p = 0.64 nos
leva a não rejeitar H0, logo
assumimos que a var. possui
distribuição Normal.
Vc irá verificar normalidade de vars. numéricas contínuas ou discretas e
vars. categóricas ordinais, jamais de vars. categóricas nominais.
Exemplo em que
rejeitamos a normalidade da variável,
p < 0.05.
INTERVALOS DE CONFIANÇA
Estimativas como média, mediana, desvio padrão,..., são conhecidas como estimativas pontuais, pois através de um único valor desejamos expressar as características de nossa variável.
Veremos agora como expressar nossas variáveis através de um conjunto
de valores, ou seja, um intervalo com limite inferior e superior que contenha nosso parâmetro e no qual se possa depositar um grau de confiança
de que o verdadeiro valor (desconhecido) esteja nele contido.
Este tipo de estimação é chamada de estimação por intervalos e estes são
conhecidos como INTERVALOS DE CONFIANÇA.
Os IC têm sempre a seguinte forma :
Estimativa pontual  Valor crítico da distrib.*Erro padrão est.
É na escolha do valor crítico da distribuição que definimos o grau de
confiança (1 - ) que iremos associar ao nosso intervalo. Com um
 = 0.05 temos um intervalo de confiança de 95%, de  = 0.01,
a confiança é 99%
Calcularemos um IC de 95% (grau de confiança) para a média como
exemplo, todos os demais IC’s seguem a mesma lógica, obviamente cada
um utilizará o valor crítico da distribuição que for pertinente.
Desejamos construir um intervalo de confiança de 95% para uma média
(Xm).Vimos na aula de testes de hipóteses que se uma população tem dis
tribuição Normal com média µ e dp , então a distr. de Xm em amostras
de tamanho N será Normal com média µ e dp = /rqN = Erro padrão
Então, para a dist. de Xm, podem-se estabelecer os valores de z1 e z2 da
distribuição Normal reduzida , tais que a probabilidade de
µ - z1*erro padrão < Xm < µ + z2*erro padrão = 95% ,
então se (1 -  ) = 95% ,  = 0.05, que na tabela da Normal reduzida equivale ao valor 1.96. Substituindo µ e  pelas estimativas fornecidas pelos
meus dados tenho a fórmula para o cálculo do meu IC (95%):
Xm - 1.96*s/rqN < Xm < Xm + 1.96*s/rqN
ou Xm  1.96*Erro padrão
Exemplo: Em uma amostra de tamanho 10 de neonatos aidéticos o peso
médio foi de 700 g. com dp = 100g. Estabeleça um IC (95%) para o peso
dos neonatos aidéticos.
700  1.96* 100/rq10 = 700  61.98 = IC (95%) = (638.01 ; 761.98)
Se calculamos um IC de (99%), então  = 0.01 corresponde a 2.58 na Nor
mal reduzida temos 700  2.58*100/rq10= 700  81.59 = (618.4 ; 781.5)
Observe que o intervalo de 95% tem uma amplitude menor que o de 99%,
logo quanto mais confiança desejo na estimativa, maior será o intervalo.
Se ao invés de N = 10 minha amostra fosse de N = 30 o intervalo seria de
700  1.96*100/rq30= 700  35.78 = (664.2 ; 735.8)
Observe que o intervalo de N = 30 tem uma amplitude menor que o de
N =10, logo quanto maior a minha amostra menor será meu intervalo,
mais preciso.
Interpretação comum do IC (95%): Se coleto apenas uma e somente
uma amostra, posso afirmar que tenho 95% de chance que o
parâmetro está contido no intervalo estimado.
Note que isto não significa que posso, ou devo, afirmar que tenho
95% de chance que o parâmetro de outra amostra esteja contido no
intervalo anterior.
Interpretação correta: Se realizar 100 procedimentos iguais a este , no mínimo em 95 deles a média obtida estará dentro do intervalo estimado.
São calculados IC para praticamente todos os parâmetros estimados na
Estatística: média, variância, mediana, coeficiente de correlação, diferenças de médias, proporções, odds ratio, sensibilidade, especificidade, coefi
cientes de regressão, quartis, diferença de proporções, médias pareadas,...
Os IC’s para a diferença entre médias (independentes ou pareadas) são
particularmente úteis, pois a sua construção (observação) dispensa até a
realização do teste estatístico.
Se o IC das diferenças contém o valor 0, quer dizer que existe uma boa
chance de uma média ser equivalente à outra. X - Y = 0 ; X = Y.
Se o IC das diferenças não contém o valor 0, quer dizer que existe uma
boa chance de uma média ser diferente da outra. X - Y  0 ; X  Y.
Testes estatísticos que envolvem inferências a respeito de
uma ou duas médias – Família dos testes “t”
OBJETIVO : Comparar a média de uma amostra com a média
conhecida de uma população.
Variável envolvida:
1-A variável da qual será obtida a média amostral que deve ser numérica
(contínua ou discreta). Há grande controvérsia quanto às ordinais,
teoricamente não, mas no mundo real utiliza-se bastante também as
ordinais.
Exemplos:- A média da pressão arterial dos policiais é equivalente à
média da população em geral?
-O no. de crises epilépticas dos pac.com cisticercose é equivalente ao no.
de crises da pop. em geral ?
-O nível educacional dos pais de formandos da universidade pública é
equivalente ao nível da pop. em geral.
SUPOSIÇÕES:1 A variável precisa ter distribuição normal, é
necessário realizar um teste de normalidade antes, c.c, a eficácia do teste
é bastante questionável.
2 As observações (xi) são independentes uma das outras.
Tese de hipótese associado
H0:
= µ X H1:
 µ ou H0: A média amostral é
equivalente à média da população X H1: Não é equivalente
(Bicaudal)
Teste estatístico: Se além da média da população também for
conhecido o dp é o teste z para uma amostra (raríssimo).
Quando estimamos o dp da nossa amostra será o teste t para
uma amostra.
Procedimento: a estatística
tem distribuição t com
n-1 graus de liberdade.
Então acho o valor da est. e comparo com o valor da distribuição t com
n-1 g.l. e nível de significância adotado. Normalmente (99.9%) = 0.05.
OU (mais comum) verifico qual a probabilidade do valor da est. numa
distr. t com n-1 g.l. e comparo com = 0.05. Se for menor rejeito HO
Exemplo: Foram coletadas amostras de sangue de 18 pacientes com
câncer e medida uma substância X, onde obtivemos média = 3.2 e
dp = 1.1. Sabe que na população o valor médio desta substância é 2.5.
Há diferença desta substância entre os pac. com câncer e a pop. em geral ?
Substituindo na fórmula temos: (3.2 - 2.5)/(1.1/rq18) = 2.69.
O valor de 2.69 numa distr. T com 17 g.l. equivale a uma ‘p value’ de
0.0146, menor que 0.05, portanto rejeito H0.
Como meu teste era bicaudal eu concluo que os pac. com câncer têm
média superior desta substância que a pop. em geral.
Graus de liberdade: Conceito ligado ao número de dados disponíveis
(livres) para o cálculo da estatística; número de componentes independentes menos o número de parâmetros estimados.
Sabe-se que o peso médio das jogadoras russas de voley é
de 65 kq. A CBV quer saber se as jogadoras brasileiras
possuem peso médio equivalente ou não a das russas, para
tanto coletou uma amostra de jogadoras e pesou-as, obtendo
os valores ao lado.
Percorrendo o nosso velho caminho ‘Stats’, ‘Basic
Statistics’, vamos em ‘1- Sample t’.
Na nova janela colocamos a
var. e o valor que queremos com
parar (65) com a nossa média.Ok
No output temos: o teste de hipótese explicitado, as estatísticas da var.
um intervalo de confiança da média da var., o valor da estatística e proba
bilidade a ele associado.
Logo se meu p-value < 0.001 eu rejeito H0 (0.001 < 0.05), como a média
das brasileiras é inferior à das russas, concluo que as brasileiras possuem
média significativamente inferior à das russa.
Clicando em ‘Options’, na tela seguinte controlamos
se o teste será bicaudal ou monocaudal.
OBJETIVO : Comparar as médias de duas amostras independentes.
Salientando que comparar as médias significa verificar se há ou não
diferença entre os valores de cada amostra, realizamos uma extrapolação
a partir do resultado.
Amostras independentes: As unidades amostrais, os elementos da
amostra, são diferentes em cada amostra, não há relação, não há vínculo
entre eles, são unidades amostrais diferentes em cada amostra.
Variáveis envolvidas:
1-A var. referente aos grupos que serão comparados, que pode ser cat.
nominal (Com/Sem), cat. ordinal ou quantitativas contínuas ou não, desde
que categorizadas em 2 categorias (Acima de x/Abaixo de x)
2 - A var. que será propriamente comparada, que deve ser numérica
(contínua ou discreta). Há grande controvérsia quanto às ordinais,
teoricamente não, mas no mundo real utiliza-se bastante também as
ordinais.
Exemplos:
- A média da taxa de iodo entre os sexos é equivalente.
-A renda média das famílias com filhos é semelhante à renda média das
famílias sem filhos.
- O valor de ansiedade (IDATE) de pessoas com mais de 1,70 de altura
é equivalente ao valor das pessoas com menos de 1,70
SUPOSIÇÃO :1 A variável que será comparada (2) precisa ter
distribuição normal, é necessário realizar um teste de normalidade
antes, c.c, a eficácia do teste é bastante questionável. O procedimento
correto é testar a normalidade para cada nível da var. categorizada
2 As observações (xi) de cada grupo são independentes uma das outras.
Graficamente
Tese de hipótese associado
H0: Média da amostra 1 = Média da amostra 2; X H1: Média da
amostra  Média da amostra 2 (Bicaudal)
Teste estatístico: Verificada e não rejeitada a hipótese de
normalidade é o teste t para amostras independentes.
Procedimento: a estatística
onde
tem distribuição t
(n1+ n2 - 2) graus de
liberdade.
Então acho o valor da est. e comparo com o valor da distribuição t com
(n1+n2 -2) g.l. e nível de significância adotado. Normalmente  = 0.05.
OU (mais comum) verifico qual a probabilidade do valor da est. numa
distr. t com (n1+n2-2) g.l. e comparo com = 0.05. Se for menor rejeito
HO
Observe que temos duas médias e dois desvios padrões estimados (um
de cada amostra), se os 2 desvios padrões não forem equivalentes,há uma
modificação na fórmula (não apresentaremos) e no número de graus de
liberdade. Portanto é necessário testar se os dps são ou não equivalentes.
Teste da homogeneidade das variâncias.
Exemplo: Duas amostras de 8 pgs foram coletadas. Uma das amostras
ingeriu uma caneca de café com uma concentração x de cafeína e a outra ingeriu uma caneca sem cafeína. Após ambos os grupos foram
assistir a aula de estatística e contou-se o no. de bocejos de cada aluno.
Será que a cafeína influi no grau de atenção ?
Calculo as médias e dps de cada grupo:
Calculo a parte inferior da fórmula
desvio padrão conjugado
Calculo a fórmula toda
Então meu teste forneceu o valor de 2.81. O valor de = 0.05 numa dist.
t com 14 g.l. é 2,15, como 2.81 > 2.15 Rejeito HO . De outro modo, o
valor 2,81 corresponde a uma p-value de 0.015, logo 0.015 < 0.05 Rej.H0
Uma pesquisa do CRM quer verificar
se os oftalmologistas recebem mais po
hora de plantão que os ortopedistas.
Temos uma coluna com a var. real_
hora(contínua) e uma com a variável
Med, onde 1 = Ort. e 2 = Oft.
Vamos em ‘Stat’, ‘Basic Stat..,e em
2-Sample t. Lembre-se que seria
necessário antes testar a normalidade
Aviso que as amostras estão em
uma coluna; Coloco a var. real_h
em’Samples’ e os grupos em‘Subscripts’.
Observe que ao não marcar o
campo ‘Assume equal variances’
estou assumindo que as variâncias
NÃO são equivalentes. E OK
Two-sample T for real_hora
med
N
Mean
StDev
1
125
32,1
15,3
2
65
34,8
24,9
Difference = mu (1) - mu (2)
Estimate for difference: -2,77
T-Test of difference = 0 (vs not =):
T-Value = -0,82
P-Value = 0,414 DF = 89
Temos o tamanho de cada grupo
com suas médias e dps, uma
estimativa da diferença, o teste de
hipótese,o valor do teste, o valor
de p-value e o no. de graus de
liberdade.
Repare que o no. de g.l. = 89 é diferente de (n1+ n2 - 2) pois assumi
que as variâncias não eram equivalentes, mas como sei isto? Testando.
Vamos... em ‘2 Variances’ e na tela resultante
preenchemos Samples e Subscripts como anteriormene e OK
Temos um I.C, as estimativas do dp,o
Teste F e o de Levene que comparam se
dois desvios padrões são ou não
equivalentes.
O p-value < 0.001 indica que
rejeitamos a hipótese H0 de
igualdade entre as variância.
Portanto quando rejeito a hipótese de igualdade dos dps.eu não assinalo
o quadrado de “Assume equal variances”; se não rejeito a igualdade das
variâncias eu assinalo o quadrado.
Se clicarmos botão ‘Options’ da tela do
teste t para 2 amostras teremos a tela ao
lado, onde podemos controlar se deseja
mos um teste bicaudal (not equal) ou
monocaudal (less than ou greater than)
Portanto antes de realizar o teste t para amostras independentes é
necessário testar a normalidade e se as variâncias são homogêneas.
OBJETIVO: Comparar as médias de duas amostras pareadas,
correlacionadas, ou seja, não independentes.
Amostras pareadas são aquelas em as medidas são realizadas na
mesma unidade amostral, o sujeito é controle dele mesmo. A situação
mais comum ocorre quando realizamos uma medida antes de algum
procedimento, evento, e depois realizamos a mesma medida após o
procedimento, evento, na mesma amostra.
Entretanto há outras situações, como duas medidas comparáveis em uma
unidade amostral, p. ex., comparar o lado direito contra o esquerdo na
mesma unidade amostral, ou comparar duas técnicas realizadas na
mesma unidade amostral.
Variáveis envolvidas:
1 - A var. que será propriamente comparada, que deve ser numérica
(contínua ou discreta). Há grande controvérsia quanto às ordinais,
teoricamente não, mas no mundo real utiliza-se bastante também as
ordinais.
Tenha atenção, pois na planilha os valores referentes à 1a. medida devem
estar numa coluna e os valores referentes à 2a. medida em outra coluna,
e, obviamente, as medidas do mesmo unidade amostral na mesma linha.
Motivos para usarmos este teste e não o teste t para amostras
independentes: 1 - O fato da mesma unidade amostral ser utilizada duas
vezes introduz uma correlação, a medida do “depois” pode depender, até
certo ponto, da medida do “antes”. Exemplo das dietas.
2 - Este teste é mais poderoso que o teste para amostras independentes,
uma das maiores fontes de variabilidade é a variabilidade entre os
sujeitos, repetindo as medidas nos mesmos sujeitos a variabilidade entre
sujeitos é menor (o sujeito é controle dele mesmo), e portanto uma real diferença entre as medidas é mais fácil de ser detectada. Amostras menores.
Teste de hipótese associado
H0: A diferença entre as médias = 0; X H1: A diferença entre as
médias  0 Observe que este teste é semelhante ao teste t para uma
amostra, teremos uma nova “variável” que é a diferença = Antes - Depois,
e testaremos se a sua média difere ou não significativamente de 0
Teste estatístico: Teste t para amostras pareadas ou correlacionadas.
Procedimento: Exemplificando para facilitar: Temos duas medidas
realizadas nos mesmos sujeitos
Suj Antes Depois Antes - Depois O passo inicial é computarmos as
1 420
380
40
diferenças e calcularmos a média
2 235
230
5
das diferenças. Repare que a média
3 280
300
-20
das diferenças é igual a diferença
4 360
260
100
das médias. Depois calculo o des
5 305
295
10
vio padrão da diferença = 34.4
6 215
190
25
7 200
200
00
De posse da média e do dp da di8 460
410
50
ferença vou realizar um teste t pa9 345
330
15
ra uma amostra, comparando a mé
10 375
380
-5
dia da diferença amostral com a méMédia 319.5 297.5
22
dia conhecida 0
Portanto utilizamos a estatística do teste t para uma amostra:
(Média - )/(s/rqn), onde sempre substituiremos  por zero, e já sabemos
que esta estatística tem uma distribuição t com número de pares -1 graus
de liberdade. A conclusão do teste é sempre a mesma:
Se o t estimado for maior que o t tabelado Rejeito H0, ou se o ‘p-value’
for menor que o nível de significância adotado (0.05) Rejeito H0.
Terminando o exemplo temos (22 - 0)/(34.4/rq10) = 22/10.9 = 2.02
Este valor corresponde a uma probabilidade na tabela t com 9 g.l. (no.de
pares -1) igual a 0.074. Rejeito ou não H0, qual a conclusão?
SUPOSIÇÃO :1 A variável ‘DIFERENÇA’ precisa ter distribuição
normal, é necessário realizar um teste de normalidade antes, c.c, a
eficácia do teste é bastante questionável. Portanto teste a normalidade da
variável Diferença e não a normalidade das variáveis originais.
2 As diferenças (di) são independentes uma das outras.
Um grupo de 56 crianças obesas foi
submetido a uma dieta, teste se 3
meses após houve redução
significativa do peso.
Stats, Basic Statistics, e vamos em
‘Paired t’.
Na nova tela coloco o peso antes
em ‘First sample’ e o peso depois
em ‘Second sample’
Qual tipo de teste posso realizar
nesta situação, mono ou bicaudal ?
Paired T-Test and CI: pesoant; pesodep
Paired T for pesoant - pesodep
N
Mean
StDev SE Mean
pesoant
56 69,98 9,58
1,28
pesodep
56 64,98 11,34
1,51
Difference 5 -5,000 2,355
0,315
95% CI for mean difference: (-8.00;- 2.00)
T-Test of mean difference = 0 (vs > 0):
T-Value = -15,95 P-Value = 0,000
Portanto aplicando um teste monocaudal (fui em Options e clicei em
Greater Than) temos as estatísticas descritivas, o I.C. de 95% para a
diferença da média, o teste de hipótese (monocaudal), o valor de T
estimado e o p-value relativo a ele. Rejeitamos H0, há queda
significativa
1)Comparar uma média amostral
com uma média conhecida, se dp
conhecido: Teste Z
Se dp desconhecido
(estimado a partir da
amostra) :
Teste t para uma amostra
Verificar a normalidade
2)Comparar duas médias amostrais
Teste t para amostras
independentes (unidades amostrais
independentes
distintas)
- Verificar normalidade da amostra em cada grupo
- Verificar homogeneidade das variâncias (teste F)
3)Comparar duas médias amostrais Teste t para amostras
pareadas ou correlacionadas
pareadas
(mesma unidade amostral)
- Verificar normalidade da “variável diferença”
Download

Aula 4 - FMRP/USP