Ref.: Johnson e Wichern, Cap. 4
 Alguns métodos de Inferência Estatística partem do
pressuposto de normalidade dos dados.
 A qualidade das inferências feitas por estes métodos
depende de quão próxima é a população em estudo da
normal multivariada.
 Procedimentos para verificação de dados que
apresentam desvios da suposição de normalidade se
fazem necessários.
PROBLEMA: As observações Xi parecem violar a
suposição de normalidade?
 Sugestão: verificar se as distribuições marginais do
vetor aleatório parecem normais;
 se os diagramas de dispersão das variáveis tomadas
duas a duas têm uma aparência elíptica;
 se existem observações discrepantes (outliers) que
mereçam ser verificadas.
Avaliação da normalidade das
distribuições marginais
 Histogramas para tamanhos amostrais superiores ou
iguais a 25 podem revelar situações nas quais uma
cauda da distribuição seja mais pesada do que a outra.
 Se o histograma para a j-ésima componente do vetor de
observações parece razoavelmente simétrico, podemos
verificar a normalidade calculando a proporção de
valores que caem em determinados intervalos
comparando-a com a proporção esperada sob
normalidade.
Avaliação da normalidade das distribuições marginais
 Por exemplo, numa distribuição normal univariada a
probabilidade de um valor cair no intervalo que dista um
desvio-padrão da média é cerca de 68%; a probabilidade de
um valor cair no intervalo que dista dois desvios-padrão da
média é cerca de 95%; etc.
 Assim, se observarmos proporções amostrais muito
diferentes do que se espera no caso da normal, a hipótese
de normalidade deve ser descartada.
 Gráficos são sempre ferramentas úteis em qualquer análise
de dados. Gráficos especiais chamados Q-Q plots podem
ser usados para avaliar a suposição de normalidade.
Q-Q plots
 Construídos a partir das distribuições marginais de cada componente





do vetor p-variado.
São de fato um gráfico do quantil amostral versus quantil esperado sob
normalidade (podem ser usados para validar outras distribuições
diferentes da normal).
Quando a configuração de pontos no gráfico se aproxima de uma reta, a
suposição de normalidade é sustentável.
A normalidade é suspeita se houver pontos que se desviam do
comportamento linear.
A forma como os pontos se desviam do comportamento linear pode
fornecer pistas sobre a natureza da não normalidade das observações.
Conhecida a razão da não normalidade dos dados, ações corretivas
podem ser tomadas (transformações visando normalizar os dados ou
uso de técnicas para dados não normais).
PASSOS NA CONSTRUÇÃO DO Q-Q plot
 Ordenar os n valores da j-ésima componente do vetor
aleatório. Seja x(1)  x(2)  ...  x(n) as observações
ordenadas. Os x(i ) ‘s são os quantis amostrais
(i=1,2,...,n).
 Quando todos os quantis amostrais são distintos entre
si, então exatamente i observações são menores ou
iguais a x(i ) ' s.
 A proporção i/n da amostra à esquerda de x(i) é
frequentemente aproximada para (i-0,5)/n por
conveniência analítica.
PASSOS NA CONSTRUÇÃO DO Q-Q plot
 Para uma distribuição normal padrão, podemos obter
os quantis q(i) tais que P(Z≤ q(i))=(i-0,5)/n.
 A idéia será olhar os pontos (q(i),x(i)) com a mesma
probabilidade acumulada (i-0,5)/n.
 Se os dados, de fato, provêm de uma normal, os pares
serão aproximadamente linearmente relacionados,
pois o quantil esperado sob normalidade é
aproximadamente σ q(i)+μ, com σ representando o
desvio-padrão e μ a média da distribuição.
Usando o R para a construção do Q-Q plot
 No R temos a função ppoints(n) que gera o vetor de
valores (i-0,5)/n, para i variando de 1 a n.
 Para gerar os quantis esperados sob normalidade
usaremos a função qnorm(p), que retorna o quantil
cuja probabilidade acumulada é p. (Quando não
especificamos nada além de p, o R retorna quantis da
N(0,1)).
 A função usada para ordenar um vetor de números no
R é a função sort(x).
Construção do Q-Q plot das medidas do conjunto de
dados crabs do pacote MASS
 Carregue o pacote MASS.
 Digite data(crabs).
 Os dados estão organizados de tal modo que as colunas de
4 a 8 representam medidas morfológicas de caranguejos de
duas espécies (linha 1 a 100 uma espécie e de 101 a 200 a
outra).
 Também há a divisão por gênero (macho e fêmea) tal que as
50 primeiras linhas de cada espécie são do gênero macho e,
as restantes, do gênero fêmea.
 Vamos construir 20 QQ-plots representando cada uma das
5 medidas dos 4 grupos caracterizados por espécie e
gênero.
Construção do Q-Q plot das medidas do
conjunto de dados crabs do pacote MASS
 Como n=50 em cada grupo espécie e gênero, faça
prop=ppoints(50)
 Calcule o vetor de quantis esperados sob normalidade:
quantilesp=qnorm(prop)
 Ordene os valores observados: x1=sort(crabs[1:50,4])
 Construa o gráfico: plot(quantilesp,x1).
 Para que os 20 gráficos fiquem numa única página use
a função par(mfrow=c(4,5))
Avaliação da normalidade das distribuições
marginais
 Uma medida quantitativa para auxiliar na avaliação do
Q-Q plot é calcular a correlação rQ entre os quantis
esperados e o vetor observado ordenado.
 A hipótese de normalidade é rejeitada ao nível de
significância α se rQ obtido for menor que um valor
apropriado.
 Por exemplo, ao nível de significância de 5% amostras
de tamanho 50, a hipótese deve ser rejeitada se rQ for
inferiro a 0,9768.
Correlações obtidas na base de dados crabs
 grupo 1: 0,9929 0,9899 0,9924 0,9924 0,9910
 grupo 2: 0,9901 0,9939 0,9931 0,9940 0,9924
 grupo 3: 0,9902 0,9943 0,9907 0,9903 0,9893
 grupo 4: 0,9919 0,9903 0,9915 0,9912 0,9939
 Limiar: 0,9768.
 Logo, verifica-se que nenhuma das correlações fica
abaixo do limiar especificado pelo nível de
significância de 5%, evidenciando a não rejeição da
hipótese nula de normalidade das distribuições
marginais.
Teste de normalidade de Shapiro-Wilk
 Esse teste, proposto em 1965, calcula uma estatística W que testa se uma
amostra aleatória de tamanho n provém de uma distribuição normal.
Valores pequenos de W são evidência de desvios da normalidade e
pontos percentuais para a estatística W, podem ser obtidos via simulação
2
 n

de Monte Carlo.
  ai x(i ) 

 A estatística W é calculada de acordo com a seguinte equação: W   ni 1
2
 xi  x 
i 1
em que os x(i)’s são os valores amostrais ordenado e os ai‘s são constantes geradas
das médias, variâncias e covariâncias das estatísticas de ordem de uma amostra
aleatória de tamanho n de uma distribuição normal.
 Em comparação a outros testes de bondade de ajuste, esse teste comporta-se bem.
 No R existe a função shapiro.test(x).





















data:
data:
data:
data:
data:
data:
data:
data:
data:
data:
data:
data:
data:
data:
data:
data:
data:
data:
data:
data:
Resultados da aplicação do teste de normalidade de Shapiro-Wilk aos dados “CRABS”
x1 --> W = 0.9817, p-value = 0.6268
x2 --> W = 0.9771, p-value = 0.4361
x3 --> W = 0.9815, p-value = 0.6179
x4 --> W = 0.9817, p-value = 0.6234
x5 --> W = 0.9777, p-value = 0.4592
y1 --> W = 0.9793, p-value = 0.5233
y2 --> w = 0.9846, p-value = 0.7538
y3 --> W = 0.9843, p-value = 0.7395
y4 --> W = 0.9866, p-value = 0.8386
y5 --> W = 0.9824, p-value = 0.6565
z1 --> W = 0.9758, p-value = 0.3918
z2 --> W = 0.9869, p-value = 0.8496
z3 --> W = 0.9771, p-value = 0.4366
z4 --> W = 0.9765, p-value = 0.4142
z5 --> W = 0.9742, p-value = 0.3411
w1 --> W = 0.9802, p-value = 0.5612
w2 --> W = 0.9804, p-value = 0.5683
w3 --> W = 0.9799, p-value = 0.5474
w4 --> W = 0.9801, p-value = 0.5568
w5 --> W = 0.9839, p-value = 0.7228
Avaliando compostos lineares
 Compostos lineares podem ser investigados. Alguns
textos sugerem trabalhar com o composto linear
T
eˆ1 xi
com
Seˆ1  ˆ1 eˆ1 e ˆ1
representando o maior autovalor de S.
O composto linear:
eˆ p xi
T
com
Seˆ p  ˆp eˆ p e ˆp
representando o menor autovalor de S também
costuma ser usado.
Avaliando compostos lineares
 Para avaliar os compostos sugeridos no slide anterior,
primeiro devemos obter os n valores correspondentes
a tais compostos. Por simplicidade, consideraremos
apenas o primeiro grupo. A verificação para os demais
grupos fica como um exercício.
 Primeiro vamos obter a decomposição espectral de S1
fazendo DES1=eigen(S1).
 DES1 receberá dois objetos: o vetor de autovalores em
ordem decrescente de magnitude e a matriz ortogonal
na qual as colunas são os autovetores correspondentes.
Avaliando compostos lineares





DES1$vectors[,j] representa o j-ésimo autovetor.
Faça e1=matrix(0,1,5) e e5=matrix(0,1,5)
Depois faça for (i in 1:5){e1[i]=DES1$vectors[i,1]} e
for (i in 1:5){e5[i]=DES1$vectors[i,5]}
Defina xc=matrix(0,50,2), matriz que receberá em cada
coluna um dos compostos a serem analisados.
 Finalmente, obtenha os compostos: (x1 representa a
matriz de dados do grupo 1)
for (i in 1:50){xc[i,1]=e1%*%x1[i,]} e
 for (i in 1:50){xc[i,2]=e5%*%x1[i,]}
Resultados
Teste de Shapiro-Wilk
 Shapiro-Wilk normality test
 data: xc[, 1]
 W = 0.9812, p-value = 0.6055
 > shapiro.test(xc[,2])

Shapiro-Wilk normality test
 data: xc[, 2]
 W = 0.9661, p-value = 0.1603
Avaliação da Normalidade bivariada
 Em trabalhos práticos, geralmente é suficiente
investigar as distribuições uni e bivariadas subjacentes.
 Se as observações foram geradas de uma distribuição
normal multivariada, cada distribuição bivariada será
normal e os contornos de densidade constante serão
elipses.
 O diagrama de dispersão deve-se ajustar a essa
estrutura exibindo uma forma elíptica.
Avaliação da Normalidade bivariada
 Além disso, vimos que se

X ~ N p (, ) ,

então
P X    1 X      22(0,5)  0,50.
T
A grosso modo, devemos esperar que cerca de 50% das observações
caiam na região (no elipsóide)
x  x T S 1 x  x    22(0,5)
Assim um procedimento útil, embora não exato, é comparar
as proporções de pontos dentro de um contorno com a probabilidade teórica correspondente.
Avaliação da Normalidade bivariada
 Um método um pouco mais formal para julgar a
normalidade bivariada é baseado no quadrado da
distância generalizada
di2  xi  x  S 1 xi  x , i  1,2,...n
T
Esse procedimento não é limitado ao caso p=2, pode ser usado.
para p>2.
Avaliação da Normalidade bivariada
 Quando a população é de fato normal multivariada e
ambos n e n-p são maiores que 25 ou 30, cada uma das
distâncias generalizadas quadradas devem comportarse segundo uma distribuição de qui-quadrado com p
graus de liberdade.
 Apesar dessas distâncias não serem independentes ou
terem distribuição exata de Qui-quadrado, é útil
construir um gráfico como se fossem.
 O gráfico resultante é chamado gráfico qui-quadrado.
Construção do gráfico qui-quadrado
 1. Ordene as distâncias quadradas amostrais obtendo
d(21)  d(22)  ...  d(2n)
2. Construa o gráfico de dispersão dos pontos:
d
2
(i )

,  p2(i0,5) / n , com  p2(i-0,5 )/n
representando o 100(i-0,5)/n quantil da distribuição de
qui-quadrado com p graus de liberdade.
A nuvem de pontos deve se ajustar a uma reta. Um padrão
diferente sugere falta de normalidade
Verificando a normalidade bivariada dos
dados em crabs
 Para começar devemos calcular as distâncias
quadradas. Para isso vamos definir a matriz de dados
x=matrix(0,200,5) e fazer x1=x[1:50,1:5].
 Em seguida vamos calcular o vetor de médias
m1=matrix(0,1,5) // for (i in 1:5){m1[i]=mean(x1[,i])}
e a matriz de covariância amostral S1=cov(x1).
 Defina o vetor que receberá as distâncias quadradas:
dquad1=matrix(0,50) e faça
for (i in 1:50){dquad1[i]=(x1[i,]-m1)%*%solve(S1)%*%t(x1[i,]-m1)}
Verificando a normalidade bivariada dos
dados em crabs
 Em seguida obtenha o vetor prop=ppoints(50) para
calcular o vetor de quantis (esperados)
qui=qchisq(prop,5)
 Agora é só construir o gráfico.
 A figura a seguir mostra os gráficos obtidos para os
quatro grupos.
 Também podemos calcular as porcentagens em cada
caso das distâncias quadradas que ficaram abaixo do
quantil de 50% da qui-quadrado com 5 graus de
liberdade. Nesses caso em particular, observou-se
60%, 62%, 50% e 50%, respectivamente.
Transformações de normalização
 Se a suposição de normalidade dos dados não é plausível, que
estratégia adotar?
 1) Usar técnicas estatísticas apropriadas para dados não-normais,
após verificar a distribuição plausível para os dados (Poisson,
Gamma,etc.)
 2) Transformar os dados para uma nova escala, sob a qual a
suposição de normalidade é plausível.
 Aqui, somente trataremos da transformação, pois técnicas a
serem estudadas a seguir são voltadas para dados normais.
 Transformações não são nada mais do que uma forma de
reescrever os dados numa unidade diferente.
Transformações úteis
Escala original
Escala transformada
Contagens (y)
y
Proporções ( p
ˆ)
Correlações (r)
1  pˆ 

logit( pˆ )  log
2  1  pˆ 
Fisher
z (r ) 
1 1 r 
log

2  1 r 
Transformações de normalização
 Em muitas situações a escolha para melhorar a
aproximação normal não é óbvia. Para tais casos é
conveniente deixar que os dados mostrem uma
transformação. Uma família útil de transformações
para esse propósito é a família de transformações de
potências : xλ.
 As transformações de potência só estão definidas para
variáveis positivas. Porém, isso não é tão restritivo
quanto parece, porque uma única constante pode ser
adicionada a cada observação no conjunto de dados se
alguns dos valores observados forem negativos.
Transformações de normalização
 Box e Cox consideraram a seguinte família de
transformações de potência modificada:
x ( )
 x 1

   ,  0
 ln  ,   0
que é contínua em λ para x>0.
Dada a amostra, escolhe-se λ de modo a maximizar:
n
n  1 n ( )
( ) 2 
l ( )   ln   ( x j  x )   (  1) ln xi
2  n i 1
i 1

Transformações de normalização
 Observação: A transformação obtida geralmente melhora
a aproximação à normalidade.
 Porém, não há garantias de que mesmo a melhor escolha de
λ produzirá um conjunto de dados transformados que seja
adequado à suposição de normalidade.
 Os resultados obtidos por uma transformação selecionada
de acordo com esse procedimento devem ser
cuidadosamente examinados para possíveis violações da
suposição de normalidade.
 Essa recomendação de fato vale para qualquer
transformação usada.
Download

AVALIAÇÃO DA SUPOSIÇÃO DE NORMALIDADE