Capítulo 12 – Correlação
12.1 Introdução e problemática
12.2 Fórmulas e gráficos do coeficiente de correlação
12.3 Exemplo: a correlação entre tempo de secagem e a dureza
de Brinell
12.4 Intervalo de Confiança
12.5 Teste de hipótese
12.6 As suposições que garantem a representatividade do
coeficiente de correlação estimado
12.6.1 Linearidade
12.6.2 Estacionaridade
12.6.3 Normalidade
12.7 Autocorrelação
12.7.1 Autocorrelação e estacionaridade
12.7.2 Autocorrelação e sazonalidade
12.8 Coeficiente de correlação cruzada
12.10 Conclusões do capítulo
12.11 Referências
12.12 Anexo de dados
1
12.1 Introdução
É muito comum em pesquisas baseadas em variáveis quantitativas e
mensuráveis tentar medir o grau de relacionamento entre elas. No caso da
relação ser linear, isto pode ser feito através do coeficiente de correlação
linear. É o caso, por exemplo, quando se propõe uma teoria ou hipótese
que interliga dois fenômenos, e então comprova estatisticamente a
existência da relação, utilizando-se amostras das variáveis.
Isso não significa necessariamente que as duas variáveis possuem uma
relação de causa e efeito. O relacionamento é necessário para
comprovar causa e efeito, mas não é suficiente para ser prova definitiva.
No caso industrial, por exemplo, é imprescindível analisar como
os insumos em um processo produtivo relacionam com
características de qualidade dos produtos e processos.
Encontrando as relações entre variáveis no processo, o
engenheiro pode melhorar o resultado, economizar recursos
materiais e humanas, e oferecer em geral um processo
otimizado.
2
12.2 Fórmulas e gráficos do coeficiente de
correlação
A covariância e variância são matematicamente conceitos muito próximos. A diferença
é que a covariância mede a relação entre duas variáveis distintas enquanto a variância
depende de uma única variável. veja capítulo 2. Por definição, a covariância
populacional é dada pela seguinte expressão:
(Xi -μ X )  Yi - μ Y 
A variância populacional é
uma expressão similar, mas
com apenas uma única
σX 2 =
variável,
σXY =
 (Xi -μX )  Xi - μX 
A covariância amostral (n é o tamanho da
amostra):
N
SXY 

N
=
2
(X
-μ
)
 i X
N
 (Xi - X)(Yi - Y)
n -1
Os valores do coeficiente de correlação estão sempre contidos no
intervalo [-1; +1], ou seja, -1 ≤ r ≤ 1. Este é um resultado muito importante,
por que pelo fato de ser padronizado, o coeficiente de correlação não
depende da unidade de medida.
(X
X
)(
Y
Y
)

t
t
SXY
r=
r 
 SXY  r SXSY
2
2
X




X
Y

Y
SXSY
t
t
3
Figura 12.1 – Nuvens de dados com
relação fraca e mal definida.
Y
Y
Nuvem de
dados,
Nuvem de
dados,
maldefinida.
mal-definida.
X
r = - 0,03
X
r = 0,03
4
Figura 12.2 – Nuvens de dados com relação
perfeita entre variáveis, r igual a 1,0 ou -1,0
Y
X
A inclinação da reta não afeta o valor numérico de r reforçando a
idéia de que o r não é uma medida de inclinação, mas sim uma
medida de adesão e representação de correlação sobre os pares
de dados da amostra, e por inferência da população.
5
12.3 Exemplo: a correlação entre tempo
de secagem e a dureza de Brinell
No exemplo ilustrado na tabela 12.1, calculamos o coeficiente de correlação entre
a dureza de um plástico medida em unidades de Brinell e o tempo de secagem
numa maneira passo a passo para acompanhar melhor as operações. O tamanho
da amostra é 16 peças vindas de um lote de 2000. O coeficiente pode ser
calculado com a soma da última coluna (2604) dividida pela raiz quadrada da
soma da penúltima coluna (1280) e pela raiz quadrada da soma da quinta coluna
(5443,9). Também, pode ser calculado com a covariância (173,6) dividido pelo
produto dos dois desvios padrão (19,05; 9,24). O resultado do cálculo é 0,986, e
significa uma fortíssima relação.
6
Tabela 12.1 –
O cálculo do
coeficiente de
correlação
entre dureza e
minutos de
secagem.
(1)
OBSER.
Yi Dureza
em
Brinell
Xi minutos de
secagem
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
199
205
196
200
218
220
215
223
237
234
235
230
250
248
253
246
16
16
16
16
24
24
24
24
32
32
32
32
40
40
40
40
SOMA =
MÉDIA
=
226
(Yt -Y)
(Yt -Y)2
-26,6
-20,6
-29,6
-25,6
-7,6
-5,6
-10,6
-2,6
11,4
8,4
9,4
4,4
24,4
22,4
27,4
20,4
705,6
422,8
873,9
653,4
57,2
30,9
111,6
6,6
130,8
71,2
89,1
19,7
597,2
503,4
752,8
417,7
-12
-12
-12
-12
-4
-4
-4
-4
4
4
4
4
12
12
12
12
144,0
144,0
144,0
144,0
16,0
16,0
16,0
16,0
16,0
16,0
16,0
16,0
144,0
144,0
144,0
144,0
318,75
246,75
354,75
306,75
30,25
22,25
42,25
10,25
45,75
33,75
37,75
17,75
293,25
269,25
329,25
245,25
0,0
5443,9
0,0
1280,0
2604,0
(X t -X)
Y
Y
)
(
X
X
)
(Xt -X)2 (
t
t
28
DESVIO PADRÃO Y = 19,05
DESVIO PADRÃO X = 9,24
COVARIANCIA = 173,6
COEFICIENTE DE CORRELAÇÃO = 0,986
7
12.4 Intervalo de Confiança
Uma vez definido o nível de confiança desejado (1 – α), os
elementos do cálculo do intervalo são o coeficiente estimado
r, o desvio padrão sr e o valor da distribuição normal
padronizada (Z) que corresponde ao nível de confiança
exigido pelo pesquisador.
IC(ρ,1-α) = rXY ± Z(1-α)sr
O desvio padrão do coeficiente
de correlação é um termo
extremamente complexo, quase
impossível calcular.
8
Continuação: 12.4 Intervalo de
Confiança
O coeficiente de correlação não segue a distribuição normal,
pois é assimétrica. No entanto, foi desenvolvida uma
expressão pelo famoso Estatístico R. A. Fisher que
transforma o coeficiente r em variável que segue a
normalidade, z de Fisher
 (1+r) 
z de Fisher = 0,5 ln

 1-r  
A estatística z de Fisher é distribuída
normalmente e tem desvio padrão
igual a
σz de Fisher = 1/√n-3
9
Continuação (ainda): 12.4 Intervalo
de Confiança
1
 1+r 
IC(z;0,95) = 0,5 ln
± z 0,95

n-3
 1-r 
IC ( z;0,95)  0,5ln
1  0,986
1
 1,96
 2, 477  0,543  (3, 02;1,934)
1  0,986
16  3
O valor z de Fisher = 3,02 significa que r = 0,995. Este resultado vem
diretamente da equação 0,5*ln[(1+r)/(1-r)] = 3,02. O limite inferior do
intervalo de confiança para r é do valor z = 1,934 transformado para r = 0,959
da expressão 0,5*ln[(1+r)/(1-r)] = 1,934.
IC(ρ; 0,95) = (0,995; 0,959)
10
12.5 Teste de hipótese
SUPONDO as duas variáveis (X,Y) são distribuídas
normalmente, onde
a hipótese nula (H0) é ρ = 0.
A hipótese alternativa (H1) é ρ não = 0.
É possível mostrar que a seguinte expressão:
Estatística t deGosset =
(r 2 )  n  2
2
1-r
 
com n - 2 graus de liberdade
11
Continuação: 12.5 Teste de
hipótese
• Para calcular o valor de t de Gosset
utilizamos os números, n = 16, r = 0,986,
o que produziu um valor t = 22,125 e
valor-p é praticamente zero.
• Isto quer dizer que forte correlação é
observada, e, portanto rejeitamos a
hipótese nula de correlação zero com
quase nenhum risco de errar.
12
Tabela 12.2 – Valores da estatística t de Gosset que rejeitam
H0: ρ = 0 para α = 0,01 (área sombreada) e para valores
correspondentes de r e n.
r=
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,55
0,60
0,65
0,70
0,75
0,80
0,85
0,90
0,95
n = 12
3,21
3,77
4,56
5,84
8,61
n = 52
3,02
3,49
4,00
4,56
5,20
5,93
6,79
7,86
9,24
11,18
14,30
21,08
n = 102
3,11
3,70
4,32
4,99
5,72
6,52
7,42
8,47
9,70
11,22
13,20
15,97
20,44
30,12
n = 152
n = 202
3,14
3,83
4,55
5,31
6,13
7,02
8,01
9,12
10,41
11,92
13,79
16,22
19,63
25,12
37,01
2,87
3,63
4,43
5,26
6,14
7,09
8,12
9,27
10,55
12,04
13,79
15,96
18,76
22,70
29,05
42,81
13
12.6 As suposições que garantem a
representatividade do coeficiente de
correlação estimado
• Se os dados não são bem comportados, então há grande
possibilidade de que os resultados não são confiáveis, as
estimativas não representam fielmente a relação. Relações
fracas podem aparecer enganosamente fortes e vice-versa.
• Dados mal-comportados têm que ser tratados com vários
tipos de transformações antes de entrar nas fórmulas.
• Os dados devem seguir fielmente pelo menos três
características:
• linearidade, normalidade, e estacionaridade.
14
12.6.1 Linearidade
• O coeficiente de correlação é uma medida de
relacionamento, sempre supondo que a relação
entre elas é linear. No gráfico de dispersão de XY, a
relação linear é representada por uma linha reta.
• Uma relação forte e bem definida, mas em forma
não-linear, por exemplo, quadrática, vai produzir um r
com valor artificialmente baixo, e levará o
pesquisador a não enxergar relações existentes e às
decisões erradas.
• Por isso, a relação das variáveis deve ser
linearizada antes de entrar no cálculo do coeficiente.
15
Tabela 12.3 – Dados de
volume e pressão do
experimento de Boyle
VOLUME
48
46
44
42
40
38
36
34
32
30
28
26
24
23
22
21
20
19
18
17
16
15
14
13
12
PRESSÃO
29,125
30,5625
31,9375
33,5
35,3125
36,78947
39,3125
41,11765
44,1875
46,6
50,3125
54,3125
58,25
61,3125
63,54545
66,57143
70
74,25
77,666
82,75
87,875
93,0625
100,4375
107,8125
117,5625
16
Figura 12.3 – A relação não-linear
entre volume (V) e pressão (P)
17
Figura 12.4 – A relação linear entre a inversa de
volume (1/V) e pressão (P)
18
Tabela 12.4 – Coeficientes de correlação entre
variáveis transformadas
Tabela de Correlação
Variáveis Nº obs. VOLUME PRESSÃO VOLUME_^-1 VOLUME_^-2 VOLUME_^2
VOLUME
25
1,0000
-0,9348
-0,9354
-0,8623
0,9877
PRESSÃO
25
-0,9348
1,0000
0,9999
0,9848
-0,8718
VOLUME_^-1
25
-0,9354
0,9999
1,0000
0,9844
-0,8724
VOLUME_^-2
25
-0,8623
0,9848
0,9844
1,0000
-0,7815
VOLUME_^2
25
0,9877
-0,8718
-0,8724
-0,7815
1,0000
19
12.6.2 Estacionaridade
O comportamento de não estacionaridade é associado ao fenômeno
chamado de caminhada aleatória, muito utilizado na área de finanças.
Numa caminhada aleatória, a diferença entre dois dados subseqüentes é
uma quantia aleatória et, da distribuição normal e com média nula e
desvio padrão fixo. Em forma de equação é
Yt+1 = Yt + et
O próximo valor de Y é desconhecido, mas tem limites em termos
estatísticos que vem das propriedades de et com desvio padrão fixo.
Em outras palavras, a melhor previsão possível de Y é
o seu valor hoje.
Estacionaridade é um caso extremo de uma característica chamada
auto correlação, apresentada embaixo na seção do mesmo nome.
20
Figura 12.5 – Duas variáveis não
estacionárias, preços de ações
100
80
valores
60
40
Yt
Xt
20
0
-20
tempo
-40
21
Figura 12.6 – Variáveis nãoestacionárias transformadas pela
primeira diferença
20
15
10
valores
5
Yt - Yt-1
Xt - Xt-1
0
-5
-10
-15
-20
tempo
22
Tabela 12.5 – Coeficientes de correlação entre
variáveis não estacionárias e transformadas com a
primeira diferença para torná-las estacionárias
Tabela de Correlação
Variáveis
Nº obs.
Yt
Xt
Yt – Yt-1
Xt – Xt-1
Yt
99
1,0
0,595
0,109
0,093
Xt
99
0,595
1,0
-0,067
0,239
Yt – Yt-1
99
0,109
-0,067
1,0
0,111
Xt – Xt-1
99
0,093
0,239
0,111
1,0
23
12.6.3 Normalidade
• Para distinguir se a correlação realmente existe na
população ou não, dependemos de um teste de hipótese.
• Nesta decisão, é necessário calcular o valor da
estatística t de Gosset e utilizar os valores mínimos do
coeficiente da tabela 12.2.
• Quem utiliza o coeficiente de correlação em geral não
se preocupa com a pressuposição básica de normalidade
das duas variáveis, embora a normalidade dos dados
seja exigência básica dos testes de hipótese.
• Se os dados não são distribuídos normalmente, o teste
de hipótese com a estatística t de Gosset não é
confiável.
24
Tabela 12.6 – Transformações e a estatística de
Bera-Jarque para testar normalidade
Nas fabricas, a variável tempo é mensurada com freqüência Nos dados da
tabela no anexo do capítulo, constam o tempo ativo e inativo de uma
máquina injetora de plástico numa fábrica de telefones celulares. Esses
dados foram utilizados no capítulo 2 para desenhar as caixas de medianas.
Variável
Jarque-Bera
sem
transformação
Lambda
transforma
ção simples
JarqueBera com
transform
ação
simples
JarqueBera com
transforma
ção ln
TEMPO ATIVO
19,52
-0,37
3,56
4,67
TEMPO
INATIVO
5,76
0,58
1,27
129,63
SOMA
7,39
-0,58
0,78
1,87
QUANTIA PED
4,29
0,79
3,66
12,02
25
Discussão sobre Tabela 12.7 – Coeficientes de
correlação entre variáveis originais e
transformadas
• Algumas características da tabela 12.7 que devem ser
destacadas, considerando que a tabela é muito comum para
análises de correlação.
• A correlação entre uma variável e ela mesma é perfeita e, portanto
o diagonal só tem valores unitários para estes coeficientes.
Somente um lado da matriz é apresentado porque os valores são
simétricos.
• O coeficiente entre tempo ativo transformada com expoente -0,37,
e o logaritmo de tempo ativo é igual a -1,00 e isso significa que as
duas transformações são na prática iguais, claro com a única
diferença sendo o sinal.
• Isso não e o caso com a variável SOMA, as transformações da
variável não tem correlação com a variável original.
26
Discussão sobre Tabela 12.7 –
Coeficientes de correlação entre
variáveis originais e transformadas
• O coeficiente de correlação entre tempo ativo da máquina (em
logaritmos) e quantia de pedidos na fila tem valor alto (0,57) e
significante. Notam-se nos dados que a fila sempre existe; não há
nenhum momento quando os pedidos caem ao zero.
• Conseqüentemente está havendo um mau gerenciamento da
máquina; não há razão para forçar a máquina funcionar mais
tempo sem uma parada para manutenção preventiva em função
do número de pedidos em fila. Especialmente considerando o
excesso de tem´po parado (veja o exemplo no capítulo 2).
• Assim, seria melhor para a fábrica se a injetora funcionar regular e
continuamente em 16 horas (ou um pouco mais pagando hora
extra) no ambiente de um programa de manutenção preventiva em
vez de funcionar irregularmente sem um programa de manutenção,
como é o caso hoje.
27
12.7 Autocorrelação
O coeficiente de autocorrelação tem uma forma
quase igual, mas é para uma única variável em
defasagem.
(
X
X
)
(
X
X
)

r
=
(
X
X
)
(
X
X
)


t
t
j
j
t
t
j
O subscrito no r significa o tamanho da
defasagem em número de períodos. O rj é
utilizado para analisar a presença de padrões
temporais nos dados, e nesse sentido pode
encontrar sazonalidade e ademais pode ser
utilizado para detectar se a variável é
estacionária.
28
12.7.1 Autocorrelação e
estacionaridade
Figura 12.7 – Correlograma dos coeficientes de
autocorrelação da tabela 12.8
29
12.7.2 Autocorrelação e sazonalidade
FAC - DifCR
0,6
0,5
0,4
0,3
FAC
0,2
0,1
0
-0,1
-0,2
-0,3
-0,4
1
3
5
7
9
11
13
15
17
19
21
23
25
27
29
31
33
35
37
39
41
43
45
47
Figura 12.8 - Correlograma dos coeficientes de
autocorrelação de consumo residencial mensal de
energia elétrica em S. Catarina de janeiro de 1986 até
dezembro de 2003 (dados em primeira diferença)
30
12.8 Coeficiente de correlação
cruzada
• Relação entre duas variáveis não é
necessariamente contemporânea, ou seja,
dada a variação em uma variável, a outra
somente se modifica certo período mais
tarde.
• Em outras palavras, há uma defasagem de
tempo entre as alterações dos dados. O
coeficiente de correlação cruzada é entre
variáveis em defasagem, de períodos
diferentes.
31
Tabela 12.9 – Coeficientes cruzados de
correlação entre tempo ativo e inativo
Variáveis
TEMPO INATIVO
ln_TEMPO ATIVO (TA)
TEMPO INATIVO
..
-0,022
TEMPO INATIVO-1
..
-0,019
TEMPO INATIVO-2
..
-0,139
TEMPO INATIVO-3
..
-0,088
ln_TEMPO ATIVO (TA)
-0,022
..
ln_TEMPO ATIVO (TA)-1
0,240
..
ln_TEMPO ATIVO (TA)-2
0,072
..
ln_TEMPO ATIVO (TA)-3
0,018
..
32
Discussão resultadosTabela 12.9
sobre o Coeficiente de correlação
cruzada
• O coeficiente positivo em defasagem indica que
quando tempo ativo é relativamente grande,
então, em seguida, tempo inativo também o é,
ou seja, pressionando a máquina a trabalhar
demais causa estresse nela, e as paradas
conseqüentes são demoradas, causando
relativamente mais tempo parado.
• O resultado é máquina inativa durante
longos períodos de manutenção corretiva.
33
12.10 Conclusões do capítulo
• Vimos neste capítulo que a aplicação correta do coeficiente de
correlação deve levar em conta várias suposições que vem diretamente
da teoria estatística e de senso comum.
• Para comprovar relacionamento entre duas variáveis, suas distribuições
são normais, a relação procurada é linear, e as séries são estacionárias.
Seguindo estas normas, estimativas do coeficiente são confiáveis, e
intervalos de confiança e testes de hipótese podem revelar a força da
relação estimada.
• A análise das correlações com variáveis que não seguem as
suposições exigidas, não comprova absolutamente nada,
e pior ainda, pode levar o pesquisador a conclusões equivocadas.
34
12.11 Referências
Fisher, R. A. (1925), “Applications of Student’s Distribution,” Metron, 5, 90,
104.
Granger, C. W. J. (1969), “Investigating causal relations by econometric
models and cross-spectral methods,” Econometrica, 37, 424-438.
Levine, Ira N. (1978), Physical Chemistry, University of Brooklyn: McGrawHill Publishing.
Rodgers, J. L., Nicewander, W. A. (1988), “Thirteen Ways to Look at the
Correlation Coefficient,” The American Statistician, Vol. 42, No. 1., pp. 5966.
Student (1908). “On the Probable Error of the Mean,”
Biometrika 6, 1, 25.
35
Download

Coeficientes de correlação entre variáveis transformadas