Correlação
Ogliari – Técnicas estatísticas para predição
Correlação
• Interesse em analisar o comportamento conjunto de duas
variáveis quantitativas.
• Interesse em obter uma medida estatística que indique se
existe ou não uma relação linear entre duas variáveis; e se
existe, qual a sua magnitude e sinal.
– Exemplo: anos de experiência em programação e o tempo gasto
para realizar uma determinada tarefa.
– Número de acessos a uma página e o tamanho da população
economicamente ativa.
Ogliari – Técnicas estatísticas para predição
Exemplo 1
• Processo de queima de massa cerâmica para
pavimento
– X1 = retração linear (%),
– X2 = resistência mecânica (MPa) e
– X3 = absorção de água (%).
Ogliari – Técnicas estatísticas para predição
Exemplo 11.1 - Dados:
ensaio
X1
X2
X3
ensaio
X1
X2
X3
1
8,70
38,42
5,54
10
13,24
60,24
0,58
2
11,68
46,93
2,83
11
9,10
40,58
3,64
3
8,30
38,05
5,58
12
8,33
41,07
5,87
4
12,00
47,04
1,10
13
11,34
41,94
3,32
5
9,50
50,90
0,64
14
7,48
35,53
6,00
6
8,58
34,10
7,25
15
12,68
38,42
0,36
7
10,68
48,23
1,88
16
8,76
45,26
4,14
8
6,32
27,74
9,92
17
9,93
40,70
5,48
9
8,20
39,20
5,63
18
6,50
29,66
8,98
Ogliari – Técnicas estatísticas para predição
Diagramas de dispersão
• Uma representação gráfica bastante útil para se estudar a
dependência entre variáveis quantitativas é o gráfico de
dispersão, mostrados nos próximos slides.
Ogliari – Técnicas estatísticas para predição
Exemplo 1 - Diagramas de dispersão:
resistência mecânica (Mpa)
65
60
55
50
45
40
35
30
25
5
6
7
8
9
10
11
12
retraç ão linear (%)
Interpretar a correlação entre as duas variáveis.
Ogliari – Técnicas estatísticas para predição
13
14
Exemplo 1 - Diagramas de dispersão:
absorção de água (%)
10
8
6
4
2
0
5
6
7
8
9
10
11
12
retraç ão linear (%)
Interpretar a correlação entre as duas variáveis.
Ogliari – Técnicas estatísticas para predição
13
14
Exemplo 1 - Diagramas de dispersão:
absorção de água (%)
10
8
6
4
2
0
25
30
35
40
45
50
55
res is tênc ia mec ânic a (Mpa)
Interpretar a correlação entre as duas variáveis.
Ogliari – Técnicas estatísticas para predição
60
65
Resultado de um teste (de 0 a 100) sobre conhecimento (X) e
tempo gasto (minutos) para aprender a operar uma máquina (Y)
para oito indivíduos.
Indivíduo
Teste (X)
Tempo (Y)
A
45
343
B
52
368
C
61
355
D
70
334
E
74
337
F
76
381
G
80
345
H
90
375
Ogliari – Técnicas estatísticas para predição
390
380
Tempo
370
360
350
340
330
0
20
40
60
80
Resultado do teste
Interpretar a correlação entre as duas variáveis.
Ogliari – Técnicas estatísticas para predição
100
• X e Y estão positivamente correlacionadas quando elas
caminham num mesmo sentido.
• Estão negativamente correlacionadas quando elas
caminham em sentidos opostos.
• As maiores correlações positivas e negativas são obtidas
somente quando todos os pontos estão bem próximos à
uma linha reta.
Ogliari – Técnicas estatísticas para predição
Idéia de construção do Coef. de Correlação de
Pearson
6
5
6
0
x, y 
5
5
5
0
resistênciamecânica(Mpa)
4
5
4
0
3
5
3
0
2
5
5
6
7
8
9
1
0
1
1
1
2
1
3
re
tra
çã
olin
e
a
r(%
)
Ogliari – Técnicas estatísticas para predição
1
4
Ensaio
1
2
3
4
X
Y
XX
8,70 38,42 -0,82
11,68 46,93 2,16
8,30 38,05 -1,22
12,00 47,04 2,48
Y Y
Ensaio X
-2,91
10
5,60
11
9,10 40,58 -0,42 -0,75
-3,28
12
8,33 41,07 -1,19 -0,26
5,71
13
5
9,50 50,90 -0,02
9,57
14
6
8,58 34,10 -0,94
-7,23
15
6,90
16
7
10,68 48,23 1,16
8
6,32 27,74
-3,20
9
8,20 39,20 -1,32
Y
XX
13,24 60,24 3,72
11,34 41,94 1,82
Y Y
18,91
0,61
7,48 35,53 -2,04 -5,80
12,68 38,42 3,16
-2,91
8,76 45,26 -0,76 3,93
-13,59 17
9,93 40,70 0,41
-2,13
6,50 29,66 -3,02 -11,67
18
Ogliari – Técnicas estatísticas para predição
-0,63
25,00
Resistência mecânica
20,00
15,00
10,00
5,00
0,00
-4,00
-3,00
-2,00
-1,00-5,000,00
1,00
2,00
-10,00
-15,00
-20,00
Retração linear
Ogliari – Técnicas estatísticas para predição
3,00
4,00
5,00
Padronização
• Padronização (xi , yi)  (xi’, yi’) :
x i =
xi  x
sx
yi =
yi  y
sy
(i = 1, 2, ..., n)
Ogliari – Técnicas estatísticas para predição
Padronização
Valores padronizados de
resistência
3,00
2,50
2,00
1,50
1,00
(0, 0)
0,50
-2,00
-1,00
0,00
-0,500,00
1,00
-1,00
-1,50
-2,00
Valores padronizados de retação
Ogliari – Técnicas estatísticas para predição
2,00
3,00
Idéia de construção do Coef. de Correlação de
Pearson
x i =
xi  x
sx
yi =
yi  y
sy
(i = 1, 2, ..., n)
Considere os produtos dos valores padronizados:
xi’yi’
Ogliari – Técnicas estatísticas para predição
Sinais dos produtos dos valores padronizados:
y’
Quadrante com
xi’yi’ negativos
Quadrante com
xi’yi’ positivos
x’
Quadrante com
xi’yi’ positivos
Quadrante com
xi’yi’ negativos
Ogliari – Técnicas estatísticas para predição
Sinais dos produtos dos valores padronizados:
Quadrante com
xi’yi’ negativos
y’
Quadrante com
xi’yi’ positivos
x’
Quadrante com
xi’yi’ negativos
Quadrante com
xi’yi’ positivos
x y
'
i
'
i
0
i
Ogliari – Técnicas estatísticas para predição
Sinais dos produtos dos valores padronizados:
Quadrante com
xi’yi’ negativos
y’
Quadrante com
xi’yi’ positivos
x’
Quadrante com
xi’yi’ positivos
Quadrante com
xi’yi’ negativos
x y
'
i
'
i
0
i
Ogliari – Técnicas estatísticas para predição
Sinais dos produtos dos valores padronizados:
Quadrante com
xi’yi’ negativos
Quadrante com
xi’yi’ positivos
y’
x’
Quadrante com
xi’yi’ negativos
Quadrante com
xi’yi’ positivos
' '
x
 i yi  0
i
Ogliari – Técnicas estatísticas para predição
Coeficiente de correlação de Pearson
• Definição: é uma medida do grau de correlação entre X e
Y e, também, da proximidade dos dados a uma reta.
• Esta medida varia no intervalo de -1 a 1.
Ogliari – Técnicas estatísticas para predição
Idéia de construção do Coef. de Correlação de Pearson
• Padronização (xi, yi)  (xi’, yi’) :
x i =
xi  x
sx
yi =
yi  y
sy
(i = 1, 2, ..., n)
n
  xi y i 
Coef. de Correlação de Pearson:
r =
i 1
n 1
Ogliari – Técnicas estatísticas para predição
Valores possíveis de r e interpretação da correlação
Sentido
+1
Força
Forte
Positiva
Moderada
Fraca
Valor
de r
0
Ausência
Fraca
Negativa
-1
Moderada
Forte
Ogliari – Técnicas estatísticas para predição
Exemplo 1. Matriz de correlações
retração linear
resistência
mecânica
absorção de
água
retração linear
1,00
0,75
-0,88
resistência
mecânica
0,75
1,00
-0,84
absorção de
água
-0,88
-0,84
1,00
Interpretar.
Ogliari – Técnicas estatísticas para predição
• Exercício: calcular o coeficiente de correlação de Pearson
para a porcentagem de acertos (Y) e tamanho da cache,
em mil bytes, (X), para um determinado tipo de précarregamento.
• (Y) 44,45 46,99 50,66 53,21
• (X) 250
300
350
400
Ogliari – Técnicas estatísticas para predição
Outra forma de calcular r
r 
n xi .yi    xi  y i 
n xi2   x i   n y i2   y i 
2
2
• Exercício: calcular o coeficiente de correlação de Pearson para a
porcentagem de acertos (Y) e tamanho da cache, em bytes, (X), para
um determinado tipo de pré-carregamento usando a expressão acima.
• (Y) 44,45 46,99 50,66 53,21
• (X) 250
300
350
400
Ogliari – Técnicas estatísticas para predição
Coeficiente de correlação populacional
• É um parâmetro ou característica da população,
representada pela letra grega  e desconhecido.
POPULAÇÃO
(X,Y)
Ogliari – Técnicas estatísticas para predição
Coeficiente de correlação populacional
Exemplo: considere uma empresa que vende e conserta
microcomputadores. Deseja-se estudar a relação entre o período
de tempo do serviço de chamadas, em minutos (X) e o número
de componentes eletrônicos no computador que devem ser
consertados ou substituídos (Y).
Ogliari – Técnicas estatísticas para predição
Inferência sobre 
• Dada uma amostra aleatória simples (x1, y1), (x2, y2), ...,
(xn, yn) do par de variáveis aleatórias (X, Y), o coeficiente r
pode ser considerado uma estimativa do verdadeiro e
desconhecido coeficiente .
• Podemos usar o coeficiente de correlação amostral, r, para
fazer várias inferências sobre .
• Uma população que tenha duas variáveis nãocorrelacionadas, pode produzir uma amostra com
coeficiente de correlação diferente de zero, simplesmente
devido à seleção dos dados.
Ogliari – Técnicas estatísticas para predição
Teste de significância de 
• Exemplo: considere uma empresa que vende e conserta
computadores. Para estudar a relação entre o período de
tempo do serviço de chamadas, em minutos (X), e o
número de componentes eletrônicos no computador que
devem ser consertados ou substituídos, uma amostra de
registros foi observada. Os resultados estão apresentados
na tabela a seguir:
Ogliari – Técnicas estatísticas para predição
Registro
1
2
3
4
5
6
7
8
9
10
11
12
13
14
y
23
29
49
64
74
87
96
97
109
119
149
145
154
166
Ogliari – Técnicas estatísticas para predição
x
1
2
3
4
4
5
6
6
7
8
9
9
10
10
Teste de significância de 
• H0:  = 0 (as variáveis X e Y são não correlacionadas)
• H1:   0 (as variáveis X e Y são correlacionadas)
(pode também ser unilateral)
• O cálculo do coeficiente de correlação na amostra selecionada
produziu:
• r = 0,994
Ogliari – Técnicas estatísticas para predição
Teste de significância de 
• Estatística do teste
T r
n2
1 r 2
a qual tem distribuição t de Student com parâmetro n-2
graus de liberdade. Com os dados da amostra, obtemos:
to  0 ,994
14  2
1  0 ,994
2
 31,48
a qual tem distribuição t de Student com parâmetro 14-2=12
graus de liberdade.
Ogliari – Técnicas estatísticas para predição
Teste de significância de 
• Região crítica
– É um teste bilateral, da distribuição t de Student, obtemos para nível de
significância () de 5% e 12 graus de liberdade:
Ogliari – Técnicas estatísticas para predição
Teste de significância de 
• Conclusão: como t0 pertence a região de rejeição,
rejeitamos a hipótese nula (H0), isto é, existe dependência
entre tempo de chamada e número de componentes
eletrônicas consertadas ou substituídas.
Ogliari – Técnicas estatísticas para predição
Teste de significância de 
• Hipóteses:
• Estatística do teste
• Região crítica
• Resultado da amostra
• Conclusão
Ogliari – Técnicas estatísticas para predição
Teste de significância de 
• Exercício
– Desejamos testar se existe ou não correlação entre o número de
clientes (Y) e os anos de experiência de agentes de seguros (X).
Foram sorteados cinco agentes e observamos as duas variáveis em
cada agente, cujos resultados foram:
– Agentes
A
B
C
D
E
– Anos
2
4
5
6
8
– Clientes
48
64
60
72
56
– Teste a hipótese de não haver correlação entre número de clientes e
anos de experiência. Utilize nível de significância de 10% (=0,10).
Ogliari – Técnicas estatísticas para predição
Estimação de 
• Quando nós rejeitamos H0, isto é, que  é diferente de zero, é bastante
interessante construir um intervalo de confiança para o coeficiente de
correlação populacional ().
• Inicialmente obtemos o intervalo de confiança de 95% para , dado
por:


1
I .C . μξ ,95% : ξ 0  1,96
n  3
onde:
1 1 r
ξ 0  ln
2 1- r
Obs.:  é a média da distribuição de uma transformação da estatística r.
Ogliari – Técnicas estatísticas para predição
Estimação de 
• Para o exemplo da empresa que vende e conserta computadores, o
intervalo de confiança de 95% para  é dado por:


1
I .C . μξ ,95% : ξ 0  1,96
n  3
1 1  0 ,994
ξ 0  ln
 2 ,878
2 1 - 0,994
1
14  3
: 2 ,878 0 ,5910
: 2,287;3,469 
: 2 ,878 1,96
Ogliari – Técnicas estatísticas para predição
Ver exemplo
Estimação de 
• Finalmente, podemos encontrar os extremos do intervalo de confiança
para o coeficiente de correlação populacional .
• Assim de:
2 ,287 
r
1 1 r
ln
2 1- r
e 2.2 ,287  1

e 4 ,574  1
e 2.2 ,287  1 e 4 ,574  1
1 1 r
3,469  ln
2 1 r
r
e 2.3 ,469  1
e
2.3 ,469
1

e 6 ,938  1
e
6 ,938
1
 0 ,98
 0 ,998
Ogliari – Técnicas estatísticas para predição
e = 2,7183
Estimação de 
• Obtemos o intervalo para 
I .C . ρ ;95% : 0 ,98;0 ,998
Assim, podemos afirmar que o coeficiente de correlação
populacional é um número entre 0,98 e 0,998.
Ogliari – Técnicas estatísticas para predição
Estimação de 
• Exercício
– Concluímos que existe correlação entre o número de clientes e
anos de experiência dos agentes (r = 0,95). Estime o verdadeiro
valor do coeficiente de correlação com confiança de 90%.
Ogliari – Técnicas estatísticas para predição
Causalidade versos correlação
Pesquisadores freqüentemente são “tentados” a inferir uma relação de causa e efeito entre X e Y
quando eles ajustam um modelo de regressão ou realizam uma análise de correlação. Uma
associação significativa entre X e Y em ambas as situações não necessariamente implica numa
relação de causa e efeito.
Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O gráfico mostra a população
de Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o número de cegonhas
(pássaros) naquele ano (X).
Interpretação: existe associação
entre X e Y.
Freqüentemente, quando duas v. X e
Y parecem estar fortemente
associadas, pode ser porque X e Y
estão, de fato, associadas com uma
terceira variável, W. No exemplo, X
e Y aumentam com W = tempo.
Correlação não necessariamente implica em causalidade
Ogliari – Técnicas estatísticas para predição
Download

Document