Correlação Ordinal
Pearson
Prof. Ivan Balducci
FOSJC / Unesp
Idéias importantes na pesquisa:
VARIÁVEL
RELAÇÃO
A Estatística preocupa-se
com a relação entre as
variáveis
Correlação
O que se pode dizer sobre a intensidade do
relacionamento entre x e y ?
A magnitude refere-se à força de
associação entre x e y. Por exemplo:
Correlação
r = 0.00
r = 0.20
r = 0.40
r = 0.70
r = 1.00
Interpretação
Não há relacionamento entre x e y
Baixo relacionamento entre x e y
Moderado relacianamento entre x e y
Alto relacionamento entre x e y
Perfeita correspondência entre x e y
Revisão: Pearson
Y
X
Coeficiente de correlação de Pearson não deve ser usado
quando o relacionamento entre X e Y é não-linear
Antes de calcular o coeficiente de correlação
Deve-se observar o diagrama de dispersão para verificar se o
relacionamento é linear
Pearson
Relacionamento
Forte
Fraco
.
.
. .
.
.
. .
.
. .
.
.
.
. .
Pearson
Nenhum Relacionamento
Y
X
Correlação Positiva Linear
y
y
y
(a) Positiva
x
x
x
(b) Forte
positiva
Pearson
(c) Perfeita
positiva
Correlação Negativa Linear
y
y
y
(d) Negative
x
x
x
(e) Strong
negative
Pearson
(f) Perfect
negative
Correlação Não Linear
y
y
x
(g) Nenhuma Correlação
x
(h) Correlação Não linear
Pearson
Fórmula do Coeficiente de Correlação
Linear para dados não “rankeados”
Pearson
r=
nSxy – (Sx)(Sy)
n(Sx2) – (Sx)2
n(Sy2) – (Sy)2
•Calculadoras Científicas (estatística)
podem calcular r
Correlação não é Causa
O simples fato que duas
variáveis se correlacionam
não significa que uma seja a
causa da outra.
CORRELAÇÃO NÃO É CAUSA
A correlação entre a proporção de Crimes
e o número de Igrejas na cidade é
r = +0.89
Significa, então, que quanto mais
igrejas teremos mais crimes?
Correlação ordinal de Pearson
medida de associação
É para dados em posição
Valor entre –1.00 e +1.00
Fórmula do Coeficiente de Correlação
Linear para dados “rankeados”
Pearson
r
=
nSxy – (Sx)(Sy)
n(Sx2) – (Sx)2
n(Sy2) – (Sy)2
•Calculadoras Científicas (estatística)
podem calcular rs
se entrarmos com os dados “rankeados”
Fórmula de Pearson
r=
nSxy – (Sx)(Sy)
n(Sx2) – (Sx)2
n(Sy2) – (Sy)2
Fórmula simplificada para o cálculo de r
r  1
Onde…
D
2
6
2
N(N  1)
r é o coeficiente de correlação
D é a diferença entre posições de valores correspondentes de X e Y
N é o número de pares dos valores dados
S indica a soma de todos os pares de valores dados
• A fórmula simplificada (aproximada) foi desenvolvida por Spearman em
1906. Ela é igual a equação de Pearson para dados rankeados, quando não
houver empates
Interpretação de r
Valores de r próximos de -1 ou 1 indicam uma forte
associação linear
e valores próximos de 0 indicam uma falta de associação
linear.
Fórmula exata para o cálculo de r (quando não houver empates)
Fórmula aproximada para o cálculo de r (quando houver empates)
r  1
D
2
6
2
N(N  1)
Exemplo: Dados Sem transformação
Suponha que tenhamos as medições médias da Largura e Profundidade
de um rio em 10 posições ao longo de seu curso
Queremos saber se as duas variáveis estão correlacionadas
X: Largura (Width)
Y: Profundidade (Depth)
11
1.1
9
1.3
15
1.2
12
1.0
10
1.4
8
0.9
16
1.4
13
1.3
20
1.5
11
0.8
Exemplo: Dados Sem transformação
Fórmula de Pearson
r=
r=
nSxy – (Sx)(Sy)
n(Sx2) – (Sx)2
n(Sy2) – (Sy)2
10(153,10) – (125)(11.90)
10(1681)–(125)2 10(14,65) – (11,90)2
r = 0,571 … dados originais
Pearson
Exemplo: dados agora ordenados.
Suponha que tenhamos as medições médias da Width e Depth de um
rio em 10 posições ao longo de seu curso
Queremos saber se as duas variáveis estão correlacionadas
X: Largura (Width)
Y: Profundidade (Depth)
11 4.5º
1.1 4º
9 2º
1.3 6.5º
15 8º
1.2 5º
12 6º
1.0 3º
10 3º
1.4 8º
8 1º
0.9 2º
16 9º
1.4 9º
13 7º
1.3 6.5º
20 10º
1.5 10º
11 4.5º
0.8 1º
Empate. Exº: para a largura, 11 m ocupa a posição 4ª e 5ª, assim cada
valor recebe o rank de (4+5)/2 = 4.5
Dados em rank
r=
r=
nSxy – (Sx)(Sy)
n(Sx2) – (Sx)2
n(Sy2) – (Sy)2
10(346) – (55)(55)
10(384,5)–(55)2
10(384,5)–(55)2
= r = 0,530
r = 0,530 … dados ordenados (“rankeados”)
Pearson
Exemplo: Uso da fórmula simplificada
Suponha que tenhamos as medições médias da Largura e Profundidade
de um rio em 10 posições ao longo de seu curso
Queremos saber se as duas variáveis estão correlacionadas
* empate
Width
Rank
Depth
Rank
*11 m
9
15
12
10
8
16
13
20
*11
4.5
2
8
6
3
1
9
7
10
4.5
1.1 m
*1.3
1.2
1.0
1.4
0.9
1.4
*1.3
1.5
0.8
4
6.5
5
3
8
2
9
6.5
10
110
D
D2
0.5
0.25
4.5 20.25
3
9
r
3
9
5
25
1
1
0
0
0.5
0.25
0
0
3.5.5.5 12.25
 1

6
2
D2
N(N  1)
12.25
Os dados são classificados (rankeados) do menor (1) ao maior (10)
Width
Rank
Depth
Rank
11 m
9
15
12
10
8
16
13
20
11
4.5
2
8
6
3
1
9
7
10
4.5
1.1 m
1.3
1.2
1.0
1.4
0.9
1.5
1.3
1.6
0.8
4
6.5
5
3
8
2
9
6.5
10
1
D
0.5
4.5
3
3
5
1
0
0.5
0
3.5
D2
0.25
20.25
9
2
6
D
9
r  1
25
N(N2  1)
1
0
0.25
0
12.25.5
12.25

Quando houver dados iguais, então, recebem a mesma posição (média
dos ranks para os dois valores)
Exº.: Para a largura, 11 m ocupa a posição 4ª e 5ª, assim cada valor
recebe o rank de (4+5)/2 = 4.5
Calculamos a diferença (D) e (D2) entre os ranks para cada par
Width
Rank
Depth
Rank
11 m
9
15
12
10
8
16
13
20
11
4.5
2
8
6
3
1
9
7
10
4.5
1.1 m
1.3
1.2
1.0
1.4
0.9
1.5
1.3
1.6
0.8
4
6.5
5
3
8
2
9
6.5
10
1
Aplicamos a fórmula
simplificada (N=10)
r  1

6
D2
N(N2  1)
D
0.5
4.5
3
3
5
1
0
0.5
0
3.5
D2
0.25
20.25
9
9
25
1
0
0.25
0
12.25
 = 77
Positivo e moderado
6 x 77
462
r  1
 1
 0.534
10(100 1)
990
Na presença de empates diferem os resultados
nSxy – (Sx)(Sy)
Dados originais
r=
n(Sx2)
n(Sy2)
–
(Sy)2
nSxy – (Sx)(Sy)
Dados em rank
r=
–
(Sx)2
Pearson
n(Sx2)
–
(Sx)2
n(Sy2)
= r = 0,571
Pearson
–
(Sy)2
= r = 0,530
Fórmula de Spearman
r  1

6
D2
N(N2  1)
6 x 77
462
r  1
 1
 0.534
10(100 1)
990 Spearman
Quanto maior o nº de empates maior o desacordo
Exemplo SEM empates. Competição. Dados ordenados.
Fotografias
Fotógrafo
Fotógrafo
Produto
Nº da foto
João (X)
Pedro (Y)
XY
1
2
4
8
XY = 189
2
5
3
15
x = 36
3
3
2
6
y = 36
4
6
6
36
y2 = 204
5
1
1
1
x2 = 204
6
4
8
32
N=8
7
7
5
35
8
8
7
56
r=
Somas
8(189) – (36)(36)
= 216/335,99 = 0,6428
8(204) – (36)2 8(204) – (36)2
Pearson
Exemplo. Competição: dados ordenados SEM empates
Fotógrafo
Fotógrafo
Diferença
(Diferença)2
João (X)
Pedro (Y)
d
d2
1
2
4
2
4
2
5
3
2
4
3
3
2
1
1
4
6
6
0
0
5
1
1
0
0
6
4
8
4
16
7
7
5
2
4
8
8
7
1
1
Fotografias
r  1

6
D2
N(N2  1)
6 x 30
180
r  1
 1
 0.6428
8(64  1)
504
Spearman
OBSERVAÇÕES SOBRE
O USO DA FÓRMULA SIMPLIFICADA
r  1
D
2
6
2
N(N  1)
Fórmula desenvolvida por Spearman em 1906
para facilitar as contas da fórmula de Pearson
Dennis Roberts and R. Kunst. “A case against the continuing use of
the Spearman rank-order correlation formula”. Psychological
Reports, 66, pp. 339-349 (1990)
The use of the Spearman rank-order correlation should stop...
Spearman’s original formula is only exact where there are no
tied values on the original X and Y variables. In this case, and
only in this case, is the Spearman formula equivalent to the
Pearson formula on the same ranked scores. Of course, there
are formulas in the literature that correct this problem and
provide a correlation value on the ranks as if there were no ties.
Lost in this shuffle however, is the fact
that if these correction formulas are used, then the result is
not a Spearman rank-order correlation value anymore,
but rather, the Pearson correlation on the ranks.
Unfortunately, the common jargon in this case is to (still) say
that we have a Spearman rank-order correlation, corrected
for tied ranks.
However this terminology is incorrect.
Of course, the most direct way to have solved this problem would have
been to use the Pearson formula on the ranks in the first place (never
using the term “Spearman”) and not attempting to modify in some way
the original Spearman formula.
In this context, Spearman formula is merely a short-cut expedient to
what used to be a more cumbersome way to calculate correlations on
ranks with the Pearson formula. However, the rationale for providing a
short-cut expedient that was legitimately relevant in earlier times no
longer has any validity...
Dennis M. Roberts: A Note on the Continuing Use of
the Spearman Rank-Order Correlation.
The Pennsylvania State University. Febr 1991.
Termos que devem ser familiares
Correlação ordinal de Pearson
Empates
Correlação ordinal Spearman
Download

PHIL ROWE Statistics Lecture 1 Data Presentation