Correlação Ordinal Pearson Prof. Ivan Balducci FOSJC / Unesp Idéias importantes na pesquisa: VARIÁVEL RELAÇÃO A Estatística preocupa-se com a relação entre as variáveis Correlação O que se pode dizer sobre a intensidade do relacionamento entre x e y ? A magnitude refere-se à força de associação entre x e y. Por exemplo: Correlação r = 0.00 r = 0.20 r = 0.40 r = 0.70 r = 1.00 Interpretação Não há relacionamento entre x e y Baixo relacionamento entre x e y Moderado relacianamento entre x e y Alto relacionamento entre x e y Perfeita correspondência entre x e y Revisão: Pearson Y X Coeficiente de correlação de Pearson não deve ser usado quando o relacionamento entre X e Y é não-linear Antes de calcular o coeficiente de correlação Deve-se observar o diagrama de dispersão para verificar se o relacionamento é linear Pearson Relacionamento Forte Fraco . . . . . . . . . . . . . . . . Pearson Nenhum Relacionamento Y X Correlação Positiva Linear y y y (a) Positiva x x x (b) Forte positiva Pearson (c) Perfeita positiva Correlação Negativa Linear y y y (d) Negative x x x (e) Strong negative Pearson (f) Perfect negative Correlação Não Linear y y x (g) Nenhuma Correlação x (h) Correlação Não linear Pearson Fórmula do Coeficiente de Correlação Linear para dados não “rankeados” Pearson r= nSxy – (Sx)(Sy) n(Sx2) – (Sx)2 n(Sy2) – (Sy)2 •Calculadoras Científicas (estatística) podem calcular r Correlação não é Causa O simples fato que duas variáveis se correlacionam não significa que uma seja a causa da outra. CORRELAÇÃO NÃO É CAUSA A correlação entre a proporção de Crimes e o número de Igrejas na cidade é r = +0.89 Significa, então, que quanto mais igrejas teremos mais crimes? Correlação ordinal de Pearson medida de associação É para dados em posição Valor entre –1.00 e +1.00 Fórmula do Coeficiente de Correlação Linear para dados “rankeados” Pearson r = nSxy – (Sx)(Sy) n(Sx2) – (Sx)2 n(Sy2) – (Sy)2 •Calculadoras Científicas (estatística) podem calcular rs se entrarmos com os dados “rankeados” Fórmula de Pearson r= nSxy – (Sx)(Sy) n(Sx2) – (Sx)2 n(Sy2) – (Sy)2 Fórmula simplificada para o cálculo de r r 1 Onde… D 2 6 2 N(N 1) r é o coeficiente de correlação D é a diferença entre posições de valores correspondentes de X e Y N é o número de pares dos valores dados S indica a soma de todos os pares de valores dados • A fórmula simplificada (aproximada) foi desenvolvida por Spearman em 1906. Ela é igual a equação de Pearson para dados rankeados, quando não houver empates Interpretação de r Valores de r próximos de -1 ou 1 indicam uma forte associação linear e valores próximos de 0 indicam uma falta de associação linear. Fórmula exata para o cálculo de r (quando não houver empates) Fórmula aproximada para o cálculo de r (quando houver empates) r 1 D 2 6 2 N(N 1) Exemplo: Dados Sem transformação Suponha que tenhamos as medições médias da Largura e Profundidade de um rio em 10 posições ao longo de seu curso Queremos saber se as duas variáveis estão correlacionadas X: Largura (Width) Y: Profundidade (Depth) 11 1.1 9 1.3 15 1.2 12 1.0 10 1.4 8 0.9 16 1.4 13 1.3 20 1.5 11 0.8 Exemplo: Dados Sem transformação Fórmula de Pearson r= r= nSxy – (Sx)(Sy) n(Sx2) – (Sx)2 n(Sy2) – (Sy)2 10(153,10) – (125)(11.90) 10(1681)–(125)2 10(14,65) – (11,90)2 r = 0,571 … dados originais Pearson Exemplo: dados agora ordenados. Suponha que tenhamos as medições médias da Width e Depth de um rio em 10 posições ao longo de seu curso Queremos saber se as duas variáveis estão correlacionadas X: Largura (Width) Y: Profundidade (Depth) 11 4.5º 1.1 4º 9 2º 1.3 6.5º 15 8º 1.2 5º 12 6º 1.0 3º 10 3º 1.4 8º 8 1º 0.9 2º 16 9º 1.4 9º 13 7º 1.3 6.5º 20 10º 1.5 10º 11 4.5º 0.8 1º Empate. Exº: para a largura, 11 m ocupa a posição 4ª e 5ª, assim cada valor recebe o rank de (4+5)/2 = 4.5 Dados em rank r= r= nSxy – (Sx)(Sy) n(Sx2) – (Sx)2 n(Sy2) – (Sy)2 10(346) – (55)(55) 10(384,5)–(55)2 10(384,5)–(55)2 = r = 0,530 r = 0,530 … dados ordenados (“rankeados”) Pearson Exemplo: Uso da fórmula simplificada Suponha que tenhamos as medições médias da Largura e Profundidade de um rio em 10 posições ao longo de seu curso Queremos saber se as duas variáveis estão correlacionadas * empate Width Rank Depth Rank *11 m 9 15 12 10 8 16 13 20 *11 4.5 2 8 6 3 1 9 7 10 4.5 1.1 m *1.3 1.2 1.0 1.4 0.9 1.4 *1.3 1.5 0.8 4 6.5 5 3 8 2 9 6.5 10 110 D D2 0.5 0.25 4.5 20.25 3 9 r 3 9 5 25 1 1 0 0 0.5 0.25 0 0 3.5.5.5 12.25 1 6 2 D2 N(N 1) 12.25 Os dados são classificados (rankeados) do menor (1) ao maior (10) Width Rank Depth Rank 11 m 9 15 12 10 8 16 13 20 11 4.5 2 8 6 3 1 9 7 10 4.5 1.1 m 1.3 1.2 1.0 1.4 0.9 1.5 1.3 1.6 0.8 4 6.5 5 3 8 2 9 6.5 10 1 D 0.5 4.5 3 3 5 1 0 0.5 0 3.5 D2 0.25 20.25 9 2 6 D 9 r 1 25 N(N2 1) 1 0 0.25 0 12.25.5 12.25 Quando houver dados iguais, então, recebem a mesma posição (média dos ranks para os dois valores) Exº.: Para a largura, 11 m ocupa a posição 4ª e 5ª, assim cada valor recebe o rank de (4+5)/2 = 4.5 Calculamos a diferença (D) e (D2) entre os ranks para cada par Width Rank Depth Rank 11 m 9 15 12 10 8 16 13 20 11 4.5 2 8 6 3 1 9 7 10 4.5 1.1 m 1.3 1.2 1.0 1.4 0.9 1.5 1.3 1.6 0.8 4 6.5 5 3 8 2 9 6.5 10 1 Aplicamos a fórmula simplificada (N=10) r 1 6 D2 N(N2 1) D 0.5 4.5 3 3 5 1 0 0.5 0 3.5 D2 0.25 20.25 9 9 25 1 0 0.25 0 12.25 = 77 Positivo e moderado 6 x 77 462 r 1 1 0.534 10(100 1) 990 Na presença de empates diferem os resultados nSxy – (Sx)(Sy) Dados originais r= n(Sx2) n(Sy2) – (Sy)2 nSxy – (Sx)(Sy) Dados em rank r= – (Sx)2 Pearson n(Sx2) – (Sx)2 n(Sy2) = r = 0,571 Pearson – (Sy)2 = r = 0,530 Fórmula de Spearman r 1 6 D2 N(N2 1) 6 x 77 462 r 1 1 0.534 10(100 1) 990 Spearman Quanto maior o nº de empates maior o desacordo Exemplo SEM empates. Competição. Dados ordenados. Fotografias Fotógrafo Fotógrafo Produto Nº da foto João (X) Pedro (Y) XY 1 2 4 8 XY = 189 2 5 3 15 x = 36 3 3 2 6 y = 36 4 6 6 36 y2 = 204 5 1 1 1 x2 = 204 6 4 8 32 N=8 7 7 5 35 8 8 7 56 r= Somas 8(189) – (36)(36) = 216/335,99 = 0,6428 8(204) – (36)2 8(204) – (36)2 Pearson Exemplo. Competição: dados ordenados SEM empates Fotógrafo Fotógrafo Diferença (Diferença)2 João (X) Pedro (Y) d d2 1 2 4 2 4 2 5 3 2 4 3 3 2 1 1 4 6 6 0 0 5 1 1 0 0 6 4 8 4 16 7 7 5 2 4 8 8 7 1 1 Fotografias r 1 6 D2 N(N2 1) 6 x 30 180 r 1 1 0.6428 8(64 1) 504 Spearman OBSERVAÇÕES SOBRE O USO DA FÓRMULA SIMPLIFICADA r 1 D 2 6 2 N(N 1) Fórmula desenvolvida por Spearman em 1906 para facilitar as contas da fórmula de Pearson Dennis Roberts and R. Kunst. “A case against the continuing use of the Spearman rank-order correlation formula”. Psychological Reports, 66, pp. 339-349 (1990) The use of the Spearman rank-order correlation should stop... Spearman’s original formula is only exact where there are no tied values on the original X and Y variables. In this case, and only in this case, is the Spearman formula equivalent to the Pearson formula on the same ranked scores. Of course, there are formulas in the literature that correct this problem and provide a correlation value on the ranks as if there were no ties. Lost in this shuffle however, is the fact that if these correction formulas are used, then the result is not a Spearman rank-order correlation value anymore, but rather, the Pearson correlation on the ranks. Unfortunately, the common jargon in this case is to (still) say that we have a Spearman rank-order correlation, corrected for tied ranks. However this terminology is incorrect. Of course, the most direct way to have solved this problem would have been to use the Pearson formula on the ranks in the first place (never using the term “Spearman”) and not attempting to modify in some way the original Spearman formula. In this context, Spearman formula is merely a short-cut expedient to what used to be a more cumbersome way to calculate correlations on ranks with the Pearson formula. However, the rationale for providing a short-cut expedient that was legitimately relevant in earlier times no longer has any validity... Dennis M. Roberts: A Note on the Continuing Use of the Spearman Rank-Order Correlation. The Pennsylvania State University. Febr 1991. Termos que devem ser familiares Correlação ordinal de Pearson Empates Correlação ordinal Spearman