Capítulo 12 – Correlação 12.1 Introdução e problemática 12.2 Fórmulas e gráficos do coeficiente de correlação 12.3 Exemplo: a correlação entre tempo de secagem e a dureza de Brinell 12.4 Intervalo de Confiança 12.5 Teste de hipótese 12.6 As suposições que garantem a representatividade do coeficiente de correlação estimado 12.6.1 Linearidade 12.6.2 Estacionaridade 12.6.3 Normalidade 12.7 Autocorrelação 12.7.1 Autocorrelação e estacionaridade 12.7.2 Autocorrelação e sazonalidade 12.8 Coeficiente de correlação cruzada 12.10 Conclusões do capítulo 12.11 Referências 12.12 Anexo de dados 1 12.1 Introdução É muito comum em pesquisas baseadas em variáveis quantitativas e mensuráveis tentar medir o grau de relacionamento entre elas. No caso da relação ser linear, isto pode ser feito através do coeficiente de correlação linear. É o caso, por exemplo, quando se propõe uma teoria ou hipótese que interliga dois fenômenos, e então comprova estatisticamente a existência da relação, utilizando-se amostras das variáveis. Isso não significa necessariamente que as duas variáveis possuem uma relação de causa e efeito. O relacionamento é necessário para comprovar causa e efeito, mas não é suficiente para ser prova definitiva. No caso industrial, por exemplo, é imprescindível analisar como os insumos em um processo produtivo relacionam com características de qualidade dos produtos e processos. Encontrando as relações entre variáveis no processo, o engenheiro pode melhorar o resultado, economizar recursos materiais e humanas, e oferecer em geral um processo otimizado. 2 12.2 Fórmulas e gráficos do coeficiente de correlação A covariância e variância são matematicamente conceitos muito próximos. A diferença é que a covariância mede a relação entre duas variáveis distintas enquanto a variância depende de uma única variável. veja capítulo 2. Por definição, a covariância populacional é dada pela seguinte expressão: (Xi -μ X ) Yi - μ Y A variância populacional é uma expressão similar, mas com apenas uma única σX 2 = variável, σXY = (Xi -μX ) Xi - μX A covariância amostral (n é o tamanho da amostra): N SXY N = 2 (X -μ ) i X N (Xi - X)(Yi - Y) n -1 Os valores do coeficiente de correlação estão sempre contidos no intervalo [-1; +1], ou seja, -1 ≤ r ≤ 1. Este é um resultado muito importante, por que pelo fato de ser padronizado, o coeficiente de correlação não depende da unidade de medida. (X X )( Y Y ) t t SXY r= r SXY r SXSY 2 2 X X Y Y SXSY t t 3 Figura 12.1 – Nuvens de dados com relação fraca e mal definida. Y Y Nuvem de dados, Nuvem de dados, maldefinida. mal-definida. X r = - 0,03 X r = 0,03 4 Figura 12.2 – Nuvens de dados com relação perfeita entre variáveis, r igual a 1,0 ou -1,0 Y X A inclinação da reta não afeta o valor numérico de r reforçando a idéia de que o r não é uma medida de inclinação, mas sim uma medida de adesão e representação de correlação sobre os pares de dados da amostra, e por inferência da população. 5 12.3 Exemplo: a correlação entre tempo de secagem e a dureza de Brinell No exemplo ilustrado na tabela 12.1, calculamos o coeficiente de correlação entre a dureza de um plástico medida em unidades de Brinell e o tempo de secagem numa maneira passo a passo para acompanhar melhor as operações. O tamanho da amostra é 16 peças vindas de um lote de 2000. O coeficiente pode ser calculado com a soma da última coluna (2604) dividida pela raiz quadrada da soma da penúltima coluna (1280) e pela raiz quadrada da soma da quinta coluna (5443,9). Também, pode ser calculado com a covariância (173,6) dividido pelo produto dos dois desvios padrão (19,05; 9,24). O resultado do cálculo é 0,986, e significa uma fortíssima relação. 6 Tabela 12.1 – O cálculo do coeficiente de correlação entre dureza e minutos de secagem. (1) OBSER. Yi Dureza em Brinell Xi minutos de secagem 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 199 205 196 200 218 220 215 223 237 234 235 230 250 248 253 246 16 16 16 16 24 24 24 24 32 32 32 32 40 40 40 40 SOMA = MÉDIA = 226 (Yt -Y) (Yt -Y)2 -26,6 -20,6 -29,6 -25,6 -7,6 -5,6 -10,6 -2,6 11,4 8,4 9,4 4,4 24,4 22,4 27,4 20,4 705,6 422,8 873,9 653,4 57,2 30,9 111,6 6,6 130,8 71,2 89,1 19,7 597,2 503,4 752,8 417,7 -12 -12 -12 -12 -4 -4 -4 -4 4 4 4 4 12 12 12 12 144,0 144,0 144,0 144,0 16,0 16,0 16,0 16,0 16,0 16,0 16,0 16,0 144,0 144,0 144,0 144,0 318,75 246,75 354,75 306,75 30,25 22,25 42,25 10,25 45,75 33,75 37,75 17,75 293,25 269,25 329,25 245,25 0,0 5443,9 0,0 1280,0 2604,0 (X t -X) Y Y ) ( X X ) (Xt -X)2 ( t t 28 DESVIO PADRÃO Y = 19,05 DESVIO PADRÃO X = 9,24 COVARIANCIA = 173,6 COEFICIENTE DE CORRELAÇÃO = 0,986 7 12.4 Intervalo de Confiança Uma vez definido o nível de confiança desejado (1 – α), os elementos do cálculo do intervalo são o coeficiente estimado r, o desvio padrão sr e o valor da distribuição normal padronizada (Z) que corresponde ao nível de confiança exigido pelo pesquisador. IC(ρ,1-α) = rXY ± Z(1-α)sr O desvio padrão do coeficiente de correlação é um termo extremamente complexo, quase impossível calcular. 8 Continuação: 12.4 Intervalo de Confiança O coeficiente de correlação não segue a distribuição normal, pois é assimétrica. No entanto, foi desenvolvida uma expressão pelo famoso Estatístico R. A. Fisher que transforma o coeficiente r em variável que segue a normalidade, z de Fisher (1+r) z de Fisher = 0,5 ln 1-r A estatística z de Fisher é distribuída normalmente e tem desvio padrão igual a σz de Fisher = 1/√n-3 9 Continuação (ainda): 12.4 Intervalo de Confiança 1 1+r IC(z;0,95) = 0,5 ln ± z 0,95 n-3 1-r IC ( z;0,95) 0,5ln 1 0,986 1 1,96 2, 477 0,543 (3, 02;1,934) 1 0,986 16 3 O valor z de Fisher = 3,02 significa que r = 0,995. Este resultado vem diretamente da equação 0,5*ln[(1+r)/(1-r)] = 3,02. O limite inferior do intervalo de confiança para r é do valor z = 1,934 transformado para r = 0,959 da expressão 0,5*ln[(1+r)/(1-r)] = 1,934. IC(ρ; 0,95) = (0,995; 0,959) 10 12.5 Teste de hipótese SUPONDO as duas variáveis (X,Y) são distribuídas normalmente, onde a hipótese nula (H0) é ρ = 0. A hipótese alternativa (H1) é ρ não = 0. É possível mostrar que a seguinte expressão: Estatística t deGosset = (r 2 ) n 2 2 1-r com n - 2 graus de liberdade 11 Continuação: 12.5 Teste de hipótese • Para calcular o valor de t de Gosset utilizamos os números, n = 16, r = 0,986, o que produziu um valor t = 22,125 e valor-p é praticamente zero. • Isto quer dizer que forte correlação é observada, e, portanto rejeitamos a hipótese nula de correlação zero com quase nenhum risco de errar. 12 Tabela 12.2 – Valores da estatística t de Gosset que rejeitam H0: ρ = 0 para α = 0,01 (área sombreada) e para valores correspondentes de r e n. r= 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0,70 0,75 0,80 0,85 0,90 0,95 n = 12 3,21 3,77 4,56 5,84 8,61 n = 52 3,02 3,49 4,00 4,56 5,20 5,93 6,79 7,86 9,24 11,18 14,30 21,08 n = 102 3,11 3,70 4,32 4,99 5,72 6,52 7,42 8,47 9,70 11,22 13,20 15,97 20,44 30,12 n = 152 n = 202 3,14 3,83 4,55 5,31 6,13 7,02 8,01 9,12 10,41 11,92 13,79 16,22 19,63 25,12 37,01 2,87 3,63 4,43 5,26 6,14 7,09 8,12 9,27 10,55 12,04 13,79 15,96 18,76 22,70 29,05 42,81 13 12.6 As suposições que garantem a representatividade do coeficiente de correlação estimado • Se os dados não são bem comportados, então há grande possibilidade de que os resultados não são confiáveis, as estimativas não representam fielmente a relação. Relações fracas podem aparecer enganosamente fortes e vice-versa. • Dados mal-comportados têm que ser tratados com vários tipos de transformações antes de entrar nas fórmulas. • Os dados devem seguir fielmente pelo menos três características: • linearidade, normalidade, e estacionaridade. 14 12.6.1 Linearidade • O coeficiente de correlação é uma medida de relacionamento, sempre supondo que a relação entre elas é linear. No gráfico de dispersão de XY, a relação linear é representada por uma linha reta. • Uma relação forte e bem definida, mas em forma não-linear, por exemplo, quadrática, vai produzir um r com valor artificialmente baixo, e levará o pesquisador a não enxergar relações existentes e às decisões erradas. • Por isso, a relação das variáveis deve ser linearizada antes de entrar no cálculo do coeficiente. 15 Tabela 12.3 – Dados de volume e pressão do experimento de Boyle VOLUME 48 46 44 42 40 38 36 34 32 30 28 26 24 23 22 21 20 19 18 17 16 15 14 13 12 PRESSÃO 29,125 30,5625 31,9375 33,5 35,3125 36,78947 39,3125 41,11765 44,1875 46,6 50,3125 54,3125 58,25 61,3125 63,54545 66,57143 70 74,25 77,666 82,75 87,875 93,0625 100,4375 107,8125 117,5625 16 Figura 12.3 – A relação não-linear entre volume (V) e pressão (P) 17 Figura 12.4 – A relação linear entre a inversa de volume (1/V) e pressão (P) 18 Tabela 12.4 – Coeficientes de correlação entre variáveis transformadas Tabela de Correlação Variáveis Nº obs. VOLUME PRESSÃO VOLUME_^-1 VOLUME_^-2 VOLUME_^2 VOLUME 25 1,0000 -0,9348 -0,9354 -0,8623 0,9877 PRESSÃO 25 -0,9348 1,0000 0,9999 0,9848 -0,8718 VOLUME_^-1 25 -0,9354 0,9999 1,0000 0,9844 -0,8724 VOLUME_^-2 25 -0,8623 0,9848 0,9844 1,0000 -0,7815 VOLUME_^2 25 0,9877 -0,8718 -0,8724 -0,7815 1,0000 19 12.6.2 Estacionaridade O comportamento de não estacionaridade é associado ao fenômeno chamado de caminhada aleatória, muito utilizado na área de finanças. Numa caminhada aleatória, a diferença entre dois dados subseqüentes é uma quantia aleatória et, da distribuição normal e com média nula e desvio padrão fixo. Em forma de equação é Yt+1 = Yt + et O próximo valor de Y é desconhecido, mas tem limites em termos estatísticos que vem das propriedades de et com desvio padrão fixo. Em outras palavras, a melhor previsão possível de Y é o seu valor hoje. Estacionaridade é um caso extremo de uma característica chamada auto correlação, apresentada embaixo na seção do mesmo nome. 20 Figura 12.5 – Duas variáveis não estacionárias, preços de ações 100 80 valores 60 40 Yt Xt 20 0 -20 tempo -40 21 Figura 12.6 – Variáveis nãoestacionárias transformadas pela primeira diferença 20 15 10 valores 5 Yt - Yt-1 Xt - Xt-1 0 -5 -10 -15 -20 tempo 22 Tabela 12.5 – Coeficientes de correlação entre variáveis não estacionárias e transformadas com a primeira diferença para torná-las estacionárias Tabela de Correlação Variáveis Nº obs. Yt Xt Yt – Yt-1 Xt – Xt-1 Yt 99 1,0 0,595 0,109 0,093 Xt 99 0,595 1,0 -0,067 0,239 Yt – Yt-1 99 0,109 -0,067 1,0 0,111 Xt – Xt-1 99 0,093 0,239 0,111 1,0 23 12.6.3 Normalidade • Para distinguir se a correlação realmente existe na população ou não, dependemos de um teste de hipótese. • Nesta decisão, é necessário calcular o valor da estatística t de Gosset e utilizar os valores mínimos do coeficiente da tabela 12.2. • Quem utiliza o coeficiente de correlação em geral não se preocupa com a pressuposição básica de normalidade das duas variáveis, embora a normalidade dos dados seja exigência básica dos testes de hipótese. • Se os dados não são distribuídos normalmente, o teste de hipótese com a estatística t de Gosset não é confiável. 24 Tabela 12.6 – Transformações e a estatística de Bera-Jarque para testar normalidade Nas fabricas, a variável tempo é mensurada com freqüência Nos dados da tabela no anexo do capítulo, constam o tempo ativo e inativo de uma máquina injetora de plástico numa fábrica de telefones celulares. Esses dados foram utilizados no capítulo 2 para desenhar as caixas de medianas. Variável Jarque-Bera sem transformação Lambda transforma ção simples JarqueBera com transform ação simples JarqueBera com transforma ção ln TEMPO ATIVO 19,52 -0,37 3,56 4,67 TEMPO INATIVO 5,76 0,58 1,27 129,63 SOMA 7,39 -0,58 0,78 1,87 QUANTIA PED 4,29 0,79 3,66 12,02 25 Discussão sobre Tabela 12.7 – Coeficientes de correlação entre variáveis originais e transformadas • Algumas características da tabela 12.7 que devem ser destacadas, considerando que a tabela é muito comum para análises de correlação. • A correlação entre uma variável e ela mesma é perfeita e, portanto o diagonal só tem valores unitários para estes coeficientes. Somente um lado da matriz é apresentado porque os valores são simétricos. • O coeficiente entre tempo ativo transformada com expoente -0,37, e o logaritmo de tempo ativo é igual a -1,00 e isso significa que as duas transformações são na prática iguais, claro com a única diferença sendo o sinal. • Isso não e o caso com a variável SOMA, as transformações da variável não tem correlação com a variável original. 26 Discussão sobre Tabela 12.7 – Coeficientes de correlação entre variáveis originais e transformadas • O coeficiente de correlação entre tempo ativo da máquina (em logaritmos) e quantia de pedidos na fila tem valor alto (0,57) e significante. Notam-se nos dados que a fila sempre existe; não há nenhum momento quando os pedidos caem ao zero. • Conseqüentemente está havendo um mau gerenciamento da máquina; não há razão para forçar a máquina funcionar mais tempo sem uma parada para manutenção preventiva em função do número de pedidos em fila. Especialmente considerando o excesso de tem´po parado (veja o exemplo no capítulo 2). • Assim, seria melhor para a fábrica se a injetora funcionar regular e continuamente em 16 horas (ou um pouco mais pagando hora extra) no ambiente de um programa de manutenção preventiva em vez de funcionar irregularmente sem um programa de manutenção, como é o caso hoje. 27 12.7 Autocorrelação O coeficiente de autocorrelação tem uma forma quase igual, mas é para uma única variável em defasagem. ( X X ) ( X X ) r = ( X X ) ( X X ) t t j j t t j O subscrito no r significa o tamanho da defasagem em número de períodos. O rj é utilizado para analisar a presença de padrões temporais nos dados, e nesse sentido pode encontrar sazonalidade e ademais pode ser utilizado para detectar se a variável é estacionária. 28 12.7.1 Autocorrelação e estacionaridade Figura 12.7 – Correlograma dos coeficientes de autocorrelação da tabela 12.8 29 12.7.2 Autocorrelação e sazonalidade FAC - DifCR 0,6 0,5 0,4 0,3 FAC 0,2 0,1 0 -0,1 -0,2 -0,3 -0,4 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 Figura 12.8 - Correlograma dos coeficientes de autocorrelação de consumo residencial mensal de energia elétrica em S. Catarina de janeiro de 1986 até dezembro de 2003 (dados em primeira diferença) 30 12.8 Coeficiente de correlação cruzada • Relação entre duas variáveis não é necessariamente contemporânea, ou seja, dada a variação em uma variável, a outra somente se modifica certo período mais tarde. • Em outras palavras, há uma defasagem de tempo entre as alterações dos dados. O coeficiente de correlação cruzada é entre variáveis em defasagem, de períodos diferentes. 31 Tabela 12.9 – Coeficientes cruzados de correlação entre tempo ativo e inativo Variáveis TEMPO INATIVO ln_TEMPO ATIVO (TA) TEMPO INATIVO .. -0,022 TEMPO INATIVO-1 .. -0,019 TEMPO INATIVO-2 .. -0,139 TEMPO INATIVO-3 .. -0,088 ln_TEMPO ATIVO (TA) -0,022 .. ln_TEMPO ATIVO (TA)-1 0,240 .. ln_TEMPO ATIVO (TA)-2 0,072 .. ln_TEMPO ATIVO (TA)-3 0,018 .. 32 Discussão resultadosTabela 12.9 sobre o Coeficiente de correlação cruzada • O coeficiente positivo em defasagem indica que quando tempo ativo é relativamente grande, então, em seguida, tempo inativo também o é, ou seja, pressionando a máquina a trabalhar demais causa estresse nela, e as paradas conseqüentes são demoradas, causando relativamente mais tempo parado. • O resultado é máquina inativa durante longos períodos de manutenção corretiva. 33 12.10 Conclusões do capítulo • Vimos neste capítulo que a aplicação correta do coeficiente de correlação deve levar em conta várias suposições que vem diretamente da teoria estatística e de senso comum. • Para comprovar relacionamento entre duas variáveis, suas distribuições são normais, a relação procurada é linear, e as séries são estacionárias. Seguindo estas normas, estimativas do coeficiente são confiáveis, e intervalos de confiança e testes de hipótese podem revelar a força da relação estimada. • A análise das correlações com variáveis que não seguem as suposições exigidas, não comprova absolutamente nada, e pior ainda, pode levar o pesquisador a conclusões equivocadas. 34 12.11 Referências Fisher, R. A. (1925), “Applications of Student’s Distribution,” Metron, 5, 90, 104. Granger, C. W. J. (1969), “Investigating causal relations by econometric models and cross-spectral methods,” Econometrica, 37, 424-438. Levine, Ira N. (1978), Physical Chemistry, University of Brooklyn: McGrawHill Publishing. Rodgers, J. L., Nicewander, W. A. (1988), “Thirteen Ways to Look at the Correlation Coefficient,” The American Statistician, Vol. 42, No. 1., pp. 5966. Student (1908). “On the Probable Error of the Mean,” Biometrika 6, 1, 25. 35