Correlação Ogliari – Técnicas estatísticas para predição Correlação • Interesse em analisar o comportamento conjunto de duas variáveis quantitativas. • Interesse em obter uma medida estatística que indique se existe ou não uma relação linear entre duas variáveis; e se existe, qual a sua magnitude e sinal. – Exemplo: anos de experiência em programação e o tempo gasto para realizar uma determinada tarefa. – Número de acessos a uma página e o tamanho da população economicamente ativa. Ogliari – Técnicas estatísticas para predição Exemplo 1 • Processo de queima de massa cerâmica para pavimento – X1 = retração linear (%), – X2 = resistência mecânica (MPa) e – X3 = absorção de água (%). Ogliari – Técnicas estatísticas para predição Exemplo 11.1 - Dados: ensaio X1 X2 X3 ensaio X1 X2 X3 1 8,70 38,42 5,54 10 13,24 60,24 0,58 2 11,68 46,93 2,83 11 9,10 40,58 3,64 3 8,30 38,05 5,58 12 8,33 41,07 5,87 4 12,00 47,04 1,10 13 11,34 41,94 3,32 5 9,50 50,90 0,64 14 7,48 35,53 6,00 6 8,58 34,10 7,25 15 12,68 38,42 0,36 7 10,68 48,23 1,88 16 8,76 45,26 4,14 8 6,32 27,74 9,92 17 9,93 40,70 5,48 9 8,20 39,20 5,63 18 6,50 29,66 8,98 Ogliari – Técnicas estatísticas para predição Diagramas de dispersão • Uma representação gráfica bastante útil para se estudar a dependência entre variáveis quantitativas é o gráfico de dispersão, mostrados nos próximos slides. Ogliari – Técnicas estatísticas para predição Exemplo 1 - Diagramas de dispersão: resistência mecânica (Mpa) 65 60 55 50 45 40 35 30 25 5 6 7 8 9 10 11 12 retraç ão linear (%) Interpretar a correlação entre as duas variáveis. Ogliari – Técnicas estatísticas para predição 13 14 Exemplo 1 - Diagramas de dispersão: absorção de água (%) 10 8 6 4 2 0 5 6 7 8 9 10 11 12 retraç ão linear (%) Interpretar a correlação entre as duas variáveis. Ogliari – Técnicas estatísticas para predição 13 14 Exemplo 1 - Diagramas de dispersão: absorção de água (%) 10 8 6 4 2 0 25 30 35 40 45 50 55 res is tênc ia mec ânic a (Mpa) Interpretar a correlação entre as duas variáveis. Ogliari – Técnicas estatísticas para predição 60 65 Resultado de um teste (de 0 a 100) sobre conhecimento (X) e tempo gasto (minutos) para aprender a operar uma máquina (Y) para oito indivíduos. Indivíduo Teste (X) Tempo (Y) A 45 343 B 52 368 C 61 355 D 70 334 E 74 337 F 76 381 G 80 345 H 90 375 Ogliari – Técnicas estatísticas para predição 390 380 Tempo 370 360 350 340 330 0 20 40 60 80 Resultado do teste Interpretar a correlação entre as duas variáveis. Ogliari – Técnicas estatísticas para predição 100 • X e Y estão positivamente correlacionadas quando elas caminham num mesmo sentido. • Estão negativamente correlacionadas quando elas caminham em sentidos opostos. • As maiores correlações positivas e negativas são obtidas somente quando todos os pontos estão bem próximos à uma linha reta. Ogliari – Técnicas estatísticas para predição Idéia de construção do Coef. de Correlação de Pearson 6 5 6 0 x, y 5 5 5 0 resistênciamecânica(Mpa) 4 5 4 0 3 5 3 0 2 5 5 6 7 8 9 1 0 1 1 1 2 1 3 re tra çã olin e a r(% ) Ogliari – Técnicas estatísticas para predição 1 4 Ensaio 1 2 3 4 X Y XX 8,70 38,42 -0,82 11,68 46,93 2,16 8,30 38,05 -1,22 12,00 47,04 2,48 Y Y Ensaio X -2,91 10 5,60 11 9,10 40,58 -0,42 -0,75 -3,28 12 8,33 41,07 -1,19 -0,26 5,71 13 5 9,50 50,90 -0,02 9,57 14 6 8,58 34,10 -0,94 -7,23 15 6,90 16 7 10,68 48,23 1,16 8 6,32 27,74 -3,20 9 8,20 39,20 -1,32 Y XX 13,24 60,24 3,72 11,34 41,94 1,82 Y Y 18,91 0,61 7,48 35,53 -2,04 -5,80 12,68 38,42 3,16 -2,91 8,76 45,26 -0,76 3,93 -13,59 17 9,93 40,70 0,41 -2,13 6,50 29,66 -3,02 -11,67 18 Ogliari – Técnicas estatísticas para predição -0,63 25,00 Resistência mecânica 20,00 15,00 10,00 5,00 0,00 -4,00 -3,00 -2,00 -1,00-5,000,00 1,00 2,00 -10,00 -15,00 -20,00 Retração linear Ogliari – Técnicas estatísticas para predição 3,00 4,00 5,00 Padronização • Padronização (xi , yi) (xi’, yi’) : x i = xi x sx yi = yi y sy (i = 1, 2, ..., n) Ogliari – Técnicas estatísticas para predição Padronização Valores padronizados de resistência 3,00 2,50 2,00 1,50 1,00 (0, 0) 0,50 -2,00 -1,00 0,00 -0,500,00 1,00 -1,00 -1,50 -2,00 Valores padronizados de retação Ogliari – Técnicas estatísticas para predição 2,00 3,00 Idéia de construção do Coef. de Correlação de Pearson x i = xi x sx yi = yi y sy (i = 1, 2, ..., n) Considere os produtos dos valores padronizados: xi’yi’ Ogliari – Técnicas estatísticas para predição Sinais dos produtos dos valores padronizados: y’ Quadrante com xi’yi’ negativos Quadrante com xi’yi’ positivos x’ Quadrante com xi’yi’ positivos Quadrante com xi’yi’ negativos Ogliari – Técnicas estatísticas para predição Sinais dos produtos dos valores padronizados: Quadrante com xi’yi’ negativos y’ Quadrante com xi’yi’ positivos x’ Quadrante com xi’yi’ negativos Quadrante com xi’yi’ positivos x y ' i ' i 0 i Ogliari – Técnicas estatísticas para predição Sinais dos produtos dos valores padronizados: Quadrante com xi’yi’ negativos y’ Quadrante com xi’yi’ positivos x’ Quadrante com xi’yi’ positivos Quadrante com xi’yi’ negativos x y ' i ' i 0 i Ogliari – Técnicas estatísticas para predição Sinais dos produtos dos valores padronizados: Quadrante com xi’yi’ negativos Quadrante com xi’yi’ positivos y’ x’ Quadrante com xi’yi’ negativos Quadrante com xi’yi’ positivos ' ' x i yi 0 i Ogliari – Técnicas estatísticas para predição Coeficiente de correlação de Pearson • Definição: é uma medida do grau de correlação entre X e Y e, também, da proximidade dos dados a uma reta. • Esta medida varia no intervalo de -1 a 1. Ogliari – Técnicas estatísticas para predição Idéia de construção do Coef. de Correlação de Pearson • Padronização (xi, yi) (xi’, yi’) : x i = xi x sx yi = yi y sy (i = 1, 2, ..., n) n xi y i Coef. de Correlação de Pearson: r = i 1 n 1 Ogliari – Técnicas estatísticas para predição Valores possíveis de r e interpretação da correlação Sentido +1 Força Forte Positiva Moderada Fraca Valor de r 0 Ausência Fraca Negativa -1 Moderada Forte Ogliari – Técnicas estatísticas para predição Exemplo 1. Matriz de correlações retração linear resistência mecânica absorção de água retração linear 1,00 0,75 -0,88 resistência mecânica 0,75 1,00 -0,84 absorção de água -0,88 -0,84 1,00 Interpretar. Ogliari – Técnicas estatísticas para predição • Exercício: calcular o coeficiente de correlação de Pearson para a porcentagem de acertos (Y) e tamanho da cache, em mil bytes, (X), para um determinado tipo de précarregamento. • (Y) 44,45 46,99 50,66 53,21 • (X) 250 300 350 400 Ogliari – Técnicas estatísticas para predição Outra forma de calcular r r n xi .yi xi y i n xi2 x i n y i2 y i 2 2 • Exercício: calcular o coeficiente de correlação de Pearson para a porcentagem de acertos (Y) e tamanho da cache, em bytes, (X), para um determinado tipo de pré-carregamento usando a expressão acima. • (Y) 44,45 46,99 50,66 53,21 • (X) 250 300 350 400 Ogliari – Técnicas estatísticas para predição Coeficiente de correlação populacional • É um parâmetro ou característica da população, representada pela letra grega e desconhecido. POPULAÇÃO (X,Y) Ogliari – Técnicas estatísticas para predição Coeficiente de correlação populacional Exemplo: considere uma empresa que vende e conserta microcomputadores. Deseja-se estudar a relação entre o período de tempo do serviço de chamadas, em minutos (X) e o número de componentes eletrônicos no computador que devem ser consertados ou substituídos (Y). Ogliari – Técnicas estatísticas para predição Inferência sobre • Dada uma amostra aleatória simples (x1, y1), (x2, y2), ..., (xn, yn) do par de variáveis aleatórias (X, Y), o coeficiente r pode ser considerado uma estimativa do verdadeiro e desconhecido coeficiente . • Podemos usar o coeficiente de correlação amostral, r, para fazer várias inferências sobre . • Uma população que tenha duas variáveis nãocorrelacionadas, pode produzir uma amostra com coeficiente de correlação diferente de zero, simplesmente devido à seleção dos dados. Ogliari – Técnicas estatísticas para predição Teste de significância de • Exemplo: considere uma empresa que vende e conserta computadores. Para estudar a relação entre o período de tempo do serviço de chamadas, em minutos (X), e o número de componentes eletrônicos no computador que devem ser consertados ou substituídos, uma amostra de registros foi observada. Os resultados estão apresentados na tabela a seguir: Ogliari – Técnicas estatísticas para predição Registro 1 2 3 4 5 6 7 8 9 10 11 12 13 14 y 23 29 49 64 74 87 96 97 109 119 149 145 154 166 Ogliari – Técnicas estatísticas para predição x 1 2 3 4 4 5 6 6 7 8 9 9 10 10 Teste de significância de • H0: = 0 (as variáveis X e Y são não correlacionadas) • H1: 0 (as variáveis X e Y são correlacionadas) (pode também ser unilateral) • O cálculo do coeficiente de correlação na amostra selecionada produziu: • r = 0,994 Ogliari – Técnicas estatísticas para predição Teste de significância de • Estatística do teste T r n2 1 r 2 a qual tem distribuição t de Student com parâmetro n-2 graus de liberdade. Com os dados da amostra, obtemos: to 0 ,994 14 2 1 0 ,994 2 31,48 a qual tem distribuição t de Student com parâmetro 14-2=12 graus de liberdade. Ogliari – Técnicas estatísticas para predição Teste de significância de • Região crítica – É um teste bilateral, da distribuição t de Student, obtemos para nível de significância () de 5% e 12 graus de liberdade: Ogliari – Técnicas estatísticas para predição Teste de significância de • Conclusão: como t0 pertence a região de rejeição, rejeitamos a hipótese nula (H0), isto é, existe dependência entre tempo de chamada e número de componentes eletrônicas consertadas ou substituídas. Ogliari – Técnicas estatísticas para predição Teste de significância de • Hipóteses: • Estatística do teste • Região crítica • Resultado da amostra • Conclusão Ogliari – Técnicas estatísticas para predição Teste de significância de • Exercício – Desejamos testar se existe ou não correlação entre o número de clientes (Y) e os anos de experiência de agentes de seguros (X). Foram sorteados cinco agentes e observamos as duas variáveis em cada agente, cujos resultados foram: – Agentes A B C D E – Anos 2 4 5 6 8 – Clientes 48 64 60 72 56 – Teste a hipótese de não haver correlação entre número de clientes e anos de experiência. Utilize nível de significância de 10% (=0,10). Ogliari – Técnicas estatísticas para predição Estimação de • Quando nós rejeitamos H0, isto é, que é diferente de zero, é bastante interessante construir um intervalo de confiança para o coeficiente de correlação populacional (). • Inicialmente obtemos o intervalo de confiança de 95% para , dado por: 1 I .C . μξ ,95% : ξ 0 1,96 n 3 onde: 1 1 r ξ 0 ln 2 1- r Obs.: é a média da distribuição de uma transformação da estatística r. Ogliari – Técnicas estatísticas para predição Estimação de • Para o exemplo da empresa que vende e conserta computadores, o intervalo de confiança de 95% para é dado por: 1 I .C . μξ ,95% : ξ 0 1,96 n 3 1 1 0 ,994 ξ 0 ln 2 ,878 2 1 - 0,994 1 14 3 : 2 ,878 0 ,5910 : 2,287;3,469 : 2 ,878 1,96 Ogliari – Técnicas estatísticas para predição Ver exemplo Estimação de • Finalmente, podemos encontrar os extremos do intervalo de confiança para o coeficiente de correlação populacional . • Assim de: 2 ,287 r 1 1 r ln 2 1- r e 2.2 ,287 1 e 4 ,574 1 e 2.2 ,287 1 e 4 ,574 1 1 1 r 3,469 ln 2 1 r r e 2.3 ,469 1 e 2.3 ,469 1 e 6 ,938 1 e 6 ,938 1 0 ,98 0 ,998 Ogliari – Técnicas estatísticas para predição e = 2,7183 Estimação de • Obtemos o intervalo para I .C . ρ ;95% : 0 ,98;0 ,998 Assim, podemos afirmar que o coeficiente de correlação populacional é um número entre 0,98 e 0,998. Ogliari – Técnicas estatísticas para predição Estimação de • Exercício – Concluímos que existe correlação entre o número de clientes e anos de experiência dos agentes (r = 0,95). Estime o verdadeiro valor do coeficiente de correlação com confiança de 90%. Ogliari – Técnicas estatísticas para predição Causalidade versos correlação Pesquisadores freqüentemente são “tentados” a inferir uma relação de causa e efeito entre X e Y quando eles ajustam um modelo de regressão ou realizam uma análise de correlação. Uma associação significativa entre X e Y em ambas as situações não necessariamente implica numa relação de causa e efeito. Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O gráfico mostra a população de Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o número de cegonhas (pássaros) naquele ano (X). Interpretação: existe associação entre X e Y. Freqüentemente, quando duas v. X e Y parecem estar fortemente associadas, pode ser porque X e Y estão, de fato, associadas com uma terceira variável, W. No exemplo, X e Y aumentam com W = tempo. Correlação não necessariamente implica em causalidade Ogliari – Técnicas estatísticas para predição