2.2. Diagrama de dispersão e o coeficiente de correlação O professor está confiante de que existe uma forte relação entre o tempo de estudo e a nota de desempenho. Ele prossegue seu experimento com um grupo de 10 alunos e veja que resultados observou: Aluno Tempo de estudo(em horas) 1 4 2 10 3 5 4 5 5 4 6 1 7 10 8 5 9 8 10 6 Nota (de 0 a 10) 5 9 5 6 3 2 10 7 9 7 Novamente, vamos colocar estas informações num gráfico: o primeiro gráfico é conhecido como diagrama de dispersão. Comandos do R para gerar os gráficos: Observe que aqui temos 10 pontos e estes não estão alinhados. Não é possível passar uma única reta por todos estes pontos. Sabemos que dois pontos definem uma reta, mas se tivermos 3 ou mais isso passa a ser um problema que só poderá ser resolvido se todos os pontos estiverem alinhados. Acontece que os alunos possuem características diferentes e dificilmente o tempo de estudo estará alinhado com a capacidade de absorção dos conteúdos estudados. Mas o professor não desistiu do seu modelo não!!!! x<-c(4,10,5,5,4,1,10,5,8,6) y<-c(5,9,5,6,3,2,10,7,9,7) par(mfrow=c(1,2)) #primeiro gráfico plot(x,y,main="tempo de estudo x nota") #segundo gráfico plot(x,y,main="tempo de estudo x nota") lines(x[c(6,1)],y[c(6,1)],col=1) lines(x[c(6,2)],y[c(6,2)],col=2) lines(x[c(6,3)],y[c(6,3)],col=3) lines(x[c(6,4)],y[c(6,4)],col=4) lines(x[c(6,5)],y[c(6,5)],col=5) lines(x[c(6,7)],y[c(6,7)],col=6) lines(x[c(6,8)],y[c(6,8)],col=7) lines(x[c(6,9)],y[c(6,9)],col=8) lines(x[c(6,10)],y[c(6,10)],col=9) O que ele fez? Resolver lançar mão de uma ferramenta estatística chamada MODELOS DE REGRESSÃO LINEAR. Ele descobriu que existe um coeficiente que calcula o “grau de alinhamento” dos pontos em torno de uma reta. Esse coeficiente é chamado de coeficiente de correlação linear. Uma vez calculado o coeficiente, se este der como resultado o valor 1 ou -1, significa que todos os pontos estão alinhados e portanto uma única reta passa por todos eles. Se o coeficiente for muito próximo de zero o melhor é abandonar a idéia de utilizar a reta como um modelo matemático que relacione as duas variáveis em questão: x e y. Como obter o valor do coeficiente de correlação???? Seu valor é obtido pela expressão: O coeficiente de correlação linear r é um número puro que varia de –1 a +1 e sua interpretação dependerá do valor numérico e do sinal, como segue: r = -1 → correlação perfeita negativa -1<r<0 → correlação negativa -0,9<r<-0,7 → correlação negativa forte -0,7<r<-0,4 → correlação negativa moderada -0,4<r<-0,2 → correlação negativa fraca r = 0 → correlação nula r= 1 → correlação perfeita positiva 0,9<r<0,7 → correlação positiva forte 0,7<r<0,4 → correlação positiva moderada 0,4<r<0,2 → correlação positiva fraca Onde - é chamado de covariância de X e Y. é chamado de variância de X. é chamado de variância de Y. Não se assuste com as fórmulas acima!!!! Na prática, utilizando sua calculadora, deverá realizar as seguintes operações que apresentamos passo a passo. Para exemplificar, utilizaremos o exemplo inicial dos dois pontos (4,8) e (6,9) onde x=(4,6) e y=(8,9) Passo a passo 1- Obtenha a média e o desvio padrão de X Os valores de x no exemplo são 4 e 6 média 5 desvio padrão 1.414214 2- Obtenha a média e o desvio padrão de Y Os valores de y no exemplo são 8 e 9 média 8,5 desvio padrão 0.7071068 3- Realize o produto entre os valores de X e Y e obtenha seu total. X 4 6 Y 8 9 produto 32 54 86 Total 4- Calculamos o numerador da expressão do coeficiente r, ou seja, sxy: (Total do produto entre x e y) – (número de observações)*(média de x)*(média de y) 86 - 2*5*8.5 = 1 5- Calculamos o denominador da expressão do coeficiente r, ou seja, raiz quadrada do produto entre sxx e syy: (número de observações – 1)*(desvio padrão de X)*(desvio padrão de Y) (2-1)* 1.414214*0.7071068=1 6- Finalmente dividimos os últimos dois valores para obter r: R=1/1 = 1 R=1 significa perfeita correlação positiva, ou seja, todos os pontos sob a mesma reta, cuja equação já foi obtida anteriormente. Lembrando que o problema surgiu quando não pudemos passar uma única reta sob os 10 pontos. Vamos obter o coeficiente de correlação para estes pontos: x=(4,10,5,5,4,1,10,5,8,6) e y=(5,9,5,6,3,2,10,7,9,7) Passo a passo 1- Obtenha a média e o desvio padrão de X média 5.8 desvio padrão 2.820559 2- Obtenha a média e o desvio padrão de Y média 6.3 desvio padrão 2.626785 3- Realize o produto entre os valores de X e Y e obtenha seu total. X y 4 10 5 9 produto 20 90 5 5 4 1 10 5 8 6 5 6 3 2 10 7 9 7 Total 25 30 12 2 100 35 72 42 428 4- Calculamos o numerador da expressão do coeficiente r, ou seja, sxy: (Total do produto entre x e y) – (número de observações)*(média de x)*(média de y) 428-10*5.8*6.3 = 62.6 5- Calculamos o denominador da expressão do coeficiente r, ou seja, raiz quadrada do produto entre sxx e syy: (número de observações – 1)*(desvio padrão de X)*(desvio padrão de Y) (10-1)* 2.820559*2.626785=66.68102 6- Finalmente dividimos os últimos dois valores para obter r: R=62.6/66.68102= 0.9387979 Arredondando o valor de r para duas casas decimais obtemos: R=0.94 o que indica forte correlação linear positiva. Desse modo o professor decide adotar um modelo de atribuição de notas através do tempo de estudo. Mas agora surge um novo problema, como obter a equação da reta?