2.2. Diagrama de dispersão e o coeficiente de correlação
O professor está confiante de que existe uma forte relação entre o tempo de estudo e a nota
de desempenho. Ele prossegue seu experimento com um grupo de 10 alunos e veja que
resultados observou:
Aluno Tempo de estudo(em horas)
1
4
2
10
3
5
4
5
5
4
6
1
7
10
8
5
9
8
10
6
Nota (de 0 a 10)
5
9
5
6
3
2
10
7
9
7
Novamente, vamos colocar estas informações num gráfico: o primeiro gráfico é conhecido
como diagrama de dispersão.
Comandos do R para gerar os gráficos:
Observe que aqui temos 10 pontos e estes não
estão alinhados. Não é possível passar uma única
reta por todos estes pontos. Sabemos que dois
pontos definem uma reta, mas se tivermos 3 ou
mais isso passa a ser um problema que só poderá
ser resolvido se todos os pontos estiverem
alinhados. Acontece que os alunos possuem
características diferentes e dificilmente o tempo de
estudo estará alinhado com a capacidade de
absorção dos conteúdos estudados.
Mas o professor não desistiu do seu modelo não!!!!
x<-c(4,10,5,5,4,1,10,5,8,6)
y<-c(5,9,5,6,3,2,10,7,9,7)
par(mfrow=c(1,2))
#primeiro gráfico
plot(x,y,main="tempo de estudo x nota")
#segundo gráfico
plot(x,y,main="tempo de estudo x nota")
lines(x[c(6,1)],y[c(6,1)],col=1)
lines(x[c(6,2)],y[c(6,2)],col=2)
lines(x[c(6,3)],y[c(6,3)],col=3)
lines(x[c(6,4)],y[c(6,4)],col=4)
lines(x[c(6,5)],y[c(6,5)],col=5)
lines(x[c(6,7)],y[c(6,7)],col=6)
lines(x[c(6,8)],y[c(6,8)],col=7)
lines(x[c(6,9)],y[c(6,9)],col=8)
lines(x[c(6,10)],y[c(6,10)],col=9)
O que ele fez? Resolver lançar mão de uma ferramenta estatística chamada MODELOS DE
REGRESSÃO LINEAR.
Ele descobriu que existe um coeficiente que calcula o “grau de alinhamento” dos pontos em
torno de uma reta. Esse coeficiente é chamado de coeficiente de correlação linear.
Uma vez calculado o coeficiente, se este der como resultado o valor 1 ou -1, significa que todos
os pontos estão alinhados e portanto uma única reta passa por todos eles.
Se o coeficiente for muito próximo de zero o melhor é abandonar a idéia de utilizar a reta
como um modelo matemático que relacione as duas variáveis em
questão: x e y.
Como obter o valor do coeficiente de correlação????
Seu valor é obtido pela expressão:
O coeficiente de correlação linear r é um
número puro que varia de –1 a +1 e sua
interpretação dependerá do valor numérico e
do sinal, como segue:
r = -1 → correlação perfeita negativa
-1<r<0 → correlação negativa
-0,9<r<-0,7 → correlação negativa forte
-0,7<r<-0,4 → correlação negativa moderada
-0,4<r<-0,2 → correlação negativa fraca
r = 0 → correlação nula
r= 1 → correlação perfeita positiva
0,9<r<0,7 → correlação positiva forte
0,7<r<0,4 → correlação positiva moderada
0,4<r<0,2 → correlação positiva fraca
Onde
- é chamado de covariância de X e Y.
é chamado de variância de X.
é chamado de variância de Y.
Não se assuste com as fórmulas acima!!!! Na prática, utilizando sua calculadora,
deverá realizar as seguintes operações que apresentamos passo a passo. Para
exemplificar, utilizaremos o exemplo inicial dos dois pontos (4,8) e (6,9) onde x=(4,6) e
y=(8,9)
Passo a passo
1- Obtenha a média e o desvio padrão de X
Os valores de x no exemplo são 4 e 6
média
5
desvio padrão 1.414214
2- Obtenha a média e o desvio padrão de Y
Os valores de y no exemplo são 8 e 9
média
8,5
desvio padrão 0.7071068
3- Realize o produto entre os valores de X e Y e obtenha seu total.
X
4
6
Y
8
9
produto
32
54
86
Total
4- Calculamos o numerador da expressão do coeficiente r, ou seja, sxy:
(Total do produto entre x e y) – (número de observações)*(média de x)*(média de y)
86 - 2*5*8.5 = 1
5- Calculamos o denominador da expressão do coeficiente r, ou seja, raiz quadrada
do produto entre sxx e syy:
(número de observações – 1)*(desvio padrão de X)*(desvio padrão de Y)
(2-1)* 1.414214*0.7071068=1
6- Finalmente dividimos os últimos dois valores para obter r:
R=1/1 = 1
R=1 significa perfeita correlação positiva, ou seja, todos os pontos sob a mesma reta, cuja
equação já foi obtida anteriormente.
Lembrando que o problema surgiu quando não pudemos passar uma única reta sob os 10
pontos.
Vamos obter o coeficiente de correlação para estes pontos: x=(4,10,5,5,4,1,10,5,8,6) e
y=(5,9,5,6,3,2,10,7,9,7)
Passo a passo
1- Obtenha a média e o desvio padrão de X
média
5.8
desvio padrão 2.820559
2- Obtenha a média e o desvio padrão de Y
média
6.3
desvio padrão 2.626785
3- Realize o produto entre os valores de X e Y e obtenha seu total.
X
y
4
10
5
9
produto
20
90
5
5
4
1
10
5
8
6
5
6
3
2
10
7
9
7
Total
25
30
12
2
100
35
72
42
428
4- Calculamos o numerador da expressão do coeficiente r, ou seja, sxy:
(Total do produto entre x e y) – (número de observações)*(média de x)*(média de
y)
428-10*5.8*6.3 = 62.6
5- Calculamos o denominador da expressão do coeficiente r, ou seja, raiz quadrada
do produto entre sxx e syy:
(número de observações – 1)*(desvio padrão de X)*(desvio padrão de Y)
(10-1)* 2.820559*2.626785=66.68102
6- Finalmente dividimos os últimos dois valores para obter r:
R=62.6/66.68102= 0.9387979
Arredondando o valor de r para duas casas decimais obtemos:
R=0.94 o que indica forte correlação linear positiva.
Desse modo o professor decide adotar um modelo de atribuição de notas através do
tempo de estudo. Mas agora surge um novo problema, como obter a equação da reta?
Download

2.2. Diagrama de dispersão e o coeficiente de correlação