Utilizando o R
Regressão e correlação
Desejamos descrever a relação entre
duas variáveis usando o conceito de
regressão linear
 Método dos mínimos quadrados


Outro método

Mais outro
Técnicas para Predição de Dados
2
Modelo de Regressão
Linear Simples
Yi    X i   i



Y é a variável resposta;
X é a variável independente;

representa
o erro.
Técnicas para Predição de Dados
3
Estudo da relação entre
variáveis

Investigar a presença ou ausência de
relação linear sob dois pontos de vista
 Quantificando
a força dessa relação: correlação
 Explicitando a forma dessa relação: regressão

Diagrama (Mapa) de dispersão:
representação gráfica das duas variáveis
quantitativas
Técnicas para Predição de Dados
4
Correlação


No entanto, antes de propor um modelo de
regressão é importante verificar o grau de
correlação entre as variáveis
independentes x e a variável resposta y
Além disso nem sempre uma correlação
elevada entre variáveis indica que faz sentido
propor um modelo de regressão

Exemplo: produção de bananas versus taxa de
natalidade
Técnicas para Predição de Dados
5
Mapas de dispersão
e tipos de correlação
60
x = horas de treinamento
y = número de acidentes
Acidentes
50
40
30
20
10
0
0
2
4
6
8
10 12 14 16 18
Horas de treinamento
Correlação negativa: à medida
que Técnicas
x cresce,
y decresce.
para Predição de Dados
20
6
Mapas de dispersão
e tipos de correlação
Média de notas
na graduação
x = nota no vestibular
y = média de notas na graduação
4,00
3,75
3,50
3,25
3,00
2,75
2,50
2,25
2,00
1,75
1,50
300 350 400 450 500 550 600 650 700 750 800
Nota no vestibular
Correlação positiva: à medida
que x cresce,
y cresce também.
Técnicas para Predição de Dados
7
Mapas de dispersão
e tipos de correlação
QI
x = altura
y = QI
160
150
140
130
120
110
100
90
80
60
64
68
72
76
80
Altura
Não há correlação linear.
Técnicas para Predição de Dados
8
Coeficiente de
Correlação Linear
Mede a intensidade e a direção da
relação linear entre duas variáveis.
r
n
n
n
i 1
i 1
i 1
n xi yi   xi  yi


n xi    xi 
i 1
 i 1 
n
2
n
2


n  yi    y i 
i 1
 i 1 
n
n = tamanho da amostra
x = variável dependente
y = variável independente
Técnicas para Predição de Dados
2
n
2
i = 1, …, n.
9
Coeficiente de
Correlação Linear
O intervalo de r vai de –1 a 1.
–1
Se r está
próximo a –1,
há uma forte
correlação
negativa.
0
Se r está
próximo de 0,
não há
correlação
linear.
Técnicas para Predição de Dados
1
Se r está
próximo de 1,
há uma forte
correlação
positiva.
10
Nota final
Aplicação
95
90
85
80
75
70
65
60
55
50
45
40
0
2
4
6
8
10
Faltas
X
12
Técnicas para Predição de Dados
14
16
Faltas
x
8
2
5
12
15
9
6
Nota
final
y
78
92
90
58
43
74
81
11
Regressão e correlação
O conjunto de dados “thuesen” tem 24
linha e duas colunas. Os dados estão
relacionados com uma anomalia chamada
“ventricular shortening velocity” e com o
nível de açúcar no sange de pacientes
diabéticos tipo I.
 data(thuesen)
 attach(thuesen)
 thuesen

Técnicas para Predição de Dados
12
Regressão e correlação

cor(short.velocity, blood.glucose)
#
cálculo da correlação
lm (short.velocity ~ blood.glucose)
Call:
lm(formula = short.velocity ~ blood.glucose)
 Coefficients:
(Intercept) blood.glucose
1.09781
0.02196


short.velocity = 1.098 + 0.022 blood.glucose
Técnicas para Predição de Dados
13
Regressão e correlação

summary(lm (short.velocity ~ blood.glucose))
Residuals:
Min
1Q Median
3Q
Max
-0.40141 -0.14760 -0.02202 0.03001 0.43490
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.09781 0.11748 9.345 6.26e-09 ***
blood.glucose 0.02196 0.01045 2.101 0.0479 *
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2167 on 21 degrees of freedom
(1 observation deleted due to missingness)
Multiple R-squared: 0.1737, Adjusted R-squared: 0.1343
F-statistic: 4.414 on 1 and 21 DF, p-value: 0.0479
Técnicas para Predição de Dados
14
Regressão e correlação


plot(blood.glucose ,short.velocity)
abline(lm (short.velocity ~ blood.glucose))
Técnicas para Predição de Dados
15
Regressão e correlação

Resíduos e valores ajustados
 lm.velo= lm (short.velocity ~ blood.glucose)
 Valores ajustados

fitted(lm.velo)
 Valores

dos resíduos
resid (lm.velo)

plot (blood.glucose, short.velocity )
lines (blood.glucose, fitted(lm.velo)) ou

lines (blood.glucose[!is.na(short.velocity)], fitted(lm.velo))

Técnicas para Predição de Dados
16
Regressão e correlação

plot (blood.glucose, short.velocity )
lines (blood.glucose, fitted(lm.velo))

ou
lines (blood.glucose[!is.na(short.velocity)], fitted(lm.velo))


segments (blood.glucose,fitted(lm.velo),
blood.glucose,short.velocity)
Técnicas para Predição de Dados
17
Exercício 2 (montgomery)

Um motor de foguete é fabricado unindo um
propelente de ignição a um propelente para
manter o foguete em vôo. O poder da força da
junção dos propelentes é uma característica de
qualidade importante. Suspeita-se que o “poder”
dessa força está relacionado com a “idade” do
recipiente do propelente. O arquivo de dados
datafile4.dat contém os dados relativos a 20
observações da força da junção comparados
com a idade do recipiente do propelente.
Técnicas para Predição de Dados
18
Exercício 2 (montgomery)










Plote o gráfico de dispersão.
Encontre covariância entre os dois vetores de dados
Encontre a correlação entre os dois vetores de dados
Encontre a média dos dois vetores de dados
Encontre os valores de Sxx e Sxy
Encontre os estimadores β0 e β1
Dado o modelo y = β0 + β1x, encontre os valores ajustados para a
variável resposta para cada observação da variável explicativa
Encontre o resíduo ei e verifique se ∑ ei = 0
Finalmente, aplique os métodos do exercício 1 ao arquivo
datafile4.dat e compare os resultados.
A tabela 2.2 do livro do montgomery apresenta os resultados acima.
Técnicas para Predição de Dados
19
Utilizando o R
Download

aula_4_ R