Estatística
Regressão
Regressão
Pontos mais importantes:
-objectivo
-regressão linear
-distribuição dos estimadores, limites de confiança para os
coeficientes
-limite de confiança para o valor previsto
-coeficiente de correlação amostral
-analise dos erros
-transformação para um modelo linear
-regressão polinomial
-regressão linear múltipla
1
Estatística
Regressão
Objectivo da regressão
Uma tarefa frequente é determinar a relação matemática entre as
variáveis de interesse:
sistema
{x}
{y}
{y}=f{x}
f{x}=?
e.g.
-escoamento horizontal numa conduta:
 p  f
L v
2
D 2
-desactivação dos microorganismos:
-temperatura num
cilindro (condução):
N (t)  N 0e
 kt
-log(TR-T(t))= -(1/fh)t-log(jh(TR-T0))
2
Estatística
Regressão
Modelos matemáticos
experiência
Determinação dos parâmetros
(e.g. propriedades físicas)
Objectivo da regressão:
previsão
1) estimação dos parâmetros dos modelos
matemáticos
2) verificar se o modelo é adequado
Condição: os dados são sujeitos a erros (aleatórios).
3
Estatística
Regressão
regressão
f(x)
f(x)=ax+b
a=?
b=?
x
4
Estatística
Regressão
Regressão linear
Seja Y uma função de x1, x2,..., xr variáveis independentes. A relação
entre eles segue um modelo linear (múltiplo) quando a variável
dependente (Y) pode ser escrita:
Y   0   1 x 1   2 x 2  ...   r x r  e
Onde:
-i (i=0, 1,..., r) são os coeficientes de regressão
-”e” representa o erro aleatório com N(0,s2)
O caso mais simples é quando temos só uma variável independente:
Y    x  e
5
Estatística
Regressão
Y
Suponha, que temos n conjuntos de pontos (xi,yi), i=1,2,...,n.
160
Agora sejam:
-A estimador de 
-B estimador de 
140
120
Assim:
100
Ŷ  A  Bx
80
estimador de Y
60
80
100
120
140
160
180
200
X
Escolhemos A e B tal que a soma dos quadrados dos resíduos,
 Y
n
SS R 
i 1
i
 Yˆi
   Y
2
n
i
  A  Bx i 
2
i 1
seja mínimo.
6
Estatística
Regressão
Para encontrar o mínimo da SSR, temos,
 SS R
A
n
  2   Y i  A  Bx
i
n
 0
1)
i 1
Y
n
 nA  B  x i
i
i 1
i 1
ou
 SS R
B
n
  2  x i  Y i  A  Bx
i
 0
n
2)
i 1
Y 
i
i 1
n
Aplicando,
xY
Y
i 1
n
 A  x i  B x i
2
i
i 1
i 1
n
i
x 
x
n
temos da primeira equação,
n
i
i 1
n
A  Y  Bx
7
Estatística
Regressão
Substituindo o resultado na segunda equação:
n
n

i 1
n
x i Y i  Y  B x n x  B  x i 
 B 
2
xY
i
i
 nxY
i 1
n

i 1
x i  nx
2
2
i 1
X
Y
100
63. 64
160.00
110
68. 86
140.00
120
87. 71
120.00
130
87. 01
140
97. 21
150
100. 36
160
109. 90
60.00
170
128. 55
40.00
180
135. 94
20.00
190
143. 84
y = 0.8893x - 26.65
y
100.00
80.00
.00
90
110
130
150
x
170
190
210
8
Estatística
Regressão
Distribuição dos estimadores, limites de confiança
para os coeficientes de regressão
Para determinar a distribuição A e B, vamos supor que,
Yi ~ N (    x i , s )
2
B pode ser escrito,
n
B
x
n
i
Yi  n x Y
i 1
n

x i  nx
2
   
Y
Yi n
2
i 1
x
n
i
i 1
Yi  x  Yi
i 1
n

i 1
x i  nx
2
2
n

 x
i
 x Y i
i 1
n

n
i

x i  nx
2
2
Y
i
i 1

i 1
onde i e  são constantes.
9
Estatística
Regressão
Porque Y tem uma distribuição normal, B também tem com N(mB,s2B.
n
m B  E B  
 x
i
 x E  Y i 
i 1

n

n
x i  nx
2
 x

  x i  x 
i 1
n

i 1
x i  nx
2
2

 x    x i 
i 1

n

2
i 1
n
i
x i  nx
2
2
i 1
 n

    x i  x x i 
 i 1

n

x i  nx
2
0
 n 2
2 
  x i  nx 
 i 1

n

2
i 1
x i  nx
2
2

 n

 xi  nx 
 i 1

i 1
A variância de B sem prova,
s
2
B

s
2
n

i 1
x i  nx
2
2
10
Estatística
Regressão
Da mesma forma podemos ver que A também segue uma
distribuição normal com os seguintes parâmetros:
E A   E Y   E B x 
n

E Y i 
n
 x 
n
i 1

i 1
  x i
 x  
n
A variância de A sem prova,
n
s
sA 
2
2
x
2
i
i 1
 n 2
2 
n   x i  nx 
 i 1

11
Estatística
Regressão
Assim, A e B são v.a. normais:
n


2
2


s  xi


i 1
A ~ N ,


 n 2
2 

n   x i  n x  

 i 1




2
s
B ~ N  , n

2
2
  x i  nx
i 1

,






Antes de determinar os intervalos de confiança para os parâmetros
n
de regressão, vamos definir:
S xY 
xY
i
i
 nxY
i
 nxY
i 1
n

x i  nx
2
S xY
S xx
2
i 1
n
x
B

i 1
S xx 
xY
i
n
2
i
 nx
2
A  Y  Bx
i 1
n
S YY 
Y
i 1
2
i
 nY
S xx S YY  S xY
2
2
SS R 
S xx
12
Estatística
Regressão
Para determinar os intervalos de confiança para , temos que ter uma
estimativa da s2 (desconhecida). Mas como,
SS R
s
2
~
2
n2
 SS R 
2
 
 E 

s

n  2
 
2
E  
B   
assim a distribuição
 s2
B ~ N   ,
 S xx
~ t n2
SS R




S xx ( n  2 )
O intervalo de confiança (com nível de conf. 1-) é dada pela:
B
SS R
( n  2 ) S xx
t
2 ,n  2
B
SS R
( n  2 ) S xx
t
2 ,n  2
13
Estatística
Regressão
Pela a mesma razão, a distribuição,
A   
n
x
2
i
n

2
2
 s  xi
i 1
A ~ N ,

nS xx


~ t n2
SS R
i 1
S xx n ( n  2 )
Assim o intervalo de confiança (com nível de conf. 1-) é dada pela:
n
A
x
n
2
i
SS R
i 1
n ( n  2 ) S xx
t
2 ,n  2
 A
x
2
i
SS R
i 1
n ( n  2 ) S xx
t
2 ,n  2
14






Estatística
Regressão
160.00
y = 0.8893x - 26.65
140.00
120.00
y
100.00
80.00
60.00
40.00
20.00
.00
90
110
130
150
170
190
210
x
a
Coefficients
Model
1
A
B
Unstandardized
Coefficients
B
Std. Error
-26.650
7.464
.889
.050
Standardi
zed
Coefficien
ts
Beta
.987
t
-3.570
17.612
Sig.
.007
.000
95% Confidence Interval for
Lower Bound Upper Bound
-43.863
-9.438
.773
1.006
a. Dependent Variable: Y
15
Estatística
Regressão
Limites de confiança para o valor previsto
Para fazer uma previsão de Y para um dado valor de x0, talvez a
melhor opção seja:
Y  A  Bx
0
Geralmente, temos mais interesse em definir um intervalo onde Y
ocorre com um dado grau de confiança. Sem prova,
Y  A  Bx
n 1
n

x 0  x 
S xx
2
0
~ t n2
SS R
(n  2)
16
Estatística
Regressão
O intervalo de confiança para Y é dado por,
A  Bx 0 
n 1
n

 x 0  x 2
SS R
S xx
(n  2)
t
2 ,n  2
 Y  A  Bx 0 
n 1

 x 0  x 2
SS R
S xx
(n  2)
n
t
2 ,n  2
160
Y
140
95% intervalo
de confiança
120
100
80
Observed
60
80
Linear
100
120
140
160
180
200
x
17
Estatística
Regressão
Coeficiente de correlação amostral, R
No caso de duas v.a.s X e Y, a dependência linear entre eles é dada
pela:
s
 1   x , y  Corr ( X , Y ) 
n
A estimativa de
s XY 
 S xY 
 Y
i
1
XY
s
2
X
s
2
Y
 Y  x i  x  
i 1
s
X

 S xx 
 x i  x 
n
s
Y

 S YY 
 Y

1  R 
S xY
S xx S YY
i
 nxY
i

x i  nx
2
2
i 1
 Y 
2
i 1
Assim
i
n
2
i 1
2
xY
i 1
n
2
n
n

Y
2
i
 nY
2
i 1
1
18
Estatística
Regressão
|R| alto (1) significa uma forte dependência linear entre Y e x
y = 0.8893x - 26.65
R2 = 0.9749
160.00
140.00
120.00
y
100.00
80.00
60.00
40.00
20.00
.00
90
110
130
150
170
190
210
x
19
Estatística
Regressão
Analise dos erros
O modelo linear de forma, Y     x  e
é um modelo adequado para descrever a relação entre Y~x se,
1) 0 (R é alto)
2) e tem IIDN(0,s2)
A avaliação do segundo termo é através de visualização dos resíduos
com alguns gráficos diagnósticos e o cálculo de coeficientes de autocorrelação
20
Estatística
Regressão
- resíduos vs. Y:
Scatterplot
Dependent Variable: Y
2.0
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
60
80
100
120
140
160
Y
21
Estatística
Regressão
-resíduos sobre uma curva de distribuição normal:
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: Y
1.00
Expected Cum Prob
.75
.50
.25
0.00
0.00
.25
.50
.75
1.00
Observed Cum Prob
22
Estatística
Regressão
-resíduos vs. x
2.0
1.5
1.0
Standardized Residual
.5
0.0
-.5
-1.0
-1.5
80
100
120
140
160
180
200
X
23
Estatística
Regressão
Coeficiente de auto-correlação de “lag” k.
n
 (e
t
 e t )( e t  k  e t  k )
tk
rk 
1
 n
 (e t  e t )
 t 1
2
1
2 n
  (e t k  e t k )
  t  k
2
2


Unstandardized Residual
1.0
.5
0.0
-.5
ACF
Confidence Limits
-1.0
Coefficient
1
2
Lag Number
3
4
5
6
7
8
24
Estatística
Regressão
Transformação para um modelo linear
Muitas as vezes a relação entre duas variáveis, não pode ser escrita
com uma função linear. E.g. cinética de degradação:
 (t)  e
 kt
Tirando o logaritmo
ln  ( t )  ln   kt
Assim escolhendo:
Y  ln  ( t )
  ln 
  k
temos um problema de regressão linear
Y    x  e
25
Estatística
Regressão
-exemplo
6
2
5
1
4
0
3
-1
2
-2
LNY
Y
1
0
-2000
X
0
2000
4000
6000
8000
10000
-3
-2000
0
2000
4000
6000
8000
X
26
10000
Estatística
Regressão
3.00
LNY
"-95% conf int"
"95% conf int"
Linear (LNY)
2.00
ln Y
1.00
x
.00
0
2000
4000
6000
8000
-1.00
-2.00
ln y = -0.0005x + 1.6323
2
R = 0.9967
-3.00
-4.00
1.00
.4
.3
.75
.2
Unstandardized Residual
.1
Expected Cum Prob
.50
27
.25
0.00
0.00
.25
Observed Cum Prob
.50
.75
-.0
-.1
-.2
-.3
1.00
-2000
X
0
2000
4000
6000
8000
10000
Estatística
Regressão
Regressão polinomial
Modelo
Y   0   1 x   2 x  ...   n x  e
2
n
Para estimar os coeficientes desta equação, temos que minimizar,
Y
2
i
 B 0  B 1 x i  B 2 x i  ...  B n x i

n 2
igualando as respectivas derivadas de esta função a zero. O resultado é
um sistema de equações lineares. A maior parte dos softwares
oferecem a opção regressão polinomial.
[A]{B}={f}
- [A] é uma função de xi
- {f} é uma função de xi e Yi.
28
Estatística
Regressão
-exemplo
6
6.00
5
5.00
4
4.00
Y
Poly. (Y)
Y
y = 1E-07x2 - 0.0014x + 4.6125
3
3.00
2
2.00
1
1.00
0
-2000
0
2000
4000
6000
8000
10000
2
R = 0.9756
.00
0
2000
4000
6000
8000
10000
X
.6
1.00
.4
.75
.2
-.0
-.2
.25
0.00
0.00
.25
.50
.75
1.00
resíduo
Expected Cum Prob
.50
-.4
-.6
-2000
Observed Cum Prob
X
0
2000
4000
6000
8000
10000
29
Estatística
Regressão
Regressão linear múltipla
Y   0   1 x 1   2 x 2  ...   r x r  e
Modelo:
Para estimar os coeficientes da equação, temos que minimizar,
 Y i  B 0  B 1 x i1  B 2 x i 2  ...  B r x ir 2
O resultado é um sistema de equações com r+1 incógnitas de forma:
X X T B   X T Y 
1

1
x  


1
x 11
x 12
x 21
x 22


x n1
x n2
 x 1r 

 x 2r 
  

 x nr 
B 0 
 
B1
B  
  
 
Br 
 Y1 
 
Y2
Y   
  
 
 Yn 
30
Estatística
Regressão
Y   0 . 168  0 . 202 x 1  0 . 00902 x 2
30
R=1
20
10
Y
0
-10
-20
10000
8000
6000
4000
2000
-30
200
180
160
140
X
120
0
100
V4
.2
1.00
.1
.75
.50
Expected Cum Prob
0.0
-.1
-.2
.25
0.00
0.00
80
X
100
120
140
160
180
.25
200
Observed Cum Prob
.50
.75
1.00
31
Download

Regressão