Regressão Linear – conceitos e aplicação
Climatologia II – ACA226
Prof. Humberto Rocha
Regressão Linear Simples
Sejam 2 séries temporais xi e yi
pode-se descrever formalmente uma relação entre elas baseada em um
modelo linear tq :
yi    xi   i
Onde
y
 yi é chamada variáveldependente

 xi é chamada variávelindependent e
 é chamada termodo erro aleatório
 i
y
  x  yˆ
yi
xi
x
y
^


yi
yi
x
, " offset", i.e. yx  0  
 é o intercepto

 é o coeficiente angular (inclinação)
O modelo ajustado aos pontos da amostra é:
O erro ou resíduo é
i
x
xi
yˆi    xi
 i   yi  yˆi 
Climatologia II - ACA226 (Iag/USP)
Hipóteses para o ajuste do modelo linear
y
i  x e y relacionam- se linearmente?

x
y
ii  varx   sx2  0 ?

x
iii  o erro aleatório i deve ser tq:
a  tenhamédia zero,i.e   i  0
b  variânciaconstantep/ quaisquer conjuntosde observações  s 2   2 cte
c as variáveis i não são correlacionados cov i ,  j   0
d   i ~ N0, 2  distribuição normal
Climatologia II - ACA226 (Iag/USP)
i  0
 i  Normal
i  0
i  0
i  0
0
Casos de
heterocedasticidade
s2 grande se x 
cov i ,  j   0
s2 grande se x 
cov i ,  j   0
 i correlacionados negativamente
Climatologia II - ACA226 (Iag/USP)
Cálculo dos parâmetros da regressão linear
Se ŷ i    xi é o modeloajustado,pode - se calcular os coeficientes
(P ARÂMET ROS)  , 
tal que os errosao quadrado  i2    yi  yˆ i  seja o mínimopossível,
2
utilizandoo métododos mínimosquadrados :
N
N
2
seja a função f α,β     yi  yˆ i     yi    xi 
2
i 1
se f é mínima,então

i 1
f
f
 0;
0


N  xi yi   xi  yi
N  x   xi 
2
i
2
1

N
 y    x 
i
i
Climatologia II - ACA226 (Iag/USP)
Erro padrão do parâmetros da regressão
Sejam os parâmet rosestimadosˆ , ˆ em amost ras
No caso amostral
grandes (...universo)



1
1
2
erro padrão s 2 
 y  yˆ i2




i
n - 2 i
n - 2


2
s

2
erro padrão de ˆ s 
2


x

x
i



x2


2
2
i
ˆ
s

s

de
padrão
erro
ˆ

2

n  x  x 

i
define- se que :
o erro padrão da regressão:  2 

erro padrão de ˆ : var ˆ 
1
2

 i
n
2
2


x

x

i
x
n x  x 
2
erro padrão de ˆ : varˆ    2

 
ˆ ~ N  , var ˆ
ou seja, 
ˆ ~ N , varˆ 
i
2
i
Climatologia II - ACA226 (Iag/USP)
Confiança dos Parâmetros  , 
(1) Motivação do problema ...
(2) Por definição a v.a. t - student é

xn   
t
Sn / 
, com   n  1 graus de liberdade, tem a fdp :
  1 
  1 


2  2 
2   t 
1  
F t   
     
 . 
2
onde
F(t)
N 0,1
 alto
função gamma n   n - 1!
 baixo
-1
0
1 t
 0  parâmetroverdadeiro
ˆ
ˆ
   0   parâmetroestimado
(3) Aplicandot - student t 

S ˆ S ˆ  erro- padrãode 
ν  n  2



F(t)
define - se um t c (crít ico)
associado à probabilidade de confiançado parâmet ro,
ou Indice de Confiança(IC) (ou seu complemento
IC
NS  100%- IC, t alque se at ribua t c NS ,
NS chamadode nívelde significância.
NS
 tc
tc 
para
ˆ  

0

para
   0 
ˆ -  0
sˆ
para

  0


Climatologia II - ACA226 (Iag/USP)
Teste de hipótese
Hipótese nula (H0 ): β0 =0
Hipótese alternativa (H1 ): β0 ≠ 0
Climatologia II - ACA226 (Iag/USP)
x
y
x'  x  x
y'  y  y
21
15
15
9
12
18
6
12
4
3
3.5
2
3
3.5
2.5
2.5
7.5
1.5
1.5
-4.5
-1.5
4.5
7.5
-1.5
1
0
0.5
-1
0
0.5
-0.5
-0.5
yˆ  1,38  0,12x
  1,38
ˆ
  0,12
S 2  0,11; S  0,33

Climatologia II - ACA226 (Iag/USP)
Aceitação do parâmetro estimado, a um
NS (%) estabelecido.
Pr = NS (em fração da unidade)
df são os graus de liberdade (= n-2, para
regressão linear simples )
Climatologia II - ACA226 (Iag/USP)
Erros no testes de hipótese
Erro tipo I: rejeito H0 incorretamente
Erro tipo II: aceito H0 incorretamente
Climatologia II - ACA226 (Iag/USP)
Verificação simplesdeve ser feita tambémao compararo erro padrão,
1
 yˆi  yi , que deve ser mínimosegundo o
S2 

n  2
MMQ, com a variável S2y (variânciade y) :
S2  0
 2
2
S  Sy  OK
se 
2
2
S  Sy  o erro é da mesmaordem da variância,

entãonão ajuda nada
1
2
 yi  y   0,43
Sy 

n  1
S 2  0,11  S y2  OK
Climatologia II - ACA226 (Iag/USP)
Análise do ajuste do modelo : o coeficiente de
regressão R2
Qual a % da variância de yi explicada pela regressão?
yi
ŷi
yˆ i    xi ;
y
yi    xi   i
 yi  y    yi  yˆi    yˆi  y 
 i erro aleatório  yi  yˆ i 
2


y

y
 i

Variação totalde y ou
Soma Total Quadrática
(STQ)
xi

2
ˆ


y

y
 i i

Variação residual ou
Soma dos Erros Quadráticos
(SEQ)

2
ˆ


y

y
 i

Variaçãoexplicada pela regressão yi
ou Soma da Regressão Quadrática
(SRQ)
Climatologia II - ACA226 (Iag/USP)
Modelo em variáveis de anomalias
 x'  x  x

 y'  y  y
y'
ŷ'
yˆ '  x'
x'
Climatologia II - ACA226 (Iag/USP)
Correlação espúria
R~0.1
R~0.95
R~0.1
y
xi , yi 
Influência de
pontos singulares
(outliers)
x
Climatologia II - ACA226 (Iag/USP)
Correlação amostral de (x,y) ou coeficiente de
correlação, ou coeficiente de Pearson
Rx , y
ˆ  0
 1 

 xi  x  yi  y 
2
s xy
covx, v 
n 1 




2
2
varx  var y  s x s y
 xi  x    yi  y 
n 1
n 1
x, y 
 0  R xy  1
ˆ  0
x, y 
 -1  R xy  0
Climatologia II - ACA226 (Iag/USP)

errosquadráticos  0
R 1
sx
0  
sy
R xy indet erminado
sy  0   0
R indeterminado
Climatologia II - ACA226 (Iag/USP)
Climatologia II - ACA226 (Iag/USP)
R = 0,7
Climatologia II - ACA226 (Iag/USP)
Alguns índices de avaliação do modelo linear
 y^  y 
  i i 
n i 
1) Viés (bias) do modelo linear  1
Varia entre -∞ a +∞, sugere um erro sistemático (+) ou (-)
2) root-mean-square deviation (RMSD) ou root-mean-square error (RMSE)
é a raiz quadrada do erro médio quadrático (MSE = mean square error)
y  y 
i  i i 
n
^

y  y


2
i
Variação totalde y ou
Soma Total Quadrática
(STQ)

 y  yˆ 


2
i
i
Variação residual ou
Soma dos Erros Quadráticos
(SEQ)

2
 yˆ  y 


2
i
Variaçãoexplicada pela regressão yi
ou Soma da Regressão Quadrática
(SRQ)
Climatologia II - ACA226 (Iag/USP)
Regressão Linear Múltipla
É o modelo de função linear entre uma variável dependente y e
uma série de variáveis independentes x1,...xk
yi  0  1x1i  2 x2i  ... k xk i    i
βj , (j=0,k), são os coeficientes de regressão parciais
Hipóteses supostas
i  y e x j ,  j , têm relação linear;
ii  x j e xl , l , j , não têm relação linear exata entre si,
i.e., multicolinearidade  a hipótese que comumente mais falha;
 i ~ N 0,  2  cte 
iii 
como na R.L. Simples
 j l não são correlacionados
Climatologia II - ACA226 (Iag/USP)
- Cálculo dos coeficientes de regressão parciais
- Estimativa do ajuste do modelo
R  1  1  R
2
2

n  1
 n  k   coeficiente corrigido de regressão
a) Se k  1  R 2  R 2 (regressão linear simples)
b) Se k  1  R 2  R 2
c) R 2 pode ser negativo
Climatologia II - ACA226 (Iag/USP)
Download

Aula2_RegLinear_4