Regressão Linear – conceitos e aplicação Climatologia II – ACA226 Prof. Humberto Rocha Regressão Linear Simples Sejam 2 séries temporais xi e yi pode-se descrever formalmente uma relação entre elas baseada em um modelo linear tq : yi    xi   i Onde y  yi é chamada variáveldependente   xi é chamada variávelindependent e  é chamada termodo erro aleatório  i y   x  yˆ yi xi x y ^   yi yi x , " offset", i.e. yx  0    é o intercepto   é o coeficiente angular (inclinação) O modelo ajustado aos pontos da amostra é: O erro ou resíduo é i x xi yˆi    xi  i   yi  yˆi  Climatologia II - ACA226 (Iag/USP) Hipóteses para o ajuste do modelo linear y i  x e y relacionam- se linearmente?  x y ii  varx   sx2  0 ?  x iii  o erro aleatório i deve ser tq: a  tenhamédia zero,i.e   i  0 b  variânciaconstantep/ quaisquer conjuntosde observações  s 2   2 cte c as variáveis i não são correlacionados cov i ,  j   0 d   i ~ N0, 2  distribuição normal Climatologia II - ACA226 (Iag/USP) i  0  i  Normal i  0 i  0 i  0 0 Casos de heterocedasticidade s2 grande se x  cov i ,  j   0 s2 grande se x  cov i ,  j   0  i correlacionados negativamente Climatologia II - ACA226 (Iag/USP) Cálculo dos parâmetros da regressão linear Se ŷ i    xi é o modeloajustado,pode - se calcular os coeficientes (P ARÂMET ROS)  ,  tal que os errosao quadrado  i2    yi  yˆ i  seja o mínimopossível, 2 utilizandoo métododos mínimosquadrados : N N 2 seja a função f α,β     yi  yˆ i     yi    xi  2 i 1 se f é mínima,então  i 1 f f  0; 0   N  xi yi   xi  yi N  x   xi  2 i 2 1  N  y    x  i i Climatologia II - ACA226 (Iag/USP) Erro padrão do parâmetros da regressão Sejam os parâmet rosestimadosˆ , ˆ em amost ras No caso amostral grandes (...universo)    1 1 2 erro padrão s 2   y  yˆ i2     i n - 2 i n - 2   2 s  2 erro padrão de ˆ s  2   x  x i    x2   2 2 i ˆ s  s  de padrão erro ˆ  2  n  x  x   i define- se que : o erro padrão da regressão:  2   erro padrão de ˆ : var ˆ  1 2   i n 2 2   x  x  i x n x  x  2 erro padrão de ˆ : varˆ    2    ˆ ~ N  , var ˆ ou seja,  ˆ ~ N , varˆ  i 2 i Climatologia II - ACA226 (Iag/USP) Confiança dos Parâmetros  ,  (1) Motivação do problema ... (2) Por definição a v.a. t - student é  xn    t Sn /  , com   n  1 graus de liberdade, tem a fdp :   1    1    2  2  2   t  1   F t           .  2 onde F(t) N 0,1  alto função gamma n   n - 1!  baixo -1 0 1 t  0  parâmetroverdadeiro ˆ ˆ    0   parâmetroestimado (3) Aplicandot - student t   S ˆ S ˆ  erro- padrãode  ν  n  2    F(t) define - se um t c (crít ico) associado à probabilidade de confiançado parâmet ro, ou Indice de Confiança(IC) (ou seu complemento IC NS  100%- IC, t alque se at ribua t c NS , NS chamadode nívelde significância. NS  tc tc  para ˆ    0  para    0  ˆ -  0 sˆ para    0   Climatologia II - ACA226 (Iag/USP) Teste de hipótese Hipótese nula (H0 ): β0 =0 Hipótese alternativa (H1 ): β0 ≠ 0 Climatologia II - ACA226 (Iag/USP) x y x'  x  x y'  y  y 21 15 15 9 12 18 6 12 4 3 3.5 2 3 3.5 2.5 2.5 7.5 1.5 1.5 -4.5 -1.5 4.5 7.5 -1.5 1 0 0.5 -1 0 0.5 -0.5 -0.5 yˆ  1,38  0,12x   1,38 ˆ   0,12 S 2  0,11; S  0,33  Climatologia II - ACA226 (Iag/USP) Aceitação do parâmetro estimado, a um NS (%) estabelecido. Pr = NS (em fração da unidade) df são os graus de liberdade (= n-2, para regressão linear simples ) Climatologia II - ACA226 (Iag/USP) Erros no testes de hipótese Erro tipo I: rejeito H0 incorretamente Erro tipo II: aceito H0 incorretamente Climatologia II - ACA226 (Iag/USP) Verificação simplesdeve ser feita tambémao compararo erro padrão, 1  yˆi  yi , que deve ser mínimosegundo o S2   n  2 MMQ, com a variável S2y (variânciade y) : S2  0  2 2 S  Sy  OK se  2 2 S  Sy  o erro é da mesmaordem da variância,  entãonão ajuda nada 1 2  yi  y   0,43 Sy   n  1 S 2  0,11  S y2  OK Climatologia II - ACA226 (Iag/USP) Análise do ajuste do modelo : o coeficiente de regressão R2 Qual a % da variância de yi explicada pela regressão? yi ŷi yˆ i    xi ; y yi    xi   i  yi  y    yi  yˆi    yˆi  y   i erro aleatório  yi  yˆ i  2   y  y  i  Variação totalde y ou Soma Total Quadrática (STQ) xi  2 ˆ   y  y  i i  Variação residual ou Soma dos Erros Quadráticos (SEQ)  2 ˆ   y  y  i  Variaçãoexplicada pela regressão yi ou Soma da Regressão Quadrática (SRQ) Climatologia II - ACA226 (Iag/USP) Modelo em variáveis de anomalias  x'  x  x   y'  y  y y' ŷ' yˆ '  x' x' Climatologia II - ACA226 (Iag/USP) Correlação espúria R~0.1 R~0.95 R~0.1 y xi , yi  Influência de pontos singulares (outliers) x Climatologia II - ACA226 (Iag/USP) Correlação amostral de (x,y) ou coeficiente de correlação, ou coeficiente de Pearson Rx , y ˆ  0  1    xi  x  yi  y  2 s xy covx, v  n 1      2 2 varx  var y  s x s y  xi  x    yi  y  n 1 n 1 x, y   0  R xy  1 ˆ  0 x, y   -1  R xy  0 Climatologia II - ACA226 (Iag/USP)  errosquadráticos  0 R 1 sx 0   sy R xy indet erminado sy  0   0 R indeterminado Climatologia II - ACA226 (Iag/USP) Climatologia II - ACA226 (Iag/USP) R = 0,7 Climatologia II - ACA226 (Iag/USP) Alguns índices de avaliação do modelo linear  y^  y    i i  n i  1) Viés (bias) do modelo linear  1 Varia entre -∞ a +∞, sugere um erro sistemático (+) ou (-) 2) root-mean-square deviation (RMSD) ou root-mean-square error (RMSE) é a raiz quadrada do erro médio quadrático (MSE = mean square error) y  y  i  i i  n ^  y  y   2 i Variação totalde y ou Soma Total Quadrática (STQ)   y  yˆ    2 i i Variação residual ou Soma dos Erros Quadráticos (SEQ)  2  yˆ  y    2 i Variaçãoexplicada pela regressão yi ou Soma da Regressão Quadrática (SRQ) Climatologia II - ACA226 (Iag/USP) Regressão Linear Múltipla É o modelo de função linear entre uma variável dependente y e uma série de variáveis independentes x1,...xk yi  0  1x1i  2 x2i  ... k xk i    i βj , (j=0,k), são os coeficientes de regressão parciais Hipóteses supostas i  y e x j ,  j , têm relação linear; ii  x j e xl , l , j , não têm relação linear exata entre si, i.e., multicolinearidade  a hipótese que comumente mais falha;  i ~ N 0,  2  cte  iii  como na R.L. Simples  j l não são correlacionados Climatologia II - ACA226 (Iag/USP) - Cálculo dos coeficientes de regressão parciais - Estimativa do ajuste do modelo R  1  1  R 2 2  n  1  n  k   coeficiente corrigido de regressão a) Se k  1  R 2  R 2 (regressão linear simples) b) Se k  1  R 2  R 2 c) R 2 pode ser negativo Climatologia II - ACA226 (Iag/USP)