Regressão Linear – conceitos e aplicação Climatologia II – ACA226 Prof. Humberto Rocha Regressão Linear Simples Sejam 2 séries temporais xi e yi pode-se descrever formalmente uma relação entre elas baseada em um modelo linear tq : yi xi i Onde y yi é chamada variáveldependente xi é chamada variávelindependent e é chamada termodo erro aleatório i y x yˆ yi xi x y ^ yi yi x , " offset", i.e. yx 0 é o intercepto é o coeficiente angular (inclinação) O modelo ajustado aos pontos da amostra é: O erro ou resíduo é i x xi yˆi xi i yi yˆi Climatologia II - ACA226 (Iag/USP) Hipóteses para o ajuste do modelo linear y i x e y relacionam- se linearmente? x y ii varx sx2 0 ? x iii o erro aleatório i deve ser tq: a tenhamédia zero,i.e i 0 b variânciaconstantep/ quaisquer conjuntosde observações s 2 2 cte c as variáveis i não são correlacionados cov i , j 0 d i ~ N0, 2 distribuição normal Climatologia II - ACA226 (Iag/USP) i 0 i Normal i 0 i 0 i 0 0 Casos de heterocedasticidade s2 grande se x cov i , j 0 s2 grande se x cov i , j 0 i correlacionados negativamente Climatologia II - ACA226 (Iag/USP) Cálculo dos parâmetros da regressão linear Se ŷ i xi é o modeloajustado,pode - se calcular os coeficientes (P ARÂMET ROS) , tal que os errosao quadrado i2 yi yˆ i seja o mínimopossível, 2 utilizandoo métododos mínimosquadrados : N N 2 seja a função f α,β yi yˆ i yi xi 2 i 1 se f é mínima,então i 1 f f 0; 0 N xi yi xi yi N x xi 2 i 2 1 N y x i i Climatologia II - ACA226 (Iag/USP) Erro padrão do parâmetros da regressão Sejam os parâmet rosestimadosˆ , ˆ em amost ras No caso amostral grandes (...universo) 1 1 2 erro padrão s 2 y yˆ i2 i n - 2 i n - 2 2 s 2 erro padrão de ˆ s 2 x x i x2 2 2 i ˆ s s de padrão erro ˆ 2 n x x i define- se que : o erro padrão da regressão: 2 erro padrão de ˆ : var ˆ 1 2 i n 2 2 x x i x n x x 2 erro padrão de ˆ : varˆ 2 ˆ ~ N , var ˆ ou seja, ˆ ~ N , varˆ i 2 i Climatologia II - ACA226 (Iag/USP) Confiança dos Parâmetros , (1) Motivação do problema ... (2) Por definição a v.a. t - student é xn t Sn / , com n 1 graus de liberdade, tem a fdp : 1 1 2 2 2 t 1 F t . 2 onde F(t) N 0,1 alto função gamma n n - 1! baixo -1 0 1 t 0 parâmetroverdadeiro ˆ ˆ 0 parâmetroestimado (3) Aplicandot - student t S ˆ S ˆ erro- padrãode ν n 2 F(t) define - se um t c (crít ico) associado à probabilidade de confiançado parâmet ro, ou Indice de Confiança(IC) (ou seu complemento IC NS 100%- IC, t alque se at ribua t c NS , NS chamadode nívelde significância. NS tc tc para ˆ 0 para 0 ˆ - 0 sˆ para 0 Climatologia II - ACA226 (Iag/USP) Teste de hipótese Hipótese nula (H0 ): β0 =0 Hipótese alternativa (H1 ): β0 ≠ 0 Climatologia II - ACA226 (Iag/USP) x y x' x x y' y y 21 15 15 9 12 18 6 12 4 3 3.5 2 3 3.5 2.5 2.5 7.5 1.5 1.5 -4.5 -1.5 4.5 7.5 -1.5 1 0 0.5 -1 0 0.5 -0.5 -0.5 yˆ 1,38 0,12x 1,38 ˆ 0,12 S 2 0,11; S 0,33 Climatologia II - ACA226 (Iag/USP) Aceitação do parâmetro estimado, a um NS (%) estabelecido. Pr = NS (em fração da unidade) df são os graus de liberdade (= n-2, para regressão linear simples ) Climatologia II - ACA226 (Iag/USP) Erros no testes de hipótese Erro tipo I: rejeito H0 incorretamente Erro tipo II: aceito H0 incorretamente Climatologia II - ACA226 (Iag/USP) Verificação simplesdeve ser feita tambémao compararo erro padrão, 1 yˆi yi , que deve ser mínimosegundo o S2 n 2 MMQ, com a variável S2y (variânciade y) : S2 0 2 2 S Sy OK se 2 2 S Sy o erro é da mesmaordem da variância, entãonão ajuda nada 1 2 yi y 0,43 Sy n 1 S 2 0,11 S y2 OK Climatologia II - ACA226 (Iag/USP) Análise do ajuste do modelo : o coeficiente de regressão R2 Qual a % da variância de yi explicada pela regressão? yi ŷi yˆ i xi ; y yi xi i yi y yi yˆi yˆi y i erro aleatório yi yˆ i 2 y y i Variação totalde y ou Soma Total Quadrática (STQ) xi 2 ˆ y y i i Variação residual ou Soma dos Erros Quadráticos (SEQ) 2 ˆ y y i Variaçãoexplicada pela regressão yi ou Soma da Regressão Quadrática (SRQ) Climatologia II - ACA226 (Iag/USP) Modelo em variáveis de anomalias x' x x y' y y y' ŷ' yˆ ' x' x' Climatologia II - ACA226 (Iag/USP) Correlação espúria R~0.1 R~0.95 R~0.1 y xi , yi Influência de pontos singulares (outliers) x Climatologia II - ACA226 (Iag/USP) Correlação amostral de (x,y) ou coeficiente de correlação, ou coeficiente de Pearson Rx , y ˆ 0 1 xi x yi y 2 s xy covx, v n 1 2 2 varx var y s x s y xi x yi y n 1 n 1 x, y 0 R xy 1 ˆ 0 x, y -1 R xy 0 Climatologia II - ACA226 (Iag/USP) errosquadráticos 0 R 1 sx 0 sy R xy indet erminado sy 0 0 R indeterminado Climatologia II - ACA226 (Iag/USP) Climatologia II - ACA226 (Iag/USP) R = 0,7 Climatologia II - ACA226 (Iag/USP) Alguns índices de avaliação do modelo linear y^ y i i n i 1) Viés (bias) do modelo linear 1 Varia entre -∞ a +∞, sugere um erro sistemático (+) ou (-) 2) root-mean-square deviation (RMSD) ou root-mean-square error (RMSE) é a raiz quadrada do erro médio quadrático (MSE = mean square error) y y i i i n ^ y y 2 i Variação totalde y ou Soma Total Quadrática (STQ) y yˆ 2 i i Variação residual ou Soma dos Erros Quadráticos (SEQ) 2 yˆ y 2 i Variaçãoexplicada pela regressão yi ou Soma da Regressão Quadrática (SRQ) Climatologia II - ACA226 (Iag/USP) Regressão Linear Múltipla É o modelo de função linear entre uma variável dependente y e uma série de variáveis independentes x1,...xk yi 0 1x1i 2 x2i ... k xk i i βj , (j=0,k), são os coeficientes de regressão parciais Hipóteses supostas i y e x j , j , têm relação linear; ii x j e xl , l , j , não têm relação linear exata entre si, i.e., multicolinearidade a hipótese que comumente mais falha; i ~ N 0, 2 cte iii como na R.L. Simples j l não são correlacionados Climatologia II - ACA226 (Iag/USP) - Cálculo dos coeficientes de regressão parciais - Estimativa do ajuste do modelo R 1 1 R 2 2 n 1 n k coeficiente corrigido de regressão a) Se k 1 R 2 R 2 (regressão linear simples) b) Se k 1 R 2 R 2 c) R 2 pode ser negativo Climatologia II - ACA226 (Iag/USP)