Estatística Regressão Regressão Pontos mais importantes: -objectivo -regressão linear -distribuição dos estimadores, limites de confiança para os coeficientes -limite de confiança para o valor previsto -coeficiente de correlação amostral -analise dos erros -transformação para um modelo linear -regressão polinomial -regressão linear múltipla 1 Estatística Regressão Objectivo da regressão Uma tarefa frequente é determinar a relação matemática entre as variáveis de interesse: sistema {x} {y} {y}=f{x} f{x}=? e.g. -escoamento horizontal numa conduta: p f L v 2 D 2 -desactivação dos microorganismos: -temperatura num cilindro (condução): N (t) N 0e kt -log(TR-T(t))= -(1/fh)t-log(jh(TR-T0)) 2 Estatística Regressão Modelos matemáticos experiência Determinação dos parâmetros (e.g. propriedades físicas) Objectivo da regressão: previsão 1) estimação dos parâmetros dos modelos matemáticos 2) verificar se o modelo é adequado Condição: os dados são sujeitos a erros (aleatórios). 3 Estatística Regressão regressão f(x) f(x)=ax+b a=? b=? x 4 Estatística Regressão Regressão linear Seja Y uma função de x1, x2,..., xr variáveis independentes. A relação entre eles segue um modelo linear (múltiplo) quando a variável dependente (Y) pode ser escrita: Y 0 1 x 1 2 x 2 ... r x r e Onde: -i (i=0, 1,..., r) são os coeficientes de regressão -”e” representa o erro aleatório com N(0,s2) O caso mais simples é quando temos só uma variável independente: Y x e 5 Estatística Regressão Y Suponha, que temos n conjuntos de pontos (xi,yi), i=1,2,...,n. 160 Agora sejam: -A estimador de -B estimador de 140 120 Assim: 100 Ŷ A Bx 80 estimador de Y 60 80 100 120 140 160 180 200 X Escolhemos A e B tal que a soma dos quadrados dos resíduos, Y n SS R i 1 i Yˆi Y 2 n i A Bx i 2 i 1 seja mínimo. 6 Estatística Regressão Para encontrar o mínimo da SSR, temos, SS R A n 2 Y i A Bx i n 0 1) i 1 Y n nA B x i i i 1 i 1 ou SS R B n 2 x i Y i A Bx i 0 n 2) i 1 Y i i 1 n Aplicando, xY Y i 1 n A x i B x i 2 i i 1 i 1 n i x x n temos da primeira equação, n i i 1 n A Y Bx 7 Estatística Regressão Substituindo o resultado na segunda equação: n n i 1 n x i Y i Y B x n x B x i B 2 xY i i nxY i 1 n i 1 x i nx 2 2 i 1 X Y 100 63. 64 160.00 110 68. 86 140.00 120 87. 71 120.00 130 87. 01 140 97. 21 150 100. 36 160 109. 90 60.00 170 128. 55 40.00 180 135. 94 20.00 190 143. 84 y = 0.8893x - 26.65 y 100.00 80.00 .00 90 110 130 150 x 170 190 210 8 Estatística Regressão Distribuição dos estimadores, limites de confiança para os coeficientes de regressão Para determinar a distribuição A e B, vamos supor que, Yi ~ N ( x i , s ) 2 B pode ser escrito, n B x n i Yi n x Y i 1 n x i nx 2 Y Yi n 2 i 1 x n i i 1 Yi x Yi i 1 n i 1 x i nx 2 2 n x i x Y i i 1 n n i x i nx 2 2 Y i i 1 i 1 onde i e são constantes. 9 Estatística Regressão Porque Y tem uma distribuição normal, B também tem com N(mB,s2B. n m B E B x i x E Y i i 1 n n x i nx 2 x x i x i 1 n i 1 x i nx 2 2 x x i i 1 n 2 i 1 n i x i nx 2 2 i 1 n x i x x i i 1 n x i nx 2 0 n 2 2 x i nx i 1 n 2 i 1 x i nx 2 2 n xi nx i 1 i 1 A variância de B sem prova, s 2 B s 2 n i 1 x i nx 2 2 10 Estatística Regressão Da mesma forma podemos ver que A também segue uma distribuição normal com os seguintes parâmetros: E A E Y E B x n E Y i n x n i 1 i 1 x i x n A variância de A sem prova, n s sA 2 2 x 2 i i 1 n 2 2 n x i nx i 1 11 Estatística Regressão Assim, A e B são v.a. normais: n 2 2 s xi i 1 A ~ N , n 2 2 n x i n x i 1 2 s B ~ N , n 2 2 x i nx i 1 , Antes de determinar os intervalos de confiança para os parâmetros n de regressão, vamos definir: S xY xY i i nxY i nxY i 1 n x i nx 2 S xY S xx 2 i 1 n x B i 1 S xx xY i n 2 i nx 2 A Y Bx i 1 n S YY Y i 1 2 i nY S xx S YY S xY 2 2 SS R S xx 12 Estatística Regressão Para determinar os intervalos de confiança para , temos que ter uma estimativa da s2 (desconhecida). Mas como, SS R s 2 ~ 2 n2 SS R 2 E s n 2 2 E B assim a distribuição s2 B ~ N , S xx ~ t n2 SS R S xx ( n 2 ) O intervalo de confiança (com nível de conf. 1-) é dada pela: B SS R ( n 2 ) S xx t 2 ,n 2 B SS R ( n 2 ) S xx t 2 ,n 2 13 Estatística Regressão Pela a mesma razão, a distribuição, A n x 2 i n 2 2 s xi i 1 A ~ N , nS xx ~ t n2 SS R i 1 S xx n ( n 2 ) Assim o intervalo de confiança (com nível de conf. 1-) é dada pela: n A x n 2 i SS R i 1 n ( n 2 ) S xx t 2 ,n 2 A x 2 i SS R i 1 n ( n 2 ) S xx t 2 ,n 2 14 Estatística Regressão 160.00 y = 0.8893x - 26.65 140.00 120.00 y 100.00 80.00 60.00 40.00 20.00 .00 90 110 130 150 170 190 210 x a Coefficients Model 1 A B Unstandardized Coefficients B Std. Error -26.650 7.464 .889 .050 Standardi zed Coefficien ts Beta .987 t -3.570 17.612 Sig. .007 .000 95% Confidence Interval for Lower Bound Upper Bound -43.863 -9.438 .773 1.006 a. Dependent Variable: Y 15 Estatística Regressão Limites de confiança para o valor previsto Para fazer uma previsão de Y para um dado valor de x0, talvez a melhor opção seja: Y A Bx 0 Geralmente, temos mais interesse em definir um intervalo onde Y ocorre com um dado grau de confiança. Sem prova, Y A Bx n 1 n x 0 x S xx 2 0 ~ t n2 SS R (n 2) 16 Estatística Regressão O intervalo de confiança para Y é dado por, A Bx 0 n 1 n x 0 x 2 SS R S xx (n 2) t 2 ,n 2 Y A Bx 0 n 1 x 0 x 2 SS R S xx (n 2) n t 2 ,n 2 160 Y 140 95% intervalo de confiança 120 100 80 Observed 60 80 Linear 100 120 140 160 180 200 x 17 Estatística Regressão Coeficiente de correlação amostral, R No caso de duas v.a.s X e Y, a dependência linear entre eles é dada pela: s 1 x , y Corr ( X , Y ) n A estimativa de s XY S xY Y i 1 XY s 2 X s 2 Y Y x i x i 1 s X S xx x i x n s Y S YY Y 1 R S xY S xx S YY i nxY i x i nx 2 2 i 1 Y 2 i 1 Assim i n 2 i 1 2 xY i 1 n 2 n n Y 2 i nY 2 i 1 1 18 Estatística Regressão |R| alto (1) significa uma forte dependência linear entre Y e x y = 0.8893x - 26.65 R2 = 0.9749 160.00 140.00 120.00 y 100.00 80.00 60.00 40.00 20.00 .00 90 110 130 150 170 190 210 x 19 Estatística Regressão Analise dos erros O modelo linear de forma, Y x e é um modelo adequado para descrever a relação entre Y~x se, 1) 0 (R é alto) 2) e tem IIDN(0,s2) A avaliação do segundo termo é através de visualização dos resíduos com alguns gráficos diagnósticos e o cálculo de coeficientes de autocorrelação 20 Estatística Regressão - resíduos vs. Y: Scatterplot Dependent Variable: Y 2.0 1.5 1.0 .5 0.0 -.5 -1.0 -1.5 60 80 100 120 140 160 Y 21 Estatística Regressão -resíduos sobre uma curva de distribuição normal: Normal P-P Plot of Regression Standardized Residual Dependent Variable: Y 1.00 Expected Cum Prob .75 .50 .25 0.00 0.00 .25 .50 .75 1.00 Observed Cum Prob 22 Estatística Regressão -resíduos vs. x 2.0 1.5 1.0 Standardized Residual .5 0.0 -.5 -1.0 -1.5 80 100 120 140 160 180 200 X 23 Estatística Regressão Coeficiente de auto-correlação de “lag” k. n (e t e t )( e t k e t k ) tk rk 1 n (e t e t ) t 1 2 1 2 n (e t k e t k ) t k 2 2 Unstandardized Residual 1.0 .5 0.0 -.5 ACF Confidence Limits -1.0 Coefficient 1 2 Lag Number 3 4 5 6 7 8 24 Estatística Regressão Transformação para um modelo linear Muitas as vezes a relação entre duas variáveis, não pode ser escrita com uma função linear. E.g. cinética de degradação: (t) e kt Tirando o logaritmo ln ( t ) ln kt Assim escolhendo: Y ln ( t ) ln k temos um problema de regressão linear Y x e 25 Estatística Regressão -exemplo 6 2 5 1 4 0 3 -1 2 -2 LNY Y 1 0 -2000 X 0 2000 4000 6000 8000 10000 -3 -2000 0 2000 4000 6000 8000 X 26 10000 Estatística Regressão 3.00 LNY "-95% conf int" "95% conf int" Linear (LNY) 2.00 ln Y 1.00 x .00 0 2000 4000 6000 8000 -1.00 -2.00 ln y = -0.0005x + 1.6323 2 R = 0.9967 -3.00 -4.00 1.00 .4 .3 .75 .2 Unstandardized Residual .1 Expected Cum Prob .50 27 .25 0.00 0.00 .25 Observed Cum Prob .50 .75 -.0 -.1 -.2 -.3 1.00 -2000 X 0 2000 4000 6000 8000 10000 Estatística Regressão Regressão polinomial Modelo Y 0 1 x 2 x ... n x e 2 n Para estimar os coeficientes desta equação, temos que minimizar, Y 2 i B 0 B 1 x i B 2 x i ... B n x i n 2 igualando as respectivas derivadas de esta função a zero. O resultado é um sistema de equações lineares. A maior parte dos softwares oferecem a opção regressão polinomial. [A]{B}={f} - [A] é uma função de xi - {f} é uma função de xi e Yi. 28 Estatística Regressão -exemplo 6 6.00 5 5.00 4 4.00 Y Poly. (Y) Y y = 1E-07x2 - 0.0014x + 4.6125 3 3.00 2 2.00 1 1.00 0 -2000 0 2000 4000 6000 8000 10000 2 R = 0.9756 .00 0 2000 4000 6000 8000 10000 X .6 1.00 .4 .75 .2 -.0 -.2 .25 0.00 0.00 .25 .50 .75 1.00 resíduo Expected Cum Prob .50 -.4 -.6 -2000 Observed Cum Prob X 0 2000 4000 6000 8000 10000 29 Estatística Regressão Regressão linear múltipla Y 0 1 x 1 2 x 2 ... r x r e Modelo: Para estimar os coeficientes da equação, temos que minimizar, Y i B 0 B 1 x i1 B 2 x i 2 ... B r x ir 2 O resultado é um sistema de equações com r+1 incógnitas de forma: X X T B X T Y 1 1 x 1 x 11 x 12 x 21 x 22 x n1 x n2 x 1r x 2r x nr B 0 B1 B Br Y1 Y2 Y Yn 30 Estatística Regressão Y 0 . 168 0 . 202 x 1 0 . 00902 x 2 30 R=1 20 10 Y 0 -10 -20 10000 8000 6000 4000 2000 -30 200 180 160 140 X 120 0 100 V4 .2 1.00 .1 .75 .50 Expected Cum Prob 0.0 -.1 -.2 .25 0.00 0.00 80 X 100 120 140 160 180 .25 200 Observed Cum Prob .50 .75 1.00 31