Capítulo 13. Regressão Simples 13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo. 13.3 Minimizando os erros. 13.4 Exemplo: Previsão de vendas 13.5 Coeficiente de determinação - R2. 13.6 Natureza estatística da reta estimada 13.7 Normalidade, independência e a constância da variância dos erros residuais. 13.8 Desvio padrão (erro padrão) dos estimadores dos coeficientes e intervalo de confiança. 13.9 Exemplo de intervalo de confiança para os coeficientes a e b da regressão simples. 13.10 Teste de hipótese representatividade da equação como um todo, a estatística F 13.11 Outro exemplo do teste de hipótese com a estatística F: a dureza de Brinell. 13.12 Teste de hipótese, o exemplo de coeficientes individuais de regressão. 13.13 Não linearidade, e retornando ao exemplo do Boyle 13.14 Conclusões 13.15 Exercícios 13.16 Referências 1 13.1 Introdução a regressão simples: causalidade e os erros de previsão. • A regressão demonstra quantitativamente a força atrás de uma causalidade ou um simples relacionamento que ocorre de Xt para Yt. • Yt é a variável dependente da variável Xt, denominada variável independente. • Quando o valor de Xt se altera por alguma razão, então, em conseqüência, o valor de Yt se alterará. • É também comum chamar Yt a variável explicada e Xt a variável explicatória (ou explicativa). • É importante enfatizar que a questão de causalidade entre variáveis (influência da variável explicatória na variável explicada) deve ser determinada antes de investigar a relação com regressão. 2 Figura 13.1 - A reta estimada de regressão no gráfico de dispersão X-Y. ˆ e Yt Y t t ˆ t aˆ bˆ Xt Y erros residuais positivos et > 0 ˆ t et Yt Y erros residuais negativos et < 0 3 13.2 Regressão simples com a variável tempo. Uma das maneiras mais fáceis de construir uma equação de regressão é através da utilização de uma variável artificial que representa tempo como variável independente Xt. Imaginando por exemplo que Yt represente o preço médio mensal de um quilo de banana (Preçot), durante um ano terá doze preços mensais em seqüência. Para 12 meses, a variável Xt = t corresponderia à seqüência de t = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 ˆ +e Preço aˆ bt A equação de regressão seria a seguinte: t t Para prever o valor do preço de banana no mês 13, deve-se inserir 13 na equação para a variável t e, usando os valores estimados dos coeficientes a e b torna-se fácil calcular a previsão do Preçot. 4 13.3 Minimizando os erros – a soma dos quadrados dos erros (SQE) O método de mínimos quadrados pode ser resumido na seguinte expressão: 2 MIN e t a ,b Em palavras, a expressão significa procurar valores de a e b que minimizem a soma dos erros quadrados. A soma dos erros quadrados é dada embaixo pela expressão Q: T Q t 1 T Yt a bX t 2 t 1 et 2 onde T é o número total de observações em X e Y. O método para minimizar uma expressão como Q envolve o cálculo de derivadas parciais, igualando-as a zero: Q 0 a Q 0 b 5 CONTINUAÇÃO: Minimizando os erros – a soma dos quadrados dos erros (SQE) As equações chamadas de estimadores são as seguintes (sempre notando que um estimador ou variável estimada por regressão e mínimos quadrados é vestido por um chapeuzinho): ˆb T X t Yt X t Yt covX t , Yt r SY XY 2 2 var X SX T X t X t t O estimador de a é dado pela expressão: aˆ ˆ X Y b t t T Yt bˆ Xt 6 13.4 Exemplo: Previsão de vendas MES Tabela 13.1 – Vendas de camisetas e previsões 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 VENDAS MENSAIS 1102 2030 5838 6995 6283 1719 25263 19244 23171 19146 37174 16691 4235 15077 11791 17497 11353 3646 56471 44973 66937 59371 84512 52661 VENDAS ESTIMADAS -4195,17 -1681,17 832,8333 3346,833 5860,833 8374,833 10888,83 13402,83 15916,83 18430,83 20944,83 23458,83 25972,83 28486,83 31000,83 33514,83 36028,83 38542,83 41056,83 43570,83 46084,83 48598,83 51112,83 53626,83 ERRO RESIDUAL -5297,17 -3711,17 -5005,17 -3648,17 -422,167 6655,833 -14374,2 -5841,17 -7254,17 -715,167 -16229,2 6767,833 21737,83 13409,83 19209,83 16017,83 24675,83 34896,83 -15414,2 -1402,17 -20852,2 -10772,2 -33399,2 965,8333 7 Figura 13.2 - A reta de regressão para a demanda de camisetas Os valores de a ( = - 6709) e b ( = 2514) são os melhores estimativos considerando o critério de minimização da soma dos erros quadrados. Qualquer outra reta com outros valores de a e b será associada a uma soma de quadrados dos erros residuais maior. 8 Tabela 13.2– Previsões para a venda de camisetas MES Para calcular previsões fora da amostra observada para os meses 25 e 26, utiliza-se a equação estimada. O valor da previsão para o mês 25 é 56.140 camisetas (= - 6709 + 2514*25), e para mês 26, 58.654 camisetas. VENDAS FUTURAS 25 56140,0 26 58654,0 27 61168,0 28 63682,0 29 66196,0 30 68710,0 31 71224,0 32 73738,0 33 76252,0 34 78766,0 35 81280,0 36 83794,0 9 Yˆ 13.5 Coeficiente de determinação - R2. O coeficiente de determinação, R2, pondera matematicamente a separação de Yt nas suas duas partes distintas: a parte representada pelo valor estimado de Y e a outra parte advinda do erro residual. Quando o erro é relativamente grande, o valor de R2 é próximo ao zero. Yˆt aˆ bˆX t Yt Yˆt et Por outro lado, se os erros fossem realmente pequenos (no gráfico, com os pontos aparecendo mais próximos à reta), então a equação está representando bem os dados e será próximo ao valor um. 10 Continuação: Coeficiente de determinação - R2. O coeficiente de determinação R2 tem um ponto de referência que é a soma dos erros quadrados ao redor da média dos Yt, denominada Soma de Quadrados Total SQT. Essa soma considera simplesmente a diferença entre o valor médio de Yt e o valor observado. SQT Yt Y T 2 t 1 Já vimos esta expressão em outro contexto no capítulo 2, no cálculo da variância e do desvio padrão, 2 (Y Y) Variância = SY2 = i = SQT/(n – 1) n 1 i 1 n 11 Figura 13.3 – A reta de regressão e o erro total e o da regressão 12 6; 11,2 ERRO REGRESSÀO 10 ERRO TOTAL 8 3; 7,1 Y 6 2; 4,4 1; 2,7 2 9; 5,3 7; 5,9 4; 5,8 4 10; 11 8; 9,6 5; 3,5 0; 1 0 0 1 2 3 4 5 6 7 8 9 10 11 X 12 Continuação: Coeficiente de determinação - R2. SQT Yt Y = 1,3E+10 T 2 t 1 T SQE t 1 ˆ Yt Y t 2 = 5,74E+09 SQT - SQE = SQR = 7,27E+09 R2 = SQR / SQT = (SQT – SQE)/SQT = 7,27E+09/1,3E+10 = 0,559 13 13.6 Natureza estatística da reta estimada Veja na Figura 13.4 (próxima transparência) a relação entre as variáveis Xt e Yt e a distribuição normal que está relacionada à aleatoriedade de Yt. A equação colocada na base da figura no plano X-Y é Yt = f(Xt). Para cada valor de Xt há um valor estimado de Yt,. O eixo vertical é o valor da distribuição normal. Geralmente, a relação entre variáveis em regressão é mostrada no plano de X-Y e o eixo vertical Z é ignorado. Para um dado valor de X, existe um valor de Y mais provável, mas em função de Y ser aleatória, outros valores de Y são prováveis. Como fica clara na figura 13.4, variabilidade é característica de Yt e não Xt considerado fixo. Conseqüentemente, o erro da regressão (et) é oriundo exclusivamente da aleatoriedade de Yt. 14 Figura 13.4 - A reta de regressão e a distribuição normal. 15 13.7 Normalidade, independência e a constância da variância dos erros residuais. Foram apresentados no capítulo 6 os testes de BeraJarque e testes visuais como o da linha reta entre valores teóricos e observados e o histograma. Quando foi mencionado em cima que os resíduos devem ser aleatórios, isso também significa a ausência de qualquer relacionamento do resíduo com as variáveis da equação, e qualquer padrão repetitivo que pode ser visualizado graficamente. O gráfico dos resíduos deve aparecer como uma nuvem de dados com média zero e desvio padrão constante. Veja a figura 13.5. 16 Figura 13.5 – Erros residuais bem comportados com média zero e desvio padrão constante. 4 3 Erro residual 2 1 0 -1 -2 -3 -4 17 13.8 Desvio padrão (erro padrão) dos estimadores dos coeficientes e intervalo de confiança. A estimativa dos coeficientes a e b resulta em parte da variável Yt por definição aleatória, possuindo média e desvio padrão. Conseqüentemente, os coeficientes estimados também têm médias e desvio padrão, chamado de erro padrão. O desvio padrão dos coeficientes tem uma relação direta com o desvio padrão dos erros de regressão (et): se ˆ Yt Y t T2 2 2 e t T2 onde T é o tamanho da amostra e T – 2 são os graus de liberdade, assunto que será comentado futuramente. O desvio padrão do estimador do coeficiente a e do coeficiente b é o seguinte: 1 X2 s aˆ s e T X i X 2 s bˆ s e 1 X i X 2 Esses elementos permitem a construção de intervalos de confiança. 18 13.9 Exemplo de intervalo de confiança para os coeficientes a e b da regressão simples. mês/ano Tabela 13.3 – Vendas de camisetas e PIB jun-06 jul-06 ago-06 set-06 out-06 nov-06 dez-06 jan-07 fev-07 mar-07 abr-07 mai-07 jun-07 jul-07 ago-07 set-07 out-07 nov-07 dez-07 jan-08 fev-08 mar-08 abr-08 mai-08 PIB 100 98,08 108,97 107,19 108,08 108,93 112,18 108,64 108,17 107,85 105,66 101,54 100,37 98,08 109,47 107,06 107,59 108,87 110,44 109,92 108,75 109,19 108,25 107,68 VENDAS Yt 1102 2030 5838 6995 6283 1719 25263 19244 23171 19146 37174 16691 4235 15077 11791 17497 11353 3646 56471 44973 66937 59371 84512 52661 19 s abˆ Continuação: 13.9 Exemplo de intervalo de confiança para os coeficientes a e b da regressão simples. Aplicamos mínimos quadrados e os resultados são esses: Coeficientes Interseção a = -220.156 PIB b = 2294 Erro padrão = 126.015 = 1.180 Inferior Superior 95% 95% -481.496 41.183 -152 4.742 Tabela 13.4 – Intervalo de confiança para as estimativas de a e b. Cálculos feitos e adaptados do Excel (2002). P aˆ t 0,025, 22s aˆ a aˆ t 0,025, 22s aˆ 95% P( -220.156 – 2,074*126.015 < a< -220.156 + 2,074*126.015) = 95% P(-481.496 < a < 41.183) = 95% 20 13.10 Teste de hipótese da representatividade da equação como um todo, a estatística F. H0: a equação estimada com Xt não explica adequadamente as variações da variável dependente Yt H1: a equação estimada explica as variações da variável dependente Yt As considerações a seguir são muito parecidas com o conceito de R2 elaborado no início do capítulo, contudo a análise por teste de hipótese tem a vantagem de ter embasamento estatístico mais forte e supera a desvantagem do R2 que não tem ponto de referência bem definida para validar ou não a equação. Tudo depende da montagem da estatística F. 21 Estatística F 22 F(gl2 , gl1 ) gl2 12 gl1 SQR k SQE T k 1 No caso de regressão simples F(1, T – 2) = (SQR/1) / (SQE/(T – 2) ) Já vimos na seção sobre R2 que SQT = SQR + SQE. Os graus de liberdade associados a SQT é T-1, como já foi visto (SQT)/(T-1) é a variância de Yt. Os graus de liberdade associados a SQR é k, o número de variáveis explicativas na equação, nesse caso de regressão simples k = 1. O SQE dos erros residuais tem gl = T-k-1. Quando SQR/gl (uma espécie de média dos quadrados, MQ na tabela ANOVA) é relativamente maior que SQE/gl, a regressão explica bem a relação entre Xt e Yt 22 Tabela 13.5 – ANOVA. Teste de hipótese. Cálculos feitos e adaptados do Excel (2002). Fonte:tabela13.3 ANOVA graus de liberdade (gl) Regressão k=1 Erros T-k-1 = 22 Residuais Total T-1 = 23 SQ SQR = 1.907.658.861 SQE = 11.099.781.778 SQT = 13.007.440.639 MQ valor P F (SQR/gl) / (SQE/gl) SQR/k = 0,065 3,781 1.907.658.861 SQE/T-k-1 = 504.535.535 SQT/T-1 = 565.540.897 Relembrando a apresentação no capítulo 6 sobre testes de hipótese, um valor-p de 0,065 é considerado alto demais para rejeitar a hipótese nula, especialmente nas áreas mais exatas como a engenharia. A hipótese nula terá que ser aceita e a equação descartada pelo pesquisador, confirmando o resultado já visto na luz da análise do intervalo de confiança. 23 13.11 Outro exemplo do teste de hipótese com a estatística F: a dureza de Brinell. (1) Tabela 13.6 – Dureza de Brinell e tempo de secagem. Fonte:Tabela 12.1 OBSER. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 MÉDIA = Yi - Dureza em Brinell Xi - minutos de secagem 199 205 196 200 218 220 215 223 237 234 235 230 250 248 253 246 226 16 16 16 16 24 24 24 24 32 32 32 32 40 40 40 40 28 24 ANOVA - Estatística F: a dureza de Brinell ANOVA gl Regressão Resíduo Total SQ MQ F Valor P 1 5297,513 5297,513 506,5062 2,16E-12 14 146,425 10,45893 15 5443,938 Cálculos feitos e adaptados do Excel (2002). Valor p é praticamente zero. Rejeitar Ho de não relacionamento entre as variaveis Yt e Xt. 25 13.12 Teste de hipótese, o exemplo de coeficientes individuais de regressão. Um teste de hipótese pode ser montada para cada coeficiente individualmente, no caso de regressão simples para a e b. A hipótese nula segue em geral o valor zero para o coeficiente sob investigação, por exemplo, H0 : b = 0 A hipótese alternativa H1, para onde o pesquisador gostaria de apontar a verdade com suas conjecturas, muitas vezes é simplesmente: H1: b ≠ 0 Dependendo do caso, H1 pode assumir outras formas como b > 0 ou b < 0. É importante na análise de regressão, e Estatística em geral, que as hipóteses nulas e alternativas sejam bem definidas, e em áreas de estudo como as engenharias ou as ciências exatas, que as hipóteses sejam colocadas nos relatórios e artigos explicitamente e em destaque. 26 Continuação: 13.12 Teste de hipótese, o exemplo de coeficientes individuais de regressão. O teste para coeficientes individuais depende do cálculo da estatística t de Gosset. No caso da estimativa para a inclinação da reta, a estatística t é uma relação entre a estimativa e a variabilidade da estimativa em termos do erro padrão s bˆ ˆ b bˆ estatística t sˆ b Estatística t calculada maior que 2 é forte indicação de relacionamento entre Yt e Xt. bˆ sˆ b 2 27 Tabela 13.7 – Teste de hipótese para coeficientes individuais. Cálculos feitos e adaptados do Excel (2002) Coeficientes Erro padrão estatística t valor-P Interseção a = -220.156 126015 -1,747 0,094 PIB b = 2294 1180 1,944 0,064 Voltando para o exemplo da demanda para camisetas e o PIB, calculamos os valores da estatística t na tabela 13.7. Os valores da estatística t são relativamente baixos, e os valores-p são altos por padrões tradicionais. Mais uma vez a análise converge para o resultado já visto acima; a equação não é adequada como representação de vendas de camisetas. 28 13.13 Não linearidade, e retornando ao exemplo do Boyle Nesse exemplo, sabemos que há uma relação de causalidade entre pressão (P) e volume (V). A causalidade pode ser verificada e quantificada com a estimação de regressão usando o procedimento de mínimos quadrados. Adotamos então como primeira tentativa, a estimação da equação V = a + bP. Os resultados preliminares são apresentados na tabela 13.8. 29 RESUMO DOS RESULTADOS Tabela 13.8 – Resultados da regressão de pressão sob volume, adaptados do Excel 2002. Estatística de regressão R-Quadrado 0,87 Erro padrão 4,06 Observações 25 ANOVA gl Regressão Resíduo Total 1 23 24 SQ 2627,43 379,21 3006,64 Interseção PRESSÃO Coeficiente s 51,95 -0,40 Erro padrão 2,13 0,03 MQ 2627,43 16,49 F valor-p 159,36 0,00 Stat t valor-p 24,41 0,00 -12,62 0,00 30 Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle Aparentemente, os resultados comprovam uma forte relação inversa O R2 é relativamente alto, mas talvez o pesquisador esperasse um valor até mesmo melhor pela natureza da experiência cientifica O teste de F para a equação inteira oferece um valor-p de 0,00% indicando a rejeição da hipótese nula O valor-p associado aos coeficientes leva a rejeição da hipótese nula de coeficientes zero. Não é mostrado aqui, mas os erros residuais são normais, passando o teste de Bera-Jarque. Contudo, falta uma análise melhor dos erros, a sua independência e a aleatoriedade sugerida na seção 13.7 sobre o teste de hipótese da normalidade dos erros residuais. 31 Figura 13.6 – Erros residuais como a diferença entre volume e a previsão 60 50 40 30 VOLUME Previsto 20 10 0 20 -10 100 120 140 32 Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle Na figura 13.6, nos primeiros valores do eixo horizontal de pressão, volume previsto é sempre menor que volume observado e, portanto o resíduo é sempre positivo. Para valores de pressão intermediários a situação se inverte para proporcionar resíduos sempre negativos. Finalmente, para valores de pressão altos, os resíduos voltam a ser positivos. Obviamente, os resíduos não são perfeitamente aleatórios. Conhecendo alguns erros em seqüência oferece condições para prever os próximos valores em função de um padrão reconhecível nos dados. Assim, os dados dos resíduos não são aleatórios, mas sim previsíveis. 33 Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle Para resolver o problema da previsibilidade dos erros, podemos questionar em primeiro lugar a linearidade da equação estimada. No capítulo 12 já vimos que a relação entre volume e pressão não é linear e essa condição deve ser levada em conta para regressão simples. Vamos estimar então a equação 1/V = a + bP, explicitando que a pressão causa mais explicitamente a inversa de volume. Veja os resultados em tabela 13.9. 34 Tabela 13.9 – Resultados da regressão de pressão sob a inversa de volume, adaptados do Excel 2002. Estatística de regressão R-Quadrado 0,9999 Erro padrão 0,0002 Observações 25,0000 ANOVA Regressão Resíduo Total Interseção PRESSÃO gl 1,0000 23,0000 24,0000 SQ 0,0081 0,0000 0,0081 Erro Coeficientes padrão 0,0000 0,0001 0,0007 0,0000 MQ 0,0081 0,0000 F 210329 valor-p 0,0000 Stat t valor-p -0,0163 0,9871 459 0,0000 35 Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle Comparando os resultados das tabelas 13.8 e 13.9, a utilização da inversa de volume melhora os resultados em quase todas as categorias, principalmente na estatística F, de 159,36 para 210.329. Pelo teste de hipótese nos coeficientes, a interseção a da equação é zero e o coeficiente b é 0,0007. A equação estimada então pode ser escrita como 1/V = 0,0007P. É sempre importante considerar todos os procedimentos para detectar problemas nas estimativas. Na indústria, decisões que valem milhões são tomadas todos os dias na base de cálculos, e muitas vezes de cálculos mau feitos, e as repercussões são catastróficas. 36 Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle Com esse intuito, vamos ver a figura dos erros da regressão baseada na inversa de volume, figura 13.7 (próxima transparência). Os pontos são bem mais espalhados aleatoriamente. No entanto, veja que a variabilidade dos dados tende a aumentar com pouca variabilidade no inicio dos dados e mais variabilidade no final. A não constância da variância, e erro padrão, dos resíduos é chamada heterocedasticidade Como foi mostrado nas equações para o erro padrão dos coeficientes e na estatística F, o erro padrão dos resíduos se integram as expressões e se não for constante então a funcionalidade dos cálculos se complica. 37 Figura 13.7 – Erros residuais para o modelo inversa de volume. 0,0005 0,0004 0,0003 Resíduos 0,0002 0,0001 0 -0,0001 0 5 10 15 20 25 30 -0,0002 -0,0003 -0,0004 -0,0005 1/V previsto 38 Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle A questão agora é como resolver esse problema de heterocedasticidade. Vamos procurar por alguma transformação das variáveis que elimina a tendência crescente do erro padrão. As possibilidades são numerosas, mas uma das mais óbvias e fáceis de usar é a divisão de Yt e toda a equação por Xt, criando uma nova variável dependente Yt/Xt = 1/VP e uma nova variável independente 1/P. Assim, a nova equação de regressão seria 1/VP = a(1/P) + b. 39 Tabela 13.10 – Resultados da regressão 1/VP = a(1/P) + b, adaptados do Excel 2002. Estatística de regressão R-Quadrado 0,0059 Erro padrão 3,187E-06 Observações 25 ANOVA gl Regressão Resíduo Total Interseção 1/P 1 23 24 SQ MQ F valor-p 1,40E-12 1,4E-12 0,13756 0,71411 2,34E-10 1,02E-11 2,35E-10 Coeficientes Erro padrão b = 0,0007 1,701E-06 a = -3,02E-05 8,168E-05 Stat t valor-P 419 3,7E-46 -0,371 0,714 40 Figura 13.8 – Erros residuais para o modelo 1/VP = a(1/P) + b 0,000006 Resíduos 0,000004 0,000002 0 -0,000002 -0,000004 -0,000006 1/VP previsto 41 13.14 Conclusões Este capítulo é essencialmente teórico no sentido de que a regressão linear simples é raramente utilizada na pratica, restrita a relações entre no máximo duas variáveis. Infelizmente, o mundo real não funciona tão simples assim, pois as relações interessantes sempre dependem de muitas variáveis numa maneira mais complexa com interatividade e não linearidades desempenhado papeis relevantes. 42