ESTATÍSTICA ECONOMETRIA Regressão Linear Simples Regressão Potencial; Exponencial; Hiperbólica Regressão Linear Múltipla Prof. Ms. Antonio Carlos de Oliveira Capitão E4 1 CONCEITO DE ECONOMETRIA 1.- CONCEITO Econometria é oramo do conhecimento humano que aplica a Matemática e a Estatística à Teoria Econômica, objetivando dar-lhe conteúdo empírico. Ela surgiu da seguinte forma: no início, a Teoria Econômica não tinha muitas preocupações com a parte empírica, mas sim, com a construção de uma arcabouço teórico, ou seja; a partir das hipóteses que ela estabelecia, procurava tirar proposições que deveriam explicar o comportamento dos agentes econômicos, sem preocupações com a parte empírica. Mas, duas coisas os teóricos não sabiam: a) quantificar numericamente os parâmetros dos modelos gerados pelas proposições da Teoria Econômica; b) não podiam colocar à prova essas proposições, isto é, não podiam confrontar a sua teoria com a realidade. Foi justamente para cobrir esses dois aspectos, que surgiu a Econometria. Exemplos: A Teoria Econômica que a demanda de importações depende do nível de produção interna e da taxa de câmbio. Além disso, dá o sentido do efeito: dado um aumento na taxa de câmbio (uma desvalorização cambial), as importações deveriam diminuir (afinal, os produtos estrangeiros tornaram-se mais caros): e, dado um aumento na produção interna, as importações deveriam aumentar (particularmente os de bens de capital e matérias-primas, para suprir o aumento da produção interna). Mas a teoria econômica não dá a magnitude do efeito, isto é, se a produção aumenta 5 bilhões; e de quanto deve aumentar as importações, por exemplo. Isso é feito pela Econometria. Dessa forma a Econometria surgiu com o objetivo de dar conteúdo empírico à Teoria Econômica, isto é, dar resposta quantitativa às perguntas que os economistas não poderiam dar apenas com a Teoria Econômica. Prof. Ms. Antonio Carlos de Oliveira Capitão E4 2 2.- CAMPOS O Estudo da Econometria divide-se em dois grandes campos: a) Modelos de equação única: C = a + bY (Função Cons) b) Modelos de equação simultânea: Y = C + 1 (Condição de equilíbrio) C = a + bY (Função consumo) Como se observa, no modelo de equação simultânea na primeira equação o consumo entra como variável independente e, na segunda, como variável dependente. A estimação dos parâmetros deve serfeita simultâneamente com duas (ou mais) equações. Nosso curso tratará apenas dos modelos de equação única. 3.- PRINCIPAL TÉCNICA ECONOMÉTRICA A principal técnica econométrica consiste na Análise de Regressão Linear, que pode ser Simples (apenas uma variável explicativa), ou Múltipla (mais de uma variável explicativa). 4.- EXEMPLOS DE APLICAÇÃO Primeiramente, a Econometria pode favorecer os valores dos principais parâmetros de Política Econômica, como: - propensão marginal a consumir (tirado da função consumo - C = a + bY); - propensão marginal a poupar; - dada uma desvalorização cambial de 5%, qual a diminuição esperada nas importações, e o aumento esperado nas exportações; - efeito quantitativo de um aumento de renda sobre a demanda de moeda (efeito transação) para com isso ter-se uma idéia definida de qual deve ser o aumento da oferta de moeda da coletividade para suprir aquele aumento de demanda. Em segundo lugar, embora a Econometria tenha nascido para complementar apenas o conhecimento teórico, muitas vezes, a partir da Econometria, é que se criou esse conhecimento. É um exemplo clássico a função tipo Cobb-Douglas, ou ainda a função de produção CES, ambas nascidas da observação empírica. Prof. Ms. Antonio Carlos de Oliveira Capitão E4 3 II - REGRESSÃO LINEAR SIMPLES 1.- INTRODUÇÃO O economista, muitas vezes, se vê ante a necessidade de descrever e prever o comportamento de certas variáveis, que serão importantes para sua tomada de decisão. Embora muita coisa possa ser prevista de forma intuitiva, ou através das pesquisas de mercado (principalmente quando se refere a curto prazo), é bastante interessante e conveniente tentar encontrar fórmulas matemáticas que possam relacionar o comportamento das variáveis de interesse do administrador, com certo grau de precisão. A previsão através de intuição ou pesquisa de mercado pode resolver satisfatoriamente os problemas de curto prazo, pois as pessoas informantes podem ter uma certa visão até determinado período de tempo, perdendo esta visão à medida que o horizonte do tempo aumenta. O estabelecimento de relações entre variáveis, além de útil a curto prazo, resolve também os problemas de previsão do comportamento de certas variáveis a longo prazo, como se poderá notar ao longo do desenvolvimento desta apostila. A análise de regressão é um método que visa estabelecer relações funcionais entre variáveis relacionadas por leis estatísticas, isto é, procura encontrar uma função que descreve da melhor forma possível o comportamento de alguma variável que estamos interessados em analisar. A análise de regressão é um método que visa estabelecer relações funcionais entre variáveis relacionadas por leis estatísticas. Para tornar a idéia de regressão linear simples mais clara, suponha que estamos interessados em analisar e comportamento de uma variável Y, digamos a quantidade do produto”A”, vendida pela empresa “A”. Seria bastante lógico supor que os valores da variável Y sofram a influência de uma série de variáveis tais como: a) o preço do bem “A”, que chamaremos de X1; isto porque à medida em que o preço do bem “A” aumentar, deve ocorrer uma queda na quantidade vendida deste bem (lei da demanda). b) a renda per capita da comunidade, que chamaremos de X2; a medida em que a renda aumenta, há um número maior de pessoas em condições de adquirir o bem “A”, aumentando consequentemente suas vendas, desde que “A” não seja um bem inferior. c) os gastos com propaganda, que chamaremos de X3; a medida em que os gastos com propaganda aumentam, há uma expansão das vendas do produto “A”, caso a propaganda seja realmente eficiente. Prof. Ms. Antonio Carlos de Oliveira Capitão E4 4 d) poder-se-ia considerar ainda uma série de outras variáveis X4, X5, ........ Xn, tais como: gosto dos consumidores, qualidade do produto “A”, qualidade dos prosutos concorrentes, etc., que podem ser qualificáveis ou não. Portanto, já sabemos que existe uma série de variáveis (X1, X2, ........... Xn) que influenciam Y, mas na análise de regressão linear simples, trabalhamos apenas uma variável explicativa X (*). Para superar este problema, isolamos a variável que parece ser mais explicativa, desde que seja quantificável e trabalhamos com esta variável. Por exemplo, se estamos interessados em analisar o comportamento das vendas de automóveis no Brasil, poderemos utilizar a renda per capita como variável explicativa. Neste caso, a quantidade vendida de automóveis é uma função de renda per capita. Prof. Ms. Antonio Carlos de Oliveira Capitão E4 5 2.- O MODELO DE REGRESSÃO LINEAR SIMPLES 2.1. - O MODELO VERDADEIRO Consideremos o exemplo citado no final do tópico anterior (quantidade vendida de automóveis (y) como função da renda per capita (x) e suponhamos que estas variáveis se comportem como no gráfico a seguir: 1 caficamente: Y=α +βX.+U onde: Y = Y observado = variável dependente X = variável independente ou variável explicativa α = intercepto β = declividade ou coeficiente angular U = componente aleatória (ou desvio ou componente errática ou erro) Nesta variável “U” estão contidos os efeitos de todas as variáveis que atuam sobre Y, além de X. Neste exemplo citado, poder-se-ia considerar como contidos em “U”, os efeitos de variáveis como a taxa de juros cobrada no financiamento de automóveis, o preço da gasolina (variáveis quantificáveis), qualidade dos automóveis, gosto dos consumidores, etc. (variáveis não quantificáveis). A soma de todos estes efeitos é a componente aleatória “U”. Claramente, estes problemas causam desvios em torno da reta Y = α + β X + U, onde: (α + β X) é a parcela livre das causas aleatórias (no exemplo, é a parcela explicada pela renda per capita). 1 Na regressão linear múltipla, podemos trabalhar com uma série de variáveis explicativas, mas este método será objeto de estudo mais adiante (parte III). Prof. Ms. Antonio Carlos de Oliveira Capitão E4 6 2.2. O MODELO ESTIMADO Dado o fato de que sempre trabalhamos com amostra, não podemos conhecer o verdadeiro modelo, mas apenas uma estimativa deste; além disso, não conhecemos o resíduo “U”. A partir de uma particular amostra, estaremos obtendo valores estimados dos parâmetros populacionais α e β. Temos, então y = a + b x, onde: y a b x e = y estimado = estimativa do intercepto = estimativa da declividade = variável explicativa = estimativa do erro NOTA: y e x são dados. A partir dessas duas séries, obteremos os valores de a e b. Graficamente: Y = A + BX Prof. Ms. Antonio Carlos de Oliveira Capitão E4 7 3. Os passos da Análise de Regressão Linear Simples 2 A especificação do modelo na regressão linear simples consiste de duas fases: seleção de variáveis e especificação da forma funcional. 3.1.1. Seleção das variáveis do modelo Como vimos, a regressão linear simples procura estabelecer relações entre variáveis. Sempre que estamos interessados em analisar o comportamento de uma variável dependente “Y” para estabelecer previsões sobre seu futuro comportamento, precisamos selecionar uma variável independente “X”, que julgamos explicar o máximo possível o comportamento desta variável “Y”. Exemplos: 1º) Se estamos interessados em analisar o comportamento dos custos de uma empresa, precisamos encontrar uma variável que explique as variações de custo, que poderia ser a quantidade produzida. Então C = f (Q), pois à medida que a quantidade produzida aumenta, devem aumentar os custos de produção. 2º) Se queremos analisar a venda de automóveis marda FORD, tipo Corcel, podemos selecionar como variável explicativa o preço relativo do Corcel, isto é, P.Corcel . Então P.Concor. Qvc = f (Pcorcel); a medida em que o preço relativo do Corcel aumenta, deve reduzir sua quantidade vendida. 3º) Para analisarmos a venda de determinado tipo de brinquedo infantil, poderemos considerar como variável explicativa a população que utiliza este tipo de bem, podendo ser crianças entre 3 a 10 anos, dependendo do tipo de brinquedo. Às vezes, informações sobre nossa variável explicativa não estão disponíveis por falta de estatísticas. Para solucionar problemas como este, pode ser utilizada uma variável “proxy”, que é uma variável que substitui aproximadamente a que estamos procurando. Por exemplo, podemos medir a renda per capita de uma dada cidade (informação não disponível) pela arrecadação de impostos (imposto de renda ou imposto sobre produtos industrializados) ou ainda pelo consumo de energia elétrica. 2 O estudo de Regressão Linear Simples está consubstanciado em algumas hipóteses básicas, que serão discutidas no capítulo VII. Prof. Ms. Antonio Carlos de Oliveira Capitão E4 8 Para a seleção das variáveis do modelo, temos que levar em consideração: a) o tamanho da amostra, b) representatividade (a amostra deve ser representativa da população), c) o período escolhido para a amostragem deve ser tal que outras condições que possam influir no problema hajam permanecido aproximadamente as mesmas. 3.1.2. Especificação de forma funcional Nesta fase do processo, estamos interessados em saber a forma pela qual a variável independente exerce influência sobre a variável independente. Uma vez selecionadas as variáveis, devemos descobrir qual a função que melhor descreve o comportamento de “Y”, quando “X” varia. Nós sabemos que a quantidade vendida do produto “A”, é uma função dos gastos com propaganda efetuadas pela empresa “A”, mas, muitas vezes, não temos condição de saber se esta função é uma reta, uma exponencial ou uma potência. RETA EXPONENCIAL POTÊNCIA Prof. Ms. Antonio Carlos de Oliveira Capitão E4 9 A especificação da forma funcional entre “Y” e “X” pode ser feita de duas formas. Às vezes, a teoria subjacente ao desenvolvimento do problema pode sugerir precisamente a forma funcional a ser utilizada, ou então, poderá sugerir a forma funcional a ser utilizada, ou então, poderá sugerir certas condições parciais sobre o intercepto, declividade ou curvatura da função. Neste caso, estaremos partindo de uma especificação “a priori”. Outra forma de especificar a forma funcional entre “X” e “Y” é o emprego do diagrama de dispersão. O diagrama de dispersão é a “nuvem” de pontos que obtemos quando colocamos os pares de valores das variáveis no gráfico. Para cada observação da amostra , teremos tanto um valor de Y observado com um de X observado. Por exemplo, considere o preço do prosuto “A” (preço relativo) e a quantidade vendida deste produto nos anos de 1965 a 1974. Prof. Ms. Antonio Carlos de Oliveira Capitão E4 10 FÓRMULAS REGRESSÃO LINEAR (MODELO LINEAR) Coeficiente de correlação: OBS.: varia entre -1 e 1 inclusive ( Σ X . Σ Y) Σ XY - _____________ n RXY = __________________________________________ ____________________________________________________ 2 2 | | _ | 2 (ΣX) 2 (ΣY) \ | Σ X - ________ . Σ Y - __________ \ n n TABELA DE CORRELAÇÃO 1---------------> 0,8 -------|0,99 0,6 -------| 0,8 0,3 -------| 0,6 0 ---------| 0,3 0----------| perfeita forte média fraca fraquíssima nula Média de X : _ ΣX X = _____ n Média de Y : _ ΣY Y = ______ n OBS.: Pode ser positiva ou negativa Equação de regressão linear (também denominada “função estimada”) Y = a + b x ----------- > variável | independente |----> variável dependente Prof. Ms. Antonio Carlos de Oliveira Capitão E4 11 Isolando-se a variável “a” na função acima encontramos: _ _ a= y - b x b= _ _ Σ xy - n (x) . (y) ________________ 2 Σ x _ 2 - n(x) ERRO PADRÃO __________________________________ | 2 | Σ y - a Σ y - b Σ xy Sxy = _ | ______________________________ \ | n - 2 \ | | 2 Poder Explicativo da Regressão - R _ 2 a Σ y + b Σ xy - n y _________________________ Σ y 2 - n y2 2 2 R | = . 100 OBS.: - Varia entre 0 e 100% - As projeções baseadas no modelo é confiável quanto mais se aproxima de 100%. Prof. Ms. Antonio Carlos de Oliveira Capitão E4 12 FÓRMULA PARA MODELOS NÃO LINEARES POTÊNCIA EXPONENCIAL b HIPÉRBOLE x y=a.b y=a.x + b y = a - __ x ln y = U ln x = V U = A + b.V ln a = A NEPERIANOS LOGO : OBS.: LN = LOGARÍTIMOS X = V Y = U 2 2 Sequência da Tabela : X, Y, V, U, V , Y , UV Média de U = ΣU _______ n ΣV Média de V = ______ n 2 2 SUU = Σ U (ΣU) - ________ n Prof. Ms. Antonio Carlos de Oliveira Capitão E4 13 2 2 SVV = Σ V (Σ V) - _________ n SUV = Σ UV - (ΣU. ΣV) ____________ n _ _ A=U -b V Cálculo de A Cálculo de B B= SUV _______ SVV OBS.: DEVE-SE MONTAR A FUNÇÃO ESTIMADA (REGRESSÃO) MAIS APROPRIADA AO MODELO ESTUDADO (POTÊNCIA, EXPONENCIAL OU HIPÉRBOLE). 2 2 R = APRO- b . SVV ____________ OBS.: VARIA DE 0 A 100% , E QUANTO MAIS O RESULTADO SE . 100 SUU Correlação = _ Σ X´ X´ = _____ n XIMAR DE 100%, MAIS CONFIÁVEL SÃO AS PROJEÇÕES. ________________ | 2 | - | R \ | _____ \| 100 ( Σ X´) . (Σ Y) Σ YX´ - ______________ B= n ____________________________ 2 2 Prof. Ms. Antonio Carlos de Oliveira Capitão E4 14 Σ X´ _ Σ Y´ Y´ = _____ n = (Σ X´ ) ______ n _ _ A= Y - b . X Y = a+ b - ____ X 2 R _ 2 a Σ Y + b Σ X´ Y - n . Y = _________________________ 2 _2 ΣY - n . Y . 100 ___________ | 2 | X´ Y = - | R \ | _____ \| 100 EXEMPLO DE REGRESÃO LINEAR Prof. Ms. Antonio Carlos de Oliveira Capitão E4 15 Método dos Mínimos Quadrados x y 825 215 1.070 550 480 920 1.350 325 670 1.215 7.620 somatório x = y = 3,5 1,0 4,0 2,0 1,0 3,0 4,5 1,5 3,0 5,0 28,5 x2 680.625 46.225 1.144.900 302.500 230.400 846.400 1.822.500 105.625 448.900 1.476.225 7.104.300 y2 12,25 1,00 16,00 4,00 1,00 9,00 20,25 2,25 9,00 25,00 99,75 x.y 2.887,5 215,0 4.280,0 1.100,0 480,0 2.760,0 6.075,0 487,5 2.010,0 6.075,0 26.370,0 762 2,85 correlação: rxy = S xy - (Sx.Sy) n (Sx2- (Sx)2).(Sy2-(Sy)2) n n rxy = 26.370- (7.620 . 28,5) 10 (7.104.300- (58.064.400)).(99,75-812,25) 10 10 rxy = 0,95 positiva e forte equação de regressão: b = Sxy - n (x).(y) Sx2 - n (x)2 b = 0,003 a = y - bx a = 0,5 b=26.370 - 10(762).(2,85) 7.104.300 - 10(762)2 0,0036 a = 2,85 - 0,003 . 762 0,564 Prof. Ms. Antonio Carlos de Oliveira Capitão E4 16 y = a + bx EXEMPLO Uma empresa levantou os seguintes dados para avaliar as suas vendas e os gastos com promoção. x y gastos com promoção vendas em em US$1.000 US$milhões 1º ano 140 200 238 270 300 400 450 1.998 2º ano 3º ano 4º ano 5º ano 6º ano 7º ano somatório 50 57 67 69 77 85 86 491 x2 y2 19.600 40.000 56.644 72.900 90.000 160.000 202.500 641.644 2.500 3.249 4.489 4.761 5.929 7.225 7.396 35.549 x.y 7.000 11.400 15.946 18.630 23.100 34.000 38.700 148.776 1 - De quantos milhões seriam as vendas, se a empresa aplicar US$ 600.000, em promoção? 2 - Qual a confiabilidade da projeção, justifique a sua resposta? x = y = 285,4 70,1 correlação: rxy = S xy - (Sx.Sy) n (Sx2- (Sx)2).(Sy2-(Sy)2) n n rxy = 0,97 positiva e forte equação de regressão: b = Sxy - n (x).(y) Sx2 - n (x)2 b = 0,1 a = y - bx Prof. Ms. Antonio Carlos de Oliveira Capitão E4 17 a = 41,6 erro padrão: Sxy = Sy2 - aSy - bSxy n - 2 Sxy = 7 poder explicativo da regressão: R2 = aSy + bSxy - ny2 Sy2 - ny2 . 100 R2 = 77,8% alto poder explicativo equação de projeção: y = a + bx y = 101,6 milhões Respostas: 1 - As vendas seriam US$ 101,6 milhões. 2 - A confiablidade é alta, devido ao alto poder explicativo. EXEMPLO NÚMERO 2 A tabela a seguir mostra uma relação entre a nota final de estatística e o número de horas que os alunos estudaram. y x x2 x.y notas horas y2 estudo 81 900 270 9 30 64 625 200 8 25 49 400 140 7 20 36 225 90 6 15 25 196 70 5 14 16 196 56 4 14 9 100 30 3 10 4 25 10 2 5 1 9 3 1 3 somatório 285 2.676 869 45 136 Pede-se: Prof. Ms. Antonio Carlos de Oliveira Capitão E4 18 1 - Existe relação entre as duas variáveis acima? Justifique. 2 - Identifique a variável explicativa e analise a tabela pelo método dos mínimos quadrados. 3 - Analise a confiabilidade do modelo para projeção. 4 - Quantas horas o aluno precisa estudar para tirar a nota: a - 10 b - 5,5 c - 0 correlação: (Sx.Sy) S xy n rxy = (Sx2- (Sx)2).(Sy2-(Sy)2) n n rxy = 0,98 positiva e forte média: x = y = 15,1 5,0 equação de regressão linear: b = Sxy - n (x).(y) Sx2 - n (x)2 b = 0,3 a = y - bx a = 0,5 y = a + bx para nota 10 para nota 5,5 para nota 0 x= 31,7 x= 16,7 x= -1,7 erro padrão: Sxy = Sy2 - aSy - bSxy n - 2 Sxy = 0,5 Prof. Ms. Antonio Carlos de Oliveira Capitão E4 19 poder explicativo da regressão: R2 = aSy + bSxy - ny2 Sy2 - ny2 . 100 R2 = 97,0% alto poder explicativo Respostas: 1 - Existe, pois a correlação é positiva e forte. 2 - A nota depende das horas, portanto a hora é a variável explicativa. 3 - A confiabilidade é alta, devido ao alto poder explicativo. 4 - Para tirar: nota 10 = 31,7 horas nota 5,5 = 16,7 horas nota 0 = -1,7 horas Exercício: Importação brasileira de matéria-prima de 88 a 94 (fonte: Ordem dos Economistas) x y ano quantidade x2 y2 x.y (ton) 1988 1989 1990 1991 1992 1993 1 2 3 4 5 6 50 47 35 30 24 10 1 4 9 16 25 36 2.500 2.209 1.225 900 576 100 50 94 105 120 120 60 Prof. Ms. Antonio Carlos de Oliveira Capitão E4 20 1994 7 28 somatório 49 140 16 212 256 7.766 112 661 Informe a projeção para 95 e 96 x = y = 4,0 30,3 correlação: rxy = S xy - (Sx.Sy) n (Sx2- (Sx)2).(Sy2-(Sy)2) n n rxy = -0,96 negativa e forte equação de regressão: b = Sxy - n (x).(y) Sx2 - n (x)2 b = -6,7 a = y - bx a = 57,1 erro padrão: Sxy = Sy2 - aSy - bSxy n - 2 Sxy = 4 poder explicativo da regressão: R2 = aSy + bSxy - ny2 Sy2 - ny2 . 100 Prof. Ms. Antonio Carlos de Oliveira Capitão E4 21 R2 = 93,3% alto poder explicativo equação de projeção: y = a + bx para 95 para 96 y = y = 3,5 -3,2 EXERCÍCI O Relação entre horas contínuas trabalhadas e quantidade de microcomputadores com defeito de montagem (fonte: Hardzon) x y horas quantidade de micros x2 y2 x.y c/defeito 18 12 10 8 6 5 4 63 somatório 324 144 100 64 36 25 16 709 9 8 7 6 5 4 3 42 81 64 49 36 25 16 9 280 162 96 70 48 30 20 12 438 Faça projeção para: 20 horas 15 horas 7 horas x = y = 9,0 6,0 correlação: rxy = S xy - (Sx.Sy) n (Sx2- (Sx)2).(Sy2-(Sy)2) n n Prof. Ms. Antonio Carlos de Oliveira Capitão E4 22 rxy = 0,95 positiva e forte equação de regressão: b = Sxy - n (x).(y) Sx2 - n (x)2 b = 0,4 a = y - bx a = 2,4 erro padrão: Sxy = Sy2 - aSy - bSxy n - 2 Sxy = 1 poder explicativo da regressão: R2 = aSy + bSxy - ny2 Sy2 - ny2 R2 = 85,7% . 100 alto poder explicativo equação de projeção: y = a + bx para 20 horas ====> para 15 horas ====> para 7 horas =====> 10 micros c/defeito 8 micros c/defeito 5 micros c/defeito Prof. Ms. Antonio Carlos de Oliveira Capitão E4 23 REGRESSÃO LINEAR MÚLTIPLA A análise de Regressão Linear Múltipla consiste, na realidade, numa extensão da matéria desenvolvida na primeira parte do curso de “Estatística Aplicada à Administração”, qual seja, a Regressão Linear Simples. Visto que as idéias e conceitos a serem desenvolvidos no decorrer do presente estudo se assemelham com a análise de Regressão Linear Simples, procurar-se-á, na medida do possível, relacionar as duas análises. A idéia central da análise de Regressão Linear Simples era a de encontrar uma função (estimada) que descrevesse (de forma mais perfeita possível) o comportamento de uma variável que estivéssemos interessados em analisar. Para estimarmos esta função, selecionávamos uma variável explicativa (X), a quela que julgássemos explicar o máximo possível o comportamento da variável independente (Y), a ser analisada. No caso da Regressão Linear Múltipla, a diferença fundamental reside no número de variáveis explicativas, que agora não fica limitada a apenas uma, mas podendo expandir este número para quantas variáveis explicativas forem necessárias. No desenvolvimento de nosso curso, utilizaremos o modelo de Regressão Linear Múltipla com “DUAS” variáveis explicativas; a extensão do modelo, a partir daí, para três ou mais variáveis explicativas, é imediata, sendo porém, que estes modelos (três ou mais variáveis) geralmente são estimados por computador, dada a grande dificuldade em estimalos manualmente. Quando temos três ou mais variáveis denominamos o processo de REGRESSÃO MÚLTIPLA; existem também casos de linearização (Hipérbole, Potência, Exponencial, etc...), porém, nos limitaremos a seguir à “REGRESSÃO LINEAR MÚLTIPLA” com três variáveis. Na regressão múltipla não há perfeita multicolinearidade entre os regressores (não existe relação linear perfeita entre as variáveis). Ao tratarmos com três variáveis, deixaremos de usar o gráfico plano (X,Y), para nos referirmos a um diagrama de dispersão de pontos em três dimensões (X, Y, Z); mas o problema continua sendo o de encontrar um plano (uma reta na regressão linear simples) que melhor se ajuste, no sentido de menores desvios dos pontos observados. A técnica matemática utilizada é o “Método dos Mínimos Quadrados”, que é uma extensão, de forma geral, da técnica utilizada na Regressão Linear Simples. Prof. Ms. Antonio Carlos de Oliveira Capitão E4 24 O MODELO VERDADEIRO DE R. L. M. No caso de Regressão Linear Múltipla teremos um plano de regressão, ao invés de uma reta. Graficamente: Prof. Ms. Antonio Carlos de Oliveira Capitão E4 25 MODELO ESTIMADO Dado o fato que sempre trabalhamos com amostras, não podemos conhecer o verdadeiro modelo, mas apenas uma estimativa deste, além disso não conhecemos o resíduo “Σ” . A partir de uma particular amostra, procuraremos obter valores estimados dos parâmetros populacionais. Temos então: Y = a + b x 1 + b 1 + ε x 2 1 0 (coef. angular) = estimativa de declividade relativa à x (coef. angular) 2 , x 1 # 2 1 2 x b e b 1 Y = valor estimado de y a = estimativa do intercepto b = estimativa de declividade relativa à x b , onde: 2 = variáveis explicativas 2 Σ = resíduo (ERRO) OS PASSOS DA ANÁLISE DE REGRESSÃO MÚLTIPLA O esquema é análogo ao de Regressão Linear Simples. Prof. Ms. Antonio Carlos de Oliveira Capitão E4 26 FÓRMULAS Tabela (sequência) 2 Y;X ;X 1 2 2 ; X ; X 2 1 ; Y ; X . X ; Y. X ; Y . X 2 1 2 Obs.: Calcular a média aritmética de X 1 , X 1 2 , Y 2 ΣY . ΣX 1 SY = Σ Y . X 1 - ______________ 1 n ΣY . ΣX 2 SY = Σ Y . X 2 - ______________ 2 n 2 (ΣX ) 2 = ΣX S 11 1 1 ___________ n ΣX . ΣX 1 SY 12 = SY = Σ (X . X ) 21 1 2 ______________ 2 n Prof. Ms. Antonio Carlos de Oliveira Capitão E4 27 2 (ΣX ) 2 2 = ΣX S - 22 2 ___________ n 2 2 = ΣY S - yy (ΣY) ___________ n SY . S 1 b - SY . S 22 2 12 = _____________________________ 1 2 S . S - (S 11 22 SY . S 2 b ) 12 - SY . S 11 1 21 = _____________________________ 2 2 S . S - (S 11 22 ) 12 _ _ _ a= Y - b x - b x 1 1 2 2 Poder Explicativo : b . SY + b . SY 2 1 1 2 2 R = _____________________________ S yy Prof. Ms. Antonio Carlos de Oliveira Capitão E4 28 Correlação: R xy ___________ | 2 | = - | R \ | _____ \| 100 EXERCÍCIOS Analise as seguintes relações pelo método dos mínimos quadrados : 1-) VENDAS (Y) 6 7 15 18 20 23 2-) Y 128 150 78 162 134 175 208 X1 1 2 3 4 5 6 7 Gastos com tv (x1) Gastos com Jornal (x2) 3 1 4 2 8 3 8 5 10 8 11 6 X2 100 200 300 400 500 600 700 EXEMPLO DE REGRESÃO LINEAR Método dos Mínimos Quadrados Prof. Ms. Antonio Carlos de Oliveira Capitão E4 29 x 825 215 1.070 550 480 920 1.350 325 670 1.215 7.620 somatório x2 y 3,5 1,0 4,0 2,0 1,0 3,0 4,5 1,5 3,0 5,0 28,5 680.625 46.225 1.144.900 302.500 230.400 846.400 1.822.500 105.625 448.900 1.476.225 7.104.300 y2 12,25 1,00 16,00 4,00 1,00 9,00 20,25 2,25 9,00 25,00 99,75 x.y 2.887,5 215,0 4.280,0 1.100,0 480,0 2.760,0 6.075,0 487,5 2.010,0 6.075,0 26.370,0 762 x = 2,85 y = correlação: rxy = S xy - (Sx.Sy) n (Sx2- (Sx)2).(Sy2-(Sy)2) n rxy = 26.370- n (7.620 . 28,5) 10 (7.104.300- (58.064.400)).(99,75-812,25) 10 10 Prof. Ms. Antonio Carlos de Oliveira Capitão E4 30 rxy = 0,95 positiva e forte equação de regressão: b = Sxy - n (x).(y) b=26.370 10(762).(2,85) Sx2 - n (x)2 7.104.300 - 10(762)2 b = 0,003 0,0036 a = y - bx a = 2,85 - 0,003 . 762 a = 0,5 0,564 y = a + bx EXEMPLO Uma empresa levantou os seguintes dados para avaliar as suas vendas e os gastos com promoção. x y 1º ano 2º ano 3º ano 4º ano gastos com vendas promoção em em US$1.000 US$milhões 140 200 238 270 x2 50 57 67 69 19.600 40.000 56.644 72.900 y2 2.500 3.249 4.489 4.761 x.y 7.000 11.400 15.946 18.630 Prof. Ms. Antonio Carlos de Oliveira Capitão E4 31 5º ano 300 400 450 1.998 6º ano 7º ano somatório 90.000 160.000 202.500 641.644 77 85 86 491 5.929 7.225 7.396 35.549 23.100 34.000 38.700 148.776 1 - De quantos milhões seriam as vendas, se a empresa aplicar US$ 600.000, em promoção? 2 - Qual a confiabilidade da projeção, justifique a sua resposta? 285,4 x = 70,1 y = correlação: rxy = S xy - (Sx.Sy) n (Sx2- (Sx)2).(Sy2-(Sy)2) n rxy = 0,97 n positiva e forte equação de regressão: b = Sxy - n (x).(y) Sx2 - n (x)2 b = 0,1 a = y - bx Prof. Ms. Antonio Carlos de Oliveira Capitão E4 32 a = 41,6 erro padrão: Sxy = Sy2 - aSy - bSxy n - 2 Sxy = 7 poder explicativo da regressão: R2 = aSy + bSxy - ny2 2 . 100 2 Sy - ny R2 = 77,8% alto poder explicativo equação de projeção: y = a + bx 101,6 milhões y = Respostas: 1 - As vendas seriam US$ 101,6 milhões. 2 - A confiablidade é alta, devido ao alto poder explicativo. EXEMPLO NÚMERO 2 A tabela a seguir mostra uma relação entre a nota final de estatística e o número de horas que os alunos estudaram. y x Prof. Ms. Antonio Carlos de Oliveira Capitão E4 somatório 33 notas horas 9 8 7 6 5 4 3 2 1 45 estudo 30 25 20 15 14 14 10 5 3 136 y2 x2 81 64 49 36 25 16 9 4 1 285 900 625 400 225 196 196 100 25 9 2.676 x.y 270 200 140 90 70 56 30 10 3 869 Pede-se: 1 - Existe relação entre as duas variáveis acima? Justifique. 2 - Identifique a variável explicativa e analise a tabela pelo método dos mínimos quadrados. 3 - Analise a confiabilidade do modelo para projeção. 4 - Quantas horas o aluno precisa estudar para tirar a nota: a - 10 b - 5,5 c - 0 correlação: rxy = S xy - (Sx.Sy) n (Sx2- (Sx)2).(Sy2-(Sy)2) n rxy = 0,98 n positiva e forte média: 15,1 x = 5,0 y = equação de regressão linear: Prof. Ms. Antonio Carlos de Oliveira Capitão E4 34 b = Sxy - n (x).(y) Sx2 - n (x)2 b = 0,3 a = y - bx a = 0,5 y = a + bx para nota 10 para nota 5,5 x= 31,7 x= 16,7 para nota 0 x= -1,7 erro padrão: Sxy = Sy2 - aSy - bSxy n - 2 Sxy = 0,5 poder explicativo da regressão: R2 = aSy + bSxy - ny2 2 . 100 2 Sy - ny Prof. Ms. Antonio Carlos de Oliveira Capitão E4 35 R2 = 97,0% alto poder explicativo Respostas: 1 2 3 4 - Existe, pois a correlação é positiva e forte. A nota depende das horas, portanto a hora é a variável explicativa. A confiabilidade é alta, devido ao alto poder explicativo. Para tirar: nota 10 = 31,7 horas nota 5,5 = 16,7 horas nota 0 = -1,7 horas Exercício: Importação brasileira de matéria-prima de 88 a 94 (fonte: Ordem dos Economistas) x y ano quantidade x2 y2 x.y (ton) 1988 1989 1990 1991 1992 1993 1 2 3 4 5 6 50 47 35 30 24 10 1 4 9 16 25 36 2.500 2.209 1.225 900 576 100 50 94 105 120 120 60 Prof. Ms. Antonio Carlos de Oliveira Capitão E4 36 1994 somatório 7 28 49 140 16 212 256 7.766 112 661 Informe a projeção para 95 e 96 4,0 x = 30,3 y = correlação: rxy = S xy - (Sx.Sy) n (Sx2- (Sx)2).(Sy2-(Sy)2) n rxy = -0,96 n negativa e forte equação de regressão: b = Sxy - n (x).(y) Sx2 - n (x)2 b = -6,7 Prof. Ms. Antonio Carlos de Oliveira Capitão E4 37 a = y - bx a = 57,1 erro padrão: Sxy = Sy2 - aSy - bSxy n - 2 Sxy = 4 poder explicativo da regressão: R2 = aSy + bSxy - ny2 . 100 Sy2 - ny2 R2 = 93,3% alto poder explicativo equação de projeção: y = a + bx para 95 3,5 y = para 96 -3,2 y = Prof. Ms. Antonio Carlos de Oliveira Capitão E4 38 EXERCÍCIO Relação entre horas contínuas trabalhadas e quantidade de microcomputadores com defeito de montagem (fonte: Hardzon) x y quantidade horas x2 de micros y2 x.y c/defeito 18 12 10 8 6 5 4 63 somatório Faça projeção para: 324 144 100 64 36 25 16 709 9 8 7 6 5 4 3 42 81 64 49 36 25 16 9 280 162 96 70 48 30 20 12 438 20 horas 15 horas 7 horas 9,0 x = 6,0 y = correlação: rxy = S xy - (Sx.Sy) n (Sx2- (Sx)2).(Sy2-(Sy)2) n rxy = 0,95 n positiva e forte Prof. Ms. Antonio Carlos de Oliveira Capitão E4 39 equação de regressão: b = Sxy - n (x).(y) Sx2 - n (x)2 b = 0,4 a = y - bx a = 2,4 erro padrão: Sxy = Sy2 - aSy - bSxy n - 2 Sxy = 1 poder explicativo da regressão: R2 = aSy + bSxy - ny2 2 . 100 2 Sy - ny R2 = 85,7% alto poder explicativo equação de projeção: y = a + bx Prof. Ms. Antonio Carlos de Oliveira Capitão E4 para 20 horas ====> para 15 horas ====> para 7 horas =====> 40 10 micros c/defeito 8 micros c/defeito 5 micros c/defeito Prof. Ms. Antonio Carlos de Oliveira Capitão