ESTATÍSTICA
ECONOMETRIA
Regressão Linear Simples
Regressão Potencial; Exponencial;
Hiperbólica
Regressão Linear Múltipla
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
1
CONCEITO DE ECONOMETRIA
1.- CONCEITO
Econometria é oramo do conhecimento humano que aplica a Matemática e a Estatística à
Teoria Econômica, objetivando dar-lhe conteúdo empírico.
Ela surgiu da seguinte forma: no início, a Teoria Econômica não tinha muitas
preocupações com a parte empírica, mas sim, com a construção de uma arcabouço
teórico, ou seja; a partir das hipóteses que ela estabelecia, procurava tirar proposições que
deveriam explicar o comportamento dos agentes econômicos, sem preocupações com a
parte empírica.
Mas, duas coisas os teóricos não sabiam:
a) quantificar numericamente os parâmetros dos modelos gerados pelas proposições da
Teoria Econômica;
b) não podiam colocar à prova essas proposições, isto é, não podiam confrontar a sua
teoria com a realidade.
Foi justamente para cobrir esses dois aspectos, que surgiu a Econometria.
Exemplos: A Teoria Econômica que a demanda de importações depende do nível de
produção interna e da taxa de câmbio. Além disso, dá o sentido do efeito: dado um
aumento na taxa de câmbio (uma desvalorização cambial), as importações deveriam
diminuir (afinal, os produtos estrangeiros tornaram-se mais caros): e, dado um aumento
na produção interna, as importações deveriam aumentar (particularmente os de bens de
capital e matérias-primas, para suprir o aumento da produção interna).
Mas a teoria econômica não dá a magnitude do efeito, isto é, se a produção aumenta 5
bilhões; e de quanto deve aumentar as importações, por exemplo. Isso é feito pela
Econometria.
Dessa forma a Econometria surgiu com o objetivo de dar conteúdo empírico à Teoria
Econômica, isto é, dar resposta quantitativa às perguntas que os economistas não
poderiam dar apenas com a Teoria Econômica.
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
2
2.- CAMPOS
O Estudo da Econometria divide-se em dois grandes campos:
a) Modelos de equação única: C = a + bY (Função Cons)
b) Modelos de equação simultânea:
Y = C + 1 (Condição de equilíbrio)
C = a + bY (Função consumo)
Como se observa, no modelo de equação simultânea na primeira equação o consumo
entra como variável independente e, na segunda, como variável dependente.
A estimação dos parâmetros deve serfeita simultâneamente com duas (ou mais) equações.
Nosso curso tratará apenas dos modelos de equação única.
3.- PRINCIPAL TÉCNICA ECONOMÉTRICA
A principal técnica econométrica consiste na Análise de Regressão Linear, que pode ser
Simples (apenas uma variável explicativa), ou Múltipla (mais de uma variável
explicativa).
4.- EXEMPLOS DE APLICAÇÃO
Primeiramente, a Econometria pode favorecer os valores dos principais parâmetros de
Política Econômica, como:
- propensão marginal a consumir (tirado da função consumo - C = a + bY);
- propensão marginal a poupar;
- dada uma desvalorização cambial de 5%, qual a diminuição esperada nas importações, e
o aumento esperado nas exportações;
- efeito quantitativo de um aumento de renda sobre a demanda de moeda (efeito
transação) para com isso ter-se uma idéia definida de qual deve ser o aumento da oferta
de moeda da coletividade para suprir aquele aumento de demanda.
Em segundo lugar, embora a Econometria tenha nascido para complementar apenas o
conhecimento teórico, muitas vezes, a partir da Econometria, é que se criou esse
conhecimento. É um exemplo clássico a função tipo Cobb-Douglas, ou ainda a função de
produção CES, ambas nascidas da observação empírica.
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
3
II - REGRESSÃO LINEAR SIMPLES
1.- INTRODUÇÃO
O economista, muitas vezes, se vê ante a necessidade de descrever e prever o
comportamento de certas variáveis, que serão importantes para sua tomada de decisão.
Embora muita coisa possa ser prevista de forma intuitiva, ou através das pesquisas de
mercado (principalmente quando se refere a curto prazo), é bastante interessante e
conveniente tentar encontrar fórmulas matemáticas que possam relacionar o
comportamento das variáveis de interesse do administrador, com certo grau de precisão.
A previsão através de intuição ou pesquisa de mercado pode resolver satisfatoriamente os
problemas de curto prazo, pois as pessoas informantes podem ter uma certa visão até
determinado período de tempo, perdendo esta visão à medida que o horizonte do tempo
aumenta. O estabelecimento de relações entre variáveis, além de útil a curto prazo,
resolve também os problemas de previsão do comportamento de certas variáveis a longo
prazo, como se poderá notar ao longo do desenvolvimento desta apostila.
A análise de regressão é um método que visa estabelecer relações funcionais entre
variáveis relacionadas por leis estatísticas, isto é, procura encontrar uma função que
descreve da melhor forma possível o comportamento de alguma variável que estamos
interessados em analisar.
A análise de regressão é um método que visa estabelecer relações funcionais entre
variáveis relacionadas por leis estatísticas. Para tornar a idéia de regressão linear simples
mais clara, suponha que estamos interessados em analisar e comportamento de uma
variável Y, digamos a quantidade do produto”A”, vendida pela empresa “A”. Seria
bastante lógico supor que os valores da variável Y sofram a influência de uma série de
variáveis tais como:
a) o preço do bem “A”, que chamaremos de X1; isto porque à medida em que o preço do
bem “A” aumentar, deve ocorrer uma queda na quantidade vendida deste bem (lei da
demanda).
b) a renda per capita da comunidade, que chamaremos de X2; a medida em que a renda
aumenta, há um número maior de pessoas em condições de adquirir o bem “A”,
aumentando consequentemente suas vendas, desde que “A” não seja um bem inferior.
c) os gastos com propaganda, que chamaremos de X3; a medida em que os gastos com
propaganda aumentam, há uma expansão das vendas do produto “A”, caso a propaganda
seja realmente eficiente.
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
4
d) poder-se-ia considerar ainda uma série de outras variáveis X4, X5, ........ Xn, tais
como: gosto dos consumidores, qualidade do produto “A”, qualidade dos prosutos
concorrentes, etc., que podem ser qualificáveis ou não.
Portanto, já sabemos que existe uma série de variáveis (X1, X2, ........... Xn) que
influenciam Y, mas na análise de regressão linear simples, trabalhamos apenas uma
variável explicativa X (*). Para superar este problema, isolamos a variável que parece ser
mais explicativa, desde que seja quantificável e trabalhamos com esta variável. Por
exemplo, se estamos interessados em analisar o comportamento das vendas de
automóveis no Brasil, poderemos utilizar a renda per capita como variável explicativa.
Neste caso, a quantidade vendida de automóveis é uma função de renda per capita.
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
5
2.- O MODELO DE REGRESSÃO LINEAR SIMPLES
2.1. - O MODELO VERDADEIRO
Consideremos o exemplo citado no final do tópico anterior (quantidade vendida de
automóveis (y) como função da renda per capita (x) e suponhamos que estas variáveis se
comportem como no gráfico a seguir:
1
caficamente:
Y=α +βX.+U
onde:
Y = Y observado = variável dependente
X = variável independente ou variável explicativa
α = intercepto
β = declividade ou coeficiente angular
U = componente aleatória (ou desvio ou componente errática ou erro)
Nesta variável “U” estão contidos os efeitos de todas as variáveis que atuam sobre Y,
além de X. Neste exemplo citado, poder-se-ia considerar como contidos em “U”, os
efeitos de variáveis como a taxa de juros cobrada no financiamento de automóveis, o
preço da gasolina (variáveis quantificáveis), qualidade dos automóveis, gosto dos
consumidores, etc. (variáveis não quantificáveis). A soma de todos estes efeitos é a
componente aleatória “U”. Claramente, estes problemas causam desvios em torno da reta
Y = α + β X + U, onde:
(α + β X) é a parcela livre das causas aleatórias (no exemplo, é a parcela explicada pela
renda per capita).
1
Na regressão linear múltipla, podemos trabalhar com uma série de variáveis explicativas, mas este
método será objeto de estudo mais adiante (parte III).
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
6
2.2. O MODELO ESTIMADO
Dado o fato de que sempre trabalhamos com amostra, não podemos conhecer o
verdadeiro modelo, mas apenas uma estimativa deste; além disso, não conhecemos o
resíduo “U”. A partir de uma particular amostra, estaremos obtendo valores estimados
dos parâmetros populacionais α e β.
Temos, então y = a + b x, onde:
y
a
b
x
e
= y estimado
= estimativa do intercepto
= estimativa da declividade
= variável explicativa
= estimativa do erro
NOTA: y e x são dados. A partir dessas duas séries, obteremos os valores de a e b.
Graficamente:
Y = A + BX
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
7
3. Os passos da Análise de Regressão Linear Simples
2
A especificação do modelo na regressão linear simples consiste de duas fases: seleção de
variáveis e especificação da forma funcional.
3.1.1. Seleção das variáveis do modelo
Como vimos, a regressão linear simples procura estabelecer relações entre variáveis.
Sempre que estamos interessados em analisar o comportamento de uma variável
dependente “Y” para estabelecer previsões sobre seu futuro comportamento, precisamos
selecionar uma variável independente “X”, que julgamos explicar o máximo possível o
comportamento desta variável “Y”. Exemplos:
1º) Se estamos interessados em analisar o comportamento dos custos de uma empresa,
precisamos encontrar uma variável que explique as variações de custo, que poderia ser a
quantidade produzida. Então C = f (Q), pois à medida que a quantidade produzida
aumenta, devem aumentar os custos de produção.
2º) Se queremos analisar a venda de automóveis marda FORD, tipo Corcel, podemos
selecionar como variável explicativa o preço relativo do Corcel, isto é, P.Corcel . Então
P.Concor.
Qvc = f (Pcorcel); a medida em que o preço relativo do Corcel aumenta, deve reduzir sua
quantidade vendida.
3º) Para analisarmos a venda de determinado tipo de brinquedo infantil, poderemos
considerar como variável explicativa a população que utiliza este tipo de bem, podendo
ser crianças entre 3 a 10 anos, dependendo do tipo de brinquedo.
Às vezes, informações sobre nossa variável explicativa não estão disponíveis por falta de
estatísticas. Para solucionar problemas como este, pode ser utilizada uma variável
“proxy”, que é uma variável que substitui aproximadamente a que estamos procurando.
Por exemplo, podemos medir a renda per capita de uma dada cidade (informação não
disponível) pela arrecadação de impostos (imposto de renda ou imposto sobre produtos
industrializados) ou ainda pelo consumo de energia elétrica.
2
O estudo de Regressão Linear Simples está consubstanciado em algumas hipóteses básicas, que serão
discutidas no capítulo VII.
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
8
Para a seleção das variáveis do modelo, temos que levar em consideração:
a) o tamanho da amostra,
b) representatividade (a amostra deve ser representativa da população),
c) o período escolhido para a amostragem deve ser tal que outras condições que possam
influir no problema hajam permanecido aproximadamente as mesmas.
3.1.2. Especificação de forma funcional
Nesta fase do processo, estamos interessados em saber a forma pela qual a variável
independente exerce influência sobre a variável independente. Uma vez selecionadas as
variáveis, devemos descobrir qual a função que melhor descreve o comportamento de
“Y”, quando “X” varia.
Nós sabemos que a quantidade vendida do produto “A”, é uma função dos gastos com
propaganda efetuadas pela empresa “A”, mas, muitas vezes, não temos condição de saber
se esta função é uma reta, uma exponencial ou uma potência.
RETA
EXPONENCIAL
POTÊNCIA
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
9
A especificação da forma funcional entre “Y” e “X” pode ser feita de duas formas. Às
vezes, a teoria subjacente ao desenvolvimento do problema pode sugerir precisamente a
forma funcional a ser utilizada, ou então, poderá sugerir a forma funcional a ser utilizada,
ou então, poderá sugerir certas condições parciais sobre o intercepto, declividade ou
curvatura da função. Neste caso, estaremos partindo de uma especificação “a priori”.
Outra forma de especificar a forma funcional entre “X” e “Y” é o emprego do diagrama
de dispersão. O diagrama de dispersão é a “nuvem” de pontos que obtemos quando
colocamos os pares de valores das variáveis no gráfico. Para cada observação da amostra
, teremos tanto um valor de Y observado com um de X observado. Por exemplo,
considere o preço do prosuto “A” (preço relativo) e a quantidade vendida deste produto
nos anos de 1965 a 1974.
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
10
FÓRMULAS
REGRESSÃO LINEAR (MODELO LINEAR)
Coeficiente de correlação:
OBS.: varia entre -1 e 1 inclusive
( Σ X . Σ Y)
Σ XY - _____________
n
RXY =
__________________________________________
____________________________________________________
2
2
|
|
_ |
2
(ΣX)
2
(ΣY)
\ | Σ X - ________
.
Σ Y - __________
\
n
n
TABELA DE CORRELAÇÃO
1--------------->
0,8 -------|0,99
0,6 -------| 0,8
0,3 -------| 0,6
0 ---------| 0,3
0----------|
perfeita
forte
média
fraca
fraquíssima
nula
Média de X :
_
ΣX
X = _____
n
Média de Y :
_
ΣY
Y = ______
n
OBS.: Pode ser positiva
ou negativa
Equação de regressão linear (também denominada “função estimada”)
Y = a + b x ----------- > variável
|
independente
|----> variável
dependente
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
11
Isolando-se a variável “a” na função acima encontramos:
_
_
a= y - b x
b=
_
_
Σ xy - n (x) . (y)
________________
2
Σ x
_
2
- n(x)
ERRO PADRÃO
__________________________________
|
2
| Σ y - a Σ y - b Σ xy
Sxy = _ | ______________________________
\ |
n - 2
\ |
|
2
Poder Explicativo da Regressão - R
_ 2
a Σ y + b Σ xy - n y
_________________________
Σ y 2 - n y2
2
2
R
|
=
.
100
OBS.: - Varia entre 0 e 100%
- As projeções baseadas no modelo é confiável quanto mais se aproxima de 100%.
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
12
FÓRMULA PARA MODELOS NÃO LINEARES
POTÊNCIA
EXPONENCIAL
b
HIPÉRBOLE
x
y=a.b
y=a.x
+ b
y = a - __
x
ln y = U
ln x = V
U = A + b.V
ln a = A
NEPERIANOS
LOGO :
OBS.: LN = LOGARÍTIMOS
X = V
Y = U
2
2
Sequência da Tabela : X, Y, V, U, V , Y , UV
Média de U =
ΣU
_______
n
ΣV
Média de V = ______
n
2
2
SUU = Σ U
(ΣU)
- ________
n
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
13
2
2
SVV = Σ V
(Σ V)
- _________
n
SUV = Σ UV -
(ΣU. ΣV)
____________
n
_
_
A=U -b V
Cálculo de A
Cálculo de B
B=
SUV
_______
SVV
OBS.: DEVE-SE MONTAR A FUNÇÃO ESTIMADA (REGRESSÃO) MAIS
APROPRIADA AO MODELO ESTUDADO (POTÊNCIA, EXPONENCIAL OU
HIPÉRBOLE).
2
2
R =
APRO-
b . SVV
____________
OBS.: VARIA DE 0 A 100% , E QUANTO MAIS O RESULTADO SE
. 100
SUU
Correlação =
_
Σ X´
X´ = _____
n
XIMAR DE 100%, MAIS CONFIÁVEL SÃO AS PROJEÇÕES.
________________
|
2
|
- |
R
\ |
_____
\|
100
( Σ X´) . (Σ Y)
Σ YX´ - ______________
B=
n
____________________________
2
2
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
14
Σ X´
_
Σ Y´
Y´ = _____
n
=
(Σ X´ )
______
n
_
_
A= Y - b . X
Y = a+ b
- ____
X
2
R
_ 2
a Σ Y + b Σ X´ Y - n . Y
= _________________________
2
_2
ΣY - n . Y
. 100
___________
|
2
|
X´ Y = - |
R
\ |
_____
\|
100
EXEMPLO DE REGRESÃO LINEAR
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
15
Método dos Mínimos Quadrados
x
y
825
215
1.070
550
480
920
1.350
325
670
1.215
7.620
somatório
x =
y =
3,5
1,0
4,0
2,0
1,0
3,0
4,5
1,5
3,0
5,0
28,5
x2
680.625
46.225
1.144.900
302.500
230.400
846.400
1.822.500
105.625
448.900
1.476.225
7.104.300
y2
12,25
1,00
16,00
4,00
1,00
9,00
20,25
2,25
9,00
25,00
99,75
x.y
2.887,5
215,0
4.280,0
1.100,0
480,0
2.760,0
6.075,0
487,5
2.010,0
6.075,0
26.370,0
762
2,85
correlação:
rxy =
S xy -
(Sx.Sy)
n
(Sx2- (Sx)2).(Sy2-(Sy)2)
n
n
rxy =
26.370-
(7.620 . 28,5)
10
(7.104.300- (58.064.400)).(99,75-812,25)
10
10
rxy = 0,95
positiva e forte
equação de regressão:
b = Sxy - n (x).(y)
Sx2 - n (x)2
b = 0,003
a = y - bx
a = 0,5
b=26.370 - 10(762).(2,85)
7.104.300 - 10(762)2
0,0036
a = 2,85 - 0,003 . 762
0,564
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
16
y = a + bx
EXEMPLO
Uma empresa levantou os seguintes dados para avaliar as suas vendas e
os gastos
com promoção.
x
y
gastos com
promoção
vendas
em
em US$1.000
US$milhões
1º ano
140
200
238
270
300
400
450
1.998
2º ano
3º ano
4º ano
5º ano
6º ano
7º ano
somatório
50
57
67
69
77
85
86
491
x2
y2
19.600
40.000
56.644
72.900
90.000
160.000
202.500
641.644
2.500
3.249
4.489
4.761
5.929
7.225
7.396
35.549
x.y
7.000
11.400
15.946
18.630
23.100
34.000
38.700
148.776
1 - De quantos milhões seriam as vendas, se a empresa aplicar US$
600.000,
em promoção?
2 - Qual a confiabilidade da projeção, justifique a sua resposta?
x =
y =
285,4
70,1
correlação:
rxy =
S xy -
(Sx.Sy)
n
(Sx2- (Sx)2).(Sy2-(Sy)2)
n
n
rxy = 0,97
positiva e forte
equação de regressão:
b = Sxy - n (x).(y)
Sx2 - n (x)2
b = 0,1
a = y - bx
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
17
a = 41,6
erro padrão:
Sxy =
Sy2 - aSy - bSxy
n - 2
Sxy = 7
poder explicativo da regressão:
R2 = aSy + bSxy - ny2
Sy2 - ny2
. 100
R2 = 77,8%
alto poder explicativo
equação de projeção:
y = a + bx
y =
101,6 milhões
Respostas:
1 - As vendas seriam US$ 101,6 milhões.
2 - A confiablidade é alta, devido ao alto poder explicativo.
EXEMPLO
NÚMERO 2
A tabela a seguir mostra uma relação entre a nota final de
estatística
e o número de horas que os alunos estudaram.
y
x
x2
x.y
notas
horas
y2
estudo
81
900
270
9
30
64
625
200
8
25
49
400
140
7
20
36
225
90
6
15
25
196
70
5
14
16
196
56
4
14
9
100
30
3
10
4
25
10
2
5
1
9
3
1
3
somatório
285
2.676
869
45
136
Pede-se:
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
18
1 - Existe relação entre as duas variáveis acima? Justifique.
2 - Identifique a variável explicativa e analise a tabela pelo método
dos
mínimos quadrados.
3 - Analise a confiabilidade do modelo para projeção.
4 - Quantas horas o aluno precisa estudar para tirar a
nota:
a - 10
b - 5,5
c - 0
correlação:
(Sx.Sy)
S xy n
rxy =
(Sx2- (Sx)2).(Sy2-(Sy)2)
n
n
rxy = 0,98
positiva e forte
média:
x =
y =
15,1
5,0
equação de regressão linear:
b = Sxy - n (x).(y)
Sx2 - n (x)2
b = 0,3
a = y - bx
a = 0,5
y = a + bx
para nota 10
para nota 5,5
para nota 0
x= 31,7
x= 16,7
x= -1,7
erro padrão:
Sxy =
Sy2 - aSy - bSxy
n - 2
Sxy = 0,5
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
19
poder explicativo da regressão:
R2 = aSy + bSxy - ny2
Sy2 - ny2
. 100
R2 = 97,0%
alto poder explicativo
Respostas:
1 - Existe, pois a correlação é positiva e forte.
2 - A nota depende das horas, portanto a hora é a variável
explicativa.
3 - A confiabilidade é alta, devido ao alto poder explicativo.
4 - Para tirar:
nota 10 = 31,7 horas
nota 5,5 = 16,7 horas
nota 0 = -1,7 horas
Exercício:
Importação brasileira de matéria-prima de 88 a 94 (fonte: Ordem dos
Economistas)
x
y
ano
quantidade
x2
y2
x.y
(ton)
1988
1989
1990
1991
1992
1993
1
2
3
4
5
6
50
47
35
30
24
10
1
4
9
16
25
36
2.500
2.209
1.225
900
576
100
50
94
105
120
120
60
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
20
1994
7
28
somatório
49
140
16
212
256
7.766
112
661
Informe a projeção para 95 e 96
x =
y =
4,0
30,3
correlação:
rxy =
S xy -
(Sx.Sy)
n
(Sx2- (Sx)2).(Sy2-(Sy)2)
n
n
rxy = -0,96
negativa e forte
equação de regressão:
b = Sxy - n (x).(y)
Sx2 - n (x)2
b = -6,7
a = y - bx
a = 57,1
erro padrão:
Sxy =
Sy2 - aSy - bSxy
n - 2
Sxy = 4
poder explicativo da regressão:
R2 = aSy + bSxy - ny2
Sy2 - ny2
. 100
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
21
R2 = 93,3%
alto poder explicativo
equação de projeção:
y = a + bx
para 95
para 96
y =
y =
3,5
-3,2
EXERCÍCI
O
Relação entre horas contínuas trabalhadas e quantidade de
microcomputadores
com defeito de montagem (fonte: Hardzon)
x
y
horas
quantidade
de micros
x2
y2
x.y
c/defeito
18
12
10
8
6
5
4
63
somatório
324
144
100
64
36
25
16
709
9
8
7
6
5
4
3
42
81
64
49
36
25
16
9
280
162
96
70
48
30
20
12
438
Faça projeção para: 20 horas
15 horas
7 horas
x =
y =
9,0
6,0
correlação:
rxy =
S xy -
(Sx.Sy)
n
(Sx2- (Sx)2).(Sy2-(Sy)2)
n
n
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
22
rxy = 0,95
positiva e forte
equação de regressão:
b = Sxy - n (x).(y)
Sx2 - n (x)2
b = 0,4
a = y - bx
a = 2,4
erro padrão:
Sxy =
Sy2 - aSy - bSxy
n - 2
Sxy = 1
poder explicativo da regressão:
R2 = aSy + bSxy - ny2
Sy2 - ny2
R2 = 85,7%
. 100
alto poder explicativo
equação de projeção:
y = a + bx
para 20 horas ====>
para 15 horas ====>
para 7 horas =====>
10 micros c/defeito
8 micros c/defeito
5 micros c/defeito
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
23
REGRESSÃO LINEAR MÚLTIPLA
A análise de Regressão Linear Múltipla consiste, na realidade, numa extensão da matéria
desenvolvida na primeira parte do curso de “Estatística Aplicada à Administração”, qual
seja, a Regressão Linear Simples. Visto que as idéias e conceitos a serem desenvolvidos
no decorrer do presente estudo se assemelham com a análise de Regressão Linear
Simples, procurar-se-á, na medida do possível, relacionar as duas análises.
A idéia central da análise de Regressão Linear Simples era a de encontrar uma função
(estimada) que descrevesse (de forma mais perfeita possível) o comportamento de uma
variável que estivéssemos interessados em analisar. Para estimarmos esta função,
selecionávamos uma variável explicativa (X), a quela que julgássemos explicar o
máximo possível o comportamento da variável independente (Y), a ser analisada.
No caso da Regressão Linear Múltipla, a diferença fundamental reside no número de
variáveis explicativas, que agora não fica limitada a apenas uma, mas podendo expandir
este número para quantas variáveis explicativas forem necessárias.
No desenvolvimento de nosso curso, utilizaremos o modelo de Regressão Linear
Múltipla com “DUAS” variáveis explicativas; a extensão do modelo, a partir daí, para
três ou mais variáveis explicativas, é imediata, sendo porém, que estes modelos (três ou
mais variáveis) geralmente são estimados por computador, dada a grande dificuldade em
estimalos manualmente.
Quando temos três ou mais variáveis denominamos o processo de REGRESSÃO
MÚLTIPLA; existem também casos de linearização (Hipérbole, Potência, Exponencial,
etc...), porém, nos limitaremos a seguir à “REGRESSÃO LINEAR MÚLTIPLA” com
três variáveis.
Na regressão múltipla não há perfeita multicolinearidade entre os regressores (não existe
relação linear perfeita entre as variáveis).
Ao tratarmos com três variáveis, deixaremos de usar o gráfico plano (X,Y), para nos
referirmos a um diagrama de dispersão de pontos em três dimensões (X, Y, Z); mas o
problema continua sendo o de encontrar um plano (uma reta na regressão linear simples)
que melhor se ajuste, no sentido de menores desvios dos pontos observados.
A técnica matemática utilizada é o “Método dos Mínimos Quadrados”, que é uma
extensão, de forma geral, da técnica utilizada na Regressão Linear Simples.
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
24
O MODELO VERDADEIRO DE R. L. M.
No caso de Regressão Linear Múltipla teremos um plano de regressão, ao invés de uma
reta. Graficamente:
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
25
MODELO ESTIMADO
Dado o fato que sempre trabalhamos com amostras, não podemos conhecer o verdadeiro
modelo, mas apenas uma estimativa deste, além disso não conhecemos o resíduo “Σ” . A
partir de uma particular amostra, procuraremos obter valores estimados dos parâmetros
populacionais.
Temos então: Y = a + b
x
1
+ b
1
+ ε
x
2
1
0
(coef. angular)
= estimativa de declividade relativa à x
(coef. angular)
2
, x
1
#
2
1
2
x
b e b
1
Y = valor estimado de y
a = estimativa do intercepto
b = estimativa de declividade relativa à x
b
, onde:
2
= variáveis explicativas
2
Σ = resíduo (ERRO)
OS PASSOS DA ANÁLISE DE REGRESSÃO MÚLTIPLA
O esquema é análogo ao de Regressão Linear Simples.
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
26
FÓRMULAS
Tabela (sequência)
2
Y;X
;X
1
2
2
; X ; X
2
1
; Y ; X . X ; Y. X ; Y . X
2
1
2
Obs.: Calcular a média aritmética de X
1
, X
1
2
, Y
2
ΣY . ΣX
1
SY = Σ Y . X
1
- ______________
1
n
ΣY . ΣX
2
SY = Σ Y . X
2
- ______________
2
n
2
(ΣX )
2
= ΣX
S
11
1
1
___________
n
ΣX . ΣX
1
SY
12
= SY = Σ (X . X ) 21
1
2
______________
2
n
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
27
2
(ΣX )
2
2
= ΣX
S
-
22
2
___________
n
2
2
= ΣY
S
-
yy
(ΣY)
___________
n
SY . S
1
b
- SY . S
22
2
12
= _____________________________
1
2
S . S
- (S
11
22
SY . S
2
b
)
12
- SY . S
11
1
21
= _____________________________
2
2
S . S
- (S
11
22
)
12
_
_
_
a= Y - b x - b x
1
1
2
2
Poder Explicativo :
b . SY + b . SY
2
1
1
2
2
R = _____________________________
S
yy
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
28
Correlação:
R
xy
___________
|
2 |
= - |
R
\ |
_____
\|
100
EXERCÍCIOS
Analise as seguintes relações pelo método dos mínimos quadrados :
1-) VENDAS (Y)
6
7
15
18
20
23
2-)
Y
128
150
78
162
134
175
208
X1
1
2
3
4
5
6
7
Gastos com tv (x1) Gastos com Jornal (x2)
3
1
4
2
8
3
8
5
10
8
11
6
X2
100
200
300
400
500
600
700
EXEMPLO DE REGRESÃO LINEAR
Método dos Mínimos Quadrados
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
29
x
825
215
1.070
550
480
920
1.350
325
670
1.215
7.620
somatório
x2
y
3,5
1,0
4,0
2,0
1,0
3,0
4,5
1,5
3,0
5,0
28,5
680.625
46.225
1.144.900
302.500
230.400
846.400
1.822.500
105.625
448.900
1.476.225
7.104.300
y2
12,25
1,00
16,00
4,00
1,00
9,00
20,25
2,25
9,00
25,00
99,75
x.y
2.887,5
215,0
4.280,0
1.100,0
480,0
2.760,0
6.075,0
487,5
2.010,0
6.075,0
26.370,0
762
x =
2,85
y =
correlação:
rxy =
S xy -
(Sx.Sy)
n
(Sx2- (Sx)2).(Sy2-(Sy)2)
n
rxy =
26.370-
n
(7.620 . 28,5)
10
(7.104.300- (58.064.400)).(99,75-812,25)
10
10
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
30
rxy = 0,95
positiva e forte
equação de regressão:
b = Sxy - n (x).(y)
b=26.370 10(762).(2,85)
Sx2 - n (x)2
7.104.300 - 10(762)2
b = 0,003
0,0036
a = y - bx
a = 2,85 - 0,003 . 762
a = 0,5
0,564
y = a + bx
EXEMPLO
Uma empresa levantou os seguintes dados para avaliar as suas vendas e os gastos
com promoção.
x
y
1º ano
2º ano
3º ano
4º ano
gastos com
vendas
promoção
em
em US$1.000
US$milhões
140
200
238
270
x2
50
57
67
69
19.600
40.000
56.644
72.900
y2
2.500
3.249
4.489
4.761
x.y
7.000
11.400
15.946
18.630
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
31
5º ano
300
400
450
1.998
6º ano
7º ano
somatório
90.000
160.000
202.500
641.644
77
85
86
491
5.929
7.225
7.396
35.549
23.100
34.000
38.700
148.776
1 - De quantos milhões seriam as vendas, se a empresa aplicar US$ 600.000,
em promoção?
2 - Qual a confiabilidade da projeção, justifique a sua resposta?
285,4
x =
70,1
y =
correlação:
rxy =
S xy -
(Sx.Sy)
n
(Sx2- (Sx)2).(Sy2-(Sy)2)
n
rxy = 0,97
n
positiva e forte
equação de regressão:
b = Sxy - n (x).(y)
Sx2 - n (x)2
b = 0,1
a = y - bx
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
32
a = 41,6
erro padrão:
Sxy =
Sy2 - aSy - bSxy
n - 2
Sxy = 7
poder explicativo da regressão:
R2 = aSy + bSxy - ny2
2
. 100
2
Sy - ny
R2 = 77,8%
alto poder explicativo
equação de projeção:
y = a + bx
101,6 milhões
y =
Respostas:
1 - As vendas seriam US$ 101,6 milhões.
2 - A confiablidade é alta, devido ao alto poder explicativo.
EXEMPLO
NÚMERO 2
A tabela a seguir mostra uma relação entre a nota final de estatística
e o número de horas que os alunos estudaram.
y
x
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
somatório
33
notas
horas
9
8
7
6
5
4
3
2
1
45
estudo
30
25
20
15
14
14
10
5
3
136
y2
x2
81
64
49
36
25
16
9
4
1
285
900
625
400
225
196
196
100
25
9
2.676
x.y
270
200
140
90
70
56
30
10
3
869
Pede-se:
1 - Existe relação entre as duas variáveis acima? Justifique.
2 - Identifique a variável explicativa e analise a tabela pelo método dos
mínimos quadrados.
3 - Analise a confiabilidade do modelo para projeção.
4 - Quantas horas o aluno precisa estudar para tirar a nota:
a - 10
b - 5,5
c - 0
correlação:
rxy =
S xy -
(Sx.Sy)
n
(Sx2- (Sx)2).(Sy2-(Sy)2)
n
rxy = 0,98
n
positiva e forte
média:
15,1
x =
5,0
y =
equação de regressão linear:
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
34
b = Sxy - n (x).(y)
Sx2 - n (x)2
b = 0,3
a = y - bx
a = 0,5
y = a + bx
para nota 10
para nota
5,5
x= 31,7
x= 16,7
para nota 0
x= -1,7
erro padrão:
Sxy =
Sy2 - aSy - bSxy
n - 2
Sxy = 0,5
poder explicativo da regressão:
R2 = aSy + bSxy - ny2
2
. 100
2
Sy - ny
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
35
R2 = 97,0%
alto poder explicativo
Respostas:
1
2
3
4
-
Existe, pois a correlação é positiva e forte.
A nota depende das horas, portanto a hora é a variável explicativa.
A confiabilidade é alta, devido ao alto poder explicativo.
Para tirar:
nota 10 = 31,7 horas
nota 5,5 = 16,7 horas
nota 0 = -1,7 horas
Exercício:
Importação brasileira de matéria-prima de 88 a 94 (fonte: Ordem dos Economistas)
x
y
ano
quantidade
x2
y2
x.y
(ton)
1988
1989
1990
1991
1992
1993
1
2
3
4
5
6
50
47
35
30
24
10
1
4
9
16
25
36
2.500
2.209
1.225
900
576
100
50
94
105
120
120
60
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
36
1994
somatório
7
28
49
140
16
212
256
7.766
112
661
Informe a projeção para 95 e 96
4,0
x =
30,3
y =
correlação:
rxy =
S xy -
(Sx.Sy)
n
(Sx2- (Sx)2).(Sy2-(Sy)2)
n
rxy = -0,96
n
negativa e forte
equação de regressão:
b = Sxy - n (x).(y)
Sx2 - n (x)2
b = -6,7
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
37
a = y - bx
a = 57,1
erro padrão:
Sxy =
Sy2 - aSy - bSxy
n - 2
Sxy = 4
poder explicativo da regressão:
R2 = aSy + bSxy - ny2
. 100
Sy2 - ny2
R2 = 93,3%
alto poder explicativo
equação de projeção:
y = a + bx
para 95
3,5
y =
para 96
-3,2
y =
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
38
EXERCÍCIO
Relação entre horas contínuas trabalhadas e quantidade de microcomputadores
com defeito de montagem (fonte: Hardzon)
x
y
quantidade
horas
x2
de micros
y2
x.y
c/defeito
18
12
10
8
6
5
4
63
somatório
Faça projeção para:
324
144
100
64
36
25
16
709
9
8
7
6
5
4
3
42
81
64
49
36
25
16
9
280
162
96
70
48
30
20
12
438
20 horas
15 horas
7 horas
9,0
x =
6,0
y =
correlação:
rxy =
S xy -
(Sx.Sy)
n
(Sx2- (Sx)2).(Sy2-(Sy)2)
n
rxy = 0,95
n
positiva e forte
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
39
equação de regressão:
b = Sxy - n (x).(y)
Sx2 - n (x)2
b = 0,4
a = y - bx
a = 2,4
erro padrão:
Sxy =
Sy2 - aSy - bSxy
n - 2
Sxy = 1
poder explicativo da regressão:
R2 = aSy + bSxy - ny2
2
. 100
2
Sy - ny
R2 = 85,7%
alto poder explicativo
equação de projeção:
y = a + bx
Prof. Ms. Antonio Carlos de Oliveira Capitão
E4
para 20 horas ====>
para 15 horas ====>
para 7 horas =====>
40
10 micros c/defeito
8 micros c/defeito
5 micros c/defeito
Prof. Ms. Antonio Carlos de Oliveira Capitão
Download

I - CONCEITO DE ECONOMETRIA