Variáveis explanatórias qualitativas
Exemplos de variáveis explanatórias qualitativas: compras (sim; não),
sexo (masculino e feminino), tipo de firma (valores, ações, capital e
comercial), regiões (nordeste, centro e sul), estação do ano (verão,
outono, inverno e primavera).
Vamos incorporar este tipo de variável no modelo de regressão.
Uma variável preditora qualitativa
Um economista deseja relacionar a velocidade com que um novo seguro é
adotado (Y) com o tamanho da firma (X1) e o tipo de firma. A variável
resposta é medida em número de meses passados entre o tempo que a
primeira firma adotou a inovação e o tempo que uma dada firma adotou. A
variável X1 é dada em milhões de dólares. A segunda variável preditora é
qualitativa e é dada em duas classes: firmas de capital, valores e firmas
comerciais. Para que a variável qualitativa possa ser usada no modelo, devese usar indicadores quantitativos(variáveis indicadoras) para as classes da
mesma.
1
Variáveis indicadoras (dummy, binárias)
Dentre outras formas de indicar quantitativamente as classes de uma variável
qualitativa, usaremos as variáveis indicadoras que tomam os valores 0 e 1. Estas
variáveis indicadoras são fáceis de serem usadas e são amplamente utilizadas.
Para o exemplo da inovação de um seguro, onde a variável qualitativa tem duas
classes, podemos definir duas variáveis indicadoras, X2 e X3 do seguinte modo:
1
X2  
0
firma de capital
outros casos
1
X3  
0
firma de comércio
outros casos
Para o exemplo, pensaríamos em usar um modelo de primeira ordem, dado por:
Yi  0  1 X i1  2 X i 2  3 X i 3  i (1)
2
Esta abordagem intuitiva de designar variáveis indicadoras para cada classe da
variável qualitativa, infelizmente, nos traz grandes dificuldades computacionais. Por
exemplo, suponha que temos n=4 observações, as primeiras duas sendo para firmas
de capital (X2=1 e X3=0), e as duas últimas sendo para firmas de comércio (X2=0 e
X3=1). A matriz de delineamento X, fica:
X1
1
1
X
1

1
X2 X3
X 11 1 0
X 21 1 0

X 31 0 1

X 41 0 1
Note que a primeira coluna é igual a soma da terceira com a quarta. Portanto, as
colunas são linearmente dependentes. Isto tem um efeito sério sobre a matriz X’X:
3
 1
X
X' X   11
 1

 0
 4

4
  X i1
X' X  i 1
 2


 2

1
X 21
1
0
1  1
X 41 1

0  1

1  1
1
X 31
0
1
4
 X i1
i 1
4

i 1
2
X i21
2
2
 X i1
i 1
 X i1
2
 X i1
0
i 1
4
i 3
X 11 1 0
X 21 1 0

X 31 0 1

X 41 0 1
2 

4
 X i1 
i 3

0 


2 

Observamos que a primeira coluna de X’X é igual a soma das colunas 3 e 4, isto
implica que as colunas são linearmente dependentes. Portanto, a matriz X’X não
tem inversa regular e não temos uma solução única para os estimadores dos
coeficientes de regressão.
4
Uma maneira simples de resolver este problema é retirar uma das variáveis
indicadoras. No exemplo, podemos retirar a variável X3. Este procedimento nos
leva a interpretações mais simples dos parâmetros do modelo. Em geral, vamos
seguir o seguinte procedimento:
•Uma variável qualitativa com c classes será representada por c-1 variáveis
indicadoras, cada uma delas recebendo os valores 0 e 1.
Interpretação dos coeficientes de regressão
Retornando ao exemplo do seguro, suponha que nós retiramos a variável
indicadora X3 do modelo de regressão, assim o modelo fica:
Yi  0  1 X i1  2 X i 2  i (2)
Onde: Xi1= tamanho da firma e Xi2=1 se for firma de capital e Xi2= 0 em
outros casos. A função de resposta para este modelo é dada por:
E(Y )  0  1 X1  2 X 2
(3)
5
Para entender o significado dos coeficientes de regressão neste modelo,
considere, primeiramente, o caso da firma comercial. Para esta firma X2=0 e a
função de resposta fica:
E(Y )  0  1 X1  2 (0)  0  1 X1 (4)
Observamos que, para a firma comercial temos a equação de uma reta, com
intercepto 0 e coeficiente angular 1. Esta função é ilustrada na figura.
Y
2
Função resposta firma capital
E(Y )  ( 0  2 )  1 X1
Função de regressão
para firma comercial
0  2
E (Y )  0  1 X1
0
0
Tamanho da firma
X1
6
Para a firma de capital, X2=1 a função de resposta (3) é dada por:
E(Y )  0  1 X1  2 (1)  ( 0  2 )  1 X1 (5)
Também temos a equação de uma reta, com mesmo coeficiente angular, 1, mas
com intercepto Y dado por (0+2) . Esta função de resposta também está
indicada na figura.
Exemplo (continuação do exemplo do novo seguro): vimos, na função resposta
(3), que o tempo médio passado antes da inovação ser adotada, E(Y), é uma
função linear do tamanho da firma (X1), com o mesmo coeficiente angular, 1,
para ambas as firmas. O parâmetro 2 indica quanto maior (ou menor) é a função
de resposta para a firma de capitais do que a firma comercial, para qualquer
tamanho da firma. Portanto, 2 é um diferencial do efeito do tipo de firma.
De modo geral, 2 mostra o quanto é maior (ou menor) a resposta média para a
classe com código 1 do que a resposta com o código 0, para qualquer nível de X1.
Para o exemplo de seguros, o economista estudou 10 firmas de comércio e 10
firmas de capitais. Os resultados são dados na tabela a seguir.
7
Dados do exemplo de seguros
(1)
(2)
(3)
Firma
Número de Tamanho da Tipo de firma
meses
firma
i
Yi
Xi1
1
17
151 Comercial
2
26
92 Comercial
3
21
175 Comercial
4
30
31 Comercial
5
22
104 Comercial
6
0
277 Comercial
7
12
210 Comercial
8
19
120 Comercial
9
4
290 Comercial
10
16
238 Comercial
11
28
164
Capitais
12
15
272
Capitais
13
11
295
Capitais
14
38
68
Capitais
15
31
85
Capitais
16
21
224
Capitais
17
20
166
Capitais
18
13
305
Capitais
19
30
124
Capitais
20
14
246
Capitais
(4)
Variável
codificada
Xi2
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
(5)
Xi1Xi2
0
0
0
0
0
0
0
0
0
0
164
272
295
68
85
224
166
305
124
246
8
Uso do SAS para ajustar o modelo:
Yi  0  1 X i1  2 X i 2  i (6)
data seguros;
input numero tamanho tipo $ 15-28
datalines;
17
151
Comercial
0
26
92
Comercial
0
21
175
Comercial
0
30
31
Comercial
0
22
104
Comercial
0
0
277
Comercial
0
12
210
Comercial
0
19
120
Comercial
0
4
290
Comercial
0
16
238
Comercial
0
28
164
Capitais
1
15
272
Capitais
1
11
295
Capitais
1
38
68
Capitais
1
31
85
Capitais
1
21
224
Capitais
1
20
166
Capitais
1
13
305
Capitais
1
30
124
Capitais
1
14
246
Capitais
1
;
codigo interaca;
0
0
0
0
0
0
0
0
0
0
164
272
295
68
85
224
166
305
124
246
9
proc print data=seguros;
run;
proc reg data=seguros;
model numero = tamanho codigo/ss1 covb;
title 'Analise de regressao com variaveis preditoras qualitativas';
run;
Saída do SAS (Output)
Dependent Variable: NUMERO
Analysis of Variance
Source
DF
Sum of
Squares
Model
Error
C Total
2
17
19
1504.41333
176.38667
1680.80000
Root MSE
Dep Mean
C.V.
3.22113
19.40000
16.60377
Mean
Square
752.20667
10.37569
R-square
Adj R-sq
F Value
Prob>F
72.497
0.0001
0.8951
0.8827
10
Continuação da saída do SAS.
Parameter Estimates
Variable
DF
Parameter
Estimate
INTERCEP
TAMANHO
CODIGO
1
1
1
33.874069
-0.101742
8.055469
Standard T for H0:
Error
Parameter=0
1.81385830
0.00889122
1.45910570
Prob > |T|
18.675
-11.443
5.521
0.0001
0.0001
0.0001
Type I SS
7527.200000
1188.167362
316.245973
Covariance of Estimates
COVB
INTERCEP
TAMANHO
CODIGO
INTERCEP
3.2900819221
-0.013344273
-0.689283091
TAMANHO
-0.013344273
0.0000790538
-0.002063303
CODIGO
-0.689283091
-0.002063303
2.1289894452
O modelo ajustado é dado por:
Yˆ  33,8741 0,1017X1  8,0555X 2
(7)
11
Yˆ  (33,87407  8,05547)  0,10174 X1
Yˆ  33,87407  0,10174 X1
A figura
contém a
função de
resposta
ajustada para
cada tipo de
firma,
juntamente
com os valores
observados
O economista está mais interessado no tipo de firma (X2) sobre o tempo
necessário para a inovação ser adotada e, assim, deseja construir um intervalo de
confiança para 2. Com o auxílio do programa STATISTICA obtemos o valor de
t=2,109815 com 17 graus de liberdade e  =0,05. Usando os resultados da saída
do SAS, o intervalo de confiança é dado por:
12
8,05547  2,110(1,45911)
4,98   2  11,13
Concluímos que a companhia de capitais tende a adotar a inovação num tempo
entre aproximadamente 5 e 11 meses depois, em média, da companhia de
comércio, para qualquer tamanho de companhia, com 95% de confiança.
Exercício: construir o intervalo de confiança de 95% para o parâmetro 1.
Interpretar.
Exercício: o economista decide realizar o seguinte teste de hipótese sobre
2, ao nível de significância de 5%,
H 0 : 2  0
H a : 2  0
(8)
Qual a conclusão do pesquisador?
13
Abordagem matricial (passo a passo)
 17 
 26 
 
 21 
 
30 
 22 
 
 0
12 
 
19 
4 
 
16 
Y  
28
 
15 
11 
 
38 
31 
 
 21 
 
 20 
13 
 
30 
14 
1
1

1

1
1

1
1

1
1

1
X
1

1
1

1
1

1

1
1

1
1
151 0
92 0

175 0

31 0
104 0

277 0
210 0

120 0
290 0

238 0
164 1

272 1
295 1

68 1
85 1
224 1

166 1
305 1

124 1
246 1
3637
 20
X' X  3637 796043

1949
 10
10 
1949 

10 
Y 'Y  9208
 388 
X'Y  57909 


 221
 0.3171 - 0.001286 - 0.0664 
(X'X)1  - 0.0013 7.6191E - 6 - 0.0002


- 0.0664 - 0.000199 0.2052 
14
33.874069 
b  ( X' X) 1 X'Y  - 0.101742 


 8.0554692
Os valores ajustados e os resíduos
são dados por:
18.51101 
24.513794 


16.069199 


30.720063 
23.292889 


 5.6915031
12.508225 


21.665015 
 4.3688556 


9.6594456 

ˆ  Xb 
Y
25.243831 


14.255683 
11.915614 


35.011074 
33.281458 


19.139304 


25.040347 
10.898193 


29.313516 
16.900978 
- 1.51101 
 1.4862056 


 4.9308011 


- 0.720063 
- 1.292889 


- 5.691503 
- 0.508225 


- 2.665015 
- 0.368856 


6.3405544 
ˆ  Y  HY  (I  H )Y  
eYY
 2.7561686 


 0.7443171 
- 0.915614 


 2.9889256 
- 2.281458 


 1.8606956 


- 5.040347 
 2.1018069 


 0.686484 
- 2.900978 
15
Análise de variância
(  Yi ) 2
n
O termo da correção vale:
Soma de quadrados total:
 ( 1n )Y' JY  7527.2
SQTO  Y'Y  ( 1n )Y'JY  1680.8
Soma de quadrados da regressão:
SQR  b'X'Y  ( 1n )Y'JY  1504.4133
Soma de quadrados do erro:
SQE  Y'Y  b'X'Y  176.38667
Estimativa da matriz de variância-covariância de b:
10  3.2914 - 0.0134 - 0.6896 
 20 3637
σ 2 (b)  QME ( X'X)1  10,383637 796043 1949  - 0.0134 0.0001 - 0.0021 

 

1949
10  - 0.6896 - 0.0021 2.1299
 10
16
Os desvios padrões das estimativas dos parâmetros valem:
O programa SAS.
1.8142353 
s(b)   0.0088931


1.459409 
proc iml;
reset print;
use seguros;
setin seguros;
read all var{numero tamanho codigo interaca};
close;
um={1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1};
x=(um||tamanho||codigo);
xlx=x`*x;
yly=numero`*numero;
xly=x`*numero;
xlxinv=inv(xlx);
17
Continuação do programa SAS
b=xlxinv*xly;
yhat=x*b;
residuos=numero-yhat;
residuos=residuos`;
uns=j(20);
correcao=(1/20)*numero`*uns*numero;
sqtotal=(numero`*numero)-correcao;
sqregre=(b`*x`*numero)-correcao;
sqerro=(numero`*numero)-(b`*x`*numero);
varcov=10.38#xlxinv; /* qme=176,387/17=10,38 */
desvio=varcov##0.5;
quit;
18
Modelo contendo o efeito da interação
O economista começou a análise estatística com um modelo que contempla a
interação entre o tamanho e o tipo da firma sobre a variável resposta.
O modelo com interação:
Yi  0  1 X i1  2 X i 2  3 X i1 X i 2  i
(9)
Onde:
X i1  tamanho da firma
1
X i2  
0
para firma de capitais
outros casos
A função de regressão para o modelo com interação é:
E(Yi )  0  1 X i1  2 X i 2  3 X i1 X i 2
(10)
Interação
(produto cruzado)
19
Significado dos coeficientes de regressão
Para firma de comércio
Para firma de comércio temos X2=0 e assim, X1X2=0, assim, a função de resposta
(10) fica:
E(Yi )  0  1 X i1  2 (0)  3 (0)  0  1 X1 (11)
Para firma de capitais
Para firma de capitais temos X2=1 e assim, X1X2=X1, assim, a função de resposta
(10) fica:
E (Yi )  0  1 X i1  2 (1)  3 X i1
(12)
E (Yi )  ( 0  2 )  ( 1  3 ) X i1
(13)
Coef. linear Coef. angular
Estas funções de resposta são mostradas na figura a seguir:
20
Y = Número de meses passados
Y
E (Y )  (  0   2 )  ( 1   3 ) X 1
2
E (Y )   0  1 X 1
0  2
Firma
comercial
0
Firma de
capitais
0
X1
Tamanho da firma
Nós vimos que 2 indica o quanto é maior (ou menor) o intercepto da função de resposta
para a classe com o código 1 (firma de capitais) do que a classe com o código 0
(comercial). Da mesma forma, 3 indica quanto é maior (ou menor) o coeficiente
angular da função resposta para a classe com código 1 do que a classe com código 0.
Como tanto o intercepto como o coeficiente angular são diferentes para as duas classes
no modelo de regressão (9), não podemos fazer a afirmação acima para 2 para qualquer
21
nível de X1.
Pela figura observamos que o efeito do tipo de firma, no modelo (9), depende do
tamanho da mesma. Para firmas pequenas, as companhias de comércio adotam a
inovação mais rapidamente, porém, para firmas maiores, as companhias de capitais
adotam a inovação antes do que as de comércio. É o efeito da interação.
Exercício: na figura abaixo, verifique se existe interação e justifique.
Y
Número de meses passados
Capitais
Comercial
0
X1
Tamanho da firma
22
Exemplo (continuação do exemplo de seguros). O economista, inicialmente,
deseja ajustar o modelo com interação (9). Usando o SAS, os resultados do
ajuste deste modelo são:
Source
DF
Sum of
Squares
Model
Error
C Total
3
16
19
1504.41904
176.38096
1680.80000
Mean
Square
501.47301
11.02381
F Value
Prob>F
45.490
0.0001
Parameter Estimates
Variable
DF
Parameter
Estimate
INTERCEP
TAMANHO
CODIGO
INTERACA
1
1
1
1
33.838369
-0.101531
8.131250
-0.000417
Standard
Error
2.44064985
0.01305254
3.65405169
0.01833121
T for H0:
Parameter=0
13.864
-7.779
2.225
-0.023
Prob > |T|
0.0001
0.0001
0.0408
0.9821
Type I SS
7527.200000
1188.167362
316.245973
0.005708
23
Exercício: desejamos testar a hipótese de que as duas funções de regressão são
idênticas, ou seja:
H 0 :  2  3  0
H a : pelo menos um é diferente de zero
O teste estatístico:
F* 
SQR ( X 2 , X 1 X 2 | X 1 )
2

SQE ( X 1 , X 2 , X 1 X 2 )
n4
Onde:
SQR ( X 2 , X 1 X 2 | X 1 )  SQR ( X 2 | X 1 )  SQR ( X 1 X 2 | X 1, X 2 )
 316.245973  0.005708
 316,251681
O valor do teste é:
176,38096
158,125840 5
F  316,251681


 14,3440
2
16
11,02381
*
P(F>14,3440)=0,000270. Portanto, rejeita-se a hipótese nula.
24
Exercício: faça uma conclusão para o teste da presença da interação no modelo:
H 0 : 3  0
H a : 3  0
25
Modelos mais complexos
Uma variável qualitativa com mais de 2 classes
Exemplo: vamos considerar a regressão da durabilidade de uma ferramenta (Y),
sobre a velocidade (X1) e o modelo da ferramenta, onde, esta é uma variável
qualitativa com 4 classes (M1, M2, M3, M4). Para trabalhar com esta variável
precisamos definir as seguintes variáveis indicadoras:
1
X2  
0
1
X3  
0
para o m odelo2
outroscasos
1
X4  
0
para o m odelo3
outroscasos
para o m odelo1
outroscasos
26
Modelo de primeira ordem
Yi  0  1 X i1  2 X i 2  3 X i 3  4 X i 4  i
(14)
Para este modelo, a forma de entrada das variáveis X no modelo é:
Modelo
M1
M2
M3
M4
X1
Xi1
Xi2
Xi3
Xi4
X2
1
0
0
0
X3
0
1
0
0
X4
0
0
1
0
A função de resposta para o modelo (14), é:
E(Yi )  0  1 X i1  2 X i 2  3 X i 3  4 X i 4
(15)
Interpretação dos coeficientes de regressão
Para o modelo 1, isto é, X2=1, X3=0, X4=0, a função resposta (15) fica:
E(Y )  0  1 X1  2 (1)  ( 0  2 )  1 X1 (16)
27
Para o modelo 2, isto é, X2=0, X3=1, X4=0
E(Y )  0  1 X1  3 (1)  ( 0  3 )  1 X1
(17)
Para o modelo 3, isto é, X2=0, X3=0, X4=1
E(Y )  0  1 X1  4 (1)  ( 0  4 )  1 X1 (18)
Para o modelo 4, isto é, X2=0, X3=0, X4=0
E(Y )  0  1 X1 (19)
A função de resposta (15) significa que a regressão da durabilidade da ferramenta
sobre a velocidade é linear, com o mesmo coeficiente angular para os 4 modelos. Os
coeficientes 2, 3 e 4, indicam, respectivamente, quanto maior (ou menor) é a
função resposta dos modelos 1, 2 e 3, do que o modelo 4, para qualquer nível de
velocidade. Assim, estes parâmetros medem o efeito diferencial dos modelos,
comparado com o modelo 4 (X2=0, X3=0, X4=0).
28
Ilustração das funções respostas (uma possibilidade)
Y
Modelo 3
E (Y )  (  0   4 )  1 X1
Modelo 2
E (Y )  (  0  3 )  1 X1
E (Y )   0  1 X 1
`4
Modelo 4
3
Modelo 1
2
0
0
E (Y )  (  0   2 )  1 X1
X1
Velocidade
29
Para o modelo (14), podemos querer estimar, por exemplo, o efeito diferencial
de 4-3, isto é, quanto maior (ou menor) é a função resposta para o modelo M3
do que o modelo M2, para qualquer nível de velocidade. A estimativa pontual
é: b4 - b3 e a estimativa da variância deste estimador:
s2 (b4  b3 )  s2 (b4 )  s2 (b3 )  2s(b4 , b3 ) (20)
As variâncias-covariâncias podem ser diretamente obtidas da matriz de variânciacovariância dos coeficientes de regressão.
** Nota: Modelo de 1a. Ordem (14) com interação. Neste caso, cada modelo tem sua
própria função de regressão, com diferentes interceptos e coeficientes angulares.
Mais do que uma variável qualitativa preditora
Exemplo: vamos considera a regressão dos gastos com propaganda (Y) sobre as
vendas (X1), o tipo de firma (associadas, não-associadas) e qualidade dos gerentes
(baixa e alta). Podemos definir:
1
X2  
0
associadas
outros casos
1
X3  
0
qualidade gerência alta
outros casos
30
Podemos ajustar modelos de primeira ordem ou modelos de primeira ordem
com interação:
Yi  0  1 X i1  2 X i 2  3 X i 3   i (21)
Yi  0  1 X i1  2 X i 2  3 X i 3  4 X i1 X i 2  5 X i1 X i 3  6 X i 2 X i 3   i (22)
O modelo (21) significa num relacionamento linear entre o gasto com
propaganda e as vendas. Ainda, no modelo (21) temos modelos com diferentes
coeficientes lineares e mesmo coeficiente angular.
Para o modelo (22) considere: 1 - não associado (X2=0) e alta qualidade (X3=1)
2- associado (X2=1) e alta qualidade (X3=1)
Yi   0  1 X i1   3   5 X i1   i
Yi  (  0   3 )  ( 1   5 ) X i1   i
Yi   0  1 X i1   2   3   4 X i1   5 X i1   6   i
Yi  (  0   2   3   6 )  ( 1   4   5 ) X i1   i
31
Comparação entre duas ou mais funções de
regressão
Freqüêntemente encontramos modelos de regressão para duas ou mais
populações e desejamos estudar suas similaridades e diferenças.
Exemplo 1: uma empresa opera duas linhas de produção para fazer sabão em
barras. Foram feitas regressões da velocidade e a quantidade de restos para
diversos dias. Num estudo exploratório sugere-se que os coeficientes angulares
sejam similares, porém, os coeficientes lineares devem ser diferentes. Desejase realizar um teste para verificar se os dois modelos de regressão são
idênticos.
32
Exemplo 2: um economista está fazendo um estudo da quantidade
economizada e a renda de famílias de classe média, nas áreas urbanas e rural.
Foram ajustados dois modelos de regressão linear simples. O economista
deseja comparar se, para um dado nível de renda, as famílias urbanas e rurais
tendem a economizar a mesma quantidade, isto é, ele deseja saber se os
coeficientes lineares e angulares são os mesmos. Também, poderia desejar
estudar se os dois coeficientes angulares são iguais.
• Assume-se que as variâncias nos modelos de regressão para as diferentes
populações sejam iguais. Assim, usamos variáveis indicadoras para testar a
igualdade das diferentes funções de regressão. Obs. Pode-se usar transformação.
• Consideramos as diferentes populações como classes da variável preditora,
vamos definir variáveis indicadoras para as diferentes populações, e desenvolver
um modelo de regressão que contenha termos apropriados de interação.
Exemplo: Os dados de quantidade de restos (Y) e velocidade (X1) para as linhas
de produção de sabão são apresentados na tabela a seguir. A variável X2 está
codificada para o tipo de linha de produção. O diagrama de dispersão é dado na
figura a seguir.
33
Dados para produção de sabão
Linha de produção 1
Linha de produção 2
Observação Restos Velocidade
Observação Restos Velocidade
i
Yi
Xi1
Xi2
i
Yi
Xi1
1
218
100
1
15
367
265
2
248
125
1
16
140
105
3
360
220
1
17
277
215
4
351
205
1
18
384
270
5
470
300
1
19
341
255
6
394
255
1
20
215
175
7
332
225
1
21
180
135
8
321
175
1
22
260
200
9
410
270
1
23
361
275
10
260
170
1
24
252
155
11
241
155
1
25
422
320
12
331
190
1
26
273
190
13
275
140
1
27
410
295
14
425
290
1
Xi2
1
0
0
0
0
0
0
0
0
0
0
0
0
34
Linha Prod. 1
Linha Prod. 2
Modelo de pesquisa: vamos usar um modelo linear de Y sobre X1. Vamos
considerar um modelo que permita-nos ter dois diferentes coeficientes angulares
e dois diferentes interceptos.
Yi  0  1 X i1  2 X i 2  3 X i1 X i 2  i (23)
Onde:
X i1  velo cid ad e
1
X i2  
0
linh a d e p rod ução1
linh a d e p rod ução2
35
Com o auxílio do programa SAS, obtemos os resultados
para o modelo (23):
Dependent Variable: RESIDUO
Analysis of Variance
Source
DF
Sum of
Squares
Mean
Square
Model
Error
C Total
3 169164.68382
23
9904.05692
26 179068.74074
56388.22794
430.61117
Root MSE
Dep Mean
C.V.
20.75117
315.48148
6.57762
R-square
Adj R-sq
F Value
Prob>F
130.949
0.0001
0.9447
0.9375
Parameter Estimates
Variable
DF
Parameter
Estimate
INTERCEP
VELOCIDA
CODIGO
X1X2
1
1
1
1
7.574465
1.322049
90.390863
-0.176661
Standard
Error
T for H0:
Parameter=0
Prob > |T|
Type I SS
20.86969786
0.09262470
28.34573199
0.12883773
0.363
14.273
3.189
-1.371
0.7200
0.0001
0.0041
0.1835
2687271
149661
18694
809.622579
36
O modelo de regressão ajustado aos dados é:
Yˆ  7,57  1,322X1  90,39X 2  0,1767X1 X 2 (24)
Exercício: verifique, no output do SAS, se o ajuste do modelo está bom .
O gráfico dos resíduos versus valores ajustados nos indica que as variâncias
dos erros são similares.
Poderia fazer dois
gráficos para
facilitar o
diagnóstico de
possíveis diferenças
entre as duas
populações.
37
38
Inferências sobre as duas linhas de regressão
1. Identidade das funções de regressão para as duas linhas de produção.
Desejamos verificar se os dois parâmetros são os mesmos para as duas linhas
de produção, ou seja, desejamos estudar as hipóteses:
H 0 :  2  3  0
(25)
H a : pelo menosum difere de zero
O teste estatístico é dado por:
F 
*
SQR ( X 2 , X1 X 2 | X1 )
2

SQE ( X1 , X 2 , X1 X 2 )
n 4
(26)
Usando os resultados da saída do SAS, obtemos:
39
SQR( X 2 , X 1 X 2 | X 1 )  SQR( X 2 | X 1 )  SQR( X 1 X 2 | X 1 , X 2 )
 18694 809.622579
 19503,6226
F 
*
19503,6226
2

9904,05692
23
 22,65
P(F>22,65)=0,000004. Portanto, rejeita-se a hipótese nula e concluímos
que as funções de regressão para as duas linhas de produção não são as
mesmas.
2. Os coeficientes angulares das funções de regressão para as duas linhas
de produção são os mesmos.
H 0 : 3  0
H a : 3  0
40
F 
*
F 
*
SQR ( X1 X 2 | X1 , X 2 )
1
809.622579
1


SQE ( X1 , X 2 , X1 X 2 )
n4
9904,05692
23
 1,88
P(F>1,88)=0,183565. Portanto, não rejeita-se a hipótese nula e
concluímos que os coeficientes angulares das funções de regressão para
as duas linhas de produção são os mesmos.
41
Outro uso das variáveis indicadoras
Aplicação em Séries Temporais
Um uso de variáveis indicadoras ocorre quando os dados são
mensurados mensalmente, trimestralmente, etc. Suponha que as vendas
trimestrais (Y), tem uma regressão com o tempo e, além disso,
apresentam um efeito sazonal, por exemplo, devido a estação do ano.
Um modelo de primeira ordem, incorporando um efeito sazonal (4
trimestres) é dado por:
Yt  0  1 X t1  2 X t 2  3 X t 3  4 X t 4  i (27)
42
Onde:
X t1  efeito dos trim estres
1
X t2  
0
para o quartotrim estre
para outroscasos
1
X t3  
0
para o terceiro trim estre
para outroscasos
1
X t4  
0
para o segundotrim estre
para outroscasos
Exemplo: os dados na tabela a seguir referem-se a vendas de jóias (Y), nos anos
1957-60, mensuradas trimestralmente.
43
Ano
1957
1957
1957
1957
1958
1958
1958
1958
1959
1959
1959
1959
1960
1960
1960
1960
Vendas (Y)
36
44
45
106
38
46
47
112
42
49
48
118
42
50
51
118
Xt1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Xt2
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
Xt3
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
Xt4
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
Na figura a seguir temos o diagrama de dispersão dos dados.
44
O modelo (24) justado aos dados é dado por:
Yˆ  34,95  0,65X1  72,05X 2  6,95X 3  7,1X 4 (28)
O gráfico a seguir ilustra os valores observados e estimados pelo
modelo (25).
45
Nota: No lugar da variável trimestre, poderia ter, por exemplo, rendimento.
Fazer lista de exercícios número 8.
46
Download

Variáveis explanatórias qualitativas