Variáveis explanatórias qualitativas Exemplos de variáveis explanatórias qualitativas: compras (sim; não), sexo (masculino e feminino), tipo de firma (valores, ações, capital e comercial), regiões (nordeste, centro e sul), estação do ano (verão, outono, inverno e primavera). Vamos incorporar este tipo de variável no modelo de regressão. Uma variável preditora qualitativa Um economista deseja relacionar a velocidade com que um novo seguro é adotado (Y) com o tamanho da firma (X1) e o tipo de firma. A variável resposta é medida em número de meses passados entre o tempo que a primeira firma adotou a inovação e o tempo que uma dada firma adotou. A variável X1 é dada em milhões de dólares. A segunda variável preditora é qualitativa e é dada em duas classes: firmas de capital, valores e firmas comerciais. Para que a variável qualitativa possa ser usada no modelo, devese usar indicadores quantitativos(variáveis indicadoras) para as classes da mesma. 1 Variáveis indicadoras (dummy, binárias) Dentre outras formas de indicar quantitativamente as classes de uma variável qualitativa, usaremos as variáveis indicadoras que tomam os valores 0 e 1. Estas variáveis indicadoras são fáceis de serem usadas e são amplamente utilizadas. Para o exemplo da inovação de um seguro, onde a variável qualitativa tem duas classes, podemos definir duas variáveis indicadoras, X2 e X3 do seguinte modo: 1 X2 0 firma de capital outros casos 1 X3 0 firma de comércio outros casos Para o exemplo, pensaríamos em usar um modelo de primeira ordem, dado por: Yi 0 1 X i1 2 X i 2 3 X i 3 i (1) 2 Esta abordagem intuitiva de designar variáveis indicadoras para cada classe da variável qualitativa, infelizmente, nos traz grandes dificuldades computacionais. Por exemplo, suponha que temos n=4 observações, as primeiras duas sendo para firmas de capital (X2=1 e X3=0), e as duas últimas sendo para firmas de comércio (X2=0 e X3=1). A matriz de delineamento X, fica: X1 1 1 X 1 1 X2 X3 X 11 1 0 X 21 1 0 X 31 0 1 X 41 0 1 Note que a primeira coluna é igual a soma da terceira com a quarta. Portanto, as colunas são linearmente dependentes. Isto tem um efeito sério sobre a matriz X’X: 3 1 X X' X 11 1 0 4 4 X i1 X' X i 1 2 2 1 X 21 1 0 1 1 X 41 1 0 1 1 1 1 X 31 0 1 4 X i1 i 1 4 i 1 2 X i21 2 2 X i1 i 1 X i1 2 X i1 0 i 1 4 i 3 X 11 1 0 X 21 1 0 X 31 0 1 X 41 0 1 2 4 X i1 i 3 0 2 Observamos que a primeira coluna de X’X é igual a soma das colunas 3 e 4, isto implica que as colunas são linearmente dependentes. Portanto, a matriz X’X não tem inversa regular e não temos uma solução única para os estimadores dos coeficientes de regressão. 4 Uma maneira simples de resolver este problema é retirar uma das variáveis indicadoras. No exemplo, podemos retirar a variável X3. Este procedimento nos leva a interpretações mais simples dos parâmetros do modelo. Em geral, vamos seguir o seguinte procedimento: •Uma variável qualitativa com c classes será representada por c-1 variáveis indicadoras, cada uma delas recebendo os valores 0 e 1. Interpretação dos coeficientes de regressão Retornando ao exemplo do seguro, suponha que nós retiramos a variável indicadora X3 do modelo de regressão, assim o modelo fica: Yi 0 1 X i1 2 X i 2 i (2) Onde: Xi1= tamanho da firma e Xi2=1 se for firma de capital e Xi2= 0 em outros casos. A função de resposta para este modelo é dada por: E(Y ) 0 1 X1 2 X 2 (3) 5 Para entender o significado dos coeficientes de regressão neste modelo, considere, primeiramente, o caso da firma comercial. Para esta firma X2=0 e a função de resposta fica: E(Y ) 0 1 X1 2 (0) 0 1 X1 (4) Observamos que, para a firma comercial temos a equação de uma reta, com intercepto 0 e coeficiente angular 1. Esta função é ilustrada na figura. Y 2 Função resposta firma capital E(Y ) ( 0 2 ) 1 X1 Função de regressão para firma comercial 0 2 E (Y ) 0 1 X1 0 0 Tamanho da firma X1 6 Para a firma de capital, X2=1 a função de resposta (3) é dada por: E(Y ) 0 1 X1 2 (1) ( 0 2 ) 1 X1 (5) Também temos a equação de uma reta, com mesmo coeficiente angular, 1, mas com intercepto Y dado por (0+2) . Esta função de resposta também está indicada na figura. Exemplo (continuação do exemplo do novo seguro): vimos, na função resposta (3), que o tempo médio passado antes da inovação ser adotada, E(Y), é uma função linear do tamanho da firma (X1), com o mesmo coeficiente angular, 1, para ambas as firmas. O parâmetro 2 indica quanto maior (ou menor) é a função de resposta para a firma de capitais do que a firma comercial, para qualquer tamanho da firma. Portanto, 2 é um diferencial do efeito do tipo de firma. De modo geral, 2 mostra o quanto é maior (ou menor) a resposta média para a classe com código 1 do que a resposta com o código 0, para qualquer nível de X1. Para o exemplo de seguros, o economista estudou 10 firmas de comércio e 10 firmas de capitais. Os resultados são dados na tabela a seguir. 7 Dados do exemplo de seguros (1) (2) (3) Firma Número de Tamanho da Tipo de firma meses firma i Yi Xi1 1 17 151 Comercial 2 26 92 Comercial 3 21 175 Comercial 4 30 31 Comercial 5 22 104 Comercial 6 0 277 Comercial 7 12 210 Comercial 8 19 120 Comercial 9 4 290 Comercial 10 16 238 Comercial 11 28 164 Capitais 12 15 272 Capitais 13 11 295 Capitais 14 38 68 Capitais 15 31 85 Capitais 16 21 224 Capitais 17 20 166 Capitais 18 13 305 Capitais 19 30 124 Capitais 20 14 246 Capitais (4) Variável codificada Xi2 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 (5) Xi1Xi2 0 0 0 0 0 0 0 0 0 0 164 272 295 68 85 224 166 305 124 246 8 Uso do SAS para ajustar o modelo: Yi 0 1 X i1 2 X i 2 i (6) data seguros; input numero tamanho tipo $ 15-28 datalines; 17 151 Comercial 0 26 92 Comercial 0 21 175 Comercial 0 30 31 Comercial 0 22 104 Comercial 0 0 277 Comercial 0 12 210 Comercial 0 19 120 Comercial 0 4 290 Comercial 0 16 238 Comercial 0 28 164 Capitais 1 15 272 Capitais 1 11 295 Capitais 1 38 68 Capitais 1 31 85 Capitais 1 21 224 Capitais 1 20 166 Capitais 1 13 305 Capitais 1 30 124 Capitais 1 14 246 Capitais 1 ; codigo interaca; 0 0 0 0 0 0 0 0 0 0 164 272 295 68 85 224 166 305 124 246 9 proc print data=seguros; run; proc reg data=seguros; model numero = tamanho codigo/ss1 covb; title 'Analise de regressao com variaveis preditoras qualitativas'; run; Saída do SAS (Output) Dependent Variable: NUMERO Analysis of Variance Source DF Sum of Squares Model Error C Total 2 17 19 1504.41333 176.38667 1680.80000 Root MSE Dep Mean C.V. 3.22113 19.40000 16.60377 Mean Square 752.20667 10.37569 R-square Adj R-sq F Value Prob>F 72.497 0.0001 0.8951 0.8827 10 Continuação da saída do SAS. Parameter Estimates Variable DF Parameter Estimate INTERCEP TAMANHO CODIGO 1 1 1 33.874069 -0.101742 8.055469 Standard T for H0: Error Parameter=0 1.81385830 0.00889122 1.45910570 Prob > |T| 18.675 -11.443 5.521 0.0001 0.0001 0.0001 Type I SS 7527.200000 1188.167362 316.245973 Covariance of Estimates COVB INTERCEP TAMANHO CODIGO INTERCEP 3.2900819221 -0.013344273 -0.689283091 TAMANHO -0.013344273 0.0000790538 -0.002063303 CODIGO -0.689283091 -0.002063303 2.1289894452 O modelo ajustado é dado por: Yˆ 33,8741 0,1017X1 8,0555X 2 (7) 11 Yˆ (33,87407 8,05547) 0,10174 X1 Yˆ 33,87407 0,10174 X1 A figura contém a função de resposta ajustada para cada tipo de firma, juntamente com os valores observados O economista está mais interessado no tipo de firma (X2) sobre o tempo necessário para a inovação ser adotada e, assim, deseja construir um intervalo de confiança para 2. Com o auxílio do programa STATISTICA obtemos o valor de t=2,109815 com 17 graus de liberdade e =0,05. Usando os resultados da saída do SAS, o intervalo de confiança é dado por: 12 8,05547 2,110(1,45911) 4,98 2 11,13 Concluímos que a companhia de capitais tende a adotar a inovação num tempo entre aproximadamente 5 e 11 meses depois, em média, da companhia de comércio, para qualquer tamanho de companhia, com 95% de confiança. Exercício: construir o intervalo de confiança de 95% para o parâmetro 1. Interpretar. Exercício: o economista decide realizar o seguinte teste de hipótese sobre 2, ao nível de significância de 5%, H 0 : 2 0 H a : 2 0 (8) Qual a conclusão do pesquisador? 13 Abordagem matricial (passo a passo) 17 26 21 30 22 0 12 19 4 16 Y 28 15 11 38 31 21 20 13 30 14 1 1 1 1 1 1 1 1 1 1 X 1 1 1 1 1 1 1 1 1 1 151 0 92 0 175 0 31 0 104 0 277 0 210 0 120 0 290 0 238 0 164 1 272 1 295 1 68 1 85 1 224 1 166 1 305 1 124 1 246 1 3637 20 X' X 3637 796043 1949 10 10 1949 10 Y 'Y 9208 388 X'Y 57909 221 0.3171 - 0.001286 - 0.0664 (X'X)1 - 0.0013 7.6191E - 6 - 0.0002 - 0.0664 - 0.000199 0.2052 14 33.874069 b ( X' X) 1 X'Y - 0.101742 8.0554692 Os valores ajustados e os resíduos são dados por: 18.51101 24.513794 16.069199 30.720063 23.292889 5.6915031 12.508225 21.665015 4.3688556 9.6594456 ˆ Xb Y 25.243831 14.255683 11.915614 35.011074 33.281458 19.139304 25.040347 10.898193 29.313516 16.900978 - 1.51101 1.4862056 4.9308011 - 0.720063 - 1.292889 - 5.691503 - 0.508225 - 2.665015 - 0.368856 6.3405544 ˆ Y HY (I H )Y eYY 2.7561686 0.7443171 - 0.915614 2.9889256 - 2.281458 1.8606956 - 5.040347 2.1018069 0.686484 - 2.900978 15 Análise de variância ( Yi ) 2 n O termo da correção vale: Soma de quadrados total: ( 1n )Y' JY 7527.2 SQTO Y'Y ( 1n )Y'JY 1680.8 Soma de quadrados da regressão: SQR b'X'Y ( 1n )Y'JY 1504.4133 Soma de quadrados do erro: SQE Y'Y b'X'Y 176.38667 Estimativa da matriz de variância-covariância de b: 10 3.2914 - 0.0134 - 0.6896 20 3637 σ 2 (b) QME ( X'X)1 10,383637 796043 1949 - 0.0134 0.0001 - 0.0021 1949 10 - 0.6896 - 0.0021 2.1299 10 16 Os desvios padrões das estimativas dos parâmetros valem: O programa SAS. 1.8142353 s(b) 0.0088931 1.459409 proc iml; reset print; use seguros; setin seguros; read all var{numero tamanho codigo interaca}; close; um={1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1}; x=(um||tamanho||codigo); xlx=x`*x; yly=numero`*numero; xly=x`*numero; xlxinv=inv(xlx); 17 Continuação do programa SAS b=xlxinv*xly; yhat=x*b; residuos=numero-yhat; residuos=residuos`; uns=j(20); correcao=(1/20)*numero`*uns*numero; sqtotal=(numero`*numero)-correcao; sqregre=(b`*x`*numero)-correcao; sqerro=(numero`*numero)-(b`*x`*numero); varcov=10.38#xlxinv; /* qme=176,387/17=10,38 */ desvio=varcov##0.5; quit; 18 Modelo contendo o efeito da interação O economista começou a análise estatística com um modelo que contempla a interação entre o tamanho e o tipo da firma sobre a variável resposta. O modelo com interação: Yi 0 1 X i1 2 X i 2 3 X i1 X i 2 i (9) Onde: X i1 tamanho da firma 1 X i2 0 para firma de capitais outros casos A função de regressão para o modelo com interação é: E(Yi ) 0 1 X i1 2 X i 2 3 X i1 X i 2 (10) Interação (produto cruzado) 19 Significado dos coeficientes de regressão Para firma de comércio Para firma de comércio temos X2=0 e assim, X1X2=0, assim, a função de resposta (10) fica: E(Yi ) 0 1 X i1 2 (0) 3 (0) 0 1 X1 (11) Para firma de capitais Para firma de capitais temos X2=1 e assim, X1X2=X1, assim, a função de resposta (10) fica: E (Yi ) 0 1 X i1 2 (1) 3 X i1 (12) E (Yi ) ( 0 2 ) ( 1 3 ) X i1 (13) Coef. linear Coef. angular Estas funções de resposta são mostradas na figura a seguir: 20 Y = Número de meses passados Y E (Y ) ( 0 2 ) ( 1 3 ) X 1 2 E (Y ) 0 1 X 1 0 2 Firma comercial 0 Firma de capitais 0 X1 Tamanho da firma Nós vimos que 2 indica o quanto é maior (ou menor) o intercepto da função de resposta para a classe com o código 1 (firma de capitais) do que a classe com o código 0 (comercial). Da mesma forma, 3 indica quanto é maior (ou menor) o coeficiente angular da função resposta para a classe com código 1 do que a classe com código 0. Como tanto o intercepto como o coeficiente angular são diferentes para as duas classes no modelo de regressão (9), não podemos fazer a afirmação acima para 2 para qualquer 21 nível de X1. Pela figura observamos que o efeito do tipo de firma, no modelo (9), depende do tamanho da mesma. Para firmas pequenas, as companhias de comércio adotam a inovação mais rapidamente, porém, para firmas maiores, as companhias de capitais adotam a inovação antes do que as de comércio. É o efeito da interação. Exercício: na figura abaixo, verifique se existe interação e justifique. Y Número de meses passados Capitais Comercial 0 X1 Tamanho da firma 22 Exemplo (continuação do exemplo de seguros). O economista, inicialmente, deseja ajustar o modelo com interação (9). Usando o SAS, os resultados do ajuste deste modelo são: Source DF Sum of Squares Model Error C Total 3 16 19 1504.41904 176.38096 1680.80000 Mean Square 501.47301 11.02381 F Value Prob>F 45.490 0.0001 Parameter Estimates Variable DF Parameter Estimate INTERCEP TAMANHO CODIGO INTERACA 1 1 1 1 33.838369 -0.101531 8.131250 -0.000417 Standard Error 2.44064985 0.01305254 3.65405169 0.01833121 T for H0: Parameter=0 13.864 -7.779 2.225 -0.023 Prob > |T| 0.0001 0.0001 0.0408 0.9821 Type I SS 7527.200000 1188.167362 316.245973 0.005708 23 Exercício: desejamos testar a hipótese de que as duas funções de regressão são idênticas, ou seja: H 0 : 2 3 0 H a : pelo menos um é diferente de zero O teste estatístico: F* SQR ( X 2 , X 1 X 2 | X 1 ) 2 SQE ( X 1 , X 2 , X 1 X 2 ) n4 Onde: SQR ( X 2 , X 1 X 2 | X 1 ) SQR ( X 2 | X 1 ) SQR ( X 1 X 2 | X 1, X 2 ) 316.245973 0.005708 316,251681 O valor do teste é: 176,38096 158,125840 5 F 316,251681 14,3440 2 16 11,02381 * P(F>14,3440)=0,000270. Portanto, rejeita-se a hipótese nula. 24 Exercício: faça uma conclusão para o teste da presença da interação no modelo: H 0 : 3 0 H a : 3 0 25 Modelos mais complexos Uma variável qualitativa com mais de 2 classes Exemplo: vamos considerar a regressão da durabilidade de uma ferramenta (Y), sobre a velocidade (X1) e o modelo da ferramenta, onde, esta é uma variável qualitativa com 4 classes (M1, M2, M3, M4). Para trabalhar com esta variável precisamos definir as seguintes variáveis indicadoras: 1 X2 0 1 X3 0 para o m odelo2 outroscasos 1 X4 0 para o m odelo3 outroscasos para o m odelo1 outroscasos 26 Modelo de primeira ordem Yi 0 1 X i1 2 X i 2 3 X i 3 4 X i 4 i (14) Para este modelo, a forma de entrada das variáveis X no modelo é: Modelo M1 M2 M3 M4 X1 Xi1 Xi2 Xi3 Xi4 X2 1 0 0 0 X3 0 1 0 0 X4 0 0 1 0 A função de resposta para o modelo (14), é: E(Yi ) 0 1 X i1 2 X i 2 3 X i 3 4 X i 4 (15) Interpretação dos coeficientes de regressão Para o modelo 1, isto é, X2=1, X3=0, X4=0, a função resposta (15) fica: E(Y ) 0 1 X1 2 (1) ( 0 2 ) 1 X1 (16) 27 Para o modelo 2, isto é, X2=0, X3=1, X4=0 E(Y ) 0 1 X1 3 (1) ( 0 3 ) 1 X1 (17) Para o modelo 3, isto é, X2=0, X3=0, X4=1 E(Y ) 0 1 X1 4 (1) ( 0 4 ) 1 X1 (18) Para o modelo 4, isto é, X2=0, X3=0, X4=0 E(Y ) 0 1 X1 (19) A função de resposta (15) significa que a regressão da durabilidade da ferramenta sobre a velocidade é linear, com o mesmo coeficiente angular para os 4 modelos. Os coeficientes 2, 3 e 4, indicam, respectivamente, quanto maior (ou menor) é a função resposta dos modelos 1, 2 e 3, do que o modelo 4, para qualquer nível de velocidade. Assim, estes parâmetros medem o efeito diferencial dos modelos, comparado com o modelo 4 (X2=0, X3=0, X4=0). 28 Ilustração das funções respostas (uma possibilidade) Y Modelo 3 E (Y ) ( 0 4 ) 1 X1 Modelo 2 E (Y ) ( 0 3 ) 1 X1 E (Y ) 0 1 X 1 `4 Modelo 4 3 Modelo 1 2 0 0 E (Y ) ( 0 2 ) 1 X1 X1 Velocidade 29 Para o modelo (14), podemos querer estimar, por exemplo, o efeito diferencial de 4-3, isto é, quanto maior (ou menor) é a função resposta para o modelo M3 do que o modelo M2, para qualquer nível de velocidade. A estimativa pontual é: b4 - b3 e a estimativa da variância deste estimador: s2 (b4 b3 ) s2 (b4 ) s2 (b3 ) 2s(b4 , b3 ) (20) As variâncias-covariâncias podem ser diretamente obtidas da matriz de variânciacovariância dos coeficientes de regressão. ** Nota: Modelo de 1a. Ordem (14) com interação. Neste caso, cada modelo tem sua própria função de regressão, com diferentes interceptos e coeficientes angulares. Mais do que uma variável qualitativa preditora Exemplo: vamos considera a regressão dos gastos com propaganda (Y) sobre as vendas (X1), o tipo de firma (associadas, não-associadas) e qualidade dos gerentes (baixa e alta). Podemos definir: 1 X2 0 associadas outros casos 1 X3 0 qualidade gerência alta outros casos 30 Podemos ajustar modelos de primeira ordem ou modelos de primeira ordem com interação: Yi 0 1 X i1 2 X i 2 3 X i 3 i (21) Yi 0 1 X i1 2 X i 2 3 X i 3 4 X i1 X i 2 5 X i1 X i 3 6 X i 2 X i 3 i (22) O modelo (21) significa num relacionamento linear entre o gasto com propaganda e as vendas. Ainda, no modelo (21) temos modelos com diferentes coeficientes lineares e mesmo coeficiente angular. Para o modelo (22) considere: 1 - não associado (X2=0) e alta qualidade (X3=1) 2- associado (X2=1) e alta qualidade (X3=1) Yi 0 1 X i1 3 5 X i1 i Yi ( 0 3 ) ( 1 5 ) X i1 i Yi 0 1 X i1 2 3 4 X i1 5 X i1 6 i Yi ( 0 2 3 6 ) ( 1 4 5 ) X i1 i 31 Comparação entre duas ou mais funções de regressão Freqüêntemente encontramos modelos de regressão para duas ou mais populações e desejamos estudar suas similaridades e diferenças. Exemplo 1: uma empresa opera duas linhas de produção para fazer sabão em barras. Foram feitas regressões da velocidade e a quantidade de restos para diversos dias. Num estudo exploratório sugere-se que os coeficientes angulares sejam similares, porém, os coeficientes lineares devem ser diferentes. Desejase realizar um teste para verificar se os dois modelos de regressão são idênticos. 32 Exemplo 2: um economista está fazendo um estudo da quantidade economizada e a renda de famílias de classe média, nas áreas urbanas e rural. Foram ajustados dois modelos de regressão linear simples. O economista deseja comparar se, para um dado nível de renda, as famílias urbanas e rurais tendem a economizar a mesma quantidade, isto é, ele deseja saber se os coeficientes lineares e angulares são os mesmos. Também, poderia desejar estudar se os dois coeficientes angulares são iguais. • Assume-se que as variâncias nos modelos de regressão para as diferentes populações sejam iguais. Assim, usamos variáveis indicadoras para testar a igualdade das diferentes funções de regressão. Obs. Pode-se usar transformação. • Consideramos as diferentes populações como classes da variável preditora, vamos definir variáveis indicadoras para as diferentes populações, e desenvolver um modelo de regressão que contenha termos apropriados de interação. Exemplo: Os dados de quantidade de restos (Y) e velocidade (X1) para as linhas de produção de sabão são apresentados na tabela a seguir. A variável X2 está codificada para o tipo de linha de produção. O diagrama de dispersão é dado na figura a seguir. 33 Dados para produção de sabão Linha de produção 1 Linha de produção 2 Observação Restos Velocidade Observação Restos Velocidade i Yi Xi1 Xi2 i Yi Xi1 1 218 100 1 15 367 265 2 248 125 1 16 140 105 3 360 220 1 17 277 215 4 351 205 1 18 384 270 5 470 300 1 19 341 255 6 394 255 1 20 215 175 7 332 225 1 21 180 135 8 321 175 1 22 260 200 9 410 270 1 23 361 275 10 260 170 1 24 252 155 11 241 155 1 25 422 320 12 331 190 1 26 273 190 13 275 140 1 27 410 295 14 425 290 1 Xi2 1 0 0 0 0 0 0 0 0 0 0 0 0 34 Linha Prod. 1 Linha Prod. 2 Modelo de pesquisa: vamos usar um modelo linear de Y sobre X1. Vamos considerar um modelo que permita-nos ter dois diferentes coeficientes angulares e dois diferentes interceptos. Yi 0 1 X i1 2 X i 2 3 X i1 X i 2 i (23) Onde: X i1 velo cid ad e 1 X i2 0 linh a d e p rod ução1 linh a d e p rod ução2 35 Com o auxílio do programa SAS, obtemos os resultados para o modelo (23): Dependent Variable: RESIDUO Analysis of Variance Source DF Sum of Squares Mean Square Model Error C Total 3 169164.68382 23 9904.05692 26 179068.74074 56388.22794 430.61117 Root MSE Dep Mean C.V. 20.75117 315.48148 6.57762 R-square Adj R-sq F Value Prob>F 130.949 0.0001 0.9447 0.9375 Parameter Estimates Variable DF Parameter Estimate INTERCEP VELOCIDA CODIGO X1X2 1 1 1 1 7.574465 1.322049 90.390863 -0.176661 Standard Error T for H0: Parameter=0 Prob > |T| Type I SS 20.86969786 0.09262470 28.34573199 0.12883773 0.363 14.273 3.189 -1.371 0.7200 0.0001 0.0041 0.1835 2687271 149661 18694 809.622579 36 O modelo de regressão ajustado aos dados é: Yˆ 7,57 1,322X1 90,39X 2 0,1767X1 X 2 (24) Exercício: verifique, no output do SAS, se o ajuste do modelo está bom . O gráfico dos resíduos versus valores ajustados nos indica que as variâncias dos erros são similares. Poderia fazer dois gráficos para facilitar o diagnóstico de possíveis diferenças entre as duas populações. 37 38 Inferências sobre as duas linhas de regressão 1. Identidade das funções de regressão para as duas linhas de produção. Desejamos verificar se os dois parâmetros são os mesmos para as duas linhas de produção, ou seja, desejamos estudar as hipóteses: H 0 : 2 3 0 (25) H a : pelo menosum difere de zero O teste estatístico é dado por: F * SQR ( X 2 , X1 X 2 | X1 ) 2 SQE ( X1 , X 2 , X1 X 2 ) n 4 (26) Usando os resultados da saída do SAS, obtemos: 39 SQR( X 2 , X 1 X 2 | X 1 ) SQR( X 2 | X 1 ) SQR( X 1 X 2 | X 1 , X 2 ) 18694 809.622579 19503,6226 F * 19503,6226 2 9904,05692 23 22,65 P(F>22,65)=0,000004. Portanto, rejeita-se a hipótese nula e concluímos que as funções de regressão para as duas linhas de produção não são as mesmas. 2. Os coeficientes angulares das funções de regressão para as duas linhas de produção são os mesmos. H 0 : 3 0 H a : 3 0 40 F * F * SQR ( X1 X 2 | X1 , X 2 ) 1 809.622579 1 SQE ( X1 , X 2 , X1 X 2 ) n4 9904,05692 23 1,88 P(F>1,88)=0,183565. Portanto, não rejeita-se a hipótese nula e concluímos que os coeficientes angulares das funções de regressão para as duas linhas de produção são os mesmos. 41 Outro uso das variáveis indicadoras Aplicação em Séries Temporais Um uso de variáveis indicadoras ocorre quando os dados são mensurados mensalmente, trimestralmente, etc. Suponha que as vendas trimestrais (Y), tem uma regressão com o tempo e, além disso, apresentam um efeito sazonal, por exemplo, devido a estação do ano. Um modelo de primeira ordem, incorporando um efeito sazonal (4 trimestres) é dado por: Yt 0 1 X t1 2 X t 2 3 X t 3 4 X t 4 i (27) 42 Onde: X t1 efeito dos trim estres 1 X t2 0 para o quartotrim estre para outroscasos 1 X t3 0 para o terceiro trim estre para outroscasos 1 X t4 0 para o segundotrim estre para outroscasos Exemplo: os dados na tabela a seguir referem-se a vendas de jóias (Y), nos anos 1957-60, mensuradas trimestralmente. 43 Ano 1957 1957 1957 1957 1958 1958 1958 1958 1959 1959 1959 1959 1960 1960 1960 1960 Vendas (Y) 36 44 45 106 38 46 47 112 42 49 48 118 42 50 51 118 Xt1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Xt2 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 Xt3 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 Xt4 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 Na figura a seguir temos o diagrama de dispersão dos dados. 44 O modelo (24) justado aos dados é dado por: Yˆ 34,95 0,65X1 72,05X 2 6,95X 3 7,1X 4 (28) O gráfico a seguir ilustra os valores observados e estimados pelo modelo (25). 45 Nota: No lugar da variável trimestre, poderia ter, por exemplo, rendimento. Fazer lista de exercícios número 8. 46