Regressão Múltipla • Predizer valores de uma variável dependente (Y) em função de várias variáveis independentes (X1, X2, ..., Xk). • Conhecer o quanto variações de Xj (j = 1,...,k) podem afetar Y. Ogliari, P. J. Técnicas estatísticas de predição Regressão Múltipla (X1, X2, X3) Y Aplicação na economia: X1 = renda X2 = taxa de juros X3 = poupança Y = consumo Ogliari, P. J. Técnicas estatísticas de predição Regressão Múltipla (X1, X2, X3) Y Aplicação no mercado mobiliário (avaliação) : X1 = área construída X2 = custo do m2 X3 = localização Ogliari, P. J. Técnicas estatísticas de predição Y = preço do imóvel Regressão Múltipla (X1, X2, X3) Y Aplicação na ciência da computação: X1 = memória RAM X2 = sistema operacional X3 = tipo de processador Ogliari, P. J. Técnicas estatísticas de predição Y = tempo de resposta Regressão Múltipla (X1, X2) Y Aplicação na ciência da computação: X1 = disco I/O X2 = tamanho da memória Y = tempo de CPU Ogliari, P. J. Técnicas estatísticas de predição Modelo de Regressão Linear Múltipla • Y = 0 + 1X1 + 2X2 + ... + kXk+ • E{Y} = f(X1, X2, ..., Xk) • Linear: E{Y} = 0 + 1X1 + 2X2 + ... + kXk – onde Y, X1, ..., Xk podem representar as variáveis originais ou transformadas. – Admite-se que X1, ..., Xk são valores fixos e Y é uma variável aleatória. Ogliari, P. J. Técnicas estatísticas de predição Modelo de Regressão Linear Múltipla • E{Y} = 0 + 1X1 + 2X2 + ... + kXk – O coeficiente k representa a variação esperada de Y para cada unidade de variação em Xk (k = 1, 2, ..., k), considerando as outras variáveis independentes fixas. – O primeiro objetivo é estimar os coeficientes: 0, 1, 2, ..., k. Ogliari, P. J. Técnicas estatísticas de predição Modelo de Regressão Múltipla AMOSTRA: obs. 1 2 ... n Y y1 y2 ... yk variáveis X1 X2 x11 x12 x21 x22 ... ... xn1 xn2 • E{yi} = 0 + 1xi1 + 2xi2 + ... + kxik • yi = 0 + 1xi1 + 2xi2 + ... + kxik + ei Ogliari, P. J. Técnicas estatísticas de predição ... ... ... ... ... Xk x1k x2k ... xnk termo aleatório (erro) Modelo de Regressão Múltipla Suposições • yi = 0 + 1xi1 + 2xi2 + ... + kxik + ei termo aleatório (erro) • Os erros (ei) são independentes e variam aleatoriamente segundo uma distribuição (normal) com média zero e variância constante. Ogliari, P. J. Técnicas estatísticas de predição Regressão Múltipla Equação de regressão ajustada aos dados: yˆ b0 b1 X1 b2 X 2 ... bk X k Valores preditos: yˆi b0 b1xi1 b2 xi 2 ... bk xik Resíduos: eˆi yi yˆi (estimativa da variância do se2 QME erro) : n 2 1 SQE yi ˆyi n k 1 i 1 n k 1 Ogliari, P. J. Técnicas estatísticas de predição Exercício: uma empresa opera estúdios fotográficos para crianças em 7 cidades. A empresa deseja expandir seus estúdios para outras cidades semelhantes e deseja investigar se as vendas (Y) podem ser estimadas através do número de pessoas com 16 anos ou menos (X1) e a renda per capita na cidade (X2). Os resultados foram: Ogliari, P. J. Técnicas estatísticas de predição • Escreva o modelo de regressão linear. • Mostre a matriz X, os vetores Y e para os dados do exercício. • Encontre as estimativas dos parâmetros do modelo. • Apresente a função de regressão estimada. • Faça a interpretação das estimativas dos parâmetros do modelo. • Encontre os valores estimados (preditos) e os resíduos. • Calcule a estimativa da variância do erro. SQE Y 'Y b' X 'Y e 'e se2 QME Ogliari, P. J. Técnicas estatísticas de predição SQE n k 1 Análise de variância Soma de quadrados e quadrados médios SQTotal Y ' Y C com n - 1 graus de liberdade SQRegressão b' X 'Y C com k graus de liberdade SQErro Y 'Y b' X 'Y com n - k - 1 graus de liberdade 1 ' C Y JY n Os quadrados médios são dados por: SQRegressã o QMRegressão k SQErro QMErro n k 1 Ogliari, P. J. Técnicas estatísticas de predição Tabela da análise de variância – Tabela da ANOVA Variações no modelo Regressão Erro Total GL K SQ QM SQR SQR/(K) n-k-1 SQE SQE/(N-K-1) n-1 SQT Ogliari, P. J. Técnicas estatísticas de predição F* QMR/QME • Exercício – Com os dados das empresas de estúdios fotográficos obter as somas de quadrados da ANOVA. – Fazer a tabela da ANOVA com a razão F*. Ogliari, P. J. Técnicas estatísticas de predição Teste F para regressão Hipóteses em teste: H 0 : 1 2 ... k 0 H a : pelo m enosum j é diferentede zero. A estatística de teste é dada por: QMRegressã o F QMErro * Se F* > F(; k, n-k-1), rejeitamos a hipótese nula, caso contrário, não rejeitamos a hipótese. Não devemos esquecer de usar o valor p. Ogliari, P. J. Técnicas estatísticas de predição • Exercício – Fazer o teste F da ANOVA para os dados da empresa de estúdio fotográfico. Interpretar o resultado. Ogliari, P. J. Técnicas estatísticas de predição Medida do Ajuste Coeficiente de determinação (R2) R2 = Variação explicada Variação total = SQRegressão SQTotal 0 R2 1 Mede a redução da variabilidade total de Y associada com o uso conjunto de variáveis independentes. Ogliari, P. J. Técnicas estatísticas de predição Medida do Ajuste • Como R2 aumenta com a adição de variáveis explanatórias, sugere-se utilizar o coeficiente de determinação ajustado (corrigido) para os graus de liberdade. O coeficiente de determinação ajustado é dado por: Ra2 1 SQErro n k 1 SQTotal n 1 SQErro n 1 1 n k 1 SQTotal Ogliari, P. J. Técnicas estatísticas de predição • Exercício – Calcule o coeficiente de determinação R2 e R2a para os dados da empresa de estúdios fotográficos. Fazer a interpretação dos coeficientes. Ogliari, P. J. Técnicas estatísticas de predição Regressão Múltipla: teste sobre um particular coeficiente H0: j = 0 H1:j 0 j=0, 1, 2, ....,k A estatística do teste é dada por: t * bj se c bj DPb j onde c é o (j+1)-ésimo elemento da diagonal principal da matriz C = (X’X)-1 e se = (QMErro)1/2. DP(bj) é o desvio padrão de bj. Ogliari, P. J. Técnicas estatísticas de predição Sob H0 e considerando as suposições do modelo, a estatística t tem distribuição t de student com g.l. = n-k-1 Critério do teste: Se |t* |>t(/2;n-k-1), rejeita-se a hipótese nula, caso contrário não rejeita-se a mesma. Ogliari, P. J. Técnicas estatísticas de predição Regressão Múltipla: cálculo do desvio padrão de um particular coeficiente 147,9324 0,39891 10,1465 1 t C X X 0,39891 0,001782 0,02983 10,1465 0,02983 0,705037 QME = 105,0323 Ogliari, P. J. Técnicas estatísticas de predição Var b0 105,0323*147,9324 15.537,68 Var b1 105,0323* 0,001782 0,19 Var b2 105,0323* 0,705037 74,05 DPb0 15.537,68 124,65 DPb1 0,187194 0,43 DPb2 74,05168 8,61 Ogliari, P. J. Técnicas estatísticas de predição • Exercício • para o exemplo da empresa de estúdios fotográficos, teste a hipótese para 2=0 vs a hipótese de que 2 é diferente de zero, ao nível de significância () de 5%. Faça a interpretação. Ogliari, P. J. Técnicas estatísticas de predição Estimação da resposta média e predição de uma nova observação Intervalo de confiança para E(Yh) (a média) Para novos valores dados de X1,X2,...,Xk, representados por: Xh1,Xh2,...,Xh,k, a resposta média é representada por E(Yh). Vamos definir o vetor: 1 X h1 Xh . ( k 1 ) x 1 . X h ,k A resposta média estimada, correspondente ao vetor Xh, é dada por : Yˆh X 'h b Ogliari, P. J. Técnicas estatísticas de predição A variância estimada da resposta média é dada por: s 2 ( Yˆh ) QMErro ( X 'h ( X ' X )1 X h ) X 'h s 2 ( b ) X h O intervalo de confiança para a resposta média, E(Yh), é dado por: Yˆh t .s( Yˆh ) Exercício: suponha que o administrador deseja manter a variável renda no modelo, encontre o intervalo de confiança.para a resposta média (venda média) considerando Xh1=65,4 (população) e Xh2=17,6, (renda per capita) com 95%. Faça a interpretação. Você considera que este intervalo dá informação precisa? Utilize os seguintes resultados: 2 ' 1 s ( b ) QMErro X X s 2 ( Yˆh ) s(Yˆh ) Ogliari, P. J. Técnicas estatísticas de predição Limites de predição para uma nova observação Yh(novo) Os limites de predição com confiança 1- para uma nova observação Yh(nova) correspondente ao vetor Xh, os valores das variáveis explanatórias, são: Yˆh t .s( pred ) A variância do erro de predição é dado por: s 2 ( pred ) QMErro ( 1 X 'h ( X ' X )1 X h ) Exercício: a empresa deseja predizer as vendas para uma nova cidade com as seguintes características: Cidade A: Xh1=53,1 Xh2=17,7 encontre o intervalo de predição com 95%. Faça a interpretação. Você considera que este intervalo é satisfatório? Utilize os seguintes resultados: Yˆh s(pred) t(0,05;7- 3) Ogliari, P. J. Técnicas estatísticas de predição Regressão múltipla: variáveis independentes qualitativas • Ex1. (Neter et al. – “Applied Linear Regression Models”, 1996, p. 455) • Variável dependente: rapidez com que um novo seguro é adotado (número de meses); • Variáveis independentes: – Tamanho da firma (milhões de dólares); – Tipo de firma (0 = comercial, 1 = capital). Ogliari, P. J. Técnicas estatísticas de predição Regressão múltipla: variáveis independentes qualitativas • Ex2. (Chatterjee, Hadi e Price – “Regression Analysis by Example”, 2000, p. 124) • Variável dependente: salários de uma empresa; • Variáveis independentes: – experiência (anos de trabalho na empresa); – cargo de gerência (0 = não, 1 = sim); – nível educacional (1 = primeiro grau 2 = segundo grau 3 = superior) Ogliari, P. J. Técnicas estatísticas de predição Regressão múltipla: variáveis independentes qualitativas • As variáveis qualitativas devem entrar no modelo na forma de variáveis indicadoras (0 e 1); – cargo de gerência, G (0 = não, 1 = sim) – nível educacional, E1 (1 = primeiro grau 0 = caso contrário) – nível educacional, E2 (1 = segundo grau 0 = caso contrário) • E1 = 0, E2 = 0 ===> superior (categoria referência) • E1 = 1, E2 = 0 ===> primeiro grau • E1 = 0, E2 = 1 ===> segundo grau Ogliari, P. J. Técnicas estatísticas de predição • Uma variável qualitativa com c categorias será representada por c-1 variáveis indicadoras, cada uma delas recebendo os valores 0 e 1. Ogliari, P. J. Técnicas estatísticas de predição Regressão múltipla: variáveis independentes qualitativas Exemplo1: o modelo é dado por: Yi = 0 + 1Xi1 + 2Xi2+i X i1 tamanho da firma X i2 1 firma de capital 0 outro caso Ogliari, P. J. Técnicas estatísticas de predição • 2 mede o efeito diferencial do tipo de firma. Em geral mostra quanto maior (ou menor) é a resposta média para a classe codificada com 1 do que a resposta média para a classe codificada com 0, para qualquer valor dado de X1. • O coeficiente de uma variável indicadora indica a variação esperada em Y quando a variável indicadora muda de 0 para 1, mantendo-se as demais variáveis constantes. – Ex: 2 é o incremento esperado no tempo médio passado pela empresa ser do tipo capital. Ogliari, P. J. Técnicas estatísticas de predição Regressão múltipla: variáveis independentes qualitativas Exemplo2: a função de resposta é dada por: E{Y} = 0 + 1X1 + 2G + 3E1 + 4E2 • O coeficiente de uma variável indicadora indica a variação esperada em Y quando a variável indicadora muda de 0 para 1, mantendo-se as demais variáveis constantes. – Ex: 2 é o incremento esperado no salário pelo indivíduo ocupar um cargo de gerente para qualquer valor de X1 e da outra variável preditora. Ogliari, P. J. Técnicas estatísticas de predição Exemplo1: Para o exemplo de seguros, o economista estudou 10 firmas de comércio e 10 firmas de capital. Os resultados são dados na tabela a seguir. Ogliari, P. J. Técnicas estatísticas de predição Firma i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 (1) (2) (3) Número de Tamanho da Tipo de firma meses firma Yi Xi1 17 151 Comercial 26 92 Comercial 21 175 Comercial 30 31 Comercial 22 104 Comercial 0 277 Comercial 12 210 Comercial 19 120 Comercial 4 290 Comercial 16 238 Comercial 28 164 Capitais 15 272 Capitais 11 295 Capitais 38 68 Capitais 31 85 Capitais 21 224 Capitais 20 166 Capitais 13 305 Capitais 30 124 Capitais 14 246 Capitais Ogliari, P. J. Técnicas estatísticas de predição (4) Variável codificada Xi2 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 Abordagem matricial (passo a passo) 17 26 21 30 22 0 12 19 4 16 Y 28 15 11 38 31 21 20 13 30 14 1 1 1 1 1 1 1 1 1 1 X 1 1 1 1 1 1 1 1 1 1 151 0 92 0 175 0 31 0 104 0 277 0 210 0 120 0 290 0 238 0 164 1 272 1 295 1 68 1 85 1 224 1 166 1 305 1 124 1 246 1 3637 20 X' X 3637 796043 1949 10 10 1949 10 Y 'Y 9208 388 X'Y 57909 221 0.3171 - 0.001286 - 0.0664 (X'X)1 - 0.0013 7.6191E - 6 - 0.0002 - 0.0664 - 0.000199 0.2052 Ogliari, P. J. Técnicas estatísticas de predição 33.874069 b ( X' X) 1 X'Y - 0.101742 8.0554692 O modelo ajustado é dado por: Yˆ 33,8741 0,1017 X1 8,0555 X 2 Ogliari, P. J. Técnicas estatísticas de predição A figura contém a função de resposta ajustada para cada tipo de firma, juntamente com os valores observados Yˆ (33,87407 8,05547) 0,10174 X1 Yˆ 33,87407 0,10174 X1 Ogliari, P. J. Técnicas estatísticas de predição Concluímos que a companhia de capitais tende a adotar a inovação num tempo de aproximadamente 8 meses depois, em média, da companhia de comércio, para qualquer tamanho de companhia. Ogliari, P. J. Técnicas estatísticas de predição Análise de variância O termo da correção vale: (Y ) n i 2 ( 1n )Y ' JY 7.527,2 Soma de quadrados total: SQTO Y 'Y ( 1n )Y 'JY 1.680,8 Soma de quadrados da regressão: SQR b' X 'Y ( 1n )Y 'JY 1.504,4133 Soma de quadrados do erro: ' ' ' SQE Y Y b X Y 176,38667 Ogliari, P. J. Técnicas estatísticas de predição Ogliari, P. J. Técnicas estatísticas de predição Estimativa da matriz de variância-covariância de b: 3637 10 20 s 2 (b) QME ( X ' X ) 1 10,38 3637 796043 1949 1949 10 10 3.2914 - 0.0134 - 0.6896 s 2 (b) QME ( X ' X ) 1 - 0.0134 0.0001 - 0.0021 - 0.6896 - 0.0021 2.1299 As estimativas dos desvios padrões das estimativas dos parâmetros valem: 1.8142353 s (b) 0.0088931 1.459409 Ogliari, P. J. Técnicas estatísticas de predição O economista decide realizar o seguinte teste de hipótese sobre 2, ao nível de significância de 5%, H 0 : 2 0 H1 : 2 0 Qual a conclusão do pesquisador? 8,0554 t 5,519 1,4594 t0,05;17 2,110 Portanto, rejeita-se a hipótese nula. Ogliari, P. J. Técnicas estatísticas de predição Ogliari, P. J. Técnicas estatísticas de predição Exemplo2: Os dados são uma amostra de salários de profissionais da computação de uma grande empresa. O objetivo foi identificar e quantificar as variáveis que determinam as diferenças salariais. Os dados estão na tabela a seguir. Ogliari, P. J. Técnicas estatísticas de predição Obs. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 S 13876 11608 18701 11283 11767 20872 11772 10535 12195 12313 14975 21371 19800 11417 20263 13231 12884 13245 13677 15965 12336 21352 13839 X 1 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 6 6 6 E 1 3 3 2 3 2 2 1 3 2 1 2 3 1 3 3 2 2 3 1 1 3 2 G 1 0 1 0 0 1 0 0 0 0 1 1 1 0 1 0 0 0 0 1 0 1 0 Obs. 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 S 22884 16978 14803 17404 22184 13548 14467 15942 23174 23780 25410 14861 16882 24170 15990 26330 17949 25685 27837 18838 17483 19207 19346 Ogliari, P. J. Técnicas estatísticas de predição X 6 7 8 8 8 8 10 10 10 10 11 11 12 12 13 13 14 15 16 16 16 17 20 E 2 1 2 1 3 1 1 2 3 2 2 1 2 3 1 2 2 3 2 2 1 2 1 G 1 1 0 1 1 0 0 0 1 1 1 0 0 1 0 1 0 1 1 0 0 0 0 O modelo é dado por: Y 0 1 X 2 E1 3E2 4G Avaliando-se este modelo, pode-se ver que existe uma equação de regressão diferente para cada combinação de escolaridade e cargo de gerência, ou seja, temos seis equações de regressão. Ogliari, P. J. Técnicas estatísticas de predição Modelo 1 E 1 G 0 2 1 1 3 2 0 4 2 1 5 3 0 6 3 1 Modelo de regressão Y 0 2 1 X Y 0 2 4 1 X Y 0 3 1 X Y 0 3 4 1 X Y 0 1 X Y 0 4 1 X Y 0 1 X 2 E1 3E2 4G Ogliari, P. J. Técnicas estatísticas de predição Resultados o coeficiente da variável anos de experiência é 546, ou seja, a cada ano adicional de experiência é estimado um aumento no salário de $546. Ogliari, P. J. Técnicas estatísticas de predição o coeficiente da variável indicadora cargo de gerência, 4, é estimado em 6.883,5. Da tabela de modelos interpretamos este valor como o aumento médio no salário anual com o cargo de gerência, independentemente do nível educacional. Para as variáveis de nível educacional, 2 mede o diferencial salarial do primeiro grau relativo ao superior e 3 mede o diferencial salarial do segundo grau relativo ao superior. Pelos resultados o nível superior tem uma valor médio de $2996 maior do que o nível de primeiro grau, independentemente do cargo de gerência. Ogliari, P. J. Técnicas estatísticas de predição Pelos resultados o nível segundo grau tem uma valor médio de $148 maior do que o nível superior (esta diferença não é estatisticamente significante). Estes diferenciais salariais valem para todo valor fixo de experiência. Ogliari, P. J. Técnicas estatísticas de predição Ogliari, P. J. Técnicas estatísticas de predição Ex. de regressão múltipla: O sistema de entrega de um distribuidor de cervejas Pretende-se predizer o tempo (y) requerido para se fazer um lote de entregas. O Eng. de produção encarregado de fazer o estudo sugere que o tempo é influenciado fundamentalmente por dois fatores: o número de entregas (x1) e a distância máxima (x2) que o entregador precisa fazer por viagem. Ogliari, P. J. Técnicas estatísticas de predição Sistema de entrega do distribuidor de cerveja ENTREGAS DISTANC TEMPO (X1) (X2) (Y) 1 10 30 24 2 15 25 27 3 10 40 29 4 20 18 31 5 25 22 25 6 18 31 33 7 12 26 26 8 14 34 28 9 16 29 31 10 22 37 39 11 24 20 33 12 17 25 30 13 13 27 25 14 30 23 42 15 24 33 Ogliari, P. J. Técnicas 40estatísticas de predição Ex. de regressão múltipla: O sistema de entrega de um distribuidor de cervejas Resumo da regressão R² = 0,736 se2 = 3,1408 F(2,12) = 16,795 p < 0,00033 Intercepto ENTREGAS DISTANC erro padrão coef. dos coef. t(12) p 2,311 5,857 0,877 0,153 0,455 0,146 0,700 0,000 0,009 0,394 5,732 3,106 Ogliari, P. J. Técnicas estatísticas de predição Análise dos resíduos: O sistema de entrega de um distribuidor de cervejas H is to g ra m ad o sre s íd u o s 1 0 9 8 7 freqüência 6 5 4 3 2 1 0 -1 2 -1 0 -8 -6 -4 -2 Ogliari, P. J. Técnicas estatísticas des predição re s íd u o 0 2 4 6 Análise dos resíduos: O sistema de entrega de um distribuidor de cervejas 4 2 0 resíduos -2 -4 -6 -8 -1 0 -1 2 2 2 2 6 3 0 3 4 Ogliari, P. J. Técnicas v estatísticas der predição a lo re sp e d ito s 3 8 4 2 Análise dos resíduos: modelo sem o ponto discrepante O sistema de entrega de um distribuidor de cervejas 1 5 , 1 0 , 0 5 , Resíduos 0 0 , -0 5 , -1 0 , -1 5 , -2 0 , -2 5 , 2 2 2 6 3 0 3 4 V a lo re sp re d ito s 3 8 Ogliari, P. J. Técnicas estatísticas de predição 4 2 4 6 Análise dos resíduos: modelo sem o ponto discrepante O sistema de entrega de um distribuidor de cervejas Resumo da regressão R²= 0,968 se2 = 1,0878 F(2,11)=168,94 p < 0,00000 Intercepto ENTREGAS DISTANC Coef. E.P. t(11) valor p 2,92 1,00 0,38 2,03 1,44 0,05 18,35 0,05 7,39 0,179 0,000 0,000 0 de entregas) + 0,38(distância) tempo esperado = 2,92 Ogliari,+ P. J.1,00(n Técnicas estatísticas de predição