Exemplo Regressão Linear Múltipla Gilberto A. Paula Departamento de Estatística IME-USP, Brasil [email protected] 1o Semestre 2013 G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 1 / 27 Abastecimento de Refrigerantes Sumário 1 Abastecimento de Refrigerantes 2 Análise de Dados Preliminar 3 Ajuste Modelo Linear Normal 4 Diagnóstico Modelo Ajustado 5 Resultados Modelo Ajustado 6 Conclusões 7 Referências G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 2 / 27 Abastecimento de Refrigerantes Abastecimento de Refrigerantes Descrição dos Dados Uma engarrafadora de refrigerantes está analisando o serviço de abastecimento das máquinas de refrigerantes atendidas pela empresa. O serviço de abastecimento inclui o estoque das garrafas nas máquinas e pequenas manutenções feitas pelo próprio motorista do veículo com os carregamentos. O engenheiro industrial responsável pela logística da distribuição dos refrigerantes acredita que as variáveis explicativas distância, distância percorrida pelo motorista do veículo até as máquinas (em pésa ) e ncaixas, número de caixas de produtos estocados, estejam influenciando a variável resposta tempo, tempo gasto pelo motorista para o abastecimento das máquinas (em minutos). Uma amostra aleatória de 25 abastecimentos feitos num outlet foi considerada para análise (Montgomery, Peck e Vining, 2001, Cap. 3). a 1 pé = 0,3048 metros G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 3 / 27 Análise de Dados Preliminar Sumário 1 Abastecimento de Refrigerantes 2 Análise de Dados Preliminar 3 Ajuste Modelo Linear Normal 4 Diagnóstico Modelo Ajustado 5 Resultados Modelo Ajustado 6 Conclusões 7 Referências G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 4 / 27 Análise de Dados Preliminar Medidas Resumo Descrição Medida n Média D.Padrão CV Tempo 25 22,38 15,52 69% Ncaixas 25 8,76 6,88 78% Distância 25 409,30 325,19 79% Mínimo 1o Quartil Mediana 3o Quartil Máximo 8,00 13,75 18,11 21,50 79,24 2,00 4,00 7,00 10,00 30,00 36,00 150,00 330,00 605,00 1460,00 G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 5 / 27 Análise de Dados Preliminar 50 40 10 20 30 Tempo Gasto 60 70 80 Boxplot Tempo Gasto G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 6 / 27 Análise de Dados Preliminar 15 5 10 Número de Caixas 20 25 30 Boxplot Número de Caixas de Produtos G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 7 / 27 Análise de Dados Preliminar 800 600 0 200 400 Distância Percorrida 1000 1200 1400 Boxplot Distância Percorrida G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 8 / 27 Análise de Dados Preliminar 50 40 10 20 30 Tempo Gasto 60 70 80 Dispersão Tempo Gasto versus Número de Caixas 5 10 15 20 25 30 Número de Caixas G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 9 / 27 Análise de Dados Preliminar 50 40 10 20 30 Tempo Gasto 60 70 80 Dispersão Tempo Gasto versus Distância Percorrida 0 200 400 600 800 1000 1200 1400 Distância Percorrida G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 10 / 27 Ajuste Modelo Linear Normal Sumário 1 Abastecimento de Refrigerantes 2 Análise de Dados Preliminar 3 Ajuste Modelo Linear Normal 4 Diagnóstico Modelo Ajustado 5 Resultados Modelo Ajustado 6 Conclusões 7 Referências G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 11 / 27 Ajuste Modelo Linear Normal Modelo Linear Normal Descrição Nota-se indícios de aumento do tempo gasto pelo motorista com o aumento da distância percorrida e aumento do número de caixas de produtos, sugerindo inicialmente um modelo linear: yi = β1 + β2 × ncaixasi + β3 × distanciai + ǫi , para i = 1, . . . , 25, em que yi denota o tempo gasto pelo i-ésimo iid motorista com ǫi ∼ N(0, σ 2 ). G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 12 / 27 Ajuste Modelo Linear Normal Estimativas Descrição As estimativas dos parâmetros são dadas abaixo. Efeito Constante Ncaixas Distância R2 R2 -ajustado s F Estimativa 2,341 1,616 0,014 0,96 0,96 3,26 261,2 Erro padrão 1,0967 0,1707 0,0036 (2 e 22 g.l.) valor-t 2,134 9,467 3,889 valor-P 0,044 0,001 0,000 0,000 Todas os parâmetros são marginalmente significativos ao nível de 5%. G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 13 / 27 Diagnóstico Modelo Ajustado Sumário 1 Abastecimento de Refrigerantes 2 Análise de Dados Preliminar 3 Ajuste Modelo Linear Normal 4 Diagnóstico Modelo Ajustado 5 Resultados Modelo Ajustado 6 Conclusões 7 Referências G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 14 / 27 Diagnóstico Modelo Ajustado Distância de Cook 22 0.0 5 10 15 20 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0.6 0.4 9 0.2 Medida h 0.8 1.0 Diagnóstico Modelo Ajustado 9 25 5 10 Indice 15 20 25 Índice 4 2 9 −2 0 Resíduo Padronizado 2 0 −2 Resíduo Padronizado 4 9 5 10 15 20 25 10 20 Índice G. A. Paula (IME-USP) 30 40 50 60 70 Valor Ajustado Abastecimento de Refrigerantes 1o Semestre 2013 15 / 27 Diagnóstico Modelo Ajustado 0 −2 Residuo Studentizado 2 4 Resíduos Modelo Ajustado −2 −1 0 1 2 Percentil da N(0,1) G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 16 / 27 Diagnóstico Modelo Ajustado Variações nas Estimativas Observações Influentes Apenas duas observações #9 e #22 aparecem como remotas. A observação #9 também aparece como influente e aberrante. A eliminação da observação #9 causa variações desproporcionais nas três estimativas e aumenta a significância da constante. G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 17 / 27 Diagnóstico Modelo Ajustado Variações nas Estimativas Observações Influentes Apenas duas observações #9 e #22 aparecem como remotas. A observação #9 também aparece como influente e aberrante. A eliminação da observação #9 causa variações desproporcionais nas três estimativas e aumenta a significância da constante. Identificação Observação A observação #9 refere-se ao motorista com a maior distância percorrida, maior tempo gasto e maior número de caixas estocadas. G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 17 / 27 Diagnóstico Modelo Ajustado Estimativas Descrição As estimativas dos parâmetros eliminando-se a observação #9. Efeito Constante Ncaixas Distância R2 R2 -ajustado s F Estimativa 4,447 1,498 0,010 0,95 0,94 2,43 194,2 Erro padrão 0,9525 0,1302 0,0028 (2 e 21 g.l.) valor-t 4,669 11,505 3,571 valor-P 0,000 0,001 0,000 0,000 Todas os parâmetros são marginalmente significativos ao nível de 1%. G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 18 / 27 Diagnóstico Modelo Ajustado 0 −1 −3 −2 Residuo Studentizado 1 2 Resíduos Modelo Ajustado −2 −1 0 1 2 Percentil da N(0,1) G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 19 / 27 Resultados Modelo Ajustado Sumário 1 Abastecimento de Refrigerantes 2 Análise de Dados Preliminar 3 Ajuste Modelo Linear Normal 4 Diagnóstico Modelo Ajustado 5 Resultados Modelo Ajustado 6 Conclusões 7 Referências G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 20 / 27 Resultados Modelo Ajustado Interpretação Estimativas Interpretação Estimativas Para cada aumento de 1 caixa para estocar, espera-se aumento de 1,616 minutos no tempo gasto pelo motorista (mantendo-se fixa a distância percorrida). Para cada aumento de um pé na distância percorrida pelo motorista, espera-se aumento de 0,014 minutos no tempo gasto pelo motorista (mantendo-se fixo o número de caixas). G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 21 / 27 Resultados Modelo Ajustado Predição Predição nova Observação Qual o tempo gasto por um motorista com 25 caixas para estocar e distância percorrida de 1000 metros? G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 22 / 27 Resultados Modelo Ajustado Predição Predição nova Observação Qual o tempo gasto por um motorista com 25 caixas para estocar e distância percorrida de 1000 metros? Valor de h(z) Temos que z = (1, 25, 1000)T e h(z) = zT (XT X)−1 z = 0, 274. Como hmax = 0, 498 então podemos fazer predição para essa nova observação uma vez que h(z) < hmax . G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 22 / 27 Resultados Modelo Ajustado Predição Estimativa Pontual O tempo gasto predito pelo motorista fica dado por µ(z) = 2, 341 + 1, 616 × 25 + 0, 014 × 1000 = 56, 741 minutos. G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 23 / 27 Resultados Modelo Ajustado Predição Estimativa Pontual O tempo gasto predito pelo motorista fica dado por µ(z) = 2, 341 + 1, 616 × 25 + 0, 014 × 1000 = 56, 741 minutos. Estimativa Intervalar A estimativa intervalar de 95% para optempo gasto pelo motorista fica dada por [µ̂(z) ± t(1−α/2),(n−p) × s × 1 + zT (XT X)−1 z] = [56, 741 ± 2, 0739 × 3, 26 × p 1 + 0, 274] = [56, 741 ± 7, 631] = [49, 11; 64, 37]. G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 23 / 27 Conclusões Sumário 1 Abastecimento de Refrigerantes 2 Análise de Dados Preliminar 3 Ajuste Modelo Linear Normal 4 Diagnóstico Modelo Ajustado 5 Resultados Modelo Ajustado 6 Conclusões 7 Referências G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 24 / 27 Conclusões Conclusões Considerações Finais Este é um exemplo de regressão linear múltipla com presença de uma observação discrepante que é ao mesmo tempo ponto de alavanca, ponto influente e ponto aberrante. A eliminação dessa observação causa mudanças numéricas importantes nas estimativas mas não muda a inferência com relação à inclusão das variáveis explicativas. Não há evidências de afastamentos com relação à suposição de normalidade mas há alguma evidência com relação à suposição de homocedasticidade. G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 25 / 27 Referências Sumário 1 Abastecimento de Refrigerantes 2 Análise de Dados Preliminar 3 Ajuste Modelo Linear Normal 4 Diagnóstico Modelo Ajustado 5 Resultados Modelo Ajustado 6 Conclusões 7 Referências G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 26 / 27 Referências Referências Referência Montgomery, D. C.; Peck, E. A. e Vining, G. G. (2001). Introduction to Linear Regression Analysis, Third Edition. Hoboken: Wiley. G. A. Paula (IME-USP) Abastecimento de Refrigerantes 1o Semestre 2013 27 / 27