MBA em Gestão de Projetos e Processos Organizacionais Estatística Aplicada Galo Lopez Noriega [email protected] 1 Regressão Linear Múltipla Levine: Capítulos 11 e 12 Anderson: Capítulo 12 2 Alguns Exemplos Faturamento bruto semanal em função dos gastos em anúncios de TV e Jornal; Velocidade de um automóvel em função do seu peso e potência do motor; Número de vendas de ações pelo preço esperado e valor da marca; Nível de satisfação no trabalho em função do tempo de serviço e do salário. 3 Companhia de Transportes A maior parte dos negócios de uma empresa de transporte envolve entregas na região sul da cidade de SP. Para desenvolver melhores horários de trabalho, os gerentes querem estimar o tempo total de viagens diárias de seus motoristas. Inicialmente os gerentes acreditavam que o tempo total de viagens diárias estaria estritamente relacionado com o número de quilômetros percorridos para fazer as entregas. Uma amostra aleatória simples de 10 tarefas de entrega forneceu os dados da tabela. 4 Desenhando o gráfico scatter plot... Entrega 1 2 3 4 5 6 7 8 9 10 Tempo de viagem (h) 9,3 4,8 8,9 6,5 4,2 6,2 7,4 6,0 7,6 6,1 Quilômetros percorridos 100 50 100 100 50 80 75 65 90 90 5 Análise ANOVA no Excel... RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,814905707 R-Quadrado 0,664071312 R-quadrado ajustado 0,622080226 Erro padrão 1,001791873 Observações 10 yˆ 1,27 0,0678x1 ANOVA gl Regressão Resíduo Total Interseção Quilômetros percorridos SQ MQ 1 15,8713 15,8713 8 8,028696 1,003587 9 23,9 Coeficientes Erro padrão Stat t 1,273913043 1,400745 0,909454 0,067826087 0,017056 3,976755 F F de significação 15,81457814 0,004080177 valor-P 0,389687361 0,004080177 95% inferiores 95% superiores -1,956211712 4,504037799 0,028495691 0,107156483 6 Regra de Rejeição em um Nível de Significância Vamos ao nosso problema... 1- Pegamos a estatística t da nossa análise ANOVA: Statistic t = 3,9767 Nossas hipóteses: H0 : b 1 = 0 H1 : b 1 0 2- Vamos comparar com a tabela t para um nível de significância de 0,05 e 8 graus de liberdade t0,025 = 2,306 3- Comparando: 3,9767 > 2,306 rejeito a hipótese de H0: b1 = 0. Isto é, existe uma relação entre x e y. 7 Tabela t-Student Temos 10 observações. Então n – 2 = 10 – 2 = 8 graus de liberdade Vamos analisar para um nível de significância de 5%. Isso é = 0,05. Para a nossa análise, precisamos de /2. Então, /2 = 0,025. Com isso entramos na tabela 8 Para pensar... Com um coeficiente de determinação (r2) de 0,664, vemos que 66,4% da variabilidade no tempo de viagem pode ser explicado pelo efeito linear do número de quilômetros percorridos. Esta conclusão é boa, mas os gerentes poderiam considerar a idéia de adicionar uma segunda variável independente para explicar alguma variabilidade remanescente na variável dependente. 9 Companhia de Transportes Nossa tabela contemplando mais uma variável, número de entregas: y x1 x2 Entrega Tempo de viagem (h) Quilômetros percorridos Número de Entregas 1 2 3 4 5 6 7 8 9 10 9,3 4,8 8,9 6,5 4,2 6,2 7,4 6,0 7,6 6,1 100 50 100 100 50 80 75 65 90 90 4 3 4 2 2 2 3 4 3 2 10 Regressão linear múltipla Modelo y=b0+b1x1+b2x2+...+bpxp+e Modelo com duas variáveis explicativas y= b0 + b1x1 + b2x2 + e Equação estimada ^ ˆy b0 b1 x1 b2 x2 11 Análise ANOVA no Excel RESUMO DOS RESULTADOS Estatística de regressão R múltiplo R-Quadrado R-quadrado ajustado Erro padrão Observaçõ es 0,950678166 0,903788975 0,876300111 0,573142152 10 ANOVA gl Regressão Resíduo To tal Interseção Quilô metro s perco rrido s x1 Número de Entregas x2 2 7 9 SQ 21,60055651 2,299443486 23,9 MQ 10,80027826 0,328491927 F F de significação 32,87836743 0,00027624 Co eficientes -0,868701467 0,061134599 0,923425367 Erro padrão 0,951547725 0,009888495 0,221113461 Stat t -0,91293526 6,182396959 4,176251251 valo r-P 0,391634304 0,000452961 0,004156622 12 Vamos fazer novamente a Regra de Rejeição em um Nível de Significância para cada variável 1- Para a variável quilômetros percorridos: Statistic t = 6,1823 Nossas hipóteses: H0 : b 1 = b 2 = 0 H1 : b 1 e/ou b 2 0 2- Vamos comparar com a tabela t para um nível de significância de 0,05 e 7 graus de liberdade t0,025 = 2,365 3- Comparando: 6,1823 > 2,365 rejeito a hipótese de H0: b1 = 0. Isto é, existe uma relação entre x1 e y. 13 Tabela t-Student Temos 10 observações. Então n – 3 = 10 – 3 = 7 graus de liberdade Vamos analisar para um nível de significância de 5%. Isso é = 0,05. Para a nossa análise, precisamos de /2. Então, /2 = 0,025. Com isso entramos na tabela 14 Vamos fazer novamente a Regra de Rejeição em um Nível de Significância para cada variável 1- Para a variável número de entregas: Statistic t = 4,1762 Nossas hipóteses: H0 : b 1 = b 2 = 0 H1 : b 1 e/ou b 2 0 2- Vamos comparar com a tabela t para um nível de significância de 0,05 e 7 graus de liberdade t0,025 = 2,365 3- Comparando: 4,1762 > 2,365 rejeito a hipótese de H0: b1 = 0. Isto é, existe uma relação entre x2 e y. 15 Conclusão A porcentagem da variabilidade nos tempos de viagem que é explicada pela equação de regressão estimada aumentou de 66,4% para 90,4%, adicionando-se o número de entregas como uma segunda variável independente. 16 Coeficiente de Determinação Ajustado 2 r De uma maneira geral R2 aumenta à medida que aumentamos o número variáveis independentes. Muitos analistas preferem ajustar R2 ao número de variáveis independentes para evitar superestimar o impacto de adicionar uma variável independente na quantia de variabilidade explicada na equação de regressão estimada; a medida resultante é denominada coeficiente de determinação ajustado. 2 ajust. r n 1 2 1 (1 r ) n P 1 17 Cargos e salários O Jornal do Brasil costumava publicar, nas suas edições ao domingos, uma pesquisa de salários para diversos cargos, sendo informado, no apêndice metodológico, o número de anos de experiência requerido para cada cargo. Os dados referem-se a março/92 e abrangem os cargos que exigem curso superior. Imagine como um gerente de RH através de um modelo de análise de regressão, poderia utilizar esses dados para avaliar a estrutura da sua empresa. y: salário médio de cada cargo x: anos de experiência 18 Cargos e salários Estatística de regressão R múltiplo 0,9307592 R-Quadrado 0,8663127 R-quadrado ajustado 0,8609652 Erro padrão 748,84885 Observações 27 y 2814,38 1168,5 x ANOVA gl Regressão Resíduo Total Interseção Variável X 1 SQ MQ 1 90847500,9 90847501 25 14019365,1 560774,61 26 104866866 Coeficientes Erro padrão Stat t -2814,378 516,984932 -5,4438289 1168,652 91,8169548 12,728063 F F de significação 162,0035929 2,01125E-12 valor-P 95% inferiores95% superiores 1,18738E-05 -3879,127158 -1749,628 2,01125E-12 979,5515787 1357,752 19 Para pensar... E se adicionássemos mais uma variável... Como ficaria a nossa análise? y : salário médio de cada cargo x1: anos de experiência x2: cargo de gerência x2: variável simbólica ou muda (dummy),onde sim=1, não=0) 20 Análise ANOVA no Excel RESUMO DOS RESULTADOS Estatística de regressão 0,946868639 R múltiplo 0,89656022 R-Quadrado R-quadrado ajustado 0,887940238 672,2910317 Erro padrão 27 Observações y 1139,4 743,96x1 1525,5x2 ANOVA gl Regressão Resíduo Total Interseção Variável X 1 Variável X 2 F de significação F MQ SQ 1,50055E-12 2 94019460,4 47009730 104,0095 24 10847405,6 451975,23 26 104866866 Coeficientes -1139,388889 743,9591503 1525,496732 valor-P 95% inferiores95% superiore Stat t Erro padrão 784,339537 -1,452673 0,159265 -2758,185798 479,408 371,9135235 1116,005 180,263561 4,1270634 0,000382 337,0135616 2713,98 575,843909 2,6491497 0,014047 21 Análises Salariais: y 1139,4 743,96 x1 1525,5x2 Cargo 1: exigência de 7 anos de experiência, sem experiência gerencial y 1139,4 743,96 x1 1525,5 x2 y 4068 Cargo 2: exigência de 9 anos de experiência, com 1 ano de experiência gerencial y 1139,4 743,96 x1 1525,5 x2 y 7082 22 Consumo de SorveteAC Nielsen 23 Considerações iniciais Mercado de sorvete é muito sazonal, 30% das vendas no inverno e 70% no verão, quando ingressam mais concorrentes. As indústrias que permanecem no inverno e no verão são as que logram ter a liderança do setor e mantêm uma alta imagem de marca. O consumo per capita é apenas 3,5 litros (período abril-agosto), apresentando potencial de crescimento. 24 Consumo [k Litros] Temperatura média [°C] Precipitação [Dias] out/04 jul/04 abr/04 jan/04 out/03 jul/03 abr/03 jan/03 out/02 jul/02 abr/02 jan/02 out/01 jul/01 abr/01 jan/01 out/00 jul/00 abr/00 jan/00 out/99 jul/99 abr/99 jan/99 out/98 jul/98 abr/98 jan/98 Consumo 14 40 12 35 10 30 8 25 20 6 15 4 2 5 0 0 Climatologia Dados Estatísticos Série histórica mensal 1998 a 2004 10 Precipitação [cm] 25 Análise Quantitativa: Premissas: O Consumo de Sorvete é influenciado pelas condições sazonais climatológicas, Temperatura Média e Precipitação Pluviométrica (cm ou dias). Utilizamos os dados da região da Grande São Paulo, por ser este o maior mercado consumidor. Também influenciam o Consumo de Sorvete as variáveis simbólicas Campanhas e Lançamentos, bem como Racionamento de Energia. A política de reajustes de preços praticada no setor, segundo a inflação, torna as variáveis explicativas Preços e Inflação, pouco significativas para o objetivo deste nosso trabalho. A variável explicativa Renda não foi considerada, pois a sua influência na decisão de compra é muito baixa. Apesar de ser um artigo de luxo, o seu valor é significativamente baixo. 26 Análise ANOVA no Excel RESUMO DOS RESULTADOS Estatística de regressão R múltiplo R-Quadrado R-quadrado ajustado Erro padrão Observações 0,783509077 0,613886474 0,594336422 1,601234513 84 ANOVA gl Regressão Resíduo Total SQ MQ F F de significação 4 322,0401535 80,51004 31,40076 1,19531E-15 79 202,5522052 2,563952 83 524,5923588 Coeficientes Interseção Temperatura média [°C] Precipitação [Dias] Campanhas e Lançamentos Racionamento de energia -4,86079515 0,506402591 -0,073049748 2,786582291 -1,265044945 Erro padrão 1,830145557 0,104786828 0,037124445 0,404034802 0,597223575 Stat t -2,65596 4,832693 -1,9677 6,896887 -2,11821 valor-P 0,009564 6,5E-06 0,052612 1,18E-09 0,037301 95% inferiores -8,503611837 0,297829451 -0,14694417 1,982370455 -2,45378974 95% superiores -1,217978464 0,714975731 0,000844674 3,590794127 -0,076300151 Inferior 95,0% -8,50361 0,297829 -0,14694 1,98237 -2,45379 Superior 95,0% -1,21798 0,714976 0,000845 3,590794 -0,0763 27 Conclusão Para os dados considerados, o melhor modelo de regressão obtido foi: Consumo de Sorvete = - 3,35 + 0,3857*Temperatura Média + 2,589*Campanhas e Lançamentos - 1,246*Racionamento de Energia 59,5% das variações no Consumo de Sorvete podem ser explicadas, pelo modelo acima. 28 Para pensar... Você teria alguma sugestão de melhoria para o processo estatístico? 29 Melhorias para o processo estatístico Ampliar a coleta dos dados estatísticos utilizados, pois a análise de outros dados climatológicos, além dos dados da Grande São Paulo, podem aumentar a representatividade destas variáveis. Apesar de não termos evidências estatísticas da colinearidade entre temperatura e chuva, sabemos de relações físicas entre as mesmas, indicando a oportunidade de combinarmos estas variáveis, em uma única. A utilização da temperatura média não foi adequada, pois uma temperatura média, não provoca metade do consumo. Comentários..... Este mercado está muito influenciado pelas atividades de Marketing, que ocorrem principalmente no verão, com o lançamento agressivo de produtos novos, promoções e grandes campanhas de publicidade. Uma das principais variáveis incontroláveis que afetam o consumo é o clima, tanto em inverno como em verão (temperatura). Sabe-se que as variáveis distribuição e preços competitivos, também afetam o consumo. 30 Que processo de melhoria você sugere? Sugestão: Para o desenvolvimento do consumo de sorvete no Brasil é muito importante romper esta sazonalidade. Para isso recomendamos durante o inverno também ter atividades de Marketing que estimulem o consumo como lançamentos e promoções. Deveria ser feito um Programa de Desenvolvimento de Hábito de Consumo para os próximos 10 anos que seja implementado durante os 12 meses de cada ano, endossado por doutores, nutricionistas, reforçando os valores nutritivos do sorvete. 31 Estudo de caso: A Mountain States Potato Company A organização Mountain States Potato Company é um empresa de processamento de batatas do leste de Idaho. Um sub-produto do processo é utilizado para fabricação de ração para gado de engorda. Foi levantada a hipótese que o gado alimentado com esta ração não estava ganhando peso conforme esperado pelos clientes da Mountain States. Sabe-se historicamente que o market share da Mountain States foi de 11% e atualmente oscila entre 8 e 9%. A Mountain States deseja retornar aos níveis anteriores de participação no mercado e suspeita que a rejeição de seu produto esteja relacionada ao percentual de sólidos contido na ração produzida, fator que poderia justificar a reclamação dos clientes sobre o fato do gado não mais engordar. Pretendendo aumentar a satisfação de seus clientes para os níveis históricos, deseja-se identificar as variáveis do processo produtivo que podem influenciar o percentual de sólidos na ração. Espera-se que, após identificada estas variáveis, elas possam ser controladas, aumentando o percentual de sólidos na ração e a satisfação dos clientes tão logo o gado retorne aos padrões 32 anteriores de engorda. Estudo de caso: A Mountain States Potato Company Este trabalho visa avaliar as razões pela qual ração fabricada pela empresa Potato Company não está engordando o gado conforme esperado. Devido à essa alteração nas propriedades da ração, a empresa Potato Company perdeu nos últimos meses aproximadamente 3% do market share. Possíveis causas da perda do mercado é a alteração no teor de sólidos na ração. Supõe-se que essa alteração no nível de sólidos deva estar atrelada a dois fatores: pH (indica a ação bactericida do corante) e pressão inferior (pressão na linha do vácuo, abaixo da linha de fluido no cilindro rotativo). Com a utilização do método de regressão múltipla objetiva-se a identificação da maior causa de geração de sólidos na ração. 33 Primeira análise seria fazer a regressão múltipla vinculada aos dois fatores: pH e pressão inferior... 34 Estudo de caso: A Mountain States Potato Company 35 Estudo de caso: A Mountain States Potato Company y 3,82 2,84x1 0,28x 2 36 Estudo de caso: A Mountain States Potato Company A regressão está adequada para tomada de decisões? O que você acha Utilize as outras variáveis para as suas análises de regressão... 37 Previsão do IBOVESPA, considerando indicadores financeiros globais 38 Indicadores Variáveis Consideradas Desempenho das Bolsas de Valores Risco País Índice de Juros dos EUA Risco País Bolsas de valores (EMBI - Emerging Markets Bonds Índex) • Mostra a certeza ou falta de certeza que um país irá honrar seus compromissos; • Quanto mais alto for este número, maior a possibilidade de calote; • O banco J. P. Morgan foi o primeiro a fazer essa classificação; País Cidade Índice Alemanha Frankfurt DAX Brasil São Paulo BOVESPA Espanha Madri IBEX-35 Estados Unidos New York DOW JONES Estados Unidos New York NASDAQ Inglaterra Londres FTSE100 Japão Tokyo NIKKEI225 México México MXX 39 Podemos comprovar que existe relação entre o desempenho de alguns indicadores globais com o IBOVESPA ? 40 2003 a 2006 Mesma data para todas variáveis 41 Ótimo – Existe relação entre os indicadores. Na prática, o modelo se mostra adequado? É possível empregar os resultados do dia anterior para se prever o fechamento do dia atual. 42 2003 a 2006 D-1 todas as variáveis 43 Set 2005 – Fev 2006 (D-1 para Todos) 44 Simulação de Fechamentos IBOVESPA Fechamento Real Data do IBOVESPA 37777,00 37492,00 36682,00 37641,00 37577,00 37474,00 37851,00 38204,00 38049,00 38157,00 38244,00 37541,00 36793,00 36891,00 36312,00 37289,00 37423,00 38354,00 39240,00 39126,00 39178,00 30/mar/06 29/mar/06 28/mar/06 27/mar/06 24/mar/06 23/mar/06 22/mar/06 20/mar/06 17/mar/06 16/mar/06 15/mar/06 14/mar/06 13/mar/06 10/mar/06 09/mar/06 08/mar/06 07/mar/06 06/mar/06 03/mar/06 02/mar/06 01/mar/06 Data de Fechamento Valor Previsto das Variáveis de Fechamento Independentes do IBOVESPA 29/mar/06 28/mar/06 27/mar/06 24/mar/06 23/mar/06 22/mar/06 20/mar/06 17/mar/06 16/mar/06 15/mar/06 14/mar/06 13/mar/06 10/mar/06 09/mar/06 08/mar/06 07/mar/06 06/mar/06 03/mar/06 02/mar/06 01/mar/06 24-Feb-06 38020 37729 37888 38165 38092 38284 38435 38336 38447 38395 38133 37837 37472 37306 37578 38056 39191 39597 39607 39709 39076 Erro Percentual Intervalo de Confiança (95%) 0,643 0,631 3,288 1,391 1,370 2,161 1,543 0,345 1,046 0,624 -0,291 0,787 1,845 1,124 3,487 2,056 4,725 3,240 0,935 1,490 -0,259 ( 37651.1; 38388.7) ( 37344.1; 38112.9) ( 37399.2; 38376.9) ( 37557.3; 38772.1) ( 37477.6; 38706.2) ( 37534.0; 39033.7) ( 37853.6; 39016.3) ( 37739.7; 38932.0) ( 37857.5; 39036.5) ( 37967.5; 38822.5) ( 37713.1; 38552.6) ( 37424.6; 38248.4) ( 37046.5; 37897.2) ( 36946.2; 37665.3) ( 37203.8; 37952.4) ( 37695.1; 38416.1) ( 38784.6; 39597.8) ( 39088.4; 40105.3) ( 39150.2; 40063.7) ( 39241.2; 40176.8) ( 38657.5; 39495.2) Fechamento Intervalo de Predição Real Contido no (95%) Intervalo de Predição? ( 36731.2; 39308.7) Sim ( 36435.2; 39021.8) Sim ( 36560.0; 39216.1) Sim ( 36788.5; 39540.9) Sim ( 36712.7; 39471.1) Sim ( 36839.2; 39728.5) Sim ( 37070.1; 39799.8) Sim ( 36964.6; 39707.1) Sim ( 37078.6; 39815.4) Sim ( 37088.3; 39701.8) Sim ( 36828.6; 39437.1) Sim ( 36534.8; 39138.2) Sim ( 36165.8; 38777.9) Sim ( 36019.6; 38591.9) Sim ( 36287.8; 38868.4) Sim ( 36769.2; 39342.0) Sim ( 37891.1; 40491.3) Não ( 38261.4; 40932.3) Sim ( 38290.3; 40923.5) Sim ( 38388.5; 41029.5) Sim ( 37772.4; 40380.3) Sim Média 1,5% Vc compraria o meu modelo 45 Carros Esportivos A seguir são apresentados dados de preço, peso, potência e tempo para acelerar de zero a 60 mph e a velocidade após ¼ de milha para 16 carros esporte e GT (1998 Road & Track Sports & GT Cars). a) Desenvolva uma equação de regressão estimada com o preço, peso, cavalos e tempo para acelerar de zero a 60 mph com quatro variáveis independentes para prever a velocidade após ¼ de milha. b) Use o Teste t para determinar o significado de cada variável independente. Em um nível de significância de 5%, qual é sua conclusão? c) Remova qualquer variável independente que não seja significativa e forneça a sua recomendação de uma equação de regressão estimada. 46 Carros Esporte e GT Acura Integra Tipo R Acura NSX-T BMW Z3 2.8 Chevrolet Camaro Z28 Chevrolet Corvette Convertible Dodge Viper RT/10 Ford Mustang GT Honda Prelude tipo SH Mercedes Benz CLK320 Mercedes Benz SLK230 Mitsubishi 3000GT VR-4 Nissan 240SX SE Pontiac Firebird Trans Am Porsche Boxster Toyota Supra Turbo Volvo C70 Preço Peso (lbs.) (US$1000) 25,035 93,758 40,9 24,865 50,144 69,742 23,2 26,382 44,988 42,762 47,518 25,066 27,77 45,56 40,989 41,12 2577 3066 2844 3439 3246 3319 3227 3042 3240 3025 3737 2862 3455 2822 3505 3285 Potência Zero a 60 (seg.) 195 290 189 305 345 450 225 195 215 185 320 155 305 201 320 236 7 5 6,6 5,4 5,2 4,4 6,8 7,7 7,2 6,6 5,7 9,1 5,4 6,1 5,3 6,3 Velocidade a 1/4 de milha (mph) 90,7 108 93,2 103,2 102,1 116,2 91,7 89,7 93 92,3 99 84,6 103,2 93,2 105 97 (a) velocidade=97,6+0,0693(preço)-0,00082(peso)+0,0590(potência)-2,48(zero60) (b) preço e peso não são significativos; (c) velocidade=103+0,0558(potência)-3,19(zero60) 47 Companhia de Alimentos Predizendo vendas de um produto baseado em vários fatores Yen Chin Lee é a Gerente de Marketing da Country Kitchen Corporation (CKC), companhia de alimentos industrializados e está interessada em fazer previsões sobre as vendas de barras energéticas da Companhia. Baseada na sua intuição de gerente, Yen Chin descobriu que três fatores têm maior influência nas vendas de barras energéticas, são elas: gastos com publicidade (x1), gastos com materiais promocionais (x2) e as vendas dos concorrentes (x3). Yen gostaria de saber as vendas futuras nas regiões dadas na tabela como uma função da publicidade, materiais promocionais e concorrentes. Obtenha a equação de regressão tendo as vendas da empresa como variável dependentes e as demais sendo variáveis independentes e efetue uma previsão de vendas tendo como cenário: - Gastos com publicidade US$700.000 - Gastos com materiais promocionais US$600.000 - Vendas da concorrência US$31300.000 48 Companhia de Alimentos Predizendo vendas de um produto baseado em vários fatores Região Vendas (y) Publicidade (X1) Promoções (X2) Concorrência (X3) (US$milhões) (US$milhões) (US$milhões) (US$milhões) Selkirk 101,8 1,3 0,2 20,4 Susquehanna 44,4 0,7 0,2 30,5 Kittery 108,3 1,4 0,3 24,6 Acton 85,1 0,5 0,4 19,6 Finger lakes 77,1 0,5 0,6 25,5 Berkshire 158,7 1,9 0,4 21,7 Central 180,4 1,2 1 6,8 Providence 64,2 0,4 0,4 12,6 Nashua 74,6 0,6 0,5 31,3 Dunster 143,4 1,3 0,6 18,6 Endicott 120,6 1,6 0,8 19,9 Five-Towns 69,7 1 0,3 25,6 Waldeboro 67,8 0,8 0,2 27,4 Jackson 106,7 0,6 0,5 24,3 Stowe 119,6 1,1 0,3 13,7 49