MBA em Gestão de Projetos e Processos Organizacionais Estatística Aplicada Galo Lopez Noriega [email protected] 1 Regressão Linear Simples Levine: Capítulos 11 e 12 Anderson: Capítulo 12 2 Alguns Exemplos Aumento das vendas de acordo com a incidência de anúncios na TV em horário nobre; Receita do Hotel Bellagio em Las Vegas de acordo com o número de shows feitos pelo Cirque du Soleil; Coerência das deduções feitas pelos contribuintes em relação à sua receita bruta; Aumento do consumo de energia elétrica devido ao crescimento do uso de computadores; Taxas especiais em hotéis para quem viaja à negócios; Taxa de desemprego e taxa de criminalidade. 3 Previsão de Vendas Márcia M. é a Gerente de MKT da Mota & Alves Editora, uma grande editora de livros nacionais e importados. A M&A lançou um nova linha de livros de idiomas no mercado. Esta nova linha de produtos foi lançado inicialmente em algumas de suas unidades no nordeste norte americano, fazendo uso de campanhas publicitárias (a tabela a seguir mostra os gastos em publicidade e os valores das vendas). 4 Data da Introdução Mês ano Janeiro 1994 Fevereiro 1994 Março 1994 Abril 1994 Maio 1994 Junho 1994 Julho 1994 Agosto 1994 Setembro 1994 Outubro 1994 Novembro 1994 Dezembro 1994 Janeiro 1995 Fevereiro 1995 Região Maine New Hampshire Vermont Massachusetts Connecticut Rhode Island New York New Jersey Pennsylvania Delaware MaryLand Wet Virginia Virginia Ohio Gastos (milhões) Publicidade $1,80 $1,20 $0,40 $0,50 $2,50 $2,50 $1,50 $1,20 $1,60 $1,00 $1,50 $0,70 $1,00 $0,80 Vendas ( milhões) Primeiro ano $104,00 $68,00 $39,00 $43,00 $134,00 $127,00 $87,00 $77,00 $102,00 $65,00 $101,00 $46,00 $52,00 $33,00 5 Márcia está interessada em analisar estes dados para determinar quais serão as vendas em duas novas regiões nas quais as verbas para Publicidade são de US$ 2,0 milhões. Com base nas informações fornecidas gostaríamos responder as seguintes questões: 1) Qual a relação entre a publicidade e as vendas? 2) Qual o valor estimado para as vendas em regiões nas quais se pretende investir $2,0 milhões? 3) Quão confiáveis são estes valores estimados? 6 Primeiro vamos desenhar o gráfico scatter plot... Vendas Publicidade vs. Vendas $160,00 $140,00 $120,00 $100,00 $80,00 $60,00 $40,00 $20,00 $0,00 $0,00 $0,50 $1,00 $1,50 $2,00 $2,50 $3,00 Gastos em publicidade 7 Agora vamos adicionar a linha de tendência... Vendas Publicidade vs. Vendas $160,00 $140,00 $120,00 $100,00 $80,00 $60,00 $40,00 $20,00 $0,00 $0,00 y = 48,597x + 13,824 $0,50 $1,00 $1,50 $2,00 $2,50 $3,00 Gastos em publicidade Reta estimada 8 inclinações da reta Com isso, temos a Equação de Regressão Estimada... Para estimarmos quais serão as vendas para um investimento de $2,0 milhões em publicidade, basta usarmos a equação determinada: yˆ 13,82 48,6 x yˆ 13,82 48,6(2) US $111,02 Conclusão: As vendas estimadas serão de $111,02 milhões 9 Regressão Linear Simples A regressão linear simples ocorre quando desejamos explicar uma variável y usando uma variável explicativa x. O Modelo de Regressão Linear Simples: y 0 1x A Equação de Regressão Estimada Valores estimados yˆ b0 b1 x 10 Não é causa e efeito entre as variáveis Para pensar... Hummmm.... E se o coeficiente b1 for igual a zero??? 11 Para pensar... Se o coeficiente b1 for zero, então y não depende do valor de com x. Isso significa dizer que eles não são linearmente relacionados. Alternativamente, se o valor b1 não é igual a zero, concluímos que as duas variáveis estão relacionadas. Desta forma, para testarmos uma relação de regressão significante, devemos realizar um teste de hipóteses para determinar se o valor de b1 é zero. 12 Análise ANOVA no Excel... ANalysis Of VAriance Coeficiente de Correlação (–1<r<1) Relação Linear RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,964136108 R-Quadrado 0,929558435 R-quadrado ajustado 0,923688304 Erro padrão 9,106122272 Observações 14 Coeficiente de Determinação (0<r2<1) Relações lineares e não-lineares ANOVA gl Regressão Resíduo Total Interseção Variável X 1 SQ MQ F F de significação 1 13130,94245 13130,94245 158,3539653 2,8433E-08 12 995,057554 82,92146283 13 14126 Coeficientes Erro padrão Stat t valor-P 13,82374101 5,579203078 2,477726803 0,029078957 48,5971223 3,861856052 12,5838772 2,8433E-08 Teste t 95% inferiores 95% superiores 1,667701969 25,97978005 40,18286093 57,01138367 Valor p 13 Coeficiente de Correlação Como exemplo, podemos citar a correlação fortemente positiva da relação entre idade e estatura de uma criança; quanto maior a idade maior a estatura. Um exemplo de forte correlação negativa é a relação entre a temperatura e o consumo de cobertores; quando maior a temperatura, menor o consumo de cobertores. Um exemplo da inexistência de correlação é a relação entre o número do calçado de um adulto e o seu nível intelectual. Ou ainda, a paixão pelo Timão em função do número de vitórias ou derrotas! 14 Para pensar... Hummm.... Mas os valores que achamos têm significância? 15 Vamos ao Teste de Significância Inferências (hipóteses) sobre os parâmetros da população na Regressão Estabelecer conclusões sobre a inclinação da população 1 H0 : 1 = 0 H1 : 1 0 Caso 1 seja igual a zero, então y não depende de x (não existe relação) 16 Regra de Rejeição em um Nível de Significância Rejeite H0 se t < - t/2 ou se t > t/2 Onde t/2 é baseado em uma distribuição t com n – 2 graus de liberdade. A estatística de t segue uma distribuição com n-p-1 g.l. Rejeitar H0 Valor crítico Não rejeitar H0 Rejeitar H0 Valor crítico 17 Regra de Rejeição em um Nível de Significância Vamos ao nosso problema... Nossas hipóteses: H0 : 1 = 0 1- Pegamos a estatística t da nossa análise H1 : 1 0 ANOVA: Statistic t = 12,5838 2- Vamos comparar com a tabela t para um nível de significância de 0,05 e 12 graus de liberdade : t0,025 = 2,179 3- Comparando: 12,58 > 2,179 rejeito a hipótese de H0: 1 = 0. Isto é, existe uma relação entre x e y. 18 Tabela t-Student Temos 14 observações. Então n – 2 = 14 – 2 = 12 graus de liberdade Vamos analisar para um nível de significância de 5%. Isso é = 0,05. Para a nossa análise, precisamos de /2. Então, /2 = 0,025. Com isso entramos na tabela 19 Resumo R-Múltiplo=0,96 é o coeficiente de correlação amostral (lembre-se que o coeficiente de correlação situa-se entre –1 e 1) R-quadrado=0,93 é o coeficiente de Determinação da regressão. Explica que 93% das variações nas vendas (y) são “explicadas” pelos gastos em publicidade, ficando 7% sem explicação. O valor 0,0000000284 é o valor p do teste de hipótese de 1 ser zero. Como o p-value é menor que 5% rejeitamos a hipótese nula, isto é, 1 é diferente de zero. (p ≥ , a hipótese nula não é rejeitada; p < , a hipótese nula é rejeitada). A equação estimada é y = 13,82 + 48,6x 20 Exercício O índice Dow Jones Industrial Average (DJIA) e o Standard & Poor’s (S&P500) são ambos medidas da movimentação no mercado de ações. O DJIA é baseado na movimentação dos preços dos papéis das 30 maiores companhias, o S&P500 é um índice composto de 500 ações. A tabela a seguir mostra os índices para o DJIA e S&P500 para as últimas 10 semanas de 1997. 21 Data out/24 out/31 nov/07 nov/14 nov/21 nov/28 dez/05 dez/12 dez/19 dez/26 Dow Jones 7715 7442 7581 7572 7881 7823 8149 7838 7756 7679 S&P500 942 915 928 928 963 955 984 953 947 936 1) Qual é a relação entre o DJIA e o S&P500 ? 2) Quão confiáveis são os valores estimados? 22 Análise da Regressão y = 0,1006x + 166,08 Dow Jones versus S&P500 2 R = 0,9904 990 valores S&P500 980 970 960 950 940 930 920 910 7400 7500 7600 7700 7800 7900 8000 8100 8200 valores DJ 23 Análise ANOVA no Excel RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,995205176 R-Quadrado 0,990433342 R-quadrado ajustado Erro padrão 0,98923751 2,069336983 Observações 10 ANOVA gl Regressão Resíduo Total Interseção Dow Jones SQ MQ F F de significação 1 3546,64276 3546,642756 828,237722 2,29915E-09 8 34,2572444 4,282155549 9 3580,9 Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Inferior 95,0% Superior 95,0% 166,0828321 27,0767411 6,133782172 0,00027891 103,6437551 228,5219092 103,6437551 228,5219092 0,100601422 0,00349564 28,77911954 2,2992E-09 0,092540463 0,10866238 0,092540463 0,10866238 24 Regra de Rejeição em um Nível de Significância Vamos ao nosso problema... 1- Pegamos a estatística t da nossa análise ANOVA: Statistic t = 28,779 Nossas hipóteses: H0 : 1 = 0 H1 : 1 0 2- Vamos comparar com a tabela t para um nível de significância de 0,05 e 8 graus de liberdade t0,025 = 2,306 3- Comparando: 28,779 > 2,306 rejeito a hipótese de H0: 1 = 0. Isto é, existe uma relação entre x e y. 25 Tabela t-Student Temos 10 observações. Então n – 2 = 10 – 2 = 8 graus de liberdade Vamos analisar para um nível de significância de 5%. Isso é = 0,05. Para a nossa análise, precisamos de /2. Então, /2 = 0,025. Com isso entramos na tabela 26 Resumo da Análise de Regressão R2=0,99 indica que 99% da variação do S&P500 pode ser explicada pela variação do DJIA através da equação de regressão A Estatística de t é igual a 28,78, portanto, rejeitamos H0 e concluímos que existe uma relação linear entre y e x Equação de regressão y = 166,0828+0,100601x 27 Estudo de caso 1: Gastos e Desempenho Estudantil Deseja-se descobrir se o progresso educacional dos estudantes está relacionado com quanto um estado em que residem gasta com educação. Em muitas comunidades, essa importante questão tem sido colocada nas pautas das discussões pelos secretários de educação, que vêem uma relação positiva entre os gastos e o progresso dos estudantes, para que haja um aumento na taxa de gastos governamentais com o ensino. Neste caso você é convidado a analisar os dados relativos a gastos e pontuações de progresso para determinar se há alguma relação entre os gastos e o progresso dos estudantes nas escolas públicas. O Levantamento Nacional de Progresso Educacional (National Assessment Educational Progress-NAEP) é freqüentemente usado para medir a qualidade da educação nos EUA. O arquivo EC-Reg Linear.xls (planilha EC1-naep) exibe o gasto total corrente por aluno/ano e a pontuação média do teste NAEP para 35 estados participantes do programa. A pontuação média é a soma das pontuações em matemática, ciências e leitura no teste NAEP de 1996. A pontuação máxima é de 1300 pontos. 28 Relatório Gerencial: a) Desenvolva um resumo numérico e gráfico dos dados (média, desvio padrão e diagrama de dispersão). b) Verifique – utilizando regressão linear - se há alguma relação entre a quantia gasta por aluno e a pontuação média do teste NAEP. Discuta suas conclusões (teste o gasto como variável independente). c) Você acredita que a regressão estimada poderia ser usada para estimar as pontuações médias para estados que não participaram do programa NAEP? Explique. d) Suponha que você use na regressão somente estados que gastam no mínimo US$4000 por aluno e não mais que US$6000 por aluno. Para estes estados, a relação entre as duas variáveis parece ser de alguma forma diferente do conjunto completo de dados? Explique. e) Baseado nas suas análises, você acha que o nível de progresso educacional dos estudantes está relacionado com o montante que o estado gasta com educação? 29 Relatório Gerencial: Desenvolva um resumo numérico e gráfico dos dados (média, desvio padrão e diagrama de dispersão). Gasto por aluno (US$) Pontuação Média Média 5068,828571 Erro padrão 183,5153486 Mediana 4985 Modo #N/D Desvio padrão 1085,691444 Variância da amostra1178725,911 Curtose 1,125309956 Assimetria 0,881640123 Intervalo 4882 Mínimo 3280 Máximo 8162 Soma 177409 Contagem 35 Média Erro padrão Mediana Modo Desvio padrão Variância da amostra Curtose Assimetria Intervalo Mínimo Máximo Soma Contagem 631,1714 4,661028 628 580 27,57502 760,3815 -0,75544 -0,28605 95 580 675 22091 35 Gastos por Aluno versus Pontuação Média pontuação média 680 660 640 620 600 580 560 0 1.000 2.000 3.000 4.000 5.000 gastos com alunos 6.000 7.000 8.000 9.000 30 Relatório Gerencial: Verifique – utilizando regressão linear - se há alguma relação entre a quantia gasta por aluno e a pontuação média do teste NAEP. Discuta suas conclusões (teste o gasto como variável independente). Gastos por Aluno versus Pontuação Média y = 0,0087x + 587,32 pontuação média 680 R2 = 0,116 660 640 620 600 580 560 0 1.000 2.000 3.000 4.000 5.000 6.000 7.000 8.000 9.000 gastos com alunos O que você acha 31 Relatório Gerencial: Você acredita que a regressão estimada poderia ser usada para estimar as pontuações médias para estados que não participaram do programa NAEP? Explique. 32 Relatório Gerencial: Suponha que você use na regressão somente estados que gastam no mínimo US$4000 por aluno e não mais que US$6000 por aluno. Para estes estados, a relação entre as duas variáveis parece ser de alguma forma diferente do conjunto completo de dados? Explique. Gasto por Aluno versus Pontuação Média Pontuação Média 680 660 640 620 600 580 560 0 1.000 2.000 3.000 4.000 5.000 6.000 Gasto por Aluno O que você acha 33 Análise ANOVA no Excel RESUMO DOS RESULTADOS DE US$ 4000,00 à US$ 6000,00 Estatística de regressão R múltiplo R-Quadrado R-quadrado ajustado Erro padrão Observações 0,394666329 0,155761512 0,117387035 27,102816 24 ANOVA gl Regressão Resíduo Total Interseção Gasto por aluno (US$) SQ MQ F F de significação 1 2981,58 2981,58 4,058987 0,056320226 22 16160,38 734,5626 23 19141,96 Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Inferior 95,0% Superior 95,0% 524,2888252 53,35746 9,82597 1,66E-09 413,6322178 634,9454326 413,6322178 634,9454326 0,022119752 0,010979 2,014693 0,05632 -0,000649753 0,044889257 -0,000649753 0,044889257 34 Relatório Gerencial: Baseado nas suas análises, você acha que o nível de progresso educacional dos estudantes está relacionado com o montante que o estado gasta com educação? 35 Exercício Proposto A Value Line (February 24, 1995) reportou que o mercado beta para a Woolworth Corporation é 1,25. Mercados beta para ações são determinados por regressão linear simples. Para cada ação, a variável dependente é a sua porcentagem do retorno trimestral (valorização do capital mais dividendos) menos a porcentagem de retorno que poderia ser obtida de um investimento livre de riscos (risk-free). A variável independente é a porcentagem de retorno trimestral (valorização do capital mais dividendos) para o mercado de ações (S&P500) menos a porcentagem de retorno de um investimento livre de riscos. Uma equação de regressão estimada é desenvolvida com dados trimestrais; o mercado beta para a ação é a inclinação da equação de regressão estimada (b1). O valor do mercado beta é freqüentemente interpretado como uma medida do risco associado à ação. Mercados beta maiores que 1 indicam que ação é mais volátil do que a média do mercado; mercados beta menores que 1 indicam que a ação é menos volátil do que a média do mercado. 36 As diferenças entre a porcentagem de retorno e a porcentagem livre de riscos para 10 trimestres da S&P500 e da IBM são mostradas: a) Desenvolva a equação de regressão linear para determinar o mercado beta para a IBM. Qual é o mercado beta da IBM? b) Faça o teste t de significância da regressão com 0,05 de nível de significância c) A equação de regressão estimada forneceu um bom ajuste? Explique. d) Use os mercados beta da Woolworth e da IBM para comparar o risco associado às duas ações. S&P 500 1,2 -2,5 -3,0 2,0 5,0 1,2 3,0 -1,0 0,5 2,5 IBM -0,7 -2,0 -5,5 4,7 1,8 4,1 2,6 2,0 -1,3 5,5 (a) Mercado beta=0,95; (b)relação significante; (c)r2=0,470, não é um ajuste muito bom; (d) Woolworth tem um risco maior 37 a) Desenvolva a equação de regressão linear para determinar o mercado beta para a IBM. Qual é o mercado beta da IBM? S&P500 versus IBM y = 0,9498x + 0,2747 R2 = 0,4695 8,0 6,0 4,0 IBM 2,0 0,0 -4,0 -3,0 -2,0 -1,0 -2,0 0,0 1,0 2,0 3,0 4,0 5,0 6,0 -4,0 -6,0 -8,0 S&P500 Mercado beta da IBM é 0,95 (o coeficiente angular) 38 b) Faça o teste t de significância da regressão com 0,05 de nível de significância Nossas hipóteses: 1- Pegamos a estatística t da nossa análise ANOVA: Statistic t = 2,6609 H0 : 1 = 0 H1 : 1 0 2- Vamos comparar com a tabela t para um nível de significância de 0,05 e 8 graus de liberdade t0,025 = 2,306 3- Comparando: 2,6609 > 2,306 rejeito a hipótese de H0: 1 = 0. Isto é, existe uma relação entre x e y. 39 c) A equação de regressão estimada forneceu um bom ajuste? Explique. O que você acha d) Use os mercados beta da Woolworth e da IBM para comparar o risco associado às duas ações. Mercado beta da Woolworth é 1,25. Isso indica ações mais voláteis e portanto, maior risco. 40 Analisando a não-linearidade Anos 1 2 3 4 5 6 7 8 Gastos com propaganda (R$ mil) 7 6 4,5 3 2 1 8 8 Volume de vendas (mil un.) 7 5 3 1,5 1 0,5 7 9 41 Volume de vendas Desenhando o gráfico scatter plot... 10 8 6 4 2 0 0 2 4 6 8 10 Gastos com propaganda Como os dados estão relacionados 42 Tipos de regressão Função linear Função logarítm ica 13 Volume de vendas Volume de vendas 13 y = 1,1418x - 1,3878 R2 = 0,9456 8 3 -2 0 2 4 6 8 8 3 -2 10 y = 3,8457Ln(x) - 1,1303 R2 = 0,8085 0 2 4 Gastos com propaganda 10 8 10 Função polinom ial (2o grau) 13 Volume de vendas 13 1,3919 y = 0,4133x R2 = 0,9786 8 3 0 2 4 6 8 8 3 -2 10 y = 0,0953x 2 + 0,2491x + 0,0757 R2 = 0,967 0 2 4 6 Gastos com propaganda Gastos com propaganda Função exponencial 13 Volume de vendas Volume de vendas 8 Gastos com propaganda Função potência -2 6 y = 0,4424e0,3806x R2 = 0,9708 8 3 -2 0 2 4 6 Gastos com propaganda 8 10 43 Principais transformações lineares Tipo de função Linear Exponencial Potência Logarítimica Anos 1 2 3 4 5 6 7 8 Equação original Equação linearizada x y y=a+b.x y=a.eb.x y=ax b y=a+b.lnx y=a+b.x ln y=ln a + b.x ln y=ln a + b.ln x y=a+b.ln x x x ln x ln x y ln y ln y y Gastos com propaganda (R$ mil) 7 6 4,5 3 2 1 8 8 Volume de vendas (mil un.) 7 5 3 1,5 1 0,5 7 9 ln x 1,946 1,792 1,504 1,099 0,693 0,000 2,079 2,079 ln y 1,946 1,609 1,099 0,405 0,000 -0,693 1,946 2,197 44 Estatística de regressão R múltiplo 0,989257161 R-Quadrado 0,978629731 R-quadrado ajustado 0,975068019 Erro padrão 0,166589309 Observações 8 ANOVA gl Regressão Resíduo Total 1 6 7 Interseção ln x Coeficientes -0,883601976 1,391859059 SQ MQ F F de significação 7,625247085 7,6252471 274,7639 3,07462E-06 0,166511988 0,027752 7,791759073 Erro padrão Stat t valor-P 95% inferiores 95% superiores 0,131413674 -6,7238207 0,000526 -1,205159887 -0,562044065 0,083968313 16,576004 3,07E-06 1,186395849 1,59732227 45 Exercício de hoje Escolha um dos casos abaixo, faça todas as análises estatísticas e de regressão. O que podemos concluir? Estudo de caso 2: U.S. Department of Transportation Estudo de caso 3: Mudanças leste-oeste Estudo de caso 4: Springville Herald Entregar exercício, na próxima aula, em grupos de até 3 alunos. 46