MBA em Gestão de Projetos e
Processos Organizacionais
Estatística Aplicada
Galo Lopez Noriega
GaloCLN@insper.org.br
1
Regressão Linear
Simples
Levine: Capítulos 11 e 12
Anderson: Capítulo 12
2
Alguns Exemplos
 Aumento das vendas de acordo com a incidência de
anúncios na TV em horário nobre;
 Receita do Hotel Bellagio em Las Vegas de acordo
com o número de shows feitos pelo Cirque du Soleil;
 Coerência das deduções feitas pelos contribuintes em
relação à sua receita bruta;
 Aumento do consumo de energia elétrica devido ao
crescimento do uso de computadores;
 Taxas especiais em hotéis para quem viaja à
negócios;
 Taxa de desemprego e taxa de criminalidade.
3
Previsão de Vendas
Márcia M. é a Gerente de MKT da Mota & Alves Editora,
uma grande editora de livros nacionais e importados. A
M&A lançou um nova linha de livros de idiomas no
mercado. Esta nova linha de produtos foi lançado
inicialmente em algumas de suas unidades no nordeste
norte americano, fazendo uso de campanhas publicitárias
(a tabela a seguir mostra os gastos em publicidade e os
valores das vendas).
4
Data da Introdução
Mês
ano
Janeiro
1994
Fevereiro
1994
Março
1994
Abril
1994
Maio
1994
Junho
1994
Julho
1994
Agosto
1994
Setembro
1994
Outubro
1994
Novembro
1994
Dezembro
1994
Janeiro
1995
Fevereiro
1995
Região
Maine
New Hampshire
Vermont
Massachusetts
Connecticut
Rhode Island
New York
New Jersey
Pennsylvania
Delaware
MaryLand
Wet Virginia
Virginia
Ohio
Gastos (milhões)
Publicidade
$1,80
$1,20
$0,40
$0,50
$2,50
$2,50
$1,50
$1,20
$1,60
$1,00
$1,50
$0,70
$1,00
$0,80
Vendas ( milhões)
Primeiro ano
$104,00
$68,00
$39,00
$43,00
$134,00
$127,00
$87,00
$77,00
$102,00
$65,00
$101,00
$46,00
$52,00
$33,00
5
Márcia está interessada em analisar estes dados para
determinar quais serão as vendas em duas novas regiões
nas quais as verbas para Publicidade são de US$ 2,0
milhões.
Com base nas informações fornecidas gostaríamos
responder as seguintes questões:
1) Qual a relação entre a publicidade e as vendas?
2) Qual o valor estimado para as vendas em regiões
nas quais se pretende investir $2,0 milhões?
3) Quão confiáveis são estes valores estimados?
6
Primeiro vamos desenhar o
gráfico scatter plot...
Vendas
Publicidade vs. Vendas
$160,00
$140,00
$120,00
$100,00
$80,00
$60,00
$40,00
$20,00
$0,00
$0,00
$0,50
$1,00
$1,50
$2,00
$2,50
$3,00
Gastos em publicidade
7
Agora vamos adicionar a
linha de tendência...
Vendas
Publicidade vs. Vendas
$160,00
$140,00
$120,00
$100,00
$80,00
$60,00
$40,00
$20,00
$0,00
$0,00
y = 48,597x + 13,824
$0,50
$1,00
$1,50
$2,00
$2,50
$3,00
Gastos em publicidade
Reta estimada
8
inclinações da reta
Com isso, temos a Equação
de Regressão Estimada...
Para estimarmos quais serão as vendas para um
investimento de $2,0 milhões em publicidade, basta
usarmos a equação determinada:
yˆ  13,82  48,6 x
yˆ  13,82  48,6(2)  US $111,02
Conclusão: As vendas estimadas serão de $111,02
milhões
9
Regressão Linear Simples
A regressão linear simples ocorre quando desejamos
explicar uma variável y usando uma variável explicativa x.
O Modelo de Regressão Linear Simples:
y  0  1x  
A Equação de Regressão Estimada
Valores
estimados
yˆ  b0  b1 x
10
Não é causa e efeito entre as variáveis
Para pensar...
Hummmm.... E se o
coeficiente b1 for igual
a zero???
11
Para pensar...
Se o coeficiente b1 for zero, então y não
depende do valor de com x. Isso significa
dizer que eles não são linearmente
relacionados. Alternativamente, se o valor
b1 não é igual a zero, concluímos que as
duas variáveis estão relacionadas. Desta
forma, para testarmos uma relação de
regressão significante, devemos realizar
um teste de hipóteses para determinar se
o valor de b1 é zero.
12
Análise ANOVA no Excel...
ANalysis Of VAriance
Coeficiente de
Correlação (–1<r<1)
Relação Linear
RESUMO DOS RESULTADOS
Estatística de regressão
R múltiplo
0,964136108
R-Quadrado
0,929558435
R-quadrado ajustado
0,923688304
Erro padrão
9,106122272
Observações
14
Coeficiente de
Determinação
(0<r2<1)
Relações lineares e
não-lineares
ANOVA
gl
Regressão
Resíduo
Total
Interseção
Variável X 1
SQ
MQ
F
F de significação
1 13130,94245 13130,94245 158,3539653
2,8433E-08
12 995,057554 82,92146283
13
14126
Coeficientes Erro padrão
Stat t
valor-P
13,82374101 5,579203078 2,477726803 0,029078957
48,5971223 3,861856052 12,5838772 2,8433E-08
Teste t
95% inferiores 95% superiores
1,667701969
25,97978005
40,18286093
57,01138367
Valor p
13
Coeficiente de Correlação
Como exemplo, podemos citar a correlação fortemente
positiva da relação entre idade e estatura de uma criança;
quanto maior a idade maior a estatura.
Um exemplo de forte correlação negativa é a relação entre
a temperatura e o consumo de cobertores; quando maior a
temperatura, menor o consumo de cobertores.
Um exemplo da inexistência de correlação é a relação
entre o número do calçado de um adulto e o seu nível
intelectual.
Ou ainda, a paixão pelo Timão em função do número de
vitórias ou derrotas!
14
Para pensar...
Hummm.... Mas os valores
que achamos têm
significância?
15
Vamos ao Teste de Significância
Inferências (hipóteses) sobre os parâmetros da
população na Regressão
Estabelecer conclusões sobre a inclinação da população 1
H0 :  1 = 0
H1 :  1  0
Caso 1 seja igual a zero, então y não depende de x (não existe relação)
16
Regra de Rejeição em um Nível
de Significância 
Rejeite H0 se t < - t/2 ou se t > t/2
Onde t/2 é baseado em uma distribuição t
com n – 2 graus de liberdade.
A estatística de t segue uma
distribuição com n-p-1 g.l.
Rejeitar H0
Valor
crítico
Não rejeitar H0
Rejeitar H0
Valor
crítico
17
Regra de Rejeição em um Nível
de Significância 
Vamos ao nosso problema...
Nossas hipóteses:
H0 :  1 = 0
1- Pegamos a estatística t da nossa análise
H1 :  1  0
ANOVA:
Statistic t = 12,5838
2- Vamos comparar com a tabela t para um nível de
significância de 0,05 e 12 graus de liberdade :
t0,025 = 2,179
3- Comparando:
12,58 > 2,179
 rejeito a hipótese de H0: 1 = 0.
Isto é, existe uma relação entre x e y.
18
Tabela t-Student
Temos 14
observações.
Então n – 2 =
14 – 2 = 12
graus de
liberdade
Vamos analisar
para um nível de
significância  de
5%. Isso é  = 0,05.
Para a nossa
análise,
precisamos de /2.
Então, /2 = 0,025.
Com isso entramos
na tabela
19
Resumo
R-Múltiplo=0,96 é o coeficiente de correlação amostral (lembre-se
que o coeficiente de correlação situa-se entre –1 e 1)
R-quadrado=0,93 é o coeficiente de Determinação da regressão.
Explica que 93% das variações nas vendas (y) são “explicadas” pelos
gastos em publicidade, ficando 7% sem explicação.
O valor 0,0000000284 é o valor p do teste de hipótese de 1 ser
zero. Como o p-value é menor que 5% rejeitamos a hipótese nula,
isto é, 1 é diferente de zero. (p ≥ , a hipótese nula não é
rejeitada; p < , a hipótese nula é rejeitada).
A equação estimada é y = 13,82 + 48,6x
20
Exercício
O índice Dow Jones Industrial Average (DJIA) e o
Standard & Poor’s (S&P500) são ambos medidas da
movimentação no mercado de ações. O DJIA é
baseado na movimentação dos preços dos papéis
das 30 maiores companhias, o S&P500 é um índice
composto de 500 ações. A tabela a seguir mostra os
índices para o DJIA e S&P500 para as últimas 10
semanas de 1997.
21
Data
out/24
out/31
nov/07
nov/14
nov/21
nov/28
dez/05
dez/12
dez/19
dez/26
Dow Jones
7715
7442
7581
7572
7881
7823
8149
7838
7756
7679
S&P500
942
915
928
928
963
955
984
953
947
936
1) Qual é a relação entre o DJIA e o S&P500 ?
2) Quão confiáveis são os valores estimados?
22
Análise da Regressão
y = 0,1006x + 166,08
Dow Jones versus S&P500
2
R = 0,9904
990
valores S&P500
980
970
960
950
940
930
920
910
7400
7500
7600
7700
7800
7900
8000
8100
8200
valores DJ
23
Análise ANOVA no Excel
RESUMO DOS RESULTADOS
Estatística de regressão
R múltiplo
0,995205176
R-Quadrado
0,990433342
R-quadrado ajustado
Erro padrão
0,98923751
2,069336983
Observações
10
ANOVA
gl
Regressão
Resíduo
Total
Interseção
Dow Jones
SQ
MQ
F
F de significação
1 3546,64276 3546,642756 828,237722
2,29915E-09
8 34,2572444 4,282155549
9
3580,9
Coeficientes Erro padrão
Stat t
valor-P
95% inferiores 95% superiores Inferior 95,0% Superior 95,0%
166,0828321 27,0767411 6,133782172 0,00027891
103,6437551
228,5219092 103,6437551
228,5219092
0,100601422 0,00349564 28,77911954 2,2992E-09
0,092540463
0,10866238 0,092540463
0,10866238
24
Regra de Rejeição em um Nível
de Significância 
Vamos ao nosso problema...
1- Pegamos a estatística t da nossa análise
ANOVA:
Statistic t = 28,779
Nossas hipóteses:
H0 :  1 = 0
H1 :  1  0
2- Vamos comparar com a tabela t para um nível de
significância de 0,05 e 8 graus de liberdade
t0,025 = 2,306
3- Comparando:
28,779 > 2,306
 rejeito a hipótese de H0: 1 = 0.
Isto é, existe uma relação entre x e y.
25
Tabela t-Student
Temos 10
observações.
Então n – 2 =
10 – 2 = 8
graus de
liberdade
Vamos analisar
para um nível de
significância  de
5%. Isso é  = 0,05.
Para a nossa
análise,
precisamos de /2.
Então, /2 = 0,025.
Com isso entramos
na tabela
26
Resumo da Análise de Regressão

R2=0,99 indica que 99% da variação do S&P500 pode ser
explicada pela variação do DJIA através da equação de
regressão

A Estatística de t é igual a 28,78, portanto, rejeitamos H0 e
concluímos que existe uma relação linear entre y e x

Equação de regressão y = 166,0828+0,100601x
27
Estudo de caso 1:
Gastos e Desempenho Estudantil
Deseja-se descobrir se o progresso educacional dos estudantes está relacionado com
quanto um estado em que residem gasta com educação. Em muitas comunidades, essa
importante questão tem sido colocada nas pautas das discussões pelos secretários de
educação, que vêem uma relação positiva entre os gastos e o progresso dos estudantes,
para que haja um aumento na taxa de gastos governamentais com o ensino. Neste caso
você é convidado a analisar os dados relativos a gastos e pontuações de progresso para
determinar se há alguma relação entre os gastos e o progresso dos estudantes nas
escolas públicas.
O Levantamento Nacional de Progresso Educacional (National Assessment Educational
Progress-NAEP) é freqüentemente usado para medir a qualidade da educação nos EUA.
O arquivo EC-Reg Linear.xls (planilha EC1-naep) exibe o gasto total corrente por
aluno/ano e a pontuação média do teste NAEP para 35 estados participantes do
programa.
A pontuação média é a soma das pontuações em matemática, ciências e leitura no teste
NAEP de 1996. A pontuação máxima é de 1300 pontos.
28
Relatório Gerencial:
a)
Desenvolva um resumo numérico e gráfico dos dados (média, desvio padrão e
diagrama de dispersão).
b)
Verifique – utilizando regressão linear - se há alguma relação entre a quantia
gasta por aluno e a pontuação média do teste NAEP. Discuta suas conclusões
(teste o gasto como variável independente).
c)
Você acredita que a regressão estimada poderia ser usada para estimar as
pontuações médias para estados que não participaram do programa NAEP?
Explique.
d)
Suponha que você use na regressão somente estados que gastam no mínimo
US$4000 por aluno e não mais que US$6000 por aluno. Para estes estados, a
relação entre as duas variáveis parece ser de alguma forma diferente do
conjunto completo de dados? Explique.
e)
Baseado nas suas análises, você acha que o nível de progresso educacional
dos estudantes está relacionado com o montante que o estado gasta com
educação?
29
Relatório Gerencial:
Desenvolva um resumo numérico e gráfico dos dados (média, desvio padrão e
diagrama de dispersão).
Gasto por aluno (US$)
Pontuação Média
Média
5068,828571
Erro padrão
183,5153486
Mediana
4985
Modo
#N/D
Desvio padrão
1085,691444
Variância da amostra1178725,911
Curtose
1,125309956
Assimetria
0,881640123
Intervalo
4882
Mínimo
3280
Máximo
8162
Soma
177409
Contagem
35
Média
Erro padrão
Mediana
Modo
Desvio padrão
Variância da amostra
Curtose
Assimetria
Intervalo
Mínimo
Máximo
Soma
Contagem
631,1714
4,661028
628
580
27,57502
760,3815
-0,75544
-0,28605
95
580
675
22091
35
Gastos por Aluno versus Pontuação Média
pontuação média
680
660
640
620
600
580
560
0
1.000
2.000
3.000
4.000
5.000
gastos com alunos
6.000
7.000
8.000
9.000
30
Relatório Gerencial:
Verifique – utilizando regressão linear - se há alguma relação entre a quantia gasta por
aluno e a pontuação média do teste NAEP. Discuta suas conclusões (teste o gasto
como variável independente).
Gastos por Aluno versus Pontuação Média
y = 0,0087x + 587,32
pontuação média
680
R2 = 0,116
660
640
620
600
580
560
0
1.000
2.000
3.000
4.000
5.000
6.000
7.000
8.000
9.000
gastos com alunos
O que você acha
31
Relatório Gerencial:
Você acredita que a regressão estimada poderia ser usada para estimar as pontuações
médias para estados que não participaram do programa NAEP? Explique.
32
Relatório Gerencial:
Suponha que você use na regressão somente estados que gastam no mínimo US$4000
por aluno e não mais que US$6000 por aluno. Para estes estados, a relação entre
as duas variáveis parece ser de alguma forma diferente do conjunto completo de
dados? Explique.
Gasto por Aluno versus Pontuação Média
Pontuação Média
680
660
640
620
600
580
560
0
1.000
2.000
3.000
4.000
5.000
6.000
Gasto por Aluno
O que você acha
33
Análise ANOVA no Excel
RESUMO DOS RESULTADOS DE US$ 4000,00 à US$ 6000,00
Estatística de regressão
R múltiplo
R-Quadrado
R-quadrado ajustado
Erro padrão
Observações
0,394666329
0,155761512
0,117387035
27,102816
24
ANOVA
gl
Regressão
Resíduo
Total
Interseção
Gasto por aluno (US$)
SQ
MQ
F
F de significação
1 2981,58 2981,58 4,058987
0,056320226
22 16160,38 734,5626
23 19141,96
Coeficientes Erro padrão Stat t
valor-P
95% inferiores 95% superiores Inferior 95,0% Superior 95,0%
524,2888252 53,35746 9,82597 1,66E-09
413,6322178 634,9454326 413,6322178
634,9454326
0,022119752 0,010979 2,014693 0,05632
-0,000649753 0,044889257 -0,000649753
0,044889257
34
Relatório Gerencial:
Baseado nas suas análises, você acha que o nível de progresso educacional dos
estudantes está relacionado com o montante que o estado gasta com educação?
35
Exercício Proposto
A Value Line (February 24, 1995) reportou que o mercado beta para a
Woolworth Corporation é 1,25. Mercados beta para ações são
determinados por regressão linear simples. Para cada ação, a variável
dependente é a sua porcentagem do retorno trimestral (valorização do
capital mais dividendos) menos a porcentagem de retorno que poderia ser
obtida de um investimento livre de riscos (risk-free).
A variável
independente é a porcentagem de retorno trimestral (valorização do
capital mais dividendos) para o mercado de ações (S&P500) menos a
porcentagem de retorno de um investimento livre de riscos. Uma equação
de regressão estimada é desenvolvida com dados trimestrais; o mercado
beta para a ação é a inclinação da equação de regressão estimada (b1).
O valor do mercado beta é freqüentemente interpretado como uma
medida do risco associado à ação. Mercados beta maiores que 1 indicam
que ação é mais volátil do que a média do mercado; mercados beta
menores que 1 indicam que a ação é menos volátil do que a média do
mercado.
36
As diferenças entre a porcentagem de retorno e a porcentagem livre de
riscos para 10 trimestres da S&P500 e da IBM são mostradas:
a) Desenvolva a equação de regressão
linear para determinar o mercado beta
para a IBM. Qual é o mercado beta da
IBM?
b) Faça o teste t de significância da
regressão com 0,05 de nível de
significância
c) A equação de regressão estimada
forneceu um bom ajuste? Explique.
d) Use os mercados beta da Woolworth e
da IBM para comparar o risco associado
às duas ações.
S&P 500
1,2
-2,5
-3,0
2,0
5,0
1,2
3,0
-1,0
0,5
2,5
IBM
-0,7
-2,0
-5,5
4,7
1,8
4,1
2,6
2,0
-1,3
5,5
(a) Mercado beta=0,95; (b)relação significante; (c)r2=0,470, não é
um ajuste muito bom; (d) Woolworth tem um risco maior
37
a) Desenvolva a equação de regressão linear para determinar o mercado
beta para a IBM. Qual é o mercado beta da IBM?
S&P500 versus IBM
y = 0,9498x + 0,2747
R2 = 0,4695
8,0
6,0
4,0
IBM
2,0
0,0
-4,0
-3,0
-2,0
-1,0
-2,0
0,0
1,0
2,0
3,0
4,0
5,0
6,0
-4,0
-6,0
-8,0
S&P500
Mercado beta da IBM é 0,95 (o coeficiente angular)
38
b) Faça o teste t de significância da regressão com 0,05 de nível de
significância
Nossas hipóteses:
1- Pegamos a estatística t da nossa análise
ANOVA:
Statistic t = 2,6609
H0 :  1 = 0
H1 :  1  0
2- Vamos comparar com a tabela t para um nível de
significância de 0,05 e 8 graus de liberdade
t0,025 = 2,306
3- Comparando:
2,6609 > 2,306
 rejeito a hipótese de H0: 1 = 0.
Isto é, existe uma relação entre x e y.
39
c) A equação de regressão estimada forneceu um bom ajuste? Explique.
O que você acha
d) Use os mercados beta da Woolworth e da IBM para comparar o risco
associado às duas ações.
Mercado beta da Woolworth é 1,25. Isso indica ações mais
voláteis e portanto, maior risco.
40
Analisando a não-linearidade
Anos
1
2
3
4
5
6
7
8
Gastos com
propaganda (R$ mil)
7
6
4,5
3
2
1
8
8
Volume de vendas
(mil un.)
7
5
3
1,5
1
0,5
7
9
41
Volume de vendas
Desenhando o gráfico scatter plot...
10
8
6
4
2
0
0
2
4
6
8
10
Gastos com propaganda
Como os dados estão
relacionados
42
Tipos de regressão
Função linear
Função logarítm ica
13
Volume de
vendas
Volume de
vendas
13
y = 1,1418x - 1,3878
R2 = 0,9456
8
3
-2
0
2
4
6
8
8
3
-2
10
y = 3,8457Ln(x) - 1,1303
R2 = 0,8085
0
2
4
Gastos com propaganda
10
8
10
Função polinom ial (2o grau)
13
Volume de
vendas
13
1,3919
y = 0,4133x
R2 = 0,9786
8
3
0
2
4
6
8
8
3
-2
10
y = 0,0953x 2 + 0,2491x + 0,0757
R2 = 0,967
0
2
4
6
Gastos com propaganda
Gastos com propaganda
Função exponencial
13
Volume de
vendas
Volume de
vendas
8
Gastos com propaganda
Função potência
-2
6
y = 0,4424e0,3806x
R2 = 0,9708
8
3
-2
0
2
4
6
Gastos com propaganda
8
10
43
Principais transformações lineares
Tipo de
função
Linear
Exponencial
Potência
Logarítimica
Anos
1
2
3
4
5
6
7
8
Equação original
Equação linearizada
x
y
y=a+b.x
y=a.eb.x
y=ax b
y=a+b.lnx
y=a+b.x
ln y=ln a + b.x
ln y=ln a + b.ln x
y=a+b.ln x
x
x
ln x
ln x
y
ln y
ln y
y
Gastos com
propaganda (R$ mil)
7
6
4,5
3
2
1
8
8
Volume de vendas
(mil un.)
7
5
3
1,5
1
0,5
7
9
ln x
1,946
1,792
1,504
1,099
0,693
0,000
2,079
2,079
ln y
1,946
1,609
1,099
0,405
0,000
-0,693
1,946
2,197
44
Estatística de regressão
R múltiplo
0,989257161
R-Quadrado
0,978629731
R-quadrado ajustado
0,975068019
Erro padrão
0,166589309
Observações
8
ANOVA
gl
Regressão
Resíduo
Total
1
6
7
Interseção
ln x
Coeficientes
-0,883601976
1,391859059
SQ
MQ
F
F de significação
7,625247085 7,6252471 274,7639
3,07462E-06
0,166511988 0,027752
7,791759073
Erro padrão
Stat t
valor-P
95% inferiores 95% superiores
0,131413674 -6,7238207 0,000526
-1,205159887 -0,562044065
0,083968313 16,576004 3,07E-06
1,186395849
1,59732227
45
Exercício de hoje
Escolha um dos casos abaixo, faça todas as análises
estatísticas e de regressão. O que podemos concluir?
Estudo de caso 2: U.S. Department of Transportation
Estudo de caso 3: Mudanças leste-oeste
Estudo de caso 4: Springville Herald
Entregar exercício, na próxima aula,
em grupos de até 3 alunos.
46
Download

Apostila - Programa de PÓS