IV – Regressão e correlação
IV.4. (cont.) Significância
Estatística e Regressão Múltipla
Tratamento de Dados
2º Semestre 2005/2006
Significância Estatística
Existe uma estatítica, o t-estatístico, associado
a cada estimativa
O t-estatístico mede a distância do valor
estimado a zero em termos de desvio padrão
Se o valor do t-estatístico for igual ou superior
a 2 em valor absoluto, então o coeficiente
associado tem significância estatística
Tratamento de Dados
2º Semestre 2005/2006
Cálculo de t-estatístico
O t-estatístico é igual ao valor da estimativa do
coeficiente a dividir pelo desvio padrão do
coeficiente.
Porque existe um desvio padrão associado a cada
coeficiente da regressão linear?
O que significa ter significância estatística?
Acreditamos que o coeficiente é diferente de zero para um
determinado nível de confiança.
Tratamento de Dados
2º Semestre 2005/2006
Exemplo: Golfe e Performance
Regressão linear entre performance financeira da empresa e golfe handicap
do CEO da empresa (amostra de 51 empresas das 500 maiores da Fortune)
Handicaps and Corporate Performance
120
y = -0.1734x + 55.137
R2 = 0.0017
Performance
100
80
60
40
20
0
0
5
10
15
20
25
Handicap
Tratamento de Dados
2º Semestre 2005/2006
30
35
40
Excel Output: Golfe e Performance
SUM M A RY OUTPUT
Regression Statistics
M ultiple R
0.042
R Square
0.002
A djusted R Square
-0.019
Standard Error
25.38
Observations
51
A NOVA
df
Regression
Residual
Total
Intercept
Handicap
Tratamento de Dados
1
49
50
SS
MS
55.05295154 55.0529515
31567.65293 644.237815
31622.70588
t Stat
CoefficientsStandard Error
55.1373367
9.790428944 5.63175904
-0.17343047
0.593277937 -0.2923258
2º Semestre 2005/2006
Problema Geral em Estatística
Os dados provêm de uma amostra retirada da
população
Usamos características da amostra como
estimativa das características da população
Uma amostra diferente implica estimativas
diferentes
Tratamento de Dados
2º Semestre 2005/2006
Caso de Golfe e Performance
Com uma amostra diferente de CEOs, não
obteríamos uma estimativa de -0.1734
O desvio padrão da estimativa mede a
precisão com que a estimativa é feita
Existe uma probabilidade de cerca de 95% de
que a estimativa esteja até 2 desvios padrão
do verdadeiro valor do parâmetro
Tratamento de Dados
2º Semestre 2005/2006
Distribuição do valor do coeficiente
associado a Handicap
0.6
0.5
0.4
0.3
0.2
0.1
-4
-2
00
2
H
4
Seria uma surpresa se o verdadeiro valor do declive
fosse igual a zero?
Tratamento de Dados
2º Semestre 2005/2006
Detalhes sobre t-estatístico*
Calculado como o valor da estimativa do coeficiente
a dividir pelo desvio padrão do coeficiente estimado
O t-estatístico tem distribuição t com N - k - 1 graus
de liberdade, sendo k o número de variáveis
explicativas
O valor de t é aproximadamente igual a 2 para um
teste a nível de significância de 5% (2-tail)
Para obter precisão, verifiquem se o p-value < 0.05
* (nas aulas de estatística irão discutir este tema em teste de hipóteses)
Tratamento de Dados
2º Semestre 2005/2006
Regressão Múltipla
Regressão linear com mais de uma variável
explicativa:
ys = b0 + b1 x1s +...+bk xks + ε s
xis corresponde ao valor da variável i para a
observação s
O Excel determina os coeficientes de xis que
minimizam a soma dos quadrados dos erros da
regressão (SSE)
Tratamento de Dados
2º Semestre 2005/2006
Relebrem caso discriminação
salarial
yˆ = a + bI F
Excel Output
a = 60,983
b = - 3,166.67
Verificamos que a
estimativa do declive
corresponde à diferença
entre as médias
Tratamento de Dados
Average of Earnings
Gender
Total
F
57816.67
M
60983.33
Grand Total
59400
2º Semestre 2005/2006
Adicionando Experiência
Tabela de Contingência
Gender
Male/Femal
Experience
Data
F
M
Grand Total Difference
10 Average of Earnings
57150
59650 57983.33
2500
Count of Earnings
40
20
60
20 Average of Earnings
59150
61650 60816.67
2500
Count of Earnings
20
40
60
Total Average of Earnings
57816.67 60983.33
59400 3166.67
Total Count of Earnings
60
60
120
Experiência medida por anos de trabalho
Tratamento de Dados
2º Semestre 2005/2006
Regressão Linear com Experiência
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.39
R Square
0.15
Adjusted R Square
0.14
Standard Error
4389.67
Observations
120.00
ANOVA
df
Regression
Residual
Total
SS
2.00 407500000.00
117.00 2254500000.00
119.00 2662000000.00
Intercept
Experience
Female
Coefficients Standard Error
57650.00
1525.90
200.00
85.01
-2500.00
850.06
Tratamento de Dados
2º Semestre 2005/2006
MS
203750000.00
19269230.77
F
10.57
t Stat
P-value
37.78
0.00
2.35
0.02
-2.94
0.00
Adicionando IQ – Coeficiente de Inteligência
Tabela de Contingência
IQ
101-110
Data
Average of Earnings
Count of Earnings
111-120 Average of Earnings
Count of Earnings
121-130 Average of Earnings
Count of Earnings
131-140 Average of Earnings
Count of Earnings
141-150 Average of Earnings
Count of Earnings
Total Average of Earnings
Total Count of Earnings
Tratamento de Dados
Gender
F
51816.66667
12
54816.66667
12
57816.66667
12
60816.66667
12
63816.66667
12
57816.66667
60
M
54983.33333
12
57983.33333
12
60983.33333
12
63983.33333
12
66983.33333
12
60983.33333
60
2º Semestre 2005/2006
Male/Fem.
Grand Total Diff.
53400 3166.667
24
56400 3166.667
24
59400 3166.667
24
62400 3166.667
24
65400 3166.667
24
59400 3166.667
120
Regressão Linear com IQ
SUMMARY OUTPUT
Regression Statistics
Multiple R
0.98
R Square
0.96
Adjusted R Square
0.96
Standard Error
954.82
Observations
120.00
ANOVA
df
Regression
Residual
Total
Intercept
Female
IQ
Tratamento de Dados
SS
MS
F
2.00 2555333333.33 1277666666.67 1401.44
117.00 106666666.67
911680.91
119.00 2662000000.00
Coefficients Standard Error
23333.33
767.08
-3166.67
174.33
300.00
6.03
2º Semestre 2005/2006
t Stat
P-value
30.42
0.00
-18.17
0.00
49.73
0.00
Pontos Chave na Interpretação
Adicionar uma variável permite controlar o seu efeito na
regressão: permite manter a variável a níveis constantes
Semelhante a análise através de tabelas de contingência
Adicionar uma variável pode alterar a estimativa dos
coeficientes de outras variáveis (ex. ao adicionar experiência
altera-se a estimativa do coeficiente do indicador ‘female’)
Controlar uma variável correlacionada com outra variável explicativa
elimina ‘bias’ ou enviezamento na estimativa dos efeitos dessas
variávies (ex. experiência e female)
Controlar uma variável não correlacionada com outra variável
explicativa melhora o “ajustamento” mas não elimina ‘bias’ (por
exemplo, IQ e Female)
Tratamento de Dados
2º Semestre 2005/2006
Como escolher as variáveis a incluir
na regressão?
Número de variáveis
Critério estatístico
Critério lógico
Tratamento de Dados
2º Semestre 2005/2006
Número de variáveis
Restrição de ordem técnica
O número de observações tem deve ser pelo
menos igual ao número de variáveis explicativas
mais dois
Restrição de ordem práctica
Devemos ter pelo menos 10 observações por
variável explicativa para obtermos estimativas
precisas
Tratamento de Dados
2º Semestre 2005/2006
Critério estatístico
Adicionar uma variável sempre fará o R2 aumentar.
Portanto, um aumento do R2 não pode ser usado
como base para concluir que uma variável deve ser
incluída.
O R2 ajustado é uma medida modificada que impõe
uma “penalidade” sobre variáveis extras.
Tratamento de Dados
2º Semestre 2005/2006
Critério Lógico
Adicionar variáveis altera a interpretação dos
coeficientes. Exemplo:
Preço = b0 + b1 Quartos
• b1 mede a diferença entre, por exemplo, apartamentos com 3
quartos e apartamentos com 4 quartos
Preço = b0 + b1 Quartos + b2 m2
• b1 mede a diferença entre, por exemplo, apartamentos com 3
quartos e apartamentos com 4 quartos com a mesma àrea em m2
Escolha da variável pode depender do tipo de
comparação que se pretende efectuar
Tratamento de Dados
2º Semestre 2005/2006
Multicolinearidade
As variáveis explicativas podem ter alguma
correlação entre elas
Uma variável explicativa não pode ser uma função
linear de outras variáveis explicativas (correlação
linear perfeita)
Demasiada correlação entre as variáveis explicativas
torna as estimativas imprecisas - (problema com os
dados)
Tratamento de Dados
2º Semestre 2005/2006
Price
How will simple and multiple
regression results differ?
450000
400000
350000
300000
250000
200000
150000
100000
50000
0
0
1000
2000
Size
Tratamento de Dados
2º Semestre 2005/2006
3000
4000
(1)
Intercept
Size
(2)
-66,298.94 145,332.70 -7,423.87
(-4.41)
(16.06)
(-0.11)
136.92
(22.65)
Area
R-Squared
Tratamento de Dados
(3)
98.55
(2.21)
220,276.44 62,592.24
(17.21)
(0.87)
0.988
0.980
2º Semestre 2005/2006
0.990
Download

Slides