MB751 – Modelos de previsão
Prof. Carlos H. C. Ribeiro
carlos@ita.br
Aula 3

Análise de variância e correlação

Testes de hipótese

Intervalos de confiança

Regressão e correlação
2
Simplificação das expressões para regressão
linear MQ
Yˆ  bX i  a
b
N  X iYi   X i  Yi
i
i


N  X i2    X i 
i
 i

Y
i
a
i
i
N
b
X
i
N
2
 Y  Y X  X 

 X  X 
i
i
i
2
i
i
xi  X i  X , yi Yi Y

y x
x
i i
i
2
i
i
i
 Y  bX
Exemplo 6
3
Regressão linear MQ: propriedades adicionais

Estimativa do coeficiente b:

E bˆ  b


ˆ
var b 
Variância do erro
2
2
x
i
i

Estimativa do coeficiente a:
E aˆ   a
varaˆ    2
2
X
 i
i
N  xi2
i

Covariância do par a,b:


 
2

X

Cov(aˆ , bˆ)  E aˆ  E aˆ  bˆ  E bˆ 
X i2

i
4
Decomposição da soma dos quadrados
Objetivo: estudar a
variação da variável
dependente Y.


X ,Y 
Y
Yˆ
Y  Yˆ
Que parcela da variação é
causada pela variação de X?
Yˆ  Y
Y
Que parcela da variação não
é “explicada” pela variação de
X?
X



Y  Y  Yˆ  Y  Y  Yˆ  y  yˆ  
5
Decomposição da soma dos quadrados

 



yi xi 
Y  Y  Yˆ  Y  Y  Yˆ  y  yˆ  
i
Variação
total de Y
yi2  bˆ
i
Parcela
devida à X
2

i
i
Parcela
residual
6
Análise de variância (ANOVA)
Fonte de
variação de Y
Variável X
Variação ou soma de quadrados
VE  bˆ
y x
resíduo

VR      Yi  Yˆi
2
i
i
Variável X +
resíduo
VT 
VE
i i
i
Soma de
quadrados média

2
s2 
i
y
2
i
y
VT
k
VR
N  k 1
N 1
Estatística F = (VE/k)/(VR/N-k-1): testa
a significância do efeito das variáveis
independentes sobre Y
Estatística t: testa significância dos
parâmetros estimados.
tb 
bˆ  b
s
aˆ  a
ta 
s 2  X i2
2
i
x
N  xi2
2
i
i
Variância residual s2: mede grau de
dispersão entre valores
observados e estimados
Exemplo 7
Observação: k é o número de variáveis independentes
i
Coeficiente de determinação R2 =
VE/VT = 1-VR/VT: indica a parcela da
variação de Y explicada pela variação
de X
7
Intervalos de confiança e testes de hipóteses

Podemos agora tentar definir intervalos de confiança e testes
de hipóteses envolvendo a e b:
 Intervalos de confiança: que faixa de valores tem probabilidade alta (ou
nível de significância baixo) de conter os valores verdadeiros dos
parâmetros (a ou b)
 Testes de hipóteses: qual a probabilidade de que um modelo obtido por
regressão linear tenha seus parâmetros estimados próximos aos valores
reais?
Probabilidade = 1- Nível de significância
8
Exemplo

Uma tentativa de explicar o consumo C em função da renda R:
E C   a  bR
Hipótese: b deve ser positivo, pois se a renda aumenta, o consumo deve
aumentar.
Teste sobre hipótese nula (b=0). O objetivo é tentar rejeitar esta hipótese.
Como?
1. Tento achar uma estimativa de b suficientemente > 0, para causar dúvida
sobre a validade da hipótese nula. Suponha que a estimativa indique b = 0.9.
2. Suponha que para o valor estimado, o intervalo de confiança para um nível de
significância de 10% seja: 0,6 < b < 1,2.
Isto quer dizer que P(0,6 < b < 1,2) = 100% - nível de significância = 90%.
Ou seja, rejeitamos a hipótese nula com nível de confiança de 90%.
9
Teste de hipótese em Econometria

Teste sempre para um dado modelo: aceitação ou rejeição
deste modelo.

Normalmente nível de significância 5%, mas dependendo dos
dados disponíveis posso ser mais ou menos preciso.

Rejeitar a hipótese nula significará aceitar o modelo, a menos
que novos dados contrariem esta conclusão.

Teste usual: t. Adequado para variâncias desconhecidas.
10
Teste de hipótese usando teste F
Teste F: testa a significância das variáveis independentes (no caso, X) sobre Y:
Hipótese nula H0: X não afeta Y (b=0).
Hipótese não-nula H1: X afeta Y (b0).
1. Calculo o número de graus de liberdade no numerados (k=1) e no denominador
(N-k-1 = N-2).
2. Defino o nível de significância.
3. Obtenho o valor crítico de teste Fc (tabelado).
4. Calculo F

F > Fc ? Rejeito a hipótese b=0 no nível de significância.

F < Fc ? Aceito a hipótese b=0 no nível de significância.
11
Teste de hipótese usando teste t
Teste t: Testa significância dos parâmetros a e b:

Três conjuntos de hipóteses a testar para v = a ou b:
 v = 0 ou v  0: efeito positivo ou negativo (teste bilateral)
 v = 0 ou v > 0: efeito positivo (teste unilateral positivo)
 v = 0 ou v < 0: efeito negativo (teste unilateral negativo)

As hipóteses a testar dependem do interesse para o problema.
1. Defino o teste (unilateral ou bilateral).
2. Calculo o número de graus de liberdade N-k-1 = N-2.
3. Defino o nível de significância.
4. Obtenho o valor crítico de teste tc (tabelado).
5. Calculo t

|t| > |tc| ? Rejeito ausência de efeito no nível de significância.

|t| < |tc| ? Aceito ausência de efeito no nível de significância.
12
Exemplo 8
Exemplo 8
13
Exercício 2
Dia
1
2
3
4
5
6
7
8
9
10
Notas na prova
9
8
8
9
7
9
8
7
9
6
Horas de sono na véspera
8
6
6
8
9
6
5
8
8
6
a) Elaborar a tabela ANOVA
b) Calcular R2 e a estatística F
c) As notas do aluno foram afetadas pelas horas de sono na
véspera? Verifique de acordo com o modelo de regressão
linear e nivel de significância 0,01
Exercício 2
14
Observações para a lista 1

SQE = VE (soma dos quadrados explicados)

SQT = VT (soma dos quadrados dos totais)

SQR = VR (soma dos quadrados dos resíduos)
“fazer o teste F” significa fazer teste F com nível de significância 0,05
“fazer o teste t” significa fazer teste t com nível de significância 0,05 para cada um
dos coeficientes da reta.
15
O que vimos até agora

O modelo de regressão linear a duas variáveis
 Para tentar explicar a relação entre duas variáveis (X e Y) a partir de um
conjunto de dados

Método dos mínimos quadrados
 Para achar os coeficientes da reta de regressão linear

Análise de variância (ANOVA)
 Para avaliar a reta de regressão e determinar quão bem ela aproxima os dados

Testes de hipótese: F e t
 No caso geral: para avaliar estatisticamente a validade de uma hipótese
 No caso específico de regressão linear, é parte do “kit”ANOVA
16
Intervalos de confiança

Define o intervalo dentro do qual o valor verdadeiro do
parâmetro estará, com uma dada probabilidade.

Teste usual: t

O procedimento a seguir pode ser usado para
determinar intervalos de confiança para qualquer
parâmetro estimado.
17
Intervalo para b (unilateral +)

Defino:
NC (nível de confiança) = 1 – NS (nível de significância)

Portanto (aula passada):
P(tc > tb) = 1 – P(tc  tb) = 1 – NS = NC
Mas
tb 
bˆ  b
s2
2
x
 i
bˆ  b

sb
i
e portanto...


P b  bˆ  sbtc  NC
18
Intervalo para b (unilateral -)


P b  bˆ  sbtc  NC
Intervalo para b (bilateral)


P bˆ  sbtc  b  bˆ  sbtc  NC
Exemplo 9
19
Regressão e correlação
_
y=Y-Y
Y
II: xy < 0
_
Y
III: xy > 0
.
.
.. .
..
.
.
.. . .
.. . . .
..
_
X
.
I: xy>0
_
x=X-X
IV: xy < 0
X
20
Correlação: ideia intuitiva
Muitos pontos no Quadrante I:
Correlação +
– xy > 0 para muitos pontos
– some dos xy tende a ser positivo alto (soma de números positivos)
Muitos pontos no Quadrante II:
Correlação -
– xy < 0 para muitos pontos
– some dos xy tende a ser negativo com módulo alto (soma de números negativos)
Muitos pontos no Quadrante III:
Correlação +
– xy > 0 para muitos pontos
– some dos xy tende a ser positivo com alto (soma de números positivos)
Muitos pontos no Quadrante IV:
Correlação -
– xy < 0 para muitos pontos
– some dos xy tende a ser negativo com módulo alto (soma de números negativos)
Pontos distribuídos em vários quadrantes:
Baixa Correlação
– xy > 0 para alguns pontos e xy < 0 para outros
– soma dos xy tende a ser positivo baixo ou negativo com módulo baixo.
21
Correlação: definição formal
Coeficiente de correlação:
x y
i
r
i
 
xi2
i
yi2
i

Pode-se mostrar que:
i
xi2
i
r  bˆ
N 1

yi2
Sx
ˆ
b
Sy
Se bˆ  0 entãor  0
Se bˆ  0 entãor  0
Se bˆ  0 entãor  0
i
N 1
Um teste para b também é um
teste para r
22
Exemplo
Exemplo 10
23
Diferença entre regressão e correlação

Regressão relaciona a variável independente à variável
dependente, ou seja, procura gerar uma explicação (reta de
regressão, no caso da regressão linear) para a variação em Y
causada por variações em X. Meço a regressão através do
coeficiente de determinação R2.

Correlação mede a associação entre X e Y, sem considerar
que variável é dependente ou independente. Meço a
correlação através do coeficiente de correlação r.
24
Atividade 1 (tarde)
Município
Produção agrícola (Y)
Índice pluviométrico (X)
A
20
20
B
60
30
C
110
60
D
140
90
E
130
120
F
100
150
G
110
180
H
130
100
I
110
70
J
90
40
a) Plotar os pontos no sistema x-y.
b) Calcular a correlação entre a produção agrícola e o índice pluviométrico. O que
pode ser concluído?
Atividade 1T
25
Download

sessao 1 - aula 3