Regressão
e
Previsão Numérica
Objetivos
Obter um modelo que explique o
comportamento dos exemplos
observados (respostas) e usar
esse modelo para fazer predições
Amostra
A amostra de dados deve ser representativa,
isto é, cobrir amplamente o domínio do
problema considerando as operações
rotineiras, e as exceções
Planejamento
Definição da metodologia a ser aplicada,
avaliação da adequação do modelo e
interpretação dos resultados
Previsão
Previsão é similar à Classificação
 Primeiro construa um modelo
 Depois, use o modelo para a previsão do valor
desconhecido
 O método mais importante de previsão é a
regressão
Regressão linear e múltipla
Regressão não linear
 Previsão é diferente de Classificação
 Na classificação, a variável a “explicar” é categórica
 Na previsão, a variável a “explicar” é contínua
Relação entre Variáveis
Com muita freqüência, na prática, verifica-se que
existe uma relação entre duas ou mais varáveis.
Exemplo:
Peso x Altura
Circunferência x Raio
Quantidade de vapor x Temperatura
Ajustamento de curva
Para ajustar uma equação que relacione as
variáveis, é necessário:
 Colecionar dados que indiquem valores
 Colocar os dados em um sistema de coordenadas
cartesianas (Diagrama de dispersão)
 Visualizar a curva de dispersão (curva regular que
aproxima os dados)
Correlação Linear
É quando os dados parecem estar bem próximos a
uma linha reta. É o tipo mais simples de ajustamento e
pode ser descrito pela equação:
Y = 0 + 1 X
Correlação Não-Linear
Quando os dados não estão próximos a uma linha
reta. Existem várias equações:
Y = 0 + 1 X + 2 X2
Y = 0 + 1 X + 2 X2 + 3 X3
Y = 0 + 1 X + 2 X2 + 3 X3+ ... + nXn
Regressão Linear Múltipla
Sejam os valores de uma variável dependente (resposta) Y
relacionados com os valores valores de m variáveis
independentes Xk por meio de um modelo estocástico
Yt = 0+ 1X1+ 2X2+...+ mXm + t
t = 1,...,n
k – parâmetro desconhecido que indica o grau de associação
linear da variável independente Xk com a variável
dependente Y
t – erro aleatório devido a natureza estocástica de Y
Suposições para a análise do modelo
de Regressão Linear
Resíduos com variância constante,
não correlacionados e média zero
Normalidade nos resíduos (não necessariamente)
Número de parâmetros menor que o número de
observações (problema de overfitting)
Métodos de Estimação dos
Parâmetros
Mínimos Quadrados
Modelo 
Y = X + 
Y – vetor de respostas (n  1)
X - matriz de observações independentes (n  p)
 - vetor de parâmetros
 - vetor de erros (n  1)
Método dos mínimos quadrados
Para evitar o critério individual na construção de
retas, parábolas ou outras curvas de ajustamento que se
adaptem ao conjunto de dados, é necessário instituir uma
definição da “melhor reta de ajustamento”, da “melhor
parábola de ajustamento”, etc.
Para um dado valor X, por exemplo X1, haverá uma
diferença entre o valor Y1 e o valor correspondente na
curva. Representamos esta diferença por  1 que é muitas
vezes designado como desvio, erro ou resíduo e pode ser
positivo negativo ou nulo.
Método dos mínimos quadrados
De todas as curvas que se ajustam a um conjunto
de pontos, a que tem a propriedade de apresentar um
mínimo valor de
 12+  22 +  32 + ...+  n2
é denominada a melhor curva de ajustamento.
Diz-se que uma curva, que apresenta esta
propriedade, ajusta os dados no sentido dos mínimos
quadrados é denominada curva de mínimos quadrados.
Métodos de Mínimos Quadrados
com suposição de normalidade
A idéia é obter uma estimativa b para o vetor de parâmetros
 que minimize a soma de quadrados dos erros ’
Como E()=0 então o modelo é expresso por E(Y) = X
A soma de quadrados de resíduos
’  = (Y - X)’ (Y - X)
= Y’ Y - ’X’Y – Y’X + ’X’X
= Y’ Y - 2’X’Y + ’X’X
Condição de mínimo
ε'ε
0
β
A solução do sistema é
(X t X)β  X tY
b  βˆ  (Xt X)1 XtY
Vetor de valores ajustados
ˆ  Xb
Y
O erro nas observações é:
ei  yi  yˆi  yi  (b0  b1xi )
Para n observações, a média do erro é:
1
1
e   ei  { yi (b0  b1 xi )}
n i
n i
e  y  b0  b1 x
Supondo que a média do erro é zero
b0  y  b1 x
Substituindo b0 na equação de erro vamos obter:
b1
xy  nx y


 x  nx
2
2
Experimento 1
25 pares de observações onde Y =quantidade de vapor usado por mês
e X = temperatura em graus Farenheit
No obs.
1
2
3
4
5
6
7
8
9
10
11
12
Y
10.98
11.13
12.51
8.40
9.27
8.73
6.36
8.50
7.82
9.14
8.24
12.19
X
35.3
29.7
30.8
58.8
61.4
71.3
74.4
76.7
70.7
57.5
46.4
28.9
No obs.
13
14
15
16
17
18
19
20
21
22
23
24
25
Y
X
11.88
9.57
10.94
9.58
10.09
8.11
6.83
8.88
7.68
8.47
8.86
10.36
11.08
28.1
39.1
46.8
48.5
59.3
70.0
70.0
74.5
72.1
58.1
44.6
33.4
28.6
Para n = 25 e
X
i
 Xi
2
 1315
 X Y  11821.432
i i
 76323.42 X  52.60 Y  9.424
Portanto
b1 
 571 .128
 0.080
7154 .42
b0  9.424 0.080* 52.60  13,623
Yˆi  b0  b1 X i  13.623 0.080X i
Gráfico 1: Temperatura
versus Qtd de vapor
13
Gráfico 2: Temperatura
versus valores ajustados
11,5
12
10,5
11
Valores
ajustados
Y 10
9,5
9
8
8,5
7
7,5
6
30
40
50
X
60
70
80
30
40
50
60
70
80
X
O gráfico 1 mostra que existe uma relação linear entre a qtd
de vapor e a temperatura. O gráfico 2 ilustra a regressão linear.
Avaliação de desempenho do modelo
de Regressão
Estatística R
 (Yˆ  Y )

 (Y Y )
2
i
2
i
2
i
i
R2 – mede a variabilidade de Y explicada
pelo modelo de regressão
Exemplo: Para os dados do experimento 1
R2 
45.5924
 0.71
63.81
Teste de aceitação do modelo
H0 :  = 0
H1 :   0
Tabela 1 : Análise de Variância
Variação
Regressão
Resíduo
Graus de
Liberdade
p-1
n-p
Soma de
Quadrados
( SS)
n-1
Estatística do teste
(F)
n
 (Yˆ  Y)
t 1
n
2
i
 (Y  Yˆ )
t 1
Total correto
por Y
Soma de
Quadrados média
(MS)
i
2
i
SSReg/(p-1)
SS Re g /(p  1)
s2 = SSRes/(n-p)
SS Re s /(n  p)
n
 (Y  Y )
t 1
2
i
F tem distribuição com p-1,n-p graus de liberdade
e nível de significância 1-
Teste de aceitação do modelo
H0: Rejeita-se o modelo
H1: Aceita-se o modelo
Região de aceitação da hipótese H0
F
SSRe g /( p  1)
SSRe s /(n  p)
 Fp1,n p 1 (1   )
Exemplo: Considere o modelo do exemplo anterior
Tabela 1 : Análise de Variância
Variação
Graus de
Liberdade
Soma de
Quadrados
( SS)
Soma de
Quadrados média
MS
Regressão
1
45.59
45.59
Resíduo
23
18.22
0.79
Total correto
por Y
24
63.81
Valor de F1,22(0,95) = 4.28
Como a estatística F=57.54 > 4.28 rejeitamos H0
Valor da
Estatística do teste
(F)
57.54
Teste de significância do vetor de
parâmetros ()
H0 :  i = 0
H1 :  i  0
Estatística do teste
(i = 1,...,p)
T
bi
Var (bi )
T tem distribuição t-student com n-p graus de liberdade
Região de aceitação da hipótese H0
T  tn p (1   / 2)
Regression Analysis: C1 versus C2
The regression equation is
C1 = 13,6 - 0,0798 C2
Predictor
Coef
Constant
13,6230
C2
-0,07983
S = 0,8901
SE Coef
T
0,5815
0,01052
R-Sq = 71,4%
P
23,43 0,000
-7,59 0,000
R-Sq(adj) = 70,2%
Analysis of Variance
Source
DF
Regression
SS
1
45,592
Residual Error 23
Total
24
18,223
63,816
MS
F
45,592
57,54 0,000
0,792
P
Intervalo de confiança para o vetor b
b tem distribuição t-student(n-p)
bi  t n p ( / 2) Var (bi )
i = 1,...p
Exemplo: Continuando com o exemplo anterior
H0: 1 = 0
H1: 1  0
(i = 1,...,p)
|T| =| -0.07980/0.0105| = 7.6 > t23(0.975)=2.069
Rejeita H0
Intervalo de confiança :
-0.1016 < 1< -0.0581
Diagnóstico da Regressão
Análise do modelo
Exemplo 1
Os resultados do ajustamento revelam que :
a variável temperatura é significativa no modelo (|t|=2.069 > 2)
a variabilidade dos dados explicada pelo modelo é boa (R2 = 0.71)
o valor da F=57.54 > F1,23(5%) indica que a regressão é significativa
ao nível de confiança de 95%
Diagnóstico da Regressão
Análise gráfica dos resíduos
1 – Normalidade da variável resposta
2 – Independência das observações
3 – Se uma variável explicativa não incluída no
modelo é relevante
Diagnóstico da Regressão
Residuals Versus the Order of the Data
Residuals Versus the Fitted Values
(response is C1)
(response is C1)
1
Residual
Residual
1
0
0
-1
-1
-2
-2
5
10
15
20
25
Observation Order
Os resíduos são aleatórios.
7,5
8,5
9,5
10,5
Fitted Value
Os valores ajustados não
apresentam tendência
11,5
Diagnóstico da Regressão
Histogram of the Residuals
Normal Probability Plot of the Residuals
(response is C1)
(response is C1)
2
7
6
1
Normal Score
Frequency
5
4
3
2
0
-1
1
0
-2
-1,5
-1,0
-0,5
-0,0
0,5
1,0
1,5
Residual
-2
-1
0
Residual
Os resíduos apresentam normalidade.
O modelo proposto se ajusta aos dados, pois as hipóteses
básicas da regressão clássica são satisfeitas.
1
Modelos de Regressão Não Linear
A não linearidade é dada pela função de regressão
Yt = 0+ 1X1+ X2 + t
t = 1,...,n
Um método de estimação: Mínimos Quadrados não
Lineares
Download

Regression