Outros tópicos na análise de regressão
Regressão passando pela origem
Exemplo: X são as unidades produzidas e Y é o custo, assim Y é zero por definição
quando X=0. Outro exemplo: X é o número de marcas de cervejas armazenada em um
supermercado num experimento (incluindo alguns supermercados sem cerveja
armazenada (?? Não é no Brasil) e Y é o volume de cervejas vendidas no supermercado.
Modelo
O modelo com erros normais é o mesmo que (3) exceto que 0=0, assim, temos:
Yi  1 X i   i
(5)
Onde: 1 é o parâmetro a estimar; Xi são constantes conhecidas e i são os erros
aleatórios, independentes, normalmente distribuídos com média zero e variância 2.
A função de regressão para o modelo (5) é dada por:
E (Y )  1 X
1
Inferência
O estimador de mínimos quadrados de 1 (que também é o estimador de máxima
verossimilhança para o modelo de regressão com erros normais), no modelo (5), é
obtido minimizando-se o critério:
Q   (Yi  1 X i )2
com relação ao parâmetro 1. A equação normal resultante é dada por:
 X (Y  b X )  0
i
i
1
i
É um valor específico
Resolvendo para b1 obtemos o estimador por ponto:
X iYi

b1  X 2
 i
Os valores ajustados e os resíduos são dados por:
Yˆi  b1 X i e ei  Yi  Yˆi  Yi  b1 X i
2
Um estimador não tendencioso para 2 é dado por:
(Yi Yˆi

QME  n1
)
2
ei2

 n1
Perde-se 1 grau de liberdade
para estimar o parâmetro 1
Os limites de confiança para 1, E(Yh) e para uma nova observação Yh(novo) para o
modelo (5) são dados por:


1
s2 (b1 ) 
E (Yh )
s (Yˆh ) 
 Yh ( nova )
2
QME
X i2

X h2QME

X i2
b1  ts(b1 )
Yˆh  ts(Yˆh )
X h2 

s ( predição)  QME 1  X 2 
 i 

2
Yˆh  ts( pred )
O valor de t tem n-1 graus de liberdade associado (os do resíduo). No modelo (3),
com intercepto, tínhamos termos da forma:
No modelo (5),
( X i  X )2 ou (Xh - X)2 .
como a equação passa pela origem, temos termos X2i e X2h.
3
Exemplo: uma companhia opera 12 depósitos (armazéns). Com o objetivo de encontrar um
procedimento mais eficiente de planejamento e controle, foi estudado a relação entre o número de
horas trabalhadas (X) e o custo total do serviço (Y) nos depósitos durante um período de teste. Os
dados e alguns resultados são apresentados na tabela a seguir:
Regressão passando pela origem - exemplo dos depósitos
(Warehousing)
Depósito Unidades Custo total
trabalhadas
i
Xi
Yi
XiYi
X2i
1
20
114
2280
400
2
196
921
180516
38416
3
115
560
64400
13225
4
50
245
12250
2500
5
122
575
70150
14884
6
100
475
47500
10000
7
33
138
4554
1089
8
154
727
111958
23716
9
80
375
30000
6400
10
147
670
98490
21609
11
182
828
150696
33124
12
160
762
121920
25600
Total
1359
6390
894714
190963
4
y
=
4
6
,
1
6
*x
+
e
p
s
1
0
0
0
8
0
0
Custototal
6
0
0
4
0
0
2
0
0
0
0
4
0
8
0
1
2
0
1
6
0
2
0
0
2
4
0
U
n
id
a
d
e
s
ra
t
b
a
lh
a
d
a
s
O parâmetro 1 é estimado por:
b1  4,6853
Assim, a função de regressão estimada é dada por:
e  ?
i
Yˆ  4,6853X
5
O intervalo para 1, com confiança de 95% é dado por:
4,6853 2,201(0,0342)
4,61  1  4,76
Interpretação: com 95% de confiança, estima-se que a média da variável custo
aumenta alguma coisa entre $4,61 e $4,76 para cada unidade adicional de trabalho.
Cuidados com o uso da regressão pela origem
• geralmente, a soma dos resíduos não é igual a zero (Verifique este fato no
exemplo em estudo; também na equação normal(restrição)). Assim, num gráfico
de resíduos, os mesmos não estarão aleatoriamente distribuídos ao redor de zero;
• pode ocorrer que: SQE 
e
2
i
 SQTO  (Yi  Y )2
(ocorrência: dados apresentam comportamento curvilíneo ou linear com intercepto).
Neste caso, o coeficiente de determinação (r2), dado por:
SQE
r2  1  SQTO
 0 (negativo)
Portanto, o r2, neste caso de regressão, não tem uma clara interpretação.
6
Exercício: construa a tabela da análise de variância da regressão, faça o teste F e
conclua, utilizando as seguintes somas de quadrados.
SQTNC  Yi 2
SQRNC  Yˆi 2  b12  X i2
SQE   (Yi  b1 X i )2
Onde SQTNC é a soma de quadrados total não corrigido; SQRNC é a soma de
quadrados da regressão não corrigido e SQE é a soma de quadrados do erro.
Verifique numericamente que SQTNC=SQRNC+SQE.
7
8
Exemplo (referência: SAS System for Regression). Neste exemplo iremos ilustrar o fato de
que o uso de um modelo sem intercepto pode fornecer resultados imprecisos mesmo nos casos
em que o verdadeiro valor do coeficiente linear é próximo de zero. Uma amostra de tamanho 8
foi gerada usando o modelo y=x+, com o termo do erro com distribuição normal, média zero e
variância l.
Observação
1
2
3
4
5
6
7
8
X
1
2
3
4
5
6
7
8
Y
-0.35
2.79
1.81
2.00
3.88
6.79
7.67
6.79
9
Modelo com coef. Linear
F= 34,23 Valor p=0,0011
R2 =0,8509
QME=1,446
Modelo sem coef. linear
F=117,34 Valor p=0,0001
R2 =0,9437
QME=1,458
e
i
 1,586
 0   0 ,963
 1  1,09
 1  0,916
SQE=8,68
SQT=58,19
SQE=10,21
SQT=181,27
Observa-se imediatamente que tanto o valor o teste F para o modelo, como o
valor R2 são muito maiores para o modelo sem o coeficiente linear. Observe (isto
é importante) que os quadrados médios são praticamente iguais, a rigor, o
quadrado médio do modelo sem o coeficiente linear é maior do que o modelo
com o coeficiente angular. Na realidade, os dois modelos estimam equações de
regressão muito similares; a estimativa do coeficiente linear (-0,963) é bastante
próxima de zero, além disso, a hipótese de que 0=0 não pode ser rejeitada (valor
p=0,3436); as estimativas dos coeficientes angulares: 1=1,09 e 1=0,916, para
os modelos com e sem coeficiente linear, respectivamente, são muito próximos.
10
Observação
1
2
3
4
5
6
7
8
Resíduos
-1,2657
0,9585
-0,9372
-1,6629
-0,6987
1,2956
1,2599
-0,5359
Observe, também, que a soma dos resíduos vale -1,5865, diferente de zero, mesmo
o coeficiente linear sendo próximo de zero.
Como o verdadeiro coeficiente linear é zero, as somas de quadrados do erro são
próximas, quais sejam: 8,68 para o modelo com intercepto e 10,21 para o modelo
sem o intercepto, porém, as somas de quadrado total são muito diferentes, sendo
igual a 181,27 para o modelo sem o coeficiente linear e 58,19 para o modelo com
coeficiente linear. Como o r2 é uma estatística baseada na diferença entre a soma de
quadrados do erro e total, ela é muito maior para o modelo sem o coeficiente linear.
11
Efeitos de erros de medidas
Erros de medida em Y
Exemplo:
Y: tempo necessário para completar uma tarefa
X: complexidade da tarefa
As tomadas de tempo podem ser feitas de forma imprecisa. Porém, se esses erros
podem ser considerados aleatórios, não correlacionados e não tendenciosos, não temos
problemas com a modelagem adotada até aqui. A parte aleatória do modelo () absorve
estas variações.
Erros de medida em X
Suponha que estejamos interessados na seguinte relação:
ganhos por tarefa dos trabalhadores e idades dos mesmos.
Sejam:
Xi = a idade verdadeira do i-ésimo trabalhador
Xi* = a idade relatada pelo i-ésimo trabalhador
12
Define-se o erro de medida como sendo:
 i  X i*  X i
O modelo de regressão que gostaríamos estudar é:
Yi  0  1 X i   i
Como observamos Xi*, o modelo fica:
Yi   0  1 ( X i*   i )   i
ou
Yi   0  1 X i*  ( i  1 i )
(6)
Termo
do erro
Variável
preditora
Para que os resultados padrões da análise de regressão sejam válidas, a variável
preditora deve ser independente do erro. Aqui, a variável preditora é correlacionada
com o erro, dada a restrição:   X *  X  X *    X
i
i
i
i
i
i
Portanto, os resultados padrões de regressão não são válidos para o modelo (6).
13
Demonstração: covariância entre Xi* e os erros (i- 1i) no modelo (6)
Inicialmente, temos:
E( X i* )  E( X i   i )  X i , pois E( i )  0 e X i constantes.
(a )
 ( i , i )  E( ii )  [E( i )E(i )]  E( ii )  0 (condição)
(Erros de medidas, i não sejam correlacionados com os erros do modelo, i.)
(b)  2 ( i )  E( i2 )  [E( i )]2  E( i2 )
A covariância fica:
 ( X i* ,  i  1 i )  E{[ X i*  E ( X i* )][( i  1 i )  E ( i  1 i )]}
 E[(X i* - X i )(  i  1 i )]
 E[  i (  i  1 i )]
 E ( i i  1 i2 )
Usando (a) e (b), a covariância fica:
 ( X i*, i  1 i )  1 2 (i )  0
Grandes dificuldades são encontradas na obtenção de estimadores não tendenciosos
quando existe erros de medida em X. Para soluções consultar textos especializados .
14
Predição inversa (Calibração)
Em muitos estudos, uma regressão de Y sobre X é usada para estimar o valor de X o
qual originou um novo valor de Y.
Exemplos:
1) um analista de uma associação de comércio fez uma regressão entre preços de
venda de um produto (Y), e os seus custos (X) para 15 membros da associação. O
preço de venda de uma firma não pertencente à associação, Yh(novo), é conhecido e,
deseja-se, conhecer o custo, Xh(novo), para esta firma.
2) foi realizada uma análise de regressão da diminuição do nível de colesterol (Y) e
a dosagem de uma nova droga (X), para 50 pacientes. Um pesquisador está tratando
um novo paciente para o qual o nível de colesterol deveria diminuir uma quantidade
Yh(novo). Deseja-se estimar a dose necessária, Xh(novo),a ser administrada para se
conseguir a quantidade Yh(novo).
Vamos assumir o modelo (3):
Yi  0  1 X i  i
15
A função de regressão estimada é dada por:
Yˆ  b0  b1 X
(7)
Temos uma nova observação, Yh(novo) e desejamos estimar o nível Xh(novo) que origina
esta nova observação. Resolvendo (7) para X, dado Yh(novo, temos o estimador:
Xˆ h ( novo ) 
Yh ( novo )  b0
b1
b1  0
Estimador pontual para o novo valor Xh(novo).
(Estimador de máxima verossimilhança)
Veja figura na próxima página.
Exemplo: um médico está estudando um novo método (mais rápido) para medir
baixas concentrações de açúcar no sangue. Doze (n=12) amostras foram usadas
com concentrações conhecidas (X: método exato), divididas em 3 amostras para
cada um de 4 diferentes níveis. A concentração de açúcar medida pelo método
rápido (Y) foi então observada para cada uma das amostras.
A equação de regressão estimada é dada por:
Yˆ  0,100 1,017X
16
Y
••
•
Yˆ  b0  b1 X
••
•
Yh(novo)
••
•
•
••
X
Xˆ h ( novo )
Figura: exemplo de calibração.
Outros resultados:
s(b1 )  0,0142
QME  0,0272
(X i - X)  135
2
X  5,500
Verificar se existe uma relação linear entre X e Y.
t*  71,6 P(|t | 71,6) 0,0001
Portanto, rejeitamos H0:1=0.
17
O pesquisador deseja estimar a concentração real Xh(novo) para um novo paciente
para o qual o método rápido (novo) resultou numa concentração de Yh(novo)=6,52.
( 0,1)
Xˆ h ( novo)  6,521,017
 6,509
Intervalo de confiança aproximado para Xh(novo)
O intervalo de confiança é dado por:
Xˆ h ( novo )  t (1   / 2; n  2) s( Xˆ )
s( Xˆ ) 
QME
b12
1  1  ( Xˆ h ( novo )  X 2)2 
 n ( X i  X ) 
Para o exemplo, temos:
6,13  X h( novo)  6,89
Concluímos com 95% de confiança que a verdadeira concentração de açúcar para o
paciente está entre 6,13 e 6,89. Portanto, o erro é de aproximadamente 6%, o qual é
considerado razoável para o pesquisador.
18
Comentário: em problemas de calibração geralmente temos medidas (Y), rápidas,
mais baratas e aproximadas, relacionadas com medidas (X), precisas, caras e
demoradas sobre n observações. O modelo de regressão resultante é, então, utilizado
para estimar uma medida precisa, Xh(novo), para uma medida aproximada nova Yh(novo).
Escolha dos níveis de X
Questões que o pesquisador deve considerar:
• Quantos níveis de X deveriam ser pesquisados?
• Quais devem ser os dois níveis extremos?
• Qual deve ser o espaçamento entre os níveis?
• Quantas observações devem ser feitas para cada nível de X?
19
Objetivos de uma análise de regressão:
• estimar o coeficiente angular de uma regressão linear ;
• estimar o coeficiente linear da regressão linear;
• fazer predições de novas observações;
• estimar uma ou mais respostas médias;
Não existe uma resposta
única para todas as
questões formuladas, pois
existem diferentes
objetivos numa análise de
regressão os quais levam
a diferentes respostas.
• para regressão curvilínea, localizar a resposta máxima ou mínima;
• determinar a natureza da função de regressão.
Para ilustrar como os objetivos afetam o delineamento (projeto), considere as
variâncias:
20
b0   (b0 )   [ 
2
b1   (b1 ) 
2
2 1
n

2
2 1
n
( X h  X )2
( Xi  X )
Yh ( novo )   ( predito)   [1  n1 
2
2
]
(8)
( X i  X )2
Yˆh   (Yˆh )   [ 
2

X2
( X i  X )2
2
]
( X h  X )2
( Xi  X )
2
]
Se o propósito da análise de regressão é estimar o coeficiente angular, 1, a variância
de b1 é minimizada se o denominador de (8) for maximizado. Isto é conseguido
usando 2 níveis de X, nos dois extremos da região de estudo, e colocando metade das
observações em cada dos dois níveis. Devemos estar certos da linearidade da
regressão, caso contrário, com 2 níveis não temos informação sobre desvios da
linearidade.
Se o objetivo é estimar o intercepto, 0, o número e a distribuição dos níveis não
afetam a variância de b0, contando que a média (X barra) seja 0 (zero).
21
Para estimar a resposta média ou predizer uma nova observação no nível Xh,
a variância é minimizada usando níveis de X de tal forma que:
X  Xh
Sugestões (D.R.Cox):
• Num experimento exploratório, em que o objetivo é verificar se uma variável
preditora, tem ou não um efeito significativo e qual a direção, use apenas dois níveis.
• Se acharmos que a resposta apresenta a forma de parábola, devemos usar três (3)
níveis. Este é o caso mais corriqueiro.
• Se o objetivo é estudar a forma da curva de resposta, então, devemos usar quatro (4)
níveis.
• Usar mais do que quatro (4) níveis para: a) quando é necessário estimar detalhes da
curva de resposta; b) quando a curva de resposta apresenta uma assíntota; c) quando a
curva de resposta não é adequadamente descrita pelo coeficiente angular e de curvatura.
• Com exceção do último caso, geralmente é satisfatório usar-se níveis igualmente
espaçados e com o mesmo número de repetições por nível.
Nota: fazer lista de exercícios número 4.
22
Download

Outros tópicos na análise de regressão