Regressão Linear Simples
Introdução
Análise de regressão é uma metodologia estatística que utiliza a relação entre duas ou
mais variáveis quantitativas (ou qualitativas) de tal forma que uma variável pode ser
predita a partir da outra ou outras. Exemplos:
 A população de bactérias pode ser predita a partir da relação entre
população e o tempo de armazenamento.
 Concentrações de soluções de proteína de arroz integral e absorbâncias
médias corrigidas.
 Relação entre textura e aparência.
 Temperatura usada num processo de desodorização de um produto e cor do
produto final.
 A porcentagem de acerto ou, então, bytes transferidos, podem estar
relacionados com o tamanho da cache (bytes), para um determinado tipo de
pré-carregamento.
1
 Número de acessos ao disco (disk I/O) e o tempo de processamento para
vários programas.
 A performance de um procedimento remoto foi comparado em dois
sistemas operacionais: UNIX e ARGUS. A métrica utilizada foi o tempo
total transcorrido, o qual foi avaliado para vários tamanhos de arquivos de
dados.
A análise de regressão, assim como a anova, também representa os dados
através de um modelo linear aditivo, onde o modelo inclui um componente
sistemático e um aleatório.
Y  f (X ) 
(1)
f descreve a relação entre X e Y.  são os erros aleatórios. Y = variável resposta ou dependente;
X = variável independente, concomitante, covariável ou variável preditora.
2
O caso mais simples de regressão é quando temos duas variáveis e a relação
entre elas pode ser representada por uma linha reta  Regressão linear
simples.
Cenário
Estamos interessados na relação entre duas variáveis, as quais chamaremos de X e Y.
Observamos pares de valores X e Y em cada amostra ou unidade experimental, e vamos usalos para dizer alguma coisa sobre a relação.
3
Como sabemos os dados podem ser obtidos a partir de duas situações:
1) dados experimentais: as observações X e Y são planejadas como o resultado de um
experimento, exemplo:
• X = tamanhos de cache e Y = porcentagem de acerto
• X= doses de starter (microorganismos [bactérias lácticas]) , Y= tempo de maturação do salame
tipo italiano.
Nesse exemplo, os valores de X estão sob controle do pesquisador, ou seja, ele escolheu as doses
e observou o resultado, Y.
2) dados observacionais: observa-se os valores de X e Y, nenhuma delas sob controle, exemplo:
• população de coliformes e população de staphilococus;
• média das alturas de plantas numa área e produção.
• O tempo para criptografar um registro com k-byte usando uma técnica para este fim foi
avaliado. X = tamanhos de registros tomados aleatoriamente e Y = tempo.
4
Problema prático: os valores observados de Y (e algumas vezes
de X) não são exatos. Devido a variações biológicas, de
amostragem e de precisão das medidas e outros fatores, só
podemos observar valores de Y (e possivelmente de X) com algum
erro. Assim, com base numa amostra de valores (X,Y) a exata
relação entre X e Y é mascarada pelos erros aleatórios.
X Fixo vs Aleatório:
• Dados experimentais: Geralmente X (doses, tempo, tamanho
da cache) é determinado pelo pesquisador  X é fixo. Y está
sujeito à variações físicas, biológicas, tipos de objetos numa
página da Web, usuários, de amostragem, de medidas  Y é
uma variável aleatória.
• Dados observacionais: geralmente X e Y são variáveis
aleatórias.
5
A distribuição normal bivariada
Com dados observacionais, geralmente X e Y são v. a. e, de
alguma forma, relacionadas.
Lembrete: uma distribuição de probabilidades dá uma descrição
formal (matemática) dos valores possíveis da população que
podem ser observados para a variável. Quando temos duas
variáveis a distribuição é denominada bivariada. A fXY(x,y)
descreve como os valores de X e Y se comportam conjuntamente.
A distribuição normal é freqüentemente uma descrição razoável
de uma população com medidas contínuas. Quando X e Y são v.
a. contínuas, uma suposição razoável é que ambas sejam
normalmente distribuídas. Entretanto, espera-se que elas se
distribuam conjuntamente.
6
A distribuição normal bivariada é uma distribuição de probabilidades com uma função densidade
de probabilidade f(x,y) para X e Y, tal que:
•X e Y apresentam, cada uma, distribuição normal com médias X e Y, e variâncias 2X e 2Y,
respectivamente;
• o relacionamento entre X e Y é medido pela quantidade XY tal que -1  XY  1.
• XY é o coeficiente de correlação entre as variáveis aleatórias X e Y e mede a associação linear
entre elas.
 XY  1 correlação positiva perfeita
 XY  1 correlaçãonegativa perfeita
 XY  0 correlaçãonula
Objetivo: com os dados observados (Xi,Yi), desejamos quantificar o grau de associação. Para
isso estimamos XY.
Comparação entre os modelos de regressão e correlação
Dois modelos:
• X fixo: ajusta-se um modelo para a média da v. aleatória Y como uma função de X fixo (linha reta).
Estima-se os parâmetros do modelo para caracterizar o relacionamento.
• X aleatório: caracteriza-se o relacionamento (linear) entre X e Y através da correlação entre elas e
estima-se o parâmetro de correlação.
7
Sutileza: em situações onde X é uma variável aleatória, muitos investigadores desejam
ajustar um modelo de regressão tratando X como fixo. Isto porque, embora o coef. de
correlação descreve o grau de associação entre X e Y, ele não caracteriza o
relacionamento através de um modelo de regressão.
Exemplo: um pesquisador pode desejar estimar a produção com base na média de
alturas de plantas da unidade experimental. O coef. de correlação não permite isso.
Ele, então, prefere ajustar um modelo de regressão, mesmo X sendo aleatório.
Isso é legítimo? Se tomarmos cuidado na
interpretação, sim.
Se X e Y são variáveis aleatórias, e nós ajustarmos um modelo de regressão para
caracterizar o relacionamento, tecnicamente, todas as análises posteriores são
consideradas como sendo condicionais aos valores de X presentes no estudo.
Isto significa que nós consideramos X fixo, embora ele não seja. Entretanto, é
válido fazer-se previsões. Dado (condicional) que se observa um particular
valor de altura de planta, ele quer obter o melhor valor para produção. O
pesquisador não está dizendo que ele pode controlar as alturas e, assim,
influenciar as produções.
Vale para os dados da amostra.
8
Causalidade versos correlação
Pesquisadores freqüentemente são “tentados” a inferir uma relação de causa e efeito entre X e Y
quando eles ajustam um modelo de regressão ou realizam uma análise de correlação. Uma
associação significativa entre X e Y em ambas as situações não necessariamente implica numa
relação de causa e efeito.
Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O gráfico mostra a população
de Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o número de cegonhas
(pássaros) naquele ano (X).
Interpretação: existe associação
entre X e Y.
Freqüentemente, quando duas v. X e
Y parecem estar fortemente
associadas, pode ser porque X e Y
estão, de fato, associadas com uma
terceira variável, W. No exemplo, X
e Y aumentam com W = tempo.
Correlação não necessariamente implica em causalidade
9
Construção de Modelos de Regressão
I.
Seleção das variáveis preditoras
II.
Escolha do modelo de regressão
III.
Abrangência do modelo
i.
O problema, em estudos observacionais, é escolher um conjunto de
variáveis que podem ou devem ser incluídas no modelo;
ii.
Pode-se usar um modelo teórico; Usar aproximações por modelos
polinomiais;
iii. Geralmente é necessário restringir a abrangência do modelo para
alguns valores ou região da(s) variável(is) preditora(s).
10
Modelo de regressão linear simples
(Sem especificação da distribuição de
probabilidades para o erro)
Considere o modelo com uma variável preditora e que a função de regressão é linear. O modelo é
dado por:
Yi   0  1 X i   i
i  1,2,...,n
(2)
11
Onde:
Yi é o i-ésimo valor da variável resposta;
0 e 1 são os parâmetros (coeficientes de regressão);
Xi é o i-ésimo valor da variável preditora (é uma constante conhecida, fixo).
i é o termo do erro aleatório com E(i)=0 e 2(i)= 2;
i e j não são correlacionados  (i, j)=0 para todo i,j; i j; (covariância é nula).
Covariância (o resultado em qualquer experimento não tem
efeito no termo do erro de qualquer outro experimento)
Os dados são usados para estimar 0 e 1, isto é, ajustar o modelo aos dados, para:
i=1,2,...,n.
• quantificar a relação entre Y e X;
• usar a relação para predizer uma nova resposta Y0 para um dado valor de X0 (não incluído no
estudo);
• calibração – ou capacidade de predição de novas observações, pode ser feita usando uma nova
amostra e comparando os valores estimados com os observados.
- dado um valor de Y0, para o qual o correspondente valor de X0 é desconhecido,
estimar o valor de X0.
12
Características do modelo:
constante
aleatório
1. Yi é um av.a.(Yi   0  1 X i   i )
2. E(Yi )  E (  0  1 X i   i )  i   0  1 X i
3.  2 (Yi )   2 (  0  1 X i   i )   2 ( i )   2 ( variânciaconstante)
4. Yi e Y j não são correlacionados
O modelo de regressão (2) mostra que as respostas Yi são oriundas de uma
distribuição de probabilidades com média E(Yi) = 0 +1Xi e cujas variâncias são 2,
a mesma para todos os valores de X. Além disso, quaisquer duas respostas Yi e Yj não
são correlacionadas.
13
A figura mostra a distribuição de Y para vários valores de X. Mostra onde cai a observação Y1.
Mostra que o erro é a diferença entre Y1 e E(Y1). Observe que as distribuições de
probabilidade apresentam a mesma variabilidade.
14
Resumo da situação: para qualquer valor Xi, a média de Yi é i = 0 + 1Xi. As médias estão
sobre a linha reta para todos os valores de X. Devido aos erros aleatórios, os valores de Yi se
distribuem ao redor da reta.
15
Outro exemplo.
Porcentagem de acerto
44,45
42,10
44,68
46,99
46,26
48,82
50,66
47,68
52,44
53,21
51,85
55,38
16
Média:
E(Y)=27,836+0,00006423X
Para Xi=300.000 bytes observou-se Yi=46,26. O valor estimado é
dado por: 27,836+0,00006423(300.000)=47,11, portanto, o valor do
termo do erro é i=46,26-47,11=-0,845.
17
Significado dos parâmetros do modelo de regressão linear simples
yi = 0 + 1xi

y
x=1
1 
y
x
0
x
x+1
0 (intercepto); quando a região experimental inclui X=0, 0 é o valor da média da distribuição
de Y em X=0, cc, não tem significado prático como um termo separado (isolado) no modelo; 1
(inclinação) expressa a taxa de mudança em Y, isto é, é a mudança em Y quando ocorre a
mudança de uma unidade em X. Ele indica a mudança na média da distribuição de probabilidade
de Y por unidade de acréscimo em X.
18
Exemplo: os dados abaixo indicam o número de bytes transferidos (Y) e o
tamanho da cache (X).
Equação de regressão:
yˆ  4,763.107  27 ,649x
Faça o gráfico dos pontos e da reta
ajustada. Você acha que o modelo
adotado é razoável?
19
y
=
4
,7
6
3
e
7
-2
7
,6
4
9
*x
+
e
p
s
4
6
,
e
7
4
4
,
e
7
4
2
,
e
7
4
e
7
BYTESTRANSFERIDOS
3
8
,
e
7
3
6
,
e
7
3
4
,
e
7
3
2
,
e
7
3
e
7
2
2
,
e
5
2
6
,
e
5
3
e
5
3
4
,
e
5
3
8
,
e
5
4
2
,
e
5
T
A
M
A
N
H
O
D
AC
A
C
H
E
O que significa o coeficiente angular neste caso? E o coeficiente
linear?
Faça uma predição para o número de bytes transferidos para tamanho
de cache igual a 270.000 bytes.
20
Exemplo: os dados abaixo indicam o valor y do aluguel e a idade x de 5 casas.
x
y
Equação de regressão:
10
4
13
3
5
6
7
5
20
2
yˆ  6,87  0,261x
Faça o gráfico dos pontos e da reta ajustada. Você acha que o modelo adotado é razoável?
O que significa o coeficiente
angular neste caso? E o coeficiente
linear?
Faça uma previsão para o valor do
aluguel para idade de 13 anos.
21
Observações:
• um modelo de regressão pode conter duas ou mais variáveis preditoras (X1, X2,...,Xp-1);
• o modelo de regressão não precisa ser uma linha reta:
Y  0  1 X  2 X 2  
Chama-se modelo quadrático ou de 20 grau, cuja figura é uma parábola. Esse modelo, embora não
seja uma linha reta, continua sendo um modelo linear nos parâmetros. O método que será discutido
para o modelo de regressão linear simples aplica-se diretamente aos demais modelos lineares nos
parâmetros.
22
GARBAGECOLLECTIONTIME
Outro exemplo: o tempo de coleta de lixo (garbage collection time) para um
particular algoritmo foi mensurado para diversos valores de heap size.
S
c
a
tte
rp
lo
t (G
A
R
B
A
G
E
.S
T
A1
0
v
*1
0
c
)
y
=
1
3
2
1
4
,
8
3
-2
2
,
0
8
*x
+
0
0
,
0
1
*x
^2
+
e
p
s
6
0
0
5
0
0
4
0
0
3
0
0
2
0
0
1
0
0
0
4
0
0
6
0
0
8
0
0
1
0
0
0
1
2
0
0
1
4
0
0
1
6
0
0
H
E
A
PS
IZ
E
S
23
• Modelo não linear nos parâmetros. Exemplo: modelo de crescimento logístico, onde X é o
tempo.
Y
1
1  2 e 3 X

É necessário estudar métodos para modelos não lineares.
• Exemplo computação: modelo potência, y=bxa, onde X é a velocidade do processador e Y é
a taxa I/O.
24
Modelos de regressão alternativos
As vezes torna-se conveniente (p.e. facilidade de cálculos) escrever o modelo de
regressão linear (2) de forma diferente, embora equivalentes. Seja X0 uma
variável dummy identicamente igual a 1. Então, temos o modelo que associa
uma variável X a cada parâmetro do modelo:
Yi  0 X 0  1 X1   i onde X 0  1
Uma outra alternativa é usar para a v. preditora os desvios (Xi-Média(X)) ao invés
de Xi. Para não modificarmos o modelo (2), escrevemos:
Yi  0  1 ( X i  X )  1 X   i
Yi    1 ( X i  X )   i
*
0
  0  1 X
*
0
25
Estimação da função de regressão
Denotamos as observações (Xi,Yi) para a primeira repetição como (X1,Y1), para a segunda como
(X2,Y2), e para a i-ésima como (Xi,Yi), com i=1,2,..,n.
Exemplo: uma pesquisadora está estudando o comportamento de Staphilococcus aureus (Y) em
frango, mantido sob condições de congelamento doméstico (-18oC) ao longo do tempo (X) (dias).
Tempo
População
0
3,114
7
3,568
14
2,845
21
3,079
28
2,699
35
2,663
Notação: temos n=6 observações. O tamanho da população (ufc/cm2) é dado em log10.
Método dos mínimos quadrados
Para observações (Xi,Yi) i=1,..,n, temos o modelo
Yi  0  1 X i   i
i  1,..,n
Desejamos ajustar o modelo, estimando os parâmetros 0 e 1.
O método de mínimos quadrados considera os desvios de Yi em relação ao seu valor esperado
(E(Yi)):
Yi  ( 0  1 X i )
26
Elevando-se ao quadrado esses desvios e aplicando-se o somatório, temos o critério Q
n
Q   Yi   0  1 X i 
2
(10)
i 1
De acordo com o método de mínimos quadrados, os estimadores de 0 e 1 são os valores b0 e
b1, respectivamente, que minimizam o critério Q para a amostra (X1,Y1),..,(Xn,Yn).
6
5
,
e3
5
5
,
4
5
,
VALOR
e1
3
5
,
e2
2
5
,
e5
1
5
,
2
6
1
0
1
4
1
8
2
2
IA
D
D
E
27
Estimadores de mínimos quadrados
Os valores de 0 e 1 que minimizam o critério Q podem ser obtidos diferenciando-se (10) em
relação a 0 e 1 , portanto, obtemos:
Q
 0
Q
1
n
 2 (Yi   0  1 X i )
i 1
n
 2 X i (Yi   0  1 X i )
i 1
Iguala-se a zero as derivadas parciais, usando b0 e b1 para denotar valores particulares de
0 e 1que minimizam Q.
28
n
 2 (Yi  b0  b1 X i )  0
i 1
n
 2 X i (Yi  b0  b1 X i )  0
i 1
simplificando e expandindo, obtemos:
n
 (Y  b
i
i 1
0
 b1 X i )  0
n
 X (Y  b
i
i 1
i
0
 b1 X i )  0
n
n
 Y  nb  b  X
i 1
i
0
1
n
i 1
n
 X Y b  X
i i
i 1
0
i 1
i
0
n
i
 b1  X i2  0
i 1
Fazendo-se as derivadas
parciais de segunda ordem,
indicará que um mínimo foi
encontrado com os estimadores
b 0 e b 1.
Daí, obtemos o sistema de equações normais, dado por:
n
Y
i 1
i
n
 nb0  b1  X i
i 1
n
X Y
i 1
i
i
n
n
i 1
i 1
 b0  X i  b1  X i2
29
As equações normais podem ser resolvidas simultaneamente para b0 e b1(estimadores pontuais):
( X i  X )(Yi Y )

b1 
 ( X i  X )2
b0  1n  Yi  b1  X i   Y  b1 X
Outra forma de escrevermos:
b1 
X Y

XY 

X
n
2


X
2
 
n
30
Exemplo: a pesquisadora deseja encontrar o modelo de regressão da
porcentagem de acertos sobre o tamanho da cache.
Tamanho da
cache (X)
Porcentagem
de acertos (Y)
(X i  X )
(Yi  Y )
Total = 3900000
584,52
0
0
Média = 325000
48,71
( X i  X )(Yi  Y ) ( X i  X ) 2
2408500
37500000000
(Yi  Y ) 2
181,438
31
( X i  X )( Yi Y )

2408500
b1 

 0 ,0000642
2
3750000000
0
(
X

X
)
 i
b0  Y  b1 X  48 ,71  ( 0 ,0000642 )( 325000 )  27 ,845
Assim, estimamos que a porcentagem de acerto da cache
aumenta cerca de 0,00006 % para cada byte do tamanho da
cache.
32
33
Saída do Statistica:
34
Exemplo: a pesquisadora deseja encontrar o modelo de regressão do tempo
sobre a população de bactérias.
Tempo (X)
População (Y)
(X i  X )
(Yi  Y )
0
7
14
21
28
35
Total = 105
3,114
3,568
2,845
3,079
2,699
2,663
17,968
-17,5
-10,5
-3,5
3,5
10,5
17,5
0
0,119
0,573
-0,150
0,084
-0,296
-0,332
0
Média = 17,5
2,9947
( X i  X )(Yi  Y ) ( X i  X ) 2
-2,088
-6,020
0,524
0,295
-3,105
-5,805
-16,199
306,250
110,250
12,250
12,250
110,250
306,250
857,5
(Yi  Y ) 2
,014
,329
,022
,007
,087
,110
0,569
( X i  X )(Yi Y )
16 ,199

b1 

 -0,018890
2
857
,
5
(
X

X
)
 i
b0  Y  b1 X  2,9947 (0,0189)(17,5)  3,32545
Assim, estimamos que o tamanho da população de bactérias diminui cerca
de 0,0189 ufc/cm2 para cada dia.
35
Saída do STATISTICA:
Regression Summary for Dependent Variable: POP
R= ,73274116 R²= ,53690961 Adjusted R²= ,42113702
F(1,4)=4,6376 p<,09760 Std.Error of estimate: ,25686
St. Err.
St. Err.
BETA of BETA
B
of B
t(4)
p-level
Intercpt
3,325238 ,185902 17,88708 ,000057
TEMPO -,732741 ,340254 -,018890 ,008772 -2,15351 ,097596
36
Propriedades dos estimadores de mínimos quadrados
Teorema de Gauss-Markov: Se as pressuposições do modelo de regressão linear (2) forem
atendidas, os estimadores de mínimos quadrados b0 e b1 são não tendenciosos (unbised) e com
variância mínima, entre todos os estimadores lineares não tendenciosos. Primeiro, o teorema
diz que:
E(b0)=0 e E(b1)=1. (Demonstração adiante)
Segundo, o teorema diz que os estimadores b0 e b1 são mais precisos (isto é, as suas distribuições
amostrais tem menor variabilidade) do que quaisquer outros estimadores pertencentes a classe
dos estimadores não tendenciosos que são funções lineares das observações Y1, Y2,...,Yn. Os
estimadores b0 e b1 são tais funções lineares das observações. Considere, por exemplo, b 1,
( X i  X )(Yi Y )
( X i  X )Yi


b1 
 ( X  X )2   kiYi
2
(
X

X
)
 i
 i
ki 
( Xi X )
( X i  X )2
Como ki são constantes (pois Xi são constantes conhecidas), b1 é uma combinação linear
de Yi e, assim, é um estimador linear. Da mesma forma, b0 também é um estimador
linear. Entre todos os estimadores lineares não tendenciosos, b0 e b1 tem menor
variabilidade (demonstração adiante) em repetidas amostras nas quais os níveis de X são
constante.
37
Estimação pontual da resposta média
Estimação da função de regressão
A média do modelo de regressão linear é dada por:
E(Y )  0  1 X
Estima-se a função de regressão por:
Yˆ  b0  b1 X
Onde Y (chapéu) é o valor estimado da função no nível X da variável preditora.
A resposta média (E(Y)), corresponde a média da distribuição de probabilidade de Y no nível X
da variável preditora. Pode-se demonstrar, como uma extensão do teorema de Gauss-Markov
que Y (chapéu) é um estimador não tendencioso de E(Y), com variância mínima dentro da
classe dos estimadores lineares não tendenciosos. Temos:
Yˆi  b0  b1 X i
i  1,2,...,n
como sendo o valor ajustado para o i-ésimo caso.
38
Exemplo: para os dados de porcentagem de acerto na cache, os
valores estimados da função de regressão são dados por:
Yˆ  27 ,83633  0 ,0000642X
Suponha que estejamos interessados na porcentagem média
de acerto na cache para X=300.000 bytes (muitas amostras
com 300.000 bytes sob as mesmas condições que a equação
foi estimada); a estimativa pontual vale:
yˆ  27 ,83633  0 ,0000642( 300000 )  47 ,10
Valores ajustados dos dados da amostra são obtidos
substituindo-se os correspondentes valores da variável preditora
X na função de regressão.
39
Saída do Statistica:
40
Exemplo: para os dados de staphilococcus aureus em frango, os valores estimados da função de
regressão são dados por:
Yˆ  3,325 0,019X
Suponha que estejamos interessados na população média (muitas amostras com 21 dias de
armazenamento sob as mesmas condições que a equação foi estimada) de bactérias para
X=21 dias de armazenamento; a estimativa pontual vale:c
yˆ  3 ,325  0 ,019( 21 )  2 ,926
Valores ajustados dos dados da amostra são obtidos substituindo-se os correspondentes valores
da variável preditora X na função de regressão.
Saída do STATISTICA:
Predicted & Residual Values (staphilo.sta)
Dependent variable: POP
Observed Predictd
Value
Value
Residual
1
3,114000 3,325238 -,211238
2
3,568000 3,193010 ,374990
3
2,845000 3,060781 -,215781
4
3,079000 2,928552 ,150448
5
2,699000 2,796324 -,097324
6
2,663000 2,664095 -,001095
Minimum 2,663000 2,664095 -,215781
Maximum 3,568000 3,325238 ,374990
Mean
2,994667 2,994667 ,000000
Median
2,962000 2,994667 -,049209
Standard
Pred. v.
1,33631
,80178
,26726
-,26726
-,80178
-1,33631
-1,33631
1,33631
-,00000
0,00000
Standard
Residual
-,822385
1,459902
-,840072
,585718
-,378898
-,004263
-,840072
1,459902
,000000
-,191581
Std.Err.
Pred.Val
,185902
,139567
,109264
,109264
,139567
,185902
,109264
,185902
,144911
,139567
Mahalns.
Distance
1,785714
,642857
,071429
,071429
,642857
1,785714
,071429
1,785714
,833333
,642857
Cook's
Distance
,781146
,633439
,095181
,046269
,042668
,000021
,000021
,781146
,266454
,070725
41
Modelo alternativo
Quando o modelo utilizado é:
Yi  0*  1 ( X  X )   i
O estimador b1 de 1 permanece o mesmo. O estimador de
 0*   0  1 X é dado por :
b0*  b0  b1 X  (Y  b1 X )  b1 X  Y
Temos:
Yˆ  Y  b1 ( X  X )
Exemplo: obter o valor ajustado para X=300.000 bytes de
cache..
Exemplo: para os dados de staphilococcus aureus em frango
obter o valor ajustado para X1=0 dia de armazenamento..
42
Resíduos
O i-ésimo resíduo é a diferença entre o valor Yi e o
correspondente valor ajustado Y (chapéu)i.
ei  Yi  Yˆi
Vemos que o resíduo para o primeiro caso, exemplo de
pop. de Staphilococcus, saída do statistica, é dado por:
e1  Y1  Yˆ1  3,114000- 3,325238 -,211238
Exemplo: para os dados de porcentagem de acerto na cache, o resíduo para o
primeiro caso vale:
e1  Y1  Yˆ1  44,45 - 43,886 0,564
43
Distinção:
 i  Yi  E(Yi )  é o desvio de Yi da verdadeira equação de regressão (desconhecida)
e assim é desconhecido.
ei  Yi  Yˆi
 é o desvio de Yi do valor ajustado Yi (chapéu) na equação de regressão
estimada, portanto, é conhecido.
Os resíduos são extremamente úteis para verificar se um determinado modelo de regressão é
apropriado para os dados. Este assunto será tratado mais adiante neste curso.
0
4
,
5
para os dados de
staphilococcus aureus
em frango
0
3
,
0
Resíduos
0
1
,
5
0
0
,
0
-0
1
,
5
-0
3
,
0
-5
0
5
1
0
1
5
T
E
M
P
O
2
0
2
5
3
0
3
5
4
0
R
e
g
re
s
s
o
i
n
9
5
%
c
o
n
d
i
f
.
44
R
a
w
re
s
id
u
a
ls
v
s
T
.
A
M
A
N
H
O
C
R
a
w
re
s
id
u
a
ls
=
-,
0
0
0
0
+
0
0
,
0
0
0
*T
A
M
A
N
H
O
C
C
o
rre
la
io
t
n
r=
:
0
,
0
0
0
0
3
2
1
RESÍDUOS
0
-1
-2
-3
2
2
,
e
5
2
6
,
e
5
3
e
5
3
4
,
e
5
3
8
,
e
5
4
2
,
e
5
R
e
g
re
s
s
io
n
9
5
%
c
o
n
id
f
.
T
A
M
A
N
H
O
D
A
C
A
C
H
E
45
Propriedades do modelo ajustado: Yˆ  b0  b1 X
n
1.
 e  ( Y  b
i
i
i 1
0
 b1 X i )  Yi  nb0  b1  X i  0
( devidoa prim eiraequaçãonorm al) (Veja saida do STATISTICA)
n
2.
e
i 1
2
i
é m ínim a(condiçãodo m étodode MQO)
n
n
i 1
i 1
3.  Yi  Yˆi (Veja saída do STATISTICA)
n
4.
X e
i 1
i i
n
5.
Yˆ e
i 1
i i
 0 (ponderados)
 0 (ponderados)
6. Yˆ  Y  b1( X  X )  Y  b1 ( X  X )  Y (para X  X)
( a linha de regressão sem pre passa pelo ponto(X;Y ) )
46
Estimação da variância (2)
A variância, 2, dos erros, i, no modelo de regressão (2) precisa ser estimado para obter uma
indicação da variabilidade da distribuição de probabilidade de Y. Necessário para inferências.
Lembrete: a variância de cada observação Yi para o nosso modelo de regressão é 2, a mesma de
cada i.
Precisamos calcular a soma de quadrados de desvios, considerando que cada Yi veêm de diferentes
distribuições de probabilidade com diferentes médias que dependem do nível de Xi; as médias são
estimadas por Yi(chapéu). Assim os desvios são os resíduos:
ei  Yi  Yˆi
A soma de quadrados do erro (resíduo), SQE, é dada por:
n
n
i 1
i 1
SQE   (Yi  Yˆi ) 2  ei2
Dois graus de liberdade são perdidos para estimar os parâmetros 0 e 1. O quadrado médio do
erro é dado por (QME):
QME  SQE
n 2
Temos que o QME é um estimador não tendencioso de 2
(prova adiante) pois
E (QME)   2
47
Exemplo: para os dados de Staphilococcus aureus em frango, temos:
SQE  0 ,2639
com 6 - 2  4 grausde liberdade,assim
QME  0 ,2639 / 4  0 ,0659 (Estim ativa da variância)
Estimativade  0 ,0659  0 ,2567 ufc (desvio padrão)
(Desvio padrãoda distribuição de Y para qualquerX)
Exemplo: para os dados de tamanho de cache, temos:
SQE  25,7385
com12 - 2  10 graus de liberdade, assim
QME  25,7385/ 10  2,57385
Estim ativa de  é 2,57385 1,6043% (desvio padrão)
(Desviopadrãoda distribuição de Y para qualquer X)
48
Modelo de regressão com erros normais
Para construir intervalos de confiança e fazer testes de hipóteses nós devemos
considerar alguma distribuição de probabilidade para os i. Uma distribuição
que tem um apelo prático e teórico bastante grande é a distribuição normal e
que será utilizada neste curso.
O modelo de regressão é dado por:
Yi  0  1 X i   i
i  1,..,n
Yi é o i-ésimo valor observado da variável resposta;
0 e 1 são os parâmetros;
Xi é o i-ésimo valor da variável preditora (é uma constante
conhecida, fixo).
i é o termo do erro aleatório, independentes com distribuição
N(0, 2).
49
Independentes: no sentido que eles não são relacionados de qualquer modo, por exemplo, são
provenientes de diferentes cpu’s, diferentes indivíduos, diferentes animais, etc. Os registros
num banco de dados são independentes.
Como assumimos para o modelo de regressão que os erros são normalmente distribuídos, a
suposição que os erros i não são correlacionados, feita no modelo inicial, transforma-se na
suposição de independência no modelo com distribuição normal.
O modelo implica que Yi são variáveis aleatórias independentemente distribuídas segundo uma
normal com média E(Yi)=0+ 1Xi e variância 2. Para cada valor Xi, podemos pensar em todos
os valores possíveis de Yi e sobre a sua variabilidade. Esta suposição diz que, seja qual for o
valor de Xi, a variabilidade nos possíveis valores de Y é a mesma.
Para cada valor Xi, podemos pensar que todos os valores assumidos por Y podem ser bem
representados por uma distribuição normal.
50
Estimação dos parâmetros pelo método da máxima
verossimilhança
Como foi especificado uma distribuição de probabilidades para os erros podemos obter
estimadores para 0, 1 e 2 pelo MMV.
O método de máxima verossimilhança determina como estimativas de máxima verossimilhança,
os valores de 0, 1 e 2 os quais produzem o maior valor para a verossimilhança.
Em geral, a densidade de uma observação Yi para o modelo de regressão com erros normais,
utilizando o fato de que E(Yi)=0+ 1Xi e variância 2 é dada por :
fi 
1
2 

exp 


2
1 Yi   0  1 X i
2

A função de verossimilhança para n observações Y1, Y2,...,Yn, é o produto das densidades
individuais (é a conjunta). Como a variância 2 dos erros é desconhecida, a conjunta é uma função
de três parâmetros, 0, 1 e 2 :
51

n
L(  0 , 1 ,  )   ( 212 )1 / 2 exp  21 2 (Yi   0  1 X i ) 2
2

i 1
n


 ( 2πσ12 )n/ 2 exp 2σ1 2  (Yi  β0  β1 X i )2 
i 1


Devemos encontrar valores de 0, 1 e 2 que maximizam a função de verossimilhança L,
calculando-se as derivadas parciais de L com respeito a 0, 1 e 2 e igualando cada derivada
parcial a zero e resolvendo o sistema de equações obtido. Podemos trabalhar com logeL ao invés de
L, pois ambos são maximizadas para os mesmos valores de 0, 1 e 2 :
loge L   n2 loge 2  n2 loge  2  21 2  (Yi   0  1 X i ) 2
As derivadas parciais do logaritmo da função de verossimilhança, são dadas por:
 (loge L) 1
 2
 0

 (Y  
 (loge L) 1
 2
1

 X (Y  
i
i
i
 (loge L)
n
1



 2
2 2 2 4
0
 1 X i )
0
 1 X i )
 (Y  
i
0
 1 X i ) 2
52
Agora, fazemos as derivadas parciais iguais a zero, substituindo 0, 1 e 2 pelos estimadores
ˆ0 , ˆ1 e ˆ 2
Obtemos:
 (Y  ˆ  ˆ X )  0
 X (Y  ˆ  ˆ X )  0
i
i
0
1
i
 (Yi  ˆ0  ˆ1 X i )
n
i
0
2
1
i
 ˆ 2
As duas primeiras equações são idênticas as equações normais encontradas pelo método de
mínimos quadrados. O MMV produz um estimador viesado para 2.
Parâmetro
Estimador de máxima verossimilhança
0
ˆ 0  b0
1
ˆ1  b1
(Y Yˆ )
ˆ 2   n
2
i
2
i
Os estimadores de 0, e 1 são os mesmos do método de mínimos quadrados. O estimador de
máxima verossimilhança de 2 é viesado,ou seja,.
( n  1 ) 2
E( ˆ ) 
n
2
53
Comentários:
1) como os estimadores de máxima verossimilhança de 0,e 1 são os mesmos do método
de mínimos quadrados, eles tem as mesmas propriedades de todos os estimadores de
mínimos quadrados:
a) são não viesados;
b) tem variância mínima entre todos os estimadores lineares não tendenciosos;
além disso, os estimadores de máxima verossimilhança b0 e b1 para o modelo de
regressão com erros normais tem outras propriedades desejáveis:
c) são consistentes;
lim P(|ˆ   |  )  0   0
n
d) são suficientes;
fY|ˆ ( y | ˆ )  não depende de  .
*** Fazer lista de exercícios número 1.
54
Inferência na análise de regressão
Intervalos de confiança
Testes de hipóteses:
Assumimos o modelo:
Yi  0  1 X i   i
i  1,..,n
(3)
0 e 1 são os parâmetros;
Xi são constantes conhecidas, fixas.
i são independentes com distribuição N(0, 2).
55
Inferências para 1
 encontrar intervalos de confiança para 1
fazer testes de hipóteses com relação a 1, por exemplo:
H 0 : 1  0
H a : 1  0
Não há associação
entre X e Y.
Para realizar inferências sobre 1, precisamos conhecer a distribuição amostral de b1, o estimador
pontual de 1.
Distribuição amostral de b1
O estimador pontual é dado por:
( X i  X )(Yi Y )

b1 
( X i  X ) 2
A distribuição amostral de b1 refere-se aos diferentes valores de b1 que seriam obtidos com
muitas amostras para um mesmo nível da variável preditora X (constante).
56
Normalidade: a normalidade da distribuição amostral de b1 segue do fato de que b1 é uma
combinação linear dos Yi.Os Yi são independentes, com distribuição normal. Uma combinação linear
de variáveis aleatórias independentes, com distribuição normal, também tem distribuição normal.
b1 como combinação linear de Yi.
( X  X )( Y Y )
b1   i( X  X i)2
 i
( X i  X )Yi   ( X i  X )Y

b1 
 ( X i  X )2
( X  X )Y Y
( X X )
b1   i ( Xi  X)2 i
 i
( X  X )Y
b1   ( Xi  X )2i
 i
b1   kiYi
ki 
( Xi X )
( Xi  X )
Média:
E (b1 )  E  kiYi    ki E (Yi )
E (b1 )   ki (  0  1 X i )
E (b1 )   ki  0   ki 1 X i
E (b1 )   0  ki  1  ki X i
E (b1 )  1 (nãoviesado)
Pois,
k  0
k X  1
i
2
i
i
(Dem onstre)
Portanto, ki são funções de Xi que são valores
fixos.
57
Variância:
 k Y    k 
2
 2 (b1 )   ki2 2
 2 (b1 )   2  ki2
 X X 
2
 ki    Xi  X 2 
 i

1
2
2


k

X

X
i
i
2 2 
 X i  X 
 2 (b1 )   2
 ki2 
 (b1 )  
2
2
2
i
i i

2
(Yi )

1
 X i  X 2
 X

1
i X
2
Podemos estimar a variância da distribuição amostral de b1 substituindo 2 pelo quadrado médio
residual (QME). O estimador s2(b1) é um estimador não tendencioso de 2 (b1).
s (b1 ) 
2
QME
2


X

X
i

58
Nota:
Na seção propriedades dos estimadores de mínimos quadrados dissemos que b1 tem a
menor variância entre todos os estimadores lineares não tendenciosos da forma
ˆ1   ciYi
ci são constantes arbitrárias
ˆ1  b1
ˆ1 é nãotendencioso :
E( ˆ1 )  E( ciYi )   ci E(Yi )   ci (  0  1 X i )   0  ci  1  ci X i  1
Restrições:
c  0 e c X
i
i
i
1
Variânciade ˆ1 :  2 ( ˆ1 )   ci2 2 (Yi )   ci2 2   2  ci2
Seja ci=ki + di, onde ki são como anteriormente e os di são constantes arbitrárias.
Então:
2
2
 2  ( ki  d i )   2
 k
i
 2 (b1 )
  d i2  2 ki d i

Zero (Verifique)
59
Finalmente, temos:
 2 ( ˆ1 )   2 (b1 )   2  di2
Observamos que a menor variância do estimador (ˆ1 ) é obtida quando di2  0 .Isto
ocorre quando todos os di=0, isto implica que ci  ki. Assim, o estimador de mínimos
quadrados b1 tem variância mínima entre todos os estimadores lineares não tendenciosos.
Distribuição amostral de (b1-1)/s(b1)
Como b1 tem distribuição normal, sabemos que a estatística padronizada (b1-1)/(b1) é uma
variável aleatória com distribuição normal padrão. Para estimar (b1) usamos s(b1) e, assim
precisamos conhecer a distribuição da estatística (b1-1)/s(b1) [estatística studentizada].
Teorema:
b1  1
s ( b1 )
~ t(n - 2)
para o modelo (3)
Demonstração:
Podemos escrever a estatística como:
b1  1
 ( b1 )

s ( b1 )
 ( b1 )
O numerador é uma variável normal padrão z. Para o denominador, temos:
60
QME
s 2 ( b1 )
 ( b1 )
2
Portanto,

 2 
( X i  X )2

( X i  X )2
b1  1
s ( b1 )
~
QME

2

SQE
n 2
2

  2 ( n2) ~
SQE
 (2n2 )
( n2)
Teorema: para o modelo (3),
SQE/2 é distribuído como
2 com n-2 gl e é
independente de b0 e b1.
z
 2 ( n2 )
( n 2 )
Como z e 2 são independentes pois z é uma função de b1 e b1 é independente de SQE/2 ~ 2.
Assim (A definição está no apêndice):
b1  1
s ( b1 )
~ t(n  2).
Agora podemos fazer inferências sobre 1.
61
Intervalo de confiança para 1
Desde que (b1-1)/s(b1) tem distribuição t,podemos fazer a seguinte afirmação probabilística:
P{t ( / 2; n  2)  (b1  1 ) / s(b1 )  t (1   / 2; n  2)}  1  
/2=0,25
t=-1
1-=0,50
/2=0,25
t=1
62
•t(/2;n-2) representa o (/2)100 percentil da distribuição t com n-2 g.l.
• t(/2;n-2) = - t(1-/2;n-2) (devido a simetria da distribuição t)
Rearranjando as desigualdades obtemos:
P(b1  t (1   / 2; n  2)s(b1 )  1  b1  t (1   / 2; n  2)s(b1 ))  1  .
O intervalo de confiança é dado por:
b1  t (1   / 2; n  2)s(b1 )
Exemplo: considere os dados de população de Staphilococcus aureus, a pesquisadora deseja
encontrar o intervalo para 1 com confiança de 95%.
s 2 (b1 ) 
 0,0000769
( X  X )
s(b1 )  0,008772
QMR
2

0 , 0659
857 , 5
t (0,975;4)  2,776 Usar software
 0,019 2,776(0,008772)  1  0,019 2,776(0,008772)
 0,0434 1  0,0623
Muito importante
Interpretação: estimamos que a população de Staphilococcus “cresce” entre -0,0434 e
0,0623 unidade/dia.
63
Exemplo: considere os dados de porcentagem de acerto na
cache, a pesquisadora deseja encontrar o intervalo para 1 com
confiança de 95%.
s 2 ( b1 ) 

QMR
( X  X )2

2 ,5738
3750000000 0
 0 ,000000000068635
s( b1 )  0 ,0000083
t ( 0 ,975;10 )  2 ,228 Usar software
0 ,0000642  2 ,228( 0 ,0000083 )  1  0 ,0000642  2 ,228( 0 ,0000083 )
0 ,0000457  1  0 ,0000827
Muito importante
Interpretação: estimamos que a porcentagem de acertos
aumenta entre 0,0000457 e 0,0000827 % por byte do
tamanho da cache.
64
Teste de hipóteses para 1
Vimos que (b1-1)/s(b1) tem distribuição t(n-2).O teste de hipótese
sobre 1 pode ser feito de maneira padrão usando a distribuição de
Student.
Teste bilateral
Hipóteses:
H 0 : 1  0
H a : 1 0
65
Exemplo: a pesquisadora deseja saber se existe regressão linear
entre a porcentagem de acertos na cache e o tamanho da cache,
ou seja, se 10 ou não.
[Como o intervalo de confiança construído anteriormente não
inclui o valor 0 (o valor da hipótese nula), devemos rejeitar a
hipótese nula (H0). Isto é válido quando o teste é bilateral].
66
Exemplo: a pesquisadora deseja saber se existe regressão linear
entre população de bactérias e o tempo de armazenamento, ou
seja, se 10 ou não.
[Como o intervalo de confiança construído anteriormente inclui o
valor 0 (o valor da hipótese nula), devemos aceitar a hipótese nula
(H0)].
Teste estatístico formal:
t* 
b1  1
s ( b1 )
Critério do teste: estamos controlando a probabilidade de erro
tipo I ().
Se | t * | t (1   / 2; n  2), não rejeita- se H 0
Se | t * | t (1   / 2; n  2), rejeita- se H 0
67
Exemplo: para os dados de porcentagem de acerto na cache,
com =0,05, b1=0,0000642 e s(b1)=0,0000083, temos:
t 
*
0 ,0000642 0
0 ,0000083
 7 ,735
O valor de t de tabela vale: t(0,975;10)=2,228, como |7,735| é maior
do que 2,228 rejeita-se a hipótese nula e concluímos que existe uma
associação linear entre a porcentagem de acertos na cache e o
tamanho da cache.
68
Exemplo: para os dados de população de Staphilococcus
aureus, com =0,05, b1=-0,019 e s(b1)=0,008772, temos:
t 
*
0, 0190
0, 008772
 2,166
O valor de t de tabela vale: t(0,975;4)=2,776, como |-2,166| é menor
do que 2,776 aceita-se a hipótese nula e concluímos que não existe
uma associação linear entre a população de Staphilococcus aureus e
o tempo de armazenamento.
Valor p: é o menor valor de  para o qual rejeitamos a hipótese
nula. Se o pesquisador fixar =0,05, então, para um valor p  0,05
não rejeita-se H0, caso contrário, rejeita-se H0. Formalmente fica:
P( t  t * )  valor p
Valor p é também denominado de nível descritivo ou nível de
significância observado.
69
Saída do Statistica: dados de porcentagem de acertos na cache. As
diferenças verificadas são devidas às aproximações nos cálculos.
70
* * Com o uso do Statistica, para os dados de porcentagem de
acerto na cache, encontrar a probabilidade de se rejeitar a
hipótese nula, quando ela é verdadeira.
P(| t | 7,7525)  0,000015
P(t  7,7525)  p(t  7,7525)  0,000008 0,000008 0,000016
Atenção: verificar se o software dá o valor p para o teste uni
ou bilateral
71
Saída do Statistica: dados de populações de Staphilococcus a diferença verificada entre -2,166 e 2,15351 é devido à aproximações nos cálculos.
* * Com o uso do Statistica, encontrar a probabilidade de se rejeitar a hipótese nula, quando ela é
verdadeira.
P(| t | 2,166)  0,0962
P(t  2,166)  p(t  2,166)  0,04812 0,04812 0,09624
Atenção: verificar se o
software dá o valor p para
o teste uni ou bilateral
72
Teste unilateral:
O pesquisador deseja, por exemplo, testar se 1 é negativo,
controlando o nível de significância =0,05.
H 0 : 1  0
H a : 1  0
Regra de decisão:
Se t*  t (  ; n  2 ), não rejeita - se H 0
Se t*  t (  ; n  2 ), rejeita - se H 0
Exemplo: para os dados de Staphilococcus temos, para =0,05,
t(0.05;4)=-2,132. Como t*=-2,166, rejeita-se a hipótese de
nulidade, portanto 1 é negativo.
Valor p  Pt  t 
*
73
Nas publicações, indicar o nível descritivo juntamente com o valor
da estatística teste. Podemos realizar o teste estatístico para
qualquer nível de significância , comparando o nível descritivo
com o valor desejado de .
Comentário: pode-se testar as seguintes hipóteses:
H 0 : 1  10
H a : 1  10
Onde 10 é um valor diferente de zero.
74
A estatística teste é dada por:
b1  10
t
sb1 
Critério do teste:
Se |t*|  t(1- /2;n-2) não se rejeita H0
Se |t*| > t(1- /2;n-2) rejeita-se H0
75
Inferências para 0
Só tem interesse quando os níveis de X incluem X=0 (o que é raro).
Distribuição amostral de b0
O estimador pontual b0 é dado por:
b0  Y  b1 X
A distribuição amostral de b0 refere-se aos valores diferentes de b0 que seriam obtidos com
diferentes amostras para o mesmo valor de X (constante).
A distribuição amostral de b0 é normal
Média:
E (b0 )   0
Variância:
 2 (b0 )   2  1n 
(Demonstração próxima página)


X2
( X i  X )2


A normalidade é verificada pois b0 é uma combinação linear das observações Yi.
Um estimador para 2(b0) é obtido substituindo-se 2 pelo seu estimador pontual, QME.
Distribuição amostral de (b0-0)/s(b0)
Teorema:
b0   0
s ( b0 )
~ t ( n  2)
 podemos usar a distribuição t para construir
os IC e fazer os testes de hipóteses.
76
Demonstração:
E( b0 )  E( Y  b1 X )  E( Y )  E( b1 X )
 Y  XE( b1 )  0  1 X  X1
 0 (cqd).
77
Intervalo de confiança para 0
b0  t (1   / 2; n  2)s(b0 )
Exemplo: para os dados de Staphilococcus, como temos tempo=0 (X=0), podemos estar
interessados em encontrar o IC para 0.
1

X2
 1 17 ,52 
s (b0 )  QME  n 

0
,
0659
 857 ,5   0,0345
2

6


 ( X i  X ) 
s(b0 )  0,1858
2
t (0,975;4)  2,776
3,3252 2,776(0,1858)   0  3,3252 2,776(0,1858)
2,8094  0  3,8410
Como o intervalo de confiança não inclui o valor zero (0), rejeitamos a hipótese:
H0 :  0  0
Ha :  0  0
78
Estimação intervalar para E(Yh)
Freqüentemente, numa análise de regressão, deseja-se estimar a
média de uma ou mais distribuições de probabilidade de Y.
Exemplo: No estudo da relação entre o tamanho da cache (X) e
porcentagem de acerto (Y), a porcentagem média de acerto para
tamanhos maiores de cache pode ser de interesse. Outro exemplo,
um agrônomo pode estar interessado na produção média para
diversas doses de um nutriente, com o objetivo de encontrar a dose
ótima.
Xh  representa o nível da variável preditora para a qual se deseja
estimar a resposta média.
A resposta média para X=Xh é representada por: E(Yh)
Sabemos que o estimador pontual Yˆh de E(Yh) é dado por:
Yˆh  b0  b1 X h
79
Distribuição amostral de Y(chapéu)h
Diferentes valores de Y(chapéu)h que seriam obtidos se repetidas amostras
fossem selecionadas, para X constante, e calculando Y(chapéu)h para cada
amostra.
• Distribuição normal: para o modelo de regressão com erros normais, a
distribuição amostral de Y(chapéu)h é normal. A normalidade segue
diretamente do fato que Y(chapéu)h , assim como b0 e b1, é uma combinação
linear das observações Yi.
• Média
E(Yˆh )  E(b0  b1 X h )  E(b0 )  X h E(b1 )  0  1 X h  E(Yh )
80
• Variância
Para obter 2(Y(chapéu)h), primeiro mostraremos que b1 e Y não são correlacionados e sob o
modelo de regressão com erros normais, independentes:
 (b1; Y )  0
Definimos:
Y  1n Yi
b1   kiYi
ki 
Xi  X
( X i  X )
2
Através do teorema A.32 (Neter et al., página 668, 1996) com ai=1/n e ci=ki e lembrando que
Yi são variáveis aleatórias independentes:
 (Y ; b1 )   ( 1n )ki 2 (Yi )  n
2
k
i
0
Para a demonstração da variância de Y(chapéu)h vamos utilizar o modelo:
Yi  0*  1 ( X i  X )   i
81
 2 (Yˆh )   2 (Y  b1 ( X h  X ))
 2 (Yˆh )   2 (Y )  ( X h  X ) 2  2 (b1 )
(Y e b1 são independentes; X n e X constantes)
 (b1 ) 
2
2
 (Y ) 
2
 ( X h  X )2
2
  2 (Yˆh )  n  ( X h  X ) 2
 2 (Yi )
n
 n
2
2
 ( X i  X )2
( X h  X )2 
2 1
ˆ
 (Yh )    n  ( X  X ) 2 
  i

2
Distribuição amostral de (Yˆh  E(Yh )) / s(Yˆh )
Yˆh  E (Yh )
s (Yˆ )
~ t (n  2)
h
Intervalo de confiança para E(Yh)
Yˆh  t (1 / 2; n  2)s(Yˆh )
82
Exemplo: vamos encontrar um intervalo com confiança de 95% para E(Yh) para tamanho de
cache X=300.000 bytes. Temos:
Yˆ
300000
 27 ,83633  0 ,0000642( 300000 )  47 ,10
  0 ,25738
s ( Yˆ )  2 ,5738 
2
( 300000 325000 )2
3750000000 0
1
12
h
s( Yˆ )  0 ,5073263
h
t ( 0 ,975 ;10 )  2 ,228
47 ,10  2 ,228( 0 ,5073263 )  E( Y
)  47 ,10  2 ,228( 0 ,5073263 )
300000
45 ,9697  E( Y
300000
)  48 ,2303
Interpretação: temos 95% de confiança que a porcentagem média de acertos, com 300.000 bytes
de tamanho de cache, está entre 45,9697 e 48,2003%. Um intervalo com boa precisão.
Exercício: encontrar o intervalo com confiança de 95% para E(Yh) para tamanho de cache
X=200.000. Compare as amplitudes dos intervalos.
83
Exemplo: para os dados de população de bactérias, vamos encontrar um intervalo com
confiança de 95% para E(Yh) para tempo X=14 dias. Temos:
Yˆ14  3,325 0,019(14)  3,059


(14 17 , 5 ) 2
1
ˆ
s (Yh )  0,0659 6  857 ,5  0,0119
2
s(Yˆh )  0,1091
t (0,975;4)  2,776
3,059  2,776(0,1091)  E (Y14 )  3,059  2,776(0,1091)
2,7561 E (Y14 )  3,3619
Interpretação: temos 95% de confiança que a população média de bactérias, com 14 dias de
armazenamento, está entre 2,7561 e 3,3619 ufc (em log base e).
Exercício: encontrar o intervalo com confiança de 95% para E(Yh) para tempo X=0.
Compare as amplitudes dos intervalos.
84
Predição de uma nova observação
Exemplo: 1) a pesquisadora deseja predizer a porcentagem de acertos
na cache para um tamanho de cache igual a 375.000 bytes; 2) a
pesquisadora deseja predizer a população de bactérias para um tempo
específico igual a 15 dias.
Portanto, desejamos predizer uma nova observação, Y, vista como
resultado de um novo ensaio, independente dos ensaios nos quais
análise de regressão foi feita.
Notação: denotamos o nível de X para o novo ensaio como Xh e a
nova observação em Y como Yh(novo). Assumimos que o modelo de
regressão continua válido para a nova observação.
A diferença entre estimar uma resposta média, E(Yh) e fazer a
predição de uma nova observação, Yh(novo), é que no primeiro caso
estimamos a média da distribuição de Y. Agora, vamos predizer uma
resposta individual da distribuição de Y.
85
Intervalo de predição para Yh(novo)
Os limites de predição para uma nova observação Yh(nova) para um dado Xh são obtidos através do
do seguinte teorema :
Yh ( novo ) Yˆh
s ( pred )
~ t (n  2)
Isto para o modelo de regressão com erros normais.
Note que a estatística usa Y(chapéu)h no numerador ao invés de E(Yh). O desvio padrão estimado,
s(pred), é obtido como segue:
A diferença no numerador, Yh(novo) - Y(chapéu)h, pode ser visto como um erro de predição, com
Y(chapéu)h sendo a melhor estimativa pontual do valor da nova observação, Yh(novo) . A variância
desse erro pode ser obtida considerando que a nova observação e as n observações, sobre as quais
Y(chapéu)h está baseada, são independentes. Considerando o teorema A.31b (Neter et. Al., página
668, 1996), temos:
 2 ( pred)   2 (Yh ( novo)  Yˆh )   2 (Yh ( novo) )   2 (Yˆh )   2   2 (Yˆh )
s 2 ( pred))  QME  s 2 (Yˆh ) (estim adornãotendencioso)
( X h  X )2 

1
s ( pred)  QME 1  n  ( X  X ) 2


 i
2
O intervalo fica:
Yˆh  t (1  / 2; n  2)s( pred)
86
Exemplo: suponha que um novo tamanho de cache seja Xh=375000 bytes,e que a pesquisadora
deseja construir um intervalo de predição com 95% de confiança para Y375000(novo).
Yˆ375000  27 ,83633  0 ,0000642( 375000 )  51,91133
( 375000 325000 )2
2 ˆ
1
s (Y
)  2 ,5738 
 0 ,3861
375000

12
3750000000 0

QME  2 ,5738
t ( 0 ,975;10 )  2 ,228
s 2 ( pred )  2 ,5738  0 ,3861  2 ,9599
s( pred )  1,720436
51,91133  2 ,228(1,720436 )  Y375000 ( novo )  51,91133  2 ,228(1,720436 )
48 ,0782  Y375000 ( novo )  55 ,7445
Interpretação: podemos afirmar com 95% de confiança que o valor predito de porcentagem de
acertos, para tamanho de cache igual a 375000 bytes, está entre 48,0782 e 55,7445%.
O intervalo de predição é similar ao intervalo de estimação, a diferença é conceitual. Um intervalo
de estimação é uma inferência sobre um parâmetro e é um intervalo que procura conter o valor do
parâmetro. O intervalo de predição, por outro lado, é um conhecimento formal sobre um valor de
uma variável aleatória, a nova observação Yh(novo).
87
Exemplo: suponha que um novo tempo de armazenamento seja Xh=15 dias,e que a pesquisadora
deseja construir um intervalo de predição com 95% de confiança para Y15(novo).
Yˆ15  3,325 0,019(15)  3,040


(15 17 , 5 ) 2
1
ˆ
s (Y15 )  0,0659 6  857 ,5  0,0115
2
QME  0,0659
t (0,975;4)  2,776
s 2 ( pred)  0,0659 0,0115 0,0774
s( pred)  0,2782
3,040 2,776(0,2782)  Y15( novo)  3,040 2,776(0,2782)
2,2677 Y15( novo)  3,8123
Interpretação: podemos afirmar com 95% de confiança que o valor predito de população de
bactérias, para tempo igual a 15 dias, está entre 2,2677 e 3,8123 ufc/cm2.
88
Faixa de confiança para a equação de regressão
Útil para verificar o ajuste da equação de regressão.
A faixa de confiança (1-) para a equação da reta correspondente ao modelo de regressão com
erros normais tem dois limites para qualquer nível de Xh, cujos valores são dados por:
Yˆh  Ws (Yˆh )
W 2  2 F (1   ;2, n  2)
Yˆ  b  b X
h
0
1
h
( X h  X )2 

1
ˆ
s (Yh )  QME n  ( X  X ) 2


 i
2
Distribuição de F,
com 2 gl no
numerador e n-2 no
denominador, com
grau de confiança 1-

Calcula-se os valores dos limites para diversos níveis de Xh e após faz-se o gráfico.
89
S
c
a
e
t
rp
lo
(C
t
A
C
H
E
S
.
T
A
9
v
*1
2
c
)
y
=
2
7
8
,
3
6
+
6
4
,
2
3
e
-5
*x
+
e
p
s
5
8
5
6
5
4
5
2
PORCENTAGEMDEACERTO
5
0
4
8
4
6
4
4
4
2
4
0
2
2
,
e
5
2
6
,
e
5
3
e
5
3
4
,
e
5
3
8
,
e
5
4
2
,
e
5
T
A
M
A
N
H
O
D
A
C
A
C
H
E
Percebe-se que os valores da linha de regressão são estimados com boa
precisão.
90
Análise de variância da regressão
É importante para análise de regressão linear múltipla e outros modelos lineares. Para análise de
regressão linear simples não traz nenhuma novidade.
91
Partição da soma de quadrados total
Yi  Y  ( Yˆi  Y )  ( Yi  Yˆi )
Desvio
total
Desvio da
equação
ajustada em
torno da média
Desvio em
torno da
equação
ajustada
Yi
•
E
T
R
Y
X
Xi
92
n
n


2
ˆ
ˆ
(
Y

Y
)

(
Y

Y
)

(
Y

Y
)
Demonstração: 
 i
i
i
2
i 1
i 1
 (Yˆ  Y )
n
i
i 1
n
2
 (Yi  Yˆi ) 2  2(Yˆi  Y )(Yi  Yˆi )
n
 (Yˆ  Y )   (Y  Yˆ )
2
i 1
i
i 1
i

n
2
i
 2 (Yˆi  Y )(Yi  Yˆi )
i 1
n
n
n
i 1
i 1
i 1
2 (Yˆi  Y )(Yi  Yˆi )  2 Yˆi (Yi  Yˆi )  2Y  (Yi  Yˆi )  0

n
n
n
 (Y  Y )   (Yˆ  Y )   (Y  Yˆ )
2
i 1
2
i
i 1
i 1
i
2
i
n
Soma de quadrados total:
SQT   (Yi  Y ) 2
i 1
n
Soma de quadrados do erro (ou resíduo):
SQE   (Yi  Yˆi ) 2
i 1
n
Soma de quadrados da regressão:
SQR   (Yˆi  Y ) 2
i 1
(Parte da variabilidade de Yi que está associada com a regressão)
93
Graus de liberdade
A SQT tem n-1 graus de liberdade; um grau de liberdade é perdido devido a restrição de que a soma
dos desvios em torno da média é zero. De outra forma: um grau de liberdade é perdido porque a
média da amostra é usada para estimar a média populacional.
A SQE tem n-2 graus de liberdade. Dois graus de liberdade são perdidos pois dois parâmetros são
estimados para obter Y(chapéu)i.
A SQR tem 1 grau de liberdade. Dois g.l. estão associados com a regressão (2 parâmetros); um deles
é perdido devido a restrição: (Yˆi  Y )  0.

Os graus de liberdade são aditivos: (n-1)=1+(n-2)
Quadrados médios
A soma de quadrados dividida pelos graus de liberdade é chamada de quadrado médio.
QMR 
SQR
1
QME 
SQE
( n 2)
QMT  (SQT
n1)
94
Tabela da análise de variância
Tabela da análise de variância para regressão linear simples
Causas de variação Soma de quadrados Graus de liberdade
Regressão
SQR
1
Erro
SQE
n-2
Total
SQT
n-1
Quadrado médio
SQR/1
SQE/(n-2)
Tabela modificada (soma de quadrados total não corrigida)
Baseado no fato de que:
SQT   (Yi  Y )   Yi 2  nY 2
2
SQTNC  Yi 2
Tabela da análise de variância para regressão linear simples
Causas de variação
Soma de quadrados
Graus de liberdade Quadrado médio
Regressão
SQR
1
SQR/1
Erro
SQE
n-2
SQE/(n-2)
Total
SQT
n-1
Correção para a média SQ(devido a média)=nY
1
Total não corrigido
n
SQTNC= Y
2
2
i
95
Exercício: obtenha para os dados de porcentagem de acertos na cache a SQR e o QMR.
Exercício: obtenha para os dados de pop. de Staphilococcus a SQR e o QMR.
Esperanças dos quadrados médios
Para realizar inferências na análise de variância, precisamos conhecer as esperanças dos
quadrados médios. Os valores esperados dos quadrados médios é a média de suas distribuições
amostrais e nos mostram o que está sendo estimado pelo quadrado médio.
Teorema 2.11 (página 49, Neter et al., 1996) diz que: SQE /  2 ~  2 (n  2)
(para o modelo com erros com distribuição normal).
Das propriedades da distribuição de 2 (apêndice) temos:
E ( SQE
)n2
2
2
E ( SQE
)

E
(
QME
)


(O QME é estim adorim parcial)
n 2
Para encontrar a E(QMR), partimos de:
SQR  b12  ( X i  X )
Sabemos que a variância de uma variável aleatória é dada por:
2
96
 ( b )  E( b )  ( E( b ))
 E( b )  
  ( b )   
2
2
1
1
2
1
1
1
2
2
Xi X
1
 E( b ) 
2
1
2
 Xi X 
2
2

2
1
 E( SQR )  E( b ) ( X  X )
2
E( SQR )   
2
1
i
   ( X  X )
2
2
Xi X

2
2
1
i
E( SQR )      ( X  X )
2
2
2
1
 E(
SQR
1
i
)  E( QMR )      ( X  X )
2
Teste F para 1
Na análise de variância testa-se as seguintes hipóteses:
2
2
1
i
H 0 : 1  0
H a : 1  0
A estatística utilizada para testar essas hipóteses é dada por:
QMR
F *  QME
Valores altos de F* favorecem Ha; F*=1 favorece H0; é um teste unilateral.
Para estabelecer uma regra de decisão do teste de hipóteses devemos conhecer a
distribuição amostral de F*.
97
Distribuição amostral de F*
Vamos considerar a distribuição amostral de F* quando a hipótese nula for verdadeira, isto é,
sob H0.
Teorema de Cochran: se as n observações Yi são identicamente distribuídas de acordo com
uma distribuição normal com média  e variância 2 e a soma de quadrados total é
decomposta em k somas de quadrados SQr , cada uma com glr graus de liberdade, então, os
termos SQr/ 2 , são variáveis independentemente distribuídas como 2 com glr graus de
liberdade se:
k
 gl
i 1
r
 n 1
Na tabela da ANOVA a SQT foi decomposta em duas somas de quadrados (SQR e SQE) e os
seus graus de liberdade são aditivos.
Sob H0, de modo que os Yi tem distribuição normal com a mesma média  =0 e mesma
variância 2 , SQE/2 e SQR/2 são variáveis independentemente distribuídas como 2.
Podemos escrever F* como:
F 
*
QMR
QME

SQR
1
SQE /(n  2 )

SQR
2
1
SQE
2
 ( n 2 ) 
 2 (1)
1

 2 ( n 2 )
( n 2 )
98
Assim, sob H0, F* é o quociente entre duas variáveis independentes com distribuição de 2,
portanto, a estatística F* é uma variável aleatória com distribuição F(1,n-2) (apêndicedistribuição F).
Quando rejeita-se H0,pode-se mostrar que F* segue uma distribuição de F não central.
Regra de decisão do teste de hipóteses:
F *  F ( 1   ;1, n  2 )  não rejeita  se H 0
F *  F ( 1   ;1, n  2 )  rejeita se H 0
Saída do STATISTICA: dados de porcentagem de acerto na cache.
F(95%;1,10)=4,96, portanto, F*> F e, assim, rejeita-se a hipótese nula.
Conclusão: existe uma associação linear entre porcentagem de acerto e o tamanho da cache.
Mesmo resultado do teste t.
99
Saída do STATISTICA: dados de população de Staphilococcus.
F(95%;1,4)=7,71, portanto, F*< F e, assim, não
rejeita-se a hipótese nula.
Conclusão: não existe uma associação linear entre pop. e o
tempo de armazenamento. Mesmo resultado do teste t.
100
Teste geral para o modelo linear
Três etapas:
1) Modelo completo
Este modelo é considerado adequado para os dados e chama-se modelo completo ou sem
restrição (superparametrizado). No caso de regressão linear simples temos:
Yi  0  1 X i   i
Modelo completo
A soma de quadrados do erro do modelo completo (SQE(C)), é dada por:
SQE (C )   Yi  (b0  b1 X i )   (Yi  Yˆi ) 2  SQE
2
2) Modelo reduzido
Vamos considerar as hipóteses:
H 0 : 1  0
H a : 1  0
Modelo reduzido:
Sob H0
Yi  0   i
101
A soma de quadrados do erro do modelo reduzido (SQE(R)), é dada por:
SQE ( R )   Yi  b0    (Yi  Y )2  SQTotal
2
Exercício: encontre o estimador de 0 pelo método de mínimos quadrados.
3) Teste estatístico
Devemos comparar as duas somas de quadrados dos erros.
SQE(C )  SQE( R)
Sempre
Mais parâmetros
Conclusão: se a SQE(C) não é muito menor do que a SQE(R), indica que o modelo reduzido é
adequado, isto é, não rejeita-se H0.
102
O teste estatístico é dado por:
(C )
SQE ( C )
F *  SQE (glRr)SQE

~ F (1   ; glr  glc , glc )
glc
glc
Decisão:
F *  F (1   ; glr  glc , glc )  aceita  se H 0
F *  F (1   ; glr  glc , glc )  rejeita  se H 0
Exercício: para os dados de porcentagem de acertos na cache, verifique a as hipóteses:
H 0 : 1  0
H a : 1  0
**
25 ,7385
25 ,7385
154 ,6899
F*  180 ,4284



60
,
10
.
1110
10
2 ,57385
103
Exercício: para os dados de pop. de staphilococcus,
verifique se as hipóteses:
H 0 : 1  0
H a : 1  0
F 
*
0 ,569885 0 ,263908
5 4

0 ,263908
4

0 ,305977
0 ,065977
 4,64 .
NS
104
Medidas descritivas do grau de associação linear
entre X e Y.
SQR
SQE
2
Coeficiente de determinação (r2)
r  SQT  1  SQT
0  r2 1
Interpretação: é o quanto da variabilidade total dos dados é explicada pelo modelo de regressão.
Quanto maior o r2 mais a variação total de Y é reduzida pela introdução da v. preditora X no modelo.
Y
Y
r2=0
r2=1




 






Yˆ  b0  b1 X


 

 




 
Yˆ  Y
X
X
A variável preditora X é responsável por toda
a variação nas observações Yi.
A v. X não ajuda na redução da
variação de Yi com a Reg. Linear
105
Coeficiente de correlação (r)
r   r2
1  r  1
Exemplo: para os dados de porcentagem de acertos na cache, temos:
Exemplo: para os dados de população de Staphilococcus, temos:
106
Interpretações errôneas dos coeficientes de determinação e
correlação:
1) Um alto coeficiente de correlação indica que predições úteis
podem ser feitas. Isto não é necessariamente correto. Observe
se as amplitudes dos intervalos de confiança são grandes, isto
é, não são muito precisos.
2) Um alto coeficiente de correlação indica que a equação de
regressão estimada está bem ajustada aos dados. Isto também
não é necessariamente correto (veja figura a seguir).
3) Um coeficiente de correlação próximo de zero indica que X
e Y não são correlacionadas. Idem (veja figura a seguir).
107

 





 














Tem um alto valor de r; o ajuste de
uma equação de regressão linear
não é adequada






 












Tem um baixo valor de r;
porém existe uma forte relação
entre X e Y.
*** Fazer lista de exercícios número 2.
108