Estatística II – Antonio Roque – Aula 18
Regressão Linear
Quando se consideram duas variáveis aleatórias ao mesmo tempo, X e Y, as técnicas
estatísticas aplicadas são as de regressão e correlação. As duas técnicas estão relacionadas,
mas são usadas para diferentes propósitos.
O objetivo mais comum da análise de regressão é obter uma equação que possa ser usada
para prever ou estimar o valor de uma variável em função de um dado valor de uma outra
variável. A análise de correlação, por outro lado, é usada para se obter uma medida do
grau ou da força da associação entre duas variáveis.
Em uma análise de regressão, dadas as duas variáveis que serão estudadas, deve-se definir
qual será considerada como a variável dependente e qual será a variável independente. A
variável independente, que costuma ser denotada por X, é a que vai determinar o
comportamento da outra variável, por isto chamada de dependente, denotada por Y. A
variável dependente (Y) é aquela que queremos estudar e a variável independente (X) é
aquela que, segundo nossa hipótese, causa alguma modificação em Y. Em textos de
economia costuma-se chamar a variável independente de exógena, porque ela está fora do
sistema em estudo, e a variável dependente de endógena, porque ela faz parte do sistema
em estudo.
Em muitos casos é fácil determinar, entre duas variáveis, qual deve ser a independente e
qual será a dependente. Se, por exemplo, há o interesse em estudar o consumo de
guloseimas (balas, biscoitos e chocolates) por família em uma dada região e se quer
relacionar esse consumo com a renda familiar, vemos que a variável dependente deve ser o
consumo de guloseimas por família e a variável independente deve ser a renda da família,
pois seria absurdo supor que é o consumo de guloseimas que determina a renda de uma
família.
1
Estatística II – Antonio Roque – Aula 18
Agora, em um caso em que se quer estudar as variáveis “vendas de jornais
sensacionalistas” (tipo Notícias Populares) e “vendas de bebidas alcoólicas” em uma dada
região fica mais difícil decidir qual deve ser tratada como dependente e qual como
independente.
Em casos como este a decisão sobre qual variável será a dependente e qual será a
independente depende do modelo teórico ou da interpretação adotada pelo investigador,
mas isto não irá influenciar os métodos de regressão e correlação descritos a seguir.
Regressão linear simples
Como exemplo introdutório da análise de regressão, vamos considerar dados relacionando
pressão sangüínea sistólica com nível de dosagem de uma droga anti-hipertensão.
Nível de dosagem da droga
Pressão sangüínea sistólica média
(mg)
(mm Hg)
2
278
3
240
4
198
5
132
6
111
Olhando para os dados, vemos que alguma relação existe entre eles: quanto maior o nível
de dosagem, menor a pressão sangüínea. Estes dados estão mostrados no diagrama de
dispersão abaixo. Observe que nem todos os pontos caem exatamente sobre uma linha
reta, mas a tendência é que os valores de Y decresçam de uma maneira aproximadamente
linear à medida que os valores de X cresçam. Isto indica que a relação entre Y e X pode
ser linear e pode ser descrita por uma linha reta. Vamos tentar determinar uma “equação”
para essa reta.
2
Pressão sangüínea sistólica
Estatística II – Antonio Roque – Aula 18
300
250
200
150
100
50
0
1
2
3
4
5
6
7
Nível de dosagem da droga anti-hipertensiva
Diagrama de dispersão para os dados da tabela acima.
Qualquer linha reta tem a forma geral: Y = a + bX , onde b dá a inclinação da linha e a é o
ponto onde a linha cruza o eixo Y. Para quaisquer dois pontos, é fácil determinar a linha
reta que os une; porém, para três ou mais pontos, como no caso em questão, é em geral
impossível encontrar uma linha reta que passe por todos os pontos. Neste caso, o que se
tenta fazer é encontrar a linha reta que melhor represente a configuração dos pontos. Uma
ilustração disto é dada pelo gráfico abaixo:
O chapéu sobre o Y, (Ŷ), indica que a reta da
figura, cuja equação é Yˆ = a + bX , é uma
estimativa para a hipotética reta verdadeira. As
distâncias dos pontos para a linha são dadas
por: d i = Yi − Yˆi , onde Yˆi = a + bX i . A reta
Ŷ = a + bX tenta minimizar as distâncias (ou
desvios, ou ainda resíduos) d i dos pontos para
ela: pode-se perceber isto visualmente.
Para o gráfico acima, d1 é positiva, d 2 é negativa e d 3 é positiva. Poderíamos somar as três
distâncias e tentar encontrar alguma maneira matemática de minimizar seu valor. Porém, é
comum que desvios em torno de algum valor se anulem quando somados, como no caso
do desvio médio.
3
Estatística II – Antonio Roque – Aula 18
Para se medir o grau de adequação (ou ajuste) de uma linha reta a um conjunto de pontos,
é mais conveniente calcular a soma dos quadrados dos desvios. Esta é sempre uma
quantidade positiva e é a que se costuma usar para medir o ajuste dos pontos pela reta:
(
).
∑ d i2 = ∑ Yi − Yˆi
2
O método usado para se encontrar a reta que mais se ajuste a um conjunto de pontos
utilizando a fórmula acima é chamado de método dos mínimos quadrados e a reta
calculada é chamada de reta de regressão. O método é chamado de “mínimos quadrados”
porque o seu objetivo é encontrar a reta Ŷ que minimize a soma dos quadrados da
equação. A discussão formal deste método não será feita aqui. Apenas os seus princípios
serão dados. Para uma dada reta Yˆ = a + bX , a soma dos quadrados dos desvios é escrita
como
(
Φ = ∑ Yi − Yˆ
) = ∑ (Y
2
i
− a − bX i ) .
2
Esta somatória pode ser vista como uma função dos parâmetros a e b, pois variando-se os
valores de a e de b altera-se o valor da soma dos quadrados dos desvios. Note que a forma
funcional desta função é a de um parabolóide (veja a figura abaixo), pois a dependência de
maior ordem em a e b é quadrática, de maneira que existe um par (a, b) para o qual ela tem
um valor mínimo.
4
Estatística II – Antonio Roque – Aula 18
Pela teoria dos máximos e mínimos do Cálculo, o ponto de mínimo (a, b) é determinado
pela condição de que ele seja um extremo, ou seja
∂Φ
∂Φ
=0 e
= 0.
∂a
∂b
Calculando as derivadas chega-se a um sistema de equações algébricas com duas
incógnitas, a e b. Resolvendo esse sistema de equações chega-se aos valores de a e b:
b=
∑ (X
i
i
− X )(Yi − Y )
∑ (X
− X)
;
2
i
i
a = Y − bX
,
onde X e Y são as médias dos valores de X e Y, respectivamente. Há uma fórmula mais
simples para o cálculo de b, que pode ser obtida expandindo-se os termos entre parênteses.
O resultado (tente obtê-lo como exercício) é:
b=
n∑ X i Yi − ∑ X i ∑ Yi


n∑ X i2 −  ∑ X i 
i
 i

i
i
i
2
,
onde n é o número de pares de pontos.
Voltando agora ao exemplo sobre pressão sangüínea sistólica, temos que a reta de
regressão que melhor se ajusta à amostra de pontos ( X i , Yi ) é dada por
Ŷ = a + bX
onde a e b são dados pelas fórmulas acima. Para calcular a reta de regressão devemos
montar uma tabela como a mostrada abaixo:
5
Estatística II – Antonio Roque – Aula 18
Dados para o cálculo da linha de regressão para nível de dosagem da droga (X) e pressão
sangüínea sistólica (Y):
n
X Y X2
Y2
1
2
278 4 77284 556
2
3
240 9 57600 720
3
4
198 16 39204 792
4
5
132 25 17424 660
5
6
111 36 12321 666
X.Y
Soma 20 959 90 2038333394
A partir dos valores da tabela, calculamos:
Y =
∑ Y 959
=
= 191,8 ;
n
5
b=
X =
∑ X 20
=
= 4 ,0
n
5
5.3394 − 20.959
2210
=
−
= −44,2 ;
2
50
5.90 − 20
a = Y − bX = 191,8 − (− 44 ,2 ) 4 ,0 = 368,6
Ŷ = 368,6 − 44,2 X
Ŷ=368,6 – 44,2 X
Gráfico
de
Ŷ=368,6-
44,2X
6
Estatística II – Antonio Roque – Aula 18
Conhecendo-se a equação para a reta, ela pode ser traçada determinando-se 2 pontos. Por
exemplo, para X = 2 e X = 7 a equação dá, respectivamente: Ŷ = 280,2 e Ŷ = 59,2 . É assim
que se traçou o gráfico acima. Note que a reta traçada representa bem os pontos do gráfico
de dispersão, pelo menos visualmente. Para medirmos a força desse ajuste linear entre as
duas variáveis, devemos calcular o coeficiente de correlação de Pearson entre elas.
A variância em torno da linha de regressão
Assim como se pode definir uma variância (ou desvio padrão) de um conjunto de pontos
em torno de seu valor médio Y , também se pode definir uma variância (ou desvio padrão)
de um conjunto de pontos ordenados Yi em torno da sua linha de regressão Ŷ. Esta
2
quantidade, denotada por S XY
, é definida como
∑ (Y
i
S
2
XY
=
− Yˆ
i
n−2
)
2
,
e a sua raiz quadrada, chamada de erro padrão da previsão, é dada por
2
S XY = S XY
.
Esta última quantidade é análoga ao desvio padrão visto nas aulas de estatística descritiva.
Ela dá uma medida do desvio “médio” dos valores observados Yi em relação ao valor
2
predito Ŷ pela linha de regressão. Note que a única diferença da definição de S XY
para a da
variância usual é que se dividiu por n − 2 ao invés de por n − 1.
Para um conjunto grande de dados a computação de cada (Yi − Yˆ ) é trabalhosa quando deve
2
ser feita manualmente. Existe, porém, uma fórmula algebricamente equivalente par S XY
que simplifica os cálculos:
∑ (Y
i
2
S XY
=
i
− Y ) − b 2 ∑ (X i − X )
2
2
n−2
.
7
Estatística II – Antonio Roque – Aula 18
Com o uso da tabela para os dados de pressão sistólica temos:
19904,4 − (− 44,2 ) × 10 368,0
2
=
= 122,7 ⇒ S XY = S XY
= 11,1
5−2
3
2
2
S XY
=
Da fórmula acima, vê-se que a variância em relação à reta Ŷ é igual à variância em relação
à média Y se b = 0 (inclinação nula) e se n for muito grande, de maneira que n − 2 ≅ n − 1.
Exercícios Exemplo
1. Predizer a nota média de um estudante de uma universidade ao final do seu primeiro
ano com base na sua nota média do exame vestibular. Seleciona-se uma amostra de
interesse (por exemplo estudantes de Biologia da USP/Ribeirão) e toma-se suas notas
médias no vestibular e no primeiro ano da universidade. Constrói-se uma tabela, um
diagrama de dispersão e, caso se desconfie que haja uma relação linear, determina-se a
linha de regressão e o coeficiente de correlação.
Média do vestibular
Média do primeiro ano
(X)
(1≤C.R.≤5) (Y)
1
24
1,5
2
61
3,5
3
30
1,7
4
48
2,7
5
60
3,4
6
32
1,6
7
19
1,2
8
22
1,3
9
41
2,2
10
46
2,7
Estudante
8
Y =
∑ Yi = 21,8 = 2,18 ;
10
Estatística II – Antonio Roque – Aula 18
∑ X = 383 = 38,3
X =
10
10
10
∑ (X − X ) = 2098,1 ;
∑ (X − X )(Y − Y ) = 116,16
∑ (Y − Y )
2
2
= 6,54
Com o auxílio dos dados obtidos:
b=
∑ (X − X )(Y − Y ) = 116,16 = 0,05 ,
2098,1
∑ (X − X )
2
a = Y − b X = 2,18 − (0,0554)(38,3) = 0,06 .
Então:
Yˆ = 0,06 + 0,05 X
Diagrama de dispersão para os dados do exemplo
Variância em torno de Ŷ:
S
2
XY
∑ (Y
=
− Y ) − b 2 ∑ (X i − X )
2
y
2
n−2
=
6,54 − (0,05) (2098,1)
= 0,012 ⇒
8
2
=
9
Estatística II – Antonio Roque – Aula 18
2
= 0,11
⇒ Erro padrão da previsão = S XY = S XY
Coeficiente de correlação:
r=
∑ ( X − X )(Y − Y )
=
2
2
∑ (X − X ) ∑ (Y − Y )
116,16
(2098,1)(6 ,536 )
= 0,99
(forte
relação
linear positiva)
Um estudante com média no vestibular = 40 teria, de acordo com a análise de regressão
feita, C.R. no 1º ano = Ŷ = 0,06+0,05 (40) = 2,27.
2. A tabela abaixo fornece os valores médios, antes da 2ª Guerra Mundial, da ingestão
diária de calorias e da taxa de mortalidade infantil para alguns países selecionados.
Países
Nº de calorias por
pessoa por dia (X)
Taxa de
mortalidade infantil
por 1.000 (Y)
Argentina
2.730
98,8
Burma
2.080
202,1
Ceilão
1.920
182,8
Chile
2.240
240,8
Colômbia
1.860
155,6
Cuba
2.610
116,8
Egito
2.450
162,9
Índia
1.970
161,6
Uruguai
2.380
94,1
a) Faça o diagrama de dispersão para estes dados;
b) Calcule a reta de regressão para os dados e desenhe-a no diagrama;
c) Calcule o coeficiente de correlação.
X = 2249 ;
Y = 157 ;
∑ ( X − X )(Y − Y ) = −67163 ;
10
Estatística II – Antonio Roque – Aula 18
2
∑ (Y − Y ) = 18740 .
2
∑ ( X − X ) = 785289 ;
b=
67163
∑ ( X − X )(Y − Y )
=−
= −0 ,0855 ;
2
785289
∑ (X − X )
a = Y − bX = 157 − (− 0,0855) × 2249 = 349 ;
r=
Ŷ = 349 − 0 ,0855 X̂
− 67163
− 67163
∑ ( X − X )(Y − Y )
=
=
= −0 ,5536
2
2
785289 × 18740 121311
∑ (X − X ) ∑ (Y − Y )
250
230
210
190
170
Reta de Regressão
150
130
110
90
1800
2000
2200
2400
2600
2800
3. Os lucros de uma companhia no período de 1990 a 1994 são dados abaixo. Obtenha a
reta de regressão e o coeficiente de correlação para os dados. Com base na reta obtida,
estime o lucro para 1995.
Ano
(t)
Lucro
X (milhões
(X − X ) (Y − Y ) (X − X )2 (Y − Y )2 (X − X ) (Y − Y )
US$)
1990 0 2,3
-2
1991 1 2,9
-1
1992 2 5,2
0
1993 3 5,8
1994 4 6,1
-
4
4,67
4,32
1
2,43
1,56
0,74
0
0,55
0
1
1,34
1
1,80
1,34
2
1,64
4
2,69
3,28
2,16
1,56
11
Estatística II – Antonio Roque – Aula 18
Quando uma das variáveis é o ano, não é conveniente usá-la para fazer os cálculos
(isso os tornaria muito trabalhosos). É mais fácil definir uma outra variável X a partir do
tempo em anos. Por exemplo, aqui escolheu-se o ano de 1990 como o ano para o qual X =
0. A partir daí, acrescenta-se 1 à variável X para cada ano. Portanto:
X = 10 / 5 = 2 ;
⇒ ∑ (X − X )(Y − Y ) = 10 ,50;
⇒b =
Y = 22,3 / 5 = 4,46
2
∑ (X − X ) = 10;
10 ,5
= 1,05;
10
⇒
2
∑ (Y − Y ) = 12,14 ⇒
a = Y − bX = 4 ,46 − 1,05 × 2 = 2 ,36 ⇒
⇒ Ŷ = 2 ,36 + 1,05 X
r=
10 ,50
10 × 12 ,14
=
10 ,50
= 0 ,9528
11,02
A estimativa de lucros para 95 é:
1995 → x = 5 ⇒ Ŷ = 2 ,36 + 1,05 × 5 = 7 ,61
Lucro (milhões US$)
7
6
5
4
3
2
90
91
92
93
94
95
Ano
12