Análise de Regressão
Profa Alcione Miranda dos Santos
Departamento de Saúde Pública
UFMA
Introdução
Uma das preocupações estatísticas ao analisar dados, é
a de criar modelos que explicitem estruturas do fenômeno
em observação.
O modelo de regressão é um dos métodos estatísticos
mais usados para investigar a relação entre variáveis.
Análise de regressão: metodologia estatística que
estuda (modela) a relação entre duas ou mais variáveis.
Tipos de Modelos de Regressão
Uma variável
dependente
Modelo
Regressão
Multiplo
Multíplo
Simples
Linear
Duas ou mais variáveis
dependentes
Não
Linear
Linear
Não
Linear
A presença ou ausência de relação linear pode
ser investigada sob dois pontos de vista:
Quantificando a força dessa relação:
correlação.
Explicitando a forma dessa relação:
regressão.
Coeficiente de Correlação de Pearson
A correlação é calculada independente da unidade de medida das
variáveis.
A técnica usada para calcular este coeficiente, supõe que a associação
entre as variáveis seja linear, ou seja, expressa por uma reta ou linha.
Se a relação apresentada no diagrama de dispersão não for do tipo
linear, o coeficiente de correlação de Pearson não deve ser calculado.
Fórmula:
n
∑ ( x − x)( y
i
r=
i
− y)
i =1
n
n
i =1
i =1
2
2
(
x
−
x
)
×
(
y
−
y
)
∑ i
∑ i
Coeficiente de correlação de Pearson
O coeficiente de correlação pode variar entre –1
(correlação negativa perfeita) e +1 (correlação positiva
perfeita).
Valores negativos do coeficiente de correlação indicam
uma correlação do tipo inversa, isto é, quando x
aumenta y diminui.
Valores positivos do coeficiente de correlação ocorrem
quando x e y variam no mesmo sentido, isto é, quando x
aumenta y aumenta ou quando x diminui y também
diminui.
Exemplo 1: Um psicólogo está investigando a relação entre o tempo que
um indivíduo leva para reagir a um estímulo visual (Y) com o sexo (W), idade
(X) e acuidade visual (Z, medida em porcentagem).
X : idade
Y : tempo de reação
130
120
⇓
110
Modelo de regressão
Y
Pelo gráfico: média de Y aumenta
conforme as pessoas envelhecem
100
90
20
30
40
X
Correlação entre Y e X = 0,7681
Correlação no STATA
Comando: corr y x
Para o exemplo anterior, temos
corr tempo idade
(obs=20)
|
tempo
idade
-------------+-----------------tempo |
1.0000
idade |
0.7681
1.0000
Diagramas de dispersão
Comando STATA: scatter y x
Modelo de regressão linear simples
yi = β0 + β1xi +ei ,
i=1,...,n
sendo
yi: valor da variável dependente (resposta) para o i-ésimo elemento da
amostra;
xi: valor (conhecido) da variável independente ou preditora para o i-ésimo
elemento da amostra;
β0 e β1 são parâmetros desconhecidos;
ei: erro amostral.
Suposição: os erros amostrais são independentes com distribuição N(0, σ2), i=1,2,...,n.
Esta suposição deve ser verificada!!! (como??)
Modelo de regressão linear simples
Amostra Aleatória
População
Yi = β 0 + β 1 X i + ε i
☺$
☺$
☺$
☺$
Y ii = β$ 00 + β$ 11X ii + ε$ ii
☺$
Erro amostral
O erro amostral é uma variável aleatória não observável, e é
estimado pelos resíduos, isto é, a diferença entre o valor observado
Y, e o estimado pela reta Ŷ , isto é
n
∑
i =1
n
^
εˆi =∑ (Y − Y ) 2
2
i
i =1
i
Estimação dos parâmetros
Qual modelo de regressão deve ser ajustado?
60
40
20
0
Y
0
20
40
X
60
Estimação dos parâmetros
Método de mínimos quadrados
Objetivo: minimizar a soma dos quadrados dos erros
SQ(β0, β1)= Σ(yi- Yˆi )2
= Σ(yi- β0 - β1xi)2
Para que a soma dos quadrados dos erros tenha um valor mínimo, devem-se aplicar
os conceitos de cálculo diferencial com derivadas parciais.
Portanto, os estimadores dos parâmetros são:
n
βˆ1 =
∑
xi yi − nx y
i =1
n
∑
=
2
i
x − nx
2
SS
xy
SS
xx
i =1
βˆ 0 = y − βˆ1 x
Reta ajustada:
yˆ i = βˆ0 + βˆ1 xi
Interpretação dos parâmetros
Intercepto β0 - valor esperado para a variável
dependente yi quando xi é igual a zero
Coeficiente angular β1 - variação esperada na
variável resposta, quando a variável
independente aumenta uma unidade.
Exemplo 1:
Um psicólogo está investigando a relação entre o tempo que o
indivíduo leva para reagir a um certo estimulo (em segundos) e algumas de suas
características tais como sexo, idade (em anos completos) e acuidade visual
(medida em porcentagem). O resultado de 20 indivíduos estão mostrado na tabela
abaixo (Adaptado de Bussab, 1986).
i
tempo
sexo
idade
acuidade
i
tempo
sexo
idade
acuidade
1
96
M
20
90
11
109
M
30
90
2
92
F
20
100
12
100
F
30
80
3
106
M
20
80
13
112
F
35
90
4
100
F
20
90
14
105
F
35
80
5
98
F
25
100
15
118
M
35
70
6
104
M
25
90
16
108
M
35
90
7
110
M
25
80
17
113
F
40
90
8
101
F
25
90
18
112
F
40
90
9
116
F
30
70
19
127
M
40
60
10
106
M
30
90
20
117
M
40
80
1.Tempo de reação ⇒ variável dependente ou resposta
idade ⇒ variável independente
⇓
modelo de regressão linear simples
2. Tempo de reação ⇒ variável dependente ou resposta
sexo, idade, acuidade visual ⇒ var. independentes
⇓
modelo de regressão linear múltipla
Primeiramente, vamos considerar um modelo de regressão linear
simples, sendo X : idade e Y : tempo de reação
90
100
Tempo
110
120
130
20
25
30
idade
35
Dados: n=20, Σyi= 2150, Σxi=600, Σxiyi=65400, Σxi2=19000
40
Estimação dos parâmetros:
65400 − 20.30.107,5
ˆ
β1 =
= 0,90
2
19000 − 20.30
βˆ0 = 107,50 − 0,90.30 = 80,50
Reta ajustada:
yˆ i = 80,50 + 0,90 xi
Interpretação β̂1 : Para um aumento de 1 ano na
idade, o tempo médio de reação aumenta 0,90.
Dada a reta ajustada, podemos prever, por
exemplo, o tempo médio de reação para pessoas
de 20 anos
Valor predito
ŷ ( 20) = 80,50 + 0,90.20 = 98,50
Vantagem: permite estimar o tempo médio de reação para idades não
observadas
Valor predito
ŷ ( 33 ) = 80 ,50 + 0,90 .33 = 110 , 20
NOTA: A estimativa pode ser melhorada com a construção de intervalos de confiança
Análise de Variância para o MRLS
No desenvolvimento de um teste ANOVA, considere a definição de
três tipos de resíduos, ou fontes de variação, expressos pelas
seguintes Somas dos Quadrados (SQ):
TOTAL cuja soma dos quadrados é dada por:
_
SQT = Σ(Y − Y ) 2
RESÍDUOS com a soma dos quadrados expressa através de:
SQE = Σ(Y − Yˆ ) 2 = Σ(Y − βˆ0 − βˆ1 X ) 2 = Σe 2
MODELO, resultante das distâncias entre os valores do modelo e a média:
_
_
SQR = Σ(Y − Y ) − Σ(Y − Yˆ ) =Σ(Yˆ −Y ) 2
2
2
A tabela ANOVA para o MRLS é definida de acordo com o que se
apresenta em seguida.
Fontes de
Variação
Regressão
Resíduo
Total
g.l.
1
n-2
n-1
SQ
SQM
F
SQR
SQR
1
SQR
SQE/(n-2)
SQE
SQE
n-2
SQT
SQT
n-1
Regressão Linear Simples no STATA
Comando: regress y x1
No exemplo anterior, temos
regress tempo idade
SQR
Source |
SS
df
MS
-------------+-----------------------------Model |
810
1
810
Residual |
563
18 31.2777778
-------------+-----------------------------Total |
1373
19 72.2631579
Number of obs
F( 1,
18)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
20
25.90
0.0001
0.5899
0.5672
5.5927
SQE
-----------------------------------------------------------------------------tempo |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------idade |
.9
.1768552
5.09
0.000
.5284409
1.271559
_cons |
80.5
5.451045
14.77
0.000
69.04778
91.95222
------------------------------------------------------------------------------
β0
β1
Após executado o comando regress, os valores preditos podem ser
obtidos usando o comando predict. Por exemplo,
regress tempo idade
predict yest
label var yest “valores preditos tempo“
list yest
Regressão Linear Múltipla
A análise de uma regressão múltipla segue, basicamente, os mesmos critérios
da análise de uma regressão simples.
Vamos supor que temos X1, X2,..., Xp-1 variáveis preditoras. Definamos modelo
de regressão multíplo, em termos das variáveis preditoras:
Yi = β 0 + β1 X i1 + β 2 X i 2 + ... + β p −1 X i , p −1 + ε i
Sendo:
β0, β1,..., βp-1, parâmetros desconhecidos;
εi erro amostral
Suposição: os erros amostrais são independentes com distribuição N(0, σ2), i=1,2,...,n.
Exemplo 2:
Considere novamente o exemplo 1. Vamos agora,
trabalhar com as seguintes variáveis:
X1: idade
X2: sexo
X3: acuidade Y: tempo
Assim, o modelo de regressão linear múltiplo será dado por
Yi = β 0 + β1 X i1 + β 2 X i 2 + β 3 X i ,3 + ε i
Observe que, agora dispomos de variáveis quantitativas e qualitativas no
modelo.
Uma ferramenta útil no processo de escolha preliminar das possíveis variáveis
explicativas que deverão entrar no modelo é a matriz de correlação entre as
variáveis quantitativas.
Para nosso exemplo, temos a seguinte matriz de correlação:
pwcorr tempo idade acuidade, sig
|
tempo
idade acuidade
-------------+--------------------------tempo |
1.0000
|
|
idade |
0.7681
1.0000
|
0.0001
|
acuidade | -0.7553 -0.3990
1.0000
|
0.0001
0.0814
|
Ajustando o modelo de regressão com estas variáveis, temos:
regress tempo idade sexo acuidade
Source |
SS
df
MS
-------------+-----------------------------Model | 1173.60282
3 391.200941
Residual | 199.397178
16 12.4623236
-------------+-----------------------------Total |
1373
19 72.2631579
Number of obs
F( 3,
16)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
20
31.39
0.0000
0.8548
0.8275
3.5302
-----------------------------------------------------------------------------tempo |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------idade |
.679224
.1229709
5.52
0.000
.4185374
.9399106
sexo | -2.791534
1.675998
-1.67
0.115
-6.344491
.7614219
acuidade | -.4014109
.0937644
-4.28
0.001
-.6001826
-.2026393
_cons |
125.4305
9.626618
13.03
0.000
105.023
145.838
------------------------------------------------------------------------------
Reta ajustada:
Yi = 125,43 + 0,68 X i1 − 2,79 X i 2 − 0,40 X i ,3
Também podem ser calculados os valores preditos:
regress tempo idade sexo acuidade
predict yest
label var yest “valores preditos tempo“
list yest
Avaliação do Modelo
Algumas avaliações devem ser realizadas para se ter alguma idéia da
eficácia e adequação do modelo.
Dentre as técnicas utilizadas para avaliar a eficácia do modelo, o
coeficiente de correlação seria uma primeira possibilidade.
Outra medida de adequação é o coeficiente de determinação do
modelo.
A determinação do “melhor” modelo, ou do modelo que melhor se
ajusta aos dados, está relacionada com a estimativa dos parâmetros
que tornem os resíduos tão próximos de zero quanto possível.
Deve-se então, testar a significância estatística dos parâmetros do
modelo.
Avaliando a significância do parâmetro
Hipóteses:
H 0 : βk = 0
H a : βk ≠ 0
Estatística de teste:
tcal =
βk
s(βk )
Critério do teste:
Se |tcal| ≤ t(1-α/2;n-p), aceita-se a hipótese nula, caso contrário rejeita-se a
mesma.
Nota: Quando não dispomos da tabela t-student, podemos utilizar o p-valor,
fornecido por vários programas estatísticos. Se p-valor menor que o nível de
significância, rejeitamos H0.
Considere o modelo de regressão múltipla ajustado anteriormente:
Yi = 125,43 + 0,68 X i1 − 2,79 X i 2 − 0,40 X i ,3
Para determinarmos quais parâmetros são estatisticamente significantes,
basta observar o p-valor fornecido na tabela ANOVA.
regress tempo idade sexo acuidade
Source |
SS
df
MS
-------------+-----------------------------Model | 1173.60282
3 391.200941
Residual | 199.397178
16 12.4623236
-------------+-----------------------------Total |
1373
19 72.2631579
Number of obs
F( 3,
16)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
20
31.39
0.0000
0.8548
0.8275
3.5302
-----------------------------------------------------------------------------tempo |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------idade |
.679224
.1229709
5.52
0.000
.4185374
.9399106
sexo | -2.791534
1.675998
-1.67
0.115
-6.344491
.7614219
acuidade | -.4014109
.0937644
-4.28
0.001
-.6001826
-.2026393
_cons |
125.4305
9.626618
13.03
0.000
105.023
145.838
------------------------------------------------------------------------------
Apenas a variável sexo não é estatisticamente significante, considerando
um nível de significância de 5%.
Coeficiente de Determinação
Ao se analisar a reta de regressão
observamos que os pontos (xi, yi)
estão distribuídos acima e abaixo da
mesma.
O coeficiente de determinação deve
ser interpretado como a proporção de
variação total da variável dependente
que é explicada pela variação da
variável independente X.
O coeficiente de determinação, no
caso univariado, é igual ao quadrado
do coeficiente de correlação.
Coeficiente de determinação
nn
Observe que o coeficiente de
determinação é sempre positivo,
enquanto que o coeficiente de
correlação pode admitir valores
negativos e positivos.
22
rr ==
nn
∑ (YY −−YY ) −−∑ (YY −−YYˆˆ)
22
22
ii
ii
ii==11
ii==11
nn
∑ (YY −−YY )
22
ii
ii==11
==
SQE
SQE
SQT
SQT
Coeficiente de Determinação no STATA
No exemplo 1, temos
regress tempo idade
Source |
SS
df
MS
-------------+-----------------------------Model |
810
1
810
Residual |
563
18 31.2777778
-------------+-----------------------------Total |
1373
19 72.2631579
Number of obs =
F( 1,
18) =
Prob > F
=
R-squared
20
25.90
0.0001
=
Adj R-squared =
Root MSE
=
0.5899
0.5672
5.5927
-----------------------------------------------------------------------------tempo |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------idade |
.9
.1768552
5.09
0.000
.5284409
1.271559
_cons |
80.5
5.451045
14.77
0.000
69.04778
91.95222
------------------------------------------------------------------------------
R2 x 100 = 59% ( porcentagem de variância explicada pelo modelo).
Coeficiente de Determinação no STATA
No exemplo 2, temos
regress tempo idade sexo acuidade
Source |
SS
df
MS
-------------+-----------------------------Model | 1173.60282
3 391.200941
Residual | 199.397178
16 12.4623236
-------------+-----------------------------Total |
1373
19 72.2631579
Number of obs =
F( 3,
16) =
Prob > F
=
20
31.39
0.0000
R-squared
=
Adj R-squared =
Root MSE
=
0.8275
3.5302
0.8548
-----------------------------------------------------------------------------tempo |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------idade |
.679224
.1229709
5.52
0.000
.4185374
.9399106
sexo | -2.791534
1.675998
-1.67
0.115
-6.344491
.7614219
acuidade | -.4014109
.0937644
-4.28
0.001
-.6001826
-.2026393
_cons |
125.4305
9.626618
13.03
0.000
105.023
145.838
------------------------------------------------------------------------------
Download

Análise de Regressão