NÚCLEO DE ESTATÍSTICA E METODOLOGIA APLICADAS
Desenvolvendo conhecimento para a excelência dos cuidados em saúde mental
UNIVERSIDADE FEDERAL DE SÃO PAULO
Curso de Análise Estatística
Comparação entre variáveis contínuas:
correlação e regressão Linear
Escolha do método
• Sem definir grupos de indivíduos: as variáveis são
analisadas para cada indivíduo.
• Tipo de variável
• dependente: variável resposta.
• independente: variável preditora.
• Propostas
• correlação: avaliar a associação entre as variáveis: se o
valor de uma variável tende a ser alto quando aumenta (ou
diminui) o valor da outra.
• Regressão linear: Para ser capaz de predizer o valor de uma
variável a partir do valor da outra.
• Para conhecer a concordância entre os valores de duas
variáveis.
Correlação:
coeficientes
• Mede a associação entre duas variáveis contínuas
• Coeficientes
• Pearson: teste paramétrico
• Sperman: não paramétrico
• Distribuição dos dados
• Pearson
• Pode ser calculado para qualquer conjunto de dados.
• Para teste de hipótese: pelo menos uma variável deve ter
distribuição normal, com as duas observadas a partir de uma
amostra randômica de indivíduos.
• Para cálculo do intervalo de confiança: ambas devem ter
distribuição normal.
Correlação:
gráfico
Correlação entre peso e idade
20
e
l
a
E
A
S
I
P
0
2
*
C
0
.
S
4
4
N
10
P
P
2
0
*
C
0
.
S
IDADE
4
4
N
0
40
PESO
*
C
(
50
60
70
80
Correlação:
gráficos
Correlação:
mal uso
• Mal uso
• Correlação espúria que envolve tempo
• dados registrados ao longo do tempo: introduz fontes de erros
grosseiras falseando as interpretações. Por exemplo: você
pode demonstrar a relação entre preço do petróleo e taxa de
divórcio
• Amostragem restrita de indivíduos
• Especialmente sensível a seleção da amostra porque a variação
entre sujeitos em cada variável entra diretamente na análise.
• Mistura de amostras
• o cálculo pode ser enganoso quando a amostra contém
diferentes grupos.
• Medida de confiabilidade
• o coeficiente mede associação e não concordância
Métodos inadequados
Correlação
A
5
3
0
2
4
2
3
3
5
B
5
3
0
2
4
2
3
3
5
C
7
5
2
4
6
4
5
4
7
8
7
6
observador

5
AeB
4
AeC
u
3
2
1
0
0
1
2
3
avaliador
4
5
6
Correlação:
mal uso
• Mal uso
• Mudanças relativas a um valor inicial
• a correlação entre x e x-y é 0,70, independente dos
valores.
• Relação da parte com o todo
• relação entre um constituinte e a porção total.
• Tempo da fase luteinica e tempo total do ciclo menstrual.
• Ingestão de proteína e ingestão de caloria
Correlação:
estudo da função
pulmonar
r
ip
S
t
d
Objetivo: Estudar a função pulmonar
de
E
a
t
r
i
r
s
crianças em relação ao peso e 2
idade 5
1
5
ID
M
S
3
Desenho: Corte transversal e 9
amostra
randômica
0
0
M
M
0 0
Tipo de variáveis: numéricas discretas
S
1
9
4
6
e contínuas
K
1
9
4
1
FEV - Forced expiratory volume
3
3
6
0
P
M
S
3 5
0 0
M
M
0
Indivíduo Idade Peso 0
FEV
S
1
9
6
6145
10
60,0 4
2,65
K
8
9
1
21501
10
64,5 8
2,67
45652
11
67,5 8
3,02
6
0
2
F
M
E
45201
11
67,5
3,10
S
7 1
11341
13
62,0
3,15
7
M
46353
13
66,5 9
3,26
M
7 9
S
6
9
3
6
K
0
9
9
1
Correlação:
estudo da função
pulmonar
Correlação entre FEV e Idade
Gráfico entre fev e Idade
6
l
a
5
A
E
I
P
0
1
*
C
4
0
.S
5
5
N
3
F
P
1
0
*
C
0
.
S
2
FEV
5
5
N
*
C
1
8
IDADE
10
12
14
16
18
20
Correlação:
estudo da função
pulmonar
Correlação entre FEV e peso
Gráfico entre fev e peso
6
l
a
5
E
E
S
F
P
0
1
*
C
4
0
.
S
5
5N
3
P
P
1
0
*
C
0
.
S
2
FEV
5
5N
1
50
PESO
*
C
60
70
80
Regressão linear
• Quando queremos descrever a relação entre duas
variáveis numéricas contínuas, e ainda predizer o
valor de uma delas para um indivíduo quando
somente uma é conhecida.
• A correlação não é capaz de fazer isso, pois indica a
associação com apenas um número.
• Regressão linear: dado um conjunto de dados com
duas medidas para cada indivíduo, o problema é
encontrar uma equação que seja capaz de relacionar
as duas medidas. Em termos gráficos, encontrar uma
linha reta que minimize as distâncias entre os dados
observados e esta linha adequada.
Regressão linear:
reta
Existem várias maneiras de encontrar uma linha que minimize as
distâncias, mas o método padrão é a chamada regressão dos
mínimos quadrados.
IDADE
20
10
0
40
PESO
50
60
70
80
Regressão linear:
y
equação
x
•
- é a constante que é o intercepto na linha y quando o x = 0.
•
- é a inclinação da reta
• Pré-requisitos
• Os valores da variável resposta y deve ter uma distribuição normal
para cada valor da variável preditora.
• A variabilidade de y, medida pela variância e desvio padrão, deve
ser a mesma para cada valor de x.
• A relação entre as duas variáveis deve ser linear.
• Os pré-requisitos podem ser avaliados por meio do estudo
gráfico dos resíduos: se os três pré-requisitos estão presentes
então os resíduos devem ter um distribuição normal (com a
média zero).
Regressão linear:
resíduos
Scatterplot
Dependent Variable: PESO
3
2
1
0
-1
-2
-3
-4
-3
-2
-1
0
1
Regressi on Standardized Predi cted Value
2
3
4
Regressão linear:
estudo da
função pulmonar
Regressão linear entre FEV e peso
b
u
S
FEV
E
u
R
t
s
q
u
R
m
u
M
5
6
a
8
4
3
71
4
a
P
b
D
3
b
O
2
e
m
d
u
F
i
a
g
1
a
6
1
6
5
0
R
4
2
5
0
40
50
60
70
0
3
PESO
R
80
T
a
P
b
D
R2 = 369,986/ 490,92 e dá a proporção da variação explicada
i
Regressão linear:
estudo da
função pulmonar
Regressão linear entre FEV e peso
a
c
d
a
n
i
a
c
c
p
t
w
p
d
e
B
i
r
u
u
t
g
1
9
0
9
6
(
3
8
7
0
6
8
P
a
D
Equação da regressão
y
y
x
5.433 (0.132 ) peso
Regressão linear:
estudo da
função pulmonar
s
a
S
S
t
d
M
x
v
i
e
i
i
m
N
a
m
a
Regressão
linear
2
5
2
5
8
7
4
P
entre
FEV
e
0
5
5
4
0
0
4
S
peso:
resíduo
S
0
5
2
2
2
3
4
P
A
2
5
8
5
5
8
4
V
0
5
7
4
5
3
4
R
9
5
7
1
0
9
4
S
0
5
4
2
0
1
4
S
1
5
7
8
4
9
4
D
S
0
5
4
3
0
4
4
R
2
5
1
0
8
6
4
M
0
5
0
4
2
5
4
C
C
0
5
0
1
2
2
4
V
a
D
Regressão linear:
estudo da
função pulmon
Regressão linear
entre FEV e peso:
resíduo
Scatterplot
Dependent Variable: FEV
6
4
2
0
-2
-4
-6
-3
-2
-1
0
1
2
3
Regression Standardized Predicted Value
Sdresid x adjpred
Download

Comparação entre variáveis contínuas: correlação e regressão linear