Diagramas de dispersão

forma gráfica de visualizar uma possível
relação entre duas variáveis
Diagramas de dispersão
Correlação
O coeficiente de correlação de Pearson é
uma medida da 'qualidade' da aproximação
da relação entre duas variáveis por uma
recta, ou seja, a correlação mede a 'força' da
associação linear entre duas variáveis.
r – coeficiente de correlação de Pearson na amostra
 - coeficiente de correlação de Pearson na população
Correlação
O coeficiente de correlação
de Pearson
varia entre -1 e 1.
Quanto mais próximo estiver
de 1 ou -1, mais forte é a
associação linear entre as
duas variáveis
Correlação
No estudo da relação entre o
consumo de vegetais e taxa de
mortalidade no sexo
masculino, obtém-se uma
correlação de r = -0.814
r2 é interpretado como a percentagem de variação explicada por uma das
variáveis em relação à outra. No caso estudado, pode-se dizer que o consumo
de vegetais explica 66% (0.814)2 da mortalidade no sexo masculino.
Correlação
Não usar o r quando:
-há uma relação não linear entre as variáveis
-os dados incluem mais de uma observação por indivíduo
-há valores extremos
-os dados dividem-se em dois subgrupos
Regressão linear simples
A regressão linear é um modelo matemático usado para
estudar a relação entre duas variáveis - uma contínua e outra
contínua ou ordinal - e a partir do qual se tenta prever os
valores de uma das variáveis em função da outra.
No estudo sobre o consumo de vegetais e taxa de
mortalidade por cancro do estômago, a situação mais
natural é tentar prever qual a taxa de mortalidade (variável
dependente) para um determinado consumo de vegetais
(variável independente) e não o contrário.
Regressão linear simples
tx mortalidade = b0 + b1 * consumo de vegetais
b0 e b1 são calculados de tal maneira que a soma das
distâncias à recta seja a menor possível, ou seja, b0 e
b1 são calculados de forma a minimizar a soma das
distâncias à recta.
Regressão linear simples
tx mortalidade = b0 + b1 * consumo de vegetais
b0 e b1 são calculados de tal maneira que a soma das
distâncias à recta seja a menor possível, ou seja, b0 e
b1 são calculados de forma a minimizar a soma das
distâncias à recta.
tx mortalidade = 54.503 - 0.102 * consumo de vegetais
Coefficientsa
Model
1
(Constant)
Consumo médio de
Vegetais(gr/pessoa/dia)
Unstandardized
Coefficients
B
Std. Error
54,503
3,986
-,102
,018
Standardized
Coefficients
Beta
-,814
t
13,672
Sig .
,000
-5,599
,000
a. Dependent Variable: Média das taxas de mortalidade padronizadas por cancro do estômago
para o sexo masculino de 1994, 95 e 96 por 100000 habitantes
Regressão linear simples
tx mortalidade = b0 + b1 * consumo de vegetais
tx mortalidade = 54.503 - 0.102 * consumo de vegetais
B0= 54.503 = taxa de mortalidade prevista com um consumo nulo de
vegetais.
B1= 0.102 = a diminuição (porque o valor de b1 é negativo) prevista
da taxa de mortalidade para o aumento de 1 unidade no consumo de
vegetais.
Regressão linear simples
Tabela ANOVA: indicação da quantidade de variação explicada pelo modelo.
No caso da taxa de mortalidade do sexo masculino a variação total é de 1036,118 .
Quando se considera o consumo de vegetais, a variação da mortalidade explicada
é de 685,986; que aparece na tabela com a designação de "Regression"
(quantidade de variação explicada pelo modelo).
O resíduo (350,132) é simplesmente a variação que fica por explicar, ou seja a
diferença da variação total e variação explicada.
ANOVAb
Model
1
Reg ression
Residual
Total
Sum of
Squares
685,986
350,132
1036,118
df
1
16
17
Mean Square
685,986
21,883
F
31,348
a. Predictors: (Constant), Consumo médio de Vegetais(gr/pessoa/dia)
b. Dependent Variable: Média das taxas de mortalidade padronizadas por cancro do
estômago para o sexo masculino de 1994, 95 e 96 por 100000 habitantes
Sig .
,000a
Regressão linear simples
O quociente da variação explicada pela variação total
685,986/1036,118=0.66
é a percentagem de variação explicada
Como seria de esperar este valor é igual quadrado do coeficiente de
correlação (r2 = 0,81422 = 0,66) que também indica a percentagem
de variação explicada.
ANOVAb
Model
1
Reg ression
Residual
Total
Sum of
Squares
685,986
350,132
1036,118
df
1
16
17
Mean Square
685,986
21,883
F
31,348
a. Predictors: (Constant), Consumo médio de Vegetais(gr/pessoa/dia)
b. Dependent Variable: Média das taxas de mortalidade padronizadas por cancro do
estômago para o sexo masculino de 1994, 95 e 96 por 100000 habitantes
Sig .
,000a
Regressão linear simples
Assunções:
A variável dependente tem que ser contínua
Para cada valor fixo da variável independente, a variável dependente
segue uma distribuição normal, e todas estas distribuições normais
têm um desvio padrão igual
Como verificar?
Para cada observação x, chama-se resido ao valor observado de y menos o valor
de y calculado com a equação da recta. Podemos usar os resíduos para testar as
assumpções
Leituras

Livro:
Medical Statistics at a Glance.
Aviva Petrie, Caroline Sabin. Blackwell Science. 2000
Capítulos: 26, 27 e 28
MedStatWeb:
http://stat2.med.up.pt
Capítulo: Correlação e regressão linear simples
Download

Correlação e regressão linear simples