Correlação e Regressão
Objetivo
• Estudar a relação entre duas variáveis
quantitativas
Exemplo:
–
–
–
–
–
–
Idade e alturas das crianças
Tempo de prática de esporte e ritmo cardíaco
Tempo de estudo e nota na prova
Taxa de desemprego e taxa de criminalidade
Expectativa de vida e taxa de analfabetismo
Vendas e Gasto com publicidade
Estudo da relação entre variáveis
Investigar a presença ou ausência de relação
linear sob dois pontos de vistas.
1. Quantificando a força dessa relação
Correlação;
2. Explicitando a forma dessa relação
Regressão.
–
–
Representação gráfica das duas variáveis
quantitativas: Diagrama de dispersão
Exemplo 1: nota da prova e tempo
de estudo
X: tempo de estudo (em
horas)
Y: Nota da prova
10
8
Nota
Pares de observação (Xi;Yi)
Tempo Nota
3,0
4,5
7,0
6,5
2,0
3,7
1,5
4,0
12,0
9,3
Diagrama de dispersão
6
4
2
0
0
5
10
Tempo
15
Exemplo 2: Vendas e gasto com
publicidade de loja de confecções
X: Gasto com
publicidade(em $ mil)
Y: Venda (em $ mil)
Pares de observação (Xi;Yi)
Gasto
Venda
3
7
4
14
8
15
12
28
14
32
Vendas
Diagrama de dispersão
35
30
25
20
15
10
5
0
0
5
10
Gasto com publicidade
15
Coeficiente de correlação linear
É uma medida que avalia o quanto a “nuvem de pontos”
no diagrama de dispersão aproxima-se de uma reta.
O coeficiente de correlação linear de Person é dado por:
Sendo,
SX e SY são os desvios padrão de X e Y, respectivamente.
Formula alternativa
No Exemplo 1:
No Exemplo 2
Soma
Média
Gasto com publicidade
3
4
8
12
14
41
8,2
S2X = 23,2
S2Y = 108,7
Então,
r = 0,9648
Vendas
7
14
15
28
32
96
19,2
(X - média(X)) (Y - média(Y) (X - média(X)) (Y - média(Y))
-5,2
-12,2
63,44
-4,2
-5,2
21,84
-0,2
-4,2
0,84
3,8
8,8
33,44
5,8
12,8
74,24
0
0
193,8
SX=4,82
SY=10,42
Propriedades do coeficiente de
correlação
Propriedades: -1 ≤ r ≤ 1
Classificação da correlação:
r = 1, correlação linear positiva e perfeita;
r = -1, correlação linear negativa e perfeita;
r = 0, inexistência de correlação linear.
Exemplo 3: Criminalidade e
analfabetismo
Considere as duas variáveis abaixo observadas
em 50 estados norte-americano (vide dados).
X: taxa de analfabetismo
Y: taxa de criminalidade
Na figura a seguir, temos o diagrama de dispersão
de X e Y e podemos notar que, conforme aumenta
a taxa de analfabetismo, a taxa de criminalidade
tende a aumentar. Nota-se também uma
tendência linear.
Diagrama de dispersão
Calculo da correlação
Exemplo 4: Expectativa de vida e
analfabetismo
Considere as duas variáveis abaixo observadas
em 50 estados norte-americanos. (vide dados)
Y: expectativa de vida
X: taxa de analfabetismo
Na figura a seguir, temos o diagrama de dispersão
de X e Y e podemos notar que, conforme
aumenta a taxa de analfabetismo, a expectativa
de vida tende a diminuir. Nota-se também uma
tendência linear
Diagrama de dispersão
Calculo da correlação
Análise de regressão
A análise de regressão fornece uma função
matemática que descreve a relação entre duas
ou mais variáveis. A natureza da relação é
caracterizada por esta função ou equação de
regressão.
Esta equação pode ser usada para estimar ou
predizer valores futuros de uma variável, com
base em valores conhecidos ou supostos, de
uma ou mais variáveis relacionadas
Modelo matemático versus modelo
estatístico
Modelo matemático → descreve uma relação
entre diferentes variáveis (tipo – Y = a + bX)
onde os valores de X estão diretamente
associados aos valores de Y.
Modelo estatístico → envolve a determinação do
melhor modelo ou do modelo que melhor se
ajusta aos pontos, e não do modelo exato ou
preciso. (Y = a + bX + e, onde e é o erro)
Regressão linear simples
Objetivo : obter a equação matemática da reta
que represente o melhor relacionamento
numérico linear ente o conjunto de pares de
dados em amostras selecionadas, dos dois
conjuntos de variáveis
Equação da reta:
Yi   0  1 X i   i , i  1,2,...,n (1)
Regressão linear Simples
Onde:
• Yi é o i-ésimo valor da variável dependente, ou variável
explicada (resposta);
• 0 e 1 são os parâmetros (coeficientes de regressão);
• Xi é o i-ésimo valor da variável independente, ou
variável explicativa (é uma constante conhecida, fixo).
• i é o termo do erro aleatório com E(i)=0 e 2(i)= 2;
• i e j não são correlacionados  (i, j)=0 para todo i,j;
i j; (covariância é nula).
Covariância (o resultado em qualquer experimento não tem
efeito no termo do erro de qualquer outro experimento)
Regressão linear simples
Os dados são usados para estimar 0 e 1, isto é, ajustar
o modelo aos dados, para:
• quantificar a relação entre Y e X;
• usar a relação para predizer uma nova resposta Y0 para
um dado valor de X0 (não incluído no estudo);
• calibração – ou capacidade de predição de novas
observações, pode ser feita usando uma
nova amostra e comparando os valores
estimados com os observados.
- dado um valor de Y0, para o qual o
correspondente valor de X0 é desconhecido,
estimar o valor de X0.
Característica do modelo
1. Yi é uma v.a.(Yi   0  1 X i   i )
2. E(Yi )  E (  0  1 X i   i )   i   0  1 X i (equação
ajustada)
3.  2 (Yi )   2 (  0  1 X i   i )   2 ( i )   2 ( variânciaconstante)
4. Yi e Yj não são correlacionados
O modelo de regressão (1) mostra que as respostas Yi são
oriundas de uma distribuição de probabilidades com média E(Yi) =
0 +1Xi e cujas variâncias são 2, a mesma para todos os valores
de X. Além disso, quaisquer duas respostas Yi e Yj não são
correlacionadas.
A figura mostra a distribuição de Y para vários valores
de X. Mostra onde cai a observação Y1. Mostra que o
erro é a diferença entre Y1 e E(Y1). Observe que as
distribuições de probabilidade apresentam a mesma
variabilidade.
Significado dos parâmetros do modelo
yi = 0 + 1xi

y
x=1
1 
y
x
0
x
x+1
0 – intercepto, valor da média da distribuição de Y em X=0
1 – inclinação, expressa a taxa de mudança em Y, isto é, é a
mudança em Y quando ocorre a mudança de uma unidade em
X.
Reta Ajustada
(método dos mínimos quadrados)
Os coeficientes 0 e 1 são calculados da
seguinte maneira:
1
e
0 =
No exemplo 3: Criminalidade e
analfabetismo
Reta ajustada :
Y : valor predito para taxa de criminalidade
X : taxa de analfabetismo
Interpretação de 1 :
Para um aumento de uma unidade na taxa de
analfabetismo (X), a taxa de criminalidade (Y)
aumenta, em média, 4,257 unidades
Graficamente, temos:
No exemplo 4: Expectativa de vida
e analfabetismo
A reta ajustada:
Y : valor predito para a expectativa de vida
X : taxa de analfabetismo
Interpretação de 1 :
Para um aumento de uma unidade na taxa de
analfabetismo (X), a expectativa de vida (Y)
aumenta, em média, 1,296 anos
Exemplo 5: Consumo de cerveja e
temperatura
X: Consumo de cerveja diário por mil
habitantes, em litros
Y: Temperatura máxima (ºC)
As variáveis foram observadas em nove
localidades
com
as
mesmas
características
demográficas
e
socioeconômicas
Dados
Diagrama de dispersão