1/39
Modelagem
Estatística
Associação e Correlação
2/39
Dados Categorizados

Sexo: Masculino, Feminino

Estação: Verão, Outono, Inverno, Primavera

Calvície: Calvo, Não calvo

Personalidade: Pessimista, Otimista

Humor: Sorridente, Sério
3/39
Associação

Um dos objetivos mais comuns em pesquisas
com dados categorizados é verificar se duas ou
mais variáveis apresentam-se associadas.

A associação entre duas ou mais variáveis
implica que o conhecimento de uma altera a
probabilidade de algum resultado da outra.
4/39
Associação

Por exemplo, se uma pessoa é calva, sabemos
que, provavelmente, esta pessoa é um homem.
Assim, as variáveis sexo e calvície encontram-se
associadas.
5/39
Mulheres
Sorriem Mais

“Esta é a conclusão de um trabalho
acadêmico de uma psicóloga de São
Paulo. A constatação saiu da comparação
de 623 fotografias coletadas junto a amigos
e familiares da pesquisadora. Nas fotos,
mulheres de diferentes faixas de idade
apareciam sorrindo mais do que os
homens...”
Super Interessante, setembro de 1994.
6/39
Pessimismo
Deixa Careca

“Uma empresa japonesa de cosméticos
constatou que homens pessimistas têm cabelos
mais fracos e tendem a ficar carecas. Foram
entrevistados 733 homens entre 15 e 59 anos de
idade em Tóquio. Resultado: 51% dos que se
consideravam pessimistas disseram que seus
cabelos estavam ficando fracos, enquanto 47%
dos otimistas percebiam algum sinal de calvície.
Super Interessante, setembro de 1994.
Associação e
Relação Causal

7/39
O fato de duas variáveis estarem associadas
não implica que uma delas seja a causa da
outra. Pode existir outra(s) variável(is)
influenciando as duas.
8/39
Teste Qui-quadrado

Testa a significância da associação entre duas
variáveis categorizadas.

Exemplo: Personalidade X tendência à calvície.
9/39
Teste Qui-quadrado
Hipóteses
 H o:
Personalidade e calvície são variáveis
independentes na população em estudo.
H1: Existe associação entre as variáveis
personalidade e calvície, na população em
estudo.
10/39
Teste Qui-quadrado
Dados:
PersonaCalvície
lidade Careca Cabeludo
155
175
Otimista
47%
53%
197
Pessimista 206
51%
49%
361
372
Total
49%
51%
Total
330
100%
403
100%
733
100%
11/39
Teste Qui-quadrado
Estatística do Teste:
(Oij - Eij
 = 
Eij
2
i
j
)2
O - valores observados.
E - valores esperados sob a
hi- pótese de independência
entre as variáveis.
(total da linha i) (total da coluna j)
Eij =
(total geral)
12/39
Exemplo
Valores esperados:
PersonaCalvície
lidade Careca Cabeludo
167,5
Otimista 162,5
49%
51%
204,5
Pessimista 198,5
49%
51%
361
372
Total
49%
51%
Total
330
100%
403
100%
733
100%
13/39
Exemplo
Contribuições do 2:
PersonaCalvície
lidade Careca Cabeludo
0,34
Otimista 0,35
0,28
Pessimista 0,28
2 = 0,35 + 0,34 + 0,28 + 0,28 = 1,25
14/39
Distribuição de
Referência

Distribuição qui-quadrado, com (l-1).(c-1)
graus de liberdade, onde l é o número de
linhas e c é o número de colunas.
No exemplo, (2-1).(2-1) = 1 grau de liberdade.
15/39
Observações

Teste válido se os valores esperados das
caselas forem grandes (todos acima de 10).
Coeficiente de
Contingência de
Pearson
C =
k.2
(k - 1).(n + 2)
16/39
k - menor valor entre o
número de linhas (l) e
o número de colunas
(c)
0<C<1
Variáveis
independentes
Variáveis perfeitamente
associadas
17/39
Exemplo

Com os dados do exemplo apresentado:
C =
(2).(
= 0,058
(1).(733 + )
18/39
Correlação

Análise do grau de relacionamento entre
duas variáveis quantitativas.
19/39
Correlação:
Exemplos

Renda e consumo.

Salário e produtividade de funcionários.

Risco e rentabilidade de ações.

Renda familiar e número de filhos.
20/39
Correlação:
Exemplos

Peso e altura de pessoas.

Volume de produção e custos.

Gastos com prevenção de defeitos e falhas nos
produtos.
21/39
Exemplo

Dados de 12 municípios de SC.
Exemplo

Variáveis observadas:
–
–
–
–
–
População do município, em 1000 habitantes.
População urbana, em 1000 habitantes.
% de população urbana.
taxa de crescimento demográfico, em %.
taxa de mortalidade infantil: coeficiente de
mortalidade por 1000 nascidos vivos.
– taxa de alfabetização, em %.
22/39
23/39
Exemplo
m u n i- p o p u - p o p u l. % p o p . t a x a d e t a x a m o r t . t a x a d e
c íp io la ç ã o u r b a n a u r b a n a c r e s c im . in f a n t il
a lf a b e t .
1
2
3
4
5
6
7
8
9
10
11
12
101
193
42
304
42
152
55
105
68
219
129
42
94
181
39
292
32
126
36
77
25
186
116
33
93
94
94
96
76
83
66
73
37
85
90
78
3 ,1 9
4 ,6 0
2 ,7 8
6 ,4 6
1 ,9 9
1 ,8 9
2 ,9 2
5 ,3 2
2 ,7 1
3 ,1 1
3 ,1 1
1 ,2 1
37
27
38
25
67
63
41
13
28
17
32
32
85
90
85
87
75
78
81
75
84
87
85
77
24/39
Diagrama de
Dispersão
população urbana (x 1000)
população residente x população urbana
300
200
100
0
0
100
200
300
população residente (x 1000)
400
25/39
Diagrama de
Dispersão
taxa de crescimento
demográfico
população residente x taxa de crescimento
8
6
4
2
0
0
100
200
300
400
população residente (x 1000)
26/39
Diagrama de
Dispersão
taxa de crescimento x taxa mortalidade infantil
taxa de mortalidade
infantil
80
60
40
20
0
0
2
4
6
8
taxa de crescimento demográfico
27/39
Diagrama de
Dispersão
taxa de mortalidade
infantil
% de pop. urbana x taxa de mortalidade infantil
80
60
40
20
0
30
50
70
90
% de população urbana
110
28/39
Diagrama de
Dispersão
taxa de
alfabetização
% de população urbana x taxa de alfabetização
90
85
80
75
70
30
40
50
60
70
80
% de população urbana
90
100
29/39
Correlação não Linear
Y
X
Coeficiente de
Correlação de
Pearson
30/39

Descrição da correlação linear entre 2
variáveis quantitativas.

Para a construção do coeficiente,
primeiramente deve-se padronizar as duas
variáveis (X e Y).
31/39
Coeficiente de
Correlação de Pearson
xX
x' 
Sx

yY
y' 
Sy
Com isso, a origem dos eixos é deslocada
para o ponto médio (X, Y) e as unidades de
medida são desconsideradas.
32/39
Coeficiente de
Correlação de Pearson
Y
Y’
Y
X’
X
X
33/39
Coeficiente de
Correlação de Pearson
Sinal do produto (x’ y’)
+
Y’
+
-
X’
34/39
Correlação Linear
Positiva
 (x’ y’) > 0
Y’
X’
35/39
Correlação Linear
Negativa
 (x’ y’) < 0
Y’
X’
36/39
Falta de Correlação
Linear
 (x’ y’) = 0
Y’
X’
37/39
Coeficiente de
Correlação de Pearson
r=
 (x’.y’)
n-1
ou
n.x.y) - (x).(y)
r=
n.x2) - (x)2 n.y2) - (y)2
38/39
Coeficiente de
Correlação de Pearson
-1 < r < 1
-1
correlação
negativa
perfeita
0
não existe
correlação
linear
1
correlação
positiva
perfeita
39/39
Teste de Significância
sobre r
Ho: As variáveis X e Y não são correlacionadas
H1: As variáveis X e Y são correlacionadas
Estatística do teste:
r  n  2 
t
2
1 r
Distribuição de referência: distribuição t de
Student com (n - 2) graus de liberdade.
Download

Estmod04(associacao)