AULA: 13-16
Análise Bidimensional
Prof. Víctor Hugo Lachos Dávila
Introdução
• Freqüentemente estamos interessados em analisar duas
variáveis conjuntamente
• P.E. nos dados da empresa podemos estar interessados em
comparar os salários dos casados e solteiros.
• Quando consideramos duas variáveis, podemos ter 3 situações e as
técnicas de análise são diferentes.
a) as duas qualitativas (tabela de contingência)
b) as duas quantitativas (gráficos de dispersão)
c) uma qualitativa e outra quantitativa (tabela de
contingência)
• É possível quantificar a relação entre as variáveis em estudo
2
Variáveis Qualitativas
• Analisamos o comportamento conjunto de X: grau de
instrução e Y: região de procedência.
Tabela 1:Tabela de freqüências absolutas das variáveis X e Y
Y\X
Capital
Interior
Outra
Total
Ensino
Fundamental
4
3
5
12
Ensino Médio
5
7
6
18
Superior Total
2
11
2
12
2
13
6
36
Tabela de
dupla
entrada
• Podemos construir tabelas de freqüências relativas.
• Existe varias possibilidades de construção e depende
do objetivo do problema.
3
Relativa ao total geral
Tabela 1:Tabela de freqüências relativas ao total geral das
variáveis X e Y
Ensino
Fundamental Ensino Médio Superior Total
Capital
11%
14%
6% 31%
Interior
8%
19%
6% 33%
Outra
14%
17%
6% 36%
Total
33%
50%
17% 100%
Y\X
• 11% dos empregados vêm da capital e tem ensino fundamental.
• 31% dos indivíduos vêm da capital, 33% do interior e 36% de
outras regiões.
• 33% tem ensino fundamental.
4
Relativa ao total de colunas
Tabela 1:Tabela de freqüências relativas ao total de coluna das
variáveis X e Y
Ensino
Fundamental Ensino Médio Superior Total
Capital
33%
28%
33% 31%
Interior
25%
39%
33% 33%
Outra
42%
33%
33% 36%
Total
100%
100%
100% 100%
Y\X
• Entre os empregados com instrução até o ensino fundamental,
33% vêm da capital.
• Entre os empregados com ensino médio, 28% vêm da capital.
• Comparamos a distribuição da procedência conforme o grau de
instrução.
• De modo análogo, podemos construir a distribuição do grau de
instrução conforme a procedência.!!!
5
Gráfico 1:Distribuição da região de procedência por grau de
instrução
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
Outra
Interior
Capital
Ensino
Fundamental
Ensino Médio
Superior
Total
6
Associação entre variáveis qualitativas
Exemplo: Queremos verificar se existe ou não associação
entre o sexo (X) e a carreira escolhida (Y) por 200 alunos
de economia e administração
Tabela 4:Tabela de freqüências absolutas (relativas) dos alunos
segundo o sexo (X) e curso escolhido (Y)
Y\X
Economia
Administração
Total
Masculino
85 (61%)
55 (39%)
140 (100%)
Feminino
35 (58%)
25 (42%)
60 (100%)
Total
120 (60%)
80 (40%)
200 (100%)
• Independente do sexo 60% preferem economia e 40% preferem
administração.
• No sexo masculino essas proporções são 61% e 39% e no
feminino 58 e 42%, as quais são próximas d e 60 e 40 (marginais)
• Forte indicio de não haver dependência entre as variáveis sexo e
curso (não associadas)
7
Exemplo: Queremos verificar se existe ou não associação
entre o sexo (X) e a carreira escolhida (Y) por 200 alunos
de Física e Ciências Sociais
Tabela 5:Tabela de freqüências absolutas (relativas) dos alunos
segundo o sexo (X) e curso escolhido (Y)
Y\X
Física
Ciências Sociais
Total
Masculino
100 (71%)
40 (29%)
140 (100%)
Feminino
20 (33%)
40 (67%)
60 (100%)
Total
120 (60%)
80 (40%)
200 (100%)
• Independente do sexo 60% preferem economia e 40% preferem
administração.
• No sexo masculino essas proporções são 71% e 29% e no
feminino 33 e 67%. Disparidade bem acentuada nas proporções
•Forte indicio de haver dependência entre as variáveis sexo e
curso (associadas)
8
Exemplo: Queremos verificar se a criação de determinado
tipo de cooperativa está associada com algum fator regional
Tabela 6:Cooperativas autorizadas a funcional por tipo e estado
Estado
São Paulo
Paraná
Rio G. do Sul
Total
Consumidor
214 (33%)
51(17%)
111 (18%)
376(24%)
Tipo de Cooperativa
Produtor
Escola
237(37%)
78 (12%)
102(34%)
126(42%)
304(51%)
139(23%)
643 (42%)
343 (22%)
Outras
119 (18%)
22 (7%)
48(8%)
189 (12%)
Total
648(100%)
301(100%)
602(100%)
1551(100%)
• Notamos que existe certa associação entre as variáveis.
• Caso não houvesse associação, esperaríamos que em cada
estado tivéssemos 24% de escolas e 12% de outros tipos.
• Assim, o número esperado de cooperativas de consumidores no
estado de São Paulo seria 648*0.24=156 e no Paraná
301*0.24=72....
9
Tabela 7:Valores esperados assumindo independência entre as
variáveis tipo de cooperativa e fator regional
Estado
São Paulo
Paraná
Rio G. do Sul
Total
Consumidor
156 (24%)
72(24%)
144 (24%)
376(24%)
Tipo de Cooperativa
Produtor
Escola
272(42%)
142 (22%)
127(42%)
66(22%)
254(42%)
132(22%)
643 (42%)
343 (22%)
Outras
78 (12%)
36 (12%)
72(12%)
189 (12%)
Total
648(100%)
301(100%)
602(100%)
1551(100%)
• Notamos fortes discrepâncias entre os valores observados (O), e
esperados (E) assumindo que as variáveis
não fossem associadas.

2
• Uma medida de afastamento global pode ser dada pela soma de
todas essas medidas. (Qui-quadrado de Pearson)
 
2
X2
. Um valor grande de
exemplo acima temos:
Colunas Filas
  (O
i 1
j 1
ij
 Eij ) / Eij
2
indica associação entre as variáveis. No
  (214156) / 156 ... (48  72) / 72  173,24
2
2
2
10
Associação entre variáveis quantitativas
• Quando as duas variáveis são quantitativas podemos usar o
mesmo tipo de análise para variáveis qualitativas. (transformando
as variáveis)
• Uma ferramenta bastante útil é o gráfico de dispersão.
• Exemplo:
Tabela 8: Número de anos de serviço (X) por número de
clientes (Y) de agentes de uma companhia de seguros
Anos de Serviço (X) Número de Clientes (Y)
2
48
3
50
4
56
5
52
4
43
6
60
7
62
8
58
8
64
10
72
• Notamos que à medida que aumenta o tempo de serviço, aumenta
o número de clientes, logo parece haver uma associação entre
essas variáveis
11
Gráfico 2: Gráfico de dispersão para as variáveis X: anos de
serviço e Y: número de clientes
80
Número de Cleintes
70
60
50
40
30
20
10
0
0
2
4
6
8
10
12
Anos de Serviço
Gráfico 3: Tipos de associações entre duas variáveis
25
20
15
10
5
0
0
2
4
6
8
10
12
10
8
6
4
2
0
-2 0
-4
-6
-8
-10
-12
2
4
6
8
10
12
12
Coeficiente de correlação
Nun conjunto de dados com n pares de valores para as variáveis
Xe Y o coeficiente de correlação (r) que mede a dependência
linear entre elas é calculado como:
n
rXY 
n
 ( x  x )( y  y )
i 1
i
i
n
i
i

n
[ ( xi  xi ) ][ ( yi  yi ) ]
2
i 1
2
i 1
 ( x y  nx y )
i 1
n
i
i
i
n
[ xi  nxi ][ ( y
2
i 1
i
i 1
2
i
 nyi ]
Propriedades
• é sempre um número entre -1 e 1
• Correlação igual a zero não indica independência entre as
variaveis
• |r| próximo a 1, indica alta associação entre as variáveis
• |r| próximo a 0, indica não associação entre as variáveis
•|r| próximo a 0.5, indica associação moderada
13
Download

Associação entre variáveis qualitativas