Medidas de associação entre duas variáveis
qualitativas
Hoje vamos analisar duas variáveis qualitativas
(categóricas) conjuntamente com o objetivo
de verificar se existe alguma relação entre elas.
Vamos definir uma medida de associação entre duas variáveis qualitativas chamada Quiquadrado, denotada por χ2.
Vamos também apresentar testes de hipóteses
para verificar as hipóteses formuladas quanto
às variáveis sob investigação.
1
A análise de relacionamento entre variáveis qualitativas (categóricas) inclui os seguintes tópicos:
- contagens das frequências observadas para
cada categoria de resposta, que são registradas
em tabelas de frequência;
- testes estatı́sticos de aderência, de independência
e de homogeneidade para verficar nossas hipóteses
de relacionamento entre as variáveis.
Para definir a medida de Qui-quadrado vamos
começar com a análise de apenas uma variável
categórica.
2
Exemplo 1: Preferência por chocolate
Uma amostra de 110 pessoas foi solicitada a
manifestar suas preferências com respeito a 4
marcas de chocolate. A distribuição de frequências das respostas obtidas no levantamento está na tabela a seguir.
chocolate A
20
chocolate B
60
chocolate C
10
chocolate D
20
total
110
Queremos verificar se algumas marcas (ou uma
marca) são preferidas em detrimento de outras.
Observe que se não há preferência por marcas,
devemos esperar que o número de pessoas por
cada resposta seja o mesmo.
É claro que numa amostra, mesmo que a hipótese seja verdadeira, será muito improvável observar o mesmo número de pessoas em cada
resposta, mas se a hipótese for verdadeira, esses números deverão ser próximos uns dos outros.
3
Se a hipótese de que não há preferência por
marcas for verdadeira, como são 110 pessoas,
110
devemos esperar
= 27, 5 pessoas em cada
4
cela.
frequências
observadas
esperadas sob H0
choc. A
20
27,5
choc. B
60
27,5
choc. C
10
27,5
choc. D
20
27,5
A medida de Qui-quadrado χ2 que vamos
definir, compara as frequências observadas, que
denotaremos por Oi - frequência observada da
i-ésima categoria de resposta - e as frequências
esperadas sob H0, que denotaremos por Ei frequência esperada da i-ésima categoria de resposta sob a hipótese nula.
No exemplo 1, observe que há 4 tipos de resposta tal que i = 1, 2, 3, 4.
4
Definição de χ2:
Suponha que existam c categorias de resposta
e que O1, O2,..., Oc são as frequências observadas, enquando que E1, E2,..., Ec são as
frequências esperadas sob a hipótese nula.
Então a medida de Qui-quadrado é definida
por
χ2 =
c
X
(Oi − Ei)2
i=1
Ei
No exemplo 1, temos
2
(60−27,5)2 (10−27,5)2 (20−27,5)2
+
+
+
χ2 = (20−27,5)
27,5
27,5
27,5
27,5
' 2, 05 + 38, 41 + 11, 14 + 2, 05 = 53, 65
5
Como avaliar a magnitude do valor amostral
de χ2?
Se a hipótese nula for verdadeira e a frequência
esperada em todas as celas é maior ou igual a
5, a estatı́stica χ2 tem uma distribuição aproximada de Qui-quadrado com c − 1 graus de
liberdade.
Assim, a um nı́vel de signifcância α rejeitaremos H0 se o valor amostral cair na cauda superior de área α dessa distribuição como mostra
a figura a seguir.
6
No caso do exemplo 1, temos uma distribuição
aproximada de qui-quadrado com 4 − 1 = 3
graus de liberdade sob a hipótese nula. Consultando o Excel, vemos que o valor crı́tico,
a um nı́vel de 5% de significância é, aproximadamente, 7,815 (usando a função INVCHI
do Excel).
Logo, vemos que o valor amostral de 53,65 é
muito maior do que o valor crı́tico, indicando
que devemos rejeitar a hipótese nula de que as
frequências são iguais em todas as categorias
de resposta.
Usando o EXCEL também é fácil avaliar o pvalor desse teste (função CHIDIST) que resulta ser muito inferior a 0.0001, indicando
fortı́ssima evidência contra a hipótese nula.
7
Como usar o Bioestat para esse problema?
Entre na coluna 1 com as frequências observadas de cada cela.
Depois escolha Estatı́sticas, seguida de Quiquadrado, seguida de Uma amostra:aderência.
Haverá duas opções, a saber, proporções esperadas iguais e proporções esperadas desiguais.
Observe que no exemplo 1, nossa hipótese é de
que as proporções esperadas são iguais. Logo
deverá ser essa a nossa escolha.
8
A seguir, temos a saı́da do Bioestat
9
O Bioestat também apresenta o seguinte gráfico,
útil, para avaliarmos de onde vêm as maiores
discrepâncias.
10
Nem sempre a hipótese nula será de proporções
esperadas iguais.
Suponha que queremos verificar a hipótese de
que as proporções esperadas na distribuição de
gênero dos filhos de famı́lias com dois filhos
seja 1/4 para ambos do gênero feminino(FF),
1/4 para ambos do gênero masculino (MM) e
1/2 para filhos de gêneros diferentes(D).
Suponha também que uma amostra de 100
famı́lias com dois filhos tenha resultado na seguinte distribuição
observada
esperada
FF
32
25
D
52
50
MM
16
25
11
Usando o Bioestat nesse caso:
Pela saı́da vemos que a um nı́vel de significância
de 5%, não rejeitamos a hipótese nula. O pvalor é aproximdadamete 7%.
Observe que nesse caso devemos digitar, numa
coluna, as frequências esperadas.
12
O gráfico desses dados pelo Bioestat é apresentado a seguir.
13
O χ2 permite que se descubra se existe um
relacionamento ou associação entre duas variáveis categóricas, por exemplo, a associação entre fumar (fumante/não fumante) e hábito de
beber (bebedor/não bebedor).
Essas informações são consideradas qualitativas, pois não está se perguntando quantos
cigarros a pessoa fuma por dia ou quanta bebida alcoólica ela toma por dia. Simplesmente
pergunta-se se a pessoa fuma ou não e se a
pessoa bebe ou não bebida alcoólica.
Os dados nesse caso, costumam ser representados em tabelas de dupla entrada, também
conhecidas como tabelas de contingência, da
seguinte forma:
fuma?
sim
não
bebe
O11
O21
não bebe
O12
O22
14
Na tabela anterior,
Oij é a frequência observada na i-ésima linha
e j-ésima coluna.
Nesse exemplo i = 1, 2 e j = 1, 2. Ou seja
cada variável tem apenas duas categorias de
resposta.
Por essa razão esta tabela de contingência é
chamada uma tabela 2 × 2, pois existem duas
linhas e duas colunas.
Adiante estudaremos o caso mais geral de uma
tabela de contingência l × c com l linhas e c
colunas.
15
Exemplo 2: Associação entre fumar e beber
Existe um relacionamento entre os hábitos de
fumar e de beber na população de estudantes
universitários? Se não existe uma associação
significativa, nós concluı́remos que as variáveis
(ser fumante ou não e ser bebedor ou não) são
independentes.
Suponha que numa amostra aleatória de 110
estudantes universitários tenha se obtido os
seguintes resultados.
fuma?
sim
não
bebe
50
15
não bebe
20
25
16
Perfis-linha
Observe que podemos olhar a tabela de dados de maneiras diferentes. Os perfis-linha
referem-se a uma distribuição condicional das
respostas em relação a cada linha da tabela.
Observe na tabela a seguir os perfis-linha. Incluı́mos também uma linha com os totais.
fuma?
sim
não
total
bebe
71,4%
37,5%
59,1%
não bebe
28,6%
62,5%
40,9%
total
100%
100%
100%
Você diria que o perfil dos fumantes em relação
à bebida é semelhante ao perfil dos não-fumantes
em relação à bebida?
A resposta parece ser não. Percebemos da
tabela que entre os fumantes, a maioria bebe
e, entre os não fumantes, a maioria não bebe!
17
Perfis-coluna
Observe que também poderı́amos olhar os perfiscoluna: distribuição condicional das respostas
em relação a cada coluna da tabela. Observe
na tabela a seguir os perfis-coluna. Incluı́mos
também uma coluna de totais.
fuma?
sim
não
total
bebe
76,9%
23,1%
100%
não bebe
44,4%
55,6%
100%
total
63,6%
36,4%
100%
Você diria que o perfil dos bebedores em relação
ao hábito de fumar é semelhante ao perfil dos
não-bebedores em relação ao hábito de fumar?
Claramente não! Percebemos da tabela que
entre os bebedores, a maioria fuma e, entre os
não bebedores, a maioria não fuma!
18
Frequências esperadas sob a hipótese de
Independência
Vimos, na aula de probabilidade, que dois eventos A e B são independentes se
P (A ∩ B) = P (A) × P (B),
isto é, se a probabilidade de ocorrência simultânea dos dois for igual ao produto das probabilidades individuais.
Para calcular as frequências esperadas sob a
hipótese de que as as variáveis hábito de fumar
e hábito de beber são independentes, usaremos
esse mesmo princı́pio.
19
Observe da tabela de frequências observadas
(escritas em forma de frequências relativas em
relação ao número total de observações) que
fuma?
sim
bebe
não bebe
50
110
20
110
total
70
110
|{z}
pr. estimada de fumar
não
15
110
25
110
65
110
|{z}
45
110
|{z}
40
110
|{z}
pr. estimada de não fumar
total
pr. estimada de beber
1
pr. estimada de não beber
20
Logo, se as variáveis são independentes espera-se que o percentual de fumantes e bebedores seja
70 × 65 = 4550 ' 37, 6%
110
110
1102
Assim, o número esperado de fumantes e bebedores
sob a hipótese de independência é 37, 6% de 110 '
41, 4.
A tabela a seguir indica as proporções esperadas sob H0 entre parênteses. Observe que
os totais das linhas e colunas são fixos e, dada
um valor esperado, os outros são facilmente
obtidos por diferenças.
fuma?
sim
não
bebe
50 (41,4)
15 (23,6)
não bebe
20 (28,6)
25 (16,4)
χ2 =
(50−41,4)2
(20−28,6)2
(15−23,6)2
(25−16,4)2
+
+
+
41,4
28,6
23,6
16,4
' 1, 79 + 2, 59 + 3, 13 + 4, 51 = 12, 02
21
Não há necessidade de se preocupar com esses
cálculos, pois o Bioestat tem uma função que
faz isso para você.
Mas, antes de ver como fazer esses cálculos
pelo Bioestat temos que responder a seguinte
questão: “‘Como avaliar a magnitude do valor
amostral obtido de χ2?”
Distribuição de χ2 sob H0:
Sob a hipótese nula de que as variáveis são independentes, a distribuição de χ2 em tabelas
2×2 é aproximadamente uma qui-quadrado
com 1 grau de liberdade. Portanto, podemos obter uma região crı́tica a um nı́vel de
significância fixado ou calcular o p-valor.
No caso especı́fico deste exemplo, usando o
Excel obtemos um p-valor muito pequeno indicando fortı́ssima evidência contra H0, como
já tı́nhamos percebido pela análise dos perfislinha ou perfis-coluna.
22
Vejamos agora como usar o Bioestat para obter
os resultados do teste desse exemplo.
Estatı́sticas seguida de Qui-quadrado seguida
de Tabelas de Contingência L × C e indicando
as duas colunas que contêm os dados.
23
Da saı́da do Bioestat vemos que χ2 = 12, 121 e
que o p-valor=0,0005 é muito pequeno e, portanto, rejeitamos a hipótese nula. As diferenças
do valor de χ2 nas casas decimais devem-se a
erros de arredondamento.
Portanto, concluı́mos que as variáveis hábito
de beber e de fumar são relacionadas. Pela
tabela dos perfis-linha, também podemos dizer
que a relação é do tipo: a maioria dos fumantes tem o hábito de beber, enquanto que
entre os não fumantes, a maioria tende a não
beber.
24
Teste de independência em tabelas l × c
No exemplo 2, as variáveis categóricas analisadas tinham apenas duas categorias de resposta. No entanto, é possı́vel estudar a relação
entre duas variáveis categóricas que admitem
mais de duas categorias de resposta. Se uma
das variáveis tiver l respostas e, a outra, c respostas, a tabela de contingência será de dimensão l por c.
Nesse caso o procedimento para verificar se
as variáveis são independentes é exatamente
o mesmo que o anterior. O número de graus
de liberdade da distribuição aproximada de quiquadrado sob H0 é nesse caso, (l − 1) × (c − 1).
O caminho no Bioestat para realizar o teste de
independência é o mesmo.
25
Exemplo 3: Recusas a pesquisa e faixa etária
Um estudo de pessoas que se recusaram a responder perguntas de pesquisa forneceu os dados amostrais selecionados aleatoriamente e
apresentados na tabela a seguir.
Ao nı́vel de significância de 1%, teste a afirmativa de que a cooperação do sujeito (responde
ou recusa) é independente da faixa etária. Algum grupo etário particular parece ser não cooperativo?
26
responderam
recusaram
18-21
73
11
22-29
255
20
30-39
245
33
40-49
136
16
50-59
138
27
60 ou mais
202
49
Observe que a tabela de dados é uma tabela de contingência 2 × 6.
Vamos rodar o teste no Bioestat.
Estatı́sticas, Qui-quadrado, Tabelas de Contingência LxC.
Como o p-valor é pequeno, rejeitamos H0 , ou seja, existe relação
entre a cooperação na pesquisa e a faixa de idade.
27
O grágico a seguir mostra as distribuições das
frequências relativas por idade sob as classes
respondeu/recusou.
Olhando o gráfico é possı́vel responder que a
faixa “60 ou mais” parece a mais não cooperativa.
28
Testes de Homogeneidade
Em um teste de homogeneidade, testamos a
afirmativa de que populações diferentes têm a
mesma proporção de alguma caracterı́stica.
Para realizar um teste de homogeneidade, podemos usar os mesmos procedimentos já apresentados na aula de hoje, conforme ilustraremos
no seguinte exemplo.
29
Exemplo 4: Influência de gênero
O gênero do entrevistador tem alguma influência nas pesquisas de respostas dadas por homens?
Um artigo na revista U. S. News & World Report sobre pesquisas afirmou: “Em assuntos
sensı́veis, as pessoas tendem a dar respostas
‘aceitáveis’ mais do que respostas honestas;
suas respostas podem depender do gênero ou
raça do entrevistador.”
Para apoiar essa afirmativa, forneceram-se dados de uma pesquisa do Eagleton Institute,
na qual pediu-se a opinião de homens sobre a
seguinte afirmação: “O aborto é um assunto
particular que deve ser deixado para ser decidido pela mulher sem intervenção do estado.”.
30
Analisaremos o efeito de gênero apenas sobre o
universo masculino. A tabela a seguir fornece
os resultados obtidos.
homens que concordaram
homens que discordaram
entrev. homem
560
240
entrev. mulher
308
92
Vejamos como ficam os perfis-coluna
homens que concordaram
homens que discordaram
total
entrev. homem
70% (560/800)
30% (240/800)
100%
entrev. mulher
77% (308/400)
23% (92/400)
100%
Pelos perfis-coluna, parece haver uma tendência dos homens concordarem com maior chance, caso o entrevistador seja mulher.
Para validar essa conclusão, podemos realizar um teste de quiquadrado para tabelas de contingência.
31
total
72,3%
27,7%
100,0%
Saı́da do Bioestat para o exemplo 3:
Logo, a um nı́vel de significância de 5% rejeitamos a hipótese nula de que as proporções de
homens que concordam com a frase são iguais
para entrevistadores homens e para entrevistadores mulheres, pois o p-valor é 1,06%.
32
Quando devemos usar a correção de Yates?
A correção de Yates é uma correção de continuidade por aproximar uma distribuição de
variável discreta para uma distribuição de quiquadrado de variável contı́nua. Ela costuma
ser recomendada quando há celas com frequências esperadas menores do que 10 ou, quando a tabela é 2 × 2. No entanto, só usaremos a
correção de Yates em tabelas 2 × 2, quando o
tamanho da amostra for reduzido e pelo menos
uma das celas apresentar frequência esperada
menor do que 10.
É importante lembrar que a aproximação da
distribuição de qui-quadrado é boa, desde que
não existam celas com frequências esperadas
menores do que 5.
33
Uma medida de associação entre duas variáveis categóricas:
coeficiente de contingência C.
v
u
u
C=t
χ2
χ2 + n
em que n representa o número total de observações no problema.
C é um número entre 0 e 1: quanto maior é
o valor de C, maior é a associação entre as
variáveis. Um valor de C igual a zero indica
que não existe relação entre as variáveis.
No exemplo 2, o coeficiente de contingência
resultante é
s
12, 121
' 0, 315.
12, 121 + 110
34
No exemplo r
3, o coeficiente de contingência
20,271
' 0, 13.
resultante é 20,271+1205
No exemplo r
4, o coeficiente de contingência
6,529
resultante é 1206,529
' 0, 07.
Todos podem ser considerados significativamente diferentes de zero a um nı́vel de significância de 5%, pois nos testes realizados,
rejeitamos a hipótese de ausência de relação.
35
Referências bibliográficas:
(1) Dancey e Reidy - Estatı́stica sem Matemática
para Psicologia. Penso.
(2) Triola. Introdução à Estatı́stica. LTC.
(3) Busssab e Morettin - Estatı́stica Básica.
Editora Saraiva.
36
Download

Medidas de associaç˜ao entre duas variáveis qualitativas Hoje