Medidas de associação entre duas variáveis qualitativas Hoje vamos analisar duas variáveis qualitativas (categóricas) conjuntamente com o objetivo de verificar se existe alguma relação entre elas. Vamos definir uma medida de associação entre duas variáveis qualitativas chamada Quiquadrado, denotada por χ2. Vamos também apresentar testes de hipóteses para verificar as hipóteses formuladas quanto às variáveis sob investigação. 1 A análise de relacionamento entre variáveis qualitativas (categóricas) inclui os seguintes tópicos: - contagens das frequências observadas para cada categoria de resposta, que são registradas em tabelas de frequência; - testes estatı́sticos de aderência, de independência e de homogeneidade para verficar nossas hipóteses de relacionamento entre as variáveis. Para definir a medida de Qui-quadrado vamos começar com a análise de apenas uma variável categórica. 2 Exemplo 1: Preferência por chocolate Uma amostra de 110 pessoas foi solicitada a manifestar suas preferências com respeito a 4 marcas de chocolate. A distribuição de frequências das respostas obtidas no levantamento está na tabela a seguir. chocolate A 20 chocolate B 60 chocolate C 10 chocolate D 20 total 110 Queremos verificar se algumas marcas (ou uma marca) são preferidas em detrimento de outras. Observe que se não há preferência por marcas, devemos esperar que o número de pessoas por cada resposta seja o mesmo. É claro que numa amostra, mesmo que a hipótese seja verdadeira, será muito improvável observar o mesmo número de pessoas em cada resposta, mas se a hipótese for verdadeira, esses números deverão ser próximos uns dos outros. 3 Se a hipótese de que não há preferência por marcas for verdadeira, como são 110 pessoas, 110 devemos esperar = 27, 5 pessoas em cada 4 cela. frequências observadas esperadas sob H0 choc. A 20 27,5 choc. B 60 27,5 choc. C 10 27,5 choc. D 20 27,5 A medida de Qui-quadrado χ2 que vamos definir, compara as frequências observadas, que denotaremos por Oi - frequência observada da i-ésima categoria de resposta - e as frequências esperadas sob H0, que denotaremos por Ei frequência esperada da i-ésima categoria de resposta sob a hipótese nula. No exemplo 1, observe que há 4 tipos de resposta tal que i = 1, 2, 3, 4. 4 Definição de χ2: Suponha que existam c categorias de resposta e que O1, O2,..., Oc são as frequências observadas, enquando que E1, E2,..., Ec são as frequências esperadas sob a hipótese nula. Então a medida de Qui-quadrado é definida por χ2 = c X (Oi − Ei)2 i=1 Ei No exemplo 1, temos 2 (60−27,5)2 (10−27,5)2 (20−27,5)2 + + + χ2 = (20−27,5) 27,5 27,5 27,5 27,5 ' 2, 05 + 38, 41 + 11, 14 + 2, 05 = 53, 65 5 Como avaliar a magnitude do valor amostral de χ2? Se a hipótese nula for verdadeira e a frequência esperada em todas as celas é maior ou igual a 5, a estatı́stica χ2 tem uma distribuição aproximada de Qui-quadrado com c − 1 graus de liberdade. Assim, a um nı́vel de signifcância α rejeitaremos H0 se o valor amostral cair na cauda superior de área α dessa distribuição como mostra a figura a seguir. 6 No caso do exemplo 1, temos uma distribuição aproximada de qui-quadrado com 4 − 1 = 3 graus de liberdade sob a hipótese nula. Consultando o Excel, vemos que o valor crı́tico, a um nı́vel de 5% de significância é, aproximadamente, 7,815 (usando a função INVCHI do Excel). Logo, vemos que o valor amostral de 53,65 é muito maior do que o valor crı́tico, indicando que devemos rejeitar a hipótese nula de que as frequências são iguais em todas as categorias de resposta. Usando o EXCEL também é fácil avaliar o pvalor desse teste (função CHIDIST) que resulta ser muito inferior a 0.0001, indicando fortı́ssima evidência contra a hipótese nula. 7 Como usar o Bioestat para esse problema? Entre na coluna 1 com as frequências observadas de cada cela. Depois escolha Estatı́sticas, seguida de Quiquadrado, seguida de Uma amostra:aderência. Haverá duas opções, a saber, proporções esperadas iguais e proporções esperadas desiguais. Observe que no exemplo 1, nossa hipótese é de que as proporções esperadas são iguais. Logo deverá ser essa a nossa escolha. 8 A seguir, temos a saı́da do Bioestat 9 O Bioestat também apresenta o seguinte gráfico, útil, para avaliarmos de onde vêm as maiores discrepâncias. 10 Nem sempre a hipótese nula será de proporções esperadas iguais. Suponha que queremos verificar a hipótese de que as proporções esperadas na distribuição de gênero dos filhos de famı́lias com dois filhos seja 1/4 para ambos do gênero feminino(FF), 1/4 para ambos do gênero masculino (MM) e 1/2 para filhos de gêneros diferentes(D). Suponha também que uma amostra de 100 famı́lias com dois filhos tenha resultado na seguinte distribuição observada esperada FF 32 25 D 52 50 MM 16 25 11 Usando o Bioestat nesse caso: Pela saı́da vemos que a um nı́vel de significância de 5%, não rejeitamos a hipótese nula. O pvalor é aproximdadamete 7%. Observe que nesse caso devemos digitar, numa coluna, as frequências esperadas. 12 O gráfico desses dados pelo Bioestat é apresentado a seguir. 13 O χ2 permite que se descubra se existe um relacionamento ou associação entre duas variáveis categóricas, por exemplo, a associação entre fumar (fumante/não fumante) e hábito de beber (bebedor/não bebedor). Essas informações são consideradas qualitativas, pois não está se perguntando quantos cigarros a pessoa fuma por dia ou quanta bebida alcoólica ela toma por dia. Simplesmente pergunta-se se a pessoa fuma ou não e se a pessoa bebe ou não bebida alcoólica. Os dados nesse caso, costumam ser representados em tabelas de dupla entrada, também conhecidas como tabelas de contingência, da seguinte forma: fuma? sim não bebe O11 O21 não bebe O12 O22 14 Na tabela anterior, Oij é a frequência observada na i-ésima linha e j-ésima coluna. Nesse exemplo i = 1, 2 e j = 1, 2. Ou seja cada variável tem apenas duas categorias de resposta. Por essa razão esta tabela de contingência é chamada uma tabela 2 × 2, pois existem duas linhas e duas colunas. Adiante estudaremos o caso mais geral de uma tabela de contingência l × c com l linhas e c colunas. 15 Exemplo 2: Associação entre fumar e beber Existe um relacionamento entre os hábitos de fumar e de beber na população de estudantes universitários? Se não existe uma associação significativa, nós concluı́remos que as variáveis (ser fumante ou não e ser bebedor ou não) são independentes. Suponha que numa amostra aleatória de 110 estudantes universitários tenha se obtido os seguintes resultados. fuma? sim não bebe 50 15 não bebe 20 25 16 Perfis-linha Observe que podemos olhar a tabela de dados de maneiras diferentes. Os perfis-linha referem-se a uma distribuição condicional das respostas em relação a cada linha da tabela. Observe na tabela a seguir os perfis-linha. Incluı́mos também uma linha com os totais. fuma? sim não total bebe 71,4% 37,5% 59,1% não bebe 28,6% 62,5% 40,9% total 100% 100% 100% Você diria que o perfil dos fumantes em relação à bebida é semelhante ao perfil dos não-fumantes em relação à bebida? A resposta parece ser não. Percebemos da tabela que entre os fumantes, a maioria bebe e, entre os não fumantes, a maioria não bebe! 17 Perfis-coluna Observe que também poderı́amos olhar os perfiscoluna: distribuição condicional das respostas em relação a cada coluna da tabela. Observe na tabela a seguir os perfis-coluna. Incluı́mos também uma coluna de totais. fuma? sim não total bebe 76,9% 23,1% 100% não bebe 44,4% 55,6% 100% total 63,6% 36,4% 100% Você diria que o perfil dos bebedores em relação ao hábito de fumar é semelhante ao perfil dos não-bebedores em relação ao hábito de fumar? Claramente não! Percebemos da tabela que entre os bebedores, a maioria fuma e, entre os não bebedores, a maioria não fuma! 18 Frequências esperadas sob a hipótese de Independência Vimos, na aula de probabilidade, que dois eventos A e B são independentes se P (A ∩ B) = P (A) × P (B), isto é, se a probabilidade de ocorrência simultânea dos dois for igual ao produto das probabilidades individuais. Para calcular as frequências esperadas sob a hipótese de que as as variáveis hábito de fumar e hábito de beber são independentes, usaremos esse mesmo princı́pio. 19 Observe da tabela de frequências observadas (escritas em forma de frequências relativas em relação ao número total de observações) que fuma? sim bebe não bebe 50 110 20 110 total 70 110 |{z} pr. estimada de fumar não 15 110 25 110 65 110 |{z} 45 110 |{z} 40 110 |{z} pr. estimada de não fumar total pr. estimada de beber 1 pr. estimada de não beber 20 Logo, se as variáveis são independentes espera-se que o percentual de fumantes e bebedores seja 70 × 65 = 4550 ' 37, 6% 110 110 1102 Assim, o número esperado de fumantes e bebedores sob a hipótese de independência é 37, 6% de 110 ' 41, 4. A tabela a seguir indica as proporções esperadas sob H0 entre parênteses. Observe que os totais das linhas e colunas são fixos e, dada um valor esperado, os outros são facilmente obtidos por diferenças. fuma? sim não bebe 50 (41,4) 15 (23,6) não bebe 20 (28,6) 25 (16,4) χ2 = (50−41,4)2 (20−28,6)2 (15−23,6)2 (25−16,4)2 + + + 41,4 28,6 23,6 16,4 ' 1, 79 + 2, 59 + 3, 13 + 4, 51 = 12, 02 21 Não há necessidade de se preocupar com esses cálculos, pois o Bioestat tem uma função que faz isso para você. Mas, antes de ver como fazer esses cálculos pelo Bioestat temos que responder a seguinte questão: “‘Como avaliar a magnitude do valor amostral obtido de χ2?” Distribuição de χ2 sob H0: Sob a hipótese nula de que as variáveis são independentes, a distribuição de χ2 em tabelas 2×2 é aproximadamente uma qui-quadrado com 1 grau de liberdade. Portanto, podemos obter uma região crı́tica a um nı́vel de significância fixado ou calcular o p-valor. No caso especı́fico deste exemplo, usando o Excel obtemos um p-valor muito pequeno indicando fortı́ssima evidência contra H0, como já tı́nhamos percebido pela análise dos perfislinha ou perfis-coluna. 22 Vejamos agora como usar o Bioestat para obter os resultados do teste desse exemplo. Estatı́sticas seguida de Qui-quadrado seguida de Tabelas de Contingência L × C e indicando as duas colunas que contêm os dados. 23 Da saı́da do Bioestat vemos que χ2 = 12, 121 e que o p-valor=0,0005 é muito pequeno e, portanto, rejeitamos a hipótese nula. As diferenças do valor de χ2 nas casas decimais devem-se a erros de arredondamento. Portanto, concluı́mos que as variáveis hábito de beber e de fumar são relacionadas. Pela tabela dos perfis-linha, também podemos dizer que a relação é do tipo: a maioria dos fumantes tem o hábito de beber, enquanto que entre os não fumantes, a maioria tende a não beber. 24 Teste de independência em tabelas l × c No exemplo 2, as variáveis categóricas analisadas tinham apenas duas categorias de resposta. No entanto, é possı́vel estudar a relação entre duas variáveis categóricas que admitem mais de duas categorias de resposta. Se uma das variáveis tiver l respostas e, a outra, c respostas, a tabela de contingência será de dimensão l por c. Nesse caso o procedimento para verificar se as variáveis são independentes é exatamente o mesmo que o anterior. O número de graus de liberdade da distribuição aproximada de quiquadrado sob H0 é nesse caso, (l − 1) × (c − 1). O caminho no Bioestat para realizar o teste de independência é o mesmo. 25 Exemplo 3: Recusas a pesquisa e faixa etária Um estudo de pessoas que se recusaram a responder perguntas de pesquisa forneceu os dados amostrais selecionados aleatoriamente e apresentados na tabela a seguir. Ao nı́vel de significância de 1%, teste a afirmativa de que a cooperação do sujeito (responde ou recusa) é independente da faixa etária. Algum grupo etário particular parece ser não cooperativo? 26 responderam recusaram 18-21 73 11 22-29 255 20 30-39 245 33 40-49 136 16 50-59 138 27 60 ou mais 202 49 Observe que a tabela de dados é uma tabela de contingência 2 × 6. Vamos rodar o teste no Bioestat. Estatı́sticas, Qui-quadrado, Tabelas de Contingência LxC. Como o p-valor é pequeno, rejeitamos H0 , ou seja, existe relação entre a cooperação na pesquisa e a faixa de idade. 27 O grágico a seguir mostra as distribuições das frequências relativas por idade sob as classes respondeu/recusou. Olhando o gráfico é possı́vel responder que a faixa “60 ou mais” parece a mais não cooperativa. 28 Testes de Homogeneidade Em um teste de homogeneidade, testamos a afirmativa de que populações diferentes têm a mesma proporção de alguma caracterı́stica. Para realizar um teste de homogeneidade, podemos usar os mesmos procedimentos já apresentados na aula de hoje, conforme ilustraremos no seguinte exemplo. 29 Exemplo 4: Influência de gênero O gênero do entrevistador tem alguma influência nas pesquisas de respostas dadas por homens? Um artigo na revista U. S. News & World Report sobre pesquisas afirmou: “Em assuntos sensı́veis, as pessoas tendem a dar respostas ‘aceitáveis’ mais do que respostas honestas; suas respostas podem depender do gênero ou raça do entrevistador.” Para apoiar essa afirmativa, forneceram-se dados de uma pesquisa do Eagleton Institute, na qual pediu-se a opinião de homens sobre a seguinte afirmação: “O aborto é um assunto particular que deve ser deixado para ser decidido pela mulher sem intervenção do estado.”. 30 Analisaremos o efeito de gênero apenas sobre o universo masculino. A tabela a seguir fornece os resultados obtidos. homens que concordaram homens que discordaram entrev. homem 560 240 entrev. mulher 308 92 Vejamos como ficam os perfis-coluna homens que concordaram homens que discordaram total entrev. homem 70% (560/800) 30% (240/800) 100% entrev. mulher 77% (308/400) 23% (92/400) 100% Pelos perfis-coluna, parece haver uma tendência dos homens concordarem com maior chance, caso o entrevistador seja mulher. Para validar essa conclusão, podemos realizar um teste de quiquadrado para tabelas de contingência. 31 total 72,3% 27,7% 100,0% Saı́da do Bioestat para o exemplo 3: Logo, a um nı́vel de significância de 5% rejeitamos a hipótese nula de que as proporções de homens que concordam com a frase são iguais para entrevistadores homens e para entrevistadores mulheres, pois o p-valor é 1,06%. 32 Quando devemos usar a correção de Yates? A correção de Yates é uma correção de continuidade por aproximar uma distribuição de variável discreta para uma distribuição de quiquadrado de variável contı́nua. Ela costuma ser recomendada quando há celas com frequências esperadas menores do que 10 ou, quando a tabela é 2 × 2. No entanto, só usaremos a correção de Yates em tabelas 2 × 2, quando o tamanho da amostra for reduzido e pelo menos uma das celas apresentar frequência esperada menor do que 10. É importante lembrar que a aproximação da distribuição de qui-quadrado é boa, desde que não existam celas com frequências esperadas menores do que 5. 33 Uma medida de associação entre duas variáveis categóricas: coeficiente de contingência C. v u u C=t χ2 χ2 + n em que n representa o número total de observações no problema. C é um número entre 0 e 1: quanto maior é o valor de C, maior é a associação entre as variáveis. Um valor de C igual a zero indica que não existe relação entre as variáveis. No exemplo 2, o coeficiente de contingência resultante é s 12, 121 ' 0, 315. 12, 121 + 110 34 No exemplo r 3, o coeficiente de contingência 20,271 ' 0, 13. resultante é 20,271+1205 No exemplo r 4, o coeficiente de contingência 6,529 resultante é 1206,529 ' 0, 07. Todos podem ser considerados significativamente diferentes de zero a um nı́vel de significância de 5%, pois nos testes realizados, rejeitamos a hipótese de ausência de relação. 35 Referências bibliográficas: (1) Dancey e Reidy - Estatı́stica sem Matemática para Psicologia. Penso. (2) Triola. Introdução à Estatı́stica. LTC. (3) Busssab e Morettin - Estatı́stica Básica. Editora Saraiva. 36