Teste do Qui2 Pré-requisitos: • Elaboração do questionário • Tratamentos e análises Muitas vezes, quando fazemos pesquisas, temos como interesse verificar a associação/independência entre duas variáveis qualitativas (seja ela nominal ou ordinal). Veja neste tutorial como analisar e testar variáveis neste cenário. Assumindo que as variáveis em questão são independentes (não pareadas) e que o tamanho de amostra é suficientemente grande (o uso de técnicas de amostragem para cálculo de tamanho de amostra é extremamente necessário para a realização de inferências populacionais) para garantir que no máximo 20% das células da tabela de contingência possuam frequência menor que 5 e nenhuma célula com frequência menor que 1, podemos utilizar o teste Qui-quadrado (χ²) de independência. Para calcular o teste χ² manualmente precisamos que os dados estejam apresentados em tabelas de contingência. Observe o exemplo a seguir: O tamanho de amígdala está associado com a presença da bactéria Streptoccocus pyogenes? Para responder a essa pergunta, utilizaremos o teste χ² de associação/independência (note que os pressupostos necessários foram atendidos). As hipóteses a serem testadas são: H0 : O tamanho de amígdala não está associado com a presença da bactéria (independentes) H1 : O tamanho de amígdala está associado com a presença da bactéria (dependentes) Primeiramente, precisamos encontrar as estimativas esperadas para as frequências de cada célula: (Por questão de notação, denotaremos as frequências apresentadas na tabela como Obtidas (O) e as frequências esperadas de Esperadas (E)) Onde . ∑ = total da coluna, . ∑ = total da linha e = total geral Assim, podemos calcular a estimativa: Onde χ² calculado segue uma distribuição de probabilidade χ² com (número de linhas 1)*(número de colunas -1) graus de liberdade. A partir desta distribuição podemos obter o ponto crítico para rejeição de H0 quando comparado com o χ² calculado. Área de aceitação de Área de rejeição de Ponto crítico para rejeição de No exemplo ~ ∗ Por definição, rejeitamos H_0 com α*100 % de confiança se ∗ ou calculando a probabilidade associada ao usualmente chamado de p-valor. Se p-valor < 1-α rejeitamos H0 com α*100 % de confiança. Calculamos então e obtemos 7,89 ou P(X>7,89)=p-valor= 0,019 Concluímos nosso exemplo verificando que se fixarmos um α*100 = 95% (1- α = 0,05), p-valor< 1- α (0,019 < 0,05), ou seja, rejeitamos e com 95% de confiança podemos afirmar que o tamanho de amígdala está associado com a presença da bactéria (as variáveis “tamanho de amígdala” e “presença da bactéria” são dependentes). Podemos obter tanto o como o p-valor pelo software Sphinx, basta dispormos dos dados tabulados com observação (por indivíduo) em linha e variáveis em coluna. Utilizaremos como exemplo a base Carros disponível como exemplo no Sphinx. Após os dados estarem tabulados corretamente, basta clicar em “Tratamentos e análises” e acessar o menu superior “Analisar” > “Tabelas cruzadas”. Em seguida, selecione as variáveis qualitativas nominais ou ordinais (fechadas), clique em “Cruzar V1 e V2” e “Analisar”. Agora, precisamos deletar a linha/coluna contendo as frequências das Não respostas, pois neste caso essa analise não faz sentido. Para deletar, clique sobre “Não resposta” e em “Deletar”. Em seguida, clique em “Testes”, marque “Citações / percentuais” e “Qui2”. Abaixo da tabela serão exibidos os resultados. Note que 15,26 e que com 1 grau de liberdade, (1- p-valor)*100 = 99,99%, logo o p-valor do teste é 1-0,9999 = 0,0001 (0,01%) menor que 0,05 (5%). Portanto, concluímos que existe associação/dependência entre o SEXO e o TIPO DE CARRO dos indivíduos. Após identificar a associação/dependência, podemos solicitar que o Sphinx marque as células com diferenças significativas. Para isso, clique em “Testes” e marque “Marcar as células significativas”. Concluímos sugerindo que os homens possuem mais carros usados (destacado em azul), enquanto que as mulheres possuem mais carros novos (oposto ao destacado em rosa). Quando os pressupostos não forem atendidos, existem métodos que corrigem o tornandoo exato, assim como existem métodos de reamostragem (Ex.: Método de Monte Carlo) que também tornam a estatística exata possibilitando o uso do teste qui-quadrado de independência.