Qui-quadrado de Associação (entre duas variáveis) Prof. Ivan Balducci FOSJC / Unesp Teste Qui-quadrado Independência ou Associação P(A ∩ B) = P(A) x P(B) Teste Qui-quadrado A estatística do teste é: 2 (O E ) 2 E O = freqüência observada em cada categoria E = freqüência esperada em cada categoria P(A ∩ B) = P(A) x P(B) Hipóteses Nula Ho: as classificações são independentes P(A ∩ B) = P(A) x P(B) Estimando a Frequência Esperada ^ E= (total linha p/célula)•(total coluna p/célula) n Freqüências Esperadas R2C3 E= n ^ Classification 1 Classification 2 1 2 3 4 c 1 R1 2 R2 3 R3 r Rr C1 C2 C3 C4 Cc P(A ∩ B) = P(A) x P(B) Exemplo Estimando as Freqüências Esperadas. Sexo Masc. Fem. Total <30 60 (60) 40 (40) 100 Idade 30-45 20 (30) 30 (20) 50 >45 40 (30) 10 (20) 50 Total 120 80 200 Estimativa para Masc. e Mais de 45 anos (120)(50) 120 50 E = 200 • • = = 30 200 200 200 ^ O Procedimento do Teste Ho: classificações da linha e coluna são independentes Ha: classificações da linha e coluna são dependentes rejeita Ho se 2 > 2.,gl onde gl = (L-1)(C-1) (O - E)2 2 = ∑ E 1. A soma é feita sobre todas as células da tabela de contingência consistindo de L linhas e C colunas 2. O é a freqüência observada ^ 3. E é a freqüência esperada ^ E= total de linhas: está a célula P(A ∩ B) = P(A) x P(B) total de colunas: • está a célula (total de todas células) 4. Os graus de liberdade são gl = (L-1)(C-1) Fórmula: Graus de liberdade (gl) tabela de contingência: L ... Linhas C ... Colunas gl = (L-1)(C-1) Exº: Graus de liberdade (gl) tabela de contingência: 2 linhas e 2 colunas (L-1)(C-1) = (2-1)(2-1) = 1 gl = 1 Teste de Independência Um teste Qui-quadrado pode ser aplicado para avaliar se duas variáveis (exº sexo e desempenho no trabalho) são independentes. A tabela contingência reflete o gênero e a avaliação do desempenho no trabalho de 220 contadores. Baixo Médio Superior Masc. Fem. 22 81 9 14 75 19 Total 36 156 28 Total 112 108 220 Valores Esperados Supondo que as variáveis são independentes então o valor esperado de cada célula é: (total in row)(total in column) Er ,c total in sample E1,1 = (112)(36)/220 =18.33 E1,2 = (112)(156)/220 =79.42 Os demais valores esperados podem ser obtidos com a subtração do total da linha ou da coluna. Masc Fem Total Médio Superior Baixo 18.33 79.42 14.25 17.67 76.58 13.75 36 156 28 Total 112 108 220 Aplicação A tabela apresenta: sexo e o desempenho no trabalho de 220 contadores. Teste a hipótese que Sexo e Desempenho no trabalho são independentes. Baixo Masc. Fem. Total 22 14 36 Médio 81 75 156 Superior 9 19 28 Total 112 108 220 H0: Sexo e Desempenho no trabalho são independentes. Ha: Sexo e Desempenho no trabalho não são independentes. Há 2 linhas e 3 colunas, a distribuição por amostragem é uma distribuição qui-quadrado com (2-1)*(3-1) = 2 gl. distribuição 0 2 2 ( O E ) 2 E Teste Qui-quadrado (O E ) E 2 2 O E 22 81 9 14 75 19 220 18.33 79.42 14.25 17.67 76.58 13.75 220.00 5.51 2 (O-E)2 13.49 2.50 27.61 13.49 2.50 27.61 (O-E)2/E 0.74 0.03 1.94 0.76 0.03 2.01 5.51 5.99 2 0 Decisão A estatística do teste, 5.51 não cai na região de rejeição, então não rejeitamos H0 Interprete sua decisão Sexo e desempenho no trabalho são variáveis independentes. Então, não contrate contadores em função do sexo, porque o gênero não influencia os níveis de desempenho no trabalho. Termos que devem ser familiares Qui-quadrado graus de liberdade tabela de contingência frequência esperada frequência observada Independência (ou associação)