1. Representação de dados qualitativos em tabelas e gráficos Para a representação de dados qualitativos em tabelas e gráficos vamos precisar definir algumas quantidades: n = tamanho da amostra ou frequência absoluta total; k = número de categorias ou classes; ni = frequência absoluta da i-ésima categoria ou classe, i = 1, 2, ..., k; k ni i 1 n fi = frequência relativa da i-ésima categoria ou classe, i = 1, 2, ..., k; n fi i , n k k n fi i 1 i 1 i 1 n 1.1. Tabelas de frequências de variáveis qualitativas Representação das frequências das categorias da variável qualitativa numa tabela com as frequências absolutas e relativas. Categorias Categoria 1 ⁞ Categoria i ⁞ Categoria k Totais Freq. absolutas n1 ⁞ ni ⁞ nk n Freq. relativas f1 = n1 / n ⁞ fi = ni / n ⁞ f k = nk / n 1 Exemplo: Número de declarações de imposto de renda por pessoa física no ano de 2012. Tabela 1: Declarações de imposto de renda em 2012 por faixas de renda. Faixas de renda Até 5 mil reais De 5 a 50 mil reais De 50 a 100 mil reais De 100 a 300 mil reais De 300 a 500 mil reais De 500 a 1000 mil reais Acima 1500 mil reais Totais Valores absolutos 10.578.893 4.986.451 2.690.803 4.255.263 1.336.082 1.061.113 708.948 25.617.553 Valores relativos 0.4130 0.1946 0.1050 0.1661 0.0522 0.0414 0.0277 1.0000 Fonte: Receita Federal - http://www.receita.fazenda.gov.br A tabela pode, ainda, ser representada com os valores relativos em porcentagens: Tabela 2: Declarações de imposto de renda em 2012 por faixas de renda. Faixas de renda Até 5 mil reais De 5 a 50 mil reais De 50 a 100 mil reais De 100 a 300 mil reais De 300 a 500 mil reais De 500 a 1000 mil reais Acima 1500 mil reais Totais Valores absolutos 10.578.893 4.986.451 2.690.803 4.255.263 1.336.082 1.061.113 708.948 25.617.553 Valores relativos 0.4130 0.1946 0.1050 0.1661 0.0522 0.0414 0.0277 1.0000 Valores percentuais 41.30 19.46 10.50 16.61 5.22 4.14 2.77 100.00 Fonte: Receita Federal - http://www.receita.fazenda.gov.br Obs: Existe uma norma especifica do IBGE para a construção de tabelas que pode ser observada. 1.2. Representação gráfica de variáveis qualitativas A representação gráfica de variáveis qualitativas é feita basicamente de gráficos de barras (ou colunas) ou gráficos de setores (pizza), com suas diversas variações. Podem, também, ser utilizados gráficos pictóricos, que, na prática são variações dos gráficos de barras. A seguir são apresentados os gráficos de barras e setores para as Tabelas 1 e 2. i) Gráfico de barras verticais ou colunas: Figura 1: Número de declarações de IRPF (mil unidades), por faixas de renda, ano base 2012. ii) Gráfico de barras horizontais: Figura 2: Número de declarações de IRPF, em valores percentuais, por faixas de renda, ano base 2012. iii)Gráfico de setores (pizza): Figura 3: Gráfico de setores (pizza) para causas mais frequentes de intoxicação e envenenamento em crianças de 1 a 5, anos em valores percentuais. Variação do gráfico de pizza, o gráfico de rosca Figura 4: Gráfico tipo rosca para causas mais frequentes de intoxicação e envenenamento em crianças de 1 a 5, anos em valores percentuais. 1.3. Variáveis qualitativas em tabelas com dupla classificação Muitas vezes as variáveis são apresentadas em tabelas com duas classificações, conforme esquema. Classificação B Tabela 3: Representação de uma tabela de dupla entrada l x c. Totais Classificação A das … … A1 Aj Ac linhas … B1 n11 ⁞ ⁞ Bi ni1 ⁞ ⁞ Bl nl1 … nlj n1 … nj Totais das colunas n1j … n1c n1 ⁞ ⁞ nic ni ⁞ ⁞ … nlc nl … nc n ⁞ … nij … ⁞ A Classificação A tem c categorias (número de colunas da tabela). A Classificação B tem l categorias (número de linhas da tabela). A tabela assim constituída pode ser identificada como: tabela de dupla entrada (tabela l x c ); tabela cruzada ou tabela de contingência. As quantidades apresentadas na tabela são definidas como: nij = Total observado nas categorias Ai e Bj , simultaneamente. É dado pelo valor no cruzamento da i-ésima linha e j-ésima coluna. i 1, 2,, e j 1, 2,, c . ni = Total das observações da categoria Bi É dado pela soma dos valores da i-ésima linha. nj = Total das observações da categoria Aj É dado pela soma dos valores da j-ésima coluna. n = Total das observações ou tamanho da amostra. É dado pela soma de todos os valores da tabela. Obs: Se estivermos estudando a população toda, então teremos N = tamanho da população. Ainda: c ni nij j 1 n j nij i 1 c n nij i 1 j 1 total da i-ésima linha; total da j-ésima coluna; total geral (tamanho da amostra). 1.3.1. Caso especial l = c = 2, tabelas 2x2. Tabela 4: Representação de uma tabela de dupla entrada 2 x 2. A1 A2 Totais das linhas B1 n11 n12 n1 B2 Totais das colunas n21 n22 n2 n1 n2 n Exemplo 1: Crianças expostas a violência doméstica do pai contra a mãe, variáveis situação civil da mãe e grupo (tabela 2x2). Tabela 5: Tabela com dupla classificação segundo situação civil da mãe por grupo. Vive com o companheiro Separada Totais Expostos 11 4 15 Não Expostos 14 1 15 Totais 25 5 30 Assim temos: n11 = 11 n12 = 4 n1 = 15 n2 = 15 n1 = 25 n2 = 5 n = 30 n21 =14 n22 =1 Representação gráfica: Figura 5: Representação gráfica da dupla classificação situação civil da mãe por grupo. 1.3.2. Caso especial, tabelas em porcentagens. A tabela de dupla classificação pode, ainda, ser construída levando em consideração os percentuais em relação às colunas. Desta forma, no exemplo acima teremos: Tabela 6: Tabela situação civil da mãe por grupo, em valores percentuais Vive com o companheiro Separada Totais Expostos 44 80 50 Não Expostos 56 20 50 Totais 100 100 100 Neste caso, a representação gráfica deve acompanhar a ordem de grandeza. Figura 6: Representação gráfica da situação civil da mãe por grupo, em valores percentuais Obs: quando se tem uma tabela com dupla classificação para se comparar diferentes perfis é prudente que esse comparação seja realizada considerando-se os valores percentuais. Exemplo 2: Condições clínicas do periodonto de pacientes atendidos na Clínica de Graduação da Faculdade de Odontologia de Araraquara - UNESP, no período de 1994 a 1999 (tabela 4x3). Tabela 7: Presença de doença por idade (anos). Faixa etária do paciente (anos) Presença de Contagens Porcentagens Doença 19-40 41-60 60 ou + 19-40 41-60 60 ou + Diabete 11 11 3 30.6 17.7 15.8 Hipertensão 10 34 11 27.8 54.8 57.9 Discr. Sanguineas 5 1 3 13.9 1.6 15.8 Alt. Hormonais 10 16 2 27.8 25.8 10.5 Total 36 62 19 100.0 100.0 100.0 Idade x Presença de Doença 64 57.9 54.8 48 % 32 30.6 27.8 27.8 25.8 17.7 15.8 13.9 16 15.8 10.5 1.6 0 19-40 anos Diabete 41-60 anos Hipetensão Discr.Sanguineas 60 anos ou+ Alt.Hormonais Figura 7: faixa etária do paciente por Presença de doença. 1.4. Representações gráfica: o que se deve evitar: a) Barras (ou colunas) muito afinadas e compridas: Figura 5: Origem dos alunos da turma de Bioestatística por distância, em km. b) Barras (ou colunas) muito largas e baixas, com cores distintas: Figura 6: Origem dos alunos da turma de Bioestatística por distância, em km. c) Gráfico muito pequeno num espaço grande: Figura 7: Origem dos alunos da turma de Bioestatística por distância, em km. d) Gráfico muito grande para o espaço: Figura 7: Origem dos alunos da turma de Bioestatística por distância, em km. e) Gráfico fora de escala (propositalmente): Tabela 3: Intenção de votos Candidato Votos (%) Candidato A 29.5 Candidato B 26.3 Candidato C 25.2 Candidato D 19.0 Total Geral 100 Figura 7: Intenção de votos para os 4 candidatos Figura 8: Intenção de votos para os 4 candidatos Figura 9: Intenção de votos para os 4 candidatos, lado a lado. f) Gráfico muito muitas categorias: Figura 10: Cidade de origem dos alunos de Bioestatística. g) Erros na apresentação Artigo do Blog Carta Maior, 16/12/2014: Os limites atuais da distribuição de renda e riqueza no Brasil Os 0,9% mais ricos do País detêm entre 59,90% e 68,49% da riqueza, sendo as principais fontes de acumulação de riqueza os fluxos de renda e heranças. http://idg.receita.fazenda.gov.br/dados/receitadata/estudos-e-tributarios-e-aduaneiros/trabalhosacademicos/trabalhos-academicos-pagina