1. Representação de dados qualitativos em tabelas e gráficos
Para a representação de dados qualitativos em tabelas e gráficos
vamos precisar definir algumas quantidades:
n = tamanho da amostra ou frequência absoluta total;
k = número de categorias ou classes;
ni = frequência absoluta da i-ésima categoria ou classe, i = 1, 2, ...,
k;
k
 ni
i 1
n
fi = frequência relativa da i-ésima categoria ou classe, i = 1, 2, ..., k;
n
fi  i ,
n
k
k n
 fi   i  1
i 1
i 1 n
1.1. Tabelas de frequências de variáveis qualitativas
Representação das frequências das categorias da variável
qualitativa numa tabela com as frequências absolutas e relativas.
Categorias
Categoria 1
⁞
Categoria i
⁞
Categoria k
Totais
Freq. absolutas
n1
⁞
ni
⁞
nk
n
Freq. relativas
f1 = n1 / n
⁞
fi = ni / n
⁞
f k = nk / n
1
Exemplo: Número de declarações de imposto de renda por pessoa
física no ano de 2012.
Tabela 1: Declarações de imposto de renda em 2012 por faixas de renda.
Faixas de renda
Até 5 mil reais
De 5 a 50 mil reais
De 50 a 100 mil reais
De 100 a 300 mil reais
De 300 a 500 mil reais
De 500 a 1000 mil reais
Acima 1500 mil reais
Totais
Valores
absolutos
10.578.893
4.986.451
2.690.803
4.255.263
1.336.082
1.061.113
708.948
25.617.553
Valores
relativos
0.4130
0.1946
0.1050
0.1661
0.0522
0.0414
0.0277
1.0000
Fonte: Receita Federal - http://www.receita.fazenda.gov.br
A tabela pode, ainda, ser representada com os valores relativos em
porcentagens:
Tabela 2: Declarações de imposto de renda em 2012 por faixas de renda.
Faixas de renda
Até 5 mil reais
De 5 a 50 mil reais
De 50 a 100 mil reais
De 100 a 300 mil reais
De 300 a 500 mil reais
De 500 a 1000 mil reais
Acima 1500 mil reais
Totais
Valores
absolutos
10.578.893
4.986.451
2.690.803
4.255.263
1.336.082
1.061.113
708.948
25.617.553
Valores
relativos
0.4130
0.1946
0.1050
0.1661
0.0522
0.0414
0.0277
1.0000
Valores
percentuais
41.30
19.46
10.50
16.61
5.22
4.14
2.77
100.00
Fonte: Receita Federal - http://www.receita.fazenda.gov.br
Obs: Existe uma norma especifica do IBGE para a construção de tabelas
que pode ser observada.
1.2. Representação gráfica de variáveis qualitativas
A representação gráfica de variáveis qualitativas é feita
basicamente de gráficos de barras (ou colunas) ou gráficos de
setores (pizza), com suas diversas variações. Podem, também, ser
utilizados gráficos pictóricos, que, na prática são variações dos
gráficos de barras.
A seguir são apresentados os gráficos de barras e setores para as
Tabelas 1 e 2.
i) Gráfico de barras verticais ou colunas:
Figura 1: Número de declarações de IRPF (mil unidades), por
faixas de renda, ano base 2012.
ii) Gráfico de barras horizontais:
Figura 2: Número de declarações de IRPF, em valores percentuais,
por faixas de renda, ano base 2012.
iii)Gráfico de setores (pizza):
Figura 3: Gráfico de setores (pizza) para causas mais frequentes de
intoxicação e envenenamento em crianças de 1 a 5, anos
em valores percentuais.
Variação do gráfico de pizza, o gráfico de rosca
Figura 4: Gráfico tipo rosca para causas mais frequentes de intoxicação
e envenenamento em crianças de 1 a 5, anos em valores
percentuais.
1.3. Variáveis qualitativas em tabelas com dupla classificação
Muitas vezes as variáveis são apresentadas em tabelas com duas
classificações, conforme esquema.
Classificação B
Tabela 3: Representação de uma tabela de dupla entrada l x c.
Totais
Classificação A
das
…
…
A1
Aj
Ac
linhas
…
B1
n11
⁞
⁞
Bi
ni1
⁞
⁞
Bl
nl1
…
nlj
n1
…
nj
Totais das
colunas
n1j
…
n1c
n1
⁞
⁞
nic
ni
⁞
⁞
…
nlc
nl
…
nc
n
⁞
…
nij
…
⁞
A Classificação A tem c categorias (número de colunas da
tabela).
A Classificação B tem l categorias (número de linhas da tabela).
A tabela assim constituída pode ser identificada como:
 tabela de dupla entrada (tabela l x c );
 tabela cruzada ou
 tabela de contingência.
As quantidades apresentadas na tabela são definidas como:
nij = Total observado nas categorias Ai e Bj , simultaneamente.
É dado pelo valor no cruzamento da i-ésima linha e j-ésima coluna.
i  1, 2,,  e j  1, 2,, c .
ni = Total das observações da categoria Bi
É dado pela soma dos valores da i-ésima linha.
nj = Total das observações da categoria Aj
É dado pela soma dos valores da j-ésima coluna.
n = Total das observações ou tamanho da amostra.
É dado pela soma de todos os valores da tabela.
Obs: Se estivermos estudando a população toda, então teremos
N = tamanho da população.
Ainda:
c
 ni    nij
j 1

 n j   nij
i 1

c
 n    nij
i 1 j 1
 total da i-ésima linha;
 total da j-ésima coluna;
 total geral (tamanho da amostra).
1.3.1. Caso especial l = c = 2, tabelas 2x2.
Tabela 4: Representação de uma tabela de dupla entrada 2 x 2.
A1
A2
Totais das
linhas
B1
n11
n12
n1
B2
Totais das
colunas
n21
n22
n2
n1
n2
n
Exemplo 1: Crianças expostas a violência doméstica do pai contra
a mãe, variáveis situação civil da mãe e grupo (tabela 2x2).
Tabela 5: Tabela com dupla classificação segundo
situação civil da mãe por grupo.
Vive com o
companheiro
Separada
Totais
Expostos
11
4
15
Não Expostos
14
1
15
Totais
25
5
30
Assim temos:
n11 = 11
n12 = 4
n1 = 15
n2 = 15
n1 = 25
n2 = 5
n = 30
n21 =14
n22 =1
Representação gráfica:
Figura 5: Representação gráfica da dupla classificação
situação civil da mãe por grupo.
1.3.2. Caso especial, tabelas em porcentagens.
A tabela de dupla classificação pode, ainda, ser construída levando
em consideração os percentuais em relação às colunas. Desta
forma, no exemplo acima teremos:
Tabela 6: Tabela situação civil da mãe por grupo,
em valores percentuais
Vive com o
companheiro
Separada
Totais
Expostos
44
80
50
Não Expostos
56
20
50
Totais
100
100
100
Neste caso, a representação gráfica deve acompanhar a ordem de
grandeza.
Figura 6: Representação gráfica da situação civil da mãe
por grupo, em valores percentuais
Obs: quando se tem uma tabela com dupla classificação para se
comparar diferentes perfis é prudente que esse comparação
seja realizada considerando-se os valores percentuais.
Exemplo 2: Condições clínicas do periodonto de pacientes
atendidos na Clínica de Graduação da Faculdade de Odontologia
de Araraquara - UNESP, no período de 1994 a 1999 (tabela 4x3).
Tabela 7: Presença de doença por idade (anos).
Faixa etária do paciente (anos)
Presença de
Contagens
Porcentagens
Doença
19-40 41-60 60 ou + 19-40 41-60 60 ou +
Diabete
11
11
3
30.6
17.7
15.8
Hipertensão
10
34
11
27.8
54.8
57.9
Discr. Sanguineas
5
1
3
13.9
1.6
15.8
Alt. Hormonais
10
16
2
27.8
25.8
10.5
Total
36
62
19
100.0 100.0 100.0
Idade x Presença de Doença
64
57.9
54.8
48
% 32
30.6
27.8
27.8
25.8
17.7
15.8
13.9
16
15.8
10.5
1.6
0
19-40 anos
Diabete
41-60 anos
Hipetensão
Discr.Sanguineas
60 anos ou+
Alt.Hormonais
Figura 7: faixa etária do paciente por Presença de doença.
1.4. Representações gráfica: o que se deve evitar:
a) Barras (ou colunas) muito afinadas e compridas:
Figura 5: Origem dos alunos da turma de Bioestatística
por distância, em km.
b) Barras (ou colunas) muito largas e baixas, com cores
distintas:
Figura 6: Origem dos alunos da turma de Bioestatística
por distância, em km.
c) Gráfico muito pequeno num espaço grande:
Figura 7: Origem dos alunos da turma de Bioestatística
por distância, em km.
d) Gráfico muito grande para o espaço:
Figura 7: Origem dos alunos da turma de Bioestatística
por distância, em km.
e) Gráfico fora de escala (propositalmente):
Tabela 3: Intenção de votos
Candidato
Votos (%)
Candidato A
29.5
Candidato B
26.3
Candidato C
25.2
Candidato D
19.0
Total Geral
100
Figura 7: Intenção de votos para os 4 candidatos
Figura 8: Intenção de votos para os 4 candidatos
Figura 9: Intenção de votos para os 4 candidatos, lado a lado.
f) Gráfico muito muitas categorias:
Figura 10: Cidade de origem dos alunos de Bioestatística.
g) Erros na apresentação
Artigo do Blog Carta Maior, 16/12/2014:
Os limites atuais da distribuição de renda e riqueza no Brasil
Os 0,9% mais ricos do País detêm entre 59,90% e 68,49% da riqueza, sendo as
principais fontes de acumulação de riqueza os fluxos de renda e heranças.
http://idg.receita.fazenda.gov.br/dados/receitadata/estudos-e-tributarios-e-aduaneiros/trabalhosacademicos/trabalhos-academicos-pagina
Download

Variáveis Qualitativas 1