Professora Janete Pereira Amador
1
Introdução
As aplicações da estatística se desenvolveram de tal forma que, hoje, praticamente
todo o campo de estudo se beneficia da utilização de métodos estatísticos. Os fabricantes
fornecem melhores produtos através de técnicas de controle de qualidade. Controlam-se
doenças com o auxílio de análises que antecipam epidemias. Espécies ameaçadas são
protegidas por regulamentos e leis que reagem a estimativas estatísticas de modificação
de tamanho das populações. Com estes exemplos verifica-se a inegável importância da
estatística nas diferentes aéreas profissionais. Então é razoável que profissionais de
diversas áreas adquiram um mínimo de conhecimento técnico sobre estatística para
auxiliá-los nas tomadas de decisões.
1
Conceito de Estatística
Estatística é um conjunto de técnicas ou processos que permite observar,
descrever numericamente e analisar um determinado fenômeno e dele extrair conclusões.
2
Divisão da Estatística
A estatística divide-se em:
• Estatística geral ou metodológica
- Estatística descritiva
- Estatística inferencial
• Estatística aplicada
2.1 Estatística Geral
Visa elaborar métodos gerais aplicáveis a todas as fases dos fenômenos de massa.
A estatística geral pode ser dividida em dois grandes campos.
- Estatística descritiva: trata da coleta, organização, classificação,
apresentação e descrição dos dados de observação. Se refere à maneira
de apresentar um conjunto de dados em tabelas e gráficos e á maneira de
resumir, através de certas medidas, as informações, contidas nestes
dados.
- Estatística inferencial: visa tirar conclusões sobre a população a partir da
amostra. Se refere à maneira de estabelecer conclusões pra toda uma
população quando se observa apenas parte desta população (amostra).
O ato de generalizar resultados da parte (amostra) para o todo
(população) é conhecido como inferência estatística. A estimação de
parâmetros é, portanto, uma forma de inferência estatística. Uma outra
forma de inferência estatística surge quando temos alguma hipótese sobre
a população em estudo e queremos verificar sua validade, a partir de uma
amostra (BARBETTA, 2003, p.17).
2.2 Estatística Aplicada
É todo ramo do conhecimento científico que proceda, única ou principalmente, por
intermédio da metodologia estatística. Alguns exemplos são descritos a seguir:
- Na indústria (controle de qualidade e estoque);
- Na economia (números índices, pesquisa de mercado);
Caderno Didático de Estatística
Professora Janete Pereira Amador
2
- Na saúde (bioestatística);
- Na geografia (geoestatística), entre outras áreas.
3
Conceitos Importantes
Para um melhor entendimento dos conteúdos abordados, a seguir, torna-se
importante o conhecimento de alguns conceitos fundamentais utilizados no contexto
estatístico.
• População (N): Conjunto de todos os elementos relativos a um determinado fenômeno
que possuem pelo menos uma característica em comum. A população pode ser finita
ou infinita.
Finita - apresenta um número limitado de observações, que é passível de
contagem.
Infinita - apresenta um número ilimitado de observações que é impossível
de contar e geralmente esta associada a processos.
• Amostra (n): É um subconjunto da população e também pode ser considerada finita e
infinita, a amostra deve ser selecionada seguindo certas regras e deve ser
representativa, de modo que ela represente todas as características da população como
se fosse uma fotografia desta.
• Pesquisa Estatística: É qualquer informação retirada de uma população ou amostra,
podendo ser através de Censo ou Amostragem.
• Censo: É a coleta exaustiva de informações das "N" unidades populacionais.
• Amostragem: É o processo de retirada de informações dos "n" elementos amostrais,
na qual deve seguir um método criterioso e adequado (tipos de amostragem).
• Dado estatístico: são características observadas ou medidas nos elementos em estudo,
os dados de observações constituem a matéria-prima da estatística. De acordo com
sua natureza os dados estatísticos podem ser classificados em dois grupos:
Parâmetros: são medidas populacionais quando se investiga a população
em sua totalidade, neste caso é impossível fazer inferências, pois toda a
população foi investigada.
Estatísticas ou Estimadores: são medidas obtidas da amostra, torna-se
possível neste caso utilizarmos as teorias inferências para que possamos
fazer conclusões sobre a população.
Parâmetro
μ = média
σ² = variância
σ = desvio padrão
Estimador
x = média
S² = variância
S = desvio padrão
• Variável: É aquilo que se deseja observar para tirar algum tipo de conclusão.
Geralmente as variáveis para estudo são selecionadas por processos de amostragem.
Os símbolos utilizados para representar as variáveis são as letras maiúsculas do
alfabeto, tais como X, Y, Z, ... que pode assumir qualquer valor de um conjunto de
dados. As variáveis podem ser classificadas em:
Qualitativas (ou atributos): geram dados que podem ser separados por
categorias que se distinguem por alguma característica não numérica. Ex:
sexo, cor, respostas do tipo sim ou não etc.
Caderno Didático de Estatística
Professora Janete Pereira Amador
3
Quantitativas: São características que podem ser quantificadas gerando
valores numéricos que expressam quantidade como altura de um grupo
de pessoas, ganho de peso etc. As variáveis quantitativas Classificam-se
em discretas e contínuas.
⇒ Discretas: são aquelas variáveis que pode assumir somente valores inteiros
num conjunto de valores. É gerada pelo processo de contagem, como o
número de veículos que passa em um posto de gasolina, o número de
estudantes nesta sala de aula, etc.
⇒ Contínuas: são aquelas variáveis que podem assumir um valor dentro de um
intervalo de valores. É gerada pelo processo de medição. Neste caso serve
como exemplo o volume de água em um reservatório ou o peso de um pacote
de cereal, montante em dólar negociado na Bolsa de Valores de São Paulo
nos últimos 10 anos, etc.
-
Em geral, as medições dão origem a variáveis contínuas, enquanto que as enumerações
ou contagens resultam em variáveis discretas.
•
Arredondamento de dados: na maioria das vezes em que trabalhamos com números
provenientes de divisões, raízes ou qualquer operação matemática, deparamo-nos com
valores, que não sendo inteiros, apresentam vários algarismos significativos após a
vírgula. Quando queremos uma aproximação desses valores para décimos, centésimos
etc., devemos seguir alguma regra que nos permita fazer sempre do mesmo modo.
“ A portaria 36, de 6 de agosto de 1965, do Instituto Nacional de Pesos e Medidas, adota
uma série de regras para arredondamento de um dado.”
A seguir veremos um esquema prático para arredondamento de acordo com as normas
do Instituto Nacional de Pesos e Medidas.
Æ Se Y estiver entre 0 e 4 deixar X como está.
Ex: Arredondar para milésimo o dado 1,1213.
Resultado: 1,121
Æ Se Y estiver entre 6 e 9, X deve ser acrescido de uma unidade.
Ex: Arredondar para centésimo o dado 6,586.
Resultado: 6,59
Æ Se Y for igual a 5:
¾ Se após Y houver outros números (diferentes de zero), X deve ser acrescido
de uma unidade.
Ex: Arredondar para centésimo o dado 12,57585.
Resultado: 12,58
Se após Y não houver números diferentes de zero:
o Se X for par, deve ser deixado como está.
Ex: Arredondar para décimo o dado 9,65.
Resultado: 9,6
o Se X for ímpar, deve ser acrescido de uma unidade.
Ex: Arredondar para décimo o dado 9,75.
Resultado: 9,8
Caderno Didático de Estatística
Professora Janete Pereira Amador
4
4
Níveis de Mensuração de uma Variável
Nível de mensuração significa a escala em que foi medida a variável objeto de
investigação. São quatro os níveis de mensuração: nominal, ordinal, intervalar e de razão.
• Nível nominal: é característica de uma variável qualitativa, porque seus dados
consistem apenas em rótulos ou categoria. Os dados não podem ser dispostos segundo
um esquema ordenado. As únicas estatísticas aplicadas são a moda e a freqüência.
Ex: Respostas do tipo sim, não ou indeciso. O sexo dos alunos da aula de estatística.
• Nível ordinal: Segue características de variável qualitativa. Envolve dados que podem
ser dispostos em uma ordem mas as diferenças, quando existirem, entre os valores dos
dados não é interessante determinar. As estatísticas calculadas são a moda,
freqüências, mediana, e todas as estatísticas de postos. Ex1: Um editor classifica
alguns originais como “excelentes”, alguns como “bons” e alguns como “maus”.
(Não podemos determinar uma diferença quantitativa entre “bom” e “mau”).
Ex2: Um comitê de preparação olímpica classifica Ana em 3º, Diana em 7° e Paula
em 10º.(Podemos determinar a diferença entre os 3° e 7° lugares, mas a diferença
de quatro não tem o menor sentido).
• Nível intervalar: é utilizado em variáveis quantitativa contínuas. Semelhante ao nível
ordinal, os dados também são ordenados, no entanto, podemos determinar diferenças
significativas entre esses. Todavia não existe um ponto de partida zero, inerente ou
natural. Neste nível de mensuração utiliza-se estatística paramétrica. Ex: Os anos
1000, 2000, 1776 e 2004 (O tempo não começou no ano zero e, assim, o zero é
arbitrário e não um ponto de partida).
• Nível de razão: é o nível de intervalo modificado de modo a incluir o ponto de partida
zero (onde o zero significa nenhuma quantidade presente). Ex1: Peso de artigos de
material plástico descartado nas residências. (Onde zero significa nenhum material
descartado e dez quilos significa duas vezes cinco quilos). Este nível é chamado
nível de razão porque o ponto de partida torna as razões significativas.
Exercício I
Nos exercício 1 – 8, identifique que cada variável como discreto ou contínuo.
1)
Cada cigarro camel tem 16,13 mg de alcatrão.
2)
Uma pesquisa efetuada com 1015 pessoas indica que 40 delas são assinantes de
um serviço de computador on-line.
3)
Foram notificados 21 acidentes de trânsitos com mortes ocorridos na BR 104
durante o carnaval.
4)
As micros empresas criada no Brasil em 2002 somente 47% permanecem no
mercado.
5)
De 100 empregados da Empresa XY apenas 16 estão satisfeitos com o salário.
6)
O tempo total gasto por um motorista de táxi da Cidade de Nova York dar
passagem a pedestres é de 2,367 segundos.
7)
O dólar sofreu uma desvalorização de 1% em quatro dias.
8)
De 20.000 consumidores entrevistados 16.000 estão satisfeitos com o serviço de
telefonia celular.
Nos exercício 9 - 18, determine o nível de mensuração mais adequado (nominal, ordinal,
intervalar e razão).
9)
Classificação como, superior, acima da média, médio, abaixo da média ou pobre
para encontro marcados pela internete.
10)
Conteúdo (em miligramas) de cigarros Camel.
Caderno Didático de Estatística
Professora Janete Pereira Amador
11)
12)
13)
14)
15)
16)
17)
18)
5
Número de inscrição do INSS.
Anos em que o PT ganhou as eleições de prefeitos nas capitais brasileiras.
Cores de uma amostra de confetes M&M.
Carros clacificados como sub compacto, compacto, intermediário ou grande.
Rendas anuais de assalariados.
Código de endereçamento postal
Graus (A, B, C, D, F) finais de estudante de estatística.
Índice da inflação nos últimos 4 anos.
19)
Simule uma pesquisa estatística, determinando a população alvo, a variável a ser
estudada,, classifique a variável, determine o nível de mensuração utilizado e de acordo
com este nível o tipo de estatística a ser calculada.
Nos Exercício de 20 – 29 arredonde os dados para a aproximação indicada
20) 2,7830 (décimos)
25) 4,3550 (centésimos)
21) 5,9621 (décimos)
26) 8,6250 (centésimos)
22) 8,3149 (décimos)
27) 1,1851 (centésimos)
23) 9,2500 (décimos)
28) 3,5390 (centésimos)
24) 7,9105 (décimos)
29) 12,9950 (centésimos)
5
Método Estatístico
Ao realizar um estudo estatístico completo, existem diversas fazes que devem ser
seguidas para obtenção de resultados confiáveis ao final do estudo.
5.1 Fases do Método Estatístico
O método estatístico pode ser dividido em fases, que apresentam-se interligadas.
Sendo assim, a não execução ou a falta de atenção em qualquer uma dessas fazes pode
incorrer em conclusões pouco confiáveis.
• Definição do problema e planejamento da pesquisa: É extremamente importante
para a pesquisa é definição exata do problema a ser estudado, pois o planejamento
se dará de acordo com esse. Desta forma, deve-se considerar a o local em que será
feito a pesquisa, qual o grau de precisão exigido, qual o tipo de amostragem, qual
a amplitude de tamanho, o tempo disponível e custo previsto. Tudo isso deve ser
convenientemente passado no planejamento da pesquisa, pois, qualquer falha
nesta fase só poderá ser descoberto somente após a coleta e análise dos resultados,
e sem a possibilidade de ser ratificada a não ser com uma nova pesquisa.
• Coleta ou levantamento dos dados: Aqui devemos nos preocupar com a forma
pela qual os dados serão coletados, observação direta ou questionários.
• Critica e digitação dos dados: É o trabalho realizado nos valores oriundos na
coleta dos dados. Serve para verificar se existem valores duvidosos ou aberrantes.
• Organização e representação dos dados: Consiste em organizar os valores obtidos
em gráficos e tabelas.
• Análise dos dados e interpretação dos resultados: Estando de posse dos resultados
da pesquisa, utiliza-se a estatística descritiva e estimação de parâmetros para
analisar os resultados oferecendo subsídios para a conclusão.
Caderno Didático de Estatística
Professora Janete Pereira Amador
6
6 Estrutura de um arquivo de dados
Os dados costumam ser armazenados em meio computacional, seja em grandes bases
de dados, programas estatísticos ou mesmo planilhas eletrônicas, sejam oriundos de
pesquisa de campo, ou apenas registros de operações financeiras, arquivos de recursos
humanos, entre outros. Universalmente os dados costumam serem armazenados em uma
estrutura fixa, que possibilita a aplicação de várias técnicas para extrair as informações de
interesse. As variáveis são registradas nas colunas, e os casos nas linhas formando a
chamada matriz de dados.
Ex: Imagine uma organização que registre os dados dos seus funcionários, como sexo,
idade, anos de educação, função, salário anual, salário inicial, tempo de serviço na
organização, experiência prévia, e nacionalidade. Veja na figura 1
Fonte: REIS, M. M. & LINO, M, 2005.
Figura 1 – Dados dos funcionários da Empresa Escolástica, 2005.
Observe que cada uma das variáveis é registrada em uma coluna específica, e que nas
linhas encontram-se os registros de cada funcionário. Por exemplo, o funcionário 1 é do
sexo masculino, tem 49 anos, 15 anos de educação, exerce função de gerência, ganha
57000 ao ano, iniciou na empresa ganhando 27000, tem 8,17 anos de serviço, 12 anos de
experiência prévia e é brasileiro.
A grande maioria dos programas estatísticos, gerenciadores de bases de dados e
planilhas eletrônicas com capacidade estatística exige que os dados sejam estruturados de
acordo com o formato da figura 1. Pode-se ter tantas colunas e linhas quantas se quiser,
respeitando porém as capacidades dos programas, o Microsoft Excel, por exemplo,
admite apenas 65000 linhas, o que porém é o suficiente para muitas aplicações.
7 Análise Exploratória de Dados
A Análise Exploratória de Dados, antigamente chamada apenas de Estatística
Descritiva, constitui o que a maioria das pessoas entende como Estatística, e
inconscientemente usa no dia a dia. Consiste em RESUMIR E ORGANIZAR os dados
coletados através de tabelas, gráficos ou medidas numéricas, e a partir dos dados
resumidos procurar alguma regularidade ou padrão nas observações (INTERPRETAR os
dados). A partir dessa interpretação inicial é possível identificar se os dados seguem
algum modelo conhecido, que permita estudar o fenômeno sob análise, ou se é necessário
sugerir um novo modelo.
Caderno Didático de Estatística
Professora Janete Pereira Amador
7
7.1 Representação Tabular
Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado. A
elaboração de tabelas obedece à Resolução n° 886, de 26 de outubro de 1966, do
Conselho Nacional de Estatística. As normas de apresentação são editadas pela Fundação
Brasileira de Geografia e Estatística (IBGE). Abaixo apresenta-se uma tabela
esquemática sendo indicada seus componentes.
Título: O quê? Onde? Quando?
Cabeçalho
Corpo
Fonte :
⎫
⎪
* (chamda)⎬ Rodapé
⎪
Nota :
⎭
No rodapé de uma tabela podem aparecer, se necessário: a fonte responsável pelas
informações contidas na tabela; chamada informações específicas a determinados
pontos da tabela e notas que são observações gerais sobre a tabela.
Exercício II
1) Porque a importância de executar adequadamente cada fases do método estatístico
ao se realizar uma pesquisa?
2) Quais são as fazes do método estatístico explique de forma sucinta cada uma
delas.
3) Idealize uma tabela de acordo com as normas para sua elaboração.
7.2 Distribuição de Freqüências
O processo de resumo e organização dos dados busca basicamente registrar as
ocorrências dos possíveis valores das variáveis que caracterizam o fenômeno, em suma
consiste em elaborar DISTRIBUIÇÕES DE FREQÜÊNCIAS das variáveis para que o
conjunto de dados possa ser reduzido, possibilitando a sua análise.
A construção da distribuição de freqüências exige que os possíveis valores da variável
sejam discriminados e seja contado o número de vezes em que cada valor ocorreu no
conjunto de dados. Para grandes arquivos de dados tal processo somente é viável
utilizando meios computacionais.
Uma distribuição de freqüências pode ser expressa em termos de tabelas ou através de
gráficos, que terão algumas particularidades dependendo do nível de mensuração da
variável. Desta forma podemos ter distribuição de freqüências para variáveis qualitativas
e quantitativa (discretas e contínuas).
Caderno Didático de Estatística
Professora Janete Pereira Amador
8
7.2.1 Distribuição de Freqüências para Variáveis Qualitativas
Neste caso o número de possíveis realizações da variável costuma ser limitado,
como na tabela do exemplo abaixo.
Exemplo 1 – Usando os dados da Figura 1 (Dados dos funcionários da Empresa
Escolástica) podemos construir tabelas de freqüências para as variáveis sexo e função.
Supondo que haja 258 homens e 216 mulheres, 363 funcionários em escritório, 27
em serviços gerais, e 84 em gerência.
Tabela 1 – Distribuição de Freqüência do sexo dos funcionários da empresa Escolástica
no ano de 2005.
Sexo
Freqüência
Percentual
Masculino
258
54,43%
Feminino
216
45,57%
Total
474
100%
Fonte: Empresa Escolástica, 2005.
Tabela 2 - Funções exercidas pelos funcionário s da empresa Escolástica no ano de 2005.
Função
Freqüência
Percentual
Escritório
363
76,58%
Serviços Gerais
27
5,70%
Gerência
84
17,72%
Total
474
100%
Fonte: Empresa Escolástica, 2005.
As colunas Sexo e Função apresentam os possíveis valores que cada variável pode
assumir, e a coluna freqüência o número de ocorrências de cada um desses valores no
conjunto de dados. Desta forma grandes conjuntos de dados podem ser resumidos em
pequenas tabelas. Usualmente calculam-se os percentuais de ocorrência de cada valor
para permitir a COMPARAÇÃO COM CONJUNTOS DE DADOS DE TAMANHO
DIFERENTE (onde a comparação direta das freqüências pode levar a conclusões
errôneas). O mais importante é interpretar as tabelas. Percebemos que não há grande
diferença entre o percentual de homens e mulheres na empresa. Poderíamos concluir que
não há predominância masculina significativa. Já na tabela das funções percebemos que a
maioria esmagadora dos funcionários (76,58%) exerce atividades de escritório, restando
17,72% em gerência, e apenas 5,7% em serviços gerais (que talvez já estejam quase que
totalmente terceirizados).
“Um dos inconvenientes da utilização de tabelas para resumir conjuntos de dados é a
demora na apreensão da informação: é necessário ler cada linha e coluna e
posteriormente fazer o cruzamento das informações. Isso pode ser um problema em
muitas situações em que há interesse em apresentar rapidamente as informações, então
talvez a melhor forma de apresentar a distribuição de freqüências seja através de um
gráfico.”
¾ Representação Gráfica: Dentre os vários gráficos disponíveis os mais utilizados
para variáveis qualitativas são os gráficos de barras (bar chart) e os gráficos em
setores (pie chart). No gráfico de barras em um dos eixos são colocadas as
categorias da variável e no outro as freqüências ou percentuais de cada categoria.
As barras podem ser horizontais ou verticais (preferencialmente estas).
Gráfico de barras: para os dados da tabela 1 e 2 os gráficos seriam:
Caderno Didático de Estatística
Professora Janete Pereira Amador
9
Figura 2 - Gráfico de barras da variável Sexo (Empresa Escolástica, 2005).
Figura 3 - Gráfico de barras da variável Função (Empresa Escolástica, 2005).
Observe que a apreensão da informação da distribuição é bem mais fácil, percebe-se
rapidamente na figura 3 que há muito mais funcionários em Escritório do que nas outras
funções. Contudo, na figura 2 poderíamos ter a idéia de que há uma grande diferença
entre os números de funcionários dos sexo masculino e feminino: isso ocorre por causa
da escala do gráfico, que começa em 190 (para evitar tal problema devemos, sempre que
possível, iniciar a escala do gráfico de barras em zero). Este tipo de gráfico (para
variáveis qualitativas) pode ser construído com a maioria dos processadores de texto e
planilhas eletrônicas disponíveis atualmente.
Gráfico em setores, também chamado de gráfico circular ou em “pizza”, exige uma
construção mais sofisticada. Consiste em dividir um círculo (360º) em setores
proporcionais às realizações de cada categoria através de uma regra de três simples, na
qual a freqüência total (ou o percentual total 100%) corresponderia aos 360° e a
freqüência ou a proporção de cada categoria corresponderia a um valor desconhecido em
graus.
Caderno Didático de Estatística
Professora Janete Pereira Amador
10
Para os dados da tabela 1 e 2 relacionados as variáveis sexo e função teríamos os
seguintes valores:
Sexo
Desta forma a representação gráfica seria:
Figura 4: Gráfico de setores da variável Sexo (Empresa Escolástica, 2005).
Função:
Caderno Didático de Estatística
Professora Janete Pereira Amador
11
Para variável função temos o seguinte representação gráfica:
Figura 5 - Gráfico de setores da variável Função (Empresa Escolástica, 2005).
¾ Dupla Classificação: em todos os casos anteriores as distribuições de freqüências
referiam-se apenas a uma variável. Nas ciências econômicas e sociais é muito
comum avaliar o comportamento conjunto de DUAS variáveis, através de uma
dupla classificação. É muito comum representar essa distribuição conjunta de
freqüências através de uma tabela de contingências, para estudar a sua
associação.
Exemplo: Utilizando a Matriz de Dados representados na Figura 1 construir uma tabela
de contingência para as variáveis sexo e função.
Seria necessário fazer o cruzamento das duas variáveis, anotando quantas ocorrências são
verificadas em cada uma das combinações de valores possíveis: masculino - escritório,
masculino - serviços gerais, masculino - gerência, feminino - escritório, feminino serviços gerais, feminino - gerência. Microsoft Excel é possível criar uma Tabela
Dinâmica para fazer o cruzamento de variáveis.
Tabela 3 – Tabela de Contingência da variável sexo x função dos funcionários da
empresa Escolástica no ano de 2005.
Função
Sexo
Escritório
Serviços Gerais
Gerência
Total
Masculino
157
27
74
258
Feminino
206
0
10
216
Total
363
27
84
474
Fonte: Empresa Escolástica, 2005.
Podemos perceber que na função Escritório não parece haver grande diferença
(em termos relativos) entre homens e mulheres. Nas outras duas funções, todavia, o
predomínio masculino é indiscutível, sendo especialmente importante nos cargos de
gerência, onde as decisões da empresa são tomadas. A última coluna é o total marginal da
variável Sexo (exatamente igual ao valor obtido na Tabela 1), e a última linha é o total
marginal da variável Função (tal como na Tabela 1). Sem fazer o cruzamento entre as
variáveis não conseguimos identificar o predomínio masculino, o que mostra a utilidade
da tabela de contingências.
Caderno Didático de Estatística
Professora Janete Pereira Amador
12
Os resultados poderiam ser apresentados em termos de percentuais, calculados em
relação ao total geral, aos totais das linhas (totais dos valores de Sexo) ou aos totais das
colunas (totais dos valores de Função), assim teremos:
Tabela 4 – Tabela de Contingência (em percentual) da variável sexo x função, dos
funcionários da empresa Escolástica no ano de 2005.
Função
Sexo
Escritório
Serviços Gerais
Gerência
Total
Masculino
43,25%
100%
88,10%
54%
Feminino
56,75%
0
11,90%
46%
Total
100%
100%
100%
100%
Fonte: Empresa Escolástica, 2005.
Observa-se que há apenas 11,90% de mulheres em cargos de gerência, havendo 46%
de mulheres na organização (sem contar que há 0% de mulheres em serviços gerais), o
que configura desigualdade de oportunidades, o que pode dar margem a diversas
especulações.
A tabela de contingência poderia ser expressa em um gráfico composto de barras, ou
por gráficos em setores apresentados conjuntamente.
Figura 6 - Gráfico composto em barras da distribuição dos funcionários por Função e
Sexo (Empresa Escolástica, 2005).
Figura 7 – Gráfico em setores da distribuição dos funcionários por Sexo e Função
(Empresa Escolástica, 2005).
Caderno Didático de Estatística
Professora Janete Pereira Amador
13
7.2.2 Distribuição de Freqüências para Variáveis Quantitativas
A construção das distribuições de freqüências para variáveis quantitativas é
semelhante ao caso das variáveis qualitativas: relacionar os valores da variável com as
suas ocorrências no conjunto de dados, mas apresenta algum detalhes dependendo se a
variável é discreta ou contínua. Em geral variáveis discretas são agrupadas em
distribuições por ponto ou valores e variáveis contínuas em distribuições por classes
ou intervalos. A separação não é rígida e depende basicamente dos dados considerados.
Poderá ser necessário usar uma distribuição por classes ou intervalos mesmo quando a
variável é discreta.
¾ Distribuição por ponto: para organizar os dados em uma tabela de distribuição por
ponto coloca-se o conjunto em uma tabela em que a coluna da esquerda é
representada pêlos diferentes números ordenados (os pontos ou valores) e a
coluna da direita pelo número de vezes que cada valor se repetiu (as freqüências
simples ou absolutas).
Exemplo: Os dados a seguir representam onúmero de pessoas residentes no domicílio
(amostra de 40 residências do conjunto Monte Verde)
Para estruturar os dados na tabela de distribuição primeiro passo é organizá-los
segundo o rol (arranjo dos dados em ordem crescente ou decrescente). Desta forma o rol
crescente dos dados seria:
1
2
2
2
3
3
3
3
3
3
4
4
4
4
4
4
4
4
4
4
4
4
4
5
5
5
5
5
5
5
5
5
5
5
6
6
6
6
8
8
A tabela 5 apresenta a distribuição de freqüência por ponto dos dados.
Tabela 5 - Distribuição de freqüência do número de residentes em domicílio em quarenta
domicílios
A variável quantitativa (intervalar) discreta número de residentes em domicílios
pode assumir valores de 1 a 8: contou-se então o número de residentes em 40 domicílios,
obtendo-se 1 domicílio com 1 residente, 3 com 2 residentes e assim por diante. Ao lado
estão registrados os percentuais de cada valor. Observe que não há perda de informação
sobre o conjunto original que foi simplesmente apresentado de forma mais compacta.
A tabela 5 pode ser representada através de um Histograma, um gráfico de barras
justapostas (Figura 8), em que as áreas das barras são proporcionais às freqüências de
cada valor.
Caderno Didático de Estatística
Professora Janete Pereira Amador
14
Fonte: UFSC, 1988
Figura 8 – Histograma de freqüências do número de residentes em 40 domicílios do
conjunto Monte Verde.
¾ Distribuição por intervalo ou classe: Quando as variáveis são contínuas sua
grande variação torna inúteis as tabelas para dados ponto como o caso anterior,
pois praticamente todos os valores têm freqüência baixa, o que resultaria em uma
tabela enorme. É preciso representar os dados através de um conjunto de classes
mutuamente exclusivas (para que cada valor pertença apenas a uma classe), que
contenha do menor ao maior valor do conjunto: registram-se então quantos
valores do conjunto encontram-se em cada classe. É mais apropriada para grandes
conjuntos de dados.
O processo para montagem das classes é o seguinte:
1) Organizar os dados de acordo com o rol
2) Determinar a amplitude dos dados (intervalo dos dados): H = xmax - xmin.
3) Dividir o intervalo em um número conveniente de classes (onde: No de classes (k) =
H
No de elementos ), representado pela equação h =
K
4) Estabelecer as classes com a seguinte notação:
• Li |-- Ls limite inferior incluído, superior excluído.
• Li |--| Ls ambos incluídos
4) Determinar as freqüências de cada classe.
5) Determinar os pontos médios de cada classe através da média dos 2 limites (serão os
representantes das classes).
Para exemplificar utilizamos os dados sobre estudo da taxa de mortalidade infantil
em municípios do Oeste do Estado de Santa Catarina.
9,9
27,3
28,9
29,7
31,1
20
10,3
11,9
13,9
17
Montando a distribuição:
Caderno Didático de Estatística
27,2
20,3
25,4
22
22,6
36,4
21,7
22,7
23,5
23,7
38,3
32,9
32,3
19,6
18
39,2
18,3
18,4
29,9
23,8
62,2
33
36,3
15,7
Professora Janete Pereira Amador
15
1) Rol crescente
9,9
10,3
11,9
13,9
15,7
17
18
18,3
18,4
19,6
20
20,3
21,7
22
22,6
22,7
23,5
23,7
23,8
25,4
27,2
27,3
28,9
29,7
29,9
31,1
32,3
32,9
33
36,3
36,4
38,3
39,2
62,2
2) Amplitude dos dados (intervalo dos dados): H = xmax - xmin. = 62,2 - 9,9 = 52,3 (a
maior taxa foi de 62,2% e a menor de 9,9%, as classes devem englobar do menor ao
maior valor).
3) No de classes (k) = No de elementos = 34 = 5,8309 ≅ 6.
H
4) Amplitude das classes h =
= 52,3/6 = 8,71666 = 8,72.
K
5) Estabelecer as classes (como há um intervalo de 52,3 e 6 classe a amplitude
arredondada será de 8,72.)
Classes
5) Determinar as freqüências simples o absolutas (fi) de cada classe e calcular o ponto
médio (xi) de classe.
Tabela 6 - Distribuição de freqüência da taxa de mortalidade infantil em municípios do
Oeste do Estado de Santa Catarina em 1982.
Classes (Taxas de mortalidade)
9,9 |--- 18,62
18,62 |--- 27,34
27,34 |--- 36,06
36,06 |--- 44,78
44,78 |--- 53,5
53,5 |--- 62,2
Total
fi
10
13
6
4
0
1
34
xi
14,26
22,98
31,7
40,42
49,14
57,66
Fonte: IBGE – GAPLAN/SC, 1987.
Observe que perdeu-se informação sobre o conjunto original: sabe-se que há 10
taxas entre 9,9 e 18,62% mas não sabe-se mais quais são os seus valores exatos, ou seja
as freqüências das classes passam a ser as freqüências dos pontos médios. Os pontos
médios nem sempre são os representantes mais fiéis das classes. Para uma grande
quantidade de dados existe uma maior probabilidade de que estas estimativas
correspondam exatamente aos verdadeiros valores.
Outros elementos da tabela de distribuição de freqüências:
Æ Freqüência relativa simples ou percentual (fri): definida como sendo o quociente
entre a freqüência simples “fi” e o total de dados “n”.
Caderno Didático de Estatística
Professora Janete Pereira Amador
16
Ex: Na tabela 6 tem-se :
Fr3 = 27,34 |---36,06 = 0,18 = 18%, significando que 16% da taxa de mortalidade
encontra-se entre 27,34 |---36,06.
Æ Freqüência acumulada simples ou absoluta da linha “i”: é definida como sendo a
soma das freqüência simples ou absolutas até a linha “i “.
Fi = f1 + f2 + ... + fi
Ex: Na tabela 6 tem-se :
F3 = f1 + f2 + f3 = 10+13+6 =29 casos de taxa de mortalidade até 36,05.
A tabela 6 também pode ser representada através de um histograma. Mas o
histograma para uma tabela de dados grupados é um pouco diferente do visto
anteriormente. O número de barras é igual ao número de classes. Cada barra é centrada
no ponto médio de cada classe, e o ponto inicial de cada barra é o limite inferior da
classe, e o ponto final é o limite superior. Se os pontos médios de cada classe de um
histograma forem unidos através de segmentos de retas teremos então um diagrama
denominado de polígono de freqüências.
Figura 9 – Histograma de freqüências a taxa de mortalidade infantil em municípios do
Oeste do Estado de Santa Catarina em 1982.
8 Pré-análise dos Dados
Com os conhecimentos que temos até o momento, e obtendo os valores mínimo e
máximo para as variáveis quantitativas, é possível fazer uma primeira análise, avaliando
o conjunto de dados: a construção de distribuições de freqüências para cada variável
permite fazer uma pré análise dos dados. O objetivo é identificar os dados perdidos,
erros de registro, valores discrepantes e inconsistências. A existência de tais
Caderno Didático de Estatística
Professora Janete Pereira Amador
17
problemas pode afetar seriamente as conclusões porventura obtidas a partir dos dados, e
portanto pôr em risco a qualidade das decisões decorrentes.
8.1 Dados perdidos (missing data)
Dados perdidos são valores de uma variável que não estão disponíveis no
conjunto de dados, estão "em branco". Por exemplo, em uma pesquisa de opinião eleitoral
algumas pessoas podem não declarar seu voto, resultando em dados perdidos, ou o
famoso "não respondeu". Muitos estatísticos afirmam que é virtualmente impossível obter
um conjunto de dados sem dados perdidos, especialmente aqueles oriundos de pesquisas
de opinião (eleitoral, de mercado, sócio-econômica) e mesmo pesquisas médicas. Aceitase até cerca de 5% de dados perdidos em uma base de dados, mais do que isso o processo
de pesquisa, e/ou de registro dos dados, pode ter sido prejudicado de tal forma que os
resultados podem não ser confiáveis. Os dados perdidos podem ter várias causas. No caso
das pesquisas de opinião, as questões (ou as opções de resposta) podem não ser
compreendidas pelos respondentes, que preferem não responder, ou nenhuma das opções
contempla sua verdadeira opinião. Ou ainda, as questões (ou as opções) foram omitidas
pelos entrevistadores, deliberadamente ou não, o que fez com que não houvesse
respostas. Há ainda os casos em que os respondentes, embora compreendendo as questões
e opções resolve não expressar sua opinião (seja por medo de represálias, especialmente
em pesquisas de opinião eleitoral ou em ambientes de trabalho, ou por querer resguardar
sua privacidade). Em estudos com animais, plantas, e mesmo seres humanos, os dados
perdidos costumam também ocorrer devido à morte dos sujeitos, ou especialmente no
acompanhamento de doenças em seres humanos, porque o sujeito decide não mais
fornecer os dados aos pesquisadores. É possível também que simplesmente alguém
esqueceu de registrar os dados, pelas mais diversas razões.
8.2 Erros de Registro
Os erros de registro são valores que foram armazenados incorretamente na base de
dados, geralmente são erros grosseiros, fáceis de identificar e corrigir. Nas variáveis
qualitativas os erros de registro costumam ser resultado da falta de uniformidade no
armazenamento dos valores. Por exemplo, imagine a variável qualitativa “turno”, que
poderia assumir os valores Matutino, Vespertino e Noturno: algum digitador descuidado
poderia registrar Mat, ou Matuti ao invés de Matutino, o que cria novos valores para a
variável turno. Erros ortográficos (por exemplo, Maututino, ou Mattutino) também
costumam ser fonte de erros de registro. A identificação dos erros pode ser feita através
da construção de uma distribuição de freqüências (preferencialmente através de uma
ferramenta computacional), que relacionará os diferentes valores que a variável apresenta
no conjunto de dados. Para corrigir os erros de registro basta varrer a base de dados,
geralmente usando uma ferramenta de substituição (disponível em praticamente todos os
programas estatísticos, planilhas eletrônicas e gerenciadores de bases de dados) para
uniformizar os valores.
Nas variáveis quantitativas é necessário cuidado para não confundir erros de registro com
valores discrepantes. Os erros seriam valores “impossíveis” para a variável, por exemplo
altura e peso de uma pessoa com valores negativos (...), ou alguma criança em ensino préescolar que apresente idade igual a 400 anos (admite-se que seja 4 anos)... É preciso um
exame cuidadoso para evitar a confusão entre valor discrepante (por exemplo, uma renda
de 200 salários mínimos) com erro de registro (por exemplo, uma renda de –200 salários
mínimos).
Caderno Didático de Estatística
Professora Janete Pereira Amador
18
8.3 Valores Discrepantes
Mais aplicável às variáveis quantitativas. Valores discrepantes são aqueles que
estão muito acima, ou muito abaixo da maioria dos valores do conjunto de dados. Por
exemplo, houve um contribuinte no Brasil que em certo ano chegou a pagar 63 milhões
de reais de imposto de renda...Se for descartada a hipótese de erro de registro os valores
discrepantes devem ter uma atenção especial, pois podem indicar situações inesperadas.
Imagine que a variável Renda (em salários mínimos) está sendo avaliada em um grupo de
5000 pessoas. A maioria apresenta renda de 1 a 8 salários mínimos, e alguns poucos
apresentam valores de 25, 30 e 40 salários mínimos – valores discrepantes superiores.
Outro caso seria a variável Receita Mensal (em reais) de um rede de lojas: a maioria
apresenta valores em torno de 500 ou 600 mil reais, e surgem lojas com 10 mil ou 20 mil
reais – discrepantes inferiores. A identificação de valores discrepantes pode ser feita
através de distribuições de freqüências (agrupadas em classes ou não), e pela
identificação de valores máximos e mínimos das variáveis.
8.4 Inconsistências
As inconsistências nos conjuntos de dados nem sempre são fáceis de identificar.
Por exemplo, imagine uma pesquisa de perfil sócio-econômico que registre várias
informações sobre chefes de família, tais como renda familiar em salários mínimos, posse
de casa própria, posse de automóvel, posse de eletrodomésticos, entre outras. Imagine
que um chefe de família tenha respondido o seguinte:
Renda Casa própria
Número de
Viagem ao
Quantos
Filhos estudam?
automóveis?
exterior
filhos?
2 s.m.
Sim
3
2 vezes por ano
3
Escola particular
Isoladamente não há inconsistência ou erro, ou dado perdido, em cada uma das
variáveis. Contudo ao comparar Renda às outras variáveis a existência de, no mínimo, um
erro de registro é flagrante. Se, porém, não houve erro de registro (e o informante não for
um megalômano mentiroso...), a renda realmente vale 2 salários mínimos, há uma
inconsistência entre esta variável e todas as outras, pois não é possível que alguém com
tal renda consiga manter casa própria, 3 automóveis, 2 viagens por ano ao exterior, e 3
filhos estudando em escola particular. No exemplo acima, a inconsistência até que foi
facilmente identificada, em outros, porém, são necessárias até mesmo técnicas avançadas
de mineração de dados (técnica de análise multivariada) para descobri-las.
Para identificar inconsistências, especialmente aquelas derivadas de dados
deliberadamente deturpados por um respondente, as pesquisas de opinião costumam
incluir várias questões extras, que possibilitem cruzar respostas. No caso do exemplo
acima, não se registra apenas a renda, mas outros aspectos que possibilitam caracterizar o
padrão de vida do respondente, e portanto estimar qual é a sua renda real. A Receita
Federal costuma utilizar procedimentos bastante sofisticados para identificar
inconsistências, especialmente nas declarações de Imposto de Renda.
Exercícios Gerais
1) Quarenta alunos da UFRGS foram questionados quanto ao número de livros lidos no
ano anterior. Foram registrados os seguintes valores
Caderno Didático de Estatística
Professora Janete Pereira Amador
a)
b)
c)
d)
19
Organize os dados em uma tabela de distribuição por ponto.
Qual o percentual de alunos que leram menos do que 3 livros.
Qual o percentual de alunos que leram 4 ou mais livros.
Classifique a variável e o tipo de distribuição utilizada.
2) O conjunto de dados abaixo representa uma amostra de 40 elementos:
a) Agrupe os dados em uma distribuição de freqüências
b) Construa um histograma de freqüências relativas.
c) Una os pontos médios de cada retângulo, obtendo o polígono de freqüências.
3) Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo indagou
sobre os diferentes tipos usados nas suas locomoções diárias. Dentre ônibus, metro e
trem, o número de diferentes meios de transportes utilizados foi o seguinte:
a) Organize estes dados em uma tabela
b) Faça uma representação gráfica
c) Admitindo que esta amostra represente bem o comportamento do usuário paulistano,
o que você escreveria sobre a percentagem de usuários que utilizam mais de um
transporte.
Caderno Didático de Estatística
Professora Janete Pereira Amador
Caderno Didático de Estatística
20
Professora Janete Pereira Amador
21
6) Com base no exercício 5 Compare a distribuição de dados 1 com a distribuição de
dados 2. Qual a diferença básica.
Bibliografia
BARBETTA, P. A. Estatística Aplicada a Ciências Sociais. 5a. ed. Santa Catarina:
UFSC, 2003.
ETHUR , B. M., JACOBI, L.F & ZANINE, R. R. Caderno Didático de Estatística, Santa
Maria: UFSM,CCNE, Dep. Esatística, 2001.
NETO, Pedro Luiz de Oliveira Costa. Estatística. São Paulo, Edgard Blücher, 1977.
REIS, M. M. & LINO, M. de O. Notas de Aula: Introdução e Análise Exploratória de
Dados. UFSC. Site: http://www.inf.ufsc.br/~marcelo/INE5121.html.
Caderno Didático de Estatística
Download

Introdução As aplicações da estatística se desenvolveram