Professora Janete Pereira Amador 1 Introdução As aplicações da estatística se desenvolveram de tal forma que, hoje, praticamente todo o campo de estudo se beneficia da utilização de métodos estatísticos. Os fabricantes fornecem melhores produtos através de técnicas de controle de qualidade. Controlam-se doenças com o auxílio de análises que antecipam epidemias. Espécies ameaçadas são protegidas por regulamentos e leis que reagem a estimativas estatísticas de modificação de tamanho das populações. Com estes exemplos verifica-se a inegável importância da estatística nas diferentes aéreas profissionais. Então é razoável que profissionais de diversas áreas adquiram um mínimo de conhecimento técnico sobre estatística para auxiliá-los nas tomadas de decisões. 1 Conceito de Estatística Estatística é um conjunto de técnicas ou processos que permite observar, descrever numericamente e analisar um determinado fenômeno e dele extrair conclusões. 2 Divisão da Estatística A estatística divide-se em: • Estatística geral ou metodológica - Estatística descritiva - Estatística inferencial • Estatística aplicada 2.1 Estatística Geral Visa elaborar métodos gerais aplicáveis a todas as fases dos fenômenos de massa. A estatística geral pode ser dividida em dois grandes campos. - Estatística descritiva: trata da coleta, organização, classificação, apresentação e descrição dos dados de observação. Se refere à maneira de apresentar um conjunto de dados em tabelas e gráficos e á maneira de resumir, através de certas medidas, as informações, contidas nestes dados. - Estatística inferencial: visa tirar conclusões sobre a população a partir da amostra. Se refere à maneira de estabelecer conclusões pra toda uma população quando se observa apenas parte desta população (amostra). O ato de generalizar resultados da parte (amostra) para o todo (população) é conhecido como inferência estatística. A estimação de parâmetros é, portanto, uma forma de inferência estatística. Uma outra forma de inferência estatística surge quando temos alguma hipótese sobre a população em estudo e queremos verificar sua validade, a partir de uma amostra (BARBETTA, 2003, p.17). 2.2 Estatística Aplicada É todo ramo do conhecimento científico que proceda, única ou principalmente, por intermédio da metodologia estatística. Alguns exemplos são descritos a seguir: - Na indústria (controle de qualidade e estoque); - Na economia (números índices, pesquisa de mercado); Caderno Didático de Estatística Professora Janete Pereira Amador 2 - Na saúde (bioestatística); - Na geografia (geoestatística), entre outras áreas. 3 Conceitos Importantes Para um melhor entendimento dos conteúdos abordados, a seguir, torna-se importante o conhecimento de alguns conceitos fundamentais utilizados no contexto estatístico. • População (N): Conjunto de todos os elementos relativos a um determinado fenômeno que possuem pelo menos uma característica em comum. A população pode ser finita ou infinita. Finita - apresenta um número limitado de observações, que é passível de contagem. Infinita - apresenta um número ilimitado de observações que é impossível de contar e geralmente esta associada a processos. • Amostra (n): É um subconjunto da população e também pode ser considerada finita e infinita, a amostra deve ser selecionada seguindo certas regras e deve ser representativa, de modo que ela represente todas as características da população como se fosse uma fotografia desta. • Pesquisa Estatística: É qualquer informação retirada de uma população ou amostra, podendo ser através de Censo ou Amostragem. • Censo: É a coleta exaustiva de informações das "N" unidades populacionais. • Amostragem: É o processo de retirada de informações dos "n" elementos amostrais, na qual deve seguir um método criterioso e adequado (tipos de amostragem). • Dado estatístico: são características observadas ou medidas nos elementos em estudo, os dados de observações constituem a matéria-prima da estatística. De acordo com sua natureza os dados estatísticos podem ser classificados em dois grupos: Parâmetros: são medidas populacionais quando se investiga a população em sua totalidade, neste caso é impossível fazer inferências, pois toda a população foi investigada. Estatísticas ou Estimadores: são medidas obtidas da amostra, torna-se possível neste caso utilizarmos as teorias inferências para que possamos fazer conclusões sobre a população. Parâmetro μ = média σ² = variância σ = desvio padrão Estimador x = média S² = variância S = desvio padrão • Variável: É aquilo que se deseja observar para tirar algum tipo de conclusão. Geralmente as variáveis para estudo são selecionadas por processos de amostragem. Os símbolos utilizados para representar as variáveis são as letras maiúsculas do alfabeto, tais como X, Y, Z, ... que pode assumir qualquer valor de um conjunto de dados. As variáveis podem ser classificadas em: Qualitativas (ou atributos): geram dados que podem ser separados por categorias que se distinguem por alguma característica não numérica. Ex: sexo, cor, respostas do tipo sim ou não etc. Caderno Didático de Estatística Professora Janete Pereira Amador 3 Quantitativas: São características que podem ser quantificadas gerando valores numéricos que expressam quantidade como altura de um grupo de pessoas, ganho de peso etc. As variáveis quantitativas Classificam-se em discretas e contínuas. ⇒ Discretas: são aquelas variáveis que pode assumir somente valores inteiros num conjunto de valores. É gerada pelo processo de contagem, como o número de veículos que passa em um posto de gasolina, o número de estudantes nesta sala de aula, etc. ⇒ Contínuas: são aquelas variáveis que podem assumir um valor dentro de um intervalo de valores. É gerada pelo processo de medição. Neste caso serve como exemplo o volume de água em um reservatório ou o peso de um pacote de cereal, montante em dólar negociado na Bolsa de Valores de São Paulo nos últimos 10 anos, etc. - Em geral, as medições dão origem a variáveis contínuas, enquanto que as enumerações ou contagens resultam em variáveis discretas. • Arredondamento de dados: na maioria das vezes em que trabalhamos com números provenientes de divisões, raízes ou qualquer operação matemática, deparamo-nos com valores, que não sendo inteiros, apresentam vários algarismos significativos após a vírgula. Quando queremos uma aproximação desses valores para décimos, centésimos etc., devemos seguir alguma regra que nos permita fazer sempre do mesmo modo. “ A portaria 36, de 6 de agosto de 1965, do Instituto Nacional de Pesos e Medidas, adota uma série de regras para arredondamento de um dado.” A seguir veremos um esquema prático para arredondamento de acordo com as normas do Instituto Nacional de Pesos e Medidas. Æ Se Y estiver entre 0 e 4 deixar X como está. Ex: Arredondar para milésimo o dado 1,1213. Resultado: 1,121 Æ Se Y estiver entre 6 e 9, X deve ser acrescido de uma unidade. Ex: Arredondar para centésimo o dado 6,586. Resultado: 6,59 Æ Se Y for igual a 5: ¾ Se após Y houver outros números (diferentes de zero), X deve ser acrescido de uma unidade. Ex: Arredondar para centésimo o dado 12,57585. Resultado: 12,58 Se após Y não houver números diferentes de zero: o Se X for par, deve ser deixado como está. Ex: Arredondar para décimo o dado 9,65. Resultado: 9,6 o Se X for ímpar, deve ser acrescido de uma unidade. Ex: Arredondar para décimo o dado 9,75. Resultado: 9,8 Caderno Didático de Estatística Professora Janete Pereira Amador 4 4 Níveis de Mensuração de uma Variável Nível de mensuração significa a escala em que foi medida a variável objeto de investigação. São quatro os níveis de mensuração: nominal, ordinal, intervalar e de razão. • Nível nominal: é característica de uma variável qualitativa, porque seus dados consistem apenas em rótulos ou categoria. Os dados não podem ser dispostos segundo um esquema ordenado. As únicas estatísticas aplicadas são a moda e a freqüência. Ex: Respostas do tipo sim, não ou indeciso. O sexo dos alunos da aula de estatística. • Nível ordinal: Segue características de variável qualitativa. Envolve dados que podem ser dispostos em uma ordem mas as diferenças, quando existirem, entre os valores dos dados não é interessante determinar. As estatísticas calculadas são a moda, freqüências, mediana, e todas as estatísticas de postos. Ex1: Um editor classifica alguns originais como “excelentes”, alguns como “bons” e alguns como “maus”. (Não podemos determinar uma diferença quantitativa entre “bom” e “mau”). Ex2: Um comitê de preparação olímpica classifica Ana em 3º, Diana em 7° e Paula em 10º.(Podemos determinar a diferença entre os 3° e 7° lugares, mas a diferença de quatro não tem o menor sentido). • Nível intervalar: é utilizado em variáveis quantitativa contínuas. Semelhante ao nível ordinal, os dados também são ordenados, no entanto, podemos determinar diferenças significativas entre esses. Todavia não existe um ponto de partida zero, inerente ou natural. Neste nível de mensuração utiliza-se estatística paramétrica. Ex: Os anos 1000, 2000, 1776 e 2004 (O tempo não começou no ano zero e, assim, o zero é arbitrário e não um ponto de partida). • Nível de razão: é o nível de intervalo modificado de modo a incluir o ponto de partida zero (onde o zero significa nenhuma quantidade presente). Ex1: Peso de artigos de material plástico descartado nas residências. (Onde zero significa nenhum material descartado e dez quilos significa duas vezes cinco quilos). Este nível é chamado nível de razão porque o ponto de partida torna as razões significativas. Exercício I Nos exercício 1 – 8, identifique que cada variável como discreto ou contínuo. 1) Cada cigarro camel tem 16,13 mg de alcatrão. 2) Uma pesquisa efetuada com 1015 pessoas indica que 40 delas são assinantes de um serviço de computador on-line. 3) Foram notificados 21 acidentes de trânsitos com mortes ocorridos na BR 104 durante o carnaval. 4) As micros empresas criada no Brasil em 2002 somente 47% permanecem no mercado. 5) De 100 empregados da Empresa XY apenas 16 estão satisfeitos com o salário. 6) O tempo total gasto por um motorista de táxi da Cidade de Nova York dar passagem a pedestres é de 2,367 segundos. 7) O dólar sofreu uma desvalorização de 1% em quatro dias. 8) De 20.000 consumidores entrevistados 16.000 estão satisfeitos com o serviço de telefonia celular. Nos exercício 9 - 18, determine o nível de mensuração mais adequado (nominal, ordinal, intervalar e razão). 9) Classificação como, superior, acima da média, médio, abaixo da média ou pobre para encontro marcados pela internete. 10) Conteúdo (em miligramas) de cigarros Camel. Caderno Didático de Estatística Professora Janete Pereira Amador 11) 12) 13) 14) 15) 16) 17) 18) 5 Número de inscrição do INSS. Anos em que o PT ganhou as eleições de prefeitos nas capitais brasileiras. Cores de uma amostra de confetes M&M. Carros clacificados como sub compacto, compacto, intermediário ou grande. Rendas anuais de assalariados. Código de endereçamento postal Graus (A, B, C, D, F) finais de estudante de estatística. Índice da inflação nos últimos 4 anos. 19) Simule uma pesquisa estatística, determinando a população alvo, a variável a ser estudada,, classifique a variável, determine o nível de mensuração utilizado e de acordo com este nível o tipo de estatística a ser calculada. Nos Exercício de 20 – 29 arredonde os dados para a aproximação indicada 20) 2,7830 (décimos) 25) 4,3550 (centésimos) 21) 5,9621 (décimos) 26) 8,6250 (centésimos) 22) 8,3149 (décimos) 27) 1,1851 (centésimos) 23) 9,2500 (décimos) 28) 3,5390 (centésimos) 24) 7,9105 (décimos) 29) 12,9950 (centésimos) 5 Método Estatístico Ao realizar um estudo estatístico completo, existem diversas fazes que devem ser seguidas para obtenção de resultados confiáveis ao final do estudo. 5.1 Fases do Método Estatístico O método estatístico pode ser dividido em fases, que apresentam-se interligadas. Sendo assim, a não execução ou a falta de atenção em qualquer uma dessas fazes pode incorrer em conclusões pouco confiáveis. • Definição do problema e planejamento da pesquisa: É extremamente importante para a pesquisa é definição exata do problema a ser estudado, pois o planejamento se dará de acordo com esse. Desta forma, deve-se considerar a o local em que será feito a pesquisa, qual o grau de precisão exigido, qual o tipo de amostragem, qual a amplitude de tamanho, o tempo disponível e custo previsto. Tudo isso deve ser convenientemente passado no planejamento da pesquisa, pois, qualquer falha nesta fase só poderá ser descoberto somente após a coleta e análise dos resultados, e sem a possibilidade de ser ratificada a não ser com uma nova pesquisa. • Coleta ou levantamento dos dados: Aqui devemos nos preocupar com a forma pela qual os dados serão coletados, observação direta ou questionários. • Critica e digitação dos dados: É o trabalho realizado nos valores oriundos na coleta dos dados. Serve para verificar se existem valores duvidosos ou aberrantes. • Organização e representação dos dados: Consiste em organizar os valores obtidos em gráficos e tabelas. • Análise dos dados e interpretação dos resultados: Estando de posse dos resultados da pesquisa, utiliza-se a estatística descritiva e estimação de parâmetros para analisar os resultados oferecendo subsídios para a conclusão. Caderno Didático de Estatística Professora Janete Pereira Amador 6 6 Estrutura de um arquivo de dados Os dados costumam ser armazenados em meio computacional, seja em grandes bases de dados, programas estatísticos ou mesmo planilhas eletrônicas, sejam oriundos de pesquisa de campo, ou apenas registros de operações financeiras, arquivos de recursos humanos, entre outros. Universalmente os dados costumam serem armazenados em uma estrutura fixa, que possibilita a aplicação de várias técnicas para extrair as informações de interesse. As variáveis são registradas nas colunas, e os casos nas linhas formando a chamada matriz de dados. Ex: Imagine uma organização que registre os dados dos seus funcionários, como sexo, idade, anos de educação, função, salário anual, salário inicial, tempo de serviço na organização, experiência prévia, e nacionalidade. Veja na figura 1 Fonte: REIS, M. M. & LINO, M, 2005. Figura 1 – Dados dos funcionários da Empresa Escolástica, 2005. Observe que cada uma das variáveis é registrada em uma coluna específica, e que nas linhas encontram-se os registros de cada funcionário. Por exemplo, o funcionário 1 é do sexo masculino, tem 49 anos, 15 anos de educação, exerce função de gerência, ganha 57000 ao ano, iniciou na empresa ganhando 27000, tem 8,17 anos de serviço, 12 anos de experiência prévia e é brasileiro. A grande maioria dos programas estatísticos, gerenciadores de bases de dados e planilhas eletrônicas com capacidade estatística exige que os dados sejam estruturados de acordo com o formato da figura 1. Pode-se ter tantas colunas e linhas quantas se quiser, respeitando porém as capacidades dos programas, o Microsoft Excel, por exemplo, admite apenas 65000 linhas, o que porém é o suficiente para muitas aplicações. 7 Análise Exploratória de Dados A Análise Exploratória de Dados, antigamente chamada apenas de Estatística Descritiva, constitui o que a maioria das pessoas entende como Estatística, e inconscientemente usa no dia a dia. Consiste em RESUMIR E ORGANIZAR os dados coletados através de tabelas, gráficos ou medidas numéricas, e a partir dos dados resumidos procurar alguma regularidade ou padrão nas observações (INTERPRETAR os dados). A partir dessa interpretação inicial é possível identificar se os dados seguem algum modelo conhecido, que permita estudar o fenômeno sob análise, ou se é necessário sugerir um novo modelo. Caderno Didático de Estatística Professora Janete Pereira Amador 7 7.1 Representação Tabular Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado. A elaboração de tabelas obedece à Resolução n° 886, de 26 de outubro de 1966, do Conselho Nacional de Estatística. As normas de apresentação são editadas pela Fundação Brasileira de Geografia e Estatística (IBGE). Abaixo apresenta-se uma tabela esquemática sendo indicada seus componentes. Título: O quê? Onde? Quando? Cabeçalho Corpo Fonte : ⎫ ⎪ * (chamda)⎬ Rodapé ⎪ Nota : ⎭ No rodapé de uma tabela podem aparecer, se necessário: a fonte responsável pelas informações contidas na tabela; chamada informações específicas a determinados pontos da tabela e notas que são observações gerais sobre a tabela. Exercício II 1) Porque a importância de executar adequadamente cada fases do método estatístico ao se realizar uma pesquisa? 2) Quais são as fazes do método estatístico explique de forma sucinta cada uma delas. 3) Idealize uma tabela de acordo com as normas para sua elaboração. 7.2 Distribuição de Freqüências O processo de resumo e organização dos dados busca basicamente registrar as ocorrências dos possíveis valores das variáveis que caracterizam o fenômeno, em suma consiste em elaborar DISTRIBUIÇÕES DE FREQÜÊNCIAS das variáveis para que o conjunto de dados possa ser reduzido, possibilitando a sua análise. A construção da distribuição de freqüências exige que os possíveis valores da variável sejam discriminados e seja contado o número de vezes em que cada valor ocorreu no conjunto de dados. Para grandes arquivos de dados tal processo somente é viável utilizando meios computacionais. Uma distribuição de freqüências pode ser expressa em termos de tabelas ou através de gráficos, que terão algumas particularidades dependendo do nível de mensuração da variável. Desta forma podemos ter distribuição de freqüências para variáveis qualitativas e quantitativa (discretas e contínuas). Caderno Didático de Estatística Professora Janete Pereira Amador 8 7.2.1 Distribuição de Freqüências para Variáveis Qualitativas Neste caso o número de possíveis realizações da variável costuma ser limitado, como na tabela do exemplo abaixo. Exemplo 1 – Usando os dados da Figura 1 (Dados dos funcionários da Empresa Escolástica) podemos construir tabelas de freqüências para as variáveis sexo e função. Supondo que haja 258 homens e 216 mulheres, 363 funcionários em escritório, 27 em serviços gerais, e 84 em gerência. Tabela 1 – Distribuição de Freqüência do sexo dos funcionários da empresa Escolástica no ano de 2005. Sexo Freqüência Percentual Masculino 258 54,43% Feminino 216 45,57% Total 474 100% Fonte: Empresa Escolástica, 2005. Tabela 2 - Funções exercidas pelos funcionário s da empresa Escolástica no ano de 2005. Função Freqüência Percentual Escritório 363 76,58% Serviços Gerais 27 5,70% Gerência 84 17,72% Total 474 100% Fonte: Empresa Escolástica, 2005. As colunas Sexo e Função apresentam os possíveis valores que cada variável pode assumir, e a coluna freqüência o número de ocorrências de cada um desses valores no conjunto de dados. Desta forma grandes conjuntos de dados podem ser resumidos em pequenas tabelas. Usualmente calculam-se os percentuais de ocorrência de cada valor para permitir a COMPARAÇÃO COM CONJUNTOS DE DADOS DE TAMANHO DIFERENTE (onde a comparação direta das freqüências pode levar a conclusões errôneas). O mais importante é interpretar as tabelas. Percebemos que não há grande diferença entre o percentual de homens e mulheres na empresa. Poderíamos concluir que não há predominância masculina significativa. Já na tabela das funções percebemos que a maioria esmagadora dos funcionários (76,58%) exerce atividades de escritório, restando 17,72% em gerência, e apenas 5,7% em serviços gerais (que talvez já estejam quase que totalmente terceirizados). “Um dos inconvenientes da utilização de tabelas para resumir conjuntos de dados é a demora na apreensão da informação: é necessário ler cada linha e coluna e posteriormente fazer o cruzamento das informações. Isso pode ser um problema em muitas situações em que há interesse em apresentar rapidamente as informações, então talvez a melhor forma de apresentar a distribuição de freqüências seja através de um gráfico.” ¾ Representação Gráfica: Dentre os vários gráficos disponíveis os mais utilizados para variáveis qualitativas são os gráficos de barras (bar chart) e os gráficos em setores (pie chart). No gráfico de barras em um dos eixos são colocadas as categorias da variável e no outro as freqüências ou percentuais de cada categoria. As barras podem ser horizontais ou verticais (preferencialmente estas). Gráfico de barras: para os dados da tabela 1 e 2 os gráficos seriam: Caderno Didático de Estatística Professora Janete Pereira Amador 9 Figura 2 - Gráfico de barras da variável Sexo (Empresa Escolástica, 2005). Figura 3 - Gráfico de barras da variável Função (Empresa Escolástica, 2005). Observe que a apreensão da informação da distribuição é bem mais fácil, percebe-se rapidamente na figura 3 que há muito mais funcionários em Escritório do que nas outras funções. Contudo, na figura 2 poderíamos ter a idéia de que há uma grande diferença entre os números de funcionários dos sexo masculino e feminino: isso ocorre por causa da escala do gráfico, que começa em 190 (para evitar tal problema devemos, sempre que possível, iniciar a escala do gráfico de barras em zero). Este tipo de gráfico (para variáveis qualitativas) pode ser construído com a maioria dos processadores de texto e planilhas eletrônicas disponíveis atualmente. Gráfico em setores, também chamado de gráfico circular ou em “pizza”, exige uma construção mais sofisticada. Consiste em dividir um círculo (360º) em setores proporcionais às realizações de cada categoria através de uma regra de três simples, na qual a freqüência total (ou o percentual total 100%) corresponderia aos 360° e a freqüência ou a proporção de cada categoria corresponderia a um valor desconhecido em graus. Caderno Didático de Estatística Professora Janete Pereira Amador 10 Para os dados da tabela 1 e 2 relacionados as variáveis sexo e função teríamos os seguintes valores: Sexo Desta forma a representação gráfica seria: Figura 4: Gráfico de setores da variável Sexo (Empresa Escolástica, 2005). Função: Caderno Didático de Estatística Professora Janete Pereira Amador 11 Para variável função temos o seguinte representação gráfica: Figura 5 - Gráfico de setores da variável Função (Empresa Escolástica, 2005). ¾ Dupla Classificação: em todos os casos anteriores as distribuições de freqüências referiam-se apenas a uma variável. Nas ciências econômicas e sociais é muito comum avaliar o comportamento conjunto de DUAS variáveis, através de uma dupla classificação. É muito comum representar essa distribuição conjunta de freqüências através de uma tabela de contingências, para estudar a sua associação. Exemplo: Utilizando a Matriz de Dados representados na Figura 1 construir uma tabela de contingência para as variáveis sexo e função. Seria necessário fazer o cruzamento das duas variáveis, anotando quantas ocorrências são verificadas em cada uma das combinações de valores possíveis: masculino - escritório, masculino - serviços gerais, masculino - gerência, feminino - escritório, feminino serviços gerais, feminino - gerência. Microsoft Excel é possível criar uma Tabela Dinâmica para fazer o cruzamento de variáveis. Tabela 3 – Tabela de Contingência da variável sexo x função dos funcionários da empresa Escolástica no ano de 2005. Função Sexo Escritório Serviços Gerais Gerência Total Masculino 157 27 74 258 Feminino 206 0 10 216 Total 363 27 84 474 Fonte: Empresa Escolástica, 2005. Podemos perceber que na função Escritório não parece haver grande diferença (em termos relativos) entre homens e mulheres. Nas outras duas funções, todavia, o predomínio masculino é indiscutível, sendo especialmente importante nos cargos de gerência, onde as decisões da empresa são tomadas. A última coluna é o total marginal da variável Sexo (exatamente igual ao valor obtido na Tabela 1), e a última linha é o total marginal da variável Função (tal como na Tabela 1). Sem fazer o cruzamento entre as variáveis não conseguimos identificar o predomínio masculino, o que mostra a utilidade da tabela de contingências. Caderno Didático de Estatística Professora Janete Pereira Amador 12 Os resultados poderiam ser apresentados em termos de percentuais, calculados em relação ao total geral, aos totais das linhas (totais dos valores de Sexo) ou aos totais das colunas (totais dos valores de Função), assim teremos: Tabela 4 – Tabela de Contingência (em percentual) da variável sexo x função, dos funcionários da empresa Escolástica no ano de 2005. Função Sexo Escritório Serviços Gerais Gerência Total Masculino 43,25% 100% 88,10% 54% Feminino 56,75% 0 11,90% 46% Total 100% 100% 100% 100% Fonte: Empresa Escolástica, 2005. Observa-se que há apenas 11,90% de mulheres em cargos de gerência, havendo 46% de mulheres na organização (sem contar que há 0% de mulheres em serviços gerais), o que configura desigualdade de oportunidades, o que pode dar margem a diversas especulações. A tabela de contingência poderia ser expressa em um gráfico composto de barras, ou por gráficos em setores apresentados conjuntamente. Figura 6 - Gráfico composto em barras da distribuição dos funcionários por Função e Sexo (Empresa Escolástica, 2005). Figura 7 – Gráfico em setores da distribuição dos funcionários por Sexo e Função (Empresa Escolástica, 2005). Caderno Didático de Estatística Professora Janete Pereira Amador 13 7.2.2 Distribuição de Freqüências para Variáveis Quantitativas A construção das distribuições de freqüências para variáveis quantitativas é semelhante ao caso das variáveis qualitativas: relacionar os valores da variável com as suas ocorrências no conjunto de dados, mas apresenta algum detalhes dependendo se a variável é discreta ou contínua. Em geral variáveis discretas são agrupadas em distribuições por ponto ou valores e variáveis contínuas em distribuições por classes ou intervalos. A separação não é rígida e depende basicamente dos dados considerados. Poderá ser necessário usar uma distribuição por classes ou intervalos mesmo quando a variável é discreta. ¾ Distribuição por ponto: para organizar os dados em uma tabela de distribuição por ponto coloca-se o conjunto em uma tabela em que a coluna da esquerda é representada pêlos diferentes números ordenados (os pontos ou valores) e a coluna da direita pelo número de vezes que cada valor se repetiu (as freqüências simples ou absolutas). Exemplo: Os dados a seguir representam onúmero de pessoas residentes no domicílio (amostra de 40 residências do conjunto Monte Verde) Para estruturar os dados na tabela de distribuição primeiro passo é organizá-los segundo o rol (arranjo dos dados em ordem crescente ou decrescente). Desta forma o rol crescente dos dados seria: 1 2 2 2 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 8 8 A tabela 5 apresenta a distribuição de freqüência por ponto dos dados. Tabela 5 - Distribuição de freqüência do número de residentes em domicílio em quarenta domicílios A variável quantitativa (intervalar) discreta número de residentes em domicílios pode assumir valores de 1 a 8: contou-se então o número de residentes em 40 domicílios, obtendo-se 1 domicílio com 1 residente, 3 com 2 residentes e assim por diante. Ao lado estão registrados os percentuais de cada valor. Observe que não há perda de informação sobre o conjunto original que foi simplesmente apresentado de forma mais compacta. A tabela 5 pode ser representada através de um Histograma, um gráfico de barras justapostas (Figura 8), em que as áreas das barras são proporcionais às freqüências de cada valor. Caderno Didático de Estatística Professora Janete Pereira Amador 14 Fonte: UFSC, 1988 Figura 8 – Histograma de freqüências do número de residentes em 40 domicílios do conjunto Monte Verde. ¾ Distribuição por intervalo ou classe: Quando as variáveis são contínuas sua grande variação torna inúteis as tabelas para dados ponto como o caso anterior, pois praticamente todos os valores têm freqüência baixa, o que resultaria em uma tabela enorme. É preciso representar os dados através de um conjunto de classes mutuamente exclusivas (para que cada valor pertença apenas a uma classe), que contenha do menor ao maior valor do conjunto: registram-se então quantos valores do conjunto encontram-se em cada classe. É mais apropriada para grandes conjuntos de dados. O processo para montagem das classes é o seguinte: 1) Organizar os dados de acordo com o rol 2) Determinar a amplitude dos dados (intervalo dos dados): H = xmax - xmin. 3) Dividir o intervalo em um número conveniente de classes (onde: No de classes (k) = H No de elementos ), representado pela equação h = K 4) Estabelecer as classes com a seguinte notação: • Li |-- Ls limite inferior incluído, superior excluído. • Li |--| Ls ambos incluídos 4) Determinar as freqüências de cada classe. 5) Determinar os pontos médios de cada classe através da média dos 2 limites (serão os representantes das classes). Para exemplificar utilizamos os dados sobre estudo da taxa de mortalidade infantil em municípios do Oeste do Estado de Santa Catarina. 9,9 27,3 28,9 29,7 31,1 20 10,3 11,9 13,9 17 Montando a distribuição: Caderno Didático de Estatística 27,2 20,3 25,4 22 22,6 36,4 21,7 22,7 23,5 23,7 38,3 32,9 32,3 19,6 18 39,2 18,3 18,4 29,9 23,8 62,2 33 36,3 15,7 Professora Janete Pereira Amador 15 1) Rol crescente 9,9 10,3 11,9 13,9 15,7 17 18 18,3 18,4 19,6 20 20,3 21,7 22 22,6 22,7 23,5 23,7 23,8 25,4 27,2 27,3 28,9 29,7 29,9 31,1 32,3 32,9 33 36,3 36,4 38,3 39,2 62,2 2) Amplitude dos dados (intervalo dos dados): H = xmax - xmin. = 62,2 - 9,9 = 52,3 (a maior taxa foi de 62,2% e a menor de 9,9%, as classes devem englobar do menor ao maior valor). 3) No de classes (k) = No de elementos = 34 = 5,8309 ≅ 6. H 4) Amplitude das classes h = = 52,3/6 = 8,71666 = 8,72. K 5) Estabelecer as classes (como há um intervalo de 52,3 e 6 classe a amplitude arredondada será de 8,72.) Classes 5) Determinar as freqüências simples o absolutas (fi) de cada classe e calcular o ponto médio (xi) de classe. Tabela 6 - Distribuição de freqüência da taxa de mortalidade infantil em municípios do Oeste do Estado de Santa Catarina em 1982. Classes (Taxas de mortalidade) 9,9 |--- 18,62 18,62 |--- 27,34 27,34 |--- 36,06 36,06 |--- 44,78 44,78 |--- 53,5 53,5 |--- 62,2 Total fi 10 13 6 4 0 1 34 xi 14,26 22,98 31,7 40,42 49,14 57,66 Fonte: IBGE – GAPLAN/SC, 1987. Observe que perdeu-se informação sobre o conjunto original: sabe-se que há 10 taxas entre 9,9 e 18,62% mas não sabe-se mais quais são os seus valores exatos, ou seja as freqüências das classes passam a ser as freqüências dos pontos médios. Os pontos médios nem sempre são os representantes mais fiéis das classes. Para uma grande quantidade de dados existe uma maior probabilidade de que estas estimativas correspondam exatamente aos verdadeiros valores. Outros elementos da tabela de distribuição de freqüências: Æ Freqüência relativa simples ou percentual (fri): definida como sendo o quociente entre a freqüência simples “fi” e o total de dados “n”. Caderno Didático de Estatística Professora Janete Pereira Amador 16 Ex: Na tabela 6 tem-se : Fr3 = 27,34 |---36,06 = 0,18 = 18%, significando que 16% da taxa de mortalidade encontra-se entre 27,34 |---36,06. Æ Freqüência acumulada simples ou absoluta da linha “i”: é definida como sendo a soma das freqüência simples ou absolutas até a linha “i “. Fi = f1 + f2 + ... + fi Ex: Na tabela 6 tem-se : F3 = f1 + f2 + f3 = 10+13+6 =29 casos de taxa de mortalidade até 36,05. A tabela 6 também pode ser representada através de um histograma. Mas o histograma para uma tabela de dados grupados é um pouco diferente do visto anteriormente. O número de barras é igual ao número de classes. Cada barra é centrada no ponto médio de cada classe, e o ponto inicial de cada barra é o limite inferior da classe, e o ponto final é o limite superior. Se os pontos médios de cada classe de um histograma forem unidos através de segmentos de retas teremos então um diagrama denominado de polígono de freqüências. Figura 9 – Histograma de freqüências a taxa de mortalidade infantil em municípios do Oeste do Estado de Santa Catarina em 1982. 8 Pré-análise dos Dados Com os conhecimentos que temos até o momento, e obtendo os valores mínimo e máximo para as variáveis quantitativas, é possível fazer uma primeira análise, avaliando o conjunto de dados: a construção de distribuições de freqüências para cada variável permite fazer uma pré análise dos dados. O objetivo é identificar os dados perdidos, erros de registro, valores discrepantes e inconsistências. A existência de tais Caderno Didático de Estatística Professora Janete Pereira Amador 17 problemas pode afetar seriamente as conclusões porventura obtidas a partir dos dados, e portanto pôr em risco a qualidade das decisões decorrentes. 8.1 Dados perdidos (missing data) Dados perdidos são valores de uma variável que não estão disponíveis no conjunto de dados, estão "em branco". Por exemplo, em uma pesquisa de opinião eleitoral algumas pessoas podem não declarar seu voto, resultando em dados perdidos, ou o famoso "não respondeu". Muitos estatísticos afirmam que é virtualmente impossível obter um conjunto de dados sem dados perdidos, especialmente aqueles oriundos de pesquisas de opinião (eleitoral, de mercado, sócio-econômica) e mesmo pesquisas médicas. Aceitase até cerca de 5% de dados perdidos em uma base de dados, mais do que isso o processo de pesquisa, e/ou de registro dos dados, pode ter sido prejudicado de tal forma que os resultados podem não ser confiáveis. Os dados perdidos podem ter várias causas. No caso das pesquisas de opinião, as questões (ou as opções de resposta) podem não ser compreendidas pelos respondentes, que preferem não responder, ou nenhuma das opções contempla sua verdadeira opinião. Ou ainda, as questões (ou as opções) foram omitidas pelos entrevistadores, deliberadamente ou não, o que fez com que não houvesse respostas. Há ainda os casos em que os respondentes, embora compreendendo as questões e opções resolve não expressar sua opinião (seja por medo de represálias, especialmente em pesquisas de opinião eleitoral ou em ambientes de trabalho, ou por querer resguardar sua privacidade). Em estudos com animais, plantas, e mesmo seres humanos, os dados perdidos costumam também ocorrer devido à morte dos sujeitos, ou especialmente no acompanhamento de doenças em seres humanos, porque o sujeito decide não mais fornecer os dados aos pesquisadores. É possível também que simplesmente alguém esqueceu de registrar os dados, pelas mais diversas razões. 8.2 Erros de Registro Os erros de registro são valores que foram armazenados incorretamente na base de dados, geralmente são erros grosseiros, fáceis de identificar e corrigir. Nas variáveis qualitativas os erros de registro costumam ser resultado da falta de uniformidade no armazenamento dos valores. Por exemplo, imagine a variável qualitativa “turno”, que poderia assumir os valores Matutino, Vespertino e Noturno: algum digitador descuidado poderia registrar Mat, ou Matuti ao invés de Matutino, o que cria novos valores para a variável turno. Erros ortográficos (por exemplo, Maututino, ou Mattutino) também costumam ser fonte de erros de registro. A identificação dos erros pode ser feita através da construção de uma distribuição de freqüências (preferencialmente através de uma ferramenta computacional), que relacionará os diferentes valores que a variável apresenta no conjunto de dados. Para corrigir os erros de registro basta varrer a base de dados, geralmente usando uma ferramenta de substituição (disponível em praticamente todos os programas estatísticos, planilhas eletrônicas e gerenciadores de bases de dados) para uniformizar os valores. Nas variáveis quantitativas é necessário cuidado para não confundir erros de registro com valores discrepantes. Os erros seriam valores “impossíveis” para a variável, por exemplo altura e peso de uma pessoa com valores negativos (...), ou alguma criança em ensino préescolar que apresente idade igual a 400 anos (admite-se que seja 4 anos)... É preciso um exame cuidadoso para evitar a confusão entre valor discrepante (por exemplo, uma renda de 200 salários mínimos) com erro de registro (por exemplo, uma renda de –200 salários mínimos). Caderno Didático de Estatística Professora Janete Pereira Amador 18 8.3 Valores Discrepantes Mais aplicável às variáveis quantitativas. Valores discrepantes são aqueles que estão muito acima, ou muito abaixo da maioria dos valores do conjunto de dados. Por exemplo, houve um contribuinte no Brasil que em certo ano chegou a pagar 63 milhões de reais de imposto de renda...Se for descartada a hipótese de erro de registro os valores discrepantes devem ter uma atenção especial, pois podem indicar situações inesperadas. Imagine que a variável Renda (em salários mínimos) está sendo avaliada em um grupo de 5000 pessoas. A maioria apresenta renda de 1 a 8 salários mínimos, e alguns poucos apresentam valores de 25, 30 e 40 salários mínimos – valores discrepantes superiores. Outro caso seria a variável Receita Mensal (em reais) de um rede de lojas: a maioria apresenta valores em torno de 500 ou 600 mil reais, e surgem lojas com 10 mil ou 20 mil reais – discrepantes inferiores. A identificação de valores discrepantes pode ser feita através de distribuições de freqüências (agrupadas em classes ou não), e pela identificação de valores máximos e mínimos das variáveis. 8.4 Inconsistências As inconsistências nos conjuntos de dados nem sempre são fáceis de identificar. Por exemplo, imagine uma pesquisa de perfil sócio-econômico que registre várias informações sobre chefes de família, tais como renda familiar em salários mínimos, posse de casa própria, posse de automóvel, posse de eletrodomésticos, entre outras. Imagine que um chefe de família tenha respondido o seguinte: Renda Casa própria Número de Viagem ao Quantos Filhos estudam? automóveis? exterior filhos? 2 s.m. Sim 3 2 vezes por ano 3 Escola particular Isoladamente não há inconsistência ou erro, ou dado perdido, em cada uma das variáveis. Contudo ao comparar Renda às outras variáveis a existência de, no mínimo, um erro de registro é flagrante. Se, porém, não houve erro de registro (e o informante não for um megalômano mentiroso...), a renda realmente vale 2 salários mínimos, há uma inconsistência entre esta variável e todas as outras, pois não é possível que alguém com tal renda consiga manter casa própria, 3 automóveis, 2 viagens por ano ao exterior, e 3 filhos estudando em escola particular. No exemplo acima, a inconsistência até que foi facilmente identificada, em outros, porém, são necessárias até mesmo técnicas avançadas de mineração de dados (técnica de análise multivariada) para descobri-las. Para identificar inconsistências, especialmente aquelas derivadas de dados deliberadamente deturpados por um respondente, as pesquisas de opinião costumam incluir várias questões extras, que possibilitem cruzar respostas. No caso do exemplo acima, não se registra apenas a renda, mas outros aspectos que possibilitam caracterizar o padrão de vida do respondente, e portanto estimar qual é a sua renda real. A Receita Federal costuma utilizar procedimentos bastante sofisticados para identificar inconsistências, especialmente nas declarações de Imposto de Renda. Exercícios Gerais 1) Quarenta alunos da UFRGS foram questionados quanto ao número de livros lidos no ano anterior. Foram registrados os seguintes valores Caderno Didático de Estatística Professora Janete Pereira Amador a) b) c) d) 19 Organize os dados em uma tabela de distribuição por ponto. Qual o percentual de alunos que leram menos do que 3 livros. Qual o percentual de alunos que leram 4 ou mais livros. Classifique a variável e o tipo de distribuição utilizada. 2) O conjunto de dados abaixo representa uma amostra de 40 elementos: a) Agrupe os dados em uma distribuição de freqüências b) Construa um histograma de freqüências relativas. c) Una os pontos médios de cada retângulo, obtendo o polígono de freqüências. 3) Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo indagou sobre os diferentes tipos usados nas suas locomoções diárias. Dentre ônibus, metro e trem, o número de diferentes meios de transportes utilizados foi o seguinte: a) Organize estes dados em uma tabela b) Faça uma representação gráfica c) Admitindo que esta amostra represente bem o comportamento do usuário paulistano, o que você escreveria sobre a percentagem de usuários que utilizam mais de um transporte. Caderno Didático de Estatística Professora Janete Pereira Amador Caderno Didático de Estatística 20 Professora Janete Pereira Amador 21 6) Com base no exercício 5 Compare a distribuição de dados 1 com a distribuição de dados 2. Qual a diferença básica. Bibliografia BARBETTA, P. A. Estatística Aplicada a Ciências Sociais. 5a. ed. Santa Catarina: UFSC, 2003. ETHUR , B. M., JACOBI, L.F & ZANINE, R. R. Caderno Didático de Estatística, Santa Maria: UFSM,CCNE, Dep. Esatística, 2001. NETO, Pedro Luiz de Oliveira Costa. Estatística. São Paulo, Edgard Blücher, 1977. REIS, M. M. & LINO, M. de O. Notas de Aula: Introdução e Análise Exploratória de Dados. UFSC. Site: http://www.inf.ufsc.br/~marcelo/INE5121.html. Caderno Didático de Estatística