statística Teoria e Aplicações Anderson Dias Gonçalves 2007 O AUTOR Anderson Dias Gonçalves Licenciado em Matemática pelo Centro Universitário de Formiga – UNINFOR, pósgraduado em Matemática e Estatística pela UFLA, pós-graduado em Ensino da Matemática pelo UNINFOR, mestre em Matemática pela Universidade Vale do Rio Verde. Professor do Instituto Superior de Ensino J. Andrade, Faculdade de Ciências Econômicas, Administrativas e Contábeis de Divinópolis-FACED e Instituto Nossa Senhora do Sagrado Coração – INSSC. TODOS OS DIREITOS RESERVADOS – Este material didático foi desenvolvido única e exclusivamente para o uso nas aulas de Estatística ministradas pelo Prof. Anderson Dias Gonçalves. A autorização para a utilização deste material por outros professores deverá ser concedida pelo autor. Contato: [email protected] Copyright© Anderson Dias Gonçalves 2007. Apresentação A o longo do século XX, os métodos estatísticos foram desenvolvidos como uma mistura de ciência, tecnologia e lógica para a solução e investigação de problemas em várias áreas do conhecimento humano. Ela foi reconhecida como um campo da ciência neste período, mas sua história tem início bem anterior a 1900. A estatística moderna é uma tecnologia quantitativa para a ciência experimental e observacional que permite avaliar e estudar as incertezas e os seus efeitos no planejamento e interpretação de experiências e de observações de fenômenos da natureza e da sociedade de um modo geral. A estatística não é uma caixa-preta, nem bola de cristal, nem mágica. Tampouco é um conjunto de técnicas úteis para algumas áreas isoladas ou restritas da ciência. Por exemplo, ao contrário do que alguns imaginam, a estatística não é um ramo da matemática onde se investigam os processos de obtenção, organização e análise de dados sobre uma determinada população. A estatística também não se limita a um conjunto de elementos numéricos relativos a um fato social, nem a números, tabelas e gráficos usados para o resumo, a organização e apresentação dos dados de uma pesquisa, embora este seja um aspecto da estatística que pode ser facilmente percebido no cotidiano (basta abrir os jornais e revistas para ver o "bombardeio" de estatísticas). Ela é uma ciência multidisciplinar: um mesmo programa de computador que permite a análise estatística de dados de um físico poderia também ser usado por um economista, agrônomo, químico, geólogo, matemático, biólogo, sociólogo, psicólogo e cientista político. Mesmo que as interpretações dessas análises sejam diferentes por causa das diferenças entre as áreas do conhecimento, os conceitos empregados, as limitações das técnicas e as conseqüências dessas interpretações são essencialmente as mesmas. A estatística é uma ciência que estuda e pesquisa sobre: o levantamento de dados com a máxima quantidade de informação possível para um dado custo; o processamento de dados para a quantificação da quantidade de incerteza existente na resposta para um determinado problema; a tomada de decisões sob condições de incerteza, sob o menor risco possível. Finalmente, a estatística tem sido utilizada na pesquisa científica, para a otimização de recursos econômicos, para o aumento da qualidade e produtividade, na otimização em análise de decisões, em questões judiciais, previsões e em muitas outras áreas. Finalizando, o escritor de ficção científica H. G. Wells previu que ”o pensamento estatístico será um dia tão necessário para a competência da cidadania quanto à capacidade de ler e escrever.” Esse dia chegou. As estatísticas de hoje são instrumentos que nos ajudam a perceber o que os olhos sem qualquer ajuda, poderia escapar. Capítulo 1 Aspectos Históricos da Estatística 1.1- OBJETIVO DO CAPÍTULO Nosso objetivo neste capítulo é apresentar ao estudante de graduação os aspectos históricos da Estatística. Proporcionando uma visão histórica de como, quando e onde surgiu a Estatística, no mundo e no Brasil. 1.2 - ESTATÍSTICA – ETMOLOGIA A Estatística está interessada nos métodos científicos para coleta, organização, resumo, apresentação e análise de dados, bem como na obtenção de conclusões válidas e tomada de decisões razoáveis baseadas em tais análises. Podemos dividir a Estatística em duas áreas: estatística indutiva (inferência estatística) e estatística descritiva. 1.3 – HISTÓRIA DA ESTATÍSTICA NO MUNDO A origem da palavra Estatística está associada à palavra latino STATUS (Estado). Há indícios de que 3000 anos a.C. já se faziam censos na Babilônia, China e Egito e até mesmo o 4º livro do Velho Testamento faz referência a uma instrução dada a Moisés, para que fizesse um levantamento dos homens de Israel que estivessem aptos para guerrear (Bíblia Sagrada: Livro dos Números: 1, 1-4). Usualmente, estas informações eram utilizadas para a taxação de impostos ou para o alistamento militar. A palavra "CENSO" é derivada da palavra "CENSERE", que em Latim significa "TAXAR". Em 1085, Guilherme, O Conquistador, solicitou um levantamento estatístico da Inglaterra, que deveria conter informações sobre terras, proprietários, uso da terra, empregados e animais. Os resultados deste Censo foram publicados em 1086 no livro intitulado "Domesday Book" e serviram de base para o cálculo de impostos. Contudo, mesmo que a prática de coletar dados sobre colheitas, composição da população humana ou de animais, impostos, etc., fosse conhecida pelos egípcios, hebreus, caldeus e gregos, e se atribuam a Aristóteles cento e oitenta descrições de Estados, apenas no século XVII a Estatística passou a ser considerada disciplina autônoma, tendo como objetivo básico a descrição dos BENS do Estado. Nos séculos XVII e XVIII, a estatística ocupou-se do cálculo de probabilidades. Do Princípio, relacionou-se com jogos de azar. Posteriormente, com a obra Ars conjectandi, de Bernouilli, constituiu-se como ciência. Dedicaram-se ao cálculo de probabilidades De Moivre, Laplace, Markov e outros. 6 No início do século XIX, Laplace e Gauss desenvolveram os princípios da lei normal. Nesta época, começou-se aplicar a estatística na pesquisa em ciências sociais e na educação. Um dos precursores foi Quetelet. Francis Galton foi um dos pesquisadores que deu maior impulso à aplicação de estatística, introduzindo o conceito de correlação e regressão, como também o percentis. Pearson colaborou com Galton e desenvolveu uma das fórmulas mais utilizadas para o cálculo da correlação, a prova do qui-quadrado e outras contribuições. James McKeen Catell que permaneceu na Europa até 1880, tendo contatos com Galton e ao regressar aos Estados Unidos, ele e alguns discípulos, como Thorndike, iniciaram a aplicação da estatística à psicologia e á pesquisa educativa. Em poucos anos, o ensino da estatística foi generalizado nas universidades americanas. No século XX, foram introduzidas novas técnicas. O inglês R. A. Fisher foi um dos que mais contribuiu para o moderno desenvolvimento da estatística, introduzindo diversas técnicas relacionadas à análise da variabilidade. Um dos seus discípulos, conhecido pelo pseudônimo de Student, realizou importantes avanços nos contrates das médias. 1.4 – HISTÓRIA DA ESTATÍSTICA NO BRASIL No Brasil, a Estatística tem sua história associada à história do Instituto Brasileiro de Geografia e Estatística - IBGE, cujas raízes foram fincadas ainda durante o Império. De acordo com o Calendário comemorativo dos 50 anos de sua fundação, quem primeiro coordenou e sistematizou atividades ligadas a levantamentos censitários, foi a Diretoria Geral de Estatística, criada em agosto de 1872, data do "primeiro Recenseamento Geral do Império do Brasil". No período anterior a esta data (1750 - 1872), a Coroa Portuguesa era quem determinava levantamentos populacionais, realizados precariamente, com o objetivo maior de "conhecer a população livre e adulta apta a ser usada na defesa do território". A partir da segunda metade do século XIX, esses levantamentos passaram a ser realizados por juízes de paz e chefes de polícia dos municípios, mais com fins eleitoreiros, constituindo-se as paróquias, a base para as informações. Com o advento da República, a produção das estatísticas dispersou-se nas esferas Federal, Estadual e Municipal, quase impossibilitando a unificação dos resultados e dificultando as análises estatísticas. Ainda de acordo com o Calendário, foi criado, em 1907, o Conselho Superior de Estatística, com vistas à padronização de conceitos e apuração de resultados em todo o território nacional. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 7 Em 1934, foi criado o Instituto Nacional de Estatística, que só passou a existir de fato em 1936, mudando em 1938 para Instituto Brasileiro de Geografia e Estatística - IBGE, quando os serviços geográficos foram a ele vinculados. Foi a partir de 1940 que se iniciaram os "modernos censos" decenais, não ocorrendo apenas o de 1990 (foi adiado para 1991), devido à "falta de recursos" alegada pelo Governo Collor. Antes disso ocorreram os de 1872, 1890, 1900 e 1920. Hoje ele é chamado de Fundação Instituto Brasileiro de Geografia e Estatística - IBGE, sendo integrante da Administração Federal, subordinado diretamente à Secretaria de Planejamento e Coordenação Geral da Presidência da República - SEPLAN/PR, tendo seu Estatuto sido aprovado pelo Decreto número 97.434 de 05 de janeiro de 1989. Suas finalidades básicas são "a pesquisa, a produção, a análise e a difusão de informações e estudos de natureza estatística, geográfica, cartográfica, geodésica, demográfica e sócio-econômica, de recursos naturais e de condições do meio ambiente, necessárias ao conhecimento da realidade física, humana, econômica e social, com vistas, especialmente, à execução de programas e projetos de desenvolvimento nacional”. Seu principal veículo de comunicação é a Revista Brasileira de Estatística RBEs, que a partir de 1995 passou a contar com a colaboração da Associação Brasileira de Estatística, no sentido de indicar editores para a Revista, bem como buscar bons artigos aplicados para serem submetidos à Associação. A Associação Brasileira de Estatística - ABE acima referida, é uma das mais importantes entidades da Estatística existentes no país, na atualidade, tendo como principal finalidade "promover o desenvolvimento, a disseminação e aplicação da Estatística". Para tanto, realiza, regularmente, as seguintes atividades: a) edição quadrimestral de um Boletim, com vistas a promover uma troca de informações entre os associados, divulgação de suas atividades e fórum de debates para questões importantes; b) edição da Revista Brasileira de Probabilidade e Estatística - REBRAPE, de nível internacional, com todos os artigos publicados em inglês. c) promoção e realização de Reuniões Regionais, onde temas de interesse de grupos locais são discutidos, através de painéis, conferências, mini-cursos, debates, etc. d) coordenação e realização, a cada dois anos, do Simpósio Nacional de Probabilidade e Estatística - principal fórum de debates da comunidade ligada à Estatística, na atualidade. e) Outras atividades. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 8 O primeiro curso de Inferência dado no Brasil, ocorreu em 1947, baseado no livro de Cramer, muito embora somente em 1953 duas Escolas iniciaram o ensino de Estatística no Brasil: uma, a Escola Nacional de Ciências Estatísticas - ENCE, criada pelo IBGE nesse mesmo ano, com vistas a contribuir no cumprimento de sua missão institucional. A outra, também fundada em 1953 e mantida pela Fundação Visconde de Cairú, era a Escola de Estatística da Bahia. Em julho de 1955, o Brasil teve a honra de receber Sir Ronald Aylmer Fisher, que veio participar do 2° Congresso Internacional de Biometria, realizado em Campinas. Em 1961, Jerzy Neyman permanece por um mês em São Paulo, onde propôs a criação de um Departamento de Estatística na Universidade de São Paulo - USP. Em 1970, O Instituto de Matemática Pura e Aplicada - IMPA (Rio de Janeiro), a Universidade Estadual de Campinas e a Universidade Federal do Rio de Janeiro iniciaram a formação de grupos de pesquisa em probabilidades, constituindo-se num dos grandes passos para a criação de outros cursos nessa área. A proposta de Jerzy na USP foi concretizada onze anos depois, em 1972, com a criação do Departamento de Estatística e o Curso de Bacharelado em Estatística, formando sua primeira turma em 1975. A finalidade básica do Bacharelado era "formar o profissional em Estatística para atuar junto a empresas públicas e privadas ou que pretendam prosseguir estudos acadêmicos nos cursos de pós-graduação". Conforme correspondência da ABE, datada de 8 de dezembro de 1992, existem 25 Universidades em todo o país com cursos de graduação e pósgraduação em Estatística. De acordo com levantamento feito, esses cursos correspondem a 25 de graduação, 6 de mestrado (USP, UFRJ, UFMG, UFPE, UNICAMP, UNB), 1 de doutorado (USP) e alguns de Especialização, como o da UFRN e o da UFSCar, muito embora seja em Estatística Aplicada, como é o caso de outros mestrados não registrados aqui. O ensino de Estatística é hoje obrigatório em quase todos os cursos das Universidades espalhadas pelo país, com pouquíssimas exceções, como é o caso dos cursos de graduação em Direito, Filosofia e Letras. Um dos temas predominantes nos debates desenvolvidos atualmente se concentra exatamente no ensino, notadamente em cursos onde o conhecimento em matemática é menos profundo. A pauta constante é a dificuldade de se transmitir o método estatístico a esses cursos, sem o rigor matemático que eles exigem. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves Capítulo 2 Fundamentos e Fases do Método Estatístico 2.1- OBJETIVO DO CAPÍTULO O objetivo deste capítulo é apresentar os fundamentos e fases do método estatístico, conceitos básicos que serão estudados ao longo do curso, o método estatístico de pesquisa, coleta de dados, entre outros. 2.2- MÉTODO CIENTÍFICO - Relação entre o projeto de pesquisa e o papel da estatística A estatística tem tido uma longa e estreita relação com a filosofia da ciência e sua epistemologia, embora a estatística, frequentemente tem sido modesta na sua extensão e pragmática na sua atitude. A estatística é a tecnologia da ciência e, portanto, a estatística deve estar presente desde o início da pesquisa. A Figura 1 mostra a produção do conhecimento científico, a Figura 2, à relação entre o projeto de pesquisa e o papel da estatística. A roda do conhecimento científico O papel da estatística Teorias Generalizaçõe s Parâmetros populacionais Hipóteses Observações Inferência Estatística Hipóteses Amostras Estimadores Dados Estimativas Figura 1: A produção do conhecimento científico 10 O projeto de pesquisa O papel da estatística Conceitualização do objeto de pesquisa 1. Definição do objeto de pesquisa 2. Situação dos conhecimentos 3. Modelo teórico e hipóteses ou questões da pesquisa Escolha de uma estratégia de pesquisa 4.a) Modelo de pesquisa escolhido 4.b) Validade do modelo Planificação operacional da pesquisa 5) população estudada 6) definição das variáveis e coleta de dados 7) Análise de dados 8) Cronograma e orçamento 9) Pertinência da pesquisa 10) Respeito às regras éticas A estatística ajuda a operacionalizar as hipóteses ou questões de pesquisa Por estratégia de pesquisa entende-se a integração e articulação do conjunto das decisões a serem tomadas, para apreender de maneira coerente a realidade empírica, a fim de testar de maneira rigorosa as hipóteses ou questões de pesquisa A estatística ajuda na definição da população a ser estudada, na definição das variáveis, na coleta de dados e na análise. Figura 2. Esquema de um projeto de pesquisa 2.3 – MODELO TEÓRICO Uma teoria é uma explicação sistemática dos fenômenos observados e das leis relativas a eles. Uma teoria se expressa pelos enunciados das relações que existem entre os conceitos. O modelo teórico escolhido deve então propor uma solução original para a situação problemática que constitui o objeto do estudo projetado, caso já exista é possível que seja preciso adaptá-lo e modificá-lo. Quando não existe um modelo teórico o pesquisador deve propor um que integre a situação dos conhecimentos e as suas próprias observações. A qualidade de um modelo teórico reside na sua capacidade de dar conta dos fenômenos observados no mundo empírico. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 11 2.4 - Formulação das hipóteses ou questões de pesquisa Hipóteses. Uma hipótese é um enunciado formal das relações esperadas entre pelo menos uma variável independente e uma variável dependente. Nas pesquisas exploratórias, as hipóteses podem se tornar questões de pesquisa. Estas questões pela sua especificidade, devem dar testemunho do trabalho conceitual efetuado pelo pesquisador e, pela sua clareza, permitir uma resposta interpretável. As hipóteses devem ser formuladas na forma de uma relação a ser verificada entre, pelo menos, duas variáveis e não em termo de uma hipótese nula, impossível de verificar, como no caso seguinte: “Os programas de diagnóstico de câncer do pulmão por radiografia não diminuem a mortalidade por câncer de seio” As hipóteses de uma pesquisa devem enunciar-se por propostas claras e específicas quanto possível, como, por exemplo: “Os programas de diagnóstico de câncer do seio por mamografia diminuem em um terço o risco de mortalidade por este câncer” “A intenção de utilizar preservativo é associada positivamente à presença de normas sociais aprovando a adoção desse comportamento”. Em um mesmo estudo pode haver mais de uma hipótese e estas podem se relacionar de diferentes formas. 2.5 - FASES DO MÉTODO ESTATÍSTICO Direta (primária) 1) Coleta de dados Descritiva ou Dedutiva Indireta (secundária) 2) Organização dos dados Crítica Apuração Interna e/ou externa manual e/ou eletrônica Estatística 3) Descrição dos dados Indutiva ou inferencial contínua periódica ocasional gráficos tabelas 4) Análise e interpretação dos dados Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 12 2.5.1 - ESTATISTICA INDUTIVA: (INFERÊCIA ESTATISTICA) Se uma amostra é representativa de uma população, conclusões importantes sobre a população podem ser inferidas de sua análise. À parte da estatística que trata das condições sob as quais essas inferências são válidas chama-se estatística indutiva ou inferência estatística. Mas, em nosso corso daremos ênfase à estatística descritiva. 2.5.2 - ESTATÍSTICA DESCRITIVA É a parte da Estatística que procura somente descrever e avaliar certo grupo, sem tirar quaisquer conclusões ou inferências sobre um grupo maior. A Estatística descritiva pode ser resumida no seguinte diagrama: Definição do problema Planejamento Coleta de dados Críticas dos dados Apresen tação dos DD dados Tabelas e/ou gráficos Análise do Resultado a) Coleta dos dados: Após a definição do problema a ser estudado e o estabelecimento do planejamento da pesquisa, o passo seguinte é a coleta de dados. A coleta de dados pode ser direta ou indireta. A coleta é direta quando feita sobre elementos informativos de registros obrigatórios, como os nascimentos, casamentos e óbitos, a importação ou exportação de mercadorias etc. A coleta direta de dados pode ser classificada relativamente ao tempo em: • Contínua – quanto feita continuamente sem ser interrompido tal como a de nascimento e óbitos e outros • Periódica - quando feita em intervalos constantes de tempo, como os censos (de 10 em 10 anos), as avaliações mensais etc. • Ocasional – quando feita extemporaneamente, a fim de atender a uma conjuntura ou a uma emergência, como no caso de epidemias que assolam ou dizimam rebanhos inteiros. A coleta é indireta quando é inferida de elementos conhecidos (coleta direta) e/ou do conhecimento de outros fenômenos relacionados com o fenômeno estudado. Como exemplo, podemos citar a pesquisa sobre a mortalidade infantil, que é feita através de dados colhidos por uma coleta direta. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 13 Crítica dos dados: Obtidos os dados, eles devem ser cuidadosamente criticados, à procura de possíveis falhas, imperfeições e erros, afim de não incorrermos em erros grosseiros ou de certo vulto, que possam influir sensivelmente nos resultados. A crítica é externa quando vida as causas dos erros por parte do informante, por distração ou má interpretação das perguntas que lhe foram feitas; é interna quando visa observar os elementos originais dos dados da coleta. b) Apresentação dos dados. Após a crítica dos dados convém organizá-los de maneira prática e racional, para melhor entendimento do fenômeno que se está estudando. A apresentação dos dados pode ser feita por meio de tabelas e/ou gráficos. Utilizaremos o software Excel como recurso computacional para este curso, mas fica ao estudante o papel de não ficar restrito ao uso dele, podendo estar paralelamente fazendo estudos de outros softwares adequados para a apresentação de dados de uma amostra estatística. c) Análise dos resultados Como já dissemos, o objetivo último da Estatística é tirar conclusões sobre o todo (população) a partir de informações fornecidas por parte representativa do todo (amostra). Assim, realizadas as fases anteriores, fazemos uma análise dos resultados obtidos, através dos métodos da Estatística Indutiva ou Inferencial, que tem por base a indução ou inferência, e tiramos desses resultados conclusões e previsões. 2.6 - Exercícios Propostos 1) Para você o que é coletar dados? 2) Para que serve a crítica dos dados? 3) Como podem ser apresentados ou expostos os dados? 4) Cite três ou mais atividades do planejamento empresarial, social, educativo, psicológico em que a Estatística se faz necessária? Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves Capítulo 3 População, Amostras e Variáveis. 3.1- OBJETIVO DO CAPÍTULO Nosso objetivo nesse capítulo é de apresentar as primeiras noções de conceitos estatísticos. Inicialmente começaremos com o estudo de variáveis, população, amostra e amostragem. Apresentaremos uma tabela de números aleatórios gerada pela Excel, bem como a sua utilização dentro do estudo de Estatística. Desta maneira esperamos que o estudante comece a se familiarizar com os conceitos utilizados na disciplina de Estatística. 3.2 - VARIÁVEIS: Quanto à sua origem, as variáveis ou observações podem ser obtidas de: • • Respostas de Pesquisas. Quem aplica a pesquisa não tem nenhum controle intencional sobre os fatores que influenciaram as respostas: a contagem de habitantes de um país, o cadastro de clientes de um banco, a aceitação de um produto por um determinado tipo de consumidor, aplicação de testes psicológicos, avaliações, etc. Respostas por Experimentos. Quem aplica o experimento tem controle intencional sobre os fatores que influenciam as respostas: o teste de estabilidade de produtos perecíveis frente a diferentes valores de temperatura e umidade, o desgaste de componentes de equipamentos mecânicos em condições especificadas, etc. Unidade elementar é qualquer pessoa, objeto ou coisa que faça parte de uma população. Dado é o resultado de investigação, cálculo ou pesquisa. Variável é toda característica que pode assumir diversos valores conforme a pessoa, objeto ou coisa. As respostas de uma pesquisa ou um experimento são a matéria-prima da análise estatística em que os dados ou observações são obtidos medindo as características de uma pessoa, objetos ou coisa. O conjunto dessas respostas ou observações forma uma unidade elementar, que em geral, está composta de uma ou mais características denominadas variáveis. a) Variável qualitativa: quando seus valores são expressos por atributos: sexo (masculino-feminino), cor da pele (branca, preta, amarela, vermelha, parda) etc.; b) Variável quantitativa: quando seus valores são expressos em números (salários dos operários, idade dos alunos de uma escola etc.). Uma variável quantitativa pode ser: 15 • Contínua: É aquela que pode assumir qualquer valor numa escala de valores e resulta freqüentemente de uma medição sendo usada em geral, em alguma forma de medida, e se trata geralmente de valor aproximado. As medidas de comprimento, peso, altura, volume, etc. são exemplos típicos de variável contínua. Resumindo, pode-se dizer que variáveis contínuas são aquelas que podem assumir qualquer valor, em um conjunto / intervalo de valores: peso, altura, velocidade, tempo, etc. • Discreta: é aquela que pode assumir apenas um conjunto limitado de valores em qualquer escala de medida e, em geral inteiros, sendo obtida mediante alguma forma de contagem. É uma variável cujos valores podem ser todos relacionados. Uma variável é discreta quando assume alguns valores dentro de certo intervalo. A produção diária de carros de uma fábrica de automóveis, é teoricamente um número inteiro de carros. O número de funcionários de uma empresa só pode ser um número inteiro, não pode ser fracionado. O número de filhos de um casal. O resultado de um sorteio. O número de habitantes de uma cidade. O número de alunos de uma sala de aula. O número de veículos faturados por uma empresa e quantidade vendida de um produto X, são exemplos de variáveis discretas. 3.3 - POPULAÇÃO É o conjunto de objetos, pessoas, coisas ou itens que apresentam certa característica em comum. A população não se limita, apenas às pessoas, mas sim a todos os conjuntos com características próprias: produção, vendas, salários, população de uma cidade, etc. O conjunto pode ser finito ou infinito conforme o número de seus elementos. a) População Finita: É aquela que se consegue enumerar todos os elementos que a formam. Refere-se a um universo limitado em uma dada unidade de tempo. Exemplificando pode-se dizer que a quantidade de automóveis produzidos por uma fábrica por mês, a população de uma cidade, o número de alunos de uma sala de aula são exemplos de uma população finita. b) População Infinita: É aquela cujos elementos não podem se contados. Refere-se a um universo não delimitado. Os resultados (cara ou coroa) obtidos em sucessivos lances de uma moeda, o conjunto de números inteiros, reais ou naturais são exemplos de populações infinitas. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 16 3.4 - AMOSTRA Amostra é o subconjunto de unidades elementares selecionadas de uma população. 3.5 - AMOSTRAGEM A amostragem é uma ferramenta que permite a você analisar um subconjunto de uma população, objetivando levantar informações sobre fatos relativos a esse subconjunto, com a intenção de inferir o comportamento da população. A amostra é uma parte, um subconjunto de um espaço amostral. Uma amostra deve reunir características básicas de uma população. A amostragem permite recolher amostras, e ainda garante, tanto quanto possível, o acaso na escolha. Desta forma, cada elemento da população passa a ter a mesma chance de ser escolhido, o que garante à amostra o caráter de representatividade, e isto é muito importante, pois, como vimos, nossas conclusões relativas à população vão estar baseadas nos resultados obtidos nas amostras dessa população. A importância de uma amostra está na avaliação de grandezas desconhecidas de uma população e a qualidade desta avaliação depende basicamente da representatividade da amostra e a representatividade de uma amostra depende de sua capacidade de reproduzir as características básicas de sua população. Muito provavelmente você não será capaz de entrevistar toda uma população de pessoas ou examinar todo um conjunto de objetos, então você se orienta por um pequeno grupo retirado de uma população / conjunto. Você vai inferir o comportamento da população com base nos resultados descritos da amostra. Uma amostra é uma parte integrante de uma população e a diferença básica entre os conceitos de amostra e população é que a amostra representa parte do todo, enquanto a população representa o todo. Mas à medida que o tamanho da amostra for crescendo, tais informações vão se tornando cada vez mais verdadeiras. Diversos fatores justificam os trabalhos com amostras, no lugar de estudar a respectiva população, entre os quais, destacam-se: • • • Custo: as despesas com operacionalização estatística da população são geralmente bem maiores que com a averiguação de uma amostra. Velocidade: as pesquisas realizadas com amostras são mais rápidas, em virtude de conter um menor número de unidades. Praticidade: conforme o próprio conceito, às vezes, a dimensão da população tornas as pesquisas impraticáveis. 3.5.1 - Amostragem casual ou aleatória simples: É o processo mais elementar e freqüentemente utilizado. É equivalente a um sorteio lotérico. Pode ser realizada numerando-se a população de 1 a n e sorteandose, a seguir, por meio de um dispositivo aleatório qualquer, x números dessa seqüência, os quais corresponderão aos elementos pertencentes à amostra. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 17 Exemplo1: Queremos realizar uma pesquisa de opinião sobre a qualidade de um curso universitário, que tem cerca de 1000 alunos, perguntando aspectos relativos ao encadeamento das disciplinas no currículo. Decidimos utilizar amostragem aleatória simples para selecionar os respondentes. Este método de amostragem é o mais apropriado? Justifique Exemplo 2: Vamos obter uma amostra, de 10%, representativa para a pesquisa da estatura de 90 alunos de uma escola: 1º parte - numeramos os alunos de 1 a 90. 2º parte - escrevemos os números dos alunos, de 1 a 90, em pedaços iguais de papel, colocamos na urna e após misturar retiramos, um a um, nove números que formarão a amostra. Observação: quando o número de elementos da amostra é muito grande, esse tipo de sorteio torna-se muito trabalhoso. Neste caso utiliza-se uma Tabela de números aleatórios, construída de modo que os dez algarismos (0 a 9) são distribuídos ao acaso nas linhas e colunas. (tabela gerada pelo Excel).Veja a seguir: TABELA DE NÚMEROS ALEATÓRIOS 9 4 5 4 4 0 6 8 3 8 2 0 3 5 1 0 7 2 1 8 3 4 6 8 1 4 5 6 4 9 7 3 6 4 9 3 2 3 8 4 4 0 7 0 1 3 8 7 1 0 0 8 3 4 7 5 2 2 0 2 3 7 3 8 8 7 4 6 4 1 6 2 2 7 6 5 7 7 5 8 9 4 5 7 4 2 5 8 2 9 3 1 4 8 6 9 1 4 4 6 7 6 3 8 3 2 1 9 2 5 2 0 9 3 6 1 7 4 2 2 1 8 1 5 6 8 5 2 7 4 6 3 4 1 9 1 9 6 3 2 2 9 3 3 4 3 2 7 0 0 2 4 9 6 7 8 2 9 2 5 0 7 0 3 3 5 5 0 5 6 1 5 3 3 7 9 6 1 3 8 4 6 2 6 3 2 8 2 5 5 1 4 5 2 8 6 0 4 8 1 6 0 6 0 7 5 4 4 6 8 1 6 8 7 5 9 2 5 8 2 0 0 8 3 1 1 7 5 7 8 5 1 8 6 5 1 0 1 4 1 5 7 0 9 1 2 0 1 7 1 5 8 6 1 8 3 6 5 7 1 9 3 3 4 6 6 4 4 8 5 8 3 9 0 2 8 6 1 1 8 3 3 2 5 3 8 5 2 1 2 7 8 8 8 7 1 1 1 6 8 7 8 4 2 4 1 2 1 8 9 7 1 6 2 6 6 7 6 0 3 2 1 5 3 3 2 4 5 3 9 5 9 8 0 4 4 9 3 5 5 6 3 8 1 3 6 3 7 3 5 2 1 9 5 5 0 5 9 0 2 9 0 5 8 2 2 6 9 8 5 4 2 5 5 0 0 8 6 6 2 5 0 4 1 0 6 6 5 9 4 9 6 8 6 4 3 3 9 5 9 2 1 8 1 0 5 7 0 8 6 8 6 2 7 1 8 5 1 4 2 3 3 6 7 2 2 2 1 3 5 8 6 7 7 8 1 1 3 5 0 4 4 8 5 3 8 5 7 7 1 7 5 7 9 8 5 2 0 7 1 5 6 4 6 7 8 4 8 5 6 5 6 1 6 6 7 7 2 5 8 1 4 6 5 2 5 5 2 5 3 4 2 5 2 0 1 9 3 8 1 3 6 4 2 5 1 7 4 8 7 6 2 6 7 1 6 0 7 0 3 1 0 3 8 6 6 4 1 4 8 7 2 8 1 6 2 5 6 8 4 3 7 5 5 6 4 0 9 8 3 6 6 1 4 1 6 4 5 0 3 6 8 2 7 7 7 2 4 4 1 4 9 0 8 8 6 9 3 1 8 2 0 2 5 1 7 8 3 4 5 8 4 9 6 0 5 4 0 3 8 6 2 4 1 8 3 4 3 1 9 8 6 9 5 5 1 3 7 3 2 6 9 8 3 4 8 4 0 1 4 5 6 8 4 2 2 4 3 0 4 0 6 9 7 0 4 7 5 7 4 0 3 6 3 3 2 3 6 9 2 8 1 8 8 6 9 3 2 2 1 3 1 8 7 7 7 3 6 0 9 4 2 3 3 0 7 5 7 6 5 2 1 5 6 2 4 8 6 3 6 8 1 4 1 2 5 3 3 8 1 4 2 7 7 1 2 7 0 4 2 2 3 3 3 3 2 7 9 7 2 3 5 3 9 7 3 4 2 3 8 8 3 4 8 2 3 9 2 7 2 8 6 2 7 6 9 2 0 5 6 3 6 7 3 5 5 3 6 4 6 8 3 4 3 7 2 6 7 6 6 2 5 9 5 5 7 5 2 2 3 1 7 5 7 5 4 0 1 2 9 1 0 8 0 6 7 4 3 4 9 7 4 2 8 8 6 3 2 0 5 8 8 9 3 3 4 3 4 5 9 4 9 3 8 4 7 5 3 7 7 7 1 1 3 2 0 2 8 0 1 6 7 6 5 3 3 5 2 2 0 9 6 2 5 4 5 2 4 0 1 6 0 9 9 1 7 7 6 6 6 1 1 5 5 4 6 4 6 6 0 1 6 4 9 9 8 2 5 5 6 7 1 1 1 1 8 7 7 1 6 7 7 5 3 1 4 2 7 5 1 1 4 1 0 4 7 5 2 4 4 9 6 7 2 2 7 5 8 8 8 8 4 3 8 3 6 1 6 2 9 5 4 8 4 3 3 3 4 9 2 7 1 4 7 1 5 4 2 2 9 6 3 1 5 7 5 6 9 5 3 3 4 3 8 2 5 4 6 3 7 8 6 6 6 0 8 3 7 4 1 6 9 2 5 0 6 9 7 8 8 5 5 4 8 9 2 2 8 2 2 9 8 2 0 1 8 6 1 2 0 9 7 9 8 1 3 4 8 8 4 0 7 3 5 2 2 3 8 8 8 7 6 9 8 2 2 8 6 5 4 8 9 2 8 4 7 3 5 6 6 2 7 4 1 1 7 3 6 7 3 7 6 2 7 4 2 4 5 7 1 5 7 5 7 9 6 0 6 3 5 1 8 3 4 6 7 8 1 1 8 4 6 0 1 8 5 4 5 4 6 0 5 7 3 0 1 1 8 2 8 3 4 8 8 4 3 6 7 2 1 3 7 6 6 0 8 2 3 8 8 8 4 6 9 1 9 0 4 2 9 9 7 0 8 3 4 2 6 1 3 6 3 4 3 5 3 2 4 1 5 4 8 7 8 1 5 0 6 1 7 6 6 2 5 5 4 8 8 1 1 3 7 2 1 6 6 2 0 1 4 5 7 4 6 7 9 3 8 6 2 2 2 2 1 0 7 3 6 6 4 5 2 6 8 5 1 2 6 6 3 9 2 9 5 8 2 9 2 8 5 5 9 5 1 6 0 4 4 1 7 1 2 7 0 9 4 6 1 0 2 4 5 9 4 7 1 4 3 1 9 4 2 7 7 1 4 9 8 2 6 4 5 7 5 7 1 5 2 3 3 4 4 4 6 9 3 8 1 1 8 7 6 4 8 3 3 3 5 9 6 8 7 8 6 8 8 4 3 9 9 2 8 0 6 8 5 1 3 3 7 7 0 5 4 1 1 2 6 7 6 3 9 5 3 7 7 3 8 5 0 8 2 1 4 6 7 3 3 8 4 4 8 8 8 6 3 7 3 4 0 2 2 7 6 4 5 2 6 2 7 1 5 7 8 1 2 4 5 7 9 0 8 2 1 3 4 5 5 7 2 7 1 0 7 1 8 4 4 6 1 3 1 1 1 9 8 8 4 8 6 9 4 8 4 2 4 0 7 1 7 6 4 1 1 8 8 3 6 1 1 3 4 2 4 1 3 3 3 4 6 8 3 5 3 4 8 1 9 4 6 8 1 6 6 3 5 9 3 7 4 9 4 3 8 6 4 2 6 2 2 1 5 6 4 3 1 7 5 8 1 6 1 5 8 1 8 1 5 6 9 2 2 8 5 4 7 3 9 2 4 6 8 6 7 2 9 7 4 3 1 3 4 4 8 6 7 5 1 3 8 3 3 3 7 3 8 7 7 0 1 9 6 5 5 6 5 2 0 4 8 6 8 1 5 3 3 3 8 8 2 0 4 7 8 0 5 7 0 2 3 9 6 7 8 8 5 0 8 0 5 8 2 6 7 7 1 8 0 6 4 1 7 6 5 3 2 3 6 6 6 1 7 3 2 8 1 0 3 1 5 6 7 6 2 4 5 5 5 7 5 5 5 8 3 2 9 8 7 4 1 0 1 3 0 4 4 6 4 8 8 Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 5 3 5 2 4 3 8 0 5 6 7 3 7 3 3 7 3 1 3 2 5 5 5 8 1 5 4 2 1 0 5 3 5 7 8 8 5 8 6 4 2 7 5 6 7 9 7 6 4 4 0 2 3 5 8 7 5 4 2 2 1 4 1 0 5 6 7 3 3 3 1 4 1 5 0 2 3 2 4 5 0 7 1 2 0 6 4 8 7 7 2 6 7 5 7 5 2 9 2 4 0 5 8 3 1 7 5 4 4 5 5 3 7 6 1 7 8 8 1 7 6 9 6 5 6 8 7 7 2 4 1 0 2 8 8 9 2 3 5 4 0 9 6 3 6 3 3 5 8 2 5 5 1 4 2 9 9 3 6 4 2 3 6 7 5 5 5 6 3 4 6 3 5 3 2 8 4 8 6 1 6 9 8 4 2 5 1 9 6 6 6 6 3 7 9 3 2 5 8 7 1 6 9 5 3 5 4 5 4 5 1 5 5 3 4 5 7 7 3 4 1 5 2 1 1 0 8 8 7 5 6 2 3 8 6 6 6 8 8 8 7 4 2 7 4 1 8 0 7 9 4 8 3 4 0 9 2 6 5 3 4 8 5 8 2 2 3 7 9 1 2 1 8 0 1 1 1 7 8 3 9 3 4 0 8 1 9 0 0 6 5 3 3 7 5 5 7 4 9 8 7 7 4 7 4 3 3 3 9 2 4 4 6 3 1 0 8 7 7 3 7 7 1 7 3 7 3 2 7 9 3 0 4 6 5 1 0 7 9 9 3 5 3 0 8 1 7 3 0 7 8 4 7 7 5 1 6 2 4 6 6 1 8 3 5 6 1 8 5 9 7 1 3 9 6 2 5 7 3 5 1 6 1 6 4 4 3 5 3 5 1 4 4 9 6 3 7 9 1 7 2 5 3 3 2 4 7 0 5 3 1 7 0 1 2 1 2 3 4 8 5 4 6 6 7 7 9 1 6 1 7 5 3 8 4 1 8 5 3 6 3 7 1 2 3 4 4 3 3 5 5 7 6 9 5 4 5 6 2 7 7 0 2 6 4 7 4 7 8 0 4 7 8 4 4 7 8 3 1 5 4 0 7 5 3 7 1 7 8 5 0 4 5 5 5 4 2 5 4 8 3 4 5 1 5 6 4 6 3 5 3 7 7 3 2 4 1 7 4 2 6 6 8 6 3 1 1 7 4 8 3 3 1 7 1 7 7 6 6 3 2 9 8 7 7 6 7 8 7 3 2 4 7 0 0 5 8 6 2 4 2 7 8 1 3 3 5 5 5 5 4 0 7 6 1 3 5 9 9 1 7 7 7 7 9 8 3 2 6 5 6 4 4 5 1 1 2 7 8 7 8 2 2 2 1 5 6 2 5 0 4 7 3 5 0 3 3 5 1 7 3 1 2 0 8 7 3 6 4 3 6 2 6 2 9 8 2 2 7 7 7 2 7 8 4 7 9 4 8 8 7 7 4 8 8 3 6 2 7 9 2 7 4 6 4 7 8 9 7 3 1 3 3 4 3 6 8 8 1 6 6 6 1 9 7 3 2 4 3 3 6 6 4 2 8 7 8 6 9 2 0 2 9 8 4 2 3 8 3 3 4 7 1 6 6 0 7 8 8 6 3 3 1 7 2 3 8 8 1 7 2 2 8 7 0 3 5 3 8 6 2 6 3 6 0 9 1 2 1 4 3 4 2 7 3 4 3 7 1 5 5 3 9 5 7 1 3 1 5 6 1 9 5 6 6 1 2 0 2 2 0 5 7 3 3 5 3 2 9 7 3 2 1 9 2 7 6 3 5 8 5 7 7 7 4 6 4 2 4 8 7 8 8 7 1 5 6 9 9 8 1 8 4 1 8 0 2 1 7 7 8 3 6 7 7 3 8 7 4 0 4 6 8 2 2 6 6 1 5 2 18 3.5.2 - Amostragem proporcional estratificada: Muitas vezes a população se divide em estratos (sub-populações). Como é provável que a variável em estudo apresente, de estrato em estrato, um comportamento heterogêneo e, dentro de cada estrato, um comportamento homogêneo, convém que o sorteio dos elementos da amostra leve em consideração tais estratos. É exatamente isso que fazemos quando empregamos a amostragem proporcional estratificada, que, além de considerar a existência dos estratos, obtém os elementos da amostra proporcional ao número de elementos dos mesmos. Exercício Resolvido: Supondo que uma sala com 90 alunos, 54 seja do sexo masculino e 36 do sexo feminino, vamos obter a amostra proporcional estratificada. São, portanto, dois estratos (sexo masculino e sexo feminino) e queremos uma amostra de 10% da população. Logo, temos: a) Sexo População 10 % Amostra M 54 10 x 54 = 5,4 5 100 F 36 10 x 36 = 3,6 4 100 Total 90 10 x 90 = 9,0 9 100 b) Numeramos os alunos de 01 a 90, sendo que 01 a 54 correspondem a meninos e de 55 a 90, meninas. Tomando na Tabela de Números Aleatórios a primeira e a Segunda coluna da esquerda, de cima para baixo, obtemos os seguintes números: 90 48 53 44 47 05 62 82 30 82 23 07 33 58 Temos então: 48 53 44 47 05 - para os meninos; 90 62 82 58 - para as meninas. EXERCÍCIOS PROPOSTOS 1) Pesquisa – peso dos colegas de sua classe (incluindo você). Amostra – correspondente a 30 % da população. Sugestão – faça uso do diário de seu professor e da Tabela dos Números Aleatórios (5º e 6º colunas, de baixo para cima). Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 19 Sexo M População 30 % Amostra F Total 2) Em uma escola existem 250 alunos, sendo 35 na 1ª série, 32 na 2ª, 30 na 3ª, 28 na 4ª, 35 na 5ª, 32 na 6ª e 27 na 8ª. Obtenha uma amostra de 40 alunos e preencha o quadro abaixo. Séries 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª Total População 35 32 30 28 35 32 31 27 250 Cálculo proporcional Amostra 40 Sugestão: devemos calcular o número de elementos de cada estrato proporcionalmente ao número de elementos da amostra. Assim, para a 1ª série, temos: 250 35 40 x => x = 35 x 40 = 5,6 => x = 6. 250 3.5.3 – Amostragem sistemática: Quando os elementos da população já se acham ordenados, não há necessidade de construir o sistema de referência. São exemplos os prontuários médicos de um hospital, as casas de uma rua, as linhas de produção etc. Nestes casos, a seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. Assim, no caso de uma linha de produção, podemos, a cada dez itens produzidos, retirar um para pertencer a uma amostra da produção diária. Neste caso, estaríamos fixando o tamanho da amostra em 10 % da população. Exemplo: Suponhamos uma rua com 900 casas, das quais desejamos obter uma amostra formada por 50 casas para uma pesquisa de opinião. Podemos, neste caso, Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 20 usar o seguinte procedimento: como 900/50 = 18 escolhemos por sorteio casual um número de 01 a 18, o qual indicaria o primeiro elemento sorteado para a amostra; os demais elementos seriam periodicamente considerados de 18 em 18. Assim, se o número sorteado fosse o 4, tomaríamos, pelo lado direito da rua, o 4º prédio, o 22º, o 40º etc., até voltarmos ao início da rua, pelo lado esquerdo. Exemplo 2: Uma operadora telefônica pretende saber a opinião de seus assinantes comerciais sobre serviços na cidade de Divinópolis. Supondo que há 25037 assinantes comerciais, e a amostra precisa ter no mínimo 800 elementos, mostre como seria organizada uma amostragem sistemática para selecionar os respondentes. 3.5.4 – Amostragem por conglomerados (ou agrupamentos): Algumas populações não permitem, ou tornam extremamente difícil que se identifiquem seus elementos. Não obstante isso pode ser relativamente fácil identificar alguns subgrupos da população. Em tais casos, uma amostra aleatória simples desses subgrupos (conglomerados) pode ser colhida, e uma contagem completa deve ser feita para o conglomerado sorteado. Agrupamentos típicos são quarteirões, famílias, organizações, agências, edifícios etc. Exemplo 1: Num levantamento da população de determinada cidade, podemos dispor do mapa indicando cada quarteirão e não dispor de uma relação atualizada dos seus moradores. Pode-se, então, colher uma amostra dos quarteirões e fazer a contagem completa de todos os que residem naqueles quarteirões sorteados. Exemplo 2: Pesquisa Nacional por Amostra de Domicílios (PNAD) do IBGE. Coleta informações demográficas e sócio-econômicas sobre a população brasileira. Utiliza amostragem por conglomerados. Primeiro estágio: Amostras de municípios (conglomerados) para cada uma das regiões geográficas do Brasil. Segundo estágio: Setores censitários sorteados em cada município (conglomerado sorteado); Terceiro estágio: domicílios sorteados em cada setor censitário. 3.5.5 – Amostragem Acidental: Trata-se de uma amostra formada por aqueles elementos que vão aparecendo, que são possíveis de se obter até completar o número de elementos da amostra. Geralmente utilizada em pesquisas de opinião, em que os entrevistados são acidentalmente escolhidos. Exemplo: Pesquisas de opinião em praças públicas, ruas de grandes cidades. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 21 3.5.6 – Amostragem Intencional: De acordo com determinado critério, é escolhido intencionalmente um grupo de elementos que irão compor a amostra. O investigador se dirige intencionalmente a grupos de elementos dos quais deseja saber a opinião. Exemplo: Numa pesquisa sobre preferência por determinado cosmético, o pesquisador se dirige a um grande salão de beleza e entrevista as pessoas que ali se encontram. 3.5.7 – Amostragem por Quotas: Um dos métodos de amostragem mais comumente usados em levantamentos de mercado e em prévias eleitorais. Ele abrange três fases: 1ª - classificação da população em termos de propriedades que se sabe, ou presume, serem relevantes para a característica a ser estudada; 2ª - determinação da proporção da população para cada característica, com base na constituição conhecida, presumida ou estimada, da população; 3ª - fixação das quotas para cada entrevistador a quem tocará a responsabilidade de selecionar entrevistados, de modo que a amostra total observada ou entrevistada contenha a proporção e cada classe tal como determinada na 2ª fase. Exemplo Resolvido: Numa pesquisa sobre o “trabalho das mulheres na atualidade”, provavelmente se terá interesse em considerar: a divisão cidade e campo, a habitação, o número de filhos, a idade dos filhos, a renda média, as faixas etárias etc. A primeira tarefa é descobrir as proporções (porcentagem) dessas características na população. Imagina-se que haja 47 % de homens e 53 % de mulheres na população. Logo, uma amostra de 50 pessoas deverá Ter 23 homens e 27 mulheres. Então o pesquisador receberá uma “quota” para entrevistar 27 mulheres. A consideração de várias categorias exigirá uma composição amostral que atenda ao n determinado e às proporções populacionais estipuladas. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 22 EXERCÍCIOS PROPOSTOS 1) Uma escola de ensino fundamental abriga 124 alunos. Obtenha uma amostra representativa correspondendo a 15 % da população. (Sugestão: usem a 8º, 9º e 10º colunas, a partir da 1ª linha, da Tabela de Números Aleatórios de cima para baixo.). 2) Em uma escola há oitenta alunos. Obtenha uma amostra de doze alunos. (Sugestão: decida em conjunto o uso da Tabela de Números Aleatórios). 3) O diretor de uma escola, na qual estão matriculados 280 meninos e 320 meninas, deseja-se de conhecer as condições de vida extra-escolar de seus alunos e não dispondo de tempo para entrevistar todas as famílias, resolveu fazer um levantamento, por amostragem, em 10 % dessa clientela. Obtenha, para esse diretor, os elementos componentes da amostra. 4) Uma cidade X apresenta o seguinte quadro relativo às suas escolas de 1º grau: Escolas A B C D E F Total Número de Estudantes Masculino Feminino 80 95 102 120 110 92 134 228 150 130 300 290 876 955 Obtenha uma amostra proporcional estratificada de 120 estudantes. 5) Uma população encontra-se dividida em três estratos, com tamanhos, respectivamente, n 1 = 40, n 2 = 100 e n 3 = 60. Sabendo que, ao ser realizada uma amostragem estratificada proporcional, nove elementos da amostra foram retirados do 3º estrato, determine o número total de elementos da amostra. 6) Consulte uma revista Veja recente, identifique, na seção Números, os informes estatísticos ali expressos. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves CAPÍTULO 4 DISTRIBUIÇÃO DE FREQUÊNCIA 4.1 - OBJETIVO DO CAPÍTULO O objetivo deste capítulo é estudar a forma pela qual podemos descrever os dados estatísticos resultantes de variáveis quantitativas, como é o caso das notas obtidas pelos alunos de uma classe, estaturas de um conjunto de pessoas, salários recebidos pelos operários de uma fábrica etc. Desta maneira espera-se que o estudante de estatística possa organizar de maneira adequada os dados coletados de uma população. 4.2 – TABELAS DE FREQÜÊNCIA DE DADOS QUANTITATIVOS DISCRETOS. Iniciamos este tema com a construção de tabelas de freqüência de uma amostra de dados quantitativos discretos que, em geral, medem contagens representadas por números positivos o,1,2,3,...,n, por exemplo o número de pessoas atendidas em um determinado período de tempo, o número de transações financeiras realizadas pela internet em um determinado banco, a quantidade de peças defeituosa de um lote de produção, etc. Depois será tratada a construção de uma tabela de distribuição de freqüência com dados contínuos que podem assumir qualquer valor do conjunto de números reais, por exemplo, o peso dos alunos de uma sala do curso primário, vendas diárias de uma empresa, o consumo mensal de energia elétrica, a rentabilidade diária das ações mais negociadas na Bolsa de Valores.Embora essa classificação dados quantitativos pareça fácil, a separação entre discretas e contínuas nem sempre é clara. 4.2.1-Tabelas de freqüências absolutas A freqüência do valor de uma variável é o número de repetições desse valor. A tabela de freqüências absolutas de uma variável é uma função formada pelos valores da variável e suas respectivas freqüências; conhecidas também pelo nome de distribuição de freqüências absolutas. Considere o exemplo abaixo. Construa uma tabela de freqüências absolutas do número de operações fechadas por dia pelo operador B. Exemplo 1: O gerente do departamento de uma instituição financeira deseja analisar o número diário de operações fechadas nos últimos dois anos por um operador de seu departamento de operações de ações na Bolsa de Valores. Na tabela a seguir foi registrada uma amostra probabilística simples de tamanho 26, extraída das operações diárias fechadas pelo Operador B nos últimos dois anos. O objetivo é obter as possíveis conclusões dos registros dessa tabela. 24 14 13 12 14 13 15 11 13 12 12 13 14 16 13 14 14 14 13 15 15 17 16 Operações fechadas por dia Freqüências Absolutas 11 12 13 14 15 16 17 Total 2 5 6 7 3 2 1 26 14 12 11 13 Observando a tabela acima, que conclusões podemos chegar? A tabela de freqüências absolutas resume uma série de valores numéricos em uma simples classificação de freqüências muito útil para descrever características importantes do conjunto de dados da amostra. As duas tabelas de freqüências seguintes possibilitam incluir outras características não mostradas pela primeira tabela. 4.2.2-Tabelas de freqüências relativas A tabela de freqüência dada acima agrupa valores absolutos que permitem chegarmos a conclusões como, em cinco dias da amostra, o Operador B fechou 12 operações. Esse tipo de resultado não permite avaliar, por exemplo, se essa freqüência doze é alta ou baixa, pois nesse resultado não há nenhuma informação sobre o tamanho da amostra. Conseguiremos extrair mais informação da variável se suas freqüências forem expressas como porcentagem do tamanho da amostra. A freqüência relativa do valor de uma variável é o resultado de dividir sua freqüência absoluta pelo tamanho da amostra. A tabela de freqüências relativas de uma variável é uma função formada pelos valores da variável e suas respectivas freqüências relativas; conhecidas como distribuição de freqüências relativas. Continuando com o exemplo 1. Construa a tabela de freqüências relativas da variável número de operações por dia pelo Operador B e, depois analise a tabela. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 25 Operações fechadas por dia 11 12 13 14 15 16 17 Total Freqüências Absolutas 2 5 6 7 3 2 1 26 Freqüências Relativas 7,69% 19,23% 23,08% 26,92% 11,54% 7,69% 3,85% 100,00% Um ponto importante que precisa ser ressaltado é que analisando o procedimento para a construção da distribuição de freqüências relativas observamos que essa tabela é realizada com os dados registrados na tabela de freqüências absolutas. 4.2.3-Tabelas de freqüências acumuladas As distribuições de freqüências absolutas e relativas apresentadas são muito úteis para organizar e resumir os dados das observações em forma de tabela, permitindo detectar as características relevantes dos valores da variável amostrada. Em alguns casos, o interesse da análise reside em conhecer os valores da variáveis menores ou maiores que um determinado valor, por exemplo, o número de dias que o Operador B fechou menos do que 15 operações por dia, etc. A freqüência acumulada do valor de uma variável é a soma das freqüências absolutas ou relativas desde o valor inicial da variável. A tabela de freqüências acumuladas ou distribuição de freqüências acumuladas de uma variável é uma função formada pelos valores da variável e suas respectivas freqüências acumuladas. Continuando com o Exemplo1. Construa a tabela de freqüências acumuladas da variável número de operações fechadas por dia pelo Operador B. Operações fechadas por dia. 11 12 13 14 15 16 17 Freqüências acumuladas Absolutas Relativas 2 7,69% 7 26,92% 13 50,00% 20 76092% 23 88,46% 25 96,15% 26 100,00% Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 26 4.3-TABELAS DE FREQÜÊNCIAS DADOS QUANTITATIVOS CONTÍNUOS A construção das tabelas de freqüências do Exemplo 1 foi relativamente fácil, pois dados os dados da variável são quantitativos discretos, que resultam de contagens, com uma quantidade pequena de observações e a maior parte delas repetidas. Entretanto, se os dados da variável forem contínuos, que resultam de medições que podem ter grande precisão, a aplicação do procedimento anterior será trabalhosa e de baixa eficiência, pois poucos, ou até nenhum dos dados poderão apresentar freqüências. Nesse caso, o procedimento adequado para variáveis com valores contínuos é trabalhar com classes de valores. O método começa pela definição da quantidade, dos limites e da amplitude das classes onde serão selecionados os valores da variável. Na construção da tabela de freqüência, leve em consideração que: • Não há uma regra para determinar o número de classes, apenas orientações práticas para o analista. Por exemplo, para uma amostra de tamanho n, a quantidade de classe k recomendada por ser obtida através de: • k = n , onde k , representa a quantidade de classes, e n o tamanho da amostra (número de elementos de uma amostra) • k = 1 + 3,322 log(n) (chamada de regra de Sturges) • Ao trabalhar com classes, a tabela de freqüências não retém a identidade de cada observação individual, provocando perda de informação. Os valores da variável são transformados em uma nova variável cujos valores são os limites dos intervalos de classes. 4.3.1-ELEMENTOS DE (com intervalos de classe). UMA DISTRIBUIÇÃO DE FREQÜÊNCIA: a) Classes: São os intervalos de variação da variável. As classes são representadas simbolicamente por i, sendo i = {1, 2, 3,..., K}, onde k é o número total de classes da distribuição. b) Limites de classe: São os extremos de cada classe. O menor número é o limite inferior da classe ( li ) e o maior número, o limite superior da classe (Li). Obs.: Os intervalos de classe devem ser escritos, em termos de desta quantidade até menos aquela, empregando, para isso, o símbolo (inclusão de li e exclusão de Li , em alguns casos usa-se somente , para facilitar a escrita) c) Amplitude de um intervalo de classe (h i): É a medida do intervalo que define a classe. Assim: hi = Li − li d) Amplitude total da distribuição (AT): É a diferença entre o limite superior da última classe e o limite inferior da primeira classe. Assim: AT = L( Max ) − l ( Min ) e) Amplitude amostral (AA): É a diferença entre o valor máximo e o valor mínimo da amostra. AA = x ( Max ) − x ( Min ) . f) Ponto médio de uma classe (xi): É o ponto que divide o intervalo de classe em l + Li duas partes iguais. Assim: xi = i 2 Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 27 Decidido o número de classes que deve ter a distribuição, resta-nos resolver o problema da determinação da amplitude do intervalo de classe, o que conseguimos dividindo a amplitude total pelo número de classes. Assim temos que: h≅ AA k O exemplo a seguir mostra como proceder para construir tabelas de freqüências absolutas utilizando classes. As vendas diárias em milhares de uma empresa estão registradas na tabela a seguir. O objetivo é construir a tabela de freqüências absolutas e relativas e as respectivas freqüências acumuladas. 280 365 305 280 320 375 330 380 310 400 340 371 330 390 341 400 369 370 355 401 370 420 360 430 370 Solução: a) Determinação da quantidade de classes. Como premissa inicial é conveniente que todas as classes tenham a mesma largura, denominado também de intervalo ou amplitude de classe (como foi mostrado acima). A quantidade de classes deve ser ficada de forma que as classes representem adequadamente a distribuição de valores da variável sob estudo. Um número pequeno de classes gera amplitude de classes grandes, e vice-versa, podendo gerar distorções indesejáveis. Utilizando as regras práticas citadas acima, temos: k = 25 = 5 ou ainda; k = 1 + 3,322 log(25) = 5,64 Neste caso fica a critério do analista da amostra qual fica mais conveniente utilizar. Vamos, para facilitar os cálculos, utilizar k = 5 . b) Determinação da amplitude das classes. Os valores máximos e mínimos da amostra são respectivamente. 430 e 280. Logo temos que: h≅ AA 430 − 280 150 = = = 30 5 5 k c) Vamos agora preparar a tabela de seleção. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 28 Classes 1 2 3 4 5 Limite Inferior 280 310 340 370 400 Limite Superior 310 340 370 400 430 d) Seleção dos dados e construção das tabelas de freqüências. Classes 280 – 310 310 – 340 340 – 370 370 – 400 400 – 430 Total Freqüências absolutas 3 4 6 7 5 25 Freqüências relativas 12% 16% 24% 28% 20% 100% Freqüências acum. abs. 3 7 13 20 25 Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves Freqüências acum. rel. 12% 28% 52% 80% 100% 29 4.4 - EXERCÍCIOS PROPOSTOS 1) Utilizando as notas obtidas por 50 alunos de uma classe de 7ª série, construa uma tabela de freqüência absoluta, relativa e acumulada e responda: 1 2 2 2 2 a) b) c) d) e) f) 2 3 3 3 3 3 3 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9 9 Amplitude amostral. Amplitude da distribuição. O número de classes. O limite inferior da quarta classe. O limite superior da classe de ordem 2. Amplitude do segundo intervalo de classe. 2) Complete a tabela abaixo: i 1 2 3 4 5 6 Estaturas (cm) 150 154 154 158 158 162 162 166 166 170 170 174 fi 4 9 11 8 5 3 Σ = 40 xi fri Fi Fri Σ= Calcule: a) b) c) d) Quantos alunos têm estatura entre 154 cm, inclusive, e 158 cm? Qual a percentagem de alunos cujas estaturas são inferiores a 154 cm? Quantos alunos têm estatura abaixo de 162 cm? Quantos alunos têm estatura não-inferior a 158 cm? 3) Dada a tabela abaixo referente aos pontos dos 50 alunos em um teste da SEEMG, faça a distribuição de freqüência preenchendo a tabela. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 30 21,0 23,5 24,0 27,5 29,2 21,5 23,0 25,0 28,4 27,4 26,2 24,5 25,4 27,0 28,0 25,2 28,2 26,0 22,8 24,6 27,5 26,6 27,4 27,0 27,4 31,5 26,5 32,5 22,8 29,2 26,0 25,0 25,6 27,8 31,6 28,0 26,2 28,5 24,0 25,5 29,0 31,0 30,0 24,3 27,0 27,2 22,0 25,8 28,0 29,6 4) A distribuição abaixo indica o número de acidentes ocorridos com 70 motoristas de uma empresa de ônibus: Nº. Acidentes Nº. Motoristas 0 20 1 10 2 16 3 9 4 6 5 5 6 3 7 1 Determine: a) b) c) d) e) o número de motoristas que não sofreram nenhum acidente; o número de motoristas que sofreram pelo menos 4 acidentes; o número de motoristas que sofreram menos de 3 acidentes; o número de motoristas que sofreram no mínimo 3 e no máximo 5 acidentes; a percentagem dos motoristas que sofreram no máximo 2 acidentes. 5) A associação de ex-alunos de uma faculdade patrocina excursões mensais para associados solteiros. Os registros mostram que nos últimos quatro anos essas excursões contaram com 28 33 33 40 51 31 22 42 31 41 37 43 38 46 38 41 27 40 36 35 35 36 48 50 33 53 22 31 40 23 36 48 37 33 45 38 28 27 34 33 33 40 26 39 27 30 28 35 ex-alunos associados. Agrupe esses registros numa tabela de distribuição de freqüência com as classes 20-24; 25-29; 30-34;35-39;40-44;45-49;50-54. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves