FACULDADE DE TECNOLOGIA TUPY CURITIBA MÉTODOS QUANTITATIVOS ESTATÍSTICA APLICADA VAGNER J. NECKEL 2010 Rev. 00 SUMÁRIO 1. CONCEITOS GERAIS ....................................................................................................................3 1.1 PANORAMA HISTÓRICO ...............................................................................................................3 1.2 DEFINIÇÃO .................................................................................................................................3 1.3 A ESTATÍSTICA NAS EMPRESAS ....................................................................................................4 1.4 APLICAÇÕES ...............................................................................................................................4 1.5 MÉTODO EXPERIMENTAL X MÉTODO ESTATÍSTICO ......................................................................4 1.6 FASES DO MÉTODO ESTATÍSTICO.................................................................................................5 1.6.1 Definição do problema .....................................................................................................5 1.6.2 Coleta de dados................................................................................................................5 1.6.3 Crítica dos dados .............................................................................................................5 1.6.4 Apuração dos dados.........................................................................................................5 1.6.5 Exposição dos resultados .................................................................................................5 1.6.6 Análise dos resultados......................................................................................................6 1.7 POPULAÇÃO E AMOSTRA .............................................................................................................6 1.8 TIPOS DE VARIÁVEIS ...................................................................................................................7 2. DISTRIBUIÇÃO DE FREQUÊNCIA..............................................................................................9 2.1 ELEMENTOS DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA ....................................................................9 2.2 SÍNTESE DE DADOS QUALITATIVOS ............................................................................................12 2.3 SÍNTESE DE DADOS QUANTITATIVOS ..........................................................................................13 2.3.1 Distribuição de frequência sem intervalos de classe........................................................13 2.3.2 Distribuição de freqüência com intervalos de classe .......................................................15 3. MEDIDAS DE POSIÇÃO ..............................................................................................................21 3.1 MEDIDAS DE TENDÊNCIA CENTRAL ............................................................................................21 3.1.1 Média.............................................................................................................................21 3.1.2 Mediana.........................................................................................................................25 3.1.3 Moda .............................................................................................................................28 3.2 MEDIDAS SEPARATRIZES ...........................................................................................................30 4. MEDIDAS DE DISPERSÃO..........................................................................................................33 4.1 AMPLITUDE TOTAL ...................................................................................................................33 4.2 VARIÂNCIA E DESVIO PADRÃO ...................................................................................................33 5. COEFICIENTE DE VARIAÇÃO ..................................................................................................37 BIBLIOGRAFIA................................................................................................................................38 [email protected] 2 ESTATÍSTICA 1. CONCEITOS GERAIS 1.1 Panorama histórico Todas as ciências têm suas raízes na história do homem. A Matemática, que é considerada “a ciência que une a clareza do raciocínio à síntese da linguagem” originouse do convívio social, das trocas, da contagem, com caráter prático, utilitário, empírico. A Estatística, ramo da Matemática Aplicada, teve origem semelhante. Desde a Antiguidade vários povos já registravam o número de habitantes, de nascimentos, de óbitos, faziam estimativas da riqueza individual e social, distribuíam equitativamente terras ao povo, cobravam impostos e realizavam inquéritos quantitativos por processos que hoje chamaríamos “estatísticas”. Na Idade Média colhiam-se informações, geralmente com finalidades tributárias ou bélicas. A partir do século XVI começaram a surgir as primeiras análises sistemáticas de fatos sociais (batizados, casamentos, funerais) originando as primeiras tábuas e tabelas. No século XVIII o estudo de tais fatos foi adquirindo uma feição verdadeiramente científica. Godofredo Achenwall batizou a nova ciência com o nome de Estatística, determinando o seu objetivo e suas relações com as ciências. As tabelas tornaram-se mais completas, surgiram as representações gráficas e o cálculo de probabilidades. A Estatística deixa de ser simples catalogação de dados numéricos coletivos para se tornar o estudo de como chegar a conclusões sobre o todo (população) partindo de observações de parte deste todo (amostras). Atualmente, o público leigo (leitor de revistas e jornais) posiciona-se em dois extremos divergentes e igualmente errôneos quanto à validade das conclusões estatísticas: ou crê em sua infalibilidade ou afirma que elas nada provam. Os que assim pensam ignoram os objetivos, o campo e o rigor do método estatístico; ignoram a Estatística, quer teórica quer prática, ou a conhecem muito superficialmente. Na era da energia nuclear, os estudos estatísticos têm avançado rapidamente e, com seus processos e técnicas, têm contribuído para a organização dos negócios e recursos do mundo moderno. 1.2 Definição A Estatística é uma parte da Matemática Aplicada que fornece métodos para coleta, organização, descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões. A parte da estatística que trata da coleta, organização e descrição dos dados é denominada Estatística Descritiva; a parte que lida com a análise e interpretação dos dados chama-se Estatística Indutiva ou Inferencial. Em geral, as pessoas, quando se referem ao termo estatística, o fazem no sentido da organização e descrição dos dados (estatística do Ministério de Educação e outras) desconhecendo que o aspecto essencial da Estatística é o de proporcionar métodos inferenciais, que permitam conclusões que transcendam os dados obtidos inicialmente. Assim, a análise e interpretação dos dados estatísticos tornam possível o diagnóstico de uma empresa (ex. escola), o conhecimento de seus problemas (condições [email protected] 3 de funcionamento, produtividade), a formulação de soluções apropriadas e um planejamento objetivo de ação. 1.3 A Estatística nas empresas No mundo atual, a empresa é uma das vigas-mestra da Economia dos povos. A direção de uma empresa, de qualquer tipo, incluindo as estatais e governamentais, exige de seu administrador a importante tarefa de tomar decisões, e o conhecimento e o uso da Estatística facilitarão seu tríplice trabalho de organizar, dirigir e controlar a empresa. Por meio de sondagem, de coleta de dados e de recenseamento de opiniões, podemos conhecer a realidade geográfica e social, os recursos naturais, humanos e financeiros disponíveis, as expectativas da comunidade sobre a empresa, e estabelecer suas metas, seus objetivos com maior possibilidade de serem alcançados a curto, médio e longo prazo. A Estatística ajudará em tal trabalho, como também na seleção e organização da estratégia a ser adotada no empreendimento e, ainda, na escolha de técnicas de verificação e avaliação da quantidade e da qualidade do produto e mesmo dos possíveis lucros e perdas. Tudo isso que se pensou, que se planejou, precisa ficar registrado, documentado para evitar esquecimentos, a fim de garantir o bom uso do tempo, da energia e do material e, ainda, para um controle eficiente do trabalho. O esquema do planejamento é o plano, que pode ser resumido, com auxílio da Estatística, em tabelas e gráficos, que facilitarão a compreensão visual dos cálculos matemático-estatísticos que lhes deram origem. O homem de hoje, em suas múltiplas atividades, lança mão de processos e técnicas estatísticas, e só estudando-os evitaremos o erro das generalizações apressadas a respeito de tabelas e gráficos apresentados em jornais, revistas e televisão, frequentemente cometido quando se conhece apenas “por cima” um pouco de Estatística. 1.4 Aplicações Contabilidade: auditorias Finanças: recomendações de investimento Marketing: pesquisa de mercado Produção: controle de qualidade Economia: “previsões” sobre o futuro da economia Em vista dos tópicos abordados até o presente é importante ter em mente que é importante estudar estatística porque: O raciocínio estatístico é amplamente utilizado no governo e na administração; A estatística é uma ferramenta para tomada de decisões; O conhecimento de estatística auxilia na leitura crítica de jornais, revistas, artigos e outros. 1.5 Método Experimental x Método Estatístico Atualmente, quase todo acréscimo de conhecimento resulta da observação e do estudo. Apesar de que muito desse conhecimento pode ter sido observado inicialmente [email protected] 4 por acaso, a verdade é que desenvolvemos processos científicos para seu estudo e para adquirirmos tais conhecimentos. Sendo assim, Método é um conjunto de meios dispostos convenientemente para se chegar a um fim. Dos métodos científicos, vamos destacar o método experimental e o estatístico. O método experimental consiste em manter constantes todas as causas (fatores), menos uma, e variar esta causa de modo que o pesquisador possa descobrir seus efeitos, caso existam. É o método preferido no estudo da Física, da Química. O método estatístico, diante da impossibilidade de manter as causas constantes, admite todas essas causas presentes variando-as, registrando essas variações e procurando determinar no resultado final que influência cabe a cada uma delas. É amplamente aplicado nas Ciências Sociais. Ex.: Determinação das causas que definem o preço de uma mercadoria. Para aplicarmos o método experimental teríamos que fazer variar a quantidade da mercadoria e verificar se tal fato influenciaria seu preço. Porém, seria necessário que não houvesse alteração nos outros fatores. No método estatístico estes outros fatores (uniformidade dos salários, gosto do consumidor e outros) são levados em conta. 1.6 Fases do Método Estatístico 1.6.1 Definição do problema Determinar o objetivo da pesquisa, a população ou amostra a ser pesquisada e as características mensuráveis que se quer pesquisar. 1.6.2 Coleta de dados Após cuidadoso planejamento e a devida determinação das características mensuráveis do fenômeno coletivo que se quer pesquisar, é iniciada a coleta de dados numéricos necessários à sua descrição. A coleta pode ser direta e indireta. Coleta direta: informativos de registro obrigatório (nascimentos, casamentos e óbitos, importação e exportação de mercadorias), prontuários de uma escola ou dados obtidos pelo próprio pesquisador (questionários); Coleta indireta: quando é inferida de elementos conhecidos (coleta direta). 1.6.3 Crítica dos dados Obtidos os dados, eles devem ser cuidadosamente criticados, à procura de possíveis falhas e imperfeições, a fim de não incorrermos em erros grosseiros ou de certo vulto, que possam influir sensivelmente nos resultados. 1.6.4 Apuração dos dados Nada mais é do que a soma e o processamento dos dados obtidos e a disposição mediante critérios de classificação. Pode ser manual, eletromecânica ou eletrônica. 1.6.5 Exposição dos resultados Os dados devem ser apresentados em forma de tabelas ou gráficos, tornando mais fácil o exame daquilo que está sendo objeto de tratamento estatístico e ulterior obtenção de medidas típicas. [email protected] 5 1.6.6 Análise dos resultados Tirar conclusões sobre o todo (população) a partir de informações fornecidas por parte representativa do todo (amostra). 1.7 População e amostra A Estatística tem por objetivo o estudo dos fenômenos coletivos e das relações entre eles. Fenômeno coletivo é aquele que se refere a um grande número de elementos, sejam pessoas ou coisas, os quais denominamos de população ou universo. Conceito 1: Ao conjunto de entes (pessoas, coisas) portadores de, pelo menos, uma característica comum denominamos população estatística (ou universo estatístico). Assim, os estudantes, por exemplo, constituem uma população, pois apresentam pelo menos uma característica comum: são os que estudam. Como em qualquer estudo estatístico temos em mente pesquisar uma ou mais características dos elementos de alguma população, esta característica deve estar perfeitamente definida. E isto se dá quando, considerado um elemento qualquer, podemos afirmar, sem ambigüidade, se esse elemento pertence ou não à população. É necessário, pois, existir um critério de constituição da população, válido para qualquer pessoa, no tempo ou no espaço. Por isso, quando pretendemos fazer uma pesquisa entre os alunos da Faculdade, precisamos definir quais são os alunos que formam o universo: os que atualmente ocupam as carteiras da escola, ou devemos incluir também os que já passaram pela escola? É claro que a solução do problema vai depender de cada caso particular. De acordo com o seu tamanho, a população pode ser classificada pode ser classificada como finita ou infinita. A população finita é aquela que conhecemos o seu número total de elementos. Por ex: estamos analisando o aproveitamento nas aulas de Estatística de uma turma de 50 alunos. Sabemos exatamente quantos alunos estão sendo observados. Logo, a população de alunos é finita. No entanto, se a população possui um número infinito de elementos, ela é uma população infinita. Por ex: desejamos saber quantas pétalas têm, em média, as rosas que nascem no Brasil. Entretanto, não sabemos exatamente quantas são as rosas que nascem no Brasil. Logo, a população de rosas é infinita. Em resumo, população é o conjunto de elementos que desejamos observar para obter determinada informação. Na maioria das vezes, por impossibilidade ou inviabilidade econômica ou temporal, limitamos as observações referentes a uma determinada pesquisa a apenas uma parte da população. A essa parte proveniente da população em estudo denominamos amostra. Uma amostra é um subconjunto finito de elementos extraídos de uma população. Exemplo: Uma pesquisa típica de televisão utiliza uma amostra de 4000 lares e, com base nos resultados, formula conclusões acerca da população de todos os 98.750.324 lares da cidade XYZ. [email protected] 6 1.8 Tipos de variáveis Variável é a característica de interesse dos elementos em estudo, sejam estes pessoas ou objetos. Os dados são os fatos e os números que são coletados, analisados e interpretados; são os resultados possíveis para a variável. Exemplos de variáveis são: nome, sexo, cor dos olhos, peso, estatura e outros. Uma variável pode ser: a) QUALITATIVA – quando seus valores são expressos por atributos: sexo (masculino – feminino), cor da pele (branca, preta, amarela), cargo (supervisor, chefe, gerente, secretária) As variáveis qualitativas podem ser: Nominais: não tem ordenamento, nem hierarquia. Ex. variável sexo, cor da pele; Ordinais: possuem ordenamento, hierarquia. Ex. variáveis cargo, escolaridade. b) QUANTITATIVA – quando seus valores são expressos em números: salários dos funcionários de uma determinada empresa, idade dos alunos de uma escola e outros. As variáveis quantitativas podem ser: Contínuas: podem assumir, teoricamente, qualquer valor entre dois limites. Associada a medição. Ex. salário, altura, temperatura. Discretas: valores inteiros. Associada a contagem. Ex. número de alunos em uma sala, quantidade de livros numa biblioteca. Obs: As operações aritméticas comuns só têm significado com dados quantitativos. Exercícios de aplicação: 1. Classifique as variáveis em qualitativas (nominais ou ordinais) e quantitativas (contínuas ou discretas): População: alunos de uma escola Variável: cor dos cabelos População: casais residentes em uma cidade Variável: número de filhos População: as jogadas de um dado. Variável: o ponto obtido em cada jogada População: peças produzidas por certa máquina Variável: número de peças produzidas por hora População: peças produzidas por certa máquina Variável: diâmetro externo População: bibliotecas da cidade de Curitiba Variável: número de volumes 2. Identifique cada número como discreto ou contínuo: a. Cada cigarro FDB tem 16,13 mg de alcatrão. [email protected] 7 b. O altímetro do avião indica uma altitude de 10,54 m. c. Uma pesquisa efetuada com 1015 pessoas indica que 40 delas são assinantes de um serviço de computador on-line. d. Dos 1000 consumidores pesquisados, 930 reconheceram a marca da sopa Delícia. Interessante: Índices, coeficientes e taxas Índices são razões entre duas grandezas tais que uma não inclui a outra. Exemplos: QuocienteIntelectual idadeMental x100 idadeCronológica DensidadeDemográfica Re ndapercapta população sup erfície renda população Qual o quociente intelectual (Q.I) de uma pessoa com idade mental de 12 anos e idade cronológica igual a 34 anos? Coeficientes são razões entre o número de ocorrências e o número total; taxas são os coeficientes multiplicados por uma potência de 10 para tornar o resultado mais inteligível. Exemplos: CoeficienteNatalidade n o nascimentos populaçãototal Taxadenatalidade CoeficienteNatalidadex1000 CoeficientedeAproveitamentoEscolar n o dealunosAprovados n o finaldeMatrículas TaxadeAproveitamentoEscolar CoeficientedeAproveitamentoEscolarx100 Calcule a taxa de aprovação de um professor de uma classe de 45 alunos, sabendo que obtiveram aprovação 36 alunos. [email protected] 8 2. DISTRIBUIÇÃO DE FREQUÊNCIA Uma distribuição de frequência é um sumário tabular de dados que mostra a frequência (ou o número) de observações em cada uma das diversas classes. Por classe entenda o intervalo de variação da variável. Exemplos de distribuição de frequência: a) Para dados qualitativos Refrigerante Coca-Cola (CC) Coca-Cola Light (CCL) Fanta Uva (FU) Pepsi-Cola (PC) Sprite (SP) Total b) Para dados quantitativos Estaturas (cm) 150 ├154 154 ├158 158 ├162 162 ├166 166 ├170 170 ├174 Total Frequência (fi) 18 9 5 13 5 50 Frequência 4 9 11 8 5 3 40 2.1 Elementos de uma distribuição de frequência São elementos de uma distribuição de frequência: Classes (k) – classes de frequência ou simplesmente classes são intervalos de variação da variável. Limites de classe – são os extremos de cada classe. Cada classe possui um limite inferior (Li) e um limite superior (Ls). Amplitude total da distribuição (AT) – diferença entre o limite superior da última classe e o limite inferior da primeira classe. At Lmax Lmin 174 150 24 [email protected] 9 Amplitude de um intervalo de classe (h) – diferença entre o limite superior da classe (Ls) e o limite inferior da classe (Li). h Ls Li 154 150 4 ou A 24 h T 4 k 6 Obs. Todas as classes apresentam a mesma amplitude. Ponto médio de uma classe – metade da soma dos limites de classe. L Ls 150 154 Para a primeira classe temos: xi i 152 2 2 Frequência simples ou absoluta (fi) – valor que representa o número de dados de cada classe. Temos sempre que f i n , onde n é o número total de observações. Frequência relativa (fr) – razão entre a frequência simples e a frequência total. fr fi f i fi n Da distribuição acima temos que a frequência relativa da 3a classe é 11 fr 0,275 . 40 O propósito das freqüências relativas é o de permitir a análise ou facilitar comparações de dados. Frequência acumulada (Fi) – total das frequências de todos os valores inferiores ao limite superior do intervalo de uma dada classe: Fi f1 f 2 ... fi A frequência acumulada da 3a classe da distribuição acima ilustrada é Fi= 24 (4+9+11), o que significa que existem 24 alunos com altura inferior a 162 cm (limite superior do intervalo da 3a classe). Frequência acumulada relativa (Fr) – quociente entre a freqüência acumulada e o total de freqüências. Fr Fi f i Assim, para a terceira classe temos que Fr [email protected] 24 0,60 40 10 Exercícios de aplicação 1. A tabela abaixo apresenta uma distribuição de frequência das áreas de 370 lotes de uma determinada cidade. Áreas (m2) Número de lotes 300 ├ 400 14 400 ├ 500 16 500 ├ 600 58 600 ├ 700 76 700 ├ 800 68 800 ├ 900 62 900 ├ 1000 48 1000 ├ 1100 22 1100 ├ 1200 6 Total 370 Com referência a essa tabela, determine: a amplitude total; o limite superior da 5a classe; o limite inferior da 8a classe; o ponto médio da 7 a classe; a amplitude do intervalo da 2 a classe; a frequência da 4a classe; a frequência relativa da 6a classe; a frequência acumulada da 5a classe; o número de lotes cuja área não atinge 700 m2; o número de lotes cuja área atinge e ultrapassa 800 m2; a percentagem dos lotes que não atingem 600 m2; a percentagem dos lotes cuja área é de 500 m2, no mínimo, mas inferior a 1000 m2; a classe do 72o lote. 2. Os valores da distribuição de frequência abaixo se referem aos preços de locação de sobrados de 2 quartos no bairro TYÇ extraídos da Folha do Amanhã no período de 19 a 25/02/01. Preço de locação (em R$) Quantidade de imóveis 130 ├ 185 3 185 ├ 240 7 240 ├ 295 4 295 ├ 350 6 350 ├ 405 9 405 ├ 460 1 Total 30 Responda: Qual a amplitude total da distribuição? Qual a amplitude da 3a classe? Quantos sobrados possuem seu preço de locação entre R$ 240,00 (inclusive) e R$ 405,00? Qual a frequência relativa da 6 a classe? Qual a frequência acumulada da 4 a classe? [email protected] 11 Qual o percentual de sobrados cujo preço de locação está entre R$ 240,00 (inclusive) e R$ 460,00? 3. Uma distribuição de frequência está representada abaixo: Salário dos funcionários da empresa ABC Faixa salarial, em R$ fi fr 0,00 ├ 240,00 4 240,00 ├ 480,00 8 480,00 ├ 720,00 14 720,00 ├ 960,00 28 960,00 ├ 1200,00 21 1200,00 ├ 1440,00 12 1440,00 ├ 1680,00 7 Acima de 1680,00 6 100 Fi Fr a) Complete as lacunas restantes. b) Com base na tabela completa responda: Qual o número de pessoas que recebe menos que R$ 960,00? Qual a porcentagem de pessoas que recebe entre R$ 1200,00 (inclusive) e R$ 1440,00? Qual o número de pessoas que recebe de R$ 720,00 para cima? 2.2 Síntese de dados qualitativos Exemplo de aplicação: Foram coletados dados relativos a 50 compras de refrigerantes. Os produtos envolvidos na pesquisa foram: Coca-Cola (CC), Coca-Cola Light (CCL), Pepsi-Cola (PC), Fanta Uva (FU) e Sprite (SP). CC CCL PC CCL CC CC FU CCL PC PC CC FU SP CC CCL CC CC SP CC CCL CC CCL CC SP PC CC CC CC PC CC SP FU PC CCL PC CC CC CC PC FU CC CCL PC PC PC PC CCL FU PC SP Elaboração da distribuição de frequência Passo 1: Distribuição das classes e contagem Refrigerante Coca-Cola (CC) Coca-Cola Light (CCL) Fanta Uva (FU) Pepsi-Cola (PC) Sprite (SP) Total Frequência (fi) 18 9 5 13 5 50 Passo 2: Cálculo das frequências relativa (fr) e percentual (fp) [email protected] 12 Refrigerante Frequência (fi) Coca-Cola Coca-Cola Light Fanta Uva Pepsi Cola Sprite Total 18 9 5 13 5 50 Frequência relativa (fr) Frequência acumulada simples (Fi) Frequência acumulada relativa (Fr) Passo 3: Representação gráfica Frequência relativa Distribuição das compras de 50 refrigerantes 0,4 0,3 0,2 0,1 0 1 2 3 4 5 6 Refrigerantes Exercício de aplicação 1. Foi realizada uma pesquisa para avaliação do restaurante do Zé. Uma das perguntas avaliadas foi: “Qual a sua impressão sobre a qualidade da comida apresentada no restaurante do Zé?” Foram entrevistadas 50 pessoas e as respostas obtidas foram as seguintes (E= excelente, MB= muito bom, B= bom, R= regular, F= fraco): B MB MB E E E R B MB F B R B R E E R E MB MB E R F E MB R MB E E E E R MB E E MB B E B R E B E B MB E E R MB MB a) Construa a distribuição de frequência simples; b) Represente graficamente as distribuições; c) Interprete os resultados obtidos. 2.3 Síntese de dados quantitativos 2.3.1 Distribuição de frequência sem intervalos de classe Quando se trata de variável quantitativa discreta de variação relativamente pequena, cada valor pode ser tomado como um intervalo de classe e, nesse caso, a distribuição é chamada distribuição sem intervalos de classe, tomando a seguinte forma: [email protected] 13 Variável de estudo (xi) x1 x2 ... xn Frequência (fi) f1 f2 ... fn fi = n Exemplo de aplicação: Uma empresa de prestação de serviços fez uma pesquisa onde seus 30 principais clientes, de um universo de 150 clientes, avaliaram o atendimento dando notas inteiras de valor entre 0 e 10. Os resultados obtidos estão listados na tabela abaixo (tabela primitiva). 5 6 3 2 1 3 9 2 8 1 3 4 7 3 7 3 2 1 4 0 4 2 5 2 3 3 2 1 4 1 Elaboração da distribuição de freqüência sem intervalos de classe A variável em estudo é nota (valores inteiros de 0 a 10), sendo, para o caso em questão, uma variável quantitativa discreta. Vamos então construir a distribuição de frequência utilizando dados agrupados sem intervalo de classe. Passo 1: Elaboração do rol (opcional). O rol consiste na ordenação dos dados coletados em ordem crescente. 0 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 5 5 6 7 7 8 9 Passo 2: Distribuição das classes e contagem. Cálculo das frequências relativa (fr) e percentual (fp). Notas Frequência (fi) 0 1 2 3 4 5 6 7 8 1 5 6 7 4 2 1 2 1 [email protected] Frequência relativa Frequência (fr) percentual (fp) 0,033 3,3 0,167 16,7 0,200 20,0 0,233 23,3 0,133 13,3 0,067 6,7 0,033 3,3 0,067 6,7 0,033 3,3 14 9 Total 1 30 0,033 1,000 3,3 100 Passo 3: Representação gráfica Na distribuição de frequência para dados agrupados sem intervalo de classe não há perda de informação. 2.3.2 Distribuição de freqüência com intervalos de classe Quando se trata de variável quantitativa contínua utiliza-se a distribuição de frequência com intervalos de classe. Esta toma a seguinte forma: Variável de estudo (xi) x1 ├ x2 x2 ├ x3 ... xm ├ xn Frequência (fi) f1 f2 ... fn fi = n Exemplo de aplicação: Suponha que desejamos realizar um estudo sobre estaturas de alunos de determinado grupo escolar e que este grupo seja composto de 40 alunos. A variável de interesse é quantitativa contínua – peso. Os dados coletados são listados abaixo (valor de altura em cm) e constituem a tabela primitiva. Vamos construir então a distribuição de frequência considerando os dados agrupados com intervalos de classe. 166 162 155 154 160 161 152 161 161 168 163 156 150 163 160 172 162 156 155 153 160 173 155 157 165 160 169 156 167 155 151 158 160 168 164 161 164 164 170 158 Elaboração de distribuição de freqüência com intervalos de classe Passo 1: Após a coleta e listagem dos dados na tabela primitiva o passo seguinte é a elaboração do rol. O rol consiste na ordenação dos dados coletados em ordem crescente. [email protected] 15 150 151 152 153 154 155 155 155 155 156 156 156 157 158 158 160 160 160 160 160 161 161 161 161 162 162 163 163 164 164 164 165 166 167 168 168 169 170 172 173 Passo 2: Elaborado o rol determina-se o número de classes da distribuição: Este número pode ser determinado (a) por método empírico, (b) pela regra de Sturges ( k 1 3,3 log n ) ou (c) regra prática k n . Pela regra prática: k n 40 6 . Inicia-se então a montagem da distribuição de frequência. A 173 150 Passo 3: Determina-se a amplitude do intervalo de classe h T 4 e k 6 definem-se os limites inferiores e superiores de cada classe. Para a primeira classe, temos que o limite inferior Li é 150 e o limite superior é Ls= Li + h= 150 + 4=154. Para determinação dos limites inferior e superior para as classes seguintes o procedimento é o mesmo. Tem-se então: Estaturas (cm) 150 ├154 154 ├158 158 ├162 162 ├166 166 ├170 170 ├174 Total Frequência (fi) Passo 4: Procede-se a contagem dos elementos pertencentes a cada classe para determinar a coluna de frequência simples, frequência relativa e frequência acumulada. Estaturas (cm) 150 ├154 154 ├ 158 158 ├ 162 162 ├ 166 166 ├ 170 170 ├ 174 Total fi xi fr Fi Fr 4 9 11 8 5 3 40 Passo 5: Elabora-se o histograma. [email protected] 16 Frequência Histograma 12 10 8 6 4 2 0 150 ┤154 154 ┤158 158 ┤162 162 ┤166 166 ┤170 170 ┤174 Estatura dos alunos (em cm) Ao agruparmos os valores da variável desta forma ganhamos em simplicidade, mas perdemos os pormenores. O que pretendemos com a construção dessa distribuição é realçar o que há de essencial nos dados e, também, tornar possível o uso de técnicas analíticas para sua total descrição. Em resumo, para elaborar uma distribuição de frequência para dados quantitativos os seguintes passos devem ser seguidos: a. A partir da tabela primitiva, elaborar o rol dos dados; b. Determinar o número de classes (k). Este número pode ser determinado (a) por método empírico, (b) pela Regra de Sturges ( k 1 3,3 log n ) ou (c) regra c. d. e. f. prática k n ; Determinar a amplitude do intervalo de classe (AT); Determinar os limites inferiores e superiores de cada classe; Realizar a contagem dos elementos de cada classe; Montar a distribuição de frequência nas formas tabular e gráfica. Exercícios de aplicação 1. Uma confecção contratou uma empresa para fazer uma pesquisa para saber como varia a estatura das pessoas adultas de determinado bairro da sua cidade, a fim de saber como encaminhar a produção das roupas que produz. A pesquisa, feita com uma amostra de 40 adultos escolhidos ao acaso, revelou os seguintes dados: Estaturas (em m) de 40 pessoas adultas 1,66 1,50 1,62 1,79 1,64 1,63 1,61 1,68 1,76 1,70 1,58 1,57 1,73 1,82 1,72 1,56 1,58 1,69 1,65 1,58 1,85 1,70 1,68 1,65 1,68 1,75 1,70 1,64 1,65 1,62 1,70 1,64 1,61 1,63 1,67 1,64 1,68 1,70 1,67 1,69 a. Qual a variável em questão? Que tipo de variável é esta? b. Elabore uma distribuição de frequência relativa. c. Elabore o histograma de frequência relativa. 2. Os dados para os números de unidades produzidas por um determinado funcionário da área de produção durante vinte dias são apresentados a seguir: 160 148 170 198 [email protected] 181 179 156 162 176 150 17 162 156 179 178 157 154 179 148 Sintetize os dados construindo: a. Uma distribuição de frequência relativa b. Uma distribuição de frequência relativa acumulada c. Os respectivos histogramas para os itens a e b. 151 156 3. O diretor de produção de uma grande fábrica de chocolates resolveu fazer uma inspeção surpresa na linha para verificar o peso dos chocolates, os quais deveriam ter 200 1 g. Para tanto, coletou uma amostra com 40 unidades e verificou, um a um, o peso dos chocolates. Os resultados obtidos foram os seguintes: 199,4 198,5 199,7 200,3 197,8 199,2 201,2 200,5 198,2 197,9 199,8 201,4 199,4 199,4 200,1 198,9 197,9 199,2 200,2 200,3 199,7 199,5 197,8 199,5 199,5 199,1 200,4 198,5 198,9 200,3 198,6 199,2 198,6 198,8 200,1 199,1 198,8 201,4 199,8 198,5 Organizar os resultados um uma tabela de frequência acumulada relativa e fazer o respectivo histograma. Como diretor de produção avaliar os seguintes itens: a. Quantos % do total da amostra pesam menos do que 199 g? b. Quantos % pesam mais do que 201 g? c. Sabendo que o valor admitido é 200 1 g como você avalia a sua produção? 4. O IBOPE realizou levantamento estatístico, a respeito de índices de audiência de um determinado programa “A Hora da Hora” da emissora CCC, durante 50 dias. A tabela abaixo fornece os dados obtidos, através de pesquisa realizada pelo IBOPE, referentes a índices de audiência (de 0 a 100 pontos) para cada um dos 50 dias de acompanhamento. 15.2 23.4 25.1 30.1 28.0 14.6 17.8 42.0 30.1 25.3 27.9 26.9 35.2 22.1 31.8 24.9 30.8 15.6 24.4 31.0 20.0 19.9 25.5 28.7 28.3 43.5 36.8 29.7 35.0 13.5 30.7 33.4 27.8 26.1 32.1 30.0 19.8 14.6 28.2 25.4 35.7 29.6 22.1 19.4 26.7 40.9 38.2 24.3 28.7 36.8 a. Com base nos dados apresentados construa histograma de frequência relativa representando os índices de audiência do programa “A Hora da Hora”. b. Retire, do histograma obtido, o máximo de informações e conclusões possíveis sobre os índices de audiência do programa. 5. Uma empresa de prestação de serviços fez uma pesquisa onde seus 60 principais clientes de um universo de 1000 clientes avaliaram o atendimento dando notas inteiras de valor entre 0 e 10. Os resultados obtidos se encontram na tabela abaixo. 5 6 3 2 1 9 2 8 1 3 7 3 7 3 2 4 0 4 2 5 [email protected] 3 3 2 1 4 6 0 3 0 3 5 2 2 1 6 8 1 4 2 2 2 3 7 2 8 3 1 3 2 2 18 3 4 1 2 1 6 1 3 2 1 a. Com base nestes resultados elabore tabelas de freqüência absoluta para dados agrupados sem intervalo de classe e dados agrupados com intervalo de classe. b. Represente as duas tabelas na forma de histograma. c. Analise seus resultados o obtenha conclusões a respeito desta pesquisa. 6. Ao final de um dia de trabalho a fábrica de camisetas Arara produziu 5000 peças. O chefe da qualidade resolve realizar inspeção para verificar a quantidade de defeitos/ peça. Entre os itens verificados estão acabamento, estampa, costura, existência de rasgo e outros. Foram tomadas 50 camisetas e a quantidade de defeitos/ peça foi assim registrada: 0 1 2 3 2 3 0 1 0 0 1 0 0 1 1 4 1 2 0 2 0 0 0 1 0 0 0 5 1 1 0 2 1 1 2 Construa a tabela de frequência relativa com seu respectivo dados agrupados sem intervalo de classe. 1 0 2 2 2 3 2 1 2 2 3 1 0 1 0 histograma considerando Como chefe da qualidade avalie: qual o percentual de zero defeitos/peça obtido? qual o percentual de peças com menos de três defeitos? qual o percentual de peças com 5 defeitos? Sabendo que a norma exige que o percentual máximo admissível de peças com 5 defeitos seja de 1,5% avalie a produção do dia. 7. Para os exercícios abaixo listados: a) elabore distribuição de frequência com fi, fr, Fi e Fr ,b) construa os respectivos histogramas e c) interprete os resultados obtidos. a) Os seguintes dados referem-se à média salarial (em R$) dos funcionários contratados pelas melhores empresas (as que mais se destacaram em 1998), segundo dados da revista Exame. Média salarial (em R$) 1638 1894 2154 1104 1271 1004 2415 516 1317 1715 3957 2000 704 780 756 1351 1330 2622 1137 2634 585 1398 1319 3296 802 1440 1230 3050 2169 2846 588 3153 1674 3500 1158 b) As cotações a seguir referem-se às variações do dólar turismo no período de 03/01 a 18/02 do ano corrente. [email protected] 19 Cotação do dólar 03/01 a 18/02 1,78 1,82 1,8 1,73 1,72 1,72 1,81 1,79 1,77 1,72 1,73 1,8 1,77 1,73 1,77 1,77 1,78 1,75 1,73 1,72 1,72 1,79 1,77 1,73 1,82 1,74 1,73 1,72 1,78 1,82 1,73 1,77 1,72 1,74 c) Os valores que seguem referem-se ao preço de locação de sobrados de 2 quartos no bairro Boqueirão, extraídos da Folha do Boqueirão referente ao período de 19 a 26/01/00. Preço de locação imóvel de 2 q. no Boqueirão 300 200 250 270 450 190 130 300 170 250 350 350 200 230 250 300 180 200 200 350 220 340 400 330 350 350 400 370 350 300 d) Num restaurante os pratos que constavam no cardápio perfaziam um total de 50 itens diferentes para o cliente escolher. Pesquisado o preço dos itens (em R$), obteve-se a seguinte constatação: 12 20 25 14 16 15 19 17 18 15 18 16 15 16 17 26 14 19 15 14 14 15 22 18 15 17 16 18 14 19 16 17 14 16 20 14 13 15 17 16 18 24 16 15 14 19 23 19 16 18 e) Dentre os 40 postos de Saúde da grande Curitiba, os valores abaixo mostram quantas são atendidas em cada um destes postos. 18 22 23 25 24 25 20 21 30 27 23 26 28 29 24 22 26 20 26 30 23 19 28 27 21 22 18 23 29 24 22 20 22 25 24 21 23 27 26 23 f) Os dados sobre a porcentagem de desemprego no município de São Paulo, no período de 92 a 95, foram: 10,6 13,6 12,7 13,5 12,3 13,5 12,1 13,3 13,6 13,4 13,2 12,8 14,5 14,0 12,1 11,9 [email protected] 15,0 14,6 14,1 11,5 15,1 14,7 14,0 11,1 14,6 15,0 12,1 12,8 15,0 14,4 14,3 11,7 15,1 13,7 12,1 12,0 14,5 12,9 13,1 12,6 20 3. MEDIDAS DE POSIÇÃO Medidas de posição são estatísticas que representam uma série de dados orientando-nos quanto à posição da distribuição em relação ao eixo horizontal. As medidas de posição mais importantes são as medidas de tendência central, que recebem tal denominação pelo fato de os dados observados tenderem, em geral, a se agrupar em torno dos valores centrais. Dentre as medidas de tendência central, destacamos a média, a mediana e a moda. As outras medidas de posição são as separatrizes, que englobam a própria mediana, os quartis e os percentis. 3.1 Medidas de tendência central 3.1.1 Média Média (aritmética), x , para dados não-agrupados É a medida de tendência central mais utilizada. É a soma dos valores dividida pelo número deles. x x n i x1 x2 ... xn n Exemplo 1. Determinar a média aritmética dos conjuntos de valores abaixo: 70, 80, 120 5, 8, 10, 12, 15 Exemplo 2. Em uma empresa de componentes eletrônicos, a exportação nos últimos 4 anos, em milhares de dólares, foi U$ 800,00, U$ 760,00, U$ 880,00 e U$ 984,00. Determinar a média das exportações dessa empresa nos últimos 4 anos. O processo de cálculo da média aritmética é o mesmo, quer se trate de um conjunto de valores que traduzam representações amostrais, quer se trate de todos os valores de uma população. Temos então, Média amostral x x n e média populacional x N Propriedades da média A média de um conjunto de números pode sempre ser calculada. Para um dado conjunto de números, a média é única. A média é sensível a todos os valores do conjunto. Assim, se um valor se modifica, a média também se modifica. A soma dos desvios dos números a contar da média é zero: xi x 0 Vantagens/ desvantagens da utilização da média Vantagens Desvantagens Fácil de compreender e calcular É afetada por valores extremos Utiliza todos os valores da variável É necessário conhecer todos os valores da variável [email protected] 21 É um valor único Fácil de incluir em equações matemáticas A média é utilizada quando: Desejamos obter a medida de posição que possui maior estabilidade; Houver necessidade de um tratamento algébrico ulterior. Exemplo de aplicação: Em controle de qualidade a média é utilizada para determinar se o processo está operando ao redor de um valor esperado, o alvo. Média (aritmética) em distribuições de freqüência a) Dados agrupados sem intervalos de classe xi f i x fi onde xi f i é a média aritmética ponderada pela respectiva freqüência absoluta. Exemplo 3: Considere a distribuição relativa de 34 famílias de 4 filhos, tomando para variável o número de filhos do sexo feminino. Número de meninas (xi) 0 1 2 3 4 Calculando, x x f f i Freqüência (fi) 2 6 10 12 4 34 xi fi i i Sendo x uma variável quantitativa discreta, como interpretar o resultado obtido, 2 meninos e 3 décimos de menino? O valor médio 2,3 meninos sugere, neste caso, que o maior número de famílias tem 2 meninos e 2 meninas, sendo, porém, a tendência geral de uma leve superioridade numérica em relação ao número de meninos. b) Dados agrupados com intervalos de classe x i fi x fi onde xi é o ponto médio da classe. Exemplo 4. Considere a distribuição de estaturas de 40 alunos. Estatura (cm) 150 ├ 154 154 ├ 158 xi [email protected] fi 4 9 Pm fi 22 158 ├ 162 162 ├ 166 166 ├ 170 170 ├ 174 Calculando, x 11 8 5 3 40 x f f i i i Exemplo 5. Em uma pesquisa realizada numa determinada Empresa quanto aos salários médios de seus funcionários, verificou-se o seguinte resultado: Salários (R$) 240 ├ 480 480 ├ 720 720 ├ 960 960 ├ 1200 1200 ├ 1440 xi fi 15 22 30 18 15 100 Pm fi Com base nestes resultados determine o salário médio desses funcionários. Exercícios de aplicação - Média 1. Um produto é vendido em três supermercados por R$ 13,00/kg, R$ 13,20/kg e R$ 13,50/kg. Determine quantos R$/kg se paga em média pelo produto. 2. Determine a média de cada uma das duas amostragens e compare os dois conjuntos de resultados: a) Tempos de espera de clientes no Banco Jefferson Valley (onde todos os clientes formam uma fila única) e no Banco Providence (onde os clientes entram em três filas de guichês diferentes): Jefferson Valley: 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 Providence: 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0 b) Amostras das idades (em anos) de carros de alunos e carros de professores e funcionários da faculdade, obtidas na faculdade XCV: Alunos: 10 4 5 2 9 7 8 8 16 4 13 12 Professores/funcionários: 7 10 4 13 23 2 7 6 6 3 9 4 3. O salário de 40 funcionários de um escritório está distribuído segundo o quadro abaixo. Calcule o salário médio destes funcionários. Salário (R$) 400 ├ 500 500 ├ 600 600 ├ 700 700 ├ 800 [email protected] Número de funcionários fi 12 15 8 3 23 800 ├ 900 900 ├ 1000 Total 1 1 40 4. Uma imobiliária gerencia o aluguel de residências particulares segundo o quadro abaixo. Calcule o valor médio do aluguel por residência. Aluguel (R$) 0 ├ 200 200 ├ 400 400 ├ 600 600 ├ 800 800 ├ 1000 Total Número de casas fi 30 52 28 7 3 120 5. Calcule o número médio de acidentes por dia em uma determinada esquina. Número de acidentes por dia xi 0 1 2 3 4 Total Número de dias fi 30 5 3 1 1 50 6. Calcule a média de idade para a série representativa da idade de 50 alunos de uma classe do 1 o ano de uma Faculdade. Idade (anos) 17 18 19 20 21 Total Número de alunos fi 3 18 17 8 4 50 7. Uma loja de departamentos selecionou um grupo de 54 notas fiscais, durante um dia, e obteve o quadro abaixo. Determine o valor médio da série. Consumo por nota (R$) 0 ├ 50 50 ├100 100 ├150 [email protected] Número de notas fi 10 28 12 24 150 ├ 200 200 ├ 250 250 ├ 300 Total 2 1 1 54 8. O consumo de energia elétrica, verificado em 250 residências de famílias de classe média, com dois filhos, revelou a seguinte distribuição. Consumo (kWh) 0 ├ 50 50 ├ 100 100 ├ 150 150 ├ 200 200 ├ 250 250 ├ 300 300 ├ 350 Total Número de funcionários fi 2 15 32 47 50 80 24 250 Calcule a média da distribuição e interprete o valor obtido. 3.1.2 Mediana Mediana (Md) para dados não-agrupados A mediana é definida como o número que se encontra no centro de uma série de números, estando estes dispostos segundo uma ordem. Em outras palavras, a mediana de um conjunto de valores, ordenados segundo uma ordem grandeza, é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos. Para determinar a mediana ordenam-se os valores em ordem crescente (do mais baixo ao mais alto). Se a quantidade de valores n for um número ímpar a mediana será o n 1 ; se a quantidade de valores n for um valor da variável situado na posição 2 número par a mediana será igual ao resultado de dividir por dois a soma dos valores n n das posições e 1. 2 2 Exemplo 6. Calcular a mediana dos conjuntos de dados abaixo: 5, 6, 8 7, 8, 9, 10 A mediana é uma medida resistente, pois está relacionada apenas com a ordem dos valores da variável. Em outras palavras, não é sensível a valores extremos. Vantagens/ desvantagens da utilização da mediana Vantagens Fácil de calcular [email protected] Desvantagens Difícil de incluir em equações matemáticas 25 Não é afetada pelos valores extremos É um valor único Não utiliza todos os valores da variável Empregamos a mediana quando: Desejamos obter o ponto que divide a distribuição em partes iguais; Há valores extremos que afetam de uma maneira acentuada a média; A variável em estudo é salário, renda anual e valores de bens. Exemplo de aplicação: Se quisermos conhecer o valor típico dos salários, de uma determinada categoria de trabalhadores, utilizaremos a mediana. Exemplo 7. Calcular a média e a mediana a partir da tabela abaixo. Os dados são referentes a 5 funcionários do Depto. Pessoal da Empresa DSF. Funcionário João Maria Sebastião José Manoel Salário (R$) 2100 800 200 400 500 Mediana em distribuições de freqüência Se os dados se agrupam em uma distribuição de frequência, o cálculo da mediana se processa de modo muito semelhante àquele dos dados não-agrupados, implicando, porém, a determinação prévia das frequências acumuladas. Ainda aqui, temos que determinar um valor tal que divida a distribuição em dois grupos que contenham o mesmo número de elementos. Para o caso de uma distribuição, porém, a ordem, a partir de qualquer um dos extremos, f é dada por i 2 a) Dados agrupados sem intervalos de classe Neste caso, é o bastante identificar a frequência acumulada imediatamente superior à metade da soma das frequências. A mediana será aquele valor da variável que corresponde a tal frequência acumulada. Exemplo 8. Número de meninas 0 1 2 3 4 fi 2 6 10 12 4 34 Fi b) Dados agrupados com intervalos de classe [email protected] 26 Neste caso, o problema consiste em determinar o ponto do intervalo em que está compreendida a mediana. Para tanto, temos inicialmente que determinar a classe na qual se acha a mediana – classe mediana. Na prática, utiliza-se o seguinte procedimento: a. Determina-se as freqüências acumuladas. f n b. Calcula-se PMe i 2 2 c. Marca-se a classe correspondente à freqüência acumulada imediatamente superior a PMe - classe mediana – e, em seguida, emprega-se a seguinte equação: PMe | Fa .h M d Li f Me onde: Li = limite inferior da classe mediana | Fa = freqüência acumulada da classe anterior à classe mediana f Me = freqüência simples da classe mediana h = amplitude do intervalo de classes Exemplo 9. Estatura (cm) 150 ├ 154 154 ├ 158 158 ├ 162 162 ├ 166 166 ├ 170 170 ├ 174 Da equação acima, temos: PMe = fi 4 9 11 8 5 3 40 Fi Li = | Fa = f Me = h= PMe | Fa .h Substituindo em M d Li temos: f Me Exercícios de aplicação - Mediana Calcular a mediana para todos os exercícios listados na secção 3.1.1 (Média). [email protected] 27 3.1.3 Moda Moda - M o , para dados não-agrupados A moda é o valor que ocorre com maior freqüência num conjunto de dados. Exemplo 10. Calcular a moda dos conjuntos de valores abaixo: 10, 10, 8, 6, 10 3, 5, 6, 7, 9 Vantagens/ desvantagens da utilização da moda: Vantagens Desvantagens Fácil de calcular Pode estar afastada do centro dos valores Não é afetada pelos valores extremos Não utiliza todos os valores da variável É um valor único Difícil de incluir em equações matemáticas A variável pode ter mais de uma moda Algumas variáveis não tem moda A moda é utilizada quando: Desejamos obter uma medida rápida e aproximada de posição; A medida de posição deve ser o valor mais típico da distribuição. Exemplo de aplicação: Na distribuição do consumo de um mesmo produto com diferentes apresentações a moda mostra a apresentação mais consumida. Moda em distribuições de frequência a) Dados agrupados sem intervalos de classe Exemplo 11. Número de meninas 0 1 2 3 4 fi 2 6 10 12 4 34 b) Dados agrupados com intervalos de classe A classe que apresenta maior freqüência é denominada classe modal. Calcula-se através da equação: L LS Mo i 2 onde: L i = limite inferior da classe modal LS = limite superior da classe modal [email protected] 28 Exemplo 12. Estatura (cm) 150 ├ 154 154 ├ 158 158 ├ 162 162 ├ 166 166 ├ 170 170 ├ 174 fi 4 9 11 8 5 3 40 Exercícios de aplicação – Moda Calcular a moda para todos os exercícios listados na secção 3.1.1 (Média). Em resumo: Média Dados agrupados nãox Dados agrupados sem intervalo de classe x Dados agrupados com intervalo de classe x x i n x f f i i x f f i i [email protected] i i Mediana n ímpar valor da variável situada na posição n 1 2 n par dividir por 2 a soma dos valores situados nas n n 1 posições e 2 2 Moda Valor que ocorre com maior frequência. Determinam-se as freqüências acumuladas; f Calcula-se i ; 2 Marca-se a classe mediana; Verificar valor da variável correspondente. Identificar a classe modal; Verificar a coluna da variável correspondente. Determinam-se as Identificar a classe freqüências modal; acumuladas; L LS Mo i Calcula2 fi n se PMe ; 2 2 Marca-se a classe mediana – e, em seguida, emprega-se a 29 seguinte equação: PMe | Fa .h M d Li f Me 3.2 Medidas separatrizes Quartis Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Há, portanto, três quartis: O primeiro quartil (Q1) – valor situado de tal modo na série que uma quarta parte (25%) dos dados é menor do que ele e a três partes restantes (75%) são maiores. O segundo quartil (Q2) – valor situado de tal modo na série que metade (50%) dos dados é menor do que ele e a metade restante (50%) é maior. O segundo quartil coincide com a mediana. O terceiro quartil (Q3) – valor situado de tal modo na série que as três quartas partes (75%) dos dados é menor do que ele e a quarta parte restante (25%) é maior. Quando os dados são agrupados, para determinar os quartis usamos a mesma técnica do cálculo da mediana, bastando substituir, na fórmula da mediana, f n n.r PMe i , por PQr (onde r é o número de ordem do quartil). 2 2 4 Assim, temos: n.1 PQ1 4 PQ1 | Fa .h Q1 Li f Q1 n.2 4 PQ2 | Fa .h Q 2 Li fQ2 n.3 4 PQ3 | Fa .h Q3 Li f Q3 PQ2 PQ3 Exemplo 13: Dada à distribuição abaixo, calcular Q1, Q2 e Q3. Classes 7├ 17 17├ 27 27├ 37 37├ 47 47├ 57 Total [email protected] fi 6 15 20 10 5 56 30 Percentis Denominamos percentis os noventa e nove valores que separam uma série em 100 partes iguais. Para determinarmos os percentis usamos a mesma técnica do cálculo da f n n.r mediana, bastando substituir, na fórmula da mediana, PMe i , por PPr 2 2 100 (onde r é o número de ordem do percentil). Assim, para o 27 o percentil temos: PP 27 n.27 100 PP27 | Fa .h P27 Li f P27 Exemplo 14: Calcular o 55º percentil da distribuição do exemplo 13. Exercícios de aplicação – média, mediana, moda; quartis e percentis 1. Calcule a média, a mediana, a moda, o 3º quartil e o 30º percentil para as seguintes distribuições: a) As companhias de seguro pesquisam continuamente as idades na morte e as causas de morte. Os dados se baseiam no estudo levado a efeito pela revista Time sobre as pessoas que morreram vitimadas por armas de fogo durante uma semana. Idade na morte 16 ├ 26 26 ├ 36 36 ├ 46 46 ├ 56 56 ├ 66 66 ├ 76 76 ├ 86 Frequência 22 10 6 2 4 5 1 b) Aluguel (x R$ 100) 4├6 6├8 8 ├ 10 10 ├12 12 ├ 14 14 ├ 16 16 ├18 Quantidade de casas 18 25 32 40 30 18 12 2. Das distribuições abaixo calcule: a. média, mediana e moda b. primeiro e terceiro quartis c. 10 o , 23o e 90 o percentis Elaborar o histograma de frequência simples e localizar as medidas calculadas [email protected] 31 a) NOTAS 0├2 2├4 4├6 6├8 8 ├10 fi 5 8 14 10 7 44 b) Estaturas 150 ├ 158 158 ├ 166 166 ├ 174 174 ├ 182 182 ├ 190 fi 5 12 18 27 8 70 c) Salários (R$) 500 ├ 700 700 ├ 900 900 ├ 1100 1100 ├ 1300 1300 ├ 1500 1500 ├ 1700 1700 ├ 1900 fi 18 31 15 3 1 1 1 70 3. Os seguintes dados referem-se ao salário (em R$) de 40 funcionários da empresa GIS. 1638 2154 1271 2415 1317 2456 704 1894 1104 516 1715 2000 780 756 1351 1330 2622 1137 2634 585 1398 1319 3296 802 1440 1230 3050 2169 2846 588 3153 3502 2578 1158 1243 1275 1154 654 486 1674 a. Qual a variável de estudo? Classifique a variável. b. Se você tivesse de obter dados referentes ao salário dos funcionários de sua empresa qual a técnica de amostragem você utilizaria. Justifique sua escolha. c. Elabore uma distribuição de freqüência simples (dados agrupados com intervalo de classe) e seu respectivo histograma. d. Determine para a distribuição obtida: limite inferior da 2ª classe, freqüência relativa da 3ª classe e limite superior da 4ª classe. e. Calcule para a distribuição obtida: média, mediana e moda. f. Identifique no histograma de freqüência a localização dos valores obtidos de média, mediana e moda. g. Interprete os resultados obtidos. [email protected] 32 4. MEDIDAS DE DISPERSÃO As medidas de dispersão ou variabilidade indicam o quanto os valores encontrados numa pesquisa estão próximos ou afastados em relação a média. Destacam o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto. São medidas que servem para verificar com que confiança as medidas de tendência central resumem as informações fornecidas pelos dados obtidos em uma pesquisa. Exemplificando, ... duas pessoas se submeteram a um teste... situação a) as duas pessoas tiraram nota 6,0 situação b) uma pessoa tirou 2,0 e a outra 10,0 Nos dois casos a média é igual a 6,0. Todavia, em “a” elas se concentraram sobre a média; em “b” elas se dispersaram em torno da mesma. Isto quer dizer que a média é muito mais significativa em “a” do que em “b”. Ainda, em “a” existe uma homogeneidade nos conhecimentos adquiridos; em “b” heterogeneidade. As principais medidas de dispersão são: amplitude total variância e desvio padrão 4.1 Amplitude total É a diferença entre o maior e o menor valor de uma série de dados. Exemplo 1: Calcule o intervalo total dos seguintes dados 4, 6, 8, 9, 12, 17, 25. O intervalo ou amplitude total é uma medida fácil de calcular. Todavia, é instável. Leva em conta somente os valores externos, não sendo afetada pela dispersão dos valores internos. É apenas uma indicação aproximada da dispersão. 4.2 Variância e desvio padrão Como vimos, a amplitude total é instável, por se deixar influenciar pelos valores extremos, que são, na sua maioria, devidos ao acaso. A variância e o desvio padrão são medidas que fogem a esta falha, pois levam em consideração a totalidade dos valores da variável em estudo, o que faz delas índices de variabilidade bastante estáveis e. por isso mesmo, os mais geralmente empregados. A variância baseia-se nos desvios em torno da média aritmética, porém determinando a média aritmética dos quadrados dos desvios. Assim, representado a variância por s2, temos: x x f 2 s2 i i x x 2 i n Nota: Quando nosso interesse não se restringe à descrição dos dados mas, partindo da amostra, visamos tirar inferências válidas para a respectiva população, convém efetuar uma modificação, que consiste em usar o divisor n-1 em lugar de n. [email protected] 33 A variância é uma medida que tem pouca importância como estatística descritiva, uma vez que sua unidade de medida é o quadrado da unidade de medida dos valores da variável. Todavia, é extremamente importante na inferência estatística e na combinação de amostras. Por isso mesmo, imaginou-se uma nova medida que tem utilidade e interpretação práticas, denominada desvio padrão, definida como a raiz quadrada positiva da variância. Assim, se a variância de um determinado conjunto de valores for igual a 81, o desvio padrão será igual a 9. s x i x 2 n Propriedades da variância e do desvio padrão - A variância e o desvio padrão são sempre números positivos. - Se os valores de uma variável forem iguais a variância e o desvio padrão serão igual a zero. - A variância e o desvio padrão são afetados pelos valores extremos. Para fins práticos, a fórmula do desvio padrão pode ser reorganizada da seguinte forma: s x 2 i n xi n 2 Dados não-agrupados Tomemos, como exemplo, o conjunto de valores da variável x: 40, 45, 48, 52, 54, 62 e 70. Xi 40 45 48 52 54 62 70 xi2 s=? Exemplos: 1. Calcule o desvio padrão das vendas diárias (período de uma semana): $8100, $9000, $4580, $5600, $7680, $4800, $10640. [email protected] 34 2. Calcule a variância e o desvio padrão para o seguinte conjunto de dados: 83, 92, 100, 57, 85, 88, 84, 82, 94, 93, 91, 95. Dados agrupados a) Sem intervalo de classe Neste caso temos a presença de frequências e devemos levá-las em consideração: s fx i 2 i n f i xi n xi 0 1 2 3 4 2 fi 2 6 12 7 3 30 fixi2 fixi s=? b) Com intervalo de classe s fP i m fi 2 fi Pm fi Estaturas 150 ├154 154 ├158 158 ├162 162 ├166 166 ├170 170 ├174 2 fi 4 9 11 8 5 3 Pm fiPm fiPm2 Exercícios de aplicação – Medidas de dispersão 1. Calcule o desvio padrão dos seguintes conjuntos de dados: 20, 14, 15, 19, 21, 22, 18 17.9, 22.5, 13.3, 16.8, 15.4, 14.2 [email protected] 35 2. Um departamento de produção usa um procedimento de amostragem para testar a qualidade de itens recém produzidos. O departamento emprega a seguinte regra de decisão em uma estação de inspeção: se uma amostra de 14 tem uma variância de mais que 0,005 a linha de produção precisa ser paralisada para reparos. Suponha que os seguintes dados tenham sido coletados: 3,43 3,45 3,43 3,48 3,52 3,50 3,39 3,48 3,41 3,38 3,49 3,45 3,51 3,51 A linha de produção deveria ser paralisada? Por quê? 3. Os dados abaixo se referem ao número de dias exigido para preencher pedidos de compra para duas empresas distintas A e B: Empresa A – 11, 10, 9, 10, 11, 11, 10, 11, 10, 10 Empresa B – 8, 10, 13, 7, 10, 11, 10, 7, 15, 12 Com base nos valores de desvio-padrão calculados determine qual das empresas fornece tempos de entrega mais constantes e confiáveis. 4. Dada a distribuição relativa a 100 lançamentos de 5 moedas simultaneamente, calcule o desvio padrão. Número de caras Frequência 0 4 1 14 2 34 3 29 4 16 5 3 Total 100 5. Em um levantamento entre os assinantes da revista Fortune a seguinte pergunta foi realizada: “Quantas das últimas quatro edições você leu ou folheou?”. A seguinte distribuição de frequência sintetiza 500 respostas”. Edição lida Frequência 0 15 1 10 2 40 3 85 4 350 Total 500 Qual é o número médio de edições lidas por um assinante da Fortune? Qual é o desvio padrão do número de edições lidas? 6. Calcule o desvio padrão da distribuição: Classes 2├6 6 ├ 10 10 ├ 14 14 ├ 18 18 ├22 Total [email protected] Frequência 5 12 21 15 7 60 36 7. Um posto de gasolina registrou a seguinte distribuição de frequência para o número de litros de gasolina vendidos por carro em uma amostra de 680 carros. Gasolina (litros) Frequência 0├5 74 5 ├ 10 192 10 ├ 15 280 15 ├ 20 105 20 ├ 25 23 25 ├ 30 6 Total 680 Calcule a média, a variância e o desvio padrão para esses dados agrupados. 8. Calcule o desvio padrão para todos os exercícios da secção 3.1.1 (Média). 5. COEFICIENTE DE VARIAÇÃO O desvio padrão por si só não nos diz muita coisa. Assim, um desvio padrão de duas unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200. No entanto, se a média for igual a 20, o mesmo não pode ser dito. Além disso, o fato do desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, relativamente a sua dispersão, quando expressas em unidades diferentes. CV s .100 x Exemplo: Estaturas Pesos Média 175 cm 68 kg Desvio padrão 5 cm 2 kg Temos, CVE s 5 .100 .100 2,85% x 175 CVP s 2 .100 .100 2,94% x 68 Logo, neste grupo de indivíduos, os pesos apresentam maior grau de dispersão do que as estaturas. [email protected] 37 BIBLIOGRAFIA Apostila modificada de SILVA, Guilherme Cunha da. Apostila de Estatística Aplicada. Faculdade Tecnológica Tupy. CRESPO, Antônio Arnot. Estatística Fácil. 17 ed. São Paulo: Saraiva, 1999. LAPPONI, Juan Carlos. Estatística usando Excel. São Paulo: Lapponi Treinamento, 2000. MACEDO, Luiz Roberto Dias de. Dados numéricos na empresa: interpretação e análise. Curitiba: IBPEX, 2004. SILVA, Ermes Medeiros da e outros. Estatística para os cursos de economia, administração e ciências contábeis. 3ª edição. São Paulo: Atlas, 1999. STEVENSON, William J. Estatística Aplicada à Administração. São Paulo: Harper e Row do Brasil, 1981. ANDERSON, David R. Estatística aplicada à administração e economia. 2ª edição. São Paulo: Pioneira Thomson Learning, 2003. [email protected] 38