CPAR - UFMS A Estatística: é a ciência que estuda, mediante métodos quantitativos, as populações que se obtém com síntese da observação de unidades estatísticas (Ibarrola et. Al, 2006). População: qualquer conjunto de informações que tenha entre si uma característica em comum que delimite, inequivocamente, quais elementos pertencem a ela. Ex. Numa cidade, o conjunto das estaturas de todos os seus habitantes (População de estaturas – expressa pela letra N). Amostra: são subconjuntos representativos de uma dada população (1. Deve ser suficiente grande; 2. Seus constituintes terem sido retirado ao acaso – random – cada um dos componentes tem a mesma chance de ser incluído na amostra.) Inferência Estatística: é a parte da estatística que estuda os métodos para estabelecer conclusões sobre uma população, a partir de uma amostra da mesma. Variáveis estatísticas ou variáveis: Os atributos (modalidades) ou magnitudes (valores) que se observam nos indivíduos de uma população. Variável qualitativa: faz referência a observações relacionadas a atributos que não apresentam estrutura numérica. Ex. cor dos olhos, classe social, estado civil, cor da lã, casta social, etc. A variável qualitativa pode ser classificada em: Nominal: quando as observações não apresentam nenhuma hierarquia ou ordenamento. Ex. sexo (M ou F); estado civil; naturalidade, etc. Ordinal: quando as observações apresentam uma hierarquia ou um ordenamento. Ex. cargo do funcionário de uma empresa (diretor, gerente, supervisor, limpeza, vendedor, etc.); tamanho da empresa (pequena, média ou grande). Variável quantitativa: essa variável está relacionada às observações que apresentam uma estrutura numérica associada a contagens ou a mensurações, como quantidade de energia elétrica consumida por uma prefeitura em um mês; número de pessoas atendidas por hora em um determinado setor público etc. Essa variável quantitativa pode ser classificada em: Discreta: observações de estrutura numérica estão associadas a valores fixos, ou seja, na maioria dos casos, números inteiros e positivos associados a contagens, como o número de pessoas que pagam seus impostos em dia etc. Contínua: são todas as observações que representam valores numéricos que podem assumir qualquer valor dentro de um intervalo, ou seja, os números reais, por exemplo, o tempo que pessoas ficam na fila aguardando para serem atendidas; peso dos funcionários de uma prefeitura etc. http://www.ead.uepb.edu.br/arquivos/Livros_UEPB_053_2012/10estatistica%20aplicada%20a%20administra%E7%E3o/Livro%20estatistica%20aplicada%20a%20administ racao.pdf Quando se coleta dados para uma pesquisa, estas observações são chamadas de dados brutos. Ex. Coleta de dados corresponde ao tempo em minutos que consumidores de uma determinada operadora de telefonia celular utilizariam em um mês (Tabela 1) Geralmente, este tipo de dado traz pouca ou nenhuma informação ao leitor. Para se obter informações, é necessário organiza-los, realizar algumas análises e extrair as possíveis informações que se deseja a partir dos mesmos (se for possível). Tabela 1: Tempo (T) em minutos de uso de telefone celular por consumidores (C) de uma determinada operadora C 1 2 3 4 5 6 7 8 T 104 108 138 101 163 141 90 154 C 9 10 11 12 13 14 15 16 T 122 142 106 201 169 120 210 98 C 17 18 19 20 21 22 23 24 T 129 138 122 161 167 189 132 127 C 25 26 27 28 29 30 31 32 T 144 151 146 82 137 132 172 87 Fonte: Tavares, M. ESTATÍSTICA APLICADA À ADMINISTRAÇÃO C 33 34 35 36 37 38 39 40 T 183 138 115 179 142 111 140 136 Então surge uma pergunta: Como você pode organizar os dados de uma forma mais eficiente, na qual se possa apresentar uma quantidade maior de informações? Rol Amplitude total Dados em rol crescente (Frequência). Como organizar um conjunto de dados de forma a melhor representá-lo? *Rol – é a mais simples organização numérica. É a ordenação dos dados em ordem crescente ou decrescente. *Amplitude Total – corresponde à diferença entre o maior e o menor valor observado em um conjunto de dados. Notaremos por A. Tabela de distribuição de frequências (tabela onde serão apresentadas as frequências de cada uma das classes). Classes: – Intervalos nos quais os valores da variável analisada são agrupados. Contando-se o número de observações contidas em cada classe, obtém-se a frequência de classe. A disposição tabular dos dados agrupados em classes, juntamente com as frequências correspondentes, se denomina distribuição de frequências. Ex. Incluir em uma única classe todos os indivíduos que possuam tempo entre 128 e 138 minutos assim, a classe irá variar de 128 a 138 minutos. Para identificar uma classe, deve-se conhecer os valores dos: Limite inferior e Limite superior da classe, delimitam o intervalo de classe. Neste ponto, surge uma dúvida. Indivíduos que apresentem tempo exatamente iguais a 128 ou a 138 minutos pertencem ou não a esta classe? (128 a 138) Deste modo, surge a necessidade de definir a natureza do intervalo de classe, se é aberto ou fechado. Portanto, podemos ter exemplo de notação dos diferentes tipos de intervalos: Intervalos abertos: 128 min – 138 min; Intervalos fechados: 128 min |–| 138 min. Intervalos mistos: 128 min |– 138 min. Distribuição de frequências Para elaborar uma distribuição de frequências é necessário que primeiramente, se determine o número de classes (k) em que os dados serão agrupados. Por questões de ordem prática e estética, sugere-se utilizar de 5 a 20 classes. O número de classes (k) a ser utilizado, pode ser calculado em função do número de observações (n). k = √𝑛 para n ≤ 100; k=5logn, para n >100 Vamos, então, a partir dos dados do exemplo relativo ao tempo de utilização dos celulares, construir uma distribuição de frequência e ao longo deste exercício identificar conceitos presentes em uma distribuição de frequências. Após determinar o número de classes (k) em que os dados serão agrupados, deve-se, então, determinar a amplitude do intervalo de classe (c). Para calcular a amplitude do intervalo de classe, primeiramente calcula-se o Rol. A = Máximo – mínimo = ? Com base neste valor da amplitude total (A) calculado, obtém-se a amplitude do intervalo de classe (c): 𝑐= 𝑎 𝑘−1 onde: c = amplitude de classe; a = amplitude total; e k = número de classes. Estima-se o ponto médio (PM) das classes Tabela 1: Tempo (T) em minutos de uso de telefone celular por consumidores (C) de uma determinada operadora C 1 2 3 4 5 6 7 8 T 104 108 138 101 163 141 90 154 C 9 10 11 12 13 14 15 16 T 122 142 106 201 169 120 210 98 C 17 18 19 20 21 22 23 24 T 129 138 122 161 167 189 132 127 C 25 26 27 28 29 30 31 32 T 144 151 146 82 137 132 172 87 C 33 34 35 36 37 38 39 40 T 183 138 115 179 142 111 140 136 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 82 87 90 98 101 104 106 108 111 115 120 122 122 127 129 132 132 136 137 138 21 138 22 138 23 140 24 141 25 142 26 142 27 144 28 146 29 151 30 154 31 161 32 163 33 167 34 169 35 172 36 179 37 183 38 189 39 201 40 210 Dados em rol crescente Rol: 210 – 82 = 128 número de classes (k = √𝑛 para n ≤ 100; k=5logn, para n >100) k = √𝑛 = k = √40 = 6,324555 Após determinar o número de classes (k) em que os dados serão agrupados, deve-se, então, determinar a amplitude do intervalo de classe (c). Para calcular a amplitude do intervalo de classe, primeiramente calcula-se o Rol. A = 210 – 82 =128 min Com base neste valor da amplitude total (A) calculado, obtém-se a amplitude do intervalo de classe (c): 𝑐= 𝑎 𝑘−1 onde: c = amplitude de classe; a = amplitude total; e k = número de classes. O limite inferior e o superior das classes devem ser escolhidos de modo que o menor valor observado esteja localizado no ponto médio (PM) da primeira classe. Ponto médio (PM) 𝐿 +𝐿 PM = 𝑖 2 𝑠 onde: LI: Limite inferior; e LS: Limite superior Partindo deste raciocínio, então, o limite inferior da 𝑐 2 primeira classe será: Limite inf. 1ª = menor valor – . Nesse caso, tem-se: Limite inf. 1ª = 82 – 25,6 = 2 69,2 min Definindo, então, o limite inferior da primeira classe, para obter as classes da distribuição, basta que se some a amplitude do intervalo de classe a cada limite inferior. Assim, teremos: 69,2 | – 94,8 = primeira classe 94,8 | – 120,4 = segunda classe 20,4 | – 146,0 = terceira classe 146,0 | – 171,6 = quarta classe 171,6 | – 197,2 = quinta classe 197,2 | – 222,8 = sexta classe Tabela 3: Distribuição de frequências do tempo em minutos de uso de telefone celular por consumidores de uma determinada operadora Classes (mm) 69,2 | – 94,8 94,8 | – 120,4 120,4 | – 146,0 146,0 | – 171,6 171,6 | – 197,2 197,2 | – 222,8 Total Frequência ? ? ? ? ? ? “Frequência”. A frequência absoluta (fa) corresponde ao numero de observações que tem em uma determinada classe ou em um determinado atributo de uma variável qualitativa; A frequência relativa (fr) corresponde à proporção do número de observações em uma determinada classe em relação ao total de observações que tem. Esta frequência pode ser expressa em termos porcentuais. Para isto, basta multiplicar a frequência relativa obtida por 100. Tabela 4: Distribuição de frequências do tempo em minutos de uso de telefone celular por consumidores de uma determinada operadora Classes (mim) fa (consumidores) fr (proporção de consumidores) 69,2 | – 94,8 3 0.08 94,8 | – 120,4 8 0.20 120,4 | – 146,0 16 0.40 146,0 | – 171,6 7 0.18 171,6 | – 197,2 4 0.10 197,2 | – 222,8 2 0.05 40 1.00 Total Tabela 4: Distribuição de frequências do tempo em minutos de uso de telefone celular por consumidores de uma determinada operadora Classes (mm) fa (consumidores) fr (proporção de consumidores) 69,2 |– 94,8 3 0,075 94,8 |– 120,4 8 0,200 120,4 |– 146,0 16 0,400 146,0 |– 171,6 7 0,175 171,6 |– 197,2 4 0,100 197,2 |– 222,8 2 0,050 40 1,000 Total Frequência Acumulada:–corresponde à soma da frequência daquela classe às frequências de todas as classes abaixo dela. Tabela 5: Distribuição de frequência acumulada do tempo em minutos de uso de telefone celular por consumidores de uma determinada operadora Tempo (mim) Freq. acumulada Freq. acumulada (relativa) 69,2 | – 94,8 3 0.075 94,8 | – 120,4 11 0.275 120,4 | – 146,0 27 0.675 146,0 | – 171,6 34 0.85 171,6 | – 197,2 38 0.95 197,2 | – 222,8 40 1 Total 40 h i s t o g r a m a – Histogramas: são constituídos por um conjunto de retângulos, com as bases assentadas sobre um eixo horizontal, tendo o centro da mesma no ponto médio da classe que representa, e cuja altura é proporcional à frequência da classe. Polígono de frequências – é um gráfico de análise no qual as frequências das classes são localizadas sobre perpendiculares levantadas nos pontos médios das classes (pode obter pela simples união dos pontos médios dos topos dos retângulos de um histograma.). Exercício: Exercício 1: tem-se a seguir o tempo em minutos de reuniões em um setor de uma empresa. 66 40 50 37 38 40 42 47 54 63 47 58 46 48 58 43 64 53 53 54 53 55 60 65 48 53 66 62 40 56 39 63 65 47 67 54 36 65 54 58 62 56 62 64 68 68 65 49 63 44 46 55 46 52 65 44 66 56 68 64 49 54 40 54 a) Construa a distribuição de frequências absoluta, relativa e acumulada; e b) Determine o número de reuniões em que o tempo foi menor do que 50 min, a partir da distribuição de frequências. c) Quantas reuniões foram maior que 52 min? Qual a percentagem?