MBA em Gestão de Projetos e Processos Organizacionais Estatística Aplicada Galo Lopez Noriega [email protected] 1 Tópicos do Curso 1. Noções de Amostragem e Análise Exploratória de Dados (resumo dos dados, tabelas e gráficos); 2. Medidas de uma Distribuição (medidas de posição, medidas de dispersão e medidas de forma); 3. Variáveis Aleatórias e Distribuição Normal; 4. Regressão Linear Simples; 5. Regressão Linear Múltipla; 2 Bibliografia Básica: Bussab, W. O. & Morettin, P. A. (2003). Estatística Básica – Métodos Quantitativos. 5ª ed. São Paulo: Editora Saraiva. Bibliografia Complementar: Anderson, D.R., Sweeney, D.J. & Williams, T.A. (2005). Estatística Aplicada à Administração e Economia. São Paulo: Pioneira Thomson Learning. Anderson, D.R., Sweeney, D.J. & Williams, T.A. (1999). Statistics for Business and Economics. 7ed. Cincinnati: South-Western College Publishing. Freedman, D., Pisani, R. & Purves, R. (1998) Statistics. New York: W.W. Norton & Company. Freund, J. E. e Simon, G. A. (2000). Estatística Aplicada: economia, administração e contabilidade. 9 ed. Porto Alegre: Bookman Levine, D. M., Berenson, M.L., Stephan, D. (2005). Estatística: Teoria e Aplicações. 3 ed. Rio de Janeiro: LTC. 3 Critério de Avaliação Testes e Trabalhos: 100% Testes 1 e 2: feitos em sala de aula ou exercícios especiais, individuais ou em grupo (50%). Trabalhos 1 e 2: em grupo (50%). MF = 50% Testes + 50% Trabalhos 4 Estatística Aplicada Análise Exploratória de Dados Bussab e Morettin: Capítulos 1 e 2 Freedman: Capítulo 3 Levine: Capítulo 1 5 Estatística Descritiva e Inferência Estatística Estatística é a ciência que tem por objetivo orientar a coleta, o resumo, a apresentação, a análise e a interpretação de dados. Podem ser identificadas duas grandes áreas de atuação desta ciência: Estatística Descritiva: é o ramo da estatística voltada para a organização, o resumo e a descrição de conjuntos de dados. Medidas descritivas, histograma, “box-plot”, etc. Inferência Estatística: é o ramo da estatística que utiliza dados obtidos de uma amostra para fazer estimativas ou testar hipóteses sobre características de interesse de uma população. 6 Amostragem, teste de hipótese, distribuição normal, regressão, correlação, etc Interação entre estatística e geração de conhecimento Observações Dados Planejamento da pesquisa Análise Descritiva Análise Inferencial Objetivos da pesquisa Conclusões Formulação de novos objetivos 7 Razões para entender Estatística Descrever adequada. e apresentar informações de forma Tirar conclusões sobre grandes populações baseado na informação obtida da amostra. Saber melhorar processos baseado em informações amostrais. Obter previsões confiáveis. Para aqueles que tomam decisões, o principal papel da estatística é fornecer-lhes os métodos para obtenção e conversão de dados (valores, fatos, observações ou medições) em informações úteis. 8 Estatística no mundo real ... 1. Um empresário investe seu patrimônio em diversos fundos de renda fixa e variável. Qual o ganho médio e a variabilidade de seus ganhos no último ano? Como fazer a previsão da rentabilidade destes fundos para o próximo mês? 2. Você foi contratado para trabalhar no departamento financeiro da Moderna e sua primeira tarefa é sugerir uma aplicação à empresa. Você pode aplicar na PPN (empresa do setor petroquímico) ou nas ações que compõem o fundo IBP. Qual seria o melhor investimento? 9 Estatística no mundo real ... 3. Um instituto de pesquisa, coletou dados de preços de dois livros em vinte lojas na cidade de SP. Qual dos livros apresentou maior variação de preços? 4. O departamento de RH de uma empresa deseja avaliar a eficácia dos testes aplicados para a seleção de funcionários. Para tanto, foi sorteada uma amostra de 50 funcionários e observou-se, para cada um, a nota média nos testes de admissão e um escore que indica o seu desempenho profissional. Existe alguma relação entre a nota do teste e o desempenho dos funcionários? Como prever o desempenho de um funcionário de acordo com sua nota no teste? 10 Estatística no mundo real ... 5. A sua empresa está sendo acusada de pagar um salário maior para os homens do que para as mulheres. Para justificar a acusação, apresentou-se uma lista de salários de uma amostra de funcionários. Você tem motivos para se preocupar? Sexo Anos no Salário emprego fem 0 24 fem 0 27 fem 0 29 fem 0 33 fem 1 26 fem 2 30 fem 3 32 fem 4 37 fem 5 27 fem 5 35 fem 6 34 fem 6 36 fem 6 37 fem 6 44 fem 7 31 fem 7 35 fem 8 35 fem 9 35 fem 9 36 fem 9 39 fem 16 40 fem 20 56 Sexo masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc Anos no Salário emprego 3 35 5 30 6 25 6 36 6 37 6 49 9 35 9 40 9 41 12 55 12 56 14 46 15 33 15 48 18 39 18 52 19 38 20 46 20 55 21 39 22 42 22 69 25 68 27 64 11 Inferência Estatística Características desconhecidas Técnicas de amostragem Amostra Inferência estatística Características conhecidas População 12 População, amostra e dados População: é a coleção de todos os elementos de interesse num estudo Amostra: é uma porção da população Exemplo: Pesquisa eleitoral na cidade de SP População: Todos os eleitores da cidade de SP Amostra: 2000 eleitores da cidade de SP Observe que um eleitor de Fortaleza não faz parte da população desse estudo e nem poderia fazer parte dos 2000 eleitores escolhidos da amostra. Cada um dos 2000 eleitores pesquisados, darão suas opiniões e a essas opiniões chamamos de dados. Dados: são as informações obtidas de uma unidade experimental ou de observação. 13 Tipos de população Populações finitas: o tamanho da população é conhecido. Exemplo: eleitores de São Paulo, aparelhos de som produzidos por uma indústria, etc. A listagem de todos as unidades amostrais recebe o nome de sistema de referência. Populações infinitas: o tamanho da população é desconhecido. Exemplo: pacientes que têm determinada doença, consumidores de uma determinada marca. 14 Variável Suponha que tenhamos interesse em saber o perfil dos Economistas do Estado de SP. Podemos estar interesssados em conhecer várias características desses profissionais como: Salário Escolaridade Número de especializações Quantidade de línguas estrangeiras que domina,… A cada uma dessas características denominamos variável. Variável: é toda característica que, observada em uma unidade experimental, pode variar de uma unidade para outra. 15 Tipos de variáveis É de interesse classificar as variáveis de acordo com suas características pois existem técnicas estatísticas e apresentações mais adequadas para cada tipo de variável. As variáveis podem ser classificadas em: –Qualitativas ou Categóricas: observáveis não são numéricos os resultados Ex.: Qualidade de Atendimento, Sexo, Cor, etc. –Quantitativas ou Numéricas: observáveis são numéricos os resultados Ex. Peso, índice de inflação, número de pedidos, etc… 16 Tipos de variáveis As variáveis Qualitativas são classificadas em: – Ordinal: a seqüência dos resultados dessas variáveis tem ordem natural • Ex.: Qualidade de atendimento: Ruim Bom Ótimo Excelente – Nominal: a seqüência dos resultados dessas variáveis não tem ordem natural • Ex.: Cor do veículo: Prata Branco Azul Preto … 17 Tipos de variáveis As variáveis Quantitativas são classificadas em: Discreta: uma característica desse tipo de variável é que entre dois resultados consecutivos não existe nenhum valor intermediário, geralmente é uma contagem. Ex. Número de acidentes de trabalho: 0, 1, 2, 3, … Não tem sentido prático 0,5 acidentes de trabalho ou 2,3 acidentes de trabalho. Contínua: os resultados observáveis estão dentro de intervalos, necessita da unidade para ser medida. Ex.: Inflação, salário. Entre R$ 5.000,00 e R$ 6.000,00 existem infinitos resultados possíveis. 18 Exercício Suponha que um recém formado precise escolher entre 4 possibilidades de emprego. Para tomar tal decisão, ele observa os seguintes dados: salário, número de benefícios, satisfação dos funcionários, ranking da empresa numa revista de negócios e o local da empresa. Classifique as variáveis envolvidas no problema. ALTERNATIVA Objetivos EMPREGO A EMPREGO B EMPREGO C EMPREGO D Salário ($) 2.000,00 2.400,00 1.800,00 2.200,00 5 2 3 4 Satisfação Alta Boa Boa Alta Ranking da Empresa 3 16° -- 25° Zona Oeste Zona Sul Zona Sul Zona Oeste Número de benefícios Local 19 Tipos de Dados Nominal Ex.: Localização Ordinal Ex.: Ranking Qualitativo Discreto Ex.: Número de benefícios Quantitativo Contínuo Ex.: Salário 20 Tipo de amostra População Amostra finita ou infinita n Amostra Simples Por quotas Coleta Telefone Por conglomerados Internet Por conveniência (listagem de clientes ou voluntários) Pessoal 21 Amostragem - Exemplos Situação 1: O gerente de uma indústria de cosméticos deseja planejar a quantidade de xampus que deve ser produzida de acordo com o tipo de cabelo de seus consumidores (oleoso, normal ou seco). Situação 2: Desconfia-se de que os fornecedores de um componente eletrônico, com fábrica em determinado município, estejam fazendo uma política combinada de preços (cartel). Situação 3: Uma construtora precisa decidir em qual região da Grande São Paulo construirá um shopping center. Como proceder? 22 Amostragem Técnicas de amostragem: métodos para extração de amostras População Amostra Objetivo da amostragem: Extrair amostras que possam ser utilizadas para realizar inferências sobre a população de interesse. 23 Tipos de amostras Probabilísticas Amostras A probabilidade de uma unidade amostral ser sorteada é conhecida Não probabilísticas A probabilidade de uma unidade amostral ser sorteada é desconhecida 24 Exemplo No processo de requalificação da área central de São Paulo, deseja-se dimensionar o mercado imobiliário da área. Como fazer isso? Que tipo de amostragem utilizar? Informação: Número de domicílios na área: cerca de 210.000, excluindo imóveis comerciais e terrenos, distribuídos em cerca de 1.400 quadras. 25 São Paulo 26 Área da Pesquisa 67= República 80=Sé 9= Bom Retiro 57= Pari 10= Brás 14= Cambuci 49= Liberdade 7= Bela Vista 26= Consolação 70= Santa Cecília 27 Esquemas amostrais probabilísticos 28 Amostra Aleatória Simples O sistema de referência é numerado de 1 até N (tamanho da população) e sorteia-se ao acaso n unidades amostrais para comporem a amostra. O sorteio pode ser com ou sem reposição 29 Amostra Estratificada (AE) Estrato: segmento homogêneo da população AE: divide-se a população em estratos. Em cada estrato é sorteada uma amostra aleatória simples. 30 Amostra por conglomerados (AC) Conglomerado (cluster): segmento heterogêneo da população. AC: divide-se a população em conglomerados. Sorteia-se uma amostra aleatória simples de conglomerados. Todas as unidades amostrais dos conglomerados sorteados são pesquisadas. 31 Amostra em múltiplos estágios Exemplo: Amostra em 2 estágios: Estágio 1: sorteia-se uma amostra aleatória simples de conglomerados Estágio 2: em cada conglomerado sorteado, sorteia-se uma amostra aleatória simples de unidades amostrais 32 Esquemas amostrais não probabilísticos 33 Planos não-probabilísticos • Amostragem por conveniência • Amostragem por quotas 34 Amostra por quotas 20% classe A/B 40% classe C 20 classe A/B 40 classe C 30 classe D/E 30% classe D/E Amostra (n=90) População Escolher unidades amostrais que reproduzam um perfil populacional. 35 E no nosso problema?? Que tipo de amostragem vc utilizaria? 36 Situação 1 Os membros de um partido político estavam considerando apoiar um determinado candidato à eleição de prefeito da cidade, e os líderes do partido queriam uma estimativa da proporção dos eleitores registrados que favoreciam o candidato. O tempo e o custo associados em contatar cada individuo na população dos eleitores registrados poderia ser estratosférico. Por isso, uma amostra de 400 eleitores registrados foi selecionada, e 160 dos 400 eleitores indicaram preferência pelo candidato. A estimativa da proporção da população de eleitores registrados que favoreceram o candidato foi de 160/400=0,40 37 Situação 2 Um fabricante de pneus desenvolveu um novo tipo de pneu concebido para proporcionar um aumento de quilometragem à atual linha de pneus da empresa. Para estimar o número médio de quilômetros proporcionados, o fabricante coletou uma amostra de 120 pneus para teste. Os resultados do teste forneceram uma média da amostra de 36.500 quilômetros. Portanto, uma estimativa média da quilometragem para a população dos novos pneus foi de 36.500 quilômetros. 38 Probabilística vs Não probabilística Custo: Não probabilística, em geral, é mais barata. Tempo: Não probabilística, em geral, é mais rápida. Extensão dos resultados da amostra para a população: só a amostragem probabilística permite o uso da inferência estatística nessa extensão. 39 Exemplo Deseja-se avaliar a eficácia de uma nova metodologia de ensino. Como coletar os dados? Conglomerado, uma sala de aula Simples, Números aleatorios e selecionar pessoas para 40 analisar Entrevistar prof e alunos Tipos de Estudos Observacionais Estudos Experimentais 41 Planejamento da Pesquisa De um modo geral o plano de uma pesquisa pode ser observacional ou experimental. Observacional: coletamos informações sobre variáveis categóricas e numéricas de interesse, em indivíduos de um ou mais grupos, mas não realizamos intervenções. Exemplos: levantamento populacional, levantamento amostral e estudo epidemiológico. Quanto à forma de obtenção dos dados: prospectivo, retrospectivo e transversal. Experimental: coletamos as informações como no caso anterior, mas os resultados são influenciados pelo pesquisador com intervenções. Em geral é necessário grupo controle. Exemplos: ensaios clínicos, experimentos na área de agronomia, nas áreas industriais, em laboratórios. A forma de obtenção dos dados é prospectiva, longitudinal, em geral. 42 Censo Todas as unidades amostrais da população são pesquisadas (amostra = população). Vantagem: é possível conhecer com exatidão todas as características da população (não há erro amostral). Desvantagens: • pode ser caro e demorado (trabalhoso). • em algumas situações não é factível, pois o processo de observação das variáveis leva à destruição das unidades amostrais. 43 Discriminação A sua empresa está sendo acusada de pagar um salário maior para os homens do que para as mulheres. Para justificar a acusação, apresentou-se uma lista de salários de uma amostra de funcionários. Você tem motivos para se preocupar? Justifique! 44 Discriminação.xls Sexo Anos no Salário emprego fem 0 24 fem 0 27 fem 0 29 fem 0 33 fem 1 26 fem 2 30 fem 3 32 fem 4 37 fem 5 27 fem 5 35 fem 6 34 fem 6 36 fem 6 37 fem 6 44 fem 7 31 fem 7 35 fem 8 35 fem 9 35 fem 9 36 fem 9 39 fem 16 40 fem 20 56 Sexo masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc masc Anos no Salário emprego 3 35 5 30 6 25 6 36 6 37 6 49 9 35 9 40 9 41 12 55 12 56 14 46 15 33 15 48 18 39 18 52 19 38 20 46 20 55 21 39 22 42 22 69 25 68 27 64 45 Ramo e folhas dos salários anuais (em salários mínimos) de homens e mulheres 20 25 30 35 40 45 50 55 60 65 5 0 5 0 6 2 5 4 8 3 5 6 7 8 9 9 1 2 6 8 9 5 6 9 Homens 20 25 30 35 40 45 50 55 60 65 4 6 0 5 0 7 7 9 1 2 3 4 5 5 5 6 6 7 7 9 4 6 Mulheres 46 Boxplot dos salários (visão aérea dos dados) 70 60 Salario 50 40 30 20 fem masc Sexo 47 Estatísticas Descritivas Estatística Homens Mulheres Média 44,9 34,5 Mediana 41,5 35,0 Desvio-padrão 11,7 6,9 n 24 22 48 Problema Os funcionários amostrados são comparáveis? Tempo médio no emprego Homens - 14,1 anos – DP = 7,0 anos Mulheres - 5,9 anos – DP = 0,85 anos 49 Ajuste de Curvas Existe relação entre salário e tempo no emprego? Gráfico de dispersão 80 70 Salário 60 50 40 30 20 10 0 0 5 10 15 20 25 30 Tempo no emprego 50 Diagrama de Dispersão Gráfico de dispersão 80 70 y = 1.1225x + 27.872 Salário 60 50 40 30 y = 1.0664x + 29.854 20 10 0 0 5 10 15 20 25 30 tempo no emprego 51 Dados Qualitativos O gerente do restaurante MC&M gostaria de planejar a compra e estoque dos refrigerantes devido ao volume que eles ocupam no seu armazém. Para isso, ele vai analisar os tipos de refrigerantes (A, B, C e outros) pedidos num dia típico de funcionamento. Os dados obtidos são: A A A C A Outros B A C B B Outros A Outros B A B A B A C A B A A B B B B B Outros B C B A C C A C C A B A A A B A A A Outros 52 Freqüência Relativa e Porcentagem refrigerante freqüência freqüência relativa A 21 0,42 B 16 0,32 C 8 0,16 Outros 5 0,10 Total 50 Porcentagem 42% 32% 16% 10% Ação prioritária: Os estoques dos refrigerantes devem priorizar A e B, pois respondem por 74% dos pedidos. A tabela de freqüências permite obter dois gráficos muito utilizados: gráfico de setores gráfico de barras 53 TABELAS E GRÁFICOS Dados Qualitativos Gráfico de setores Gráfico de barras Tipo de Refrigerante 40 A 42% B 32% 42 45 Outros 10% Porcentagem C 16% Tipo de refrigerante 32 35 30 25 16 20 10 15 10 5 0 A B C Outros Esses gráficos são facilmente obtidos nas planilhas eletrônicas como o Excel 54 Tabela e gráfico de dados quantitativos O gerente de MC&M gostaria agora de obter informações a respeito das vendas diárias (em milhares de garrafas) de refrigerantes num mês. Os dados obtidos foram: 43 48 39 51 46 46 32 61 59 49 63 44 62 50 35 23 62 52 54 42 76 55 36 46 49 62 48 40 43 57 Observe que nesse caso não é apropriado montar a tabela de freqüência contando a repetição de cada resultado uma vez que a possibilidade de repetição é muito baixa. Quando os dados têm muitas possibilidades de resultados, faz-se a contagem dos resultados de acordo com um intervalo pré55 estabelecido, denominado de classe. Distribuição de freqüências DIVIDIR OS DADOS EM CLASSES AMPLITUDE IGUAIS CONTAR QUANTAS OBSERVAÇÕES EM CADA CLASSE - FREQUÊNCIA ABSOLUTA DIVIDIR PELO NÚMERO TOTAL DE OBSERVAÇÕES - FREQUÊNCIA RELATIVA 56 Determinação do tamanho das classes MÁXIMO = 76 E MÍNIMO = 23 AMPLITUDE DE VARIAÇÃO = MAX - MIN = 76 - 23 = 53 NÚMERO DE CLASSES = aproximadamente n TAMANHO DAS CLASSES : Amplitude 53 10 n º de classes 30 57 Tabela e gráfico de dados quantitativos 43 48 39 51 46 46 32 61 59 49 63 44 62 50 35 23 62 52 classe inf 54 42 76 55 36 46 inf 49 62 48 40 43 57 sup freq. absoluta Pertencem à classe que vai de 30 (exclusive) até 40 (inclusive). freq. relativa tamanho classe densidade sup freqüência 20 ----| 30 30 ----| 40 40 ----| 50 50 ----| 60 60 ----| 70 70 ----| 80 Contagem para 5 cada intervalo 20 ----| 30 1 0,0333 10,00 0,0033 30 ----| 40 5 0,1667 10,00 0,0167 40 ----| 50 12 0,4000 10,00 0,0400 50 ----| 60 6 0,2000 10,00 0,0200 60 ----| 70 5 0,1667 10,00 0,0167 70 ----| 80 1 30 0,0333 1,0000 10,00 0,0033 Densidade = freq. relativa / tamanho da classe Essa tabela possibilita a montagem de um gráfico chamado de Histograma 58 Freqüência absoluta, freqüência Relativa ou densidade Tabela e gráfico de dados quantitativos inf sup freq. absoluta freq. relativa tamanho classe densidade 20 ----| 30 1 0.0333 10.00 0.0033 30 ----| 40 5 0.1667 10.00 0.0167 40 ----| 50 12 0.4000 10.00 0.0400 50 ----| 60 6 0.2000 10.00 0.0200 60 ----| 70 5 0.1667 10.00 0.0167 70 ----| 80 1 30 0.0333 1.0000 10.00 0.0033 Denmsidade Histograma - Venda de refrigerantes Histograma 0.0450 0.0400 0.0350 0.0300 0.0250 0.0200 0.0150 0.0100 0.0050 0.0000 20 --| 30 30 --| 40 40 --| 50 50 --| 60 60 --| 70 70 --| 80 Vendas (milhares de garrafas) Observou-se que as vendas diárias concentram-se entre 30 e 70, podendo ocorrer esporadicamente vendas abaixo de 30 e acima de 70. Dessa tabela podemos obter outra medida de freqüência chamado 60 freqüência acumulada e freqüência acumulada relativa. A freqüência acumulada da classe é a soma da freqüência da classe em questão e da freqüência acumulada anterior à classe em questão. Para iniciar, consideramos que a freqüência acumulada da primeira classe é igual ao valor da freqüência da classe inf 20 30 40 50 60 70 ----| ----| ----| ----| ----| ----| sup 30 40 50 60 70 80 total freqüência Freq. Acumulada = 1 1 5+1 6 5 12 + 6 18 12 6 + 18 6 24 5 + 24 5 29 1 + 29 1 30 30 Os valores da freqüência acumulada indicam a quantidade de dados que são menores ou iguais ao limite superior da classe. Por exemplo a freqüência acumulada da terceira classe é igual a 18. Isso indica que em 18 de 30 dias, vendeu-se 50 mil ou menos garrafas de refrigerante por dia. Pode-se também raciocinar complementarmente, isto é, em 12 de 30 dias vendeu-se mais de 50 mil garrafas de refrigerante por dia. Obs.: o valor 12 foi obtido pela diferença entre 30 e 18. 61 Podemos obter a freqüência acumulada relativa pela divisão da freqüência acumulada pelo total de dados (n). inf 20 30 40 50 60 70 ----| ----| ----| ----| ----| ----| sup 30 40 50 60 70 80 total freqüência Freq. Acumulada Freq. Acum. relativa 1 / 30 0,03 1 1 6 / 30 0,20 5 6 18 / 30 12 18 0,60 24/ 30 6 24 0,80 29 / 30 5 29 0,97 30 / 30 1 30 1,00 30 Os valores da Freqüência acumulada (relativa) indicam a quantidade (fração) de dados que são menores ou iguais ao limite superior da classe. Por exemplo: A freqüência acumulada relativa da terceira classe é 0,60. Isso indica que em 60% dos dias vendeu-se 50 mil ou menos garrafas de refrigerante diariamente ou que em 40% dos dias vendeu-se mais de 50 mil garrafas de 62 refrigerante por dia. Tabela e gráfico de dados quantitativos Porcentagem acumulada Gráfico da freq. acumulada ou ogiva 100,00 80,00 60,00 40,00 20,00 0,00 30 40 50 60 70 80 Venda (milhares de unidades) Qual a chance de vender mais de 55.000 garrafas de refrigerante num determinado dia? 63 Histograma - Densidade Distribuição de freqüências da variável salário numa determinada empresa Salário [0, 2) [2, 4) [4, 8) [8, 12) [12, 16) [16, 25) [25, 50) freq. relativa 0.31 0.20 0.15 0.10 0.05 0.08 0.11 64 Histograma - Densidade Distribuição de freqüências da variável salário numa determinada empresa. Salário [0, 2) [2, 4) [4, 8) [8, 12) [12, 16) [16, 25) [25, 50) freq. relativa amplitude densidade 0.1550 2.00 0.31 0.1000 2.00 0.20 0.0375 4.00 0.15 0.0250 4.00 0.10 0.0125 4.00 0.05 0.0089 9.00 0.08 0.0044 25.00 0.11 Densidade = freq. relativa / amplitude da classe 65 Histograma - Densidade Densidade [0, 2) [2, 4) [4, 8) [8, 12) [12, 16) [16, 25) [25, 50) salário 66 Histograma - Densidade Calcular a área sob o histograma feito utilizando-se a densidade como altura. Área = 1 O nome densidade é dado para distribuições cuja área sob a curva é igual a 1. Pq construir um histograma com classes de tamanhos diferentes? Para que em algumas classes não ocorram saltos no histograma, presença de classes vazias. A assimetria da variável influencia na construção do histograma, por exemplo, salários. 67 Exemplo O gerente comercial de uma editora deseja estudar o preço de venda de um pequeno livro de histórias infantis em 2 municípios: A e B. Para estudar a distribuição de preços, foram tomados os preços praticados por uma amostra de 25 distribuidoras do município A e de 20 distribuidoras do município B. 68 Dados Município A 14,80 18,20 13,60 15,50 12,00 13,70 16,00 17,30 14,40 16,10 26,80 12,10 B 12,90 20,90 19,30 14,40 15,10 13,10 15,50 14,30 15,10 15,80 13,00 14,90 17,00 21,30 20,70 20,70 19,90 20,30 21,10 19,60 19,30 20,80 19,70 20,30 19,60 19,20 18,50 18,60 20,30 20,10 19,90 21,00 18,90 69 Ramo-e-Folhas – Município A Dados 14,80 12,90 18,20 20,90 13,60 19,30 15,50 14,40 12,00 15,10 13,70 13,10 16,00 15,50 17,30 14,30 14,40 15,10 16,10 15,80 26,80 13,00 12,10 14,90 17,00 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 0 60 80 50 0 30 20 30 90 80 10 70 40 10 10 0 12 0 10 90 13 0 10 60 70 14 30 40 40 80 90 15 10 10 50 50 80 16 0 10 17 0 30 18 20 Análise 19 30 • Distribuição 20 90assimétrica de preços;21 • Grande22 variabilidade; 23 • Preço típico entre 13 e 16; 24 25 de um valor • Presença aberrante26(outlier). 80 90 10 0 40 30 90 50 10 80 70 Ramo-e-Folhas – Município B Dados 21,30 20,30 20,70 19,60 20,70 19,20 19,90 18,50 20,30 18,60 21,10 20,30 19,60 20,10 19,30 19,90 20,80 21,00 19,70 18,90 18 19 20 21 50 20 10 0 60 30 30 10 90 60 60 70 90 90 30 30 70 70 80 30 Análise • Distribuição pouco assimétrica; • Pequena variabilidade de preços; • Preço típico entre 19 e 21; • Não há valores aberrantes. 71 Ramo-e-folhas - Comparação 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 00 60 80 50 00 30 20 30 90 10 70 40 10 10 00 90 10 00 40 30 90 50 10 80 Município A 80 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Município B 50 90 70 30 60 60 70 10 90 30 70 60 20 90 30 80 30 30 10 00 72 Exercício no Excel Construir um histograma para cada um dos municípios (usando classes de tamanho R$1,00) e compará-los de acordo com a distribuição dos preços praticados pelos municípios. Histograma - Município A 0.50 Densidade 0.40 0.30 0.20 0.10 0.00 12 --| 13 13 --| 14 14 --| 15 15 --| 16 16 --| 17 17 --| 18 18 --| 19 19 --| 20 20 --| 21 21--| 22 22 --| 23 23 --| 24 24 --| 25 25 --| 26 26 --| 27 21--| 22 22 --| 23 23 --| 24 24 --| 25 25 --| 26 26 --| 27 Preço em R$ Histograma - Município B 0.5 Densidade 0.4 0.3 0.2 0.1 0 12 --| 13 13 --| 14 14 --| 15 15 --| 16 16 --| 17 17 --| 18 18 --| 19 19 --| 20 20 --| 21 Preço em R$ 73 Escolhendo uma aplicação Você foi contratado para trabalhar no departamento financeiro de uma empresa. Sua primeira tarefa é sugerir uma aplicação à empresa. Você pode aplicar na PPN (empresa do setor petroquímico) ou nas ações que compõem o fundo IBP. Que informações você gostaria de ter? (IBP_PPN_aula.xls) 74 Fechamento – IBP Agosto/94 a Janeiro/04 76 Fechamento – PPN Agosto/94 a Dezembro/03 77 -1 -2 -3 78 02/12/2003 02/08/2003 02/04/2003 02/12/2002 02/08/2002 02/04/2002 02/12/2001 02/08/2001 02/04/2001 02/12/2000 02/08/2000 02/04/2000 02/12/1999 02/08/1999 02/04/1999 02/12/1998 02/08/1998 02/04/1998 02/12/1997 02/08/1997 02/04/1997 02/12/1996 02/08/1996 02/04/1996 02/12/1995 02/08/1995 02/04/1995 02/12/1994 02/08/1994 Retornos diários (%) – IBP Agosto/94 a Janeiro/04 4 3 2 1 0 -5 -10 -15 79 02/12/2003 02/08/2003 02/04/2003 02/12/2002 02/08/2002 02/04/2002 02/12/2001 02/08/2001 02/04/2001 02/12/2000 02/08/2000 02/04/2000 02/12/1999 02/08/1999 02/04/1999 02/12/1998 02/08/1998 02/04/1998 02/12/1997 02/08/1997 02/04/1997 02/12/1996 02/08/1996 02/04/1996 02/12/1995 02/08/1995 02/04/1995 02/12/1994 02/08/1994 Retornos (%) diários– PPN PN Agosto/94 a Dezembro/03 Retorno 20 15 10 5 0 -2 ,7 4 -2 ,2 4 -1 ,7 4 -1 ,2 3 -0 ,7 3 -0 ,2 3 0, 27 0, 77 1, 28 1, 78 2, 28 2, 78 Densidade de freqüência -0,4 -0 ,2 1 -0 ,0 5 0, 11 0, 27 0, 44 0, 60 0, 76 -0 ,3 8 -0 ,5 4 -0 ,7 0 -0 ,8 6 -1 ,0 3 Comparação dos retornos IBP 2,1 1,6 1,1 0,6 0,1 Retornos PPN 0,85 0,75 0,65 0,55 0,45 0,35 0,25 0,15 0,05 -0,05 Retorno Retorno IBP Agosto/99-Janeiro/04 Histograma Alisado - IBP 5000 4500 3500 3000 2500 2000 1500 1000 500 0.95 0.80 0.65 0.50 0.35 0.20 0.05 -0.10 -0.25 -0.40 -0.55 -0.70 -0.85 0 -1.00 Densidade 4000 Retorno (%) 81 Comparação dos retornos Densidade de freqüência Histogramas alisados 2 1,5 IBP PPN 1 0,5 0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 Retornos 82 Comparação dos retornos Frequência acumulada Gráfico da freqüência acumulada 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 -3,0 IBP PPN -2,0 -1,0 0,0 1,0 2,0 3,0 Retornos 83 Exercício - Bussab e Morettin (pg. 26) A Editora Moderna, desejando melhorar o nível de seus funcionários em cargos de chefia, montou um curso experimental e indicou 25 funcionários para a 1ª turma. Como havia dúvidas quanto à adoção de um único critério de avaliação, cada instrutor adotou seu próprio sistema de aferição. Usando os dados da tabela a seguir, responda as questões: 84 Dados Func 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Seção P P P P P P P T T T T T T T V V V V V V V V V V V Administração 8.0 8.0 8.0 6.0 8.0 8.0 8.0 10.0 8.0 10.0 8.0 8.0 6.0 10.0 8.0 8.0 8.0 6.0 6.0 6.0 8.0 6.0 8.0 8.0 8.0 Direito 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 Redação 8.6 7.0 8.0 8.6 8.0 8.5 8.2 7.5 9.4 7.9 8.6 8.3 7.0 8.6 8.6 9.5 6.3 7.6 6.8 7.5 7.7 8.7 7.3 8.5 7.0 Estatística 9.0 9.0 8.0 8.0 9.0 10.0 8.0 8.0 9.0 8.0 10.0 7.0 7.0 9.0 9.0 7.0 8.0 9.0 4.0 7.0 7.0 8.0 10.0 9.0 9.0 Inglês B B D D A B D B B B C D B A C A D C D C D C C A B Metodologia A C B C A A C C B C B B C B B A C C C B B A C A A Política 9.0 6.5 9.0 6.0 6.5 6.5 9.0 6.0 10.0 9.0 10.0 6.5 6.0 10.0 10.0 9.0 10.0 6.0 6.0 6.0 6.5 6.0 9.0 6.5 9.0 Economia 8.5 8.0 8.5 8.5 9.0 9.5 7.0 8.5 8.0 7.5 8.5 8.0 8.5 7.5 7.0 7.5 7.5 8.5 9.5 8.5 8.0 9.0 7.0 9.0 8.5 85 Exercício - Bussab e Morettin (pg. 26) a) Após observar cada variável e com o intuito de resumi-las, classifique cada uma delas. b) Construa gráficos e tabelas para cada uma das variáveis envolvidas no problema. c) Compare e indique as diferenças existentes entre as distribuições das variáveis Direito, Política e Estatística. Entregar exercício, na próxima aula, em grupos de até 3 alunos. 86