Coleta e Modelagem dos Dados de Entrada Capítulo 2 Páginas 24-52 Este material é disponibilizado para uso exclusivo de docentes que adotam o livro Modelagem e Simulação de Eventos Discretos em suas disciplinas. O material pode (e deve) ser editado pelo professor. Pedimos apenas que seja sempre citada a fonte original de consulta. Prof. Afonso C. Medina Prof. Leonardo Chwif Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Versão 0.2 30/09/06 Slide 1 Três Etapas Coleta Tratamento Inferência Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 2 Coleta dos Dados 1. Escolha adequada da variável de estudo 2. O tamanho da amostra deve estar entre 100 e 200 observações. Amostras com menos de 100 observações podem comprometer a identificação do melhor modelo probabilístico, e amostras com mais de 200 observações não trazem ganhos significativos ao estudo; Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 3 Coleta dos Dados 3. Coletar e anotar as observações na mesma ordem em que o fenômeno está ocorrendo, para permitir a análise de correlação ; 4. Se existe alguma suspeita de que os dados mudam em função do horário ou do dia da coleta, a coleta deve ser refeita para outros horários e dias. Na modelagem de dados, vale a regra: toda suspeita deve ser comprovada ou descartada estatisticamente. Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 4 Exemplo 2.1: Filas nos Caixas do Supermercado Um gerente de supermercado está preocupado com as filas formadas nos caixas de pagamento durante um dos turnos de operação. Quais seriam as variáveis de estudo para coleta de dados? (S) ou (N). (N) O número de prateleiras no supermercado (S) Os tempos de atendimento nos caixas (N) O número de clientes em fila É resultado!! (N) O tempo de permanência dos clientes no supermercado (S) Os tempos entre chegadas sucessivas de clientes nos caixas de pagamento Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 5 Exemplo 2.1: Coleta de Dados Intervalo entre chegadas de pessoas nos caixas do supermercado (100 medidas). Tempos em minutos: 11 1 5 2 1 8 7 2 15 1 6 19 2 10 0 6 4 2 3 6 5 3 2 1 5 9 5 11 0 5 1 2 3 9 3 0 18 12 2 0 2 3 6 3 18 2 14 13 6 3 13 27 1 1 6 2 1 28 8 5 0 3 1 9 4 3 7 2 7 17 13 5 1 1 3 2 0 0 3 0 9 7 11 0 22 12 7 0 19 10 19 20 4 3 27 8 16 7 19 3 9 4 1 10 8 1 28 1 1 15 10 5 3 9 3 4 20 3 12 7 Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) 1 12 2 3 3 3 1 6 1 43 9 10 6 9 18 5 2 18 5 0 5 8 4 3 0 1 3 12 9 2 20 8 13 4 4 1 2 12 4 8 5 7 4 4 4 11 3 8 12 9 17 728 12 6 4 3 9 2 0 5 1 5 2 5 4 9 4 12 4 11 24 8 12 3 7 1 3 1 3 8 Slide 6 Exemplo 2.1: Medidas de Posição e Dispersão Média Medidas de posição Mediana 5 Moda 3 Mínimo 0 Máximo 728 Amplitude 728 Desvio padrão Medidas de dispersão 10,44 Variância da amostra 51,42 2.643,81 Coeficiente de Variação 493% Coeficiente Assimetria 13,80 O 728 é um outlier? Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 7 Exemplo 2.1: Outlier Intervalo entre chegadas de pessoas nos caixas do supermercado (100 medidas). Tempos em minutos: 11 1 5 2 1 8 7 2 15 1 6 19 2 10 0 6 4 2 3 6 5 3 2 1 5 9 5 11 0 5 1 2 3 9 3 0 18 12 2 0 2 3 6 3 18 2 14 13 6 3 13 27 1 1 6 2 1 28 8 5 0 3 1 9 4 3 7 2 7 17 13 5 1 1 3 2 0 0 3 0 9 7 11 0 22 12 7 0 19 10 19 20 4 3 27 8 16 7 19 3 9 4 1 10 8 1 28 1 1 15 10 5 3 9 3 4 20 3 12 7 Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) 1 12 2 3 3 3 1 6 1 43 9 10 6 9 18 5 2 18 5 0 5 8 4 3 0 1 3 12 9 2 20 8 13 4 4 1 2 12 4 8 5 7 4 4 4 11 3 8 12 9 17 728 12 6 4 3 9 2 0 5 1 5 2 5 4 9 4 12 4 11 24 8 12 3 7 1 3 1 3 8 Slide 8 Outliers ou Valores Discrepantes Erro na coleta de dados. Este tipo de outlier é o mais comum, principalmente quando o levantamento de dados é feito por meio manual. Eventos Raros. Nada impede que situações totalmente atípicas ocorram na nossa coleta de dados. Alguns exemplos: Um dia de temperatura negativa no verão da cidade do Rio de Janeiro; Um tempo de execução de um operador ser muito curto em relação aos melhores desempenhos obtidos naquela tarefa; Um tempo de viagem de um caminhão de entregas na cidade de São Paulo, durante o horário de rush, ser muito menor do que fora deste horário. Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 9 Exemplo 2.1: Outlier (valor discrepante) Dados Média Mediana Variância da amostra com o outlier sem o outlier 10,44 6,83 5 5 2.643,81 43,60 Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 10 Identificação de Outliers: Box-plot Valores Q 3+1,5(Q 3- Q 1) 20 Q3 15 mediana Q1 10 Q 1-1,5( Q 3- Q 1) 5 outlier 0 A B Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) C Séries Slide 11 Análise de Correlação Diagrama de dispersão dos tempos de atendimento do exemplo de supermercado, mostrando que não há correlação entre as observações da amostra. 50 Obs e rv a ç ã o k +1 40 30 20 10 0 0 10 20 30 Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) 40 Obs e rv a ç ã o k 50 Slide 12 Análise de Correlação Diagrama de dispersão de um exemplo hipotético em que existe correlação entre os dados que compõem a amostra. 20 Obs e rv a ç ã o k +1 18 16 14 12 10 10 12 14 16 Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) 18 Obs e rv a ç ã o k 20 Slide 13 Exemplo 2.1: Construção do Histograma O histograma é utilizado para identificar qual a distribuição a ser ajustada aos dados coletados ou é utilizado diretamente dentro do modelo de simulação. 1. Definir o número de classes: K 1 3,3 log10 n K n 2. Definir o tamanho do intervalo: h Amplitude K 3. Construir a tabela de freqüências 4. Construir o histograma Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 14 Exemplo 2.1: Histograma Histograma h=4.8 Freqüência 120 100 80 60 40 20 0 4.8 14.3 23.9 33.4 43 Bloco Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 15 Exemplo 2.1: Inferência Qual o melhor modelo probabilístico ou distribuição estatística que pode representar a amostra coletada? Lognormal? µ=1 σ =0,5 f (x) Histograma h=4.8 Freqüência µ =1 σ =1 120 100 80 60 40 20 0 4.8 14.3 23.9 33.4 43 x Bloco f (x ) 1/λ f (x ) Triangular? f (x ) Normal? x Exponencial? a µ m b x x Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 16 Testes de Aderência (não paramétricos) Testa a validade ou não da hipótese de aderência (ou hipótese nula) em confronto com a hipótese alternativa: H0: o modelo é adequado para representar a distribuição da população. Ha: o modelo não é adequado para representar a distribuição da população. Se a um dado nível de significância (100)% rejeitarmos H0, o modelo testado não é adequado para representar a distribuição da população. O nível de significância equivale à probabilidade de rejeitarmos a hipótese nula H0, dado que ela está correta. Testes usuais: Qui quadrado Kolmogorov-Sminov Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 17 Teste do Qui-quadrado Limites Inf Sup 0 4.8 4.8 9.6 9.6 14.3 14.3 19.1 19.1 1.0E+10 Portanto, Exponencial 0.5022 0.2500 0.1244 0.0620 0.0614 Freqüências Teórica (T) Observada (O) 100 96 50 55 25 25 12 13 12 10 E (O-T)^2/T 0.16 0.55 0.00 0.04 0.40 1.15 Confiança Graus de liberdade 5% 3 Valor Teórico 7.81 p-value 0.76 a hipótese de que os dados não aderem ao modelo rejeitamos exponencial Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 18 P-value Parâmetro usual nos softwares de estatística. Para o teste do quiquadrado no Excel, utilizar: =DIST.QUI (valor de E; graus de liberdade) Valor p-value<0,01 Critério Evidência forte contra a hipótese de aderência 0,01p-value<0,05 Evidência moderada contra a hipótese de aderência 0,05p-value<0,10 Evidência potencial contra a hipótese de aderência 0,10p-value Evidência fraca ou inexistente contra a hipótese de aderência Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 19 Distribuições discretas: Binomial f (x ) x Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 20 Distribuições discretas: Poisson f (x ) x Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 21 Distribuições contínuas: Beta f (x ) α =1,5 β =5 α =6 β =2 α =4 β =4 α =2 β =1 α =3 β =2 α =2 β =3 0 0,5 Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) α =2 β =1 1 x Slide 22 Distribuições contínuas: Erlang f (x ) λ =0,5 λ =0,5 k= 3 λ =0,2 k= 10 x Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 23 Distribuições contínuas: Exponencial f (x ) 1/λ x Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 24 Distribuições contínuas: Gama f (x ) α =0, α =1 α =2 x Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 25 Distribuições contínuas: Lognormal µ =1 σ =0,5 f (x ) µ =1 σ =1 x Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 26 Distribuições contínuas: Normal f (x ) µ Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 27 Distribuições contínuas: Uniforme f (x ) 1/ (b-a ) a Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) b x Slide 28 Distribuições contínuas: Triangular f (x ) a m Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) b x Slide 29 Distribuições contínuas: Weibull f (x ) α =0,5 β =1 α =3 β =1 α =1 β =1 α =2 β =1 α =3 β =2 x Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 30 Modelagem de dados... Sem dados! Distribuição Parâmetros Características Aplicabilidade Grande Exponencial Média Triangular Menor valor, moda e maior valor Variância Cauda alta para direita Quando Simétrica ou não Simétrica Normal Média e desvio-padrão Forma de sino Variabilidade controlada pelo desviopadrão Todos Uniforme Maior valor e menor valor Discreta Valores e probabilidade de ocorrência destes valores variabilidade dos valores Independência entre um valor e outro Muitos valores baixos e poucos valores altos Utilizada para representar o tempo entre chegadas sucessivas e o tempo entre falhas sucessivas os valores no intervalo são igualmente prováveis de ocorrer se conhece ou se tem um bom “chute” sobre a moda (valor que mais ocorre), o menor valor e o maior valor que podem ocorrer Quando a probabilidade de ocorrência de valores acima da média é a mesma que valores abaixo da média Quando o tempo de um processo pode ser considerado a soma de diversos tempos de sub-processos Processos manuais Quando não se tem nenhuma informação sobre o processo ou apenas os valores limites (simulação do pior caso) Utilizada Apenas assume os valores fornecidos pelo analista para a escolha de parâmetros das entidades (por exemplo: em uma certa loja, 30% dos clientes realizam suas compras no balcão e 70% nas prateleiras) Quando se conhecem apenas “valores intermediários” da distribuição ou a porcentagem de ocorrência de alguns valores discretos Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006) Slide 31