Coleta e Modelagem dos Dados de Entrada
Capítulo 2
Páginas 24-52
Este material é disponibilizado para uso
exclusivo de docentes que adotam o livro
Modelagem e Simulação de Eventos
Discretos em suas disciplinas. O material
pode (e deve) ser editado pelo professor.
Pedimos apenas que seja sempre citada a
fonte original de consulta.
Prof. Afonso C. Medina
Prof. Leonardo Chwif
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Versão 0.2
30/09/06
Slide 1
Três Etapas

Coleta

Tratamento

Inferência
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 2
Coleta dos Dados
1.
Escolha adequada da variável de estudo
2.
O tamanho da amostra deve estar entre
100 e 200 observações. Amostras com
menos de 100 observações podem
comprometer a identificação do melhor
modelo probabilístico, e amostras com
mais de 200 observações não trazem
ganhos significativos ao estudo;
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 3
Coleta dos Dados
3.
Coletar e anotar as observações na mesma
ordem em que o fenômeno está ocorrendo,
para permitir a análise de correlação ;
4.
Se existe alguma suspeita de que os dados
mudam em função do horário ou do dia da
coleta, a coleta deve ser refeita para
outros horários e dias. Na modelagem de
dados, vale a regra: toda suspeita deve
ser comprovada ou descartada
estatisticamente.
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 4
Exemplo 2.1: Filas nos Caixas do Supermercado
Um gerente de supermercado está preocupado
com as filas formadas nos caixas de pagamento
durante um dos turnos de operação. Quais seriam
as variáveis de estudo para coleta de dados? (S)
ou (N).
(N) O número de prateleiras no supermercado
(S) Os tempos de atendimento nos caixas
(N) O número de clientes em fila
É resultado!!
(N) O tempo de permanência dos clientes no supermercado
(S) Os tempos entre chegadas sucessivas de clientes nos
caixas de pagamento
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 5
Exemplo 2.1: Coleta de Dados
Intervalo entre chegadas de pessoas nos caixas do supermercado
(100 medidas). Tempos em minutos:
11
1
5
2
1
8
7
2
15
1
6
19
2
10
0
6
4
2
3
6
5
3
2
1
5
9
5
11
0
5
1
2
3
9
3
0
18
12
2
0
2
3
6
3
18
2
14
13
6
3
13
27
1
1
6
2
1
28
8
5
0
3
1
9
4
3
7
2
7
17
13
5
1
1
3
2
0
0
3
0
9
7
11
0
22
12
7
0
19
10
19
20
4
3
27
8
16
7
19
3
9
4
1
10
8
1
28
1
1
15
10
5
3
9
3
4
20
3
12
7
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
1
12
2
3
3
3
1
6
1
43
9
10
6
9
18
5
2
18
5
0
5
8
4
3
0
1
3
12
9
2
20
8
13
4
4
1
2
12
4
8
5
7
4
4
4
11
3
8
12
9
17
728
12
6
4
3
9
2
0
5
1
5
2
5
4
9
4
12
4
11
24
8
12
3
7
1
3
1
3
8
Slide 6
Exemplo 2.1: Medidas de Posição e Dispersão
Média
Medidas de posição
Mediana
5
Moda
3
Mínimo
0
Máximo
728
Amplitude
728
Desvio padrão
Medidas de dispersão
10,44
Variância da amostra
51,42
2.643,81
Coeficiente de Variação
493%
Coeficiente Assimetria
13,80
O 728 é um outlier?
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 7
Exemplo 2.1: Outlier
Intervalo entre chegadas de pessoas nos caixas do supermercado
(100 medidas). Tempos em minutos:
11
1
5
2
1
8
7
2
15
1
6
19
2
10
0
6
4
2
3
6
5
3
2
1
5
9
5
11
0
5
1
2
3
9
3
0
18
12
2
0
2
3
6
3
18
2
14
13
6
3
13
27
1
1
6
2
1
28
8
5
0
3
1
9
4
3
7
2
7
17
13
5
1
1
3
2
0
0
3
0
9
7
11
0
22
12
7
0
19
10
19
20
4
3
27
8
16
7
19
3
9
4
1
10
8
1
28
1
1
15
10
5
3
9
3
4
20
3
12
7
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
1
12
2
3
3
3
1
6
1
43
9
10
6
9
18
5
2
18
5
0
5
8
4
3
0
1
3
12
9
2
20
8
13
4
4
1
2
12
4
8
5
7
4
4
4
11
3
8
12
9
17
728
12
6
4
3
9
2
0
5
1
5
2
5
4
9
4
12
4
11
24
8
12
3
7
1
3
1
3
8
Slide 8
Outliers ou Valores Discrepantes
 Erro na coleta de dados. Este tipo de outlier é o mais comum,
principalmente quando o levantamento de dados é feito por meio
manual.
 Eventos Raros. Nada impede que situações totalmente atípicas
ocorram na nossa coleta de dados. Alguns exemplos:
 Um dia de temperatura negativa no verão da cidade do Rio de
Janeiro;
 Um tempo de execução de um operador ser muito curto em
relação aos melhores desempenhos obtidos naquela tarefa;
 Um tempo de viagem de um caminhão de entregas na cidade de
São Paulo, durante o horário de rush, ser muito menor do que
fora deste horário.
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 9
Exemplo 2.1: Outlier (valor discrepante)
Dados
Média
Mediana
Variância da amostra
com o
outlier
sem o
outlier
10,44
6,83
5
5
2.643,81
43,60
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 10
Identificação de Outliers: Box-plot
Valores
Q 3+1,5(Q 3- Q 1)
20
Q3
15
mediana
Q1
10
Q 1-1,5( Q 3- Q 1)
5
outlier
0
A
B
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
C
Séries
Slide 11
Análise de Correlação
Diagrama de dispersão dos tempos
de atendimento do exemplo de
supermercado, mostrando que não
há correlação entre as observações
da amostra.
50
Obs e rv a ç ã o
k +1
40
30
20
10
0
0
10
20
30
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
40
Obs e rv a ç ã o
k
50
Slide 12
Análise de Correlação
Diagrama de dispersão de um
exemplo hipotético em que existe
correlação entre os dados que
compõem a amostra.
20
Obs e rv a ç ã o
k +1
18
16
14
12
10
10
12
14
16
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
18
Obs e rv a ç ã o
k
20
Slide 13
Exemplo 2.1: Construção do Histograma
O histograma é utilizado para identificar qual a distribuição a ser
ajustada aos dados coletados ou é utilizado diretamente dentro do
modelo de simulação.
1. Definir o número de classes:
K  1 3,3 log10 n
K n
2. Definir o tamanho do intervalo:
h
Amplitude
K
3. Construir a tabela de freqüências
4. Construir o histograma
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 14
Exemplo 2.1: Histograma
Histograma h=4.8
Freqüência
120
100
80
60
40
20
0
4.8
14.3
23.9
33.4
43
Bloco
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 15
Exemplo 2.1: Inferência
Qual o melhor modelo probabilístico ou
distribuição estatística que pode representar a
amostra coletada?
Lognormal?
µ=1 σ =0,5
f (x)
Histograma h=4.8
Freqüência
µ =1 σ =1
120
100
80
60
40
20
0
4.8
14.3
23.9
33.4
43
x
Bloco
f (x )
1/λ
f (x )
Triangular?
f (x )
Normal?
x
Exponencial?
a
µ
m
b
x
x
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 16
Testes de Aderência (não paramétricos)
Testa a validade ou não da hipótese de aderência (ou hipótese
nula) em confronto com a hipótese alternativa:
H0: o modelo é adequado para representar a distribuição da
população.

Ha: o modelo não é adequado para representar a distribuição da
população.

Se a um dado nível de significância (100)% rejeitarmos H0, o modelo testado
não é adequado para representar a distribuição da população. O nível de
significância  equivale à probabilidade de rejeitarmos a hipótese nula H0,
dado que ela está correta. Testes usuais:
Qui quadrado
Kolmogorov-Sminov
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 17
Teste do Qui-quadrado
Limites
Inf
Sup
0
4.8
4.8
9.6
9.6
14.3
14.3
19.1
19.1 1.0E+10
Portanto,
Exponencial
0.5022
0.2500
0.1244
0.0620
0.0614
Freqüências
Teórica (T)
Observada (O)
100
96
50
55
25
25
12
13
12
10
E
(O-T)^2/T
0.16
0.55
0.00
0.04
0.40
1.15
Confiança
Graus de liberdade
5%
3
Valor Teórico
7.81
p-value
0.76
a hipótese de que os dados
não
aderem ao modelo
rejeitamos exponencial
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 18
P-value
Parâmetro usual nos softwares de estatística. Para o teste do quiquadrado no Excel, utilizar:
=DIST.QUI (valor de E; graus de liberdade)
Valor
p-value<0,01
Critério
Evidência forte contra a hipótese de
aderência
0,01p-value<0,05
Evidência moderada contra a hipótese de
aderência
0,05p-value<0,10
Evidência potencial contra a hipótese de
aderência
0,10p-value
Evidência fraca ou inexistente contra a
hipótese de aderência
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 19
Distribuições discretas: Binomial
f (x )
x
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 20
Distribuições discretas: Poisson
f (x )
x
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 21
Distribuições contínuas: Beta
f (x )
α =1,5 β =5
α =6 β =2
α =4
β =4
α =2
β =1
α =3
β =2
α =2
β =3
0
0,5
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
α =2
β =1
1
x
Slide 22
Distribuições contínuas: Erlang
f (x )
λ =0,5
λ =0,5 k= 3
λ =0,2 k= 10
x
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 23
Distribuições contínuas: Exponencial
f (x )
1/λ
x
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 24
Distribuições contínuas: Gama
f (x )
α =0,
α =1
α =2
x
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 25
Distribuições contínuas: Lognormal
µ =1 σ =0,5
f (x )
µ =1 σ =1
x
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 26
Distribuições contínuas: Normal
f (x )
µ
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 27
Distribuições contínuas: Uniforme
f (x )
1/ (b-a )
a
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
b
x
Slide 28
Distribuições contínuas: Triangular
f (x )
a
m
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
b
x
Slide 29
Distribuições contínuas: Weibull
f (x )
α =0,5 β =1
α =3 β =1
α =1 β =1
α =2 β =1
α =3 β =2
x
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 30
Modelagem de dados... Sem dados!
Distribuição
Parâmetros
Características
Aplicabilidade
Grande
Exponencial
Média
Triangular
Menor valor,
moda e maior
valor
Variância
Cauda
alta
para direita
Quando
Simétrica
ou não
Simétrica
Normal
Média e
desvio-padrão
Forma
de sino
Variabilidade
controlada pelo desviopadrão
Todos
Uniforme
Maior valor e
menor valor
Discreta
Valores e
probabilidade
de ocorrência
destes valores
variabilidade dos valores
Independência entre um valor e outro
Muitos valores baixos e poucos valores altos
Utilizada para representar o tempo entre chegadas
sucessivas e o tempo entre falhas sucessivas
os valores no
intervalo são
igualmente prováveis
de ocorrer
se conhece ou se tem um bom “chute” sobre a
moda (valor que mais ocorre), o menor valor e o maior
valor que podem ocorrer
Quando
a probabilidade de ocorrência de valores acima
da média é a mesma que valores abaixo da média
Quando o tempo de um processo pode ser considerado a
soma de diversos tempos de sub-processos
Processos manuais
Quando
não se tem nenhuma informação sobre o
processo ou apenas os valores limites (simulação do pior
caso)
Utilizada
Apenas
assume os
valores fornecidos pelo
analista
para a escolha de parâmetros das entidades
(por exemplo: em uma certa loja, 30% dos clientes
realizam suas compras no balcão e 70% nas prateleiras)
Quando se conhecem apenas “valores intermediários” da
distribuição ou a porcentagem de ocorrência de alguns
valores discretos
Modelagem e Simulação de Eventos Discretos – Chwif e Medina (2006)
Slide 31
Download

Cap_2_Entrada - Modelagem e Simulação