Sessão “Saber profundo” – Construção de modelos
(http://www.midomenech.com.br/artigos.asp)
Carlos H. Domenech, Gerusa de Oliveira Rosa, Rusti Federli
Em 50 palavras ou menos
• Planos DOE são muitas vezes construídos de forma “padrão”
sem o devido cuidado.
• Apresentam-se aspectos importantes na construção e análise
de um DOE: número de níveis, números de medições e
repetições, largura do domínio experimental e correlação entre
os xs.
• A análise inclui erro da medição e transformação para modelos
não lineares
O “Histo DOE” é um MBB que gosta muito do LSS, do pensamento crítico, do
pensamento estatístico e do estabelecimento de metas “BHAGs” (Big, Hairy,
Audacious Goals, metas grandes, cabeludas e audaciosas) na notação de James
Collins (Feitas para durar, 2007).
Desta vez está trabalhando com um pessoal de uma cooperativa agroindustrial em um
projeto para reduzir a evolução do índice de acidez de grãos de soja. Quanto maior a
acidez, maior a quantidade de soda que deve ser usada para neutralização e maior a
perda de óleo. O pessoal fez um piloto para determinar o efeito dos fatores da Figura
1.
x3 = Ventilação
Grão armazenado
x1 = Umidade (%)
y = ganho de acidez entre o
momento 1 e o momento
zero (%)
x2 = Temperatura (°C)
Figura 1 – Fatores que influenciam o aumento de acidez do grão de soja armazenado
Pretende-se neste trabalho mostrar diversos aspectos que podem enriquecer o
planejamento e análise de um DOE (Design Of Experiment). Histo DOE utilizou o
mapa mental da Figura 2.
Aumento do range,
diminuição do número
de níveis dos xs
Fatores que afetam a
eficiência de um DOE
Indicador RR para
avaliar medição
Replicação do ensaio
versus repetição da
medida
Aspectos do DOE
Número de ensaios
Significância
dos efeitos
Transformação dos
dados: Box-Cox
Simplificação do
modelo. Modelo não
linear
Figura 2 – Mapa mental para planejamento e análise correto do DOE
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
2
Fatores que afetam a eficiência de um DOE
A experimentação através de DOE é uma arte, mais do que um roteiro com comandos
do Minitab. Pelo menos é a experiência da MID depois de mais de 15 anos aplicando
os conceitos em diversos processos. Nesta seção mostramos a estratégia de Histo
DOE para aumentar a eficiência do plano experimental. O plano inicial tinha 5 níveis
para os fatores x1 e x2 e 2 níveis para fator x3 (sem ventilação e com ventilação) com
um total de 50 ensaios (5 x 5 x 2). Logo no início o pessoal percebeu que ia ser muito
trabalhoso manter o fator x3 no experimento e então se decidiu retirá-lo do
experimento. Para quem lembra de modelos de regressão, o processo da Figura 1,
com os fatores x1 e x2, poderia ser representado pelo modelo linear:
y = β0 + β1 x1 + β2 x2 + β12 x1 x2 + β11 x12 + β22 x22
(1)
Histo DOE tem duas premissas básicas quando trabalha com modelos:
1. Devem ser o mais simples possível (parcimoniosos ou com menor número de
coeficientes!)
2. O erro dos coeficientes (variância dos coeficientes) deve ser menor possível, o que
garante uma maior precisão e previsibilidade do modelo.
Para fazer um plano adequado, Histo DOE analisou a influência dos seguintes fatores
na variabilidade dos coeficientes do modelo de regressão (Domenech, 2000):
1. Variabilidade total do processo (representada por σ2)
2. Largura do domínio experimental (faixa de variação dos fatores xs, ou D)
3. Número de repetições verdadeiras dos ensaios (r), ou seja, número de execuções
do mesmo ensaio e não repetição da análise na mesma amostra
4. Número de níveis dos fatores (p), ou seja, quantos valores utilizo para cada fator
(umidade do grão e temperatura).
Considera-se que um plano experimental é mais “eficiente” que outro se fornece
coeficientes (os bi que estimam os coeficientes βi da equação em (1)) com variância
menor. A variância dos coeficientes do modelo linear considerado acima é igual a:
V(bi) =
σ2
12(p - 1)
2
1 − R i,(1,2,...) rD 2 p(p + 1)
Expressando a variância desta forma pode-se ponderar a influência de diversos
fatores do DOE! Simplificando a expressão acima, pode-se inferir que a variância do
coeficiente, V(bi), é proporcional a:
V(bi) ∝
σ2
1
σ2
ou
também:
V(bi)
∝
VIF
1 − R i,2(1,2,...) rD 2p
rD 2p
(2)
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
3
onde:
V(bi)
→
R2i,(1,2,...)
→
VIF =
1
1 − R i,2(1,2,...)
→
σ2 = σ2Total
→
r
D
→
→
p
→
Representa a variância do coeficiente bi. Quanto menor, melhor
Representa o coeficiente de determinação múltiplo entre cada
variável independente xi e as outras variáveis independentes. O
coeficiente de determinação é igual ao coeficiente de correlação
ao quadrado
Fator de inflação: mede o aumento da variância do coeficiente
devido à correlação entre as variáveis independentes
Representa a variância total do processo (processo puro e
2
2
2
variabilidade da análise): σ Total = σ Processo+σ Medição
Número de vezes que os ensaios são repetidos
Largura do domínio para a variável xi. Domínio é a faixa de
valores de cada fator, do mínimo ao máximo valor.
Número de níveis da variável xi. Quantidade de valores dentro do
domínio que serão utilizados no plano experimental.
A Figura 3 ilustra os fatores R 2x1,x2 , σ2, D, r e p.
x2 = Temperatura
Número de níveis (p)
A) R2x1,x2 = 0
Resposta (y)
VIF = 1
σMedida
x1 = Umidade
σTotal
x2
B) R2x1,x2 = 0,9
VIF = 10
r=3
Largura do domínio: D
x1
Variável independente (xi)
Figura 3 – Ilustração de fatores que influenciam a variância do coeficiente b
Para estudar a contribuição dos fatores que influenciam a variância do coeficiente na
equação (1) foi feito o gráfico de sensibilidade da Figura 4. Neste gráfico não foi
incluída a variabilidade da medição. Ela é desprezível quando a %RR (= σMedição/σTotal x
100) é menor que 30%. Nesta situação, o aumento do número de medições no mesmo
ensaio, quase não contribui com a diminuição da variabilidade total e desse modo não
se recomenda essa estratégia. Nesta simulação manteve-se σ2Total = 1.
Ao variar um fator, os outros foram mantidos na média dos valores utilizados para
esses fatores. Exemplo: ao variar R2 entre 0 e 0,9, manteve-se r = 2,5, p = 6 e D = 1,9.
Na Figura 4 quanto menor a variância do coeficiente, melhor.
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
4
1,6
1,4
1,2
D
1,0
V(b)
0,8
0,6
r
0,4
p
0,2
0,0
R2
r
p
D
R2
0,0
1
2
1
0,1
0,2
3
1,2
4
1,4
0,3
2
5
1,6
0,4
6
1,8
0,5
3
7
2,0
0,6
0,7
8
2,2
9
2,4
0,8
4
10
2,6
0,9
2,8
Figura 4 – Gráfico de sensibilidade do efeito de R2, r, p e D sobre a variância do
coeficiente da regressão V(bi)
Da Figura 4, Histo DOE extraiu conclusões importantes (Figura 5). Devemos:
a) Fazer um ensaio em que os xs sejam não correlacionados (caso A da Figura 3). O
aumento da correlação entre os xs (VIF alto) faz com que a variância dos
coeficientes aumente!
b) Aumentar ao máximo a largura do domínio experimental: o aumento de D tem efeito
grande na diminuição da variância.
c) Reduzir o número de níveis ao mínimo necessário (ao invés de fazer um plano com
5 níveis para x1 e x2 faremos um plano com 3 níveis pela conveniência prática),
prática), ao contrário do que o “bom senso” das pessoas diz. O aumento do número
de níveis (p) quase não tem influência na variância.
y
σAnálise
σTotal
x2
Variáveis X’s
não
correlacionadas
x1
Largura
do domínio
Figura 5 – Recomendações para um DOE eficiente
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
5
Os resultados obtidos no DOE estão na Tabela 1. Os níveis escolhidos para x1 foram
8%, 12% e 16% e para x2 foram 15 °C, 30 °C e 45 °C. Na Tabela estão as condições
reais que foram utilizadas para x1 e x2 (muito próximas do planejado). O tempo de
incubação dos grãos de soja foi de 42 dias. No momento zero a acidez dos grãos foi
0,195%. O ganho de acidez foi calculado como a diferença entre a acidez de cada
ensaio menos a acidez no momento zero.
Tabela 1 – Resultados do DOE
Data da Análise
Ensaio
08/11/2012
08/11/2012
08/11/2012
08/11/2012
08/11/2012
08/11/2012
08/11/2012
08/11/2012
08/11/2012
08/11/2012
08/11/2012
08/11/2012
08/11/2012
08/11/2012
08/11/2012
08/11/2012
08/11/2012
08/11/2012
1
1
2
2
3
3
4
4
5
5
6
6
7
7
8
8
9
9
Repetição
Umidade (%) Temperatura (ºC)
da medida
1
7,9
30
2
7,9
30
1
12,7
45
2
12,7
45
1
8,2
45
2
8,2
45
1
16,5
45
2
16,5
45
1
11,6
30
2
11,6
30
1
16
30
2
16
30
1
16
15
2
16
15
1
11,2
15
2
11,2
15
1
8
15
2
8
15
Acidez (%)
0,30
0,31
1,01
1,00
0,32
0,32
1,76
1,81
0,40
0,40
0,55
0,57
0,46
0,46
0,28
0,26
0,22
0,26
Ganho acidez
(%)
0,10
0,11
0,82
0,80
0,13
0,13
1,56
1,61
0,20
0,21
0,36
0,37
0,26
0,26
0,09
0,06
0,02
0,06
Análise dos dados – Repetição da medição
A Figura 6 ilustra a variabilidade dos dados para cada ensaio. A medição varia muito
pouco em relação à variação dos ensaios (a distância entre os pontos para cada
ensaio é pequena em relação à diferença entre os resultados dos ensaios). Isso é
muito bom! Significa que a %RR deve ser baixa. O desvio padrão da medição foi
calculado usando, por exemplo, o procedimento Minitab, Stat\ANOVA\Fully Nested
ANOVA, entrando com a coluna “Ganho de acidez” na janela “Responses:” e Ensaio
na janela “Factors:”. Os resultados da tabela abaixo mostram um valor baixo para a
%RR (< 30%). Isto é ótimo!
Desvio padrão da medição
Desvio padrão total
%RR
0,017%
0,504%
3,4%
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
6
Scatterplot of Ganho acidez (%) vs Ensaio
1,8
1,6
Ganho acidez (%)
1,4
1,2
1,0
0,8
0,6
0,4
0,2
0,0
0
1
2
3
4
5
Ensaio
6
7
8
9
Figura 6 – Variabilidade das análises (duplicata) para cada ensaio
A análise dos dados não pode ser feita com os valores das amostras em duplicata
porque o erro experimental usado para os testes de hipóteses será subavaliado (isso é
um erro crasso comumente cometido: a variabilidade das duplicatas usualmente será
muito pequena e os testes de hipóteses mostrarão fatores significantes quando na
verdade foram avaliados usando um desvio padrão muito pequeno). Por este motivo
se trabalhou com a média de cada ensaio. Os dados médios estão na Tabela 2.
Tabela 2 – Resultados médios do DOE
Ensaio
1
2
3
4
5
6
7
8
9
Umidade (%)
7,9
12,7
8,2
16,5
11,6
16
16
11,2
8
Temperatura (ºC)
30
45
45
45
30
30
15
15
15
Ganho acidez (%)
0,106
0,810
0,125
1,587
0,206
0,364
0,262
0,077
0,043
Análise dos dados – Transformação da resposta
Para visualizar o efeito dos fatores x1 e x2 foi feito o gráfico da Figura 7. Para fazer
este gráfico os valores de Umidade foram aproximados a 8, 12 e 16. Este gráfico foi
feito em Stat\ANOVA\Interaction Plots. Há uma interação evidente dos fatores
Umidade e Temperatura. Para umidade baixa, o processo mostra-se robusto à
variação da temperatura de armazenagem; mas não para umidade elevada. Histo
DOE começou a gostar das conclusões práticas...
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
7
Interaction Plot for Ganho acidez (%)
Data Means
Umidade2
8
12
16
1,6
1,4
1,2
Mean
1,0
0,8
0,6
0,4
0,2
0,0
15
30
Temperatura
45
Figura 7 – Gráfico de interação Umidade x Temperatura
A análise dos dados foi feita em Stat\DOE\Response Surface\Analyse Response
Surface Design. Esta plataforma permite somente trabalhar com modelos lineares.
Neste caso parece adequado um modelo com comportamento não linear (veja que
quando a umidade é alta (16%) a diminuição da temperatura faz diminuir o ganho de
acidez, mas não de forma quadrática). Outra dica para saber quando pode ser
adequado um modelo não linear é quando o quociente entre o valor máximo da
resposta e o valor mínimo é maior que 3 ou 4 (Box and Draper, 1987). Neste caso o
quociente máximo/mínimo foi aproximadamente 37. Usamos o Minitab para avaliar se
a transformação Box-Cox nos fornece uma métrica mais interessante para o ajuste do
modelo. Usualmente se usa a transformação Box-Cox para fazer com que uma
distribuição tenha distribuição normal, mas Histo DOE sabe que pode ser útil, além
disto, para:
•
•
Obter grupos com variâncias iguais
Obter um modelo mais simples.
A transformação é realizada na plataforma Stat\Control Charts\Box-Cox transformation
(Figura 8). O valor lambda = 0 significa que a transformação adequada é logaritmo
(neperiano ou natural). Trabalharemos então com y = ln(acidez). Veja que agora o
gráfico da Figura 9 fica sem interação evidente (curvas mais paralelas) na variável
transformada!
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
8
Box-Cox Plot of Ganho acidez (%)
Lower C L
Upper CL
Lambda
3,0
(using 95,0% confidence)
2,5
-0,09
Lower C L
Upper C L
-0,48
0,31
Rounded Value
2,0
StDev
Estimate
0,00
1,5
1,0
0,5
Limit
0,0
-3
-2
-1
Lambda
0
1
Figura 8 – Transformação log sugerida para a variável “Ganho de acidez”
Interaction Plot for Ln Ganho
Data Means
1
Umidade2
8
12
16
Mean
0
-1
-2
-3
15
30
Temperatura
45
Figura 9 – Gráfico de interação Umidade x Temperatura para a variável “ln Ganho de
acidez”
Análise dos dados – Ajuste do modelo
A análise dos dados está abaixo. Neste caso a interação Umidade x Temperatura não
foi significativa (p > 0,05). O modelo ajusta muito bem os dados (R2 ajustado > 90%).
Response Surface Regression: Ln Ganho versus Umidade; Temperatura
Estimated Regression Coefficients for Ln Ganho
Term
Coef SE Coef
T
Constant
-1,4909
0,1049 -14,214
Umidade
0,9919
0,1346
7,369
Temperatura
0,7913
0,1283
6,167
Umidade*Temperatura
0,1805
0,1642
1,100
S = 0,312875
R-Sq = 95,35%
PRESS = 2,34593
R-Sq(pred) = 77,72%
P
0,000
0,001
0,002
0,321
R-Sq(adj) = 92,56%
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
9
O modelo final ficou sem o termo da interação. O modelo final em escala não
transformada ficou:
Ganho de acidez = exp (-5,88 +0,232 Umidade + 0,052 Temperatur a)
Response Surface Regression: Ln Ganho versus Umidade; Temperatura
The analysis was done using coded units.
Estimated Regression Coefficients for Ln
Term
Coef SE Coef
T
Constant
-1,4804
0,1063 -13,931
Umidade
0,9960
0,1369
7,277
Temperatura
0,7867
0,1305
6,030
S = 0,318296
R-Sq = 94,23%
PRESS = 1,50145
R-Sq(pred) = 85,74%
Ganho
P
0,000
0,000
0,001
R-Sq(adj) = 92,30%
Estimated Regression Coefficients for Ln Ganho using data in uncoded
units
Term
Constant
Umidade
Temperatura
Coef
-5,87972
0,231630
0,0524468
O gráfico de resíduos padronizados da Figura 10 (com limites de controle em -3 e +3)
mostra que o modelo é adequado.
Residual Plots for Ln Ganho
Normal Probability Plot
Versus Fits
Standardized Residual
99
Percent
90
50
10
1
-3,0
-1,5
0,0
1,5
Standardized Residual
3,0
3
1,5
0,0
-1,5
-3,0
-3
3,0
-3
-2
Histogram
Standardized Residual
Frequency
0
1
Versus Order
2,0
1,5
1,0
0,5
0,0
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0
Standardized Residual
-1
Fitted Value
1,5
3,0
3
1,5
0,0
-1,5
-3,0
-3
1
2
3
4
5
6
7
Observation Order
8
9
Figura 10 – Gráfico de resíduos padronizados com limites de controle
A partir desta equação foram gerados valores para fazer o gráfico de interação da
Figura 11. Veja que o modelo reflete bem o comportamento observado na Figura 7.
Neste gráfico foram simulados valores intermediários de Umidade e Temperatura. Este
gráfico é útil para decidir sobre a melhor condição de umidade para o controle do
processo, ou seja, umidade em torno de 11% para temperaturas de armazenagem
entre 30-35 °C.
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
10
Conclusões:
Um plano de ensaio eficiente com domínio largo para os xs, junto com a confirmação
de uma medição adequada (%RR < 30%) e a transformação da resposta usando BoxCox, permitiu chegar a um modelo simples com somente 3 coeficientes que
representou muito bem os dados.
Interaction Plot for Acidez (%)
Data Means
Umidade
8
9
10
11
12
13
14
15
16
Ganho acidez % (30 dias)
1,2
1,0
0,8
0,6
0,4
0,2
0,0
15
20
25
30
35
Temperatura
40
45
Figura 11 – Gráfico de interação com o modelo ajustado
Referência:
•
Collins, James C. e Porras, Jerry I. (2007) Feitas para Durar. Ed. Rocco. ISBN:
9788532522122.
•
Domenech, Carlos H. (2000). Carlos H. Domenech (2000). Fatores que contribuem
para a eficiência de um plano experimental. 14o Simpósio Nacional de
Probabilidade e Estatística – Caxambu - MG.
•
George E. P. Box and Norman R. Draper (1987). Empirical Model-Building and
Response Surfaces. Ed. Wiley. ISBN: 0471810339
Carlos H. Domenech é Master Black Belt da MID, Gerusa de Oliveira Rosa é Black
Belt e supervisora de produção da empresa Cocamar e Rusti Federli é analista de
qualidade II da empresa Cocamar.
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
Download

Sessão “Saber profundo” – Construção de modelos