Sessão “Saber profundo” – Construção de modelos (http://www.midomenech.com.br/artigos.asp) Carlos H. Domenech, Gerusa de Oliveira Rosa, Rusti Federli Em 50 palavras ou menos • Planos DOE são muitas vezes construídos de forma “padrão” sem o devido cuidado. • Apresentam-se aspectos importantes na construção e análise de um DOE: número de níveis, números de medições e repetições, largura do domínio experimental e correlação entre os xs. • A análise inclui erro da medição e transformação para modelos não lineares O “Histo DOE” é um MBB que gosta muito do LSS, do pensamento crítico, do pensamento estatístico e do estabelecimento de metas “BHAGs” (Big, Hairy, Audacious Goals, metas grandes, cabeludas e audaciosas) na notação de James Collins (Feitas para durar, 2007). Desta vez está trabalhando com um pessoal de uma cooperativa agroindustrial em um projeto para reduzir a evolução do índice de acidez de grãos de soja. Quanto maior a acidez, maior a quantidade de soda que deve ser usada para neutralização e maior a perda de óleo. O pessoal fez um piloto para determinar o efeito dos fatores da Figura 1. x3 = Ventilação Grão armazenado x1 = Umidade (%) y = ganho de acidez entre o momento 1 e o momento zero (%) x2 = Temperatura (°C) Figura 1 – Fatores que influenciam o aumento de acidez do grão de soja armazenado Pretende-se neste trabalho mostrar diversos aspectos que podem enriquecer o planejamento e análise de um DOE (Design Of Experiment). Histo DOE utilizou o mapa mental da Figura 2. Aumento do range, diminuição do número de níveis dos xs Fatores que afetam a eficiência de um DOE Indicador RR para avaliar medição Replicação do ensaio versus repetição da medida Aspectos do DOE Número de ensaios Significância dos efeitos Transformação dos dados: Box-Cox Simplificação do modelo. Modelo não linear Figura 2 – Mapa mental para planejamento e análise correto do DOE M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected] 2 Fatores que afetam a eficiência de um DOE A experimentação através de DOE é uma arte, mais do que um roteiro com comandos do Minitab. Pelo menos é a experiência da MID depois de mais de 15 anos aplicando os conceitos em diversos processos. Nesta seção mostramos a estratégia de Histo DOE para aumentar a eficiência do plano experimental. O plano inicial tinha 5 níveis para os fatores x1 e x2 e 2 níveis para fator x3 (sem ventilação e com ventilação) com um total de 50 ensaios (5 x 5 x 2). Logo no início o pessoal percebeu que ia ser muito trabalhoso manter o fator x3 no experimento e então se decidiu retirá-lo do experimento. Para quem lembra de modelos de regressão, o processo da Figura 1, com os fatores x1 e x2, poderia ser representado pelo modelo linear: y = β0 + β1 x1 + β2 x2 + β12 x1 x2 + β11 x12 + β22 x22 (1) Histo DOE tem duas premissas básicas quando trabalha com modelos: 1. Devem ser o mais simples possível (parcimoniosos ou com menor número de coeficientes!) 2. O erro dos coeficientes (variância dos coeficientes) deve ser menor possível, o que garante uma maior precisão e previsibilidade do modelo. Para fazer um plano adequado, Histo DOE analisou a influência dos seguintes fatores na variabilidade dos coeficientes do modelo de regressão (Domenech, 2000): 1. Variabilidade total do processo (representada por σ2) 2. Largura do domínio experimental (faixa de variação dos fatores xs, ou D) 3. Número de repetições verdadeiras dos ensaios (r), ou seja, número de execuções do mesmo ensaio e não repetição da análise na mesma amostra 4. Número de níveis dos fatores (p), ou seja, quantos valores utilizo para cada fator (umidade do grão e temperatura). Considera-se que um plano experimental é mais “eficiente” que outro se fornece coeficientes (os bi que estimam os coeficientes βi da equação em (1)) com variância menor. A variância dos coeficientes do modelo linear considerado acima é igual a: V(bi) = σ2 12(p - 1) 2 1 − R i,(1,2,...) rD 2 p(p + 1) Expressando a variância desta forma pode-se ponderar a influência de diversos fatores do DOE! Simplificando a expressão acima, pode-se inferir que a variância do coeficiente, V(bi), é proporcional a: V(bi) ∝ σ2 1 σ2 ou também: V(bi) ∝ VIF 1 − R i,2(1,2,...) rD 2p rD 2p (2) M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected] 3 onde: V(bi) → R2i,(1,2,...) → VIF = 1 1 − R i,2(1,2,...) → σ2 = σ2Total → r D → → p → Representa a variância do coeficiente bi. Quanto menor, melhor Representa o coeficiente de determinação múltiplo entre cada variável independente xi e as outras variáveis independentes. O coeficiente de determinação é igual ao coeficiente de correlação ao quadrado Fator de inflação: mede o aumento da variância do coeficiente devido à correlação entre as variáveis independentes Representa a variância total do processo (processo puro e 2 2 2 variabilidade da análise): σ Total = σ Processo+σ Medição Número de vezes que os ensaios são repetidos Largura do domínio para a variável xi. Domínio é a faixa de valores de cada fator, do mínimo ao máximo valor. Número de níveis da variável xi. Quantidade de valores dentro do domínio que serão utilizados no plano experimental. A Figura 3 ilustra os fatores R 2x1,x2 , σ2, D, r e p. x2 = Temperatura Número de níveis (p) A) R2x1,x2 = 0 Resposta (y) VIF = 1 σMedida x1 = Umidade σTotal x2 B) R2x1,x2 = 0,9 VIF = 10 r=3 Largura do domínio: D x1 Variável independente (xi) Figura 3 – Ilustração de fatores que influenciam a variância do coeficiente b Para estudar a contribuição dos fatores que influenciam a variância do coeficiente na equação (1) foi feito o gráfico de sensibilidade da Figura 4. Neste gráfico não foi incluída a variabilidade da medição. Ela é desprezível quando a %RR (= σMedição/σTotal x 100) é menor que 30%. Nesta situação, o aumento do número de medições no mesmo ensaio, quase não contribui com a diminuição da variabilidade total e desse modo não se recomenda essa estratégia. Nesta simulação manteve-se σ2Total = 1. Ao variar um fator, os outros foram mantidos na média dos valores utilizados para esses fatores. Exemplo: ao variar R2 entre 0 e 0,9, manteve-se r = 2,5, p = 6 e D = 1,9. Na Figura 4 quanto menor a variância do coeficiente, melhor. M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected] 4 1,6 1,4 1,2 D 1,0 V(b) 0,8 0,6 r 0,4 p 0,2 0,0 R2 r p D R2 0,0 1 2 1 0,1 0,2 3 1,2 4 1,4 0,3 2 5 1,6 0,4 6 1,8 0,5 3 7 2,0 0,6 0,7 8 2,2 9 2,4 0,8 4 10 2,6 0,9 2,8 Figura 4 – Gráfico de sensibilidade do efeito de R2, r, p e D sobre a variância do coeficiente da regressão V(bi) Da Figura 4, Histo DOE extraiu conclusões importantes (Figura 5). Devemos: a) Fazer um ensaio em que os xs sejam não correlacionados (caso A da Figura 3). O aumento da correlação entre os xs (VIF alto) faz com que a variância dos coeficientes aumente! b) Aumentar ao máximo a largura do domínio experimental: o aumento de D tem efeito grande na diminuição da variância. c) Reduzir o número de níveis ao mínimo necessário (ao invés de fazer um plano com 5 níveis para x1 e x2 faremos um plano com 3 níveis pela conveniência prática), prática), ao contrário do que o “bom senso” das pessoas diz. O aumento do número de níveis (p) quase não tem influência na variância. y σAnálise σTotal x2 Variáveis X’s não correlacionadas x1 Largura do domínio Figura 5 – Recomendações para um DOE eficiente M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected] 5 Os resultados obtidos no DOE estão na Tabela 1. Os níveis escolhidos para x1 foram 8%, 12% e 16% e para x2 foram 15 °C, 30 °C e 45 °C. Na Tabela estão as condições reais que foram utilizadas para x1 e x2 (muito próximas do planejado). O tempo de incubação dos grãos de soja foi de 42 dias. No momento zero a acidez dos grãos foi 0,195%. O ganho de acidez foi calculado como a diferença entre a acidez de cada ensaio menos a acidez no momento zero. Tabela 1 – Resultados do DOE Data da Análise Ensaio 08/11/2012 08/11/2012 08/11/2012 08/11/2012 08/11/2012 08/11/2012 08/11/2012 08/11/2012 08/11/2012 08/11/2012 08/11/2012 08/11/2012 08/11/2012 08/11/2012 08/11/2012 08/11/2012 08/11/2012 08/11/2012 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 Repetição Umidade (%) Temperatura (ºC) da medida 1 7,9 30 2 7,9 30 1 12,7 45 2 12,7 45 1 8,2 45 2 8,2 45 1 16,5 45 2 16,5 45 1 11,6 30 2 11,6 30 1 16 30 2 16 30 1 16 15 2 16 15 1 11,2 15 2 11,2 15 1 8 15 2 8 15 Acidez (%) 0,30 0,31 1,01 1,00 0,32 0,32 1,76 1,81 0,40 0,40 0,55 0,57 0,46 0,46 0,28 0,26 0,22 0,26 Ganho acidez (%) 0,10 0,11 0,82 0,80 0,13 0,13 1,56 1,61 0,20 0,21 0,36 0,37 0,26 0,26 0,09 0,06 0,02 0,06 Análise dos dados – Repetição da medição A Figura 6 ilustra a variabilidade dos dados para cada ensaio. A medição varia muito pouco em relação à variação dos ensaios (a distância entre os pontos para cada ensaio é pequena em relação à diferença entre os resultados dos ensaios). Isso é muito bom! Significa que a %RR deve ser baixa. O desvio padrão da medição foi calculado usando, por exemplo, o procedimento Minitab, Stat\ANOVA\Fully Nested ANOVA, entrando com a coluna “Ganho de acidez” na janela “Responses:” e Ensaio na janela “Factors:”. Os resultados da tabela abaixo mostram um valor baixo para a %RR (< 30%). Isto é ótimo! Desvio padrão da medição Desvio padrão total %RR 0,017% 0,504% 3,4% M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected] 6 Scatterplot of Ganho acidez (%) vs Ensaio 1,8 1,6 Ganho acidez (%) 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 0 1 2 3 4 5 Ensaio 6 7 8 9 Figura 6 – Variabilidade das análises (duplicata) para cada ensaio A análise dos dados não pode ser feita com os valores das amostras em duplicata porque o erro experimental usado para os testes de hipóteses será subavaliado (isso é um erro crasso comumente cometido: a variabilidade das duplicatas usualmente será muito pequena e os testes de hipóteses mostrarão fatores significantes quando na verdade foram avaliados usando um desvio padrão muito pequeno). Por este motivo se trabalhou com a média de cada ensaio. Os dados médios estão na Tabela 2. Tabela 2 – Resultados médios do DOE Ensaio 1 2 3 4 5 6 7 8 9 Umidade (%) 7,9 12,7 8,2 16,5 11,6 16 16 11,2 8 Temperatura (ºC) 30 45 45 45 30 30 15 15 15 Ganho acidez (%) 0,106 0,810 0,125 1,587 0,206 0,364 0,262 0,077 0,043 Análise dos dados – Transformação da resposta Para visualizar o efeito dos fatores x1 e x2 foi feito o gráfico da Figura 7. Para fazer este gráfico os valores de Umidade foram aproximados a 8, 12 e 16. Este gráfico foi feito em Stat\ANOVA\Interaction Plots. Há uma interação evidente dos fatores Umidade e Temperatura. Para umidade baixa, o processo mostra-se robusto à variação da temperatura de armazenagem; mas não para umidade elevada. Histo DOE começou a gostar das conclusões práticas... M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected] 7 Interaction Plot for Ganho acidez (%) Data Means Umidade2 8 12 16 1,6 1,4 1,2 Mean 1,0 0,8 0,6 0,4 0,2 0,0 15 30 Temperatura 45 Figura 7 – Gráfico de interação Umidade x Temperatura A análise dos dados foi feita em Stat\DOE\Response Surface\Analyse Response Surface Design. Esta plataforma permite somente trabalhar com modelos lineares. Neste caso parece adequado um modelo com comportamento não linear (veja que quando a umidade é alta (16%) a diminuição da temperatura faz diminuir o ganho de acidez, mas não de forma quadrática). Outra dica para saber quando pode ser adequado um modelo não linear é quando o quociente entre o valor máximo da resposta e o valor mínimo é maior que 3 ou 4 (Box and Draper, 1987). Neste caso o quociente máximo/mínimo foi aproximadamente 37. Usamos o Minitab para avaliar se a transformação Box-Cox nos fornece uma métrica mais interessante para o ajuste do modelo. Usualmente se usa a transformação Box-Cox para fazer com que uma distribuição tenha distribuição normal, mas Histo DOE sabe que pode ser útil, além disto, para: • • Obter grupos com variâncias iguais Obter um modelo mais simples. A transformação é realizada na plataforma Stat\Control Charts\Box-Cox transformation (Figura 8). O valor lambda = 0 significa que a transformação adequada é logaritmo (neperiano ou natural). Trabalharemos então com y = ln(acidez). Veja que agora o gráfico da Figura 9 fica sem interação evidente (curvas mais paralelas) na variável transformada! M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected] 8 Box-Cox Plot of Ganho acidez (%) Lower C L Upper CL Lambda 3,0 (using 95,0% confidence) 2,5 -0,09 Lower C L Upper C L -0,48 0,31 Rounded Value 2,0 StDev Estimate 0,00 1,5 1,0 0,5 Limit 0,0 -3 -2 -1 Lambda 0 1 Figura 8 – Transformação log sugerida para a variável “Ganho de acidez” Interaction Plot for Ln Ganho Data Means 1 Umidade2 8 12 16 Mean 0 -1 -2 -3 15 30 Temperatura 45 Figura 9 – Gráfico de interação Umidade x Temperatura para a variável “ln Ganho de acidez” Análise dos dados – Ajuste do modelo A análise dos dados está abaixo. Neste caso a interação Umidade x Temperatura não foi significativa (p > 0,05). O modelo ajusta muito bem os dados (R2 ajustado > 90%). Response Surface Regression: Ln Ganho versus Umidade; Temperatura Estimated Regression Coefficients for Ln Ganho Term Coef SE Coef T Constant -1,4909 0,1049 -14,214 Umidade 0,9919 0,1346 7,369 Temperatura 0,7913 0,1283 6,167 Umidade*Temperatura 0,1805 0,1642 1,100 S = 0,312875 R-Sq = 95,35% PRESS = 2,34593 R-Sq(pred) = 77,72% P 0,000 0,001 0,002 0,321 R-Sq(adj) = 92,56% M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected] 9 O modelo final ficou sem o termo da interação. O modelo final em escala não transformada ficou: Ganho de acidez = exp (-5,88 +0,232 Umidade + 0,052 Temperatur a) Response Surface Regression: Ln Ganho versus Umidade; Temperatura The analysis was done using coded units. Estimated Regression Coefficients for Ln Term Coef SE Coef T Constant -1,4804 0,1063 -13,931 Umidade 0,9960 0,1369 7,277 Temperatura 0,7867 0,1305 6,030 S = 0,318296 R-Sq = 94,23% PRESS = 1,50145 R-Sq(pred) = 85,74% Ganho P 0,000 0,000 0,001 R-Sq(adj) = 92,30% Estimated Regression Coefficients for Ln Ganho using data in uncoded units Term Constant Umidade Temperatura Coef -5,87972 0,231630 0,0524468 O gráfico de resíduos padronizados da Figura 10 (com limites de controle em -3 e +3) mostra que o modelo é adequado. Residual Plots for Ln Ganho Normal Probability Plot Versus Fits Standardized Residual 99 Percent 90 50 10 1 -3,0 -1,5 0,0 1,5 Standardized Residual 3,0 3 1,5 0,0 -1,5 -3,0 -3 3,0 -3 -2 Histogram Standardized Residual Frequency 0 1 Versus Order 2,0 1,5 1,0 0,5 0,0 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 Standardized Residual -1 Fitted Value 1,5 3,0 3 1,5 0,0 -1,5 -3,0 -3 1 2 3 4 5 6 7 Observation Order 8 9 Figura 10 – Gráfico de resíduos padronizados com limites de controle A partir desta equação foram gerados valores para fazer o gráfico de interação da Figura 11. Veja que o modelo reflete bem o comportamento observado na Figura 7. Neste gráfico foram simulados valores intermediários de Umidade e Temperatura. Este gráfico é útil para decidir sobre a melhor condição de umidade para o controle do processo, ou seja, umidade em torno de 11% para temperaturas de armazenagem entre 30-35 °C. M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected] 10 Conclusões: Um plano de ensaio eficiente com domínio largo para os xs, junto com a confirmação de uma medição adequada (%RR < 30%) e a transformação da resposta usando BoxCox, permitiu chegar a um modelo simples com somente 3 coeficientes que representou muito bem os dados. Interaction Plot for Acidez (%) Data Means Umidade 8 9 10 11 12 13 14 15 16 Ganho acidez % (30 dias) 1,2 1,0 0,8 0,6 0,4 0,2 0,0 15 20 25 30 35 Temperatura 40 45 Figura 11 – Gráfico de interação com o modelo ajustado Referência: • Collins, James C. e Porras, Jerry I. (2007) Feitas para Durar. Ed. Rocco. ISBN: 9788532522122. • Domenech, Carlos H. (2000). Carlos H. Domenech (2000). Fatores que contribuem para a eficiência de um plano experimental. 14o Simpósio Nacional de Probabilidade e Estatística – Caxambu - MG. • George E. P. Box and Norman R. Draper (1987). Empirical Model-Building and Response Surfaces. Ed. Wiley. ISBN: 0471810339 Carlos H. Domenech é Master Black Belt da MID, Gerusa de Oliveira Rosa é Black Belt e supervisora de produção da empresa Cocamar e Rusti Federli é analista de qualidade II da empresa Cocamar. M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil PABX: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]