CRITÉRIOS COMPOSTOS PARA DELINEAMENTOS ÓTIMOS ROBUSTOS Marcelo Andrade da Silva Dissertação apresentada à Universidade Estadual Paulista “Júlio de Mesquita Filho” para a obtenção do tı́tulo de Mestre em Biometria. BOTUCATU São Paulo - Brasil Fevereiro – 2014 CRITÉRIOS COMPOSTOS PARA DELINEAMENTOS ÓTIMOS ROBUSTOS Marcelo Andrade da Silva Orientadora: Prof.a Dr.a Luzia Aparecida Trinca Dissertação apresentada à Universidade Estadual Paulista “Júlio de Mesquita Filho” para a obtenção do tı́tulo de Mestre em Biometria. BOTUCATU São Paulo - Brasil Fevereiro – 2014 Ficha Catalográfica FICHA CATALOGRÁFICA ELABORADA PELA SEÇÃO TÉC. AQUIS. TRATAMENTO DA INFORM. DIVISÃO DE BIBLIOTECA E DOCUMENTAÇÃO - CAMPUS DE BOTUCATU - UNESP BIBLIOTECÁRIA RESPONSÁVEL: ROSEMEIRE APARECIDA VICENTE - CRB 8/5651 Silva, Marcelo Andrade. Critério composto para delineamentos ótimos robustos / Marcelo Andrade da Silva. - Botucatu, 2014 Dissertação (mestrado) - Universidade Estadual Paulista, Instituto de Biociências de Botucatu Orientador: Luzia Aparecida Trinca Capes: 10202072 1. Biometria. 2. Planejamento experimental. 3. Programação heurı́stica. 4. Estatı́stica matemática. 5. Programação (Matemática). Palabras-chave: Critérios compostos; Delineamento; Delineamentos ótimos; Perda de observações; Planejamento de experimentos. Dedicatória Dedico aos meus pais Ronaldo e Sonia e também a minha noiva Raquel. Agradecimentos A Deus, por sua bondade, misericórdia e pelo seu infinito amor. A minha famı́lia, que deu suporte e insentivo para a realização deste mestrado e a minha amada noiva, Raquel, pelo apoio, compreensão e carinho. A minha orientadora, professora Luzia Aparecida Trinca, pelo exemplo de profissionalismo, pela paciência, pelo tempo dedicado neste trabalho, pelos conselhos, entre muitas outras coisas, que foram fundamentais para o desenvolvimento desta pesquisa. A Universidade Estadual Paulista, Unesp, e ao Departamento de Bioestatı́stica do Instituto de Biociências de Botucatu pela estrutura, suporte técnico e secretaria. Ao Programa de Pós-Graduação em Biometria pela oportunidade dada e confiança depositada em mim para a realização do mestrado. A Coordenação de Aperfeiçoamento de Pessoal de Nı́vel Superior, CAPES, pelo apoio financeiro durante o mestrado. A todas as pessoas que direta ou indiretamente contribuı́ram para o desenvolvimento deste trabalho. Sumário Página LISTA DE FIGURAS vii LISTA DE TABELAS viii RESUMO ix SUMMARY xi 1 INTRODUÇÃO 1 2 CONCEITOS BÁSICOS E REVISÃO DE LITERATURA 2.1 5 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1.1 Três princı́pios da experimentação . . . . . . . . . . . . . . . . . . . . 7 2.1.2 Experimentos fatoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.1.3 Propriedades de delineamento . . . . . . . . . . . . . . . . . . . . . . . 15 2.2 Modelo linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.3 Delineamentos ótimos de experimentos . . . . . . . . . . . . . . . . . . . 22 2.3.1 Critérios de otimalidade . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.3.2 Critérios compostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3.3 Algoritmo de troca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3 METODOLOGIA 32 3.1 32 Robustez a perda de observações . . . . . . . . . . . . . . . . . . . . . . vi 3.2 Implementação do algoritmo de troca . . . . . . . . . . . . . . . . . . . . 33 3.2.1 Atualização do determinante e da matriz inversa . . . . . . . . . . . . 36 3.2.2 Algoritmo de troca por ponto e troca por coordenada . . . . . . . . . . 37 4 RESULTADOS E DISCUSSÃO 38 4.1 Exemplo 1 (n = 16; k = 3; p = 10) . . . . . . . . . . . . . . . . . . . . . . . 40 4.2 Exemplo 2 (n = 24; k = 4; p = 11) . . . . . . . . . . . . . . . . . . . . . . . 44 4.3 Exemplo 3 (n = 24; k = 4; p = 15) . . . . . . . . . . . . . . . . . . . . . . . 45 4.4 Exemplo 4 (n = 36; k = 4; p = 15) . . . . . . . . . . . . . . . . . . . . . . . 50 5 CONCLUSÃO 54 REFERÊNCIAS BIBLIOGRÁFICAS 55 Lista de Figuras Página 1 Representação esquemática de um experimento. . . . . . . . . . . . . . . 6 2 Representação geométrica de um experimento fatorial 23 completo. . . . 12 3 Representação geométrica de um experimento fatorial completo, DCC e DBB para k = 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Comportamento da eficiência de delineamentos ótimos com a variação no peso da propriedade DP . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 15 39 Representação geométrica dos 5 delineamentos construı́dos no Exemplo 1. 43 Lista de Tabelas Página 1 Formas de codificação dos nı́veis dos fatores e tratamentos em um delineamento fatorial 23 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2 Subconjuntos para 3 fatores . . . . . . . . . . . . . . . . . . . . . . . . . 14 3 Delineamentos com modelo com efeitos principais, quadráticos e interações 2 a 2 (n = 16; k = 3; p = 10) . . . . . . . . . . . . . . . . . . . . 42 4 Eficiência do DCC e DBB comparado com um delineamento ótimo . . . 44 5 Delineamentos com modelo com efeitos lineares e interações 2 a 2 (n = 24; k = 4; p = 11) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 46 Delineamentos utilizando critérios unidimensionais na busca com modelo com efeitos principais, quadráticos e interações 2 a 2 (n = 24; k = 4; p = 15) 48 7 Delineamentos utilizando critérios compostos na busca com modelo com efeitos principais, quadráticos e interações 2 a 2 (n = 24; k = 4; p = 15) . 49 8 Eficiência dos delineamentos apresentados em Ahmad & Gilmour (2010) 51 9 Delineamentos com modelo com efeitos principais, quadráticos e interações 2 a 2 (n = 36; k = 4; p = 15) . . . . . . . . . . . . . . . . . . . . 53 CRITÉRIOS COMPOSTOS PARA DELINEAMENTOS ÓTIMOS ROBUSTOS Autor: MARCELO ANDRADE DA SILVA Orientadora: Prof.a Dr.a LUZIA APARECIDA TRINCA RESUMO Neste trabalho propomos a incorporação de uma propriedade relacionada a robustez de delineamentos frente a perda de observações em experimentos fatoriais, a qual denominamos critério H, na expressão de um critério composto. Para a otimização, implementamos duas versões modificadas do algoritmo de troca de Fedorov (1972), que é um método heurı́stico para encontrar delineamentos ótimos ou quase ótimos exatos. Apresentamos quatro exemplos para examinar a performance de delineamentos construı́dos com o novo critério composto, os exemplos 1, 3 e 4 visam o modelo de segunda ordem completo e o exemplo 2 visa o modelo de segunda ordem sem os efeitos quadráticos. Nos exemplos 1 e 3, para preservar bom desempenho em outras propriedades, a eficiência H não foi alta. Os resultados obtidos no exemplo 2 mostraram grande contribuição do uso da propriedade H no critério composto, produzindo delineamentos com alta eficiência nos demais quesitos. x Em geral, o novo critério composto produziu delineamentos mais atrativos que os DP -ótimos de Gilmour & Trinca (2012), com valores de leverages mais homogêneos, e portanto mais robustos à perda de observações. Produziu também delineamentos com melhores propriedades do que os delineamentos construı́dos por subconjuntos em Ahmad & Gilmour (2010). COMPOUND CRITERIA FOR ROBUST OPTIMUM DESIGNS Author: MARCELO ANDRADE DA SILVA Adviser: Prof.a Dr.a LUZIA APARECIDA TRINCA SUMMARY In this work we propose the use of a robustness measure to missing data to construct designs for factorial experiments. The robustness property is denoted the H criterion and it is added to a compound design criterion expression. Two versions of the modified exchange algorithm of Fedorov (1972) were implemented computationally for the search of exact optimum designs. Four examples are presented, examples 1, 3 and 4 consider the full second-order model and example 2 considers second-order model excluding the quadratic effects. The examples 1 and 3, in order to preserve good efficiency with respect to other properties, their H efficiency is not high. The results for example 2 showed good performance of the new compound criterion since it produced designs high by efficient for all other properties. In general, the new compound criterion produced more attractive designs than the DP criterion of Gilmour & Trinca (2012) since their leverages were more homogeneous and thus, the designs were more robust to missing data. The xii designs were also more attractive than those constructed by subsets as in Ahmad & Gilmour (2010). 1 INTRODUÇÃO Nas áreas biotecnológicas, industriais, farmacêuticas, agrı́colas, entre outras, muitas vezes é necessário obter informações sobre produtos e processos empiricamente. Pessoas envolvidas com o problema em questão precisam planejar e executar experimentos, coletar os resultados e analisá-los. Experimentos são estudos controlados com alterações deliberadas que são realizados para resolver problemas de fabricação ou produção de material inerte ou biológico, decidir entre diferentes produtos ou metodologias, entender a influência de determinados fatores, entre outros. Esta tarefa torna-se cada vez mais complexa e deve ser executada com muito cuidado e atenção na medida que se intensifica a base tecnológica dos produtos. A teoria de delineamento de experimentos (em inglês, Design of Experiments) inclui um conjunto de conceitos, princı́pios e metodologias para se planejar pesquisas experimentais, buscando atender basicamente dois grandes objetivos: a maior precisão estatı́stica possı́vel na resposta e o menor custo possı́vel na execução do experimento. Os primeiros registros de experimentos planejados datam da segunda metade do século XIX no contexto de fertilização do solo e seleção de variedades de importância agrı́cola na Inglaterra. A formalização e justificativas dos princı́pios que validam os resultados experimentais surgiram com os valiosos trabalhos de Sir Ronald A. Fisher, matemático, estatı́stico e geneticista, na primeira metade do século XX, tanto para as pesquisas experimentais quanto para a área de métodos estatı́sticos em geral. A área de delineamentos ótimos de experimentos teve grande impulso com o trabalho de Kiefer (1959), que estruturou uma teoria de construção de delineamentos objetivando a otimização de certas propriedades dos estimadores dos 2 parâmetros do modelo, recebendo o nome de Teoria de Delineamentos Ótimos. Kiefer generalizou e formalizou matematicamente um problema que já havia permeado a bibliografia com casos particulares (Student, 1917; Smith, 1918; Student, 1918 apud Atkinson & Bailey, 2001). A falta de recursos computacionais fez com que a aplicação desta teoria acontecesse apenas a partir de 1970. A teoria de delineamentos ótimos presume que a função matemática (modelo) que relaciona a variável resposta e os fatores é conhecida e apenas seus parâmetros são desconhecidos. Os tratamentos e suas repetições a serem utilizados no experimento são escolhidos de forma a fornecerem o máximo de informação sobre os parâmetros desconhecidos. A formulação pode ser em dois contextos: assintótico e exato. No assintótico, faz-se buscas em espaços contı́nuos, cuja otimalidade é garantida para n, o tamanho do experimento, tendendo a ∞, em que o número das repetições de tratamentos são traduzidos para pesos assumindo valores entre 0 e 1 que integram a unidade. Os delineamentos obtidos são chamados de teóricos, contı́nuos ou aproximados. No contexto exato, faz-se buscas em espaços discretos, para n finito e inteiro, no qual o número de repetições também é restrito ao conjunto dos inteiros, cuja soma totaliza n. Os delineamentos obtidos são chamados de exatos ou discretos. Este trabalho se restringe ao contexto exato. Para o modelo linear clássico (Y = Xβ+ε), um delineamento ótimo especifica a matriz de delineamento, X, de tal forma que alguma função de interesse de X′ X seja otimizada. Essas funções refletem os objetivos do experimento e são chamadas “funções critério”. Critérios compostos de otimalidade incorporam múltiplos objetivos, de acordo com as necessidades do pesquisador nas fases posteriores ao planejamento de experimento. É consenso que a pesquisa experimental envolve várias etapas importantes sintetizadas a seguir. Conhecimento da problemática: o planejamento para um experimento bem sucedido requer a avaliação e utilização de toda a informação prévia sobre o assunto, mesmo que informalmente. 3 Escolha de um modelo: delineamentos ótimos experimentais dependem do modelo que relaciona a variável resposta aos fatores. É preciso considerar o princı́pio da parsimônia na escolha de um modelo: simplicidade e utilidade do modelo. Delineamento do experimento: a escolha do delineamento é fundamental para que os aspectos de interesse do pesquisador sejam otimizados e, nas fases posteriores ao planejamento de experimentos, venha atender os objetivos da pesquisa. Condução do experimento: o pesquisador deve acompanhar e conduzir o experimento cuidadosamente para assegurar o cumprimento ao plano estabelecido previamente. Deve ser dado particular atenção à precisão e à acurácia dos processos de mensuração. Análise dos dados: quase sempre é necessário uma investigação preliminar gráfica e uma análise estatı́stica mais formal produzindo estimativas dos parâmetros e intervalos de confiança associados. A experimentação é iterativa. As etapas apresentadas sugerem um caminho direto a partir da formulação do problema até a solução. No entanto, em cada etapa, o pesquisador pode ter que reconsiderar as decisões tomadas em fases anteriores da investigação. Problemas que surgem em estágios intermediários podem adicionar à eventual compreensão do problema. Na prática, durante a execução do experimento pode ocorrer perda de observações devido a situações inesperadas. Observações perdidas podem produzir estimativas tendenciosas, ou seja, resultados distorcidos, ou até mesmo não permitir a estimabilidade de alguns parâmetros do modelo pré-definido. Observações que desempenham papel muito influente no ajuste do modelo também não são desejadas na modelagem estatı́stica em geral. Delineamentos robustos à perda de observações são atraentes, já que são mais confiáveis para o pesquisador. A teoria de modelos lineares propõe medidas de influência para as observações. O experimento ideal 4 neste quesito deve apresentar homogeneidade nos valores de tais medidas. Dessa forma, propomos um critério de otimalidade com o objetivo de buscar delineamentos formados por tratamentos que não se destacam em termos de influência. Na literatura, o método de busca mais conhecido e usado para construir delineamentos ótimos exatos é o algoritmo de troca (exchange). Proposto por Fedorov (1972), este método é uma heurı́stica de otimização que consiste em, a partir de um delineamento inicial, realizar trocas, substituindo seus pontos por pontos candidatos até a melhora no valor do critério cessar. Usualmente, a implementação do algoritmo de troca é realizada em software estatı́sticos, como, por exemplo, R Core Team (2013) ou SAS/IML de SAS Institute Inc. (2007), porém, para experimentos com número de fatores e nı́veis elevados, exige-se uma eficiência computacional alta. Por este motivo a implementação deste método foi feita em linguagem C. Existem também procedimentos automáticos para construção de delineamentos ótimos utilizando critérios usuais como o PROC OPTEX/SAS e o pacote algdesign no R. Este trabalho está dividido da seguinte forma: no Capı́tulo 2 são abordados alguns fundamentos básicos de experimentos, experimentos fatoriais, estimação de parâmetros para modelos lineares, a teoria de delineamentos ótimos de experimentos e uma revisão de algumas versões do algoritmo de troca que há na literatura; no Capı́tulo 3 é apresentada a proposta de um novo critério de otimalidade, a utilização de critérios compostos para a busca de delineamentos ótimos e detalhes dos algoritmos implementados neste trabalho; os resultados são apresentados no Capı́tulo 4 através de quatro exemplos e as conclusões deste trabalho estão resumidas no Capı́tulo 5. 2 CONCEITOS BÁSICOS E REVISÃO DE LITERATURA 2.1 Experimentos Experimentos são realizados por pesquisadores em praticamente todas as áreas do conhecimento com o objetivo de investigar as relações de causa e efeito de uma determinada situação de interesse. Literalmente, um experimento é um teste que envolve uma alteração deliberada e uma leitura das consequências. Mais formalmente, podemos definir um experimento como um teste ou uma sucessão de testes em que as alterações propositais são feitas nas chamadas variáveis independentes ou fatores em condições experimentais adequadas, para que possamos observar e identificar quais variáveis independentes ou fatores causam as mudanças nas variáveis respostas, as consequências. A Figura 1 é uma representação em esquema de um experimento. O processo consiste em medir os valores das h respostas, denotadas por y1 , . . . , yh . Estas variáveis são dependentes dos k fatores u1 , . . . , uk , cujos valores são previamente prescritos pelo delineamento experimental. Os valores das respostas podem também depender de r variáveis concomitantes z1 , . . . , zr que podem, ou não, ser conhecidos pelo pesquisador. A relação entre os fatores u’s e as respostas medidas y’s é modificada pela presença de outros fatores desconhecidos e/ou de importância pouco relevante considerados erros aleatórios, representados por ε’s. Tal modificação é suposta ser aditiva e, então, matematicamente, podemos escrever Yij = µi + εij (1) 6 Figura 1 - Representação esquemática de um experimento. em que µi é a esperança de Yij , ou seja, da resposta aleatória quando o tratamento ui = (u1 , . . . , uk )′ é aplicado na j-ésima unidade para i = 1, 2, . . . , t e j = 1, 2, . . . , ni , ∑ com ti=1 ni = n. Em todo experimento, a unidade experimental deve estar identificada. A unidade experimental é a porção do material experimental para a qual o tratamento é atribuı́do e aplicado. Para ilustrar este conceito, vamos imaginar, por exemplo, que se alguns tipos de drogas são testados em um grupo de pessoas e cada pessoa é alocada aleatoriamente à determinada droga, então cada pessoa é uma unidade experimental. Se, por outro lado, alguns tipos de pomadas forem testados em cada braço, sendo que cada braço é alocado aleatoriamente ao tipo de pomada, então cada braço será uma unidade experimental. Para o êxito de um experimento, é essencial planejá-lo. Escolher corretamente quais fatores e seus respectivos nı́veis, a unidade experimental, o número de observações e repetições de cada tratamento, a forma de controle de variabilidade exógena e a forma de aleatorização para distribuir os tratamentos são itens que definem o delineamento experimental. Dessa forma, delineamento experimental é o 7 plano dado ao experimento, o desenho do experimento, o esquema montado para que seja entendido tecnicamente a realização do experimento. 2.1.1 Três princı́pios da experimentação Os princı́pios básicos da experimentação foram introduzidos ou pelo menos formalizados nos trabalhos pioneiros de Fisher (1925), Fisher (1926) e Fisher (1935) e são apresentados e explicados nos vários livros clássicos escritos por autores consagrados na área, como Kempthorne (1952), Cochran & Cox (1957), Cox (1958), Montgomery (2001), Box et al. (2005), Hinkelmann & Kempthorne (2005), Atkinson et al. (2007), Bailey (2008), Hinkelmann & Kempthorne (2008), Wu & Hamada (2009), entre outros. Para assegurar a legitimidade da análise estatı́stica dos resultados experimentais e aumentar sua precisão, temos que planejar o experimento atentando para três princı́pios básicos que são cruciais para qualquer experimento. O primeiro princı́pio é da repetição. Todo tratamento (ou pelo menos alguns deles) devem ser aplicados a várias unidades experimentais, criando repetições dos tratamentos. Estas repetições nos permitem estimar o erro aleatório experimental. Para garantir a validade da análise dos resultados, temos o segundo princı́pio, que é a aleatorização. Este princı́pio elimina qualquer subjetividade que possa existir na distribuição dos tratamentos às unidades experimentais, levando a estimativas não viciadas dos efeitos dos tratamentos e da variabilidade do erro experimental. Além do mais, o processo de aleatorização gera uma população de experimentos que poderiam ser realizados, embora na prática apenas um é realizado, garantindo a validade dos testes realizados na análise dos resultados. Essa validade não depende de suposições fortes ou complicadas sobre o processo de geração dos dados, depende apenas do processo de aleatorização (Mead et al., 2012). A redução do erro experimental é um dos principais objetivos na escolha de um delineamento e é obtido, muitas vezes, pelo terceiro princı́pio, o controle 8 local. A aplicação deste princı́pio pode ser via padronização das condições externas do experimento, tornando-as homogêneas ou via blocagem. A blocagem consiste em dividir o conjunto total de unidades experimentais em subconjuntos chamados blocos, de tal forma que cada bloco contenha unidades experimentais tão homogêneas quanto possı́vel. Desta forma, a comparação de tratamentos fica mais equilibrada, eliminando o efeito causado pelas diferenças entre as unidades experimentais. A blocagem é determinada pelas condições experimentais e pelos requisitos para a sensibilidade desejada do experimento, porém uma quantidade grande de blocos num experimento irá torná-lo mais complexo para executá-lo e para analisar seus resultados. 2.1.2 Experimentos fatoriais A investigação dos efeitos de dois ou mais fatores é alvo de estudo em muitos experimentos nas áreas biotecnológicas, industriais, agrı́colas, entre outras. Em um experimento fatorial, cada unidade experimental recebe uma combinação de nı́veis dos k fatores, chamada tratamento. Estes experimentos foram introduzidos na década de 1930 com trabalhos de Fisher (1935) e Yates (1937) no contexto de experimentos agronômicos. O termo experimento fatorial aplica-se à estrutura de tratamento utilizada e não ao delineamento. Dessa forma, podemos ter um experimento fatorial em delineamentos inteiramente aleatorizados, em delineamentos aleatorizados em blocos, em delineamentos em linhas, colunas e outras estruturas. Porém, nesta pesquisa será utilizado experimentos nos quais o pesquisador pode controlar as condições experimentais, mantendo-as homogêneas, ou seja, delineamentos inteiramente aleatorizados. Em um experimento fatorial completo há pelo menos uma unidade experimental para cada possı́vel combinação de nı́veis dos fatores. Por exemplo, na agricultura é possı́vel estudar a influência das combinações dos diferentes nı́veis dos fatores irrigação (baixa, média, alta), luminosidade (baixa, média, alta) e concen- 9 tração de nitrato de potássio (10 ml, 20 ml e 30 ml) na germinação de sementes de melancia. Os nı́veis dos fatores irrigação e luminosidade podem ser classificados como qualitativos, enquanto os nı́veis do fator nitrato de potássio são quantitativos. Um tratamento consiste em uma combinação dos nı́veis de cada fator. Como temos três nı́veis de irrigação, três nı́veis de luminosidade e três nı́veis de nitrato de potássio, há, então, 3 × 3 × 3 = 33 = 27 diferentes tratamentos que devem ser testados para que este experimento seja completo. Nesta representação, a base se refere ao número de nı́veis e o expoente ao número de fatores. Fisher reconheceu e explicou as vantagens de se variar mais de um fator num mesmo experimento. Além de mais econômico do que executar experimentos separados, um para cada fator, o fatorial permite estimação, além dos efeitos principais, das interações entre os fatores. Dizemos que dois fatores interagem quando o efeito de um deles é modificado pela alteração nos nı́veis do outro fator. Para efeito de exemplificação, vamos considerar k fatores, cada um com 2 nı́veis, ou seja, o fatorial 2k . Sob a suposição de que as observações são não correlacionados e têm variâncias iguais, estes tratamentos fornecem estimativas dos efeitos com variância mı́nima independentes da média e dos 2k − 1 efeitos: k k(k−1) 2 k(k−1)(k−2) 2·3 efeitos principais, efeitos de interações de dois fatores, efeitos de interações de três fatores, .. . k(k−1)(k−1)·...·(k−h−1) h! efeitos de interações de h fatores, .. . 1 efeito de interações de k fatores, Por exemplo, em um delineamento fatorial 24 completo, 16 efeitos podem ser estimados: a média, 4 efeitos principais, 6 interações de dois fatores, 4 interações de três fatores e a única interação de quatro fatores. 10 Fatores quantitativos assumem valores (nı́veis) em intervalos denotados por ui,min ≤ ui ≤ ui,max , (i = 1, . . . , k), usualmente em escalas e/ou unidades de medidas distintas. A fim de auxiliar a apreciação do plano experimental e os cálculos de análise e interpretação dos resultados experimentais, é conveniente padronizar ou codificar os nı́veis de todos os fatores numa mesma escala, em geral, no intervalo [−1; 1]. Para a codificação, o cálculo é definido por xi = ui − ui0 ∆i (i = 1, . . . , k) (2) em que ui0 = ui,min + ui,max e ∆i = ui,max − ui0 = ui0 − ui,min 2 Muitas vezes é desejável retornar aos valores originais dos fatores, especialmente para uso posterior dos resultados. O cálculo para reverter a transformação (2) é dado por ui = ui0 + xi ∆i (i = 1, . . . , k) (3) Além desta forma de codificação, existem outras formas utilizadas para exibir os nı́veis dos fatores de um delineamento fatorial 2k . A Tabela 1 apresenta um exemplo de quatro formas de codificação para um experimento fatorial 23 . A Codificação 1 apresentada na Tabela 1 é gerada pela Equação (2), porém, como este exemplo refere-se a um fatorial com 3 fatores e cada um com 2 nı́veis, é óbvio que estes nı́veis seriam −1 e 1. Uma outra forma de apresentar é apenas citar que estamos nos referindo ao nı́vel “baixo” ou ao nı́vel “alto” do fator (Codificação 2). A Codificação 3 apresenta os sinais “+” e “−” respectivamente no lugar de “1” e “−1” visto na Codificação 1. A Codificação 4 mostra que um fator está no nı́vel alto através da letra minúscula deste fator e, caso este fator estiver no nı́vel baixo, esta situação é mostrada pela ausência da letra que representa o fator. Quando todos os fatores estiverem no nı́vel baixo, o tratamento é representado pelo sı́mbolo “(1)”. Quando os fatores são quantitativos, o delineamento experimental pode ser representado geometricamente no espaço. Um tratamento é representado por um 11 Tabela 1. Formas de codificação dos nı́veis dos fatores e tratamentos em um delineamento fatorial 23 . Codificação 1 X1 X2 X3 Codificação 2 Codificação 3 X1 X2 X3 Codificação 4 X1 X2 X3 1 1 1 Alto Alto Alto + + + x1 x2 x3 1 1 −1 Alto Alto Baixo + + − x1 x2 1 Alto Baixo Alto + − + x1 x3 1 −1 −1 Alto Baixo Baixo + − − x1 1 −1 −1 1 1 Baixo Alto Alto − + + x2 x3 −1 1 −1 Baixo Alto Baixo − + − x2 Alto − − + x3 − − − (1) −1 −1 1 −1 −1 −1 Baixo Baixo Baixo Baixo Baixo ponto cujas coordenadas são os nı́veis de cada fator. No exemplo de um experimento fatorial 23 completo, temos 8 vértices e a representação geométrica segue na Figura 2. O cubo formado constitui a região experimental. Para k > 3, a região é formada por um hiper-cubo. É fácil perceber que aumentando o número de fatores e nı́veis, o número de tratamentos cresce drasticamente. Se incluı́ssemos mais 2 fatores no exemplo da melancia, cada um com 3 nı́veis, então passarı́amos a ter 35 = 243 tratamentos distintos. Muitas vezes é inviável testar e avaliar um grande número de tratamentos por motivos financeiros, de tempo ou porque o material experimental é limitado, sendo necessário manter um equilı́brio entre o volume de informação obtido e o custo envolvido para o experimento. Dessa forma, são necessários métodos para planejar experimentos utilizando apenas frações dos possı́veis tratamentos de fatorial completo, o que permite reduzir o número de observações e, consequentemente, o custo de realização do experimento. Alternativas de planejamentos eficientes com frações de tratamentos 12 Figura 2 - Representação geométrica de um experimento fatorial 23 completo. apareceram após a disseminação dos fatoriais. Finney (1945), motivado pelos argumentos de que, na prática, interações entre vários fatores não são considerados relevantes, propôs métodos para a seleção de frações do fatorial completo. Tais frações receberam o nome de regulares. Elas são obtidas escolhendo-se contrastes ou efeitos que são deliberadamente confundidos ou inseparáveis de outros. Em geral, escolhem-se interações de alta ordem para a determinação da fração a ser utilizada. Uma vez escolhida a fração, fica determinado um padrão de confundimentos entre os demais efeitos levando ao conceito de Resolução. Box & Hunter (1961a) e Box & Hunter (1961b) classificaram as frações úteis dos fatoriais 2k em Resolução III, IV , V e V I. Por exemplo, numa fração com Resolução III, efeitos principais estão, no máximo, confundidos com interações de dois fatores, ou seja, não há confundimento entre os efeitos principais. Já a fração com Resolução IV , efeitos principais não são confundidos com interações de dois fatores, mas interações de dois fatores estão confundidos entre si. Na Resolução V , efeitos principais só podem estar confundidos com interações de ordens superiores a 3 e as interações duplas não são confundidas entre si. Estes conceitos e métodos para seleção de frações estão didaticamente descritos em Box & Hunter (1961a), Box & Hunter (1961b) e Montgomery (2001). Embora de grande valor, o uso de frações regulares é bastante restrito 13 na prática, pois exige que o número de unidades experimentais para fatoriais 2k seja potência de base 2. Seu uso é mais comum nas fases iniciais da pesquisa na qual se faz uma triagem dos fatores importantes no processo de interesse. Uma vez selecionados os fatores potenciais, outro experimento é realizado, em geral, utilizando-se mais que dois nı́veis de cada fator, possibilitando o ajuste de modelos mais completos e a estimação de combinação dos nı́veis que otimiza alguma resposta de interesse. Esta área de investigação recebe o nome de Métodos de Superfı́cie de Resposta, na qual faz-se extenso uso de ajuste de polinômios para aproximar a relação entre variáveis respostas e os fatores. Desta forma, o desenvolvimento de métodos para seleção do conjunto de combinações do fatorial, que agora é, no mı́nimo, do tipo 3k é considerado importante. Com esta estrutura de tratamento mais complexa, a metodologia para seleção de frações é bem mais complicada e restritiva. Grandes avanços se deram com o trabalho de Box & Wilson (1951), que introduziram o Delineamento Central Composto (DCC) e Box & Behnken (1960), com o popular Delineamento Box-Behnken (DBB), ambos possibilitando grande redução no número de tratamentos utilizados. Outras ideias surgiram com Draper (1985) que propôs o DCC de tamanho menor que o DCC padrão. Tais alternativas foram estendidas para outros delineamentos mais flexı́veis e/ou eficientes com os delineamentos formados por subconjuntos de 3k de Hoke (1974) e Gilmour (2006). Para fornecer uma ideia sobre como são formados o DCC, o DBB e subsets em geral, vamos usar a notação de subconjuntos de pontos do fatorial 3k de Gilmour (2006). Seja Sr o subconjunto de tratamentos tais que cada um dos r (r ≤ k) fatores aparecem nos nı́veis extremos e k − r são fixados em 0. Assim, o subconjunto formado pelos 2k tratamentos é denotado por Sk , o tratamento que se refere ao ponto central da região experimental é S0 (todos os fatores fixados em zero) e assim por diante. Por exemplo, para k = 3, S2 são os pontos médios das arestas do cubo e S1 são os pontos centrais das faces. Tais pontos podem estar deslocados para pertencer à superfı́cie da esfera no caso da região experimental ser esférica. A Tabela 2 apresenta os subconjuntos para esta situação. 14 Tabela 2: Subconjuntos para 3 fatores S3 −1 1 −1 1 −1 1 −1 1 −1 −1 1 1 −1 −1 1 1 S2 −1 −1 −1 −1 1 1 1 1 −α2 α2 −α2 α2 −α2 α2 −α2 α2 0 0 0 0 −α2 −α2 α2 α2 0 0 0 0 −α2 α2 −α2 α2 0 0 0 0 −α2 −α2 α2 α2 −α2 −α2 α2 α2 S1 S0 −α1 0 0 α1 0 0 0 −α1 0 0 α1 0 0 0 −α1 0 0 α1 0 0 0 Assim, o DCC é formado pelo subconjunto Sk (parte fatorial) acrescido de S1 (pontos axiais) e algumas repetições de S0 (ponto central). O DCC mais econômico (small DCC) de Draper (1985) utiliza uma fração regular ao invés do Sk completo. O DBB combina o 2k com um delineamento em blocos incompletos para tratamentos não estruturados. Em cada bloco os tratamentos presentes são substituı́dos por nı́veis −αi ou +αi , com i = 1, 2 e os tratamentos ausentes são fixados em 0. Por exemplo, para k = 3, o DBB é formado pelo subconjunto S2 acrescido de algumas repetições de S0 . A Figura 3 mostra a representação geométrica de um experimento fatorial completo, DCC e DBB para 3 fatores. Os métodos de construção de delineamentos ótimos cuja origem data da década de 1940 (Wald, 1943; Chernoff, 1953; Kiefer, 1959) são alternativas muito mais flexı́veis e capazes de lidar com qualquer estrutura imposta pela prática. No contexto de experimentos fatoriais, a construção de um delineamento ótimo consiste na seleção do subconjunto de tratamentos que otimiza alguma propriedade de interesse relacionada à análise estatı́stica dos resultados experimentais. Essa metodologia será melhor explorada na Seção 2.3. 15 Figura 3 - Representação geométrica de um experimento fatorial completo, DCC e DBB para k = 3. 2.1.3 Propriedades de delineamento Segundo Box & Draper (1975) e Box & Draper (1987), o delineamento de um experimento deve: 1. Produzir dados informativos em toda a região de interesse, sendo que essa região não necessariamente coincida com a região do delineamento (cuboidal, esférico, entre outros). 2. Assegurar que a resposta estimada ŷ(x) seja tão próxima quanto possı́vel do seu valor esperado E(Y (x)) em x. 3. Permitir, se necessário, detectar possı́vel falta de ajuste. 4. Permitir estimação de transformações da resposta e dos fatores experimentais quantitativos. 5. Permitir que experimentos sejam realizados em blocos. 6. Permitir que experimentos de grande porte sejam construı́dos iterativamente. 16 Por exemplo, um delineamento de segunda ordem é construı́do após análise de um experimento inicial de primeira ordem. 7. Fornecer uma estimativa não viciada de erro aleatório. 8. Ser robusto a presença de observações estranhas e ser robustos a violações das suposições do modelo normal usual. 9. Requerer um número mı́nimo de ensaios experimentais. 10. Fornecer padrões de dados simples que permitem visualização imediata. 11. Resultar em cálculos simples. 12. Ser robusto a erros de medidas nas variáveis experimentais. 13. Não requerer um número impraticável de nı́veis dos fatores. 14. Permitir um controle para manter a suposição de “variância constante”. Obviamente, a relevância dos 14 pontos acima é relativa às circunstâncias de cada caso. Por exemplo, a propriedade 11, que requer simplicidade nos cálculos, não é muito importante se houver software disponı́vel, desde que seja possı́vel verificar que todos os dados de entrada foram inseridos corretamente no computador. Várias destas propriedades estão relacionadas com ortogonalidade entre os efeitos e/ou balanceamento, que foram consideradas importantes e ainda hoje, se possı́vel, são desejadas, conforme destacado em Atkinson et al. (2007), que também cita a propriedade de rotacionalidade para experimentos de superfı́cie de resposta. Um delineamento rotacional é aquele cujas variâncias das respostas preditas depende apenas da distância do ponto ao centro da região experimental, ou seja, independe da direção do ponto. A ortogonalidade é uma propriedade útil e desejável para um delineamento, porém só vai ocorrer em situações especiais. Com esta propriedade presente, 17 é possı́vel analisar de forma simples as médias de tratamentos para efeito de comparação e também realizar uma única análise de variância, com a soma de quadrados sendo calculada facilmente. Muitos dos delineamentos clássicos existentes e mais usados são ortogonais, mas se a ortogonalidade não pode ser alcançada, a procura por um experimento balanceado (mesmo número de repetições para cada tratamento) é frequente. 2.2 Modelo linear O objetivo de um experimento é esclarecer o comportamento de um sistema e estimar efeitos dos fatores experimentais, o que geralmente envolve o ajuste de um modelo. A forma da verdadeira relação entre resposta e fatores nem sempre é conhecida e, assim, a alternativa é utilizar uma aproximação. Muitos problemas podem ser adequadamente resolvidos ajustando-se um polinômio de baixa ordem. O modelo de médias apresentado em (1) é um modelo geral para um experimento em delineamento inteiramente casualizado com t tratamentos, cada um com ni repetições (i = 1, 2, . . . , t). A única suposição inicial deste modelo é a de aditividade entre a consequência dos tratamentos e o componente aleatório. Associado ao ajuste do modelo temos a análise de variância que, de forma sucinta, pode ser descrita como segue. Observado os n resultados da variável resposta y, a variabilidade total presente (SQtotal ) pode ser decomposta em duas partes: uma devido a efeitos de tratamentos (SQtrat ), com t − 1 graus de liberdade, e a outra devido a variabilidade aleatória (SQres ), com n − t graus de liberdade. Sob as suposições E(εij ) = 0, ∑ V (εij ) = σ 2 para i = 1, . . . , t e j = 1, . . . , ni , com ti=1 ni = n e E(εij · εij ′ ) = SQres 0 (para j ̸= j ′ ) é sabido que s2 = é uma estimativa não viciada de σ 2 . n−t Na literatura essa estimativa é chamada de estimativa do erro puro. Quando os tratamentos são estruturados (fatorial) é mais apropriado reescrever a expressão em (1) em componentes que representam efeitos principais e interações entre os fatores. Por exemplo, para o fatorial completo com os fatores x1 com I nı́veis 18 e x2 com J nı́veis, temos yij = µij + εij = µ + αi + θj + γij + εij (4) em que µ é a média geral, αi é o efeito do i-ésimo nı́vel do fator x1 (i = 1, . . . , I), θj é o efeito do j-ésimo nı́vel do fator x2 (j = 1, . . . , J) e γij é o efeito da interação entre o nı́vel i de x1 e j de x2 . Note que, neste caso, t = I × J. Similarmente ao modelo anterior, a análise de variância associada resulta da decomposição da SQtotal em variabilidade devido aos efeitos principais de x1 S(Qx1 ) com I −1 graus de liberdade, variabilidade devido aos efeitos principais de x2 (SQx2 ) com J − 1 graus de liberdade, variabilidade devido aos efeitos de interações de x1 x2 (SQx1 x2 ) com (I − 1) × (J − 1) graus de liberdade e variabilidade devido aos resı́duos (SQres ) com n − I × J graus de liberdade, desde que pelo menos um tratamento seja repetido. A variabilidade devido ao modelo completo é a soma das variabilidades dos efeitos descritos (SQmod = SQx1 + SQx2 + SQx1 x2 ), que, neste caso, se iguala à variabilidade de tratamentos descrita acima. A estimativa de σ 2 é idêntica à estimativa não viciada do modelo apreSQres sentado em (1), então s2 = . A estimação dos efeitos no modelo pode n−I ×J ser obtida pelo Método de Mı́nimos Quadrados dos erros cujas soluções únicas são obtidas após definir restrições apropriadas sobre os parâmetros. Para mais de dois fatores, o modelo é estendido acrescentando interações de ordens superiores, entre três fatores, quatro fatores, ou mais. Quando o experimento envolve repetições de pelo menos um tratamento é possı́vel obter estimativa de erro puro. Porém, uma desvantagem da estrutura fatorial é que o número de tratamentos cresce muito rápido quando aumentamos o número de fatores e nem sempre é possı́vel usar o fatorial completo e/ou repetir tratamentos. Nestes casos, costuma-se utilizar os graus de liberdade das interações de alta ordem, consideradas não relevantes, para obter uma estimativa da variabilidade do erro, estimativa esta denotada por s2p . O ı́ndice p é utilizado para deixar claro que esta é uma estimativa do tipo pooled, ou seja, que agrupa a variabilidade dos efeitos considerados desprezı́veis. Conforme argumentado por Gilmour & Trinca 19 (2012), esta estimativa é viciada para σ 2 . Para fatores quantitativos temos interesse em simplificar µi do modelo em (1) por uma superfı́cie que, em geral, é aproximada por um polinômio de baixa ordem. Assim, µi = f ′ (xi )β i = 1, . . . , t, (5) em que f é uma função que expande xi = (x1i , x2i , . . . , xki )′ num vetor de dimensão p de acordo com os termos do polinômio que se deseja ajustar e β é o vetor de parâmetros do modelo de dimensão p (p < t). Usualmente, os elementos de β são o intercepto, os efeitos de algumas potências baixas dos x’s e interações. O modelo de primeira ordem inclui intercepto e efeitos lineares. O modelo de segunda ordem inclui intercepto, efeitos lineares, efeitos quadráticos e interações lineares dos fatores dois-a-dois. Estes modelos são os utilizados nos estudos de superfı́cies de resposta, sendo que o modelo de segunda ordem é inclusive chamado de modelo de superfı́cie de resposta. Qualquer modelo polinomial pode ser escrito na forma matricial do modelo de regressão dado por Y = Xβ + ε (6) em que Y é o vetor de respostas de dimensão n, X, com dimensão n × p, é a matriz de delineamento definida pelo modelo e pelo delineamento e ε é o vetor de erros aleatórios de dimensão n. Note que cada linha de X é dada por f ′ (xi ). Para ajustar um modelo de regressão aos dados observados, basta estimar o vetor de parâmetros β. O problema é encontrar β tal que Xβ seja próximo de Y. Pelo Método de Mı́nimos Quadrados (MQ), encontramos β tal que a função ε′ ε = (Y − Xβ)′ (Y − Xβ) é minimizada. Ao resolver este problema, obtemos a solução explicita dada por β̂ = (X′ X)−1 X′ Y. (7) Sob as condições de Gauss-Markov, isto é, E(ε) = 0 e V(ε) = σ 2 I, o estimador de MQ de β, β̂, é BLUE (Best Linear Unbiased Estimator ), ou seja, dentre todas as possı́veis combinações lineares de Y, β̂ é o estimador com variância 20 mı́nima e não viciado, pois E(β̂) = β. Temos também que V(β̂) = (X′ X)−1 σ 2 . Sob o conhecimento da distribuição de probabilidade dos erros, o método de estimação preferido em Estatı́stica é o de Máxima Verossimilhança (MV). No caso de normalidade dos erros (Draper & Smith, 1998; Faraway, 2004), ou seja, ε ∼ N (0; Iσ 2 ), este método produz os mesmos estimadores de β que o método de Mı́nimos Quadrados dos erros. Realizar testes de hipóteses sobre os parâmetros do modelo é extremamente útil para as inferências sobre os efeitos dos fatores e para a escolha do modelo adequado. Para isso, considerando a normalidade dos erros, temos as hipóteses H0 : β1 = 0; β2 = 0; . . . ; βp = 0 H1 : βj ̸= 0 para pelo menos um j, que podem ser testadas pelo teste F da Análise de Variância (ANOVA) cuja estatı́stica do teste sob H0 , é F = SQmod p−1 SQres n−p ∼ F(p−1;n−p) . (8) Se o valor obtido para a estatı́stica F for maior do que o valor do quantil de ordem (1 − α) da distribuição F com p − 1 e n − p graus de liberdade no numerador e no denominador, respectivamente, então rejeitamos H0 ao nı́vel de α% de significância. Este teste é dito ser global, ou seja, testa a nulidade dos coeficientes de todas as regressoras no modelo. Se H0 for rejeitada, temos evidência de que pelo menos um dos fatores é útil para explicar Y linearmente. Sob normalidade, temos também β̂ ∼ N (β; (X′ X)−1 σ 2 ). O erro √ padrão de cada estimador β̂j é σ cjj , em que cjj é o j-ésimo elemento da diagonal de M−1 = (X′ X)−1 , em que M tem dimensões p × p e é chamada de matriz de informação. Então, as hipóteses H0 : β j = 0 H1 : βj ̸= 0 21 podem ser testadas pelo teste t dado por T = β̂j − βj ∼ tn−p . √ s cjj (9) Se o valor absoluto obtido para a estatı́stica T for maior do que o valor do quantil de ordem (1 − α/2) da distribuição t com n − p graus de liberdade, então rejeitamos H0 ao nı́vel de 100 · α% de significância. Este teste t é dito ser individual ou parcial, ou seja, testa a contribuição da j-ésima variável regressora em particular após considerar a contribuição de todas as outras no modelo. Construir intervalos de confiança (IC) e regiões de confiança para β é uma maneira de expressar a incerteza em nossas estimativas. Podemos considerar individualmente cada parâmetro, o que leva ao IC para βj com 100 · (1 − α)% de confiança tendo a forma geral √ β̂j ± |t(α/2;n−p) |s cjj . (10) Quanto mais amplo o intervalo, maior a imprecisão da estimativa. Note √ que fixados n e p, a imprecisão só é reduzida diminuindo-se o valor cjj , que depende da matriz X′ X. No entanto, se construı́rmos intervalos desse tipo para cada um dos p parâmetros, o nı́vel de confiança não é (1 − α), mas sim próximo a (1 − α)p . Para contornar esta questão, podemos obter uma região de confiança conjunta para os p parâmetros, formada pelo elipsóide, satisfazendo (β̂ − β)′ X′ X(β̂ − β) < F(1−α;p;n−p) . ps2 (11) Para o caso bidimensional e tridimensional é possı́vel visualização gráfica do elipsóide. Quanto maior o volume do elipsóide, maior a imprecisão das estimativas. Note que o volume do elipsóide depende da matriz X′ X. Uma vez ajustado um modelo que se adequa aos dados, é possı́vel utilizá-lo para predizer valores da resposta em qualquer ponto da região de interesse. Nos pontos utilizados no experimento, a resposta ajustada é Ŷ = Xβ̂ ou Ŷ = HY, 22 em que H = X(X′ X)−1 X′ (12) é chamada de matriz de projeção ou popularmente de matriz chapéu (hat) e é uma matriz que projeta Y no espaço formado pelas colunas de X. A matriz H tem dimensões n × n, é uma matriz simétrica (H = H′ ), idempotente (H2 = H), singular (|H| = 0), seu posto é igual ao seu traço que é igual a p e a soma dos elementos de uma linha ou de uma coluna é 1. 2.3 Delineamentos ótimos de experimentos A teoria de delineamentos ótimos de experimentos foi formalizada por Kiefer (1959) com o objetivo de buscar delineamentos que maximizem a informação a partir da otimização de propriedades ligadas aos estimadores de interesse. Delineamentos ótimos são delineamentos experimentais baseados em um determinado critério e são ótimos apenas para um modelo estatı́stico especı́fico. O objetivo de uma busca por um delineamento ótimo ou quase-ótimo é escolher n pontos de um conjunto de N pontos possı́veis, chamados pontos candidatos (conjunto de todas as possı́veis combinações dos nı́veis dos fatores), de forma que alguma função da matriz de informação X′ X seja ótima, ou seja, buscar um delineamento ótimo significa buscar uma combinação dentro da região experimental χ que otimize a função critério. Essa função é definida através de um critério de otimalidade que são descritos na próxima seção. 2.3.1 Critérios de otimalidade Os critérios de otimalidade, também originalmente chamados de critérios alfabéticos de otimalidade (Kiefer, 1959; Atkinson et al., 2007) são, quase sempre, estabelecidos por uma função da matriz de informação M = X′ X ou de sua inversa M−1 = (X′ X)−1 , que é proporcional à matriz de covariâncias dos parâmetros do modelo. No que segue, sem perda de generalidade, vamos considerar σ 2 = 1, para 23 simplicidade das expressões. Seja Ξ o conjunto de todos os possı́veis delineamentos para um determinado experimento. Os critérios mais populares são: A-otimalidade: Foi introduzido por Chernoff (1953) e é definido como max X∈Ξ 1 tr{(X′ X)−1 } (13) Usando a função critério em (13), minimizamos o traço da inversa da matriz de informação, o que é equivalente a minimizar a variância média das estimativas dos parâmetros do modelo ajustado. Esse critério pode ser generalizado para max X∈Ξ 1 , tr{W(X′ X)−1 } (14) em que W é uma matriz diagonal de pesos que podem ser atribuı́dos aos parâmetros de acordo com prioridades. Servem também para equilibrar a busca quando as escalas relativas aos parâmetros são diferentes. D-otimalidade: Wald (1943) introduziu este critério que tem sido considerado o mais importante e mais popular para construção de delineamentos ótimos. O critério D, também conhecido como Critério do Determinante, é definido como max {|X′ X|} 1/p X∈Ξ (15) no qual maximizamos o determinante da matriz de informação ou minimizamos o determinante da inversa da matriz de informação. A interpretação para este critério é que, ao minimizar o determinante da inversa da matriz de informação, estamos minimizando a variância generalizada dos estimadores dos parâmetros e, dessa forma, minimizamos o volume do elipsóide de confiança dos p parâmetros, conforme Expressão (11). DS -otimalidade: O critério Ds é assim chamado por enfatizar o interesse na estimação de um subconjunto de s parâmetros do vetor β (s < p). Seja β = (θ 1 |θ 2 )′ no qual θ 1 é um vetor com os s parâmetros de interesse e θ 2 24 o vetor de (p − s) parâmetros de perturbação sem interesse primário. A matriz de informação de β pode ser escrita em blocos, como: M11 M12 M= ′ M12 M22 e sua inversa como V= (16) V11 V12 ′ V12 (17) V22 na qual V11 é a matriz de variância-covariância dos estimadores de θ 1 . Por ′ −1 Atkinson et al. (2007), temos que V11 = (M11 − M12 M−1 e, portanto, 22 M12 ) para obter θ̂ 1 tão preciso quanto possı́vel devemos obter X tal que max {|M11 − CM22 C′ |}1/s X∈Ξ (18) em que C é a solução da equação CM22 = M12 . E-otimalidade: Foi introduzido por Ehrenfeld (1955) e é definido como max λmin (X′ X). X∈Ξ (19) O critério baseia-se em encontrar o delineamento que maximiza o menor autovalor de (X′ X)−1 , λmin . O objetivo da E-otimalidade é minimizar a variância máxima entre todas as possı́veis combinações lineares normalizadas das estimativas dos parâmetros, ou seja, minimizar a variância do contraste ou efeito mais impreciso do experimento. G-otimalidade: O critério G consiste em determinar o delineamento para o qual a variância da previsão menos precisa, em toda a região experimental χ, será mı́nima. A letra G do critério indica otimalidade global. Este critério é definido como { } min max f (x)′ (X′ X)−1 f (x) . X∈Ξ x∈χ (20) 25 I-otimalidade: Este critério minimiza a variância média da resposta predita. Ele também é chamado de Q-otimalidade, Iv -otimalidade ou V -otimalidade. O critério I-otimalidade é definido como ∫ min f (x)′ (X′ X)−1 f (x)dx X∈Ξ (21) x∈χ Uma forma de analisar os dados de um experimento é através de intervalos ou regiões de confiança e testes de hipóteses sobre os parâmetros do modelo. Assim, o experimento deve ser planejado para garantir que esses procedimentos serão tão informativos quanto possı́vel. Reconsiderando as expressões originais dos critérios, nota-se que, para que as interpretações relacionadas com a inferência estejam de acordo, são necessárias algumas adaptações nas expressões dos critérios. Estas adaptações aos critérios, restringindo-se aos delineamentos inteiramente aleatorizados e aleatorizados em blocos em modelos lineares, foram propostas por Gilmour & Trinca (2012). Esses critérios modificados maximizam o poder dos testes de hipóteses e podem ser obtidos a partir de intervalos ou regiões de confiança. Como visto, a justificativa da D-otimalidade é que este critério minimiza o volume do elipsóide de confiança dos p parâmetros. Draper & Smith (1998) mostram que o volume é proporcional a |X′ X|−1/2 . De fato, o volume é proporcional a (F(1−α;p;d) )p/2 |X′ X|−1/2 , (22) em que d é o número de graus de liberdade para erro puro permitido pelo delineamento e F(1−α;p;d) é o quantil de ordem 1 − α da distribuição F com p graus de liberdade no numerador e d graus de liberdade no denominador. Então o critério D minimizaria o volume se todos os delineamentos apresentassem o mesmo número de graus de liberdade para estimação de erro. Assim, o critério DP ajustado para os graus de liberdade (a letra “P” refere-se a erro puro) deve obter X tal que max X∈Ξ {|X′ X|}1/p . F(1−α;p;d) (23) 26 Do mesmo modo, o critério (DP )S para um subconjunto com s parâmetros deve obter X tal que max X∈Ξ {|M11 − CM22 C′ |}1/s . F(1−α;s;d) (24) Em relação ao critério A, a modificação considera a média dos quadrados dos comprimentos dos intervalos de confiança dos parâmetros, originando o critério AP , que deve obter X tal que max X∈Ξ 1 . F(1−α;1;d) tr{W(X′ X)−1 } (25) em que W está definido na Equação 13. 2.3.2 Critérios compostos Na prática, os critérios de otimalidade apresentados na Seção 2.3.1 foram desenvolvidos para atender os objetivos do pesquisador nas fases posteriores ao planejamento de experimento. Há casos em que o pesquisador necessitará de mais de um critério para encontrar o delineamento adequado para seu experimento. Assim, os critérios compostos oferecem flexibilidade e eficácia para a construção de delineamentos multiobjetivos, podendo englobar mais de um critério de otimalidade, cada um com peso refletindo a importância relativa de cada objetivo do experimento ou do pesquisador. Gilmour & Trinca (2012) destacaram os seguintes procedimentos que, em geral, são aplicados na análise dos resultados de um experimento de superfı́cie de resposta: 1. Teste F global sobre os efeitos dos tratamentos, para o qual devemos usar (DP )S -otimalidade; 2. Teste t para efeitos individuais, para o qual devemos usar AP -otimalidade, possivelmente na versão ponderada; 3. Estimação por ponto dos efeitos individuais, para o qual devemos usar Aotimalidade ponderado; 27 4. Verificar a falta de ajuste do modelo simplificado e, se apropriado, inclusão de alguns termos de alta ordem no polinômio. A eficiência com relação ao uso dos recursos experimentais, referida como eficiência em termos de graus de liberdade por Daniel (1976) foi utilizada neste quesito. Desta forma, Gilmour & Trinca (2012) propuseram a função critério composta pelas propriedades a seguir: ′ 1 X Q0 X p−1 1 tr{W(X′ Q0 X)−1 } ( ) n−d ′ 1 X Q0 X p−1 F(1−α1 ;p−1;d) 1 F(1−α2 ;1;d) tr{W(X′ Q0 X)−1 } critério D, critério A, graus de liberdade, critério DP , critério AP . em que Q0 = I − n1 11′ , de forma que o critério considera o intercepto do modelo como parâmetro de perturbação e sem prioridade de estimação. Ao reunir as cinco propriedades listadas, Gilmour & Trinca (2012) obtiveram a função critério composta dada por ′ κ1 +κ4 ( ) X Q0 X p−1 n − d κ3 [ ]κ [ ]κ [ ]κ +κ , F(1−α1 ;p−1;d) 4 F(1−α2 ;1;d) 5 tr{W(X′ Q0 X)−1 } 2 5 (26) em que κ = (κ1 , κ2 , κ3 , κ4 , κ5 ) é vetor de pesos de prioridade de cada propriedade e d é o número de graus de liberdade de erro puro. 2.3.3 Algoritmo de troca Uma maneira possı́vel de construir delineamentos ótimos é através da busca exaustiva, ou seja, após definido o número de fatores e seus nı́veis, o número 28 de observações, o modelo a ser utilizado e o critério de otimalidade com seus pesos, devemos construir todos os possı́veis delineamentos distintos e calcular o valor do critério para cada delineamento. Porém, a quantidade de delineamentos distintos depende do número de tratamentos e do número de observações do experimento. Uma situação hipotética em que temos 5 fatores com 3 nı́veis cada um e um experimento com 24 observações, geraria (35 )24 ≈ 1, 8 × 1057 delineamentos, incluindo-se permutações entre linhas, ou seja, é inviável construir todos estes delineamentos para verificar qual é o melhor (embora delineamentos distintos possam ter propriedades equivalentes). Então, é preciso fazer uso de método inteligente e sistemático para construção de delineamentos ótimos, como o algoritmo de troca, que é o método de busca mais utilizado para construir delineamentos ótimos exatos. A ideia original do algoritmo de troca é de Fedorov (1972). Este algoritmo é um método heurı́stico para buscar delineamentos D-ótimos, ou seja, um procedimento para encontrar uma boa solução, não necessariamente a solução ótima em relação ao critério D. Para iniciar a busca, é construı́do, aleatoriamente ou não, um delineamento inicial X não singular (|X′ X| > 0). A matriz de informação X′ X e o valor do critério são calculados a partir do delineamento inicial. Uma das linhas do delineamento é trocada por uma linha do conjunto de todos os possı́veis pontos candidatos para o delineamento, formando um novo delineamento X1 com as mesmas dimensões de X. Seja f (xi ) o ponto que é retirado da matriz de delineamento e f (x) o ponto adicionado. Neste novo delineamento, a matriz de informação X′1 X1 e o valor do critério são calculados novamente. Faz-se uma comparação entre os valores do critério de ambos os delineamentos, escolhendo o melhor. Assim, começa uma nova iteração até que ∆(xi , x), chamado de função de Fedorov, seja menor que ϵ, um número pequeno e positivo. Esta função é dada por ( )2 ∆(xi , x) = f ′ (x)M−1 f (x) − f ′ (xi )M−1 f (xi ) + f ′ (x)M−1 f (xi ) ( )( ) − f ′ (x)M−1 f (x) f ′ (xi )M−1 f (xi ) . (27) Esse procedimento é repetido para um número pré-determinado de delineamentos iniciais distintos para que a solução encontrada tenha maior chance de ser um ótimo 29 global e não apenas um ótimo local. Muitas versões modificadas do algoritmo de troca original de Fedorov (1972) foram desenvolvidas e as mais conhecidas estão descritas em Miller & Nguyen (1992). Entre elas estão as versões do algoritmo de troca de Mitchell (1974), Cook & Nachtsheim (1980) e Atkinson & Donev (1989). Mitchell (1974) generalizou o algoritmo de troca de Fedorov para permitir “excursões”. Em cada iteração, h pontos podem ser adicionados no delineamento com n pontos e h pontos são removidos dos (n + h) pontos do delineamento. Ele chamou este algoritmo modificado de DETMAX. Quando h = 1, DETMAX se torna o algoritmo de troca original. Quando h é grande, o tempo computacional gasto é maior. O algoritmo de Fedorov modificado por Cook & Nachtsheim (1980) foi chamado de MFEA. Ele calcula a mesma quantidade de ∆’s em cada passo, mas troca cada ponto f (xi ) no delineamento pelo ponto candidato f (x) que maximiza ∆(xi , x). Este procedimento é, geralmente, tão confiável quanto o algoritmo de Fedorov original em encontrar o delineamento ótimo, mas pode ser até duas vezes mais rápido. No KL-EA (KL-exchange algorithm), proposto por Atkinson & Donev (1989), um ponto f (xk ), com k ≤ K ≤ n, do delineamento e um ponto f (xl ), com l ≤ L ≤ N , dos candidatos são trocados se ∆(xk , xl ) for máximo. K corresponde a K pontos do delineamento com menor f ′ (xk )M−1 f (xk ), que é a variância de predição do ponto k. L corresponde a L pontos dos N pontos candidatos com maior f ′ (xl )M−1 f (xl ). Dessa forma, é escolhido retirar os pontos de maior variância de predição e inserir os pontos de menor variância de predição. O processo de troca para quando ∆(xk , xl ) é menor que um número escolhido pequeno e positivo. Quando K = n e L = N , o KL-EA torna-se o algoritmo de troca original de Fedorov. Para a busca de delineamentos utilizando os demais critérios de otimalidade, os algoritmos de troca de Cook & Nachtsheim (1989) e de Meyer & Nachtsheim (1995) foram implementados e utilizados para encontrar delineamentos ótimos neste 30 trabalho. Estes algoritmos são versões modificadas do algoritmo de troca de Fedorov (1972) e são chamados de algoritmo de troca por ponto (point-exchange) e algoritmo de troca por coordenada (Coordinate-Exchange), respectivamente. Seguem os passos do algoritmo de troca por ponto implementado. Passo 1: Definir o modelo, o número k de fatores, o número n de observações do experimento, os nı́veis de cada fator, os vetores de pesos W (critério A ponderado) e κ (critério composto) e o número v de tentativas do algoritmo. Passo 2: Criar a matriz de candidatos com todos os pontos xi possı́veis. Passo 3: Criar um delineamento inicial (não singular) aleatoriamente. Passo 4: Calcular M, |M|, M−1 e o valor do critério composto para o delineamento inicial. Passo 5: Realizar uma troca por ponto (linha), ou seja, fixa-se uma linha da matriz X e troca-a por um ponto do conjunto candidato. Passo 6: Atualizar |M| e M−1 pelas Equações (41), (43) e (44) e calcular o valor do critério para este delineamento. Passo 7: Se o valor do critério deste novo delineamento for maior do que o valor do critério do delineamento anterior, faz a troca efetivamente, senão, volta ao delineamento anterior. Retornar ao Passo 5 enquanto as trocas estiverem produzindo melhores valores no critério do delineamento. Passo 8: O delineamento encontrado é armazenado e uma nova busca é feita (retornar ao Passo 3) para que o valor do critério encontrado não seja um ótimo local. O retorno ao Passo 3 é feito v vezes. Para a versão do algoritmo de troca por coordenada, devemos desconsiderar o Passo 2, pois esta versão não necessita da matriz com os pontos candidatos e as trocas realizadas no Passo 5 são realizadas por coordenadas e não por pontos. 3 METODOLOGIA Este trabalho foi iniciado com o estudo dos novos critérios de otimali- dade formulados por Gilmour & Trinca (2012) e com a análise do algoritmo de troca de Fedorov (1972) e suas versões modificadas ao longo do tempo para a construção de delineamentos ótimos. Posteriormente, duas versões do algoritmo de troca foram implementadas em linguagem C juntamente com um novo critério para dar robustez a perda de observações. 3.1 Robustez a perda de observações Um problema comum na pesquisa estatı́stica experimental é o impacto nos resultados da análise estatı́stica quando ocorre perda de observações durante a experimentação. Se num experimento existir um grupo de observações mais influentes na análise que outros e se, por algum motivo alheio, algumas destas observações forem perdidas, as consequências para a análise dos resultados do experimento podem ser drásticas, chegando até à impossibilidade de ajuste do modelo pré-definido devido a não estimabilidade de alguns parâmetros. Mesmo não havendo perda de observações, a presença de observações influentes no ajuste do modelo é indesejada, já que estimativas comandadas por alguns poucos pontos levantam suspeitas sobre o modelo ajustado. Na literatura não há um critério de otimalidade que dê robustez a um experimento em relação a perda de observações. A nossa proposta é buscar um delineamento ótimo, incluindo no critério de otimalidade uma propriedade para prevenir que o delineamento inclua pontos influentes no ajuste do modelo. Uma medida razo- 32 avelmente simples de influência é dada pelos elementos da diagonal da matriz H, os hii ’s (i = 1, . . . , n), conforme a Equação (12), pois estes elementos medem a influência de cada observação no ajuste do modelo. De acordo com as propriedades da matriz H, o delineamento ideal, segundo este critério, apresentaria todos os elementos iguais a p/n, já que são n elementos na diagonal e a soma deles é p. Assim, explo∑ ramos minimizar ni=1 (hii − p/n)2 , que significa minimizar a variabilidade dos hii ’s, tornando-os próximos de p/n, e assim, minimizando a heterogeneidade da influência de cada observação do experimento. Este critério será chamado de H-otimalidade em referência à matriz H. Combinando as quatro propriedades consideradas por Gilmour & Trinca (2012) e reproduzidas na seção 2.3.2, o critério D pela sua importância e o critério H proposto nesta pesquisa, cada um associado a um peso de prioridade de análise dado pelo vetor κ = (κ1 , κ2 , κ3 , κ4 , κ5 , κ6 )′ , propomos o novo critério composto ′ κ1 +κ4 ( ) X Q0 X p−1 n − d κ3 ] κ26 , [ ]κ4 [ ]κ5 [ ]κ2 +κ5 [ ∑n ′ −1 2 F(1−α1 ;p−1;d) F(1−α2 ;1;d) tr{W(X Q0 X) } i=1 (hii − p/n) + δ (28) em que Q0 = I− n1 11′ , de forma que o critério considera o intercepto do modelo como parâmetro de perturbação e sem prioridade de estimação e δ foi fixado em 10−6 para evitar problemas numéricos no caso de encontrar o delineamento ideal em relação ao critério H. 3.2 Implementação do algoritmo de troca Como foi visto na Equação (28), é necessário calcular o determinante e a inversa da matriz de informação para obter o valor do critério do delineamento que estamos buscando. Sabe-se que a eficiência computacional destes cálculos depende da dimensão da matriz. No caso, a matriz de informação, M = X′ X, tem dimensão p × p. Se o modelo escolhido tiver muitos parâmetros, ou seja, se p for grande, o tempo gasto para realizar o cálculo do determinante e da inversa de M será grande. 33 Então, há a necessidade de uma forma alternativa para realizar estes cálculos para solucionar este problema. Pelas propriedades da matriz M, é possı́vel constatar que ela é simétrica definida positiva e, por isso, é possı́vel calcular |M| e M−1 pelo Método de Cholesky. De acordo com Seber (2007) o Método de Cholesky, também conhecido como Decomposição de Cholesky por decompor uma matriz na multiplicação de outras duas, é aplicável em uma matriz M simétrica definida positiva de dimensão p × p. A decomposição é dada por M = G′ G = G1 G′1 (29) na qual G tem dimensão p × p e é uma matriz triangular superior com elementos da diagonal principal não negativos, assim como G1 . Os passos para a realização da Decomposição de Cholesky são descritos a seguir, sendo gij elementos da matriz G e mij elementos da matriz M, com i, j = 1, . . . , p. Passo 1: Determine g11 = (m11 )1/2 m1j g1j = (j = 2, 3, . . . , p) g11 (30) Passo 2: Para i = 2, 3, ..., p − 1 determine gij = 0 ( gii = (j = 1, 2, . . . , i − 1) )1/2 i−1 ∑ 2 mii − gki mij − gki gkj (j = i + 1, . . . , p) gii Passo 3: Determine ( gpp = (32) k=1 i−1 ∑ k=1 gij = (31) mpp − p−1 ∑ k=1 (33) )1/2 2 gki . (34) 34 Encontrada a matriz G, o cálculo do determinante de M é simples e dado por |M| = g11 · g22 · . . . · gpp (35) Como podemos escrever M = G′ G, a matriz inversa de M é dada por M−1 = G−1 (G′ )−1 = TT′ , (36) onde T é triangular superior. A partir de GT = Ip , temos que T é dada por tii = gii−1 (i = 1, . . . , p) tij = 0 (i > j) j ∑ gik tkj tij = k=i+1 gii (37) (38) (j = i + 1, . . . , p) (39) Encontrada a matriz T, basta utilizar a Equação (36) para calcular a inversa da matriz de informação. O algoritmo de troca percorre a matriz X várias vezes trocando os elementos dela por outros elementos e verifica se o valor do critério dado pela Equação 28 melhorou. A cada troca que o algoritmo efetua na matriz X é necessário recalcular |M| e M−1 para obter o valor do critério e decidir se o novo delineamento com a troca efetuada é melhor do que o delineamento anterior. O número de trocas depende do número N de tratamentos possı́veis e também do número n de observações do experimento. Assim, caso o pesquisador tenha um experimento grande e com muitos tratamentos, o desempenho computacional do algoritmo de troca não é bom, pois haveria demora para recalcular muitas vezes o determinante e a inversa da matriz de informação, já que seria necessário fazer pelo menos N n trocas. Para solucionar este problema, é possı́vel fazer uma atualização do determinante e da inversa de M após cada troca, sendo necessário o uso do Método de Cholesky apenas para calcular o determinante e a inversa da matriz de informação do delineamento gerado aleatoriamente no inı́cio do algoritmo. 35 3.2.1 Atualização do determinante e da matriz inversa Alguns resultados de álgebra das matrizes que podem ser encontrados em Searle (1982) são utilizados para realizar a atualização do determinante e da inversa da matriz M. Podemos dizer que a matriz X é formada por n vetores f ′ (xi ), i = 1, . . . , n. Estes n vetores constituem um conjunto de n pontos de Rp . São n pontos que formam a matriz X, porém são N pontos candidatos existentes. Assim, o vetor f ′ (x) pertencente ao conjunto de pontos candidatos é inserido na matriz X e o vetor f ′ (xi ) é retirado, efetuando a troca de pontos no delineamento. Como é necessário incluir o vetor f ′ (x) na matriz X, nós temos |M + f (x)f ′ (x)| = |M|(1 + f ′ (x)M−1 f (x)) (40) (M + f (x)f ′ (x))−1 = M−1 + wuu′ (41) e em que w = −1/(1 + f ′ (x)M−1 f (x)) e u = M−1 f (x). Seja Mx = M + f (x)f ′ (x). Se f ′ (xi ) é um vetor a ser removido da matriz X, nós temos |Mx − f (xi )f ′ (xi )| = |Mx |(1 − f ′ (xi )M−1 x f (xi )) (42) ′ (Mx − f (xi )f ′ (xi ))−1 = M−1 x − wi ui ui (43) e −1 na qual wi = −1/(1 − f ′ (xi )M−1 x f (xi )) e ui = Mx f (xi ). De (40) e (42) temos |M + f (x)f ′ (x) − f (xi )f ′ (xi )| = |M|(1 + f ′ (x)M−1 f (x))(1 − f ′ (xi )M−1 x f (xi )) = |M|{1 + ∆(xi , x)}, em que ∆(xi , x) é a função de Fedorov já definida na Equação (27). (44) 36 3.2.2 Algoritmo de troca por ponto e troca por coordenada Duas versões modificadas do algoritmo de troca de Fedorov (1972) foram implementadas em linguagem C na plataforma Windows. Estas versões modificadas são chamadas de troca por ponto (point-exchange), vide em Cook & Nachtsheim (1989) e troca por coordenada (Coordinate-Exchange), vide em Meyer & Nachtsheim (1995) e foram descritas na Seção 2.3.3. O algoritmo CoordinateExchange é dito ser mais eficiente em termos de tempo de execução, pois as trocas são feitas por coordenadas e não por pontos, dispensando a lista de candidatos, que pode ser muito grande dependendo do número de tratamentos do experimento. As trocas de coordenadas podem ocorrer por linhas ou por colunas, porém, neste trabalho elas ocorrem por colunas. 4 RESULTADOS E DISCUSSÃO Para investigar o potencial do novo critério de otimalidade, apresen- tamos quatro exemplos, sendo que para um deles Gilmour & Trinca (2012) já produziram alguns delineamentos, considerando vários critérios unidimensionais e compostos. Para encontrar os delineamentos são especificados o modelo polinomial de interesse, o número de fatores e seus nı́veis e o número de observações do experimento. Foram explorados critérios compostos incluindo o critério H para que fosse possı́vel avaliar a robustez dos delineamentos encontrados em relação à perda de observações proporcionado por este novo critério. Como visto na Equação 28, é necessário definir o vetor κ = (κ1 , κ2 , κ3 , κ4 , κ5 , κ6 )′ , em que cada elemento corresponde ao peso de importância de uma das propriedade que formam o critério composto. Embora os pesos sejam escolhidos de forma a refletir a importância relativa de suas respectivas propriedades, buscando delineamentos apropriados para objetivos especı́ficos, essa escolha é subjetiva e imprecisa, forçando o pesquisador testar configurações diferentes dos pesos e avaliar os delineamentos resultantes para decidir qual utilizar. Outra questão a ser considerada é a sensibilidade dos pesos. O algoritmo pode, com uma pequena mudança nos pesos, encontrar o mesmo delineamento ou delineamentos com a mesma eficiência. Há intervalos de valores para os pesos que fazem o algoritmo buscar delineamentos com mesma eficiência, ou seja, é possı́vel estabelecer intervalos de valores para os pesos que impactam da mesma forma a busca do delineamento. O gráfico apresentado na Figura 4 ilustra a sensibilidade da eficiência de delineamentos encontrados com a variação dos pesos utilizando critérios compostos (DP e H), 16 observações, três fatores cada um com três nı́veis e supondo um modelo com os seguintes parâmetros: intercepto, três efeitos lineares, três efeitos 38 quadráticos e três interações de segunda ordem (n = 16; k = 3; p = 10). Conforme o peso da propriedade DP aumenta, o peso da propriedade H diminui de tal forma que a soma seja sempre 1. Figura 4 - Comportamento da eficiência de delineamentos ótimos com a variação no peso da propriedade DP . Cada patamar no gráfico indica o intervalo de valores para os pesos que produzem delineamentos com as mesmas propriedades em termos de DP e H. Desta forma, observamos que o critério composto apresenta estabilidade em relação às alterações nos pesos. A versão do algoritmo de troca utilizada para encontrar os delineamentos em cada exemplo foi a de Meyer & Nachtsheim (1995), o Coordinate-Exchange 39 (Troca de Coordenada). Para efeito de comparação do tempo de busca do algoritmo de troca entre duas plataformas computacionais (R e linguagem C), fizemos uma simulação utilizando o critério DP com v = 100 (número de tentativas descrita no Passo 1 da Seção 3.2.2) considerando o planejamento para um experimento com n = 36, k = 4 e p = 15. Na implementação do algoritmo de troca no software R, o tempo utilizado foi de 149, 43 segundos (aproximadamente 2, 5 minutos), enquanto a execução da implementação do algoritmo em C levou 13, 15 segundos, ou seja, o tempo de execução da implementação do algoritmo em C foi superior a 11 vezes o tempo gasto pela execução da implementação em R. Nas subseções 4.1 a 4.4 apresentamos os quatro exemplos em detalhes. Para estabelecer diferenças e comparar os delineamentos em cada caso, as tabelas apresentam o valor de hii de cada observação, os graus de liberdade para erro puro (EP) e para falta de ajuste (FA) e eficiência (em porcentagem) do delineamento em relação a cada propriedade, que é a razão entre o valor do critério do delineamento encontrado e o valor do critério do delineamento ótimo, ou seja, o melhor delineamento encontrado sob o critério simples. 4.1 Exemplo 1 (n = 16; k = 3; p = 10) Consideramos neste exemplo o planejamento para um experimento com 16 observações, três fatores cada um com três nı́veis e supondo o modelo com os seguintes parâmetros: intercepto, três efeitos lineares, três efeitos quadráticos e três interações de segunda ordem (n = 16; k = 3; p = 10). Na Tabela 3, os delineamentos I e II são apresentados por Gilmour & Trinca (2012) e foram encontrados utilizando os critérios D e DP , respectivamente. A representação geométrica dos delineamentos encontrados neste exemplo pode ser visto a seguir na Figura 5. Como usual, os delineamentos ótimos não apresentam simetria na distribuição dos pontos na região experimental. Podemos verificar facilmente que o delineamento II não é robusto à perda de observações, pois se qualquer um dos pontos de ordem 7, 10, 11 ou 16 for perdido, a matriz de informação ficará singular, ou seja, o experimento torna- 40 se inutilizável para o modelo. Os tratamentos deste delineamento tem apenas dois valores distintos de hii (0, 500 e 1, 00), sendo que os pontos citados tem valor de hii p 10 igual a 1. O valor ideal seria = = 0, 625. Para o delineamento I, há maior n 16 diversidade para o valor de hii dos pontos, porém são menos dispersos em relação ao valor 0, 625. Utilizamos o critério H para encontrar o delineamento III apresentado na Tabela 3. Analisando este resultado, podemos observar quatro valores distintos para os hii : 0, 571; 0, 614; 0, 625 e 0, 644. A variabilidade destes valores é pequena se comparado com os valores dos hii no delineamento II, mas este delineamento não contém repetição de nenhum tratamento, não permitindo estimar erro puro (o número de graus de liberdade para erro puro é zero). Notamos também as baixas eficiências em relação as outras propriedades. O delineamento IV apresentado na Tabela 3 foi encontrado utilizando a composição dos critérios DP e H, cada um com peso 0, 5, ou seja, κ = (0; 0; 0; 0, 5; 0; 0, 5). O fato de compor o critério DP com o critério H para a busca de um delineamento ótimo tornou o delineamento um pouco mais robusto à perda de observações, pois neste delineamento, com a perda de um ponto, qualquer que seja ele, ainda será possı́vel utilizar o experimento para estimar os parâmetros do modelo, apesar da eficiência do critério H ainda ser considerada baixa (17, 77%). Este delineamento permite 4 graus de liberdade para erro puro e 2 graus de liberdade para falta de ajuste. O delineamento IV é composto de duas repetições do ponto central do cubo, dois pontos do vértice do cubo com duas repetições cada, um ponto de aresta com duas repetições e não contém pontos da face do cubo. Os tratamentos deste delineamento tem quatro valores distintos de hii : 0, 482; 0, 500; 0, 729 e 0, 789. O delineamento V neste exemplo foi encontrado pela composição dos critérios DP , AP e H com o vetor de pesos κ = (0; 0; 0; 0, 4; 0, 4; 0, 2). Ele permite 5 graus de liberdade para erro puro e 1 grau de liberdade para falta de ajuste. Este delineamento tem três pontos com duas repetições cada na face do cubo, dois pontos com duas repetições cada no vértice do cubo e, assim como o delineamento II, não gl (EP; FA) DS -ef AS -ef (DP )S -ef (AP )S -ef H-ef (0; 6) 100,00 100,00 0,00 0,00 18,20 −1 1 0 −1 1 0 −1 1 −1 0 1 −1 1 −1 0 1 −1 −1 −1 −1 −1 0 0 0 1 1 1 1 1 1 1 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 −1 −1 0 1 1 −1 0 1 −1 −1 −1 0 0 1 1 1 X1 X2 X3 0, 843 0, 836 0, 651 0, 836 0, 710 0, 579 0, 579 0, 563 0, 631 0, 462 0, 622 0, 462 0, 535 0, 622 0, 535 0, 534 hii −1 −1 −1 −1 −1 −1 −1 0 0 0 0 1 1 1 1 1 1 1 0 0 −1 −1 1 −1 −1 1 0 1 1 −1 −1 1 (6; 0) 83,09 66,52 100,00 85,10 11,14 −1 −1 0 0 1 1 1 −1 −1 0 1 −1 −1 0 0 1 X1 X2 X3 II I i (DP )S DS ; AS 0, 500 0, 500 0, 500 0, 500 0, 500 0, 500 1, 000 0, 500 0, 500 1, 000 1, 000 0, 500 0, 500 0, 500 0, 500 1, 000 hii −1 −1 −1 −1 −1 0 0 0 0 0 0 0 1 1 1 1 −1 1 −1 0 1 −1 1 −1 1 −1 0 1 −1 1 −1 1 (0; 6) 60,99 23,22 0,00 0,00 100,00 −1 −1 0 0 0 −1 −1 0 0 1 1 1 0 0 1 1 X1 X2 X3 III H 0, 644 0, 644 0, 614 0, 625 0, 614 0, 644 0, 644 0, 571 0, 571 0, 614 0, 625 0, 614 0, 644 0, 644 0, 644 0, 644 hii 0 0 IV 0 0, 5 −1 −1 −1 −1 −1 −1 0 0 0 0 1 1 1 1 1 1 0 1 −1 −1 0 1 −1 0 0 −1 −1 1 1 −1 1 1 (4; 2) 92,58 82,16 76,14 81,64 17,77 −1 −1 0 0 1 1 −1 0 0 1 −1 −1 −1 1 1 1 0, 5 0, 729 0, 789 0, 500 0, 500 0, 729 0, 789 0, 729 0, 500 0, 500 0, 729 0, 789 0, 482 0, 482 0, 789 0, 482 0, 482 hii 0 0 0 V 0 −1 −1 −1 −1 −1 −1 −1 0 0 0 0 1 1 1 1 1 −1 −1 1 0 0 −1 1 1 1 0 0 −1 1 −1 1 1 (5; 1) 93,03 86,27 96,17 100,00 13,38 −1 −1 −1 0 0 1 1 0 0 1 1 −1 −1 1 1 1 0, 463 0, 463 0, 858 0, 500 0, 500 0, 858 0, 858 0, 500 0, 500 0, 500 0, 500 0, 858 0, 858 0, 858 0, 463 0, 463 hii 0, 4 0, 4 0, 2 D A GL DP AP H X1 X2 X3 κ= Critério Composto D A GL DP AP H X1 X2 X3 κ= Tabela 3: Delineamentos com modelo com efeitos principais, quadráticos e interações 2 a 2 (n = 16; k = 3; p = 10) 41 42 Figura 5 - Representação geométrica dos 5 delineamentos construı́dos no Exemplo 1. tem ponto central. Da mesma forma que o delineamento IV, este delineamento é robusto a perda de observações, pois com a perda de um ponto, qualquer que seja ele, a matriz de informação referente ao delineamento não é singular, permitindo estimar os parâmetros do modelo. Os tratamentos deste delineamento tem três valores distintos de hii : 0, 463; 0, 500 e 0, 858. Com o propósito de comparar os delineamentos ótimos encontrados neste exemplo e os delineamentos Central Composto e Box-Behnken para a região cuboidal, calculamos e apresentamos na Tabela 4 a eficiência destes dois delineamentos em relação às propriedades que estamos utilizando. Em suma, estes delineamentos 43 Tabela 4: Eficiência do DCC e DBB comparado com um delineamento ótimo DCC DBB Delineamento IV (1; 5) (3; 3) (4; 2) DS -ef 93,15 74,94 92,58 AS -ef 90,75 66,34 82,16 (DP )S -ef 1,90 42,08 76,14 (AP )S -ef 4,31 50,18 81,64 H-ef 12,38 11,14 17,77 gl (EP; FA) clássicos tem eficiência baixa para os critérios DP , AP e H. Notamos que o DCC é eficiente em termos dos critérios DS e AS , porém, com eficiência similar obtemos o delineamento IV, que apresenta mais graus de liberdade para erro puro. 4.2 Exemplo 2 (n = 24; k = 4; p = 11) Consideramos neste segundo exemplo o planejamento para um experimento com 24 observações, 4 fatores cada um com dois nı́veis e supondo o modelo com os seguintes parâmetros: intercepto, quatro efeitos lineares e seis interações de segunda ordem (n = 24; k = 4; p = 11). Na Tabela 5, o delineamento I é D-ótimo, A-ótimo e AP -ótimo. Este delineamento permite 8 graus de liberdade para erro puro e 5 para falta de ajuste e a eficiência do critério H é de apenas 11, 11%. Neste delineamento existem apenas dois valores distintos de hii : 0, 396 e 0, 583, sendo que p 11 ≃ 0, 4583. o valor ideal seria = n 24 O critério DP foi utilizado para a construção do delineamento II. Este delineamento permite 11 graus de liberdade para erro puro e 2 para falta de ajuste. A menor eficiência é de 63, 81% referente ao critério H. Os quatro valores distintos de hii são: 0, 393; 0, 443; 0, 473 e 0, 557. Para a construção do delineamento III, o critério H foi utilizado. Pode ser observado neste delineamento que há duas repetições para cada ponto, permitindo 44 12 graus de liberdade para erro puro e apenas 1 para falta de ajuste. Existem apenas dois valores distintos de hii : 0, 4375 e 0, 5000. O delineamento IV foi encontrado a partir de um critério composto pela eficiência em termos de graus de liberdade e DP -otimalidade com os pesos 0, 2 e 0, 8, respectivamente. Este delineamento não é ótimo para nenhum critério unidimensional, porém tem uma eficiência alta para todos, exceto para o critério H e ele permite 10 graus de liberdade para erro puro e 3 para falta de ajuste. Dos 5 delineamentos deste exemplo, este é o que tem mais tratamentos com valores distintos de hii : 0, 388; 0, 435; 0, 441; 0, 458; 0, 554; 0, 592 e 0, 634. O delineamento V foi encontrado a partir de um critério composto por DP -otimalidade, AP -otimalidade e H-otimalidade com o peso 1/3 para cada um deles. Este delineamento tem eficiência alta para todos os critérios separadamente e para o critério H ele é ótimo. Assim como o delineamento III, existem apenas dois valores distintos de hii no delineamento V: 0, 4375 e 0, 5000. Os dois delineamentos que envolveram o critério H (III e V) são equivalentes em termos de uniformidade dos leverages, porém, através do uso do critério composto, obtivemos um delineamento muito mais eficiente em termos das demais propriedades, indicando que o critério H sozinho não discrimina bem possı́veis delineamentos diferentes. 4.3 Exemplo 3 (n = 24; k = 4; p = 15) Para este exemplo, consideramos o planejamento para um experimento com 24 observações, 4 fatores cada um com três nı́veis e supondo o modelo com os seguintes parâmetros: intercepto, quatro efeitos lineares, quatro efeitos quadráticos e seis interações de segunda ordem (n = 24; k = 4; p = 15). Os delineamentos de I até V são apresentados na Tabela 6 e os delineamento VI, VII e VIII são apresentados na Tabela 7, sendo que na primeira estão os delineamentos que foram construı́dos com critérios unidimensionais e na segunda tabela com critérios compostos. A média p 15 dos hii para este exemplo é = = 0, 625. Conforme esperado, a eficiência em n 24 gl (EP; FA) DS -ef AS -ef (DP )S -ef (AP )S -ef H-ef 0, 583 0, 583 1 −1 −1 1 −1 1 −1 −1 −1 1 1 1 −1 −1 −1 −1 −1 −1 −1 −1 1 1 1 1 1 1 −1 −1 −1 −1 −1 −1 1 1 1 1 1 1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 1 1 1 1 1 1 1 1 1 1 1 1 hii 1 1 −1 −1 1 1 −1 1 −1 −1 1 1 −1 1 1 −1 1 −1 (8; 5) 100,00 100,00 93,90 100,00 11,11 1 1 1 1 1 −1 −1 −1 1 1 1 −1 −1 1 1 0, 396 1 1 1 1 1 1 1 1 1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 X1 0, 396 0, 396 0, 396 0, 583 0, 396 0, 396 0, 396 0, 396 0, 583 0, 583 0, 396 0, 396 0, 396 0, 396 0, 583 0, 396 0, 396 0, 583 0, 583 0, 396 0, 396 −1 −1 −1 −1 −1 X2 X1 X4 1 1 1 1 1 1 −1 −1 −1 −1 −1 1 1 1 1 1 1 1 −1 −1 −1 −1 −1 −1 X2 1 1 −1 −1 1 1 1 1 1 −1 −1 1 −1 −1 1 1 −1 −1 1 1 −1 −1 1 1 X4 (11; 2) 90,79 79,49 100,00 87,25 63,81 1 1 1 1 −1 −1 1 1 −1 −1 −1 1 1 1 −1 −1 −1 −1 1 1 1 1 −1 −1 X3 II I X3 (DP )S DS ; AS ; (AP )S hii 0, 443 0, 443 0, 473 0, 473 0, 443 0, 443 0, 443 0, 443 0, 557 0, 473 0, 473 0, 557 0, 393 0, 393 0, 443 0, 443 0, 473 0, 473 0, 443 0, 443 0, 473 0, 473 0, 443 0, 443 1 1 1 1 1 1 1 1 1 1 1 1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 X1 1 1 1 1 1 1 −1 −1 −1 −1 −1 −1 1 1 1 1 1 1 −1 −1 −1 −1 −1 −1 X2 1 1 −1 −1 1 1 1 1 −1 −1 1 1 1 1 −1 −1 1 1 1 1 −1 −1 −1 −1 X4 (12; 1) 76,18 36,75 86,96 41,17 100,00 1 1 1 1 −1 −1 1 1 1 1 −1 −1 1 1 1 1 −1 −1 1 1 1 1 −1 −1 X3 III H hii 0, 4375 0, 4375 0, 4375 0, 4375 0, 5000 0, 5000 0, 4375 0, 4375 0, 4375 0, 4375 0, 5000 0, 5000 0, 4375 0, 4375 0, 4375 0, 4375 0, 5000 0, 5000 0, 4375 0, 4375 0, 4375 0, 4375 0, 5000 0, 5000 1 1 1 1 1 1 1 1 1 1 1 1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 X1 κ= 1 1 1 1 1 −1 −1 −1 −1 −1 −1 −1 1 1 1 1 1 1 −1 −1 −1 −1 −1 −1 X2 0 0, 435 0, 435 −1 −1 0, 458 0, 592 0, 441 0, 441 0, 435 0, 435 0, 554 0, 388 0, 388 0, 435 0, 435 0, 441 0, 441 0, 592 0, 634 0, 435 0, 435 0, 388 0, 388 0, 458 0, 458 hii 0 0, 458 0 1 1 −1 1 1 −1 −1 1 −1 −1 1 1 −1 −1 1 −1 1 1 1 1 −1 −1 X4 (10; 3) 93,66 73,50 98,84 91,37 20,62 1 1 −1 −1 −1 1 1 1 1 −1 −1 −1 1 1 1 1 −1 −1 1 1 −1 −1 −1 −1 X3 IV 0 0, 2 0, 8 D A GL DP AP H 1 1 1 1 1 1 1 1 1 1 1 1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 X1 κ= 1 1 1 1 1 1 −1 −1 −1 −1 −1 −1 1 1 1 1 1 1 −1 −1 −1 −1 −1 −1 X2 0 1 1 −1 −1 −1 −1 1 1 1 1 −1 −1 1 1 1 1 −1 −1 1 1 −1 −1 −1 −1 X3 V 0 1 1 1 1 −1 −1 1 1 −1 −1 −1 −1 1 1 −1 −1 −1 −1 1 1 1 1 −1 −1 X4 0, 4375 0, 4375 0, 5000 0, 5000 0, 4375 0, 4375 0, 4375 0, 4375 0, 5000 0, 5000 0, 4375 0, 4375 0, 4375 0, 4375 0, 5000 0, 5000 0, 4375 0, 4375 0, 4375 0, 4375 0, 5000 0, 5000 0, 4375 0, 4375 hii 1/3 1/3 1/3 (12; 1) 87,51 85,30 99,89 82,34 100,00 0 D A GL DP AP H Critério Composto Tabela 5: Delineamentos com modelo com efeitos lineares e interações 2 a 2 (n = 24; k = 4; p = 11) 45 46 relação ao critério H é alta nos delineamentos que tem os valores de hii próximos de 0, 625. O delineamento I foi construı́do utilizando o critério D em sua busca. Ele não permite grau de liberdade para erro puro (não tem repetição de nenhum tratamento) e permite 9 graus para falta de ajuste, então, a eficiência em termos dos critério DP e AP é zero. A eficiência em relação ao critério H é 31, 69%. Assim como este delineamento, o delineamento II, que foi construı́do a partir do critério A, também não possui repetições de tratamentos. A eficiência em termos do critério H também é baixa, com 25, 45%. O critério DP foi utilizado na busca do delineamento III. Este delineamento permite 9 graus de liberdade para erro puro e 0 para falta de ajuste. A eficiência em relação ao critério H é baixa, apenas 10, 17%, pois os valores de hii são bastante dispersos do valor ideal para hii , que é 0, 625. Os valores da eficiência deste delineamento são parecidos com os valores da eficiência do delineamento IV, que foi construı́do a partir do critério AP . Os graus de liberdade para erro puro e falta de ajuste permitidos pelo delineamento IV são, respectivamente, 7 e 2. Os valores de hii também são muito dispersos em relação a 0, 625, resultando em baixa eficiência em termos do critério H, somente 13, 46%. O delineamento V, construı́do com o critério H não tem tratamentos repetidos, não permitindo grau de liberdade para erro puro, permite 9 graus de liberdade para falta de ajuste e tem eficiência de 0, 00% para os critério DP e AP . Como este delineamento é H-ótimo, os valores dos hii são muito próximos de 0, 625. Obtemos o delineamento VI através dos critérios DP e H compostos com peso 0, 5 para cada um. Este delineamento permite 5 graus de liberdade para erro puro e 4 graus de liberdade para falta de ajuste e, mesmo considerando o critério H no critério composto, a eficiência em termos dele é baixa, com apenas 19, 22%. Os critérios D e H foram utilizados para construir o delineamento VII com os pesos 0, 2 e 0, 8, respectivamente. É possı́vel observar a eficiência do delineamento encontrado para o critério D de 71, 39% e para o critério H de 79, 39%, gl (EP; FA) DS -ef AS -ef (DP )S -ef (AP )S -ef H-ef 1 0 1 −1 −1 1 1 −1 −1 −1 0 0 1 1 1 1 1 −1 0 1 1 −1 −1 −1 −1 0 1 1 1 1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 0 0 0 0 1 1 1 1 1 1 1 1 1 hii (0; 9) 100,00 98,44 0,00 0,00 31,69 1 1 0, 572 −1 1 0, 572 1 −1 0, 674 0, 667 −1 −1 0, 685 0 0, 626 0, 711 0, 711 0 1 −1 1 0, 724 0, 541 −1 −1 0, 541 1 −1 0, 622 0, 685 0, 720 0, 720 0, 575 0, 575 0, 512 0, 541 0, 541 0, 674 0, 572 0, 572 0, 667 1 0 0 1 −1 0 −1 −1 1 1 −1 1 −1 X4 1 0 0 −1 −1 1 −1 1 1 −1 −1 −1 X3 X2 −1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 −1 −1 −1 −1 −1 −1 −1 −1 −1 X1 X2 1 1 1 1 0 −1 −1 −1 −1 1 1 0 1 −1 −1 1 1 1 0 0 −1 −1 −1 −1 1 −1 1 −1 0 1 −1 1 −1 −1 (0; 9) 99,59 100,00 0,00 0,00 25,45 1 1 −1 −1 0 1 1 −1 −1 1 1 1 −1 0 0 1 −1 0 −1 1 1 −1 −1 1 1 0 X4 −1 1 −1 1 0 −1 1 −1 1 0 −1 −1 X3 II I X1 A D interações 2 a 2 (n = 24; k = 4; p = 15) hii 0, 728 0, 568 0, 585 0, 728 0, 768 0, 611 0, 668 0, 694 0, 611 0, 517 0, 562 0, 552 0, 562 0, 518 0, 518 0, 676 0, 676 0, 695 0, 686 0, 686 0, 797 0, 558 0, 478 0, 558 1 1 1 1 1 1 1 1 1 0 0 0 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 X1 1 1 1 0 0 −1 −1 −1 −1 1 −1 −1 1 1 1 1 0 0 0 0 −1 −1 −1 −1 X2 1 1 −1 (9; 0) 83,90 65,90 100,00 88,07 10,17 1 1 −1 −1 1 −1 1 1 1 −1 −1 1 0 0 −1 1 0 0 1 1 −1 −1 −1 −1 1 1 X4 1 1 −1 −1 −1 0 0 1 0 −1 −1 1 1 −1 −1 1 1 −1 −1 X3 III DP hii 0, 5 0, 5 1, 0 1, 0 1, 0 0, 5 0, 5 1, 0 0, 5 0, 5 0, 5 0, 5 1, 0 1, 0 0, 5 0, 5 0, 5 0, 5 0, 5 0, 5 0, 5 0, 5 0, 5 0, 5 1 1 1 1 1 1 1 1 1 0 0 0 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 X1 1 1 0 0 0 0 −1 −1 −1 0 −1 −1 1 1 1 1 0 0 0 −1 −1 −1 −1 −1 X2 hii 0, 984 0, 988 −1 0, 487 0, 487 0, 488 0, 488 0, 900 0, 496 0, 496 0, 771 0, 724 0, 731 0, 488 0, 488 0, 750 0, 875 0, 484 0, 484 0, 809 0, 444 0, 444 0, 750 0, 472 0, 472 1 1 1 −1 −1 −1 1 1 0 1 −1 1 1 0 −1 −1 −1 1 0 0 1 −1 −1 X4 (7; 2) 89,71 81,75 91,67 100,00 13,46 1 −1 1 1 −1 −1 1 −1 −1 −1 1 0 1 1 0 −1 1 1 −1 1 1 0 −1 −1 X3 IV AP 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 −1 −1 −1 −1 X1 1 1 1 1 0 0 0 −1 −1 −1 −1 −1 1 1 1 0 1 1 −1 −1 0 0 −1 −1 X2 −1 1 −1 0 1 0 1 1 −1 1 −1 0 0 −1 0 1 1 −1 −1 −1 0 −1 −1 −1 X4 (0; 9) 60,99 23,22 0,00 0,00 100,00 1 0 0 −1 1 1 −1 1 1 0 0 −1 1 1 0 −1 −1 −1 1 −1 −1 −1 0 −1 X3 V H 0, 652 0, 623 0, 600 0, 699 0, 597 0, 620 0, 605 0, 674 0, 600 0, 623 0, 638 0, 618 0, 629 0, 594 0, 605 0, 636 0, 644 0, 619 0, 622 0, 619 0, 633 0, 616 0, 661 0, 603 hii Tabela 6: Delineamentos utilizando critérios unidimensionais na busca com modelo com efeitos principais, quadráticos e 47 gl (EP; FA) DS -ef AS -ef (DP )S -ef (AP )S -ef H-ef 2 a 2 (n = 24; k = 4; p = 15) −1 −1 1 −1 1 −1 −1 −1 1 1 −1 −1 0 0 0 1 1 1 1 −1 −1 1 −1 −1 −1 −1 0 0 1 1 1 1 1 −1 −1 −1 −1 −1 −1 −1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 −1 (5; 4) 89,35 75,97 69,20 78,07 19,22 1 1 1 1 0, 728 1 −1 0 0, 748 0 −1 0, 491 0, 491 0, 699 0, 766 −1 1 0, 494 0, 494 0, 496 0, 496 0, 740 0, 766 0, 712 0, 496 0, 496 0, 651 0, 681 0, 486 0, 486 0, 733 0, 729 0, 684 0, 699 hii 0, 5 0, 738 1 1 −1 −1 1 −1 −1 1 1 1 1 −1 −1 0 1 0 1 0 −1 1 1 −1 0 −1 0 −1 X4 −1 −1 X3 0, 5 −1 VI 0 X2 0 −1 0 D A GL DP AP H X1 κ= 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 −1 −1 −1 −1 −1 −1 −1 −1 −1 X1 κ= 1 1 1 0 0 0 0 −1 −1 −1 1 1 1 −1 −1 1 1 0 0 0 −1 −1 −1 −1 X2 0, 2 0 1 1 0 0 −1 (0; 9) 71,39 46,41 0,00 0,00 79,39 1 0 −1 1 1 1 −1 −1 −1 0 −1 −1 1 −1 0 0 1 −1 −1 −1 1 −1 1 1 0 −1 X4 0 1 0 −1 1 1 −1 1 −1 1 0 1 0 −1 0 −1 −1 −1 X3 VII 0 0 0, 579 0, 576 0, 636 0, 648 0, 652 0, 645 0, 615 0, 676 0, 604 0, 604 0, 644 0, 596 0, 636 0, 601 0, 626 0, 615 0, 620 0, 647 0, 633 0, 604 0, 661 0, 638 0, 667 0, 577 hii 0, 8 D A GL DP AP H 1 1 1 1 1 1 1 1 1 1 0 0 0 0 −1 −1 −1 −1 −1 −1 −1 −1 −1 −1 X1 κ= 1 1 1 1 1 0 −1 −1 −1 −1 1 0 −1 −1 1 1 1 0 1 1 −1 −1 −1 −1 X2 0 0, 683 0, 643 1 0, 665 −1 0, 490 0, 490 0, 633 0, 725 0, 719 0, 496 0, 496 0, 694 0, 735 0, 747 0, 738 0, 653 0, 670 0, 664 0, 662 0, 480 0, 480 0, 490 0, 490 0, 762 0, 695 hii 0, 4 0, 4 −1 1 1 1 0 1 −1 −1 1 0 −1 1 0 −1 1 1 −1 −1 1 1 −1 0 X4 0 (4; 5) 94,33 88,14 57,66 77,64 21,71 1 1 0 −1 −1 1 1 0 −1 −1 0 −1 1 −1 1 1 −1 −1 −1 −1 1 1 0 −1 X3 VIII 0 0, 2 D A GL DP AP H Tabela 7: Delineamentos utilizando critérios compostos na busca com modelo com efeitos principais, quadráticos e interações 48 49 porém os critérios DP e AP tem 0, 00% de eficiência pelo fato do delineamento não ter repetições de tratamentos, não permitindo graus de liberdade para erro puro. Compondo os critérios de eficiência em termos de graus de liberdade, AP e H com pesos 0, 2; 0, 4 e 0, 4, respectivamente, obtemos o delineamento VIII na tentativa de obter mais graus de liberdade para erro puro e alta eficiência para o critério H, porém existe uma dificuldade em encontrar delineamentos com destaque para o critério H e, ao mesmo tempo, graus de liberdade para erro puro neste caso. 4.4 Exemplo 4 (n = 36; k = 4; p = 15) Assim como em Ahmad & Gilmour (2010), utilizamos neste exemplo o planejamento para um experimento com 36 observações, 4 fatores cada um com três nı́veis e supondo o modelo quadrático completo (n = 36; k = 4; p = 15). Nove delineamentos construı́dos por subconjuntos (seção 2.1.2) apresentados na Tabela 5 em Ahmad & Gilmour (2010) foram considerados neste exemplo para análise da eficiência dos critérios de otimalidade. A Tabela 8 contém estes delineamentos juntamente com suas respectivas eficiências dos critérios de otimalidade D, A, DP , AP e H e também seus respectivos graus de liberdade para erro puro e para falta de ajuste. p 15 = = 0, 417. Obviamente, a n 36 eficiência do critério H é alta para os delineamentos que tem hii próximo de 0, 417. O valor ideal de hii nesta situação é O delineamento S4 + 2S1 + 4S0 tem eficiência alta para os critérios D, A, DP e AP , porém a eficiência do critério H é de apenas 6, 27%, indicando alta variação dos valores de hii em torno do valor 0, 417 neste delineamento. Mantendo os pontos do subconjunto S4 , retirando as repetições dos pontos do subconjunto S1 e acrescentando mais 8 repetições do ponto central, temos o delineamento S4 +S1 +12S0 , apresentado na Tabela 8, que tem, para os cinco critérios avaliados, menor eficiência se comparado ao primeiro delineamento. Ambos delineamentos permitem 11 graus de liberdade para erro puro e 10 para falta de ajuste. O delineamento S2 + S1 + 4S0 tem repetições apenas do ponto central, 50 Tabela 8: Eficiência dos delineamentos apresentados em Ahmad & Gilmour (2010) Delineamento gl (EP; FA) DS -ef AS -ef (DP )S -ef (AP )S -ef H-ef S4 + 2S1 + 4S0 (11; 10) 80,27 75,03 70,99 75,46 6,27 S4 + S1 + 12S0 (11; 10) 68,31 59,15 60,41 59,50 4,91 S2 + S1 + 4S0 (3; 18) 43,08 30,21 11,97 14,53 7,86 S3 + 4S0 (3; 18) 90,82 87,01 25,24 41,86 21,84 S4 + 21 S3 + 4S0 (3; 18) 98,57 92,92 27,39 44,70 14,13 S4 + 21 S4III + S1 + 4S0 (11; 10) 86,52 70,97 76,51 71,39 10,27 S4 + 12 S4IV + S1 + 4S0 (11; 10) 85,74 70,37 75,82 70,78 9,15 1 III S 2 4 + S2 + 4S0 (3; 18) 73,21 60,37 20,35 29,04 8,26 1 IV S 2 4 + S2 + 4S0 (3; 18) 67,49 48,14 18,76 23,16 11,23 permitindo 3 graus de liberdade para erro puro e 18 para falta de ajuste. A eficiência para os critérios D, A, DP e AP são baixas se comparado com os delineamentos S4 + 2S1 + 4S0 e S4 + S1 + 12S0 , porém, apesar de ainda ser baixa, a eficiência para o critério H é maior (7, 86%). Com os mesmos graus de liberdade para erro puro e falta de ajuste, os delineamentos S3 + 4S0 e S4 + 12 S3 + 4S0 tem eficiência alta para os critérios D e A, porém, para os critérios DP e AP a eficiência é baixa, o que também ocorre para o critério H. O delineamento S4 + 12 S4III + S1 + 4S0 foi construı́do com os pontos pertencentes ao subconjunto S4 , repetindo metade destes pontos respeitando a Resolução III (ver Seção 2.1.2), para o qual utilizamos o contraste definidor X4 = X1 X2 X3 juntamente com os pontos do subconjunto S1 e 4 repetições do ponto central, permitindo 11 graus de liberdade para erro puro e 10 para falta de ajuste. Já o delineamento S4 + 12 S4IV +S1 +4S0 difere do anterior apenas nas repetições dos pontos da fração do subconjunto S4 , que foram escolhidos segundo a Resolução IV, para o qual Ahmad e Gilmour utilizaram o contraste definidor X1 X2 X3 X4 = I. Ambos delineamentos são parecidos em relação aos valores das eficiências dos critérios. 51 As Resoluções III e IV são utilizadas para a escolha da fração dos pontos do subconjunto S4 nos delineamentos 12 S4III + S2 + 4S0 e 12 S4IV + S2 + 4S0 , respectivamente. Para completar estes delineamentos, são selecionados os pontos do subconjunto S2 juntamente com 4 repetições do ponto central. É possı́vel notar que há uma diferença sutil entre os valores das eficiências de cada delineamento. Ambos permitem 3 graus de liberdade para erro puro e 18 para falta de ajuste e, desta forma, não são muito eficientes em termos dos critério DP e AP . A Tabela 9 apresenta 3 delineamentos encontrados utilizando o critério DP e outros dois compostos. O delineamento I, construı́do utilizando o critério DP possui 16 tratamentos distintos com duas repetições cada mais o ponto central com três repetições, além de um ponto que não se repete. Dessa forma, permite 18 graus de liberdade para erro puro e 3 para falta de ajuste (o delineamento D-ótimo encontrado para este exemplo permite apenas 4 graus de liberdade para erro puro, apesar de n ser razoalmente grande). Os valores de hii estão entre 0,317 e 0,659, o que deixa o delineamento com eficiência baixa para o critério H, apenas 21, 52%. Para os outros critérios, a eficiência deste delineamento é alta. O delineamento II foi encontrado compondo os critério DP e H, cada um com peso igual a 0, 5. Este delineamento é também H-ótimo. Ele possui 12 pontos com duas repetições cada, fazendo com que permita ter 12 graus de liberdade para erro puro e 9 para falta de ajuste e eficiência alta para todos os critérios separadamente (para o critério H ele é ótimo). Os valores de hii variam entre 0, 377 e 0, 447. Assim como este delineamento, o delineamento III, construı́do com a composição dos critérios DP e H, com pesos 0, 8 e 0, 2, respectivamente, tem eficiência alta para todos os critérios separadamente. Este delineamento permite 14 graus de liberdade para erro puro e 7 para falta de ajuste, já que possui 14 pontos com duas repetições cada. Os valores de hii variam entre 0, 389 e 0, 457. Comparando as eficiências destes dois delineamentos com as eficiências dos delineamentos construı́dos por subconjuntos, observamos a flexibilidade dos critérios compostos, capazes de produzirem delineamentos com propriedades bastante atrativas. 52 Tabela 9: Delineamentos com modelo com efeitos principais, quadráticos e interações 2 a 2 (n = 36; k = 4; p = 15) Critério Composto (DP )S H; κ= D A GL DP AP H 0 I gl (EP; FA) DS -ef AS -ef (DP )S -ef (AP )S -ef H-ef 0 0 0, 5 0 κ= D A GL DP AP H 0 0, 5 0 II X1 X2 X3 X4 −1 −1 −1 −1 −1 −1 −1 −1 0 0, 8 0 0, 2 III hii X1 X2 X3 X4 hii X1 X2 X3 X4 hii 0 0, 413 −1 −1 −1 −1 0, 423 −1 −1 −1 −1 0, 426 −1 0 0, 413 −1 −1 −1 −1 0, 423 −1 −1 −1 −1 0, 426 0 −1 0, 659 −1 −1 1 1 0, 411 −1 −1 −1 1 0, 410 −1 1 1 0, 449 −1 −1 1 1 0, 411 −1 −1 −1 1 0, 410 −1 −1 1 1 0, 449 −1 0 −1 −1 0, 403 −1 −1 1 0 0, 422 −1 0 1 −1 0, 398 −1 0 0 0 0, 441 −1 −1 1 0 0, 422 −1 0 1 −1 0, 398 −1 0 1 1 0, 432 −1 −1 1 1 0, 457 −1 1 −1 −1 0, 444 −1 1 −1 1 0, 426 −1 0 0 0 0, 436 −1 1 −1 −1 0, 444 −1 1 −1 1 0, 426 −1 0 1 −1 0, 410 −1 1 −1 1 0, 484 −1 1 0 1 0, 420 −1 0 1 −1 0, 410 −1 1 −1 1 0, 484 −1 1 1 −1 0, 414 −1 1 −1 −1 0, 389 −1 1 1 0 0, 403 −1 1 1 −1 0, 414 −1 1 −1 −1 0, 389 −1 1 1 0 0, 403 −1 1 1 0 0, 401 −1 1 −1 1 0, 420 0 −1 −1 1 0, 418 0 −1 −1 1 0, 421 −1 1 −1 1 0, 420 0 −1 −1 1 0, 418 0 −1 −1 1 0, 421 −1 1 0 −1 0, 427 0 −1 1 −1 0, 379 0 −1 1 −1 0, 419 −1 1 1 1 0, 411 0 −1 1 −1 0, 379 0 −1 1 −1 0, 419 −1 1 1 1 0, 411 0 0 0 0 0, 317 0 −1 1 0 0, 377 0 −1 0 1 0, 418 0 0 0 0 0, 317 0 0 −1 0 0, 398 0 0 0 0 0, 444 0 0 0 0 0, 317 0 1 −1 −1 0, 422 0 0 1 1 0, 397 0 1 1 1 0, 402 0 1 −1 −1 0, 422 0 0 1 1 0, 397 0 1 1 1 0, 402 0 1 1 1 0, 429 0 1 1 −1 0, 409 1 −1 −1 −1 0, 462 0 1 1 1 0, 429 0 1 1 −1 0, 409 1 −1 −1 −1 0, 462 1 −1 −1 −1 0, 399 1 −1 −1 −1 0, 440 1 −1 0 1 0, 409 1 −1 −1 −1 0, 399 1 −1 −1 1 0, 430 1 −1 0 1 0, 409 1 −1 −1 0 0, 416 1 −1 −1 1 0, 430 1 −1 1 0 0, 381 1 −1 0 1 0, 447 1 −1 0 −1 0, 401 1 −1 1 0 0, 381 1 −1 1 1 0, 411 1 −1 1 −1 0, 395 1 0 1 1 0, 400 1 −1 1 1 0, 411 1 −1 1 −1 0, 395 1 0 1 1 0, 400 1 0 −1 1 0, 416 1 0 −1 0 0, 420 1 1 −1 −1 0, 345 1 0 0 −1 0, 405 1 1 −1 −1 0, 419 1 1 −1 −1 0, 345 1 1 −1 1 0, 420 1 1 −1 −1 0, 419 1 1 −1 1 0, 444 1 1 −1 1 0, 420 1 1 0 1 0, 430 1 1 −1 1 0, 444 1 1 0 −1 0, 403 1 1 0 1 0, 430 1 1 1 −1 0, 462 1 1 1 −1 0, 424 1 1 1 0 0, 412 1 1 1 −1 0, 462 1 1 1 −1 0, 424 1 1 1 0 0, 412 (18; 3) 94,55 84,84 100,00 93,65 21,52 (12; 9) 94,38 85,79 86,67 88,05 100,00 (14; 7) 91,32 74,39 89,04 78,79 84,63 5 CONCLUSÃO Neste trabalho propomos a inclusão de uma propriedade que controla a sensibilidade do delineamento à perda de observações na expressão de um critério composto. A propriedade proposta foi o critério H, uma medida de variabilidade dos valores da diagonal da matriz de projeção. Sua inclusão ampliou as alternativas de critérios compostos, acrescentando a propriedade relacionada a robustez frente a perda ou influência de observações, já que o uso de outros critérios sem o critério H produz delineamento eficiente para os critérios, mas pode não apresentar robustez a perda ou influência. Em geral, o novo critério composto produziu delineamentos mais atrativos, com valores de leverages mais homogêneos e, portanto, mais robusto à perda de observações, porém ficou evidente em alguns casos que o uso deste critério individualmente compromete a eficiência de outros critérios. Dessa forma, consideramos importante o uso do critério H composto com outros critérios, de acordo com o objetivo do pesquisador, pois na prática a probabilidade de se perder observações é razoável. Outra conclusão é que alterando-se os pesos do vetor κ na expressão do critério composto conseguimos moldar o delineamento de acordo com as propriedades priorizadas. A eficiência dos delineamentos varia irregularmente com a alteração dos pesos, podendo haver intervalos de valores para os pesos em que a eficiência do delineamento permanece a mesma. O algoritmo de troca implentado em linguagem C mostrou ser aproximadamente 11 vezes mais rápido do que o algoritmo de troca implementado no software R, pois este software possui funções matemáticas pré definidas para abranger situações mais amplas, consumindo mais tempo na execução dos cálculos. REFERÊNCIAS BIBLIOGRÁFICAS AHMAD, T.; GILMOUR, S. G. Robustness of subset response surface designs to missing observations. Journal of Statistical Planning and Inference, v.140, p.92–103, 2010. ATKINSON, A. C.; BAILEY, R. A. One hundred years of the design of experiments on and off the pages of Biometrika. Biometrika, v.88, n.1, p.53–97, 2001. ATKINSON, A. C.; DONEV, A. N. The construction of exact D-optimal designs with application to blocking response surface designs. Biometrika, v.76, p.515–526, 1989. ATKINSON, A. C.; DONEV, A. N.; TOBIAS, R. D. Optimum experimental designs, with SAS. Oxford: Oxford University Press, 2007. 511p. BAILEY, R. A. Design comparative experiments. Cambridge University Press, 2008. 348p. BOX, G. E. P.; BEHNKEN, D. W. Some new three level designs for the study of quantitative variables. Technometrics, v.2, n.4, p.455–475, 1960. BOX, G. E. P.; DRAPER, N. R. Robust designs. Biometrika, v.62, n.1, p.347–352, 1975. BOX, G. E. P.; DRAPER, N. R. Empirical model building and response surfaces. New York: J. Wiley, 1987. 688p. BOX, G. E. P.; HUNTER, J. S. The 2k−p fractional factorial designs. Part I. Technometrics, v.3, p.311–351, 1961a. 55 BOX, G. E. P.; HUNTER, J. S. The 2k−p fractional factorial designs. Part II. Technometrics, v.3, p.449–458, 1961b. BOX, G. E. P.; HUNTER, J. S.; HUNTER, W. G. Statistics for experimenters: design, innovation, and discovery. New York: Wiley-Interscience, 2005. 664p. BOX, G. E. P.; WILSON, K. B. On the experimental attainment of optimum condition. Journal of the Royal Statistical Society, v.13, n.1, p.1–45, 1951. CHERNOFF, H. Locally optimal designs for estimating parameters. Annals of Mathematical Statistics, v.24, p.586–602, 1953. COCHRAN, W. G.; COX, G. M. Experimental designs. New York: Wiley, 1957. COOK, R. D.; NACHTSHEIM, C. J. A comparison of algorithms for constructing exact D-optimal designs. Technometrics, v.22, n.3, p.315–324, 1980. COOK, R. D.; NACHTSHEIM, C. J. Computer-aided blocking of factorial and response-surface designs. Technometrics, v.31, p.339–346, 1989. COX, D. R. Planning of experiments. New York: Wiley, 1958. DANIEL, C. Applications of statistics to industrial experimentation. New York: Wiley, 1976. 564p. DRAPER, N. R. Small composite designs. Technometrics, v.27, n.2, p.173–180, 1985. DRAPER, N. R.; SMITH, H. Applied regression analysis. New York: Wiley, 1998. 736p. EHRENFELD, E. On the efficiency of experimental design. Annals of Mathematical Statistics, v.26, p.247–255, 1955. FARAWAY, J. J. Linear models with R. New York: Taylor e Francis Group, 2004. 240p. 56 FEDOROV, V. V. Theory of optimal experiments. Academic Press, 1972. FINNEY, D. J. The fractional replication of factorial arrangements. Annal of Eugenics, v.12, 1945. FISHER, R. A. Statistical methods for research workers. Edinburgh: Oliver and Boyd, 1925. FISHER, R. A. The arrangement of field experiments. Journal of the Ministry of Agriculture, v.33, p.503–513, 1926. FISHER, R. A. The design of experiments. London: Oliver and Boyd, 1935. GILMOUR, S. G. Response surface designs for experiments in bioprocessing. Biometrics, v.62, p.323–331, 2006. GILMOUR, S. G.; TRINCA, L. A. Optimum design of experiments for statistical inference. Journal of the Royal Statistical Society, v.61, n.3, p.345–401, 2012. HINKELMANN, K.; KEMPTHORNE, O. Design and analysis of experiments. New York: Wiley-Interscience, 2005. 2v. 780p. HINKELMANN, K.; KEMPTHORNE, O. Design and analysis of Experiments. New York: Wiley-Interscience, 2008. 1v. 631p. HOKE, A. T. Economical second order designs based on irregular fractions of the 3n factorial. Technometrics, v.16, p.375–384, 1974. KEMPTHORNE, O. The design and analysis of experiments. New York: Wiley, 1952. 631p. KIEFER, J. Optimal experimental designs (with discussion). Journal of the Royal Statistical Society, v.21, n.2, p.272–319, 1959. MEAD, R.; GILMOUR, S. G.; MEAD, A. Statistical principles for the design of experiments. Cambridge, 2012. 586p. 57 MEYER, R. K.; NACHTSHEIM, C. J. The coordinate-exchange algorithm for constructing exact optimal experimental designs. Technometrics, v.37, n.1, p.60–69, 1995. MILLER, A. J.; NGUYEN, N. A review of some exchange algorithms for constructing discrete D-optimal designs. Computational Statistics and Data Analysis, v.14, p.489–498, 1992. MITCHELL, T. J. An algorithm for the construction of D-optimal designs. Technometrics, v.20, p.203–210, 1974. MONTGOMERY, D. C. Design and analysis of experiments. New York: J. Wiley, 2001. 683p. R CORE TEAM. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2013. SAS INSTITUTE INC. SAS/IML User’s Guide, Version 9.2. SAS Institute Inc., Cary, NC, 2007. SEARLE, S. R. Matrix algebra useful for statistics. New York: Wiley- Interscience, 1982. 464p. SEBER, G. A. F. A matrix handbook for statisticians. New Jersey: WileyInterscience, 2007. 559p. WALD, A. On the efficient design of statistical investigations. Annals of Mathematical Statistics, v.14, n.2, p.134–140, 1943. WU, C. F. J.; HAMADA, M. S. Experiments: Planning, Analysis, and Optimization. New Jersey: Wiley, 2009. 716p. YATES, F. The design and analysis of factorial experiments. Imperial Bureau of Soil Science Technical Communication, v.35, 1937.