XXIV Encontro Nac. de Eng. de Produção - Florianópolis, SC, Brasil, 03 a 05 de nov de 2004
Modelagem conjunta da média e variância utilizando GLM
Patrícia Klaser Biasoli ( UFRGS ) [email protected]
Flávio Sanson Fogliatto ( UFRGS ) [email protected]
Resumo
A modelagem conjunta de média e variância tem se mostrado particularmente relevante na
obtenção de processos e produtos robustos. Nesse contexto, deseja-se minimizar a
variabilidade das respostas simultaneamente com o ajuste dos fatores, tal que se obtenha a
média da resposta próxima ao valor alvo. Nos últimos anos foram desenvolvidos diversos
procedimentos de modelagem conjunta de média e variância, dentre eles a utilização do GLM
e de projetos fatoriais fracionados. O objetivo deste artigo é revisar o estado-da-arte da
bibliografia sobre projetos fatoriais fracionados e GLM, bem como apresentar uma síntese
da metodologia de modelagem conjunta da média e variância apresentada por Nelder e Lee
(1998), ilustrada através de um exemplo numérico.
Palavras chave: GLM, Fatorial fracionado, Modelagem conjunta de média e variância
1. Introdução
A modelagem conjunta da média e variância têm se mostrado bastante útil no contexto atual
de mercado, onde exigências por otimização de produtos e processos, redução dos custos e
melhoria da qualidade e produtividade se fazem crescentes. Essa modelagem é utilizada para
otimizar a variável de resposta, e, assim, obter processos e produtos robustos. Nela, deseja-se
minimizar a variabilidade das respostas simultaneamente com o ajuste dos fatores, de forma a
se obter a média da variável de resposta próxima a um valor alvo pré-determinado. Nos
últimos anos foram desenvolvidos diversos procedimentos de modelagem conjunta de média
e variância, dentre eles a utilização de GLM (Generalized Linear Models – Modelos Lineares
Generalizados) e de projetos fatoriais fracionados.
A necessidade da modelagem do efeito de fatores de controle sobre a variabilidade das
variáveis de resposta foi originalmente proposta por Taguchi, no contexto de planejamentos
robustos (TAGUCHI et al., 1990). A proposta de Taguchi, à parte sua relevância histórica, foi
objeto de críticas, já que resulta em experimentos com um grande número de rodadas e com
matrizes experimentais onde a importância das interações entre os fatores controláveis é
desconsiderada (GUNTER, 1987; BOX, 1988). Com o intuito de aperfeiçoar a proposta de
modelagem conjunta de média e variância inicialmente desenvolvida por Taguchi, alguns
autores sugeriram procedimentos baseados na utilização de projetos fatoriais fracionados, com
dados modelados através de GLM.
Esse trabalho tem como objetivo revisar o estado-da-arte da literatura sobre projetos fatoriais
fracionados e sobre a modelagem via GLM. Além disso, são apresentadas diferentes
propostas de modelagem conjunta da média e variância e suas respectivas críticas, conforme
apresentadas na literatura. Por fim, apresenta-se um exemplo numérico para ilustrar os
conceitos teóricos abordados. No restante deste trabalho, o efeito dos fatores de um projeto
experimental sobre a media será designado por efeito de localização e o efeitos dos fatores
sobre a variância será designado por efeito de dispersão.
ENEGEP 2004
ABEPRO
1597
XXIV Encontro Nac. de Eng. de Produção - Florianópolis, SC, Brasil, 03 a 05 de nov de 2004
2. Referencial Teórico
Nesta seção é apresentada uma introdução aos projetos fatoriais fracionados e aos modelos
lineares generalizados (GLM). O objetivo é fornecer uma base teórica para a compreensão das
modelagens apresentadas e exemplificadas nas demais seções deste trabalho.
Um projeto fatorial mk completo requer que todas as combinações de m níveis de k fatores
sejam testadas experimentalmente (BOX; HUNTER, 2000). Assim, o número de ensaios
aumenta rapidamente à medida que aumenta o número de fatores. Por exemplo, uma repetição
completa de um fatorial 26 requer 64 ensaios. Dos 63 graus de liberdade disponíveis neste
exemplo, apenas 21 correspondem a efeitos principais e interações de 1a ordem; os demais
correspondem a interações de maior ordem, usualmente de difícil interpretação física. Box et
al. (1978) demonstram que os efeitos em um experimento possuem certa hierarquia. Assim, é
razoável supor que interações de maior ordem não sejam significativas, o que permitiria obter
informações acerca dos efeitos principais e interações de baixa ordem a partir de uma fração
do experimento fatorial completo. Um projeto com essas características é denominado projeto
fatorial fracionado. Um projeto fatorial mk fracionado é usualmente designado por mk-p, onde
p indica o grau de fracionamento.
Fatoriais fracionados são utilizados em diferentes circunstâncias. Por exemplo, quando se
assume a priori que algumas interações não são significativas ou quando se deseja identificar
quais variáveis têm influência sob a variável resposta, sem um maior detalhamento sobre a
forma do efeito (BOX; HUNTER, 2000). De forma simplificada, o procedimento para definir
projetos fracionados consiste em dividir o projeto completo em dois ou mais blocos,
confundindo uma ou mais interações de ordem superior com fatores principais ou interações
de menor ordem. Posteriormente, executa-se apenas um dos blocos, escolhido aleatoriamente.
Termos confundidos devido ao fracionamento estarão vinculados, e não permitirão distinguir
o efeito de dois ou mais fatores na análise dos dados. Assim, recomenda-se que efeitos
importantes sejam vinculados a interações de ordem superior e não significativa.
Dados oriundos de projetos fracionados são tipicamente analisados somente quanto há efeito
dos fatores de controle sobre a média da variável de resposta, já que a ausência de replicações
das rodadas experimentais dificulta a modelagem do efeito de fatores de controle sobre a
variância. A partir do trabalho seminal de Box e Meyer (1986), diversos autores propuseram
procedimentos para a modelagem da média e variância da variável resposta a partir de dados
oriundos de projetos fracionados; tais procedimentos são discutidos mais adiante neste artigo.
Modelos lineares e não lineares são baseados na suposição de que as variáveis de resposta são
normalmente distribuídas, o que nem sempre se verifica na prática. Os modelos lineares
generalizados (GLMs), desenvolvidos por Nelder e Wedderburn (1972), permitem o ajuste de
modelos de regressão quando a variável resposta pertencer à família exponencial de
distribuições, que contempla, além da distribuição Normal, as distribuições Binomial,
Geométrica, Binomial Negativa, Exponencial, Gamma e Normal Inversa. Além disso, tais
modelos admitem não-homogeneidade na variância da variável de resposta.
Todas as distribuições pertencentes à família exponencial possuem a mesma função de
densidade de probabilidade, definida como f ( y; θ, φ ) = exp{yθ − b(θ) a (φ) + c( y, φ )}, onde
a(.), b(.) e c(.) são funções específicas; o parâmetro θ é o parâmetro de localização natural ou
canônico e φ é freqüentemente designado como parâmetro de dispersão ou escala. O
parâmetro de escala φ é suposto conhecido para cada observação (CORDEIRO, 1986). A
função a (φ ) é a forma generalizada de a (φ ) = φ .w , onde w é um peso conhecido a priori.
Modelos de GLM são definidos por 3 componentes: distribuição da variável resposta, preditor
ENEGEP 2004
ABEPRO
1598
XXIV Encontro Nac. de Eng. de Produção - Florianópolis, SC, Brasil, 03 a 05 de nov de 2004
linear e função de ligação. Tais componentes são detalhados a seguir.
ƒ
Distribuição da variável resposta: os GLMs podem ser utilizados quando se tem uma
única variável resposta Y e, associado a ela, um conjunto de variáveis explicativas
x1 , x2 ,..., xk . Consideram-se y1 , y2 ,..., yn observações independentes da variável Y, com
médias µ1 , µ 2 ,..., µ n . As observações yi são aleatórias (componente aleatório do GLM) e
seguem uma distribuição pertencente à família exponencial (MYERS et al., 2002), com
um parâmetro desconhecido e com média de uma distribuição de probabilidade
pertencente a família exponencial (CORDEIRO, 1986). Além disso, assume-se que existe
apenas um termo de erro no modelo (MCCULLAGH; NELDER, 1983) e que a variância
σ i2 ( i = 1, 2,..., n ) é função da média µi (MYERS et al., 2002).
ƒ
Preditor linear: os regressores (variáveis explicativas) x1, x2,...., xk entram no modelo na
forma de uma soma linear, dando origem ao vetor de preditores lineares (vetor das médias
k
µi ), que é a porção sistemática do modelo, definida como η = x´β = β 0 + ∑ β i xi , onde
i =1
η , chamado preditor linear, é um vetor n × 1 ; x ' = ( x1 ,..., xk ) é um vetor de regressores e
β = ( β1 , β 2 ,..., β k ) '
é um vetor de k parâmetros a serem estimados, onde k < n . A
função linear η dos parâmetros em β chama-se preditor linear (CORDEIRO, 1986).
ƒ
Função de Ligação: o GLM é encontrado através da função de ligação ηi = g ( µi ) , i = 1,
2, ..., n., onde g (.) é a função de ligação utilizada. Esta função faz a ligação entre a média
(componente aleatório) e o preditor linear (porção sistemática do modelo), por meio de
uma função conhecida g (.) , ou seja, g ( µi ) = ηi = xi' β (MYERS et al., 2002), onde xi é o
vetor das variáveis regressoras para a i-ésima observação; e β é o vetor de parâmetros
desconhecidos ou coeficientes de regressão.
A função de ligação g (⋅) é responsável pela transformação da média da população, e não dos
dados (COSTA, 2003). Existem diversas possibilidades de escolha da função de ligação;
entretanto, essa escolha depende do problema de modelagem em particular e, pelo menos em
teoria, cada observação pode apresentar uma função de ligação diferente. Se a função de
ligação selecionada for igual ao parâmetro de localização da distribuição ( ηi = θ i ), o preditor
linear modela diretamente o parâmetro canônico θ e a função de ligação ηi é denominada de
ligação canônica (MCCULLAGH; NELDER, 1983). Segundo Cordeiro (1986), o parâmetro
canônico caracteriza uma distribuição de probabilidade membro da família exponencial.
Ligações canônicas para distribuições de probabilidade usuais são apresentadas na Tabela 1.
3. Propostas para a Modelagem conjunta de Média e Variância
A literatura apresenta diversas propostas para a modelagem de média e variância a partir de
dados oriundos de experimentos fracionados. A primeira, e uma das mais referenciadas por
outros autores, foi desenvolvida por Box e Meyer (1986). Os autores propõem identificar os
efeitos de localização através do papel de probabilidade da Normal. Posteriormente, deve-se
realizar um experimento fatorial completo com repetição dos fatores com efeito sobre a média
da variável de resposta. Depois de eliminar esses efeitos de localização através do cálculo das
estimativas e analisando os resíduos, o planejamento pode ser reexaminado para detectar
efeitos de dispersão ativos. O termo “eliminar efeitos”, será utilizado nesse trabalho para
definir o procedimento de identificação dos efeitos e incorporação destes em outro modelo,
neste caso, para a variância.
ENEGEP 2004
ABEPRO
1599
XXIV Encontro Nac. de Eng. de Produção - Florianópolis, SC, Brasil, 03 a 05 de nov de 2004
Distribuição
Ligação Canônica
Normal
ηi = µ i
Binomial
ηi = ln( P (1 − Pi ))
Ligação logística
Poisson
ηi = ln( µi )
ηi = 1 µ i
ηi = 1 µ i
Ligação logarítmica
Exponencial
Gamma
Ligação identidade
Ligação recíproca
Ligação recíproca
Fonte: Myers, Montgomery e Vining (2002)
Tabela 1: Funções de Ligação Canônica para algumas distribuições de probabilidade
Essa metodologia fornece uma maneira econômica de identificar um pequeno número de
efeitos de localização e dispersão significativos. Depois de ajustar o modelo, Box e Meyer
(1986) recomendam a estimação por mínimos quadrados para um ajuste mais preciso e
apresentam estes estimadores em seu trabalho. Nelder e Lee (1998) consideram que
ferramentas gráficas são muito úteis, mas deveriam ser utilizadas com métodos mais formais
desde o inicio da análise. Se apenas métodos gráficos são utilizados, importantes efeitos
intermediários podem ser desconsiderados.
Ribeiro et al. (2001) propõem uma modelagem conjunta simplificada da média e variância,
baseada na proposta de Box e Meyer (1986), para experimentos fatoriais fracionados sem
repetição. Essa proposta modela a variância das respostas usando os resíduos do modelo de
regressão para a resposta média, sem a repetição dos tratamentos. O procedimento consiste
em verificar se resíduos de um nível de um fator controlável diferem significativamente dos
de outro nível; em caso afirmativo, a variância da resposta é dada pelos resíduos e pode ser
modelada como função desse fator. As principais diferenças entre o método proposto pelos
autores e o de Box e Meyer (1986) são: (i) Box e Meyer (1986) fornecem meios para
incorporar interações nos modelos de variância; entretanto, Ribeiro et al. (2001) consideram
que os benefícios de considerar termos de alta ordem são dúbios, pois, na prática, geralmente
efeitos de alta ordem não são significativos e tornam o modelo mais complexo, além de
demandarem muitos dados, não disponíveis no caso de experimentos fracionados; (ii) Box e
Meyer (1986) determinam a significância dos termos a serem incluídos no modelo através de
análise visual, diferente do método em Ribeiro et al. (2001); e (iii) o método em Box e Meyer
(1986) é restrito a projetos fatoriais fracionados do tipo 2k.
Segundo McGrath e Lin (2001), é necessário utilizar repetições para fazer a modelagem
conjunta de média e variância quando se utilizam dados de projetos fatoriais fracionados. Isso
ocorre porque, se o modelo para a média não incluir todos os termos significativos, tais
termos podem erroneamente aparecer como significativos na modelagem da variância se o
procedimento de Box e Meyer (1986) for adotado. Em outras palavras, os efeitos de
localização devem ser estudados e incorporados ao modelo da média antes do estudo da
variância, pois a identificação do efeito da variância é sensível ao modelo ajustado para a
média. Em McGrath e Lin (2001), assim como em Box e Meyer (1986), recomenda-se que os
efeitos de localização sejam primeiramente identificados e, posteriormente, que sejam
utilizados os resíduos do modelo da média para identificar os efeitos de dispersão. McGrath e
Lin (2001) também apresentam um detalhamento da análise em Box e Meyer (1986) e
derivam uma relação explícita entre os efeitos de localização e dispersão. Estudos
preliminares dos autores mostram que o efeito de dispersão produz correlação entre um par de
efeitos de localização. A análise dessa correlação pode ajudar a remover o confundimento
entre efeitos da média e da variância.
Wolfinger e Tobias (1998) propõem a modelagem conjunta dos efeitos aleatórios, de
localização e de dispersão utilizando modelos mistos e assumindo normalidade dos resíduos.
ENEGEP 2004
ABEPRO
1600
XXIV Encontro Nac. de Eng. de Produção - Florianópolis, SC, Brasil, 03 a 05 de nov de 2004
Modelos mistos são usualmente utilizados quando os dados envolvem alguma estrutura de
blocos que afeta a covariância entre as observações (ou seja, existe uma variável que distingue
dois grupos). Além da desvantagem do pressuposto de normalidade dos residuos, modelos
mistos não permitem detectar pequenos efeitos de localização na presença de grandes efeitos
de dispersão. Por fim, um modelo misto complexo não pode, em alguns casos, ser ajustado a
um conjunto pequeno de dados extremamente fracionados.
Nelder e Lee (1998), analisando os objetivos da metodologia de Taguchi, propuseram a
modelagem conjunta da média e da variância utilizando os modelos lineares generalizados.
Em sua proposta, os autores utilizavam-se de dois GLMs interligados, um para média e um
para a variância. A estrutura de interligação desses modelos vem ilustrada na Tabela 2. Na
tabela observa-se que o componente de desvio do modelo para a média se torna a resposta do
modelo para a variância, e que o inverso dos valores ajustados no modelo para a variância
fornecem os pesos a priori para o modelo da média.
Componente
Modelo para média
Modelo para a Variância
Y
d
Resposta
µ
φ
φV ( µ )
2φ 2
η = g (µ )
ζ = log φ
η = ∑ xjβ j
ζ = ∑ zk γ k
Média
Variância
Função de Ligação
Preditor Linear
y
Componente do Desvio
d = 2∫ ( y − u ) / V ( u ) du
2 {− log ( d φ ) + ( d − φ ) / φ }
1φ
1
µ
Peso a priori
Fonte: Nelder e Lee (1998)
Tabela 2: Componentes do Modelo Conjunto da Média e Variância
O algoritmo de modelagem conjunta da média e variância proposto por Nelder e Lee (1998)
pode ser resumido da seguinte forma:
1. Identificação da função da variância Var (Y ) = φ V ( µ ) : observa-se que a variância se
divide em duas partes, φ que é chamado de parâmetro de dispersão (o qual é independente da
média) e V ( µ ) , que é uma função de variância, que descreve a variância como função da
média.
2. Modelagem conjunta da média e variância: deve-se escolher a função de ligação apropriada
juntamente com as covariáveis no preditor linear para ajustar um modelo saturado, pelo
método da máxima verossimilhança estendida. Pinto e Leon (2003) sugerem o gráfico
proposto por Box (1988) como ferramenta exploratória para determinar a função de ligação.
3. Verificação do Modelo: A otimização dos parâmetros dos modelos para a média e variância
é conduzida através do método dos mínimos quadrados reponderados iterativamente (IRWLS
– iteratively reweighted least squares). Se o modelo for considerado não adequado, deve-se
voltar ao passo 1.
ENEGEP 2004
ABEPRO
1601
XXIV Encontro Nac. de Eng. de Produção - Florianópolis, SC, Brasil, 03 a 05 de nov de 2004
Após a definição do modelo, deve-se obter os níveis ótimos para os parâmetros.
Primeiramente deve-se minimizar a variabilidade, encontrando os conjuntos ótimos de fatores
controlados, depois ajusta-se a média próxima ao valor alvo.
A aplicação do GLM apresenta uma série de vantagens, segundo Nelder e Lee (1998). O
GLM utiliza toda a informação dos dados; assim, a análise da variância resulta em uma
resposta para cada observação, assim como a da média. Qualquer tipo de dados (com
distribuição pertencente à família exponencial), pode ser usado na modelagem via GLM não
havendo a necessidade de fazer transformação dos dados para estes aderirem a distribuição
Normal.
4. Exemplo Numérico de Modelagem Conjunta de Média e Variância utilizando GLM
O exemplo apresentado a seguir ilustra a modelagem conjunta da média e variância utilizando
GLM, segundo a proposta de Nelder e Lee (1998), tendo sido originalmente apresentado em
Pinto e Leon (2003). Os dados, apresentados na Tabela 3, se referem a uma mistura para bolo
a ser lançada no mercado. O produto precisa ser robusto a condições inadequadas de
cozimento, representadas pelos fatores de processo temperatura do forno (x4) e tempo de
forneamento (x5). Os fatores controlados no experimento são quantidade de farinha (x1),
quantidade de açúcar (x2) e quantidade de ovos (x3). O planejamento experimental consiste em
um fatorial 23, com um ponto central, para os fatores controláveis, cruzado com um fatorial
22, mais um ponto central para os fatores de processo. Os níveis zero dos fatores
correspondem as condições ideais de cozimento sugeridas pelo fabricante. A variável de
resposta medida é o índice de predileção (uma característica do tipo maior-é-melhor).
Pode-se observar, analisando o conjunto de dados, que os ensaios 7 e 9 produzem misturas
menos suscetíveis a variações nos fatores de processo; entretanto, o ensaio 7 tem a média
mais alta de predileção sendo, assim, a melhor mistura para lançamento no mercado.
Aparentemente, essa análise informal é suficiente para extrair informações importantes;
contudo, em experimentos mais complexos, uma análise mais sofisticada se faz necessária.
Para este exemplo, Pinto e Leon (2003) seguiram o mesmo procedimento descrito em Engel e
Huele (1996), ou seja, consideraram Y = ( y ,..., y )′ como sendo o vetor contendo
1
n
observações da variável de resposta; x1 ,..., xk como sendo os k fatores controláveis e r1 ,..., rq
como q fatores de processo. Seja f ′ ( xi ) a i-ésima linha da matriz de planejamento i = 1,..., n .
A matriz de planejamento pode conter efeitos lineares, quadráticos e interações. Os níveis dos
fatores de processo na linha i são denotados por ri.
Fatores controláveis
N°
Ensaio
1
2
3
4
5
6
7
8
9
x1
0
-1
1
-1
1
-1
1
-1
1
x2
0
-1
-1
1
1
-1
-1
1
1
x3
0
-1
-1
-1
-1
1
1
1
1
x4
x5
Fatores de processo
0
-1
1
0
-1
-1
6,7
3,4
5,4
3,1
1,1
5,7
3,2
3,8
4,9
5,3
3,7
5,1
4,1
4,5
6,4
5,9
4,2
6,8
6,9
5,0
6,0
3,0
3,1
6,3
4,5
3,9
5,5
-1
1
4,1
6,4
4,3
6,7
5,8
6,5
5,9
6,4
5,0
1
1
3,8
1,3
2,1
2,9
5,2
3,5
5,7
3,0
5,4
Fonte: Pinto e Leon (2003)
Tabela 3: Dados do exemplo de mistura para bolo
ENEGEP 2004
ABEPRO
1602
XXIV Encontro Nac. de Eng. de Produção - Florianópolis, SC, Brasil, 03 a 05 de nov de 2004
O objetivo é obter um modelo para E (Y ) , a média, e para Var (Y ) , a variância associada à
variável de resposta. Durante o experimento, o vetor Y é observado condicionalmente aos
níveis dos fatores de processo. Assim, primeiramente deve-se definir µi = E ( yi ri ) e
σ i2 = Var ( yi ri ) . O modelo de regressão proposto para o problema é: yi = µi + ε i , onde
ε i ~ N ( 0, σ i2 ) .
A média condicional µi é linear nos conjuntos de fatores de processo na linha i, onde
µ i = β 0 + g T ( xi ) β + ri δ + g T ( xi ) Λri , sendo β 0 uma constante, β e δ vetores dos parâmetros
e Λ a matriz que contém os coeficientes de regressão das interações entre os fatores
controlados e de processo. A variância condicional é modelada como σ i2 = exp ( uiT γ ) .
Como µi = E ( yi ri ) , tem-se o valor esperado da resposta condicionado aos fatores de
processo. Da mesma forma, a função de variância σ i2 = Var ( yi ri ) é uma resposta para a
variância também condicionada aos fatores de processo. Pode-se encontrar E ( yi ) e Var ( yi )
da seguinte forma: E ( yi ) = E  E ( yi rì )  e Var ( yi ) = Var  E ( yi ri )  + E Var ( yi ri )  .
Essa modelagem foi realizada supondo uma distribuição Normal e utilizando a função de
ligação identidade para o modelo da média, e distribuição Gamma e função de ligação
logarítmica para o modelo da variância.
Pinto e Leon (2003) implementaram o algoritmo de modelagem conjunta proposto por Nelder
e Lee (1998) utilizando a linguagem de programação FORTRAN. A matriz de planejamento
com as colunas: 1, x1 , x2 , x3 , x4 , x5 , x1 x4 , x1 x5 , x2 x3 , x2 x4 , x2 x5 , x3 x4 , x3 x5 , foi utilizada para
modelar a média e a variância. O programa convergiu após 6 iterações, obtendo os seguintes
modelos para a média e variância, respectivamente: µˆ = 4, 699 + 0, 456 x3 − 0, 629 x2 x3 e
ˆ (Y ) = σˆ 2 , pois nenhuma interação com
σˆ 2 = exp ( −0, 744x ) . Sendo assim, Eˆ (Y ) = µˆ e Var
1
fatores de processo foi significativa em ambos modelos.
Assim, para que a variância seja mínima, x1 = 1 . Para que a média seja a mais alta possível,
x2 = −1 e x3 = 1 . Logo, a melhor combinação possível dos fatores controláveis é 1, -1 e 1,
correspondendo exatamente ao ensaio número 7 (ver Tabela 3).
5. Considerações Finais
A aplicação dos modelos de regressão tradicionais utiliza o método dos Mínimos Quadrados
Ordinários e Máxima Verossimilhança para estimação de seus parâmetros. Tais metodologias
pressupõem variância constante e esta suposição está diretamente relacionada com a
suposição de normalidade das respostas. Entretanto, sabe-se que tais suposições são
frequentemente violadas na prática, já que nem todos os fenômenos podem ser bem
modelados supondo distribuição Normal. Foi demonstrado neste artigo que o GLM pode ser
uma alternativa para tais situações, pois permite modelar dados oriundos de distribuições de
probabilidade pertencentes a família exponencial, a qual engloba distribuições discretas,
assimétricas e binomiais, entre outras.
Nos últimos anos foram desenvolvidos diversos procedimentos de modelagem conjunta de
média e variância com o intuito de aperfeiçoar os métodos desenvolvidos por Taguchi.
ENEGEP 2004
ABEPRO
1603
XXIV Encontro Nac. de Eng. de Produção - Florianópolis, SC, Brasil, 03 a 05 de nov de 2004
Diversos autores consideram que os métodos de Taguchi nem sempre são claros e eficientes, e
apresentam alternativas de modelagem conjunta, dentre elas a utilização do GLM e de
projetos fatoriais fracionados.
A modelagem utilizando GLM foi ilustrada através de um exemplo numérico utilizando uma
rotina computacional em FORTRAN. A fim de facilitar a compreensão das modelagens
citadas e desenvolvidas na literatura, o trabalho apresentou uma revisão bibliográfica sobre
projetos fatoriais fracionados e GLM. Uma linha futura de investigação seria propor uma
heurística que permita a aplicação da modelagem conjunta da média e variância utilizando
GLM através de um software estatístico, tal como o GLIM.
Referências
BOX, G. E. P. Signal to noise, performance criteria and transformations. Technometrics, v.30, Issue 1,p.1-17,
February, 1988.
BOX, G. E. P.; HUNTER, J.S. The 2k-p Fractional Factorial Designs, Part I. Technometrics, v. 42, Issue 1,
p.28-48, February, 2000.
BOX, G. E. P.; HUNTER, W. G.; HUNTER, J. S. Statistics for Experiments – An Introdution to Design,
Data Analysis and Model Building . New York: John Wiley & Sons, 1978.
BOX, G. E. P.; MEYER, R. D. Dispersion Effects from Fractional Designs. Technometrics, v. 28, Issue 1, p.1927. February, 1986.
CORDEIRO, G.M. Análise Estatística de dados através do sistema GLIM. Minicurso 1 . XXI Simpósio
Brasileiro de Pesquisa Operacional, 1989.
COSTA, S. C.
Modelos Lineares Generalizados Mistos para Dados Longitudinais. Piracicaba-SP;
ESALQ/USP, 2003. Tese (Doutorado em Agronomia), Escola Superior de Agricultura “Luiz de Queiroz”,
Universidade de São Paulo, 2003.
ENGEL, J.; HUELE, A. F. A Generalizad Linear Modeling Approach to Robust Design. Technometrics, v.38,
Issue 4, p.365-373, November, 1996.
GUNTER, B. A. A Perspective on Taguchi Methods. Quality Process, v. 20, Issue 6 , p.44-52, June, 1987.
MCGRATH, R. N.; LIN, D. K. Confounding of Location and Dispersion Effects in Unreplicated Fractional
Factorials. Journal of Quality Technology, v. 33, Issue 2, p.129-139, April, 2001.
McCULLAGH, P. ; NELDER, J. A. Generalized Linear Models. London-New York: Chapman and Hall, 1983.
MEYER, R. H.; MONTGOMERY, D. C. A Tutorial on Generalized Linear Models. Journal of Quality
Technology, v.29, Issue 3, p.274-291, July, 1997.
MYERS, R. H.; MONTGOMERY, D. C.; VINING, G. G. Generalized Linear Models – With Applications in
Engineering and the Sciences. New York: John Wiley & Sons, 2002.
NELDER, J. A.; LEE, Y. Letters to the Editor – Joint Modeling of Mean and Dispersion. Technometrics, v.40,
Issue 2, p.168-171, May, 1998.
NELDER, J. A.; WEDDERBURN, R. W. M. Generalized Linear Models. Journal of the Royal Statistical
Society. Series A, v. 135, p. 370-84, 1972.
PINTO, E. R.; LEON, A. C. M. P. Síntese da Modelagem Conjunta da média e dispersão de Nelder e Lee
para aplicação à metodologia de Taguchi. In. XXXV Simpósio Brasileiro de Pesquisa Operacional
(SOBRAPO), 2003, Natal, RN. Anais. Aguardando Publicação.
RIBEIRO, J. L. D; FOGLIATTO, F. S.; CATEN, C. S. Minimizing Manufacturing and Quality Costs in
Multiresponse Optimization. Quality Engineering, v. 13, Issue 2, p.191-201, 2001.
TAGUCHI, G.; ELSAYED, E. A.; HSIANG, T. C. Traduzido por LOVERRI, R. C. Engenharia da Qualidade
em Sistemas de Produção. São Paulo: McGraw-Hill, 1990.
WOLFINGER, R. D.; TOBIAS, R. D. Joint Estimation of Location, Dispersion, and Random Effects in Robust
Design. Technometrics, v. 40, Issue 1, p.62-71, February, 1998.
ENEGEP 2004
ABEPRO
1604
Download

Modelagem conjunta da média e variância utilizando glm