A NORMALIZAÇÃO DE DISTRIBUIÇÕES NÃO-NORMAIS
ATRAVÉS DA TRANSFORMAÇÃO DE BOX-COX E ALGUNS
COMENTÁRIOS SOBRE A AVALIAÇÃO DE QUALIDADE
André Luís Meira de Oliveira
Acadêmico - Engenharia de Produção e Sistemas
Universidade Federal de Santa Catarina
Clarice Castro Souza
Acadêmico, Engenharia de Produção e Sistemas
Universidade Federal de Santa Catarina
Patrick Boehme
Acadêmico, Engenharia de Produção e Sistemas
Universidade Federal de Santa Catarina
Robert Wayne Samohyl, Ph. D.
Professor titular, Universidade Federal de Santa Catarina
Departamento de Engenharia de Produção e Sistemas - Centro Tecnológico
e-mail: [email protected]
One of the most frequently used assumptions in Statistical Process Control is that
measurable variables follow the normal distribution. Traditional texts in the area discuss the
necessity of testing the null hypothesis of normality (for example, Besterfield (1995), Mittag e
Rinne (1993)), but do not explain what to do in the eventuality of rejection of the hypothesis.
In the literature, the normaliity assumption has been investigated in several works in terms of
process capacity indexes. Two of the most recent works suggest the use of generalized
distributions which include the normal as a special case. Castaglioli (1996), who offers a
broad bibliography of the literature, sugests using Burr distributions and Clements(1989) the
family of Pearson ditributions. In this paper, we propose to attack the problem of nonlinearity by transforming the original data through the Box-Cox (1964) transformation. The
transformation is programmed into an exceptionally easy to use procedure in EXCEL and
VISUAL BASIC which calculates the best possible transformation which minimizes the
presence of skewness and assymetry.
Key words: transformation; normality; quality.
1. Introdução:
Uma das suposições mais freqüentes na área de controle estatístico de processo é que
variáveis mensuráveis seguem distribuição normal. Manuais tradicionais vão até o ponto de
admitir que existe a necessidade de testar a hipótese nula de normalidade (por exemplo,
Besterfield (1995), Mittag e Rinne (1993)), mas não explicam o que fazer na eventualidade de
rejeição da hipótese. Na literatura, a suposição de normalidade tem sido investigada em vários
estudos no tocante a índices de capacidade de processo. Dois trabalhos mais recentes sugerem
o uso de distribuições de probabilidade mais gerais as quais incluem a distribuição normal
como um caso especial. Castagliola (1996) sugere o uso de distribuições de Burr e Clements
(1989) a família de distribuições Pearson. O primeiro trabalho oferece uma curta mais
abrangente bibliografia da literatura. Neste trabalho nos propomos a atacar o problema de nãonormalidade pela transformação dos dados originais através da transformação Box-Cox para
chegar a valores transformados que demonstrem normalidade ou no mínimo normalidade
aproximada. Mostraremos também uma rotina no ambiente EXCEL e VISUAL BASIC que
calcula a melhor transformação possível para alcançar valores mínimos para medidas de
assimetria e curtose, assim eliminando a não-normalidade.
A transformação BOX-COX foi introduzida na literatura em 1964 para resolver o
problema de estimação de regressões não lineares. Veja Kennedy, 1994, pp. 103-104, onde
existe um resumo desta área de Econometria. Box e Jenkins usam esta transformação no
software Autobox (1990) para calcular variâncias estáveis.
2. A transformação BOX-COX:
A transformação é relativamente simples:
y(λ) =
(y
λ
− 1)
λ
Onde λ varia entre (-1,1). O valor transformado dos dados passa através de
vários tipos de equações para cada valor de λ. Veja a tabela 1 a seguir:
se λ for
igual a:
-1,0
-0,5
0,0
0,5
1,0
yλ − 1
será igual a:
λ
1
+1
y
1
−1
y
− 0,5
ln y (da regra de L’Hospital)
y −1
0,5
y-1
então
Tabela 1.Alguns valores transformados, para determinados valores de λ.
O resultado do que y ( 0 ) = ln y pode ser demonstrado utilizando a regra de L’Hospital.
Portanto, medidas de assimetria e curtose são minimizadas e a distribuição normal aproximada
quando valores apropriados de λ são encontrados. O coeficiente de assimetria é definido como:
m3
σ3
coef. de assim =
Onde m3 é o terceiro momento de distribuição e σ 3 é o desvio padrão elevado ao
cubo. Existe uma relação entre λ e o coeficiente de assimetria representado no gráfico 1.
Assimetria
BJ
Curtose
.
.
5,99
.
A
B
C
λ
Gráfico 1. A relação entre λ e algumas medidas da não normalidade.
No ponto A, assimetria está no seu valor mínimo dado o valor apropriado de λ.
O coeficiente de curtose é medido pelo quarto momento normalizado pelo desvio
padrão elevado a quatro.
coef. de curtose =
m4
σ4
Desde que o coeficiente de curtose em excesso apresentado é igual a três no caso da
distribuição normal, nesse trabalho utilizaremos o coeficiente de curtose em excesso:
 m4 
coef. de curtose em excesso =  4 − 3

σ
Existe uma relação entre λ e o coeficiente de curtose em excesso representada no
gráfico 1. No ponto C, curtose é minimizado.
A estatística de Bera-Jarque segue a distribuição normal de χ 2 sob hipótese nula de
normalidade com dois graus de liberdade e é uma média ponderada dos dois coeficientes
apresentados acima:
  m3 2  m4  2 
 3
 4 − 3 
σ 
σ
 

2
BJ = N* 
+
 ≈ χ(2)
6
24




Onde N é o tamanho da amostra e num nível de significância de 5% o valor de χ (22 ) =
5,99. Em outras palavras, quando BJ é menor do que 5,99, a hipótese nula de normalidade é
aceita. O gráfico 1 demonstra também a relação entre λ e a estatística de Bera-Jarque. No
ponto B a estatística tem valor mínimo e talvez menor que 5,99.
3. Os cálculos no ambiente EXCEL:
O programa foi desenvolvido no ambiente EXCEL-VISUAL BASIC utilizando a
transformação BOX-COX para a normalização de amostras que não apresentam distribuição
normal, através do cálculo dos valores mínimos de assimetria e curtose.
O usuário insere em um quadro a amostra a ser analisada, essa amostra poderá
apresentar até quinhentos elementos. O intervalo de variação de λ é de (-5,5).
Feito isto o programa efetuará os cálculos da função Y transformada, dos
coeficientes de assimetria e curtose, além dos cálculos da função Bera-Jarque. Analisando os
valores obtidos nesta última função o programa oferecerá ao usuário o melhor vetor da função
Y transformada, ou seja, aquele que melhor satisfaz a condição para a eliminação da não
normalidade, onde χ 2 ≈ 0 .Também será fornecido ao usuário o melhor valor de λ e um
gráfico com os valores da estatística de Bera-Jarque e dos coeficientes de assimetria e de
curtose em função da variável λ.
4. Exemplo:
Submetemos o programa a um exemplo, os valores do vetor não transformado segue
a seguinte distribuição:
Gráfico 2. Histograma da amostra a ser transformada.
Após a efetuados os cálculos, tem-se o melhor λ, igual a -1,8. No gráfico 3 podemos
observar a distribuição após a transformação.
Gráfico 3.Histograma da amostra após a transformação.
σ2
Gráfico 4. Distribuições dos coeficientes de Assimetria, Curtose e da Estatística de BeraJarque, em função de λ.
5. Comentários:
Existem pelo menos dois casos importantes na área de Controle de Qualidade onde a
transformação de Box-Cox pode ser utilizada com freqüência: para o cálculo de índices de
capacidade de processo e na montagem de gráficos de controle. Muitas vezes na distribuição
os dados da linha de produção não são normais, e isso implica em valores diferentes para
índices acima e abaixo da média. Assim, há uma necessidade de falar em Cpk dividido em Cpu
e Cpl. O menor valor de Cpk é o escolhido para representar a capacidade do processo.
Clements (1989) oferece uma metodologia para o cálculo de Cpk na presença de nãonormalidade que leva em conta explicitamente medidas de assimetria e curtose na distribuição
de Pearson. O procedimento sugerido em nosso trabalho é o seguinte:
1. Com os dados originais, calcular o valor de assimetria e curtose e
subseqüentemente o valor da estatística de Bera-Jarque.
2. Se o valor de Bera-Jarque fosse menor que 5,99, então os dados são normais e
nenhuma transformação é necessária.
3. Se o valor de Bera-Jarque fosse maior de 5,99, então os dados não seguem a
distribuição normal e precisam ser transformados. Aplicar a transformação de Box-Cox.
4. Com os dados transformados, calcular o índice de capacidade de processo Cpk.
Neste caso, em função da transformação que normalizou os dados, o Cpk é simétrico (Cpu =
Cpl).
O procedimento para a montagem de gráficos de controle é muito parecido. Passos
1, 2, e 3 são idênticos. Se não houver rejeição da hipótese de normalidade, os gráficos podem
ser montados regularmente. Se rejeitar a hipótese, os dados deveram ser transformados. Passo
4 entraria com a montagem do gráfico utilizando os dados transformados e posteriormente
cada vez que um novo ponto está acrescentado no gráfico ele terá’ que sofrer a transformação
com a variável λ apropriado.
6. Conclusões:
A suposição de normalidade é tradicional na estatística, e experiência mostra que na
maioria dos casos nenhum prejuízo ocorre quando a suposição é utilizada para investigações
preliminares de dados. No evento de que uma empresa esteja implantando para a primeira vez
estatística de processo na fábrica, nestas fases iniciais, a suposição de normalidade é
considerada adequada e freqüentemente nem discutida. Uma empresa experimentando pela
primeira vez com procedimentos estatísticos na fábrica certamente sentirá uma diferença na
eficiência desta, com ou sem levar em conta normalidade nos dados. No entanto, no decorrer
do tempo e da aprendizagem, a empresa poderia avançar para níveis de eficiência maior,
modificando aos poucos os procedimentos e incorporando um nível de sofisticação maior. Na
segunda fase de melhorias deve ser contemplada então, a utilização da transformação de BoxCox. A metodologia apresentada neste trabalho está em fase de teste em várias empresas de
Santa Catarina e pelo menos neste momento preliminar a sua aplicabilidade tem mostrado
resultados interessantes.
6. Bibliografia:
AutoBox Plus. AFS, Inc., 1990.
BESTERFIELD, Dale H. Control de calidad. México, cuarta edicion, Prentice and Hall,
1995.
BOX, G. E. P. e COX, D. R. An analisis of transformatios. Jornal of the Royal Statistical
Society, series B, 26, 211-243.
CLEMENTS, John. Process capability calculations for non-normal distributions. Jornal of
quality process, 95-101, setembro,1989.
KENNEDY, Peter. A guide to econometrics. Massachusetts, third ediction, The mit press,
1992.
MITTAG, H. J. e RINNE, H. Statistical methods of quality assurance. London, Chapman and
Hall, 1993.
Download

a normalização de distribuições não-normais através da