XXIX ENCONTRO NACIONAL DE ENGENHARIA DE PRODUÇÃO
A Engenharia de Produção e o Desenvolvimento Sustentável: Integrando Tecnologia e Gestão.
Salvador, BA, Brasil, 06 a 09 de outubro de 2009
APLICAÇÃO DA LEI DE BENFORD EM
DADOS PROVENIENTES DE
CONTROLE ESTATÍSTICO DE
PROCESSOS
Felipe Rigos da Rocha (UPM)
[email protected]
Raquel Cymrot (UPM)
[email protected]
A confiabilidade dos dados é fator essencial para tomadas de decisões
derivadas de análises estatísticas e suas interpretações. O setor
industrial se encontra no centro da discussão do desenvolvimento
sustentável, uma vez que suas atividadees contribuem para a
deterioração do meio ambiente. O método estudado, chamado análise
dos dígitos, constitui uma ferramenta poderosa na detecção de
interferência humana ou proveniente de componentes de diversos
processos, auxiliando, por exemplo, na otimização de recursos
naturais, minimização de retrabalho e refugo, além da economia
financeira e energética, entre outros fatores relativos a questão
ambiental. A análise dos dígitos se baseia na Lei de Benford, uma
distribuição anômala dos números inteiros de 1 a 9 ou de 0 a 9
(dependendo do caso), que ocorre em fenômenos naturais. O objetivo
deste trabalho é apresentar a teoria da Lei de Benford a partir de uma
revisão bibliográfica, investigar dois conjuntos de dados provenientes
do setor de qualidade, especificamente de Controle Estatístico de
Processos (CEP), a fim de aferir sua aderência a tal distribuição, e
discutir os resultados. A aplicação em processos industriais desta
técnica é bastante recente, e neste estudo foi realizada uma nova
abordagem para características especiais dos limites de especificação
de processos para uma das amostras analisadas.
Palavras-chaves: Lei de Benford, CEP, confiabilidade de dados
XXIX ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO
A Engenharia de Produção e o Desenvolvimento Sustentável: Integrando Tecnologia e Gestão
Salvador, BA, Brasil, 06 a 09 de outubro de 2009
1. Introdução
Neste início do século XXI ficou evidente a gravidade da degradação da natureza, resultado
do descaso da produção industrial com seus resíduos químicos e da falta de sustentabilidade
na utilização dos recursos naturais pelo ser humano. Tal situação está gerando muita
preocupação e discussões a respeito do meio ambiente. O controle de qualidade feito de forma
adequada tende a minimizar retrabalhos e refugos, economizando energia e gerando menos
resíduos poluidores do meio-ambiente.
O presente trabalho propõe um estudo em uma área vital para as tomadas de decisão derivadas
de análises estatísticas: a análise da confiabilidade de dados em processos industriais
utilizando um método estatístico de análise de dígitos baseado na Lei de Benford, uma
distribuição anômala dos números inteiros de 1 a 9 ou de 0 a 9, objeto desta pesquisa. Uma
vez comprovada a aderência de dados provenientes de um certo fenômeno relacionado a um
processo industrial à distribuição de Benford, outras amostras derivadas do mesmo fenômeno
seguirão a mesma distribuição.
Em muitos processos, para mensuração dos dados, são usadas transmissões eletrônicas,
manipulações computacionais, e outros procedimentos de análises físicas e químicas. Tal
situação aumenta a chance de haver uma alteração nos valores por conta de erros ocasionados
durante o processo. Esses erros, por sua vez, podem alterar não somente a produtividade de
uma empresa, mas também aspectos impactantes à natureza, como o desperdício de energia, o
aumento de refugo e lixo industrial, a diminuição da eficácia de sistemas de filtragem ou
mesmo na contenção de gastos correntes, possibilitando redirecionamento de recursos para
investimentos e aprimoramentos dos processos.
A análise dos dígitos representa uma ferramenta muito simples e poderosa a fim de se
monitorar algumas dessas atividades, contanto que seus fenômenos sigam a distribuição de
Benford. Nesse caso, a fim de se averiguar possíveis desvios de funcionamento ou coleta dos
valores, aplica-se um teste de aderência da distribuição de Benford em relação à distribuição
da amostra em questão, e caso os dados não estejam de acordo, pode-se tomar providencias
com relação aos equipamentos ou procurar explicações conjunturais sobre a fonte dos dados
(BROWN, 2005).
O método em questão se baseia em uma teoria proposta em 1938. Entretanto, a utilizacão
prática da Lei de Benford somente começou a ser focada a partir da década de 1980,
principalmente no setor contábil. Sua aplicação na indústria ainda é nova, com pouquíssimos
artigos científicos publicados no mundo (HÜRLIMANN, 2006).
Em 2006 foi publicada uma aplicação da Lei de Benford na análise de concentração de 12
poluentes no ar derivados de processos naturais, poluentes domésticos e a emissão dos
mesmos pelas indústrias. Foram comparados dados públicos coletados e reportados pelas
indústrias americanas sobre emissão de poluentes num dado período (TRI), em relação a
concentração de poluentes coletados pela agência reguladora U. S. Environmental Protection
Agency (EPA) no território dos Estados Unidos da América (EUA). O objetivo foi descobrir
se havia manipulação dos dados em benefício das empresas. Das doze amostras da agência
EPA (uma de cada poluente) testadas com a Lei de Benford, sete seguiram a distribuição.
Teoricamente, as amostras das indústrias deveriam seguir tal distribuição para esses mesmos
poluentes, porém duas ficaram distantes e foi averiguado o porquê desta diferença (MARCHI,
& HAMILTON, 2006).
2
XXIX ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO
A Engenharia de Produção e o Desenvolvimento Sustentável: Integrando Tecnologia e Gestão
Salvador, BA, Brasil, 06 a 09 de outubro de 2009
Em 2008 foi realizado um estudo com amostras de pesos de vasilhames, em gramas, com o
objetivo de se verificar a aderência deste fenômeno em relação à distribuição de Benford.
Foram analizadas cinco amostras, das quais três seguiram a distribuição esperada. As outras
duas passaram por um processo de avaliação, dos quais concluiu-se que os funcionários
utilizados na coleta desses dados estavam por demais atarefados e não tinham condições de
realizarem a tarefa de forma correta (HALES et al., 2008).
A distribuição de Benford apresenta as probabilidades dos dígitos significativos, algarismos à
esquerda dos valores de uma amostra. No caso do primeiro dígito significativo, a distribuição
se dá nos números de um a nove, e para os demais dígitos (segundo, terceiro, quarto, etc.) o
zero também é incluído. As curvas das distribuições obedecem uma função logarítmica
decrescente. Como exemplo, para o primeiro dígito, a distribuição resulta em 30% de
números um, 17% de números dois, 12% de números três, e assim por diante.
O objetivo do presente trabalho foi pesquisar dois conjuntos de dados obtidos de processos
industriais, mais especificamente do setor de qualidade, a fim de verificar a aderência de dois
diferentes tipos de medidas - dimensão e teor de elemento químico - estudando a aplicação do
método dos dígitos integrado ao Controle Estatístico de Processo (CEP). Um dos conjuntos
contém uma característica que demandou uma abordagem não encontrada em nenhuma
referência anterior já pesquisada pelos autores.
Este artigo está estruturado da seguinte maneira: a segunda seção apresenta a revisão de
literatura sobre a Lei de Benford; a terceira seção explica a aplicação do método da análise
dos dígitos; a quarta seção traz os procedimentos metodológicos elaborados para a realização
desta pesquisa; a quinta seção exibe as análises realizadas e respectivas discussões dos dados
fornecidos por uma indústria; a sexta seção apresenta as conclusões obtidas.
2. Referencial Teórico
Em 1881, Simon Newcomb notou uma característica interessante encontrada em um livro de
logaritmos - o fato do desgaste das bordas diminuir com o decréscimo das páginas - e
publicou o primeiro artigo sobre o assunto: “Note on the Frequency of Use of the Different
Digits in Natural Numbers”, no American Journal of Mathematics (NIGRINI, 1996; HILL,
1998; HILL, 1999).
Contudo, foi em 1938 que Frank Benford, físico da General Electric Company, publicou um
artigo descrevendo o mesmo fenômeno que ele observou em mais de 20.000 dados analisados
em diferentes amostras de diversas fontes, como distâncias de rios, estatísticas de Baseball,
números de endereços, entre outras (HILL, 1999).
A distribuição de Benford se dá nos ditos dígitos significativos, isto é, nos dígitos à extrema
esquerda dos valores, com exceção do zero, independentemente do número de algarismos de
cada valor da amostra. Benford notou empiricamente que, se analisado o primeiro dígito
significativo dos valores de certas amostras, a probabilidade dos números naturais de 1 a 9 em
certas distribuições não era de um para nove (0,1111), como esperado intuitivamente, mas que
o número 1 tinha 30% de probabilidade de ocorrer, o numero 2 tinha 17%, e assim por diante,
formando uma curva logarítmica decrescente. Esse fenômeno é chamado em estatística de
anomalia, e sua distribuição ficou conhecida como distribuição de Benford, ou Lei de
Benford, aplicada por meio da análise dos dígitos (NIGRINI, 1996; HILL, 1998; HILL,
1999).
Para os dados de um fenômeno analisados em relação à Lei de Benford, algumas condições
são impostas pela natureza da distribuição, e estas devem existir a fim de se obter a
3
XXIX ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO
A Engenharia de Produção e o Desenvolvimento Sustentável: Integrando Tecnologia e Gestão
Salvador, BA, Brasil, 06 a 09 de outubro de 2009
conformidade e a utilização do método da análise dos dígitos. Os dados analisados devem
descrever medidas de fenômenos similares, não necessariamente do mesmo fenômeno. É
necessário que as amostras tenham um grande número de observações ― na literatura atual,
não foi encontrado o uso da Lei de Benford em amostras com menos de 100 dados (HALES et
al., 2008). Estes precisam ser aleatórios e independentes, para isso devem provir de fonte
natural, por conta de algum processo ou observação sem manipulação direta ou interferência
humana. Esta última condição resulta do fato de que as pessoas não conseguem aleatorizar
uma série de dados de forma natural, sempre tendendo a certos valores (HILL, 1999).
A fim de se obter uma aleatoriedade mais eficaz, além do tamanho da amostra, convém
utilizar medidas/observações de diferentes locais ou de períodos diversos.
Em 1996, Hill propôs uma formulação matemática sobre o modelo e posteriormente, em
outros artigos, apresentou um detalhamento sobre os tipos de dados que seguem a Lei de
Benford, ressaltando algumas características importantes destes conjuntos de dados.
Hill estabeleceu o cálculo da função de probabilidade da distribuição de Benford apresentada
a seguir:
P( Di ) = log [ 1 + ( 1 / Di ) ]
(1)
sendo Di o valor do primeiro digito significativo, inteiro e não nulo, e P a sua probabilidade
de ocorrência.
A teoria se estendeu e, de maneira geral, o primeiro digito significativo pode ser formado por
um ou mais algarismos, por exemplo entre 10 e 99. A função desta generalização, também
logarítmica, é apresentada a seguir:
P( Di ... Dk ) = log [ 1 + ( 1 / ( Di ... Dk )]
(2)
Como exemplo, deseja-se saber, em um estudo qualquer, a probabilidade de que os dois
primeiros dígitos significativos de uma variável sejam iguais a 5 e 2 respectivamente. Tem-se:
P(52) = log [1 + (1/52)] = 0,00827.
Encontrou-se também a função de probabilidade das distribuições dos dígitos subseqüentes,
como o segundo, o terceiro e o quarto dígito significativo, mostradas a seguir:
9
P( X  D2 i )   log10 (1  1 /(10 D1k  D2 i ))
(3)
k 1
para 1 ≤ D1k ≤ 9; 0 ≤ D2i ≤ 9;
9
9
P( X  D3 j )   log 10 (1  1 /(100 D1k  10 D2i  D3 j ))
(4)
k 1 i 0
para 1 ≤ D1k ≤ 9; 0 ≤ D2i ≤ 9; 0 ≤ D3j ≤ 9;
9
9
9
P( X  D4l )   log 10 (1  1 /(1000D1k  100 D2i  10 D3 j  D4l ))
(5)
k 1 i 0 l 0
para 1 ≤ D1k ≤ 9; 0 ≤ D2i ≤ 9; 0 ≤ D3j ≤ 9; 0 ≤ D4l ≤ 9.
As Tabelas 1, 2, 3 e 4 apresentam respectivamente a distribuição do primeiro, segundo,
terceiro e quarto dígito, de acordo com a Lei de Benford.
Dígito
Probabilidade
4
XXIX ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO
A Engenharia de Produção e o Desenvolvimento Sustentável: Integrando Tecnologia e Gestão
Salvador, BA, Brasil, 06 a 09 de outubro de 2009
1
2
3
4
5
6
7
8
9
0,301030
0,176091
0,124939
0,096910
0,079181
0,066947
0,057992
0,051153
0,045757
Tabela 1 – Distribuição do primeiro dígito, conforme a Lei de Benford
Dígito
0
1
2
3
4
5
6
7
8
9
Probabilidade
0,119679
0,113890
0,108821
0,104330
0,100308
0,096677
0,093375
0,090352
0,087570
0,084997
Tabela 2 – Distribuição do segundo dígito, conforme a Lei de Benford
Dígito
0
1
2
3
4
5
6
7
8
9
Probabilidade
0,101784
0,101376
0,100972
0,100573
0,100178
0,099788
0,099401
0,099019
0,098641
0,098267
Tabela 3 – Distribuição do terceiro dígito, conforme a Lei de Benford
Dígito
0
1
2
3
4
5
6
7
8
9
Probabilidade
0,100176
0,100137
0,100098
0,100059
0,100019
0,099980
0,099941
0,099902
0,099863
0,099824
Tabela 4 – Distribuição do quarto dígito, conforme a Lei de Benford
A distribuição de Benford tem duas propriedades interessantes. A primeira é o fato de ser a
única distribuição de dígitos significativos de dados reais que é invariante a mudanças de
escala, ou seja, multiplicando-se os valores de uma amostra por uma constante, a distribuição
não se altera. Por exemplo, caso se estude dados provenientes de valores monetários que
5
XXIX ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO
A Engenharia de Produção e o Desenvolvimento Sustentável: Integrando Tecnologia e Gestão
Salvador, BA, Brasil, 06 a 09 de outubro de 2009
seguem a distribuição de Benford, a conversão de unidade monetária (Real, Dólar, Euro, etc.)
não mudaria as probabilidades dos dígitos significativos encontradas inicialmente. Assim,
após uma transação com mudança de escala, ainda é possível fazer uma análise dos valores
(HILL, 1998).
A segunda diz respeito à mudança de base dos dados. A mudança de base da função
logarítmica não afeta a distribuição dos dígitos em relação à distribuição de Benford. Por
exemplo, com a mudança da base 10 para 100 ou mesmo para base 2 binária, as
probabilidades dos dígitos serão iguais nos dois casos. Essa característica está tendo uma
grande repercussão na área da informática, com a possibilidade de acelerar o processamento
de dados (HILL, 1998).
Os resultados e interpretações da aplicação da função logarítmica sobre os dados de uma
amostra nem sempre são diretos e as funções para os dígitos subseqüentes ao primeiro são de
fundamental importância.
Em alguns casos observa-se que conjuntos de dados com pequena amplitude podem ser
analisados mediante as funções descritas anteriormente. Hales et al. (2008) levantaram a
questão de que certas distribuições seguem a Lei de Benford, porém não a partir dos primeiros
dígitos. Essa abordagem é determinante para o presente trabalho pelo fato das indústrias
trabalharem com especificações em seus produtos e processos, resultando em valores dentro
de uma amplitude pré-definida. Isto faz com que alguns números nunca apareçam nos
primeiros dígitos significativos.
Hales et al. (2008) realizaram um estudo utilizando amostras de dados no qual se aplicava
outra ferramenta estatística, o Controle Estatístico de Processos. Esses autores analisaram,
entre outros, o valor da massa de potes de plástico produzidos por certa empresa no qual o
valor esperado para a massa do produto era de 53,00 g, com um erro de  3,00 g. Logo, a
ocorrência do valor cinco no primeiro dígito deve ocorrer em todos os valores, e o segundo
dígito deve variar de zero a seis, não havendo ocorrência do restante dos dígitos. Tal estudo
confirmou que a Lei de Benford foi obedecida para a distribuição do terceiro e quarto dígito
da amostra de massa de potes plásticos.
3. A aplicação do método da Análise dos Dígitos
A aplicação do método na busca de dados alterados (intencionalmente ou não) se dá por meio
da comparação dos valores observados na amostra para o dígito em análise em relação aos
valores esperados para este mesmo dígito, segundo a distribuição de Benford. Tal comparação
se faz com a utilização de um teste de aderência.
Um teste de aderência mede quão perto uma distribuição observada está de uma distribuição
esperada (neste caso a distribuição de Benford). Na maioria dos artigos encontrados o teste de
aderência utilizado foi o teste Quiquadrado, porém foi encontrada também a utilização do
método Kolmogorov (MARCHI & HAMILTON, 2006). A hipótese H0 representa que a
distribuição dos dados observados é igual à distribuição dos dados esperados, enquanto que a
hipótese H1 corresponde a uma diferença significativa entre elas, indicando interferência,
manipulação ou erro de transmissão.
O teste de aderência Quiquadrado é realizado utilizando-se a estatística apresentada a seguir:
k
 o2  
i 1
k
(Oi  Ei ) 2
O2
 i n
Ei
i 1 Ei
(6)
6
XXIX ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO
A Engenharia de Produção e o Desenvolvimento Sustentável: Integrando Tecnologia e Gestão
Salvador, BA, Brasil, 06 a 09 de outubro de 2009
, com Oi igual a freqüência observada na amostra, Ei igual a freqüência esperada pela
distribuição de Benford, k igual ao número total possível de dígitos (9 para o primeiro e 10
para os demais dígitos significativos) e n igual ao número de observações na amostra. O valor
encontrado é comparado ao da distribuição Quiquadrado, a um nível de significância
estabelecido com (k – 1) graus de liberdade (CONOVER, 1999).
Embora, em geral, o nível de significância mais utilizado para amostras do tamanho usado na
verificação da Lei de Benford seja de 5%, neste estudo se utilizará um nível de significância
de 1%, conforme artigo de Hales et al. (2008), uma vez que se deseja minimizar a
probabilidade de se detectar falsos indícios de alterações.
Caso a distribuição de algum dígito, em um fenômeno para o qual já é conhecido que seus
valores seguem a lei de Benford, não siga tal distribuição, conclui-se que algum número (de 1
a 9 ou de 0 a 9) foi mais ou menos freqüente do que deveria ser. Desta forma, têm-se fortes
indícios de que os dados foram manipulados, arranjados ou sofreram alterações em sistemas
computacionais ou eletrônicos.
4. Metodologia
Esta pesquisa utilizou dados reais provenientes de indústria, sendo, portanto, necessária sua
aprovação pelo Comitê de Ética da instituição. Os dados só foram fornecidos após
devidamente assinados o Termo de Consentimento Livre e Esclarecido e a Carta de
Informação à Instituição. O Termo de Consentimento Livre e Esclarecido garante o
anonimato do local da coleta dos dados e por este motivo o nome da indústria que cedeu os
dados não será revelado.
Os dados analisados neste trabalho foram cedidos por uma indústria sedimentada no setor de
atuação e presente em vários paises.
A pesquisa utilizou um conjuntos de dados relacionados a um tipo de filtro de metais líquidos
e a um produto químico industrial utilizado em processos de fundição, obtidos do setor de
qualidade da empresa, sendo estes: comprimento do filtro e teor de alumínio na composição
do produto químico.
Como as variáveis medidas possuem limites inferiores e superiores de especificações, alguns
dos primeiros dígitos não devem ter uma distribuição aleatória. Para cada conjunto de dados,
testou-se a aderência dos dígitos que devem ter um comportamento aleatório com relação à
Lei de Benford.
Foi realizada uma nova abordagem com respeito a conjuntos de dados com a característica
dos limites inferior e superior de especificação terem números diferentes de dígitos
significativos.
As aderências à distribuição de Benford foram testadas utilizando-se o teste quiquadrado com
nível de significância de 1% e para todos os testes foram calculados seus níveis descritivos P,
logo rejeitou-se a hipótese nula de aderência quando P foi menor que 0,01.
5. Análise e discussão dos dados
Os conjuntos de dados analisados correspondem a medidas do comprimento de um tipo de
filtro para metais líquidos e o teor de alumínio, em porcentagem, em um produto químico
utilizado em processos de fundição. Para os testes de hipótese, tem-se H0 como sucesso no
teste de aderência da amostra em relação à distribuição de Benford e H1 como fracasso do
mesmo. Utilizou-se, como dito anteriormente, um teste Quiquadrado com nível de
7
XXIX ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO
A Engenharia de Produção e o Desenvolvimento Sustentável: Integrando Tecnologia e Gestão
Salvador, BA, Brasil, 06 a 09 de outubro de 2009
signuficância de 1% e com (k-1) igual a 9 graus de liberdade, no qual são considerados os
valores de zero a nove (k = 10).
Os conjuntos de dados foram obtidos no setor de qualidade de uma indústria que implementa
o Controle Estatístico de Processos (CEP). Pelo fato destas medidas obedecerem a
especificações, seus valores orbitam sobre uma média, com limites superior e inferior. Por
essa característica, os primeiros dígitos não têm possibilidade de seguir a Lei de Benford por
não haver aleatoriedade necessária e se fixarem em certos valores. Dessa forma, foi utilizada
uma metodologia semelhante a do artigo de Hales et al. (2008), porém com uma abordagem
diferente com relação aos valores de comprimento por uma característica própria.
5.1 Teor de alumínio
Para o teor de alumínio, em porcentagem, em um produto químico industrial, tem-se uma
especificação de 17,00% como limite inferior e de 22,00% como limite superior, com média
de 19,50%. O primeiro dígito pode ter a ocorrência dos números 1 e 2, somente, e o segundo
podem ser apenas os números 7, 8, 9, 0, 1 e 2, impossibilitando a aderência à Lei de Benford.
A amostra analisada continha 147 medidas todas com quatro dígitos (dois inteiros e dois
decimais) e foram realizados, então, testes para o terceiro e quarto dígito, com os resultados
abaixo:
3º Dígito
Oi do 3º Dígito
Ei do 3º Dígito
4º Dígito
Oi do 4º Dígito
Ei do 4º Dígito
0
0
20
14,9623
13
14,7259
1
1
23
14,9023
13
14,7201
2
2
15
14,8429
16
14,7144
3
3
15
14,7842
9
14,7086
4
4
15
14,7262
16
14,7028
5
5
12
14,6688
7
14,6971
6
6
10
14,6120
26
14,6914
7
7
10
14,5558
18
14,6856
8
8
17
14,5003
23
14,6799
9
9
10
14,4453
6
14,6742
Tabela 5 – Dígito, valor observado e valor esperado das freqüências de ocorrência para o 3º e 4º dígitos do teor
de alumínio
No teste do terceiro dígito, calculou-se um valor Quiquadrado igual a 11,2723, menor que o
valor tabelado de 21,6660, não rejeitando a hipótese H0 (P = 0,2575), ou seja, para este dígito
o conjunto aderiu à distribuição de Benford. No teste do quarto dígito, calculou-se um valor
Quiquadrado igual a 26,1726, maior que o valor tabelado de 21,6660, rejeitando-se a hipótese
H0 (P = 0,0019), ou seja, para este dígito o conjunto não aderiu à distribuição de Benford.
Conforme os resultados acima, o terceiro dígito seguiu a distribuição esperada, isto é, existe
aleatoriedade para o dígito, não havendo indícios de O quarto dígito não seguiu a distribuição
esperada, e diante à aderência do terceiro dígito, fica evidenciado alguma alteração por
interferência. Diante dessa observação, foi investigado junto à empresa um possível motivo
para o resultado negativo. Descobriu-se que no registro dos dados, o último dígito resulta de
arredondamentos feitos pelos operadores, ou seja, há intervenção humana, o que altera a
aleatoriedade.
5.2 Comprimento do filtro
O conjunto de dados de comprimento do filtro possui uma característica interessante que
possibilitou a aplicação de uma abordagem não encontrada nas referências pesquisadas pelos
autores.
8
XXIX ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO
A Engenharia de Produção e o Desenvolvimento Sustentável: Integrando Tecnologia e Gestão
Salvador, BA, Brasil, 06 a 09 de outubro de 2009
A especificação inferior e superior para o comprimento deste componente são
respectivamente iguais a 98,50 mm e 101,00 mm, com média igual a 99,75 mm. Nota-se
claramente que os valores variam de dois a três dígitos antes da vírgula (98 e 101). Desta
forma, o terceiro dígito dos valores abaixo da fronteira de valor 100,00 mm possui condição
de aderir à Lei de Benford, porém, o terceiro dígito dos valores iguais ou acima da fronteira
de valor 100,00 mm pode ter como algarismos apenas o zero e o um, de acordo com as
especificações.
A amostra analisada continha 162 medidas com dois ou três dígitos inteiros e dois dígitos
decimais. Deste modo houve 162 medidas para todos os dígitos analisados, mas apenas 35
medidas continham o quinto dígito, tornando a análise de dígitos sem significado para tal
dígito. Primeiramente foi realizado o teste de aderência à Lei de Benford segundo a
abordagem tradicional, obtendo-se para o terceiro e o quarto dígito os seguintes resultados:
3º Dígito
Oi do 3º Dígito
Ei do 3º Dígito
4º Dígito
Oi do 4º Dígito
Ei do 4º Dígito
0
0
44
16,4891
16
16,2285
1
1
7
16,4229
28
16,2222
2
2
6
16,3575
24
16,2158
3
3
10
16,2928
8
16,2095
4
4
10
16,2289
17
16,2031
5
5
24
16,1656
15
16,1968
6
6
21
16,1030
23
16,1905
7
7
11
16,0411
8
16,1842
8
8
15
15,9799
12
16,1779
9
9
14
15,9193
11
16,1715
Tabela 6 – Dígito, valor observado e valor esperado das freqüências de ocorrência para o 3º e 4º dígitos do
comprimento do filtro conforme enfoque tradicional
No teste do terceiro dígito, calculou-se um valor Quiquadrado igual a 69,8480, maior que o
valor tabelado de 21,6660, rejeitando-se a hipótese H0 (P = 0,0000), ou seja, para este dígito o
conjunto não aderiu à distribuição de Benford. No teste do quarto dígito, calculou-se um valor
Quiquadrado igual a 26,3118, maior que o valor tabelado de 21,6660, rejeitando-se a hipótese
H0 (P = 0,0018), ou seja, para este dígito o conjunto também não aderiu à distribuição de
Benford.
Observou-se portanto que para a abordagem tradicional não foi encontrada aderência. A
condição de aleatoriedade presente no terceiro dígito dos valores abaixo da fronteira de valor
100,00 mm se perde quando considerada a amostra por inteiro, incluindo os valores também
igual ou acima da fronteira nos quais a aleatorieade inexiste devido à especificação. Tal fato
motivou a concepção de uma abordagem alternativa, considerando o terceiro dígito aquele
imediatamente depois da vírgula, para todos os valores da amostra, inclusive para os que tem
três algarismos antes da vírgula. Desta forma, o teste é feito em toda a amostra, sobre os
primeiros valores livres de limites externos impostos. Tem-se os seguintes resultados para o
terceiro e quarto dígito:
3º Dígito
0
1
2
3
4
5
Oi do 3º Dígito
17
11
14
14
13
29
Ei do 3º Dígito
16,4891
16,4229
16,3575
16,2928
16,2289
16,1656
4º Dígito
0
1
2
3
4
5
Oi do 4º Dígito
14
26
19
11
14
15
Ei do 4º Dígito
16,2285
16,2222
16,2158
16,2095
16,2031
16,1968
9
XXIX ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO
A Engenharia de Produção e o Desenvolvimento Sustentável: Integrando Tecnologia e Gestão
Salvador, BA, Brasil, 06 a 09 de outubro de 2009
6
6
21
16,1030
24
16,1905
7
7
12
16,0411
12
16,1842
8
8
17
15,9799
14
16,1779
9
9
14
15,9193
13
16,1715
Tabela 6 – Dígito, valor observado e valor esperado das freqüências de ocorrência para o 3º e 4º dígitos do
comprimento do filtro conforme a nova abordagem
No teste do terceiro dígito, calculou-se um valor Quiquadrado igual a 16,1048, menor que o
valor tabelado de 21,6660, não rejeitando a hipótese H0 (P = 0,0647), ou seja, para este dígito
o conjunto aderiu à distribuição de Benford. No teste do quarto dígito, calculou-se um valor
Quiquadrado igual a 14,5037, menor que o valor tabelado de 21,6660, não rejeitando a
hipótese H0 (P = 0,1055), ou seja, para este dígito o conjunto também aderiu à distribuição de
Benford.
Segundo esta nova abordagem houve aderência para o terceiro e o quarto dígito, confirmando
assim a aleatoriedade para estes dígitos, não havendo indícios de interferência humana ou
proveniente de componentes do processo.
6. Conclusões
A aplicação do método dos dígitos proporciona um conhecimento mais detalhado sobre os
diversos processos industriais de uma empresa, seus componentes e operadores, por meio da
análise de dados coletados. Esse conhecimento auxilia nas tomadas de decisão, oferece a
oportunidade de otimização dos processos e redução de erros, o que por sua vez pode
proporcionar a diminuição de refugos, desperdícios de energia, recursos financeiros, entre
outros benefícios.
Em uma situação na qual, em um processo industrial, já se sabe por análises prévias que o
fenômeno tem por característica a distribuição de Benford por seus dígitos, quando uma
amostra proveniente deste fenômeno não aderir a tal distribuição, surge a oportunidade de se
investigar o motivo de tal comportamento.
A amostra de teor de alumínio foi testada para o terceiro e quarto dígitos. A aderência do
terceiro dígito comprovou a aleatoriedade e a não existência de interferências no processo. Já
a não aderência do quarto dígito se deu por intervenção humana devido ao uso de
aproximações, conforme informação obtida na indústria. Dessa forma também se comprova a
eficácia do uso da teoria da Lei de Benford na detecção de interferências nos dados.
A análise da amostra de comprimento de filtro apresenta uma nova abordagem quando os
dados se mantém entre os limites inferior e superior de uma especificação que possuem
diferentes números de dígitos significativos. Isto acarreta na necessidade de se testar a
aderência à Lei de Benford apenas nos dígitos livres de limites externos impostos. A
comparação do teste convencional com o realizado sob esta nova abordagem indica a
vantagem deste novo caminho sugerido. Novos trabalhos devem ser realizados para
comprovar esta abordagem para outros conjuntos de dados com tais características.
Os gestores atuais vislumbram um desafio cada vez mais difícil que compõe a produção
industrial em consonância com o meio ambiente, o alcance efetivo do desenvolvimento
sustentável. Sabe-se, mais do que nunca, que os recursos naturais estão se esgotando, e que o
lixo industrial acarreta diversos prejuízos ambientais e sociais, e nesse contexto, a Lei de
Benford se mostra uma boa ferramenta na busca da sustentabilidade.
Referências
10
XXIX ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO
A Engenharia de Produção e o Desenvolvimento Sustentável: Integrando Tecnologia e Gestão
Salvador, BA, Brasil, 06 a 09 de outubro de 2009
BROWN, R. J. C. Benford’s law and the screening of analytical data: the case of pollutant concentrations in
ambient air. The Analyst, Vol.130, p.1280-1285, 2005. Disponível em:
<http://www.rsc.org/publishing/journals/AN/article.asp?doi=b504462f>. Acesso em: 01 abr. 2008.
CONOVER, W. J. Practical Nonparametric Statistics. 3. ed. New York: John Wiley & Sons, 1999.
HALES, N. D.; SRIDHARAN, V.; RADHAKRISHNAN, A.; CHAKRAVORTY, S. S. & SIHA, S. M.
Testing the accuracy of employee-reported data: An inexpensive alternative approach to traditional methods.
European Journal of Operational Research, Vol. 189, p.583-593, 2008.
HILL, T. P. A Statistical Derivation of the Significant-Digit Law. Statistic Science, Vol. 10, pp. 354-363, 1996.
Disponivel em: <http://www.math.gatech.edu/~hill/publications/cv.dir/stat-der.pdf>. Acesso em: 17 abr. 2008.
HILL, T. P. The first digit phenomenon. The American Scientist, Vol. 86, n.4, p.358- 376, 1998. Disponivel em:
<http://www.math.gatech.edu/~hill/publications/cv.dir/1st-dig.pdf>. Acesso em: 17 abr. 2008.
HILL, T. P. The difficulty of faking data. Chance.Vol. 26, p.8-13, 1999. Disponivel em:
<http://www.math.gatech.edu/~hill/publications/cv.dir/faking.pdf>. Acesso em: 17 abr. 2008.
HÜRLIMANN, W. Benford’s law from 1881 to 2006: a bibliography. Zürich, 2006. Disponível em:
<http://arxiv.org/ftp/math/papers/0607/0607168.pdf>. Acesso em: 03 mar. 2008.
MARCHI, S. & HAMILTON, T. Assessing the accuracy of self-report data: an evaluation of the toxics release
inventory, Journal of Risk and Uncertainty , Vol. 32, n.1, p.57-76, 2006.
NIGRINI, M. A taxpayer compliance application of Benford’s law. Journal of the American Taxation
Association, Vol. 1, p.72-91, 1996.
11
Download

aplicação da lei de benford em dados provenientes de controle