UNIFACS UNIVERSIDADE SALVADOR
MESTRADO ACADÊMICO EM SISTEMAS E COMPUTAÇÃO
MARCIO ALEXANDRE PEREIRA DA SILVA
PROCESSAMENTO ANALITÍCO SOBRE DOCUMENTOS XBRL PARA A
CONTABILIDADE FORENSE
Salvador
2014
MARCIO ALEXANDRE PEREIRA DA SILVA
PROCESSAMENTO ANALITÍCO SOBRE DOCUMENTOS XBRL PARA A
CONTABILIDADE FORENSE
Dissertação apresentada ao Curso de Mestrado em
Sistemas e Computação, UNIFACS Universidade
Salvador, Universidade Salvador – Laureate International
Universities como requisito parcial para obtenção do grau
de Mestre.
Orientador: Prof. Dr. Paulo Caetano.
Salvador
2014
FICHA CATALOGRÁFICA
Elaborada pelo Sistema de Bibliotecas da UNIFACS Universidade Salvador, Laureate
Internacional Universities
Silva, Marcio Alexandre Pereira da
Processamento analitíco sobre documentos XBRL para a
Contabilidade Forense. / Marcio Alexandre Pereira da Silva.
Salvador, 2014.
102 f. : il.
Dissertação apresentada ao Curso de Mestrado em Sistemas e
Computação, UNIFACS Universidade Salvador, Laureate
International Universities, como requisito parcial para obtenção do
grau de Mestre.
Orientador Prof. Dr. Paulo Caetano.
1. Linguagem de programação. 2. Bancos de dados. I.
Caetano, Paulo, orient. II. Universidade Salvador – UNIFACS. III.
Título.
CDD: 005
MARCIO ALEXANDRE PEREIRA DA SILVA
PROCESSAMENTO ANALITÍCO SOBRE DOCUMENTOS XBRL PARA A
CONTABILIDADE FORENSE
Dissertação aprovada como requisito final para obtenção do grau de Mestre em Sistemas e
Computação, UNIFACS Universidade Salvador, Laureate International Universities pela
seguinte banca examinadora:
Paulo Caetano da Silva – Orientador - ___________________________________________________
Doutor pela Universidade Federal de Pernambuco - UFPE
UNIFACS Universidade Salvador, Laureate International Universities
Valéria Cesário Times - ______________________________________________________________
Doutora pela University of Leeds
Doutor pela Universidade Federal de Pernambuco – UFPE
Sérgio Martins Fernandes - ____________________________________________________________
Doutor pela Universidade de São Paulo - USP
UNIFACS Universidade Salvador, Laureate International Universities
Salvador,
setembro de 2014
"Porque dele e por ele, e para ele, são todas as
coisas; glória, pois, a ele eternamente." (Romanos
11:36).
AGRADECIMENTOS
Primeiramente ao Filho de Deus, Jesus Cristo, por ser a coluna de sustentação em minha vida,
e por abrir caminhos que permitiram a realização de mais um sonho;
Aos meus pais, Jasiel e Lucenilda, pelo amor, carinho, respeito e suporte incondicional em
minha vida;
Ao meu orientador, professor Paulo Caetano, pelos ensinamentos, paciência,
comprometimento sério e disponibilidade constante, fundamentais para a elaboração dos
artigos aceitos e a concretização desta dissertação. Espero contar com sua orientação e
parceria em projetos futuros;
À minha querida Amanda Eliúde, pelas orações, pelo amor, pela compreensão e paciência em
minhas ausências para conclusão de mais essa etapa em minha vida;
À minha família, meus irmãos (Clara e Binho) que apesar da ausência física, cada encontro é
a certeza de momentos alegres, aliviando as tensões decorrentes dos prazos a cumprir; minha
sobrinha Márcia Regina, com sua perene energia, exalando alegria em nosso dia-a-dia;
Aos amigos, Irlan, Lau, Priscilinha, Denysson e Lenierrison, todos em outras fronteiras, cujas
saudosas recordações estiveram presentes nos inúmeros momentos de reclusão, para
realização deste trabalho;
E por fim, à CAPES/PROSUP, pela bolsa de mestrado a mim confiada, vinculada ao
programa de Pós Graduação em Sistemas e Computação da Universidade Salvador.
RESUMO
O atual estágio da Tecnologia da Informação impulsionou diversos países a adotarem
tecnologias baseadas em padrões internacionais para divulgação de seus demonstrativos
contábeis. Com o objetivo de facilitar o intercâmbio de dados e aumentar a transparência das
informações financeiras disponibilizadas na Internet, linguagens derivadas da XML (e.g.
XBRL) foram adotadas como padrão tecnológico por diversas empresas. Todavia, a
ocorrência de ilícitos contábeis em grandes corporações e transações eletrônicas fraudulentas,
têm gerado prejuízos em bilhões de dólares anualmente e despertado a atenção de governos e
órgãos reguladores, fomentando pesquisas para detecção de fraudes através de recursos
computacionais aplicáveis em relatórios financeiros digitais. Com esse objetivo, o presente
trabalho propõe uma ferramenta de apoio aos analistas financeiros forenses (i.e. contabilistas
ou auditores fiscais forenses) baseada em linguagens de consultas OLAP. Esta linguagem
auxilia a detecção de fraudes em relatórios financeiros XML ou linguagens derivadas, i.e.
XBRL, a qual é mantida por um consórcio internacional composto por mais de 650
organizações e adotada por diversos governos. Propõe-se uma extensão da linguagem
LMDQL, a qual executa consultas tanto em documentos XML interligados por XLink e XML
Schema (característica intrínseca da XBRL), como em dados relacionais. Para isso são
apresentados operadores OLAP, baseado em modelos probabilísticos, que estendem aqueles
definidos na LMDQL e seu uso é demonstrado em um banco de dados relacional, assim como
em um banco de dados XML nativo. O modelo de dados relacional utilizado nesta dissertação
é baseado na especificação XBRL 2.1, o que o torna independente do modelo de negócios da
organização que o usa, facilitando sua aplicação em contextos diferentes. Para avaliação dos
operadores forenses, foi realizado um exemplo de aplicação a partir de documentos XBRL
disponibilizados pela United States Securities and Exchange Commission (U.S. SEC). Para
carga desses documentos no banco de dados relacional é apresentado um processamento ETL
(Extract, Transform, Load) sobre os relatórios financeiros, enquanto que no banco de dados
XML nativo houve a preservação do formato original dos documentos XBRL. Desta forma,
foi possível avaliar a eficiência da proposta apresentada, na qual foram aplicados, em um
servidor OLAP, cálculos probabilísticos utilizados na contabilidade forense. Uma avaliação
do tempo de execução foi efetuada sobre as consultas em ambos modelos de dados, i.e.
relacional e XML, na qual se verificou o processamento mais rápido das consultas sobre o
banco de dados relacional.
Palavras-chave: LMDQL. OLAP XML. OLAP XBRL. Auditoria Financeira Forense.
Contabilidade Forense. Análise Financeira Forense.
ABSTRACT
The current stage of Information Technology led many countries to adopt technologies based
on international standards for the disclosure of their financial statements. Aiming to facilitate
the exchange of data and increase the transparency of financial information available on the
internet, languages derived from XML (e.g. XBRL) have been adopted as the standard
technology for several companies. However, the occurrences of financial crime in large
corporations - and also fraudulent electronic transactions - have generated losses of billions of
dollars annually and have also attracted the attention of governments and regulatory agencies,
fostering research for fraud detection using computational resources applicable to digital
financial reports. With such goal, this dissertation proposes a tool for forensic financial
analysts (i.e. forensic accountants or forensic inspectors) based on OLAP query languages, for
the detection of fraud in financial reports represented in an the derivative of XML, i.e. XBRL,
which is maintained by an international consortium composed of more than 600 companies
and adopted by several governments. An extension of LMDQL language is proposed, which
supports both queries on XML documents connected by XLink and XML Schema (intrinsic
characteristic of XBRL), and on relational data. Thus, forensic operators which extend those
defined in LMDQL are presented, and their use is demonstrated in a relational database, as
well as in a native XML database. The relational data model chosen in this dissertation is
based on XBRL 2.1 specification, which makes it independent of the business model of the
organization that uses it, facilitating its application in different contexts. To evaluate the
forensic operators, a application example was conducted from XBRL documents made
available by the United States Securities and Exchange Commission (U.S. SEC). To load the
relational repository an ETL processing is presented (Extract, Transform, Load) on financial
reports, while in the native XML database the original format of XBRL documents was kept.
Thus, it was possible to evaluate the efficiency of the proposal presented, in which
probabilistic calculations used in forensic accounting were applied, on an OLAP server. An
evaluation of the runtime was performed on the queries in relational and XML databases and
it was verified that the processing of queries on the relational repository was faster.
Keywords: LMDQL. XML OLAP. XBRL OLAP. Forensic Financial Audit. Forensic
Accounting. Forensic Financial Analysis.
LISTAS DE FIGURAS
Figura 1 - Registro de prejuízo financeiro nos EUA em cinco anos, através de fraudes por
meio do uso de cartões de crédito................................................................................... 17
Figura 2 - Organização da Dissertação.......................................................................... 22
Figura 3 - Distribuição Normal ...................................................................................... 26
Figura 4 - Fórmula do Z-Teste ....................................................................................... 28
Figura 5 - Fórmula do χ2-Teste....................................................................................... 29
Figura 6 - Taxonomia XBRL.......................................................................................... 31
Figura 7 - Arquitetura do Processador da Linguagem LMDQL .................................... 32
Figura 8 - Metodologias de investigação para detectar evidências de fraudes financeiras40
Figura 9. Módulos da Financial Data Extract & Analyzer ............................................. 41
Figura 10 - Modelo proposto para combate a lavagem de dinheiro ............................... 43
Figura 11 - Aplicação dos modelos para análise forense financeira .............................. 44
Figura 12 - Modelo do Framework KDIFD ................................................................... 46
Figura 13 - Consulta com o operador EmpiricalRule..................................................... 55
Figura 14 - Consulta com o operador FirstDigit com a instrução null ........................... 56
Figura 15 - Consulta com o operador ZTest em conjunto com FirstDigit ..................... 57
Figura 16 - Consulta com o operador ChiSquaredTest em conjunto com FirstDigit ..... 58
Figura 17 - Processo de execução da consulta LMDQL Forense................................... 59
Figura 18 - Processo para Extensão do sistema LMDQL Forense................................. 60
Figura 19 - Consulta forense FirstDigit, instrução serialized......................................... 64
Figura 20 - Consulta forense FirstDigit, instrução null .................................................. 64
Figura 21 - Aplicação dos operadores ZTest e FirstDigit em conjunto ......................... 66
Figura 22 - Aplicação dos operadores ChiSquaredTest e FirstDigit em conjunto ......... 67
Figura 23 - Aplicação do operador EmpiricalRule à todos os elementos do documento XBRL
68
Figura 24 - Consulta forense pelo elemento "us-gaap:AccountsPayableCurrent" ......... 69
Figura 25 - Consulta forense pelo linkbase label "Accounts Payable, Current". ........... 69
Figura 26 - Processamento ETL utilizado neste trabalho............................................... 70
Figura 27 - Uso do operador FirstDigit, com a instrução serialized, na base relacional 70
Figura 28 - Uso do operador FirstDigit, com a instrução null, na base relacional ......... 70
Figura 29 - Aplicação do ZTest em conjunto com o FirstDigit ..................................... 71
Figura 30 - Aplicação do ChiSquaredTest em conjunto com o FirstDigit ..................... 71
Figura 31 - Aplicação do operador forense EmpiricalRule especificando todos os elementos
72
Figura 32 - Operador EmpiricalRule sobre o elemento "us-gaap:AccountsPayableCurrent"
72
Figura 33 - Consulta forense pelo linkbase label "Accounts Payable, Current" ............ 73
Figura 34 - Tempo de desempenho dos operadores forenses (em milissegundos) ........ 75
LISTAS DE QUADROS
Quadro 1 - Estrutura de uma consulta LMDQL ............................................................. 33
Quadro 2 - Exemplo de strings de buscas, no idioma português.................................... 37
Quadro 3 - Exemplos de strings de buscas, no idioma inglês ........................................ 38
LISTAS DE TABELAS
Tabela 1 - Probabilidade de ocorrência dos primeiros dígitos ....................................... 27
Tabela 2 - Quantidade de trabalhos retornados das buscas nas fontes de pesquisas ...... 38
Tabela 3 - Comparativo entre os Sistemas de Análise Forense investigados................. 50
Tabela 4- Comparativo entre os bancos de dados XBRL investigados.......................... 52
Tabela 5 - Definições usadas para especificar a sintaxe LMDQL ................................. 54
Tabela 6 - Tempo de execução da LMDQL Forense nas bases relacional e XML e Diferença
Percentual dos resultados................................................................................................ 74
Tabela 7 - Comparativo entre os Sistemas de Análise Forense investigados e o sistema
LMDQL Forense ............................................................................................................ 80
LISTA DE ABREVIATURAS E SIGLAS
DTS
DW
EBNF
ETL
EUA
H0
H1
iXBRL
LMDQL
MDX
OLAP
Pe
Po
SGBD
SQL
W3C
U.S. SEC
χ2
XBRL
XBRL
GIS
XLink
XLPath
XML
XQuery
Discoverable Taxonomy Set
Data Warehouse
Extended Backus–Naur Form
Extract, Transform, Load
Estados Unidos da América
Hipótese Nula
Hipótese Não Nula
Inline Extensible Business Reporting Language
Link Based Multidimensional Query Language
Multidimensional Expressions
On-line Analytical Processing
Probabilidade Esperada
Probabilidade Observada
Sistema Gerenciador de Banco de Dados
Structered Query Language
World Wide Web Consortium
United States Securities and Exchange
Commission
Qui-Quadrado
Extensible Business Reporting Language
XBRL Geographic Information System
XML Linkink Language
XML Linking Path Language
Extensible Markup Language
XML Query Language
SUMÁRIO
1 INTRODUÇÃO ......................................................................................................... 16
1.1 CONTEXTUALIZAÇÃO ........................................................................................ 16
1.2 MOTIVAÇÃO.......................................................................................................... 18
1.3 OBJETIVO ............................................................................................................... 20
1.4 ORGANIZAÇÃO DA DISSERTAÇÃO ................................................................. 21
2 FUNDAMENTAÇÃO TEÓRICA............................................................................ 24
2. 1 COMPUTAÇÃO FORENSE .................................................................................. 24
2.2 CONTABILIDADE FORENSE OU AUDITORIA CONTÁBIL ........................... 25
2.2.1 Regra Empírica.................................................................................................... 25
2.2.2 Lei dos Primeiros Dígitos ou Lei de Benford .................................................... 26
2.2.3 Teste Z .................................................................................................................. 27
2.2.4 Teste χ2 .................................................................................................................. 28
2.3 XBRL ....................................................................................................................... 29
2.4 LMDQL: LINK MULTIDIMENSIONAL QUERY LANGUAGE......................... 31
2.4.1 Arquitetura LMDQL .......................................................................................... 31
2.4.2 Consulta LMDQL................................................................................................ 32
2.5 MODELOS DE DADOS XBRL .............................................................................. 33
2.5.1 DPM: Data Point Model...................................................................................... 33
2.5.2 XBRL Abstract Model ........................................................................................ 34
2.5.3
XBRL Infoset ............................................................................................ 35
2.6. CONSIDERAÇÕES FINAIS .................................................................................. 35
3 TRABALHOS CORRELATOS ............................................................................... 37
3.1 METODOLOGIA UTILIZADA PARA A REVISÃO DA LITERATURA ........... 37
3.2 SISTEMAS DE ANÁLISES FORENSE FINANCEIRAS ...................................... 39
3.3 BANCOS DE DADOS XBRL ................................................................................. 47
3.4 CONSIDERAÇÕES FINAIS ................................................................................... 49
4 LMDQL FORENSE: LINGUAGEM E SISTEMA................................................ 53
4.1 REQUISITOS DA LINGUAGEM LMDQL FORENSE......................................... 53
4.2 A LINGUAGEM LMDQL FORENSE .................................................................... 54
4.3 O SISTEMA LMDQL FORENSE ........................................................................... 58
4.4 EXTENSÃO DO SISTEMA LMDQL FORENSE .................................................. 60
4.5 CONSIDERAÇÕES FINAIS ................................................................................... 61
5 EXEMPLO DE APLICAÇÃO DA LMDQL FORENSE EM RELATÓRIOS
FINANCEIROS DA U.S. SEC .................................................................................... 63
5.1 BANCO DE DADOS XML ..................................................................................... 63
5.2 BANCO DE DADOS RELACIONAL..................................................................... 69
5.3 AVALIAÇÃO DE DESEMPENHO DO TEMPO DE EXECUÇÃO DAS CONSULTAS
73
5.4 CONSIDERAÇÕES FINAIS ................................................................................... 76
6 CONCLUSÃO............................................................................................................ 77
6.1 TRABALHOS COMPLETOS PUBLICADOS EM ANAIS DE CONGRESSOS.. 82
6.2 TRABALHOS FUTUROS ....................................................................................... 82
REFERÊNCIAS ........................................................................................................... 84
ANEXO A – LMDQL Forense EBNF......................................................................... 96
ANEXO B - Modelo de Dados do XBRL Abstract Model Database ....................... 102
16
1 INTRODUÇÃO
Este capítulo tem como propósito contextualizar os problemas referentes ao combate à
fraude financeira, expondo os motivos e objetivos que levaram à realização deste trabalho. Na
Seção 1.1, é contextualizada a ocorrência de fraudes financeiras em nível mundial, a adoção
de linguagens de marcação para padronização dos demonstrativos financeiros e, por fim, a
necessidade da utilização da tecnologia da informação para conter a ocorrência de fraudes em
documentos contábeis digitais. Na Seção 1.2, são descritas as motivações que nortearam a
necessidade de resolução dos problemas encontrados, seguindo-se de duas seções nas quais
são descritos os objetivos e a estrutura desta dissertação, respectivamente.
1.1 CONTEXTUALIZAÇÃO
Diversos escândalos financeiros promoveram a perda de confiança nas práticas
contábeis em nível mundial (SANTOS; GRATERON, 2003), como as ocorrências de fraudes
contábeis em grandes empresas norte-americanas (e.g. Enron, Tyco, WorldCom e Adelphia),
as quais estão associadas aos maiores escândalos financeiros desde a Grande Depressão de
1929. Evidências semelhantes ocorrem no Brasil, as quais geraram a publicação de 9446
matérias relacionadas à fraudes financeiras ou contábeis os no jornal "O Globo" (CARDOSO;
SILVA, 2008).
Inúmeras
fraudes
identificadas
em
grandes
corporações
impulsionaram
o
desenvolvimento de padrões internacionais para os relatórios financeiros, e a sua adoção nas
corporações contribuiu para combater a perda de credibilidade nas práticas contábeis
(Gerônimo et al., 2009). Nesse contexto foi desenvolvida a linguagem de marcação XBRL
(eXtensible Business Reporting Language) (XBRL International Consortium, 2008), derivada
da XML é uma linguagem para intercâmbio de informações financeiras na Internet (SILVA;
TEIXEIRA, 2002; SILVA; TEIXEIRA, 2003; SILVA; SULAIMAN, 2003; SILVA, 2003;
WU; VASARHELYI, 2004; RICCIO et. al, 2005; SILVA et. al., 2006).
No intuito de aumentar a transparência do mercado financeiro, alguns governos (e.g.
Japão, China, Estados Unidos, Reino Unido, Espanha) padronizaram os demonstrativos
contábeis que trafegam entre o mercado e governo, adotando a XBRL como linguagem
padrão para a representação e o intercambio de seus relatórios financeiros (PENG et al., 2011;
FELDEN, 2011; BAI et al., 2012; STEENKAMP; NEL, 2013; LI et al., 2013).
17
A utilização da Tecnologia de Informação na contabilidade tem importância vital para
a sobrevivência das organizações, pois sem computadores, redes, banco de dados e um
sistema de informação seguro, a prestação de serviços torna-se inviável (MATTES; PETRI,
2013). Uma pesquisa divulgada em 2011 pela American Bankers Association revelou que a
maioria (57%) dos americanos com idade igual ou superior a 55 anos preferem fazer suas
operações bancárias pela Internet em vez de filiais ou caixas automáticos. Em 2010 esse
percentual era de 20%. (KIM et al., 2013). Essa pesquisa indica a adesão contínua da
população às transações financeiras online.
A necessidade da utilização de recursos computacionais para reprimir os avanços de
fraudes financeiras, é ascendente (HOGAN et al, 2008). A incidência de fraudes financeiras é
preocupante, tendo em vista que o prejuízo advindo dessa prática criminosa é estimado em
bilhões de dólares, anualmente. Conforme ilustrado na Figura 1, somente nos Estados Unidos
da América (EUA) em 2006 verificou-se uma perda de 1.991.960.000 de dólares, com fraudes
em pagamentos com cartões de créditos (atividade financeira efetuada com uso de sistemas
computacionais), cujo problema não apenas continuou, mas aumentou nos anos seguintes,
chegando em 2010 ao montante de 2.845.300.000 dólares (KHAN et al., 2012), um aumento
de 42,84% em quatro anos.
Figura 1 - Registro de prejuízo financeiro nos EUA em cinco anos, através de
fraudes por meio do uso de cartões de crédito
Fonte: Khan et al. (2012).
O combate às fraudes, e sua deteção em documentos financeiros, tem recebido atenção
pelos órgãos reguladores do mercado financeiro a exemplo da United States Securities and
Exchange Commission (U.S. SEC, 2014) - agência federal americana que detém a
18
responsabilidade primária pela regulação do setor de valores mobiliários nos EUA, i.e. ações,
opções de câmbio e outros mercados eletrônicos de valores - cuja preocupação é ratificada
com os formulários online (http://www.sec.gov/complaint/select.shtml) nos quais é possível
reportar queixas sobre suspeitas de fraudes financeiras. Além dessa iniciativa de comunicação
online, observa-se o incentivo (por parte da U.S. SEC) para combater as fraudes contábeis
com uso de Sistemas de Informação (SI), para checagem de documentos financeiros
reportados à comissão, os quais possuem formato digital (i.e. XBRL), e das transações
efetuadas por meios eletrônicos (COHN, 2013).
O governo federal dos EUA também tem concentrado esforços na deteção de crimes
financeiros. A Financial Fraud Enforcement Task Force (U.S. Department of Justice, 2009)
foi criada pelo presidente americano Barack Obama em 2009, com o intuito de centralizar os
esforços do governo juntamente com os parceiros locais e estaduais para investigar e
processar crimes financeiros significativos, assegurar a punição justa e eficaz para aqueles que
cometem crimes financeiros, recuperar recursos para as vítimas e enfrentar a discriminação
financeira nos mercados de crédito e financeiras. Com mais de 20 agências federais, 94
escritórios de advocacia dos EUA e parceiros estaduais e locais, é a coalizão mais ampla da
aplicação da lei, de investigação e agências reguladoras já montada para combater a fraude
financeira (STOPFRAUD.GOV, 2014).
Desta forma, soluções automatizadas para a detecção de fraude financeira em meios
eletrônicos, é um importante componente para diminuir a ocorrência de transações financeiras
ilícitas, as quais geram prejuízos em bilhões de dólares aos governos e instituições privadas.
1.2 MOTIVAÇÃO
A motivação deste trabalho baseia-se em vários aspectos observados no domínio
financeiro sobre ocorrência de fraudes, tais como: (i) pesquisas recentes (KHAN et al., 2012)
comprovam a urgência de novas soluções para combate e deteção de fraudes em documentos
financeiros, as quais já contabilizam prejuízo em bilhões de dólares aos governos e
instituições financeiras; (ii) órgãos reguladores do mercado financeiro e governos têm
incentivado a utilização da Tecnologia da Informação para a análise dos documentos digitais
financeiros, conforme apresentado na contextualização (Seção 1.1); (iii) concomitantemente,
é ascendente o uso da Internet para transações financeiras, implicando na necessidade de
soluções para proteger as empresas e seus usuários, de fraudes digitais (SHERLY;
NEDUNCHEZHIAN, 2010). Desta forma, é necessária uma ferramenta baseada em recursos
19
computacionais que auxilie a aplicação da contabilidade forense, analisando os dados
contidos em arquivos digitais (i.e. documentos financeiros), auxiliando a detecção de fraudes
em relatórios financeiros.
A seguir são descritas as vertentes tecnológicas adotadas para a solução proposta dos
problemas relacionados à análise forense, contudo, elas são explanadas com mais ênfase na
fundamentação teórica (Capítulo 2): (i) processamento analítico (OLAP), uma das técnicas
computacionais mais populares disponível aos auditores, a qual analisa dados, oferecendo
subsídios para tomadas de decisão (PANIGRAHI, 2011); (ii) solução em tempo real (Online),
a dinamicidade inerente ao domínio financeiro e a quantidade de dados trafegados
diariamente entre os sistemas, na Internet, exige a concepção de soluções que executem
análises rapidamente, auxiliando a tomada de decisão em tempo cada vez menor; (iii)
LMDQL, linguagem de consulta OLAP sobre repositórios relacionais e documentos XML
interligados por XLink, tecnologias comumente utilizadas para representar relatórios
financeiros digitais (e.g. documentos XBRL); (iv) XBRL, uma linguagem derivada da XML e
baseada em padrões internacionais, para representação de relatórios financeiros.
A partir da análise dos trabalhos correlatos descritos no Capítulo 3, não se verifica a
existência de uma ferramenta com a qual se aplique uma linguagem para análise forense, com
base em consultas analíticas em tempo real, cujo processamento seja baseado em técnicas
utilizadas na contabilidade forense convencional; tampouco enseje a sua aplicação sobre um
repositório multidimensional baseado em tecnologia reconhecida internacionalmente no
domínio financeiro, e.g. especificação XBRL 2.1 (XBRL INTERNATIONAL CONSORTIUM,
2008). Sobre os repositórios relacionais investigados, para suporte ao processamento analítico
forense sobre dados relacionais, buscou-se um modelo que adapte qualquer taxonomia XBRL,
sem adesão a qualquer modelo de negócio específico, e que não haja necessidade de alterar a
estrutura de tabelas em caso de armazenamentos de diferentes relatórios financeiros.
Em vista disso, a principal motivação para realização deste trabalho é o
desenvolvimento de uma ferramenta de apoio aos analistas da área financeira (ou órgãos
reguladores), na qual se aplica uma linguagem para análise forense de dados financeiros,
apoiando a tomada de decisões baseadas na detecção de fraudes, sobre repositórios que
contemplam dois paradigmas, i.e. XML (mantendo formato nativo dos relatórios financeiros
digitais baseados em XBRL) e relacional.
20
1.3 OBJETIVO
Este trabalho tem como objetivo implementar uma solução para detecção de fraudes
baseada em processamento analítico online (OLAP), disponibilizando ao analista forense uma
linguagem de consulta para execução da análise sobre documentos XML (interligados ou não
por XLink) e dados relacionais. Em suma, a solução proposta deve necessariamente: (a)
possuir uma linguagem que permita a realização de consultas para análise forense; (b) analisar
dados com a finalidade de detecção fraudes em documentos XML e dados relacionais; (c)
aplicar cálculos probabilísticos, comumente utilizados na contabilidade forense; (d) permitir a
aplicação conjunta de mais de um cálculo probabilístico; (e) ser uma solução open source que
possibilite sua extensão às novas técnicas de detecção de fraudes, permitindo a evolução da
solução proposta conjuntamente com o estado da arte da contabilidade forense e auditoria
financeira. Para que esse objetivo seja alcançado, alguns objetivos específicos são almejados:
•
Adoção das licenças compatíveis com a versão 1.9 (ou superior) da Open Source
Definition (OPEN SOURCE INITIATIVE, 2014), cujos softwares que as adotam são
conhecidos como open source ou código aberto, e das licenças recomendadas pela
Fundação de Software Livre (FREE SOFTWARE FOUNDATION, 2014), com as quais os
softwares são conhecidos como software livre ou free software. A adoção destas licenças
torna o uso da solução irrestrito e ilimitado, por qualquer instituição ou governo;
•
Especificação e implementação de uma linguagem de consulta de processamento
analítico, estendida da LMDQL (a qual faz consultas em bases XML e relacionais), de
código aberto e gratuito, a qual executa análises dos dados financeiros em tempo real com
a finalidade de averiguação de fraudes. Os requisitos e a implementação dessa linguagem,
são descritas nas Seções 5.1 e 5.2, respectivamente, no Capítulo 5;
•
Definição de uma modelagem de dados relacional que possua as seguintes propriedades:
(a) ser baseada na semântica e sintaxe da especificação XBRL 2.1, com a finalidade de
contemplar a taxonomia de qualquer documento XBRL, sem a necessidade de alterar a
estrutura de tabelas em caso de novas taxonomias XBRL, conforme descrito na motivação
(Seção 1.2 deste capítulo); (b) conter tabelas dimensionais que seja extensível às novas
dimensões, sem que haja a necessidade de alterar as tabelas do banco de dados, e tabelas
relacionais que armazenem os relacionamentos entre os elementos (i.e. semântica) do
esquema XBRL, definidos em documentos de linkbase XBRL. Algumas modelagens são
discutidas na Seção 2.5 do Capítulo 2;
21
•
Projeto e implementação de um sistema OLAP, com código disponível e gratuito, para
aplicação de modelos estatístico-probabilísticos sobre dados, nos paradigmas XML e
relacional, considerando no processamento analítico a semântica dos conceitos definidos
no esquema XBRL. Essa implementação é descrita nas Seções 4.3 e 4.4 do Capítulo 4;
•
Realização de estudos de casos, para demonstrar a expressividade dos operadores da
linguagem proposta e a realização de consultas OLAP em demonstrativos contábeis
XBRL, em uso no mundo real (e.g. os relatórios trafegados no mercado financeiros norte
americano e regulados pela U.S. SEC). Um estudo de caso foi conduzido no Capítulo 6,
utilizando como base tanto documentos XBRL nativos (Seção 5.1), como dados contidos
em um banco de dados relacional (Seção 5.2).
•
Realização de testes preliminares de avaliação de desempenho do processamento do
sistema proposto, no que se refere ao tempo de execução de consultas nas bases de dados
relacionais e XML. A avaliação preliminar de desempenho será apresentada na Seção 5.3
desta dissertação.
1.4 ORGANIZAÇÃO DA DISSERTAÇÃO
Além deste capítulo introdutório, no qual foram apresentadas a contextualização, as
motivações e os objetivos, esta dissertação está organizada em mais cinco capítulos, os quais
são mostrados na Figura 2.
22
Figura 2 - Organização da Dissertação
•
No segundo capítulo são discutidos alguns conceitos básicos relacionados ao
desenvolvimento desta dissertação. Os principais conceitos abordados são a computação
forense (Seção 2.1), a contabilidade forense ou auditoria contábil, e a aplicação de técnicas
estatístico-probabilísticas Regra Empírica, Lei dos Primeiros Dígitos ou Lei de Benford, Teste
Z e Teste Qui-Quadrado, para detecção de fraudes (Seção 2.2), a linguagem XBRL (Seção
2.3), a linguagem de consulta multidimensional baseada em dados XML interligados
23
(LMDQL) (Seção 2.4), e alguns modelos de dados XBRL, que servem como diretrizes para
construção de repositórios XBRL (Seção 2.5).
•
No capítulo três, uma revisão da literatura é mostrada, buscando trabalhos correlatos
ao proposto nesta dissertação. Os trabalhos encontrados são apresentados em duas seções,
uma para os trabalhos que abordam detecção de fraudes financeiras com utilização de
recursos computacionais e a outra discute bancos de dados baseados na tecnologia XBRL.
Este capítulo é encerrado com considerações finais avaliando vantagens, desvantagens e
lacunas dos trabalhos, as quais serviram de base para os requisitos discutidos nos objetivos
desta dissertação (Seção 1.4 do Capítulo 1);
•
O capítulo quatro apresenta os (i) requisitos para a linguagem de consulta LMDQL
para detecção de fraudes financeira (a qual foi denominada Linguagem LMDQL Forense), (ii)
a sintaxe da LMDQL forense, que propõe o uso de operadores OLAP baseados em técnicas
probabilísticas (denominados Operadores Forense), estendo àqueles presentes na LMDQL;
(iii) o sistema LMDQL Forense, e (iv) um modelo para extensão do sistema LMDQL Forense
a outras técnicas de detecção de fraudes financeiras;
•
O quinto capítulo mostra o Estudo de Caso, no qual é detalhado o processo de ETL
(Extract, Transform, Load) aplicado neste trabalho, com o qual se efetuou o carregamento de
dados dos documentos (instâncias, schemas e linkbases) XBRL para o XBRL Abstract Model
Database. Resultados das consultas analíticas são apresentados, os quais advêm tanto de
repositório relacional quanto XML. Além disso, um estudo de desempenho é apresentado,
avaliando o tempo de execução das consultas em ambas as bases de dados;
•
No capítulo seis, as considerações finais sobre o trabalho realizado para o
desenvolvimento desta dissertação são apresentadas, os artigos completos publicados em
congressos científicos, além de indicações para trabalhos futuros;
•
Por fim, o Anexo A e B os quais mostram, respectivamente, a gramática estendida da
LMDQL para LMDQL Forense, e a modelagem do XBRL Abstract Model Database.
A seguir é apresentado o capítulo referente à fundamentação teórica, na qual são
discutidos os conceitos e tecnologias que serviram de base para a solução proposta nesta
dissertação.
24
2 FUNDAMENTAÇÃO TEÓRICA
São realizadas neste capítulo discussões acerca da fundamentação teórica,
apresentando conceitos e tecnologias referentes ao desenvolvido do trabalho descrito nesta
dissertação. Dentre os principais tópicos abordados estão a computação forense, contabilidade
forense, as tecnologias XBRL e LMDQL, seguindo-se de algumas modelagens para
representação de dados financeiros (i.e. Data Point Model (MORILLA, 2014), o XBRL
Abstract Model (XBRL INTERNATIONAL INC., 2012) e o XBRL Infoset (XBRL
INTERNATIONAL INC., 2009a)).
2. 1 COMPUTAÇÃO FORENSE
A computação forense analisa artefatos digitais e faz a checagem e validação de seus
dados. A análise forense por meio de recursos computacionais é uma exigência atual, em
razão da transferência para o ambiente virtual (e.g. digital) da maioria das relações da
sociedade (e.g. transações financeiras). Assim, problemas sociais do cotidiano rompem as
fronteiras do mundo físico e adentram ao mundo digital, surgindo diversos e novos problemas
técnicos e jurídicos. Para exemplificar alguns problemas, pode-se listar: invasão de
privacidade, descumprimentos de contratos celebrados por meio da Internet, disseminação de
e-mails caluniosos ou difamatórios, compartilhamento ilícito de softwares, músicas e filmes,
entre outros problemas que passaram a fazer parte da realidade vivida pela sociedade atual
(FREITAS; ROCHA, 2012). A aplicação de tecnologias da informação para investigar crimes
digitais cresceu no final do século passado e fez surgir a computação forense, a qual é o
processo de identificar, preservar, analisar e apresentar evidências digitais amparadas pela lei
(MCKEMMISH, 1999).
Com a crescente utilização da Internet para transações financeiras, a computação
também vem sendo utilizada no combate ao CyberCrime (i.e. crimes cibernéticos, praticados
através da Internet) (COLLI, 2010). Esta modalidade criminal vem atingindo toda a sociedade
que muitas vezes não tem consciência dos riscos das tecnologias utilizadas diariamente.
Furtos em operações bancárias na web, fraudes em documentos, espionagem, são cada vez
mais associados a recursos computadorizados (VOLONINO et al., 2006; COSTA, 2011).
Devido ao crescente uso dos computadores e à popularização dos dispositivos
computacionais portáteis, são esperados que novos tipos de análises forenses baseadas em
computadores sejam criados. Da mesma forma, estima-se o aumento da demanda de soluções
25
forenses computacionais nos próximos anos, pois os computadores tornaram-se uma
ferramenta imprescindível nesse processo (ELEUTÉRIO; MACHADO, 2011).
2.2 CONTABILIDADE FORENSE OU AUDITORIA CONTÁBIL
A contabilidade forense (ou auditoria contábil) apresenta-se como uma evolução do
processo de controle patrimonial que é realizado com o intuito de descobrir fraudes,
desfalques, entre outros danos ao patrimônio das organizações e de seus cotistas ou acionistas.
Constituindo-se a ciência responsável pelo combate à fraude patrimonial, qualifica-se como
uma estrutura capaz de produzir provas hábeis e admissíveis em juízo, cujos profissionais
precisam ter pleno domínio da ciência contábil, especialmente no que se refere à auditoria e à
perícia (PARADA, 2013).
Aplicada por um auditor contábil ou contabilista forense - cuja atuação, na visão dos
usuários externos da informação contábil, é sinônimo de confiança e credibilidade (SANTOS;
GRATERON, 2003), a auditoria contábil tem importância na prevenção e combates aos erros
e às fraudes na organização. Trata-se de um instrumento indispensável na verificação de
fraudes e erros contábeis, pois realiza procedimentos importantes, como: exame, vistoria,
indagação, investigação, arbitramento, avaliação e certificação, a fim de esclarecer
determinados fatos. Portanto, é fundamental que as irregularidades sejam combatidas, pois,
caso contrário, as empresas poderão ter problemas, como algumas que chegaram à falência
(MENEGUSSI; IANESKO, 2008).
A contabilidade forense tem a finalidade de obtenção de evidências e provas de
documentos fraudulentos. Para apuração dos dados contidos em relatórios financeiros, são
aplicados diversos métodos estatístico-probabilísticos para comprovação da veracidade dos
documentos que a compõe. Diversos trabalhos são encontrados na literatura que abordam a
detecção de fraudes, nos quais são encontrados estudos de técnicas probabilísticas em uso
pela contabilidade forense não computadorizada para análise dos dados (HILL, 1998;
FRANCISCHETTI, 2007; LAGIOIA et al.,2011; SILVA JR, 2013; COSTA et al, 2013).
Alguns desses cálculos probabilísticos utilizados nesses trabalhos (i.e. Regra Empírica, Lei
dos Primeiros Dígitos, Teste Z e Teste χ2), tiveram sua aplicação comprovada na área
financeira (por meio de recursos não computacionais), cujas teorias são discutidas a seguir.
2.2.1 Regra Empírica
Na literatura são encontrados vários estudos e aplicações da Regra Empírica, cuja
26
proposta tem como base a Distribuição Normal sobre um conjunto de dados (THE OXFORD
MATH CENTER, 2013; BLANCO ; GINOVART, 2010; INSTITUTO GAUSS DE
MATEMÁTICA, 2010; THE BOOK OF THREES, 2013). No domínio contábil, após a coleta
de dados de relatórios financeiros, define-se a sua Distribuição Normal, a qual se trata da
medição da variabilidade dos valores, baseado na soma e subtração (em até 3 vezes) do desvio
padrão (σ) em relação à média padrão (µ), calculados a partir de um conjunto de dados.
Segundo esta regra, conforme ilustração da Figura 3, há 68,26% de probabilidade de que
todos os valores válidos possíveis encontrem-se a uma distância da média padrão de 1 sigma
(σ), aqui considera-se a soma e subtração de um desvio padrão (i.e. µ-1σ e µ+1σ), tendo como
base a média padrão. Quando os valores encontram-se a uma distância de 2 sigmas (i.e. µ-2σ
e µ+2σ) , há probabilidade de ocorrência dos dados é de 95,44%, e a uma distância de 3
sigmas (i.e. µ-3σ e µ+3σ), o percentual é de 99,74%. O que passar da distância de 3 sigmas,
negativamente ou positivamente, pode ser considerado um dado anômalo, i.e. não é
correspondente com seu histórico de dados, está fora da Distribuição Normal, podendo
caracterizar uma fraude.
Figura 3 - Distribuição Normal
2.2.2 Lei dos Primeiros Dígitos ou Lei de Benford
A Lei dos Primeiros Dígitos, também conhecida como Lei de Newcomb-Benford ou
Lei de Benford, foi originalmente descoberta em 1881, quando o astrônomo americano Simon
Newcomb observou que as primeiras páginas dos livros logarítmicos encontravam-se mais
gastas que as demais. No mesmo ano, Newcomb afirmou que a ocorrência de dígitos em um
universo de dados numéricos segue uma distribuição particular da probabilidade
(HILL,1998). O mais completo trabalho empírico relacionado a esta lei até a década de 1990
27
foi o de Benford (1938), o qual contém a maior tabela de frequência de dígitos. O período de
maior publicação científica abordando o uso da Lei de Newcomb-Benford foi entre os anos de
2002 e 2006, ficando o Brasil em segundo lugar com 10 publicações, abaixo apenas dos
Estados Unidos que lidera com 22 publicações. Conclui-se que esta análise evolutiva das
publicações delineia a Lei dos Primeiros Dígitos como um instrumento aplicável e eficaz na
detecção de desvios significativos relacionados à ocorrência de fraudes (COSTA et al., 2013).
Outras obras que abordam a aplicação dessa lei na auditoria e contabilidade forense ratificam
a importante desta lei no domínio financerio (DURTSCHI et al., 2004; FRANCISCHETTI,
2007; NIGRINI ; WELLS, 2012;).
Esta lei é uma anomalia da probabilidade que demonstra a ocorrência irregular dos
dígitos de 1 a 9, i.e. não obedece a probabilidade comum de ocorrência dos dígitos, que seria
de 1/9. Esta particular anomalia sugere que a ocorrência dos dígitos 1, 2 e 3 ocorrem com mais
frequência, sendo estes dígitos mais comuns que os demais (HILL, 1998). Tendo em vista
uma séria aleatória de números, verifica-se que se os números investigados não estiverem
relacionados a algum evento social ou natural, a distribuição do primeiro dígito não é
uniforme. Esta anomalia proposta por Newcomb prenuncia que o primeiro dígito (um)
aparece em aproximadamente 30,1% dos casos de um conjunto de dados numéricos, já o
número 2 ocorre em aproximadamente 17,6%, diminuindo a ocorrência sucessivamente até o
digito nove, conforme se verifica na Tabela 1.
Tabela 1 - Probabilidade de ocorrência dos primeiros dígitos
Dígito
Probabilidade
1
2
3
4
5
6
7
8
9
30,10%
17,61%
12,49%
9,69%
7,92%
6,69%
5,80%
5,11%
4,58%
Fonte: Hill (1998).
2.2.3 Teste Z
O cálculo probabilístico Teste Z é utilizado para medir a correlação entre um conjunto
de dados que representa a probabilidade observada (Po) e outro conjunto de dados referentes à
probabilidade esperada (Pe) (Oxford Reference, 2014; Lenarcic & Stanley, 2008; Charles
28
Sturt University, 2010). No domínio financeiro, o teste Z pode ser aplicado considerando a
Lei de Benford como a Pe, i.e. a probabilidade esperada para cada dígito segue as definições
da Lei dos Primeiros Dígitos (Tabela 1), e a Po é extraída dos relatórios financeiros
analisados. O Teste Z tem a finalidade de definir o grau de significância entre as diferenças
das duas probabilidades (Pe e Po), comprovando suas correlações. O sistema de hipóteses
adotados no domínio estatístico, denota-se a partir de uma simbologia usual, tais quais: (i)
Hipótese nula (H0), na qual não existe diferença estatisticamente significativa entre as duas
probabilidades, i.e. Po é correlata a Pe, ou seja, não há indicação de ocorrência de fraudes
entre os valores analisados; e (ii) Hipótese não nula (H1) na qual existe diferença
estatisticamente significativa entre distribuições de Po e Pe, traduzindo-se que Po não é
correlato a Pe, podendo ser um indício de ocorrência de fraude.
O Teste Z trata-se de um teste probabilístico paramétrico, ou seja, necessita de
parâmetros relacionados aos dados analisados, como média e variância, e por isso requer a
quantidade numérica (n) da amostra de dados analisada (GATEN, 2000; ORLOFF, 2013).
Assim sendo, a fórmula do Z-Teste é o módulo da diferença entre Po e Pe decrescido pela
razão inversa de duas vezes o número de elementos contidos na amostra a ser analisada (2n),
dividido pela raiz da divisão entre a multiplicação de Pe com o número 1 decrescido pela Pe, e
o número de elementos (n), conforme ilustrado na Figura 4. Importante ressaltar que a razão
1
/2n contida no numerador da fórmula, é o termo de correção de continuidade - o qual é
utilizado para melhorar a aproximação de uma variável pela distribuição normal que é
contínua, este termo é usado quando ele é menor que o módulo de Po decrescida de Pe (i.e. |Po
− Pe|).
Figura 4 - Fórmula do Z-Teste
2.2.4 Teste χ2
O Teste Qui-Quadrado (χ2), semelhantemente ao Teste Z, é utilizado para medir o grau
de conformidade da distribuição de Po com a Pe, mas se trata de um modelo não paramétrico,
29
i.e. não é preciso informar a quantidade de dados analisados, diferenciando-se do Teste Z
nesse aspecto (ROSENHOLTZ, 2004; THE JOHNS HOPKINS UNIVERSITY ; DIENERWEST, 2008; ECK ; RYAN, 2012). O sistema de hipóteses deste teste denota-se de forma
semelhante ao descrito no Teste Z, ou seja, a ocorrência de H0 indica a ausência de fraude,
havendo conformidade da distribuição de Po com Pe, e a ocorrência de H1 indica a não
conformidade entre essas duas distribuições. Por se tratar de um teste probabilístico não
paramétrico, o Teste χ2 não necessita da média ou variância das amostras de dados analisados,
e por isso não requer a quantidade numérica das amostras de dados. Assim sendo, a fórmula
do Teste χ2 é o quadrado da diferença entre Po e Pe, a qual é divida pelo valor da Pe, conforme
ilustrado na Figura 5. Quando Po é muito próximo a Pe, o valor de χ2 é pequeno, mas quando
as divergências são grandes, χ2 assume valores maiores, caracterizando-se um quadro de
verificação de fraude ou erros nos valores informados (CONTI, 2009).
Figura 5 - Fórmula do χ2-Teste
2.3 XBRL
Derivada da linguagem XML (eXtensible Markup Language), a XBRL é um padrão
aberto e gratuito, cuja concepção tem como base a criação, o intercâmbio e a análise de
relatórios de informações financeiras. Como tal, permite que investidores, pesquisadores e
analistas do mercado financeiro analisem e extraiam informações por meio de suas aplicações,
simplificando uma das fases principais da análise financeira: a obtenção e conversão de
formatos de dados (SILVA ; TEIXEIRA, 2002; SILVA ; TEIXEIRA, 2003; SILVA ;
SULAIMAN, 2003; SILVA, 2003; WU ; VASARHELYI, 2004; RICCIO et. al, 2005; SILVA
et. al., 2006).
A estrutura e semântica dos elementos XBRL são definidas em uma taxonomia, a qual
é composta por um conjunto de documentos XBRL interligados. A associação entre
elementos XBRL e documentos XBRL ocorre por meio de links. Um link é um mecanismo
utilizado para associar dois ou mais recursos. Os links usados em XBRL podem estar contidos
no próprio documento XBRL, no qual estão os recursos ou em outro documento XBRL,
denominado linkbase, que contém uma coleção de links. Os links associam recursos locais e
30
remotos. Um recurso local é um elemento XBRL que participa de uma ligação em virtude
dele, ou do elemento que o contém (elemento pai), ser um elemento de ligação. Já um recurso
remoto participa de uma ligação em razão de ser endereçado por uma URI (Universal
Resource Identifier). Um recurso local é especificado "por valor" e um recurso remoto "por
referência" (W3C, 2001). Uma tecnologia usada para estabelecer links entre dados
representados em XML é XLink (XML Linkink Language) (W3C, 2001), que define dois
tipos principais de links: os simples e os estendidos (SILVA, 2010).
Um link simples associa exatamente dois recursos, um local e um remoto. Essa
associação cria um arco de ligação entre eles, cuja origem é o recurso local e o destino, o
remoto. Os arcos são representados por elementos que indicam os recursos participantes da
ligação. Por outro lado, os links estendidos permitem associar um número arbitrário de
recursos participantes na ligação. Um link estendido consiste basicamente de um elemento
XBRL que contém outros elementos, nos quais atributos especificados por XLink são
declarados, conferindo a estes sub-elementos determinadas funcionalidades. XLink provê
quatro tipos de sub-elementos: (i) locator, usado para referenciar recursos remotos por meio
de uma URI; (ii) resource, usado para encapsular informações no elemento de link estendido;
(iii) arc, usado para estabelecer relações direcionais entre pares de elementos locators e/ou
resources; e (iv) title, que provê informações descritivas a respeito do link, que devem ser
entendidas por pessoas (SILVA, 2010).
A utilização em conjunto de tecnologias para definir a estrutura e relacionamentos
entre instâncias XBRL forma uma rede de documentos XBRL. A Figura 6 ilustra como pode
ocorrer uma rede de documentos XBRL usando as tecnologias XML Schema e XLink. Uma
instância pode apontar para um esquema (XML Schema) (SPERBERG-MCQUEEN ;
THOMPSON, 2000), que por sua vez pode apontar para outro(s) esquema(s). Esses conjuntos
de esquemas podem referenciar linkbases. Além disso, linkbases podem referenciar outros
linkbases, enquanto que a instância, os esquemas e linkbases podem possuir links internos.
Assim, um encadeamento de documentos é formado, sendo necessária a navegação por eles
para se encontrar informação adicional. Portanto, percebe-se que é possível navegar de uma
instância XBRL para esquemas ou para linkbases, ou entre esquemas, ou entre linkbases
XBRL. Deste modo, links internos e externos aos documentos XBRL podem ser criados. Essa
estrutura permite a definição de relacionamentos entre os elementos XBRL, servindo de
informação complementar àquelas presentes nas instâncias XBRL (SILVA ; TEIXEIRA,
2002; SILVA ; TEIXEIRA, 2003; SILVA ; SULAIMAN, 2003; SILVA, 2003).
31
Figura 6 - Taxonomia XBRL
Fonte: Silva (2010).
2.4 LMDQL: LINK MULTIDIMENSIONAL QUERY LANGUAGE
A LMDQL (SILVA; TIMES, 2009; SILVA, 2010; SILVA et al., 2012) é uma
linguagem
derivada
da
MDX
(Multidimension
Expression)
(SPOFFORD,
2001;
MICROSOFT, 2008), de padrão aberto e gratuito, que executa consultas OLAP sobre
documentos XML interligados por links. A LMDQL possui operadores para o domínio
financeiro (i.e. HAnalysis, VAnalysis, Cross, NNearestValues, NNearestValuesPercentual),
os quais permitem (a) a aquisição de informação em linkbases, característica das taxonomias
XBRL, a partir de integração da XLPath (SILVA; TIMES, 2009; SILVA et al., 2010) com
LMDQL; (b) a realização de consultas analíticas em um conjunto de documentos XML; (c) a
realização de consultas com base no valor ou na estrutura do documento XML; (d) a criação
de operadores com base em outros operadores criados em tempo de execução; e (e) a
realização de análises horizontal, vertical, de separatrizes e com base na proximidade dos
valores dos dados (SILVA, 2010). Por estender a MDX fica implícito que a extensão de
operadores é nativa. A seguir serão apresentadas duas subseções descrevendo a arquitetura e a
sintaxe de consulta da LMDQL, as quais foram extraídas de Silva (2010) para melhor
contextualizar a extensão da LMDQL na proposta desta dissertação.
2.4.1 Arquitetura LMDQL
Conforme ilustrado na Figura 7, a arquitetura LMDQL está dividida em três camadas
que desempenham as seguintes funções: interface com o usuário, processamento das consultas
32
LMDQL e aquisição de dados. A camada Interface transfere a requisição de consulta do
usuário para a camada intermediária (Processor). Esta camada é responsável pelo
processamento da consulta, comunicando-se com a camada inferior (Data), a qual fornece os
dados requisitados. A primeira camada da arquitetura, Interface, contempla a interface gráfica
com o usuário. Na segunda camada, encontra-se o mecanismo de processamento analíticomultidimensional. A terceira camada refere-se ao armazenamento dos dados, o qual é
composto pelo (a) banco de dados de documentos de instância XBRL, Data Cube; (b) o
repositório de metadados, i.e. Metadata Repository, no qual estão os schemas e os linkbases;
(c) e o componente Operators Library, onde são armazenados os operadores criados pelo
usuário. O Data Cube, o Metadata Repository e o Operators Library podem estar
armazenados em um mesmo sistema gerenciador de banco de dados (SGBD).
Figura 7 - Arquitetura do Processador da Linguagem LMDQL
Fonte: Silva (2010).
2.4.2 Consulta LMDQL
Conforme descrito em Silva e Times (2009), Silva (2010) e Silva et al. (2012), a
sintaxe da LMDQL fornece um conjunto de recursos que possibilita ao usuário, realizar
consultas sobre dados multidimensionais no contexto de documentos XML. As consultas
LMDQL são representadas pelo conjunto de elementos ilustrados no Quadro 1. Uma consulta
LMDQL retorna um subconjunto de dados do cubo sobre o qual a consulta é aplicada,
33
denominado cubo de resultado. Para especificação de uma consulta, são necessárias as
seguintes informações: número de eixos ou conjuntos de hierarquias, os membros de cada
dimensão que serão incluídos em cada eixo da consulta, o nome do cubo que define o
contexto da consulta, os membros de um eixo sobre o qual os dados são extraídos. Para a
realização de consultas em documentos com estruturas diferentes, a LMDQL especifica a
cláusula opcional $VARIABLE. A declaração variable_specification define os possíveis
caminhos que serão utilizados para recuperação dos membros na estrutura hierárquica dos
documentos XML. A cláusula SELECT define um cubo de resultado que conterá os dados
multidimensionais obtidos na consulta. Por possuir uma sintaxe semelhante à de MDX, as
demais cláusulas da expressão da consulta permanecem inalteradas. A definição de
expressões LMDQL, possibilita consultas a dados multidimensionais, permitindo a coleta de
informações sobre repositório multidimensional (SILVA, 2010; SILVA et al., 2012).
Quadro 1 - Estrutura de uma consulta LMDQL
2.5 MODELOS DE DADOS XBRL
Alguns modelos de dados para XBRL foram investigados na literatura, os quais são
diretrizes para a construção de um repositório de dados financeiros, baseados na tecnologia
XBRL. A seguir, serão discutidos o DPM, o XBRL Abstract Model e o XBRL Infoset, os
quais são modelos de dados em uso no mercado e na academia para representação de
relatórios financeiros XBRL.
2.5.1 DPM: Data Point Model
O Data Point Model (DPM) é um modelo para representação de dados financeiros,
baseado na tecnologia XBRL, focada no mercado financeiro europeu (IFRS, 2012). São
diretrizes - publicadas na Internet (MORILLA, 2014) - para representação estruturada dos
dados financeiros, identificando os conceitos de negócio e suas relações, bem como as regras
de validação. Este modelo contém todas as especificações técnicas necessárias para o
desenvolvimento de uma solução de relatórios de TI. O DPM é destinado principalmente para
34
uso na transmissão de dados entre as autoridades competentes e à European Banking
Authority (EBA) (EUROPEAN BANKING AUTHORITY, 2014).
Um ponto de dados do DPM é identificado por cinco elementos: Primary item,
especifica o tipo de dados a ser relatado, i.e. um número, uma data, um texto, um valor
monetário. Dimension, trata-se de uma característica ou atributos que identificam as
informações financeiras descritas em um ponto de dados, e.g. categoria principal, a moeda dos
instrumentos, o setor da contraparte, residência da contraparte, a localização da atividade.
Member, cada dimension deve ter dois ou mais members, os quais são um dos valores que as
dimensions são atribuídas, e.g. dinheiro, empréstimos e ações são membros da dimensão
"categoria principal" - cada membro deve ter uma definição exata, então dois conceitos que
compartilham algumas características, mas não são exatamente os mesmos, deve ser
identificado por dois membros diferentes (e.g. carteira de negociação contabilidade e carteira
de negociação prudencial). Domain, especificado para evitar redundâncias quando um
membro é utilizado por mais de uma dimensão, e.g. o domain "área geográfica" é utilizado
para incluir todos os membros de acordo com os países e regiões, independentemente se esses
membros estão alocados em outras dimensões, as quais podem ser: localização da atividade,
residência do emitente, residência da contraparte. Hierarchies, as quais fornecem informações
adicionais sobre a relação entre os membros incluídos em um domínio, indicando a relação
entre eles (MORILLA, 2014).
2.5.2 XBRL Abstract Model
É um modelo que define a representação semântica da especificação XBRL 2.1.
Divulgado na Internet, esse modelo é mantido pelo consórcio internacional XBRL
(XBRL INTERNATIONAL INC, 2012) - o qual propõe diretrizes para representação, em
bancos de dados (relacional ou não), da semântica e das taxonomias XBRL.
O XBRL Abstract Model é apresentado através de data points, i.e. um fato financeiro
é representada por um conjunto de informações semânticas de negócio, característica
intrínseca da especificação Table Linkbases 1.0 (XBRL INTERNATIONAL INC, 2011a), a
qual fornece mecanismos para a representação de relacionamentos mais complexos entre os
conceitos contábeis baseada na especificação XBRL Formula e XBRL Dimension. Um
exemplo da vantagem do Table Linkbase sobre os linkbases padrões da especificação XBRL
2.1 (i.e. presentation, calculation, definition, label e reference) é a representação de
35
hierarquias entre os conceitos do esquema XBRL, no linkbase presentation é previsto apenas
um simples arranjo de fatos, com a Table Linkbase pode-se definir a apresentação de dados
multidimensionais contidos em um conjunto de taxonomias interligadas.
O modelo XBRL Abstract é baseado na especificação XBRL 2.1, comportando oito
módulos XBRL: (i) Módulo de Instâncias XBRL, refere-se ao armazenamento de elementos
da sintaxe XBRL que representa os itens dos relatórios financeiros; (ii) Módulo Inline XBRL
(iXBRL) (XBRL INTERNATIONAL INC, 2011d), representa os elementos que definem a
renderização HMTL dos relatórios financeiros; (ii) Módulo Discoverable Taxonomy
Set (DTS) XBRL (ARDENNE, 2006), refere-se ao conjunto de dados referente às taxonomias
interligadas
que
um
relatório
XBRL
pertence;
(iv)
Módulo Dimensions (XBRL INTERNATIONAL INC., 2006), representa as informações
dimensionais de uma instância XBRL; (v) Módulo Table Linkbases, refere-se aos dados que
representam a semântica do conceito financeiro; (vi) Módulo de Tipos XBRL/XML, faz
referência aos tipos de dados possíveis em XML, assim como os definidos na especificação
XBRL 2.1,
para
definir
os
valores
e
outras
características
dos
dados;
(vii)
Módulo Formula XBRL (INTERNATIONAL INC, 2011b), que armazena os dados que
expressam fórmulas XBRL (i.e. conjuntos de declaração, conjuntos de variáveis, e filtros); e
(viii) Módulo Versioning (XBRL INTERNATIONAL INC, 2011c), refere-se à sintaxe e
semântica dos controles de versão dos relatórios e taxonomias.
2.5.3 XBRL Infoset
O XBRL Infoset é uma descrição formal, não normativa, do conteúdo de um conjunto
de taxonomias interligadas que um relatório XBRL pertence, i.e. Discoverable Taxonomy Set
(DTS) (ARDENNE, 2006). Não se tratando de uma especificação XBRL, o XBRL Infoset
não faz qualquer referência à sintaxe utilizada para a representação dos DTS, e não há
qualquer definição de como representar regras de validação ou relacionamentos (XBRL
INTERNATIONAL INC., 2009a).
2.6. CONSIDERAÇÕES FINAIS
As tecnologias, as diretrizes e os conceitos descritos neste capítulo são base para a
construção da solução proposta nesta dissertação, a qual promove a investigação de dados
36
financeiros por meio de recursos computacionais, constituindo-se um intermédio entre a
contabilidade forense não computadorizada e os relatórios financeiros digitais, os quais são
representados por linguagens de marcação (e.g. XBRL), ou em bases de dados relacionais.
O conjunto de tecnologias descrito neste capítulo viabiliza o projeto e a
implementação da solução proposta nesta dissertação: a XBRL representa os documentos
financeiros digitais, a LMDQL executa consultas de processamento analítico em documentos
XBRL nativos ou em dados relacionais e em linkbases XML; os operadores que permitem
cálculos probabilísticos possibilita a análise forense em dados digitais, os quais neste trabalho
chamou-se de Operadores Forenses, e os modelos de dados XBRL são diretrizes para a
escolha de um banco de dados relacional apropriado para o armazenamentos de dados XBRL.
A seguir são discutidos a metodologia apresentada para busca de trabalhos correlatos,
alguns trabalhos identificados sobre sistemas para detecção de fraudes financeiras e, por fim,
bancos de dados relacionais baseados na tecnologias XBRL.
37
3 TRABALHOS CORRELATOS
Neste capítulo se discute a metodologia utilizada para uma revisão da literatura, com a
finalidade de encontrar trabalhos que tenham abordagens correlatas à proposta desta
dissertação. Em seguida, uma investigação é feita sobre os trabalhos encontrados, os quais
foram divididos em duas seções: uma para a discussão dos sistemas de análises forense
financeiras, e outra para os trabalhos que abordam bancos dados baseados na tecnologia
XBRL. Conclui-se o capítulo com considerações finais que apontam as vantagens e lacunas
dos trabalhos encontrados, no que se referem aos objetivos deste trabalho, descritos na Seção
1.4.
3.1 METODOLOGIA UTILIZADA PARA A REVISÃO DA LITERATURA
Uma revisão da literatura foi conduzida no intuito de encontrar e analisar trabalhos
relevantes e correlatos a esta dissertação. A metodologia aplicada como estratégia de busca
por esses trabalhos iniciou-se a partir da formação de termos (strings) para submetê-los à
execução em motores de busca na web. As fontes de pesquisa utilizadas foram as seguintes:
(a) Google (GOOGLE INC., 2014), (b) Google Scholar (SCHOLAR GOOGLE, 2011), (c)
IEEE (IEEE XPLORE® DIGITAL LIBRARY, 2014), (d) Duckduckgo (DUCKDUCKGO,
2014), (e) ACM Digital Library (ACM INC., 2014), (f) Springer (SPRINGER, 2014), (g)
Science Direct (ELSEVIER, 2014) e (h) IADIS (IADIS DIGITAL LIBRARY, 2014). As
strings de busca foram elaboradas nos idiomas português e inglês e são ilustradas nos
Quadros 2 e 3, respectivamente.
Quadro 2 - Exemplo de strings de buscas, no idioma português
("Sistema" ou "Software") e ("Detecção de Fraude" ou "Contabilidade Forense" ou
"Auditoria Contábil") e ("XBRL" ou "relatórios financeiros" ou "dados financeiros digitais"
ou "financeiro") e ("OLAP" ou "Processamento analítico" ou "Processamento online")
("banco de dados" ou "repositório" ou "SGBD") e ("XBRL" ou "contábil" ou
"financeiro") e ("relacional")
38
Quadro 3 - Exemplos de strings de buscas, no idioma inglês
("detection fraud" or "forensic accounting" or "accounting audit") and ("System" or
"Software") and ("XBRL" or "financial report" or "Business report" or "digital financial
data" or "financial") and ("OLAP" or "Analytical Processing" or "Online Processing")
("XBRL" or "Extensible Business Reporting Language" or "accounting" or
"financial") and ("relational") and ("database" or "repository" or "DBMS")
A quantidade dos resultados retornados a partir dessas strings de buscas nas fontes de
pesquisas são apresentados na Tabela 2. Os motores de busca convencionais, i.e. não focados
em trabalhos científicos, tal qual Google e Duckduckgo, trouxeram um total de 2942
resultados, dos quais a maioria não foi compatível com o almejado, i.e. trabalhos acadêmicos
e do mercado relacionado com o objetivo desta dissertação, i.e. foram encontrados trabalhos,
os quais não foram avaliados, do tipo: ementas de cursos de graduação e pós-graduação (nas
áreas de contabilidade, administração, direito), divulgação de palestras e consultorias,
ferramentas proprietárias para manipulação XBRL, sites e blogs não oficiais abordando a
XBRL, contabilidade forense, auditoria contábil, ou detecção de fraudes. As fontes de
pesquisas especializadas em buscas por trabalhos científicos, i.e. Google Scholar, ACM
Digital Library, IEEEXplore Digital Library, Springer, Science Direct e IADIS, trouxeram
respectivamente (somando-se a quantidade de resultados nos dois idiomas) um total de 26, 8,
36, 14, 28, 3 trabalhos.
Tabela 2 - Quantidade de trabalhos retornados das buscas nas fontes de pesquisas
IEEEXplore
Google DuckDuckG
ACM Digital
Google
Digital
Scholar
o
Science
IADIS Digital
Direct
Library
Springer
Library
Library
Strings
260
18
21
0
0
0
0
0
2551
8
20
8
36
14
28
3
(Português)
Strings
(inglês)
Os critérios de inclusão dos trabalhos que abordam a detecção de fraudes basearam-se
em: (a) tipo de trabalho (i.e. científico), (b) tipo de aplicação proposta para detecção de fraude
(i.e. com uso de recursos computacionais), (c) sua aplicação ao domínio financeiro; (d)
39
relevância do local de publicação do trabalho. A partir disso, quinze trabalhos foram
selecionados para investigação de suas técnicas, os quais serão discutidos a seguir.
3.2 SISTEMAS DE ANÁLISES FORENSE FINANCEIRAS
Durtschi et al. (2004) discute a identificação de fraudes em dados contábeis por meio
da Lei de Benford. Nesse trabalho é feita uma revisão bibliográfica da utilização dessa lei no
domínio financeiro, desde os anos 70. No estudo de caso, é apresentada uma análise forense
sobre dados contábeis, de um centro médico, por meio do software proprietário DATAS
(Digital Analysis Tests and Statistics) (NIGRINI, 2009). Nessa ferramenta os dados
financeiros são inseridos pelo usuário numa planílha eletrônica do Excel, os quais são
computados por meio de macros Excel (MICROSOFT, 2014).
Em Durtschi et al. (2001), assim como em Kovach (2011) e Nigrini (2014), os quais
propõem a detecção de fraude baseada, respectivamente, na teoria matemática de evidências
de Dempster-Shafer (SHAFER, 2002) e na Lei dos Primeiros Dígitos - são implementados em
macros da ferramenta Microsoft Excel. Desta forma, ocorre a obrigatoriedade de um processo
de ETL dos dados financeiros para as tabelas da planilha, ou a inserção manual dos dados,
não contemplando os formatos nativos adotados por organizações reguladores e governos para
representação de relatórios financeiros (conforme discutido na Seção 1.2). Outras duas
desvantagens investigadas no uso de macros da planilha eletrônica Excel, foram: (i)
McCullough & Wilsonb (2005) e Goldwater (2007) discutem a existência de limitações na
execução de análises estatísticas mais complexas, gerando resultados errados, principalmente
nos modelos estatísticos que fazem uso de regressão e análise de variância; e (ii) o código
fonte é fechado e com licença paga.
Kirkosa et al. (2007) discutem algumas técnicas de mineração de dados (Data Mining)
para detecção de fraudes em relatórios financeiros. Data Mining é um processo analítico
projetado para explorar grandes quantidades de dados (comumente relacionados a negócios,
mercado ou pesquisas científicas) com a finalidade de descobrir fatos ocultos, tendências ou
padrões, para posterior criação de subconjuntos de dados baseados nesses padrões descobertos
(KIRKOSA ET al., 2007). Três técnicas foram escolhidas para detecção de fraudes
financeiras: (i) Decision Tree, baseado na estrutura de dados em árvore, na qual cada nó
representa um teste com relação a um atributo e cada ramo representa um resultado do teste
(Rudin, 2012), (ii) Neural Networks, algoritmo com dezenas de unidades de processamento
interligados, as quais simulam comportamento típico de neurônios (SEUNG, 2005) e (iii)
40
Bayesian Belief Networks, algoritmo baseado na teorema estatístico de Bayes (PEARL, 2011).
Para
aplicação
dos
métodos,
três
softwares
foram
utilizados:
Sipina
Research
(RAKOTOMALALA, 2014), para aplicação da Decision Tree; BN Power Predictor
(CHENG, 2001), para aplicação do Bayesian Networks; e Nuclass 7 (IPNN LAB, 2009), para
aplicação da Neural Networks. Com relação aos requisitos discutidos no objetivo (Seção 1.3
do Capítulo 1), a desvantagem averiguada foi o uso de vários softwares que, apesar de ser
livre de licenças pagas, possuem código fechado.
Choi et al. (2009) propõem uma sistematização nos processo de detecção fraudes para
o Serviço Supervisor Financeiro da Coréia. Conforme ilustrada na Figura 8, uma metodologia
de investigação forense financeira computadorizada é proposta, na qual deve haver: (i)
detecção de recursos vulneráveis no que tange a aquisição dos dados a serem analisados (i.e.
Informações de conexão do banco de dados e Redes), (ii) extração de dados de negócios e
financeiros, com uso de ERP (Enterprise Resource Planning) ou AMS (Accounting
Management Software), tendo como prioridade a segurança de acesso a rede e aos dados, (iii)
apreensão de documentos fraudulentos e (iv) detecção da fraude financeira. Nessa modelagem
é sugerido o uso de qualquer ferramenta computacional que proponha uma análise no registro
de todas as transações financeiras de uma companhia, devido a quantidade de dados
manipulados e a necessidade de maior eficiência.
Figura 8 - Metodologias de investigação para detectar evidências de fraudes financeiras
Fonte: Adaptado de Choi et al. (2009).
O sistema proposto nesta dissertação contempla as fases da metodologia proposta por
Choi et al. (2009), i.e. ocorre a conexão com a base de dados via sistema, é executada a
41
extração dos dados financeiros e de negócios (em documentos XBRL ou dados relacionais), a
identificação dos relatórios que apresentam suspeitas de fraudes, e sua exibição (em tela) para
investigação, por parte de um analista financeiro.
Seo et al. (2009) discutiram sobre a importância de uma ferramenta para extrair e
analisar dados contábeis com a finalidade de detectar fraude financeira. São apresentados
alguns sistemas, os quais são utilizados para perícia contábil em nível mundial, assim como as
desvantagens encontradas para fazer auditoria na Coréia do Sul. Uma ferramenta - chamada
Financial Data Extract & Analyzer - composta por quatro módulos (entrada, extração, análise
e resultado) é proposta, a qual foi projetada para se adequar ao ambiente de investigação
forense financeira do governo da Coréia do Sul. Conforme ilustrado na Figura 9, o Módulo de
Entrada (input) tem a função de selecionar um alvo para extrair informação, o Módulo de
Extração captura dados dos repositórios contidos nas ERP ou AMS (Accounting Management
Software), o Módulo de Análise tem como função básica a triagem, adição, agrupamento e
pesquisa, sobre os dados das transações financeiras ou relatórios, além de funções específicas
para análise vertical, análise horizontal e análise de correlação. Por fim, o Módulo de Saída
pode apresentar resultado extraído ou resultado analisado em uma tela, ou pode exportar para
planilha (CSV) ou formato de texto (TXT). Não há nesse trabalho qualquer detalhe de
implementação (arquitetura, linguagem de implementação ou banco de dados). A ferramenta
Financial Data Extract & Analyzer eliminou a dependência de outras soluções, tal como a
ACL (Audit Command Language) (ACL SERVICE LTD, 2014) e IDEA (Interactive Data
Extraction and Analysis) (CASEWARE ANALYTICS, 2014), ambos com código fechado e
licença paga.
Figura 9 - Módulos da Financial Data Extract & Analyzer
Fonte: Adaptado de Seo et al. (2009).
42
Algumas desvantagens foram observadas, o módulo de extração ocorre por meio de
dados contidos em repositórios de ERP ou AMS, i.e. não há um repositório baseado em
especificações com padrões financeiros internacionais (e.g. XBRL 2.1), tampouco
desenvolvido em dois paradigmas (i.e. relacionais e XML). No módulo de análise ocorre a
aplicação de Data Mining, e nas funções específicas não é citada a implementação de cálculos
probabilísticos, os quais são comumente utilizados na contabilidade forense e, portanto,
relevantes nesse contexto de análises de fraudes financeiras, assim como não é citada a
possibilidade de extensão da ferramenta à outros modelos de detecção de fraude. A solução
proposta nesta dissertação é baseada em uma solução open source que contempla os módulos
propostos na FEA, i.e. possui um módulo de entrada, na qual o analista financeiro insere uma
consulta OLAP (estendida da LMDQL); o módulo de extração, pelo qual o sistema extrai
dados financeiros de documentos XBRL nativo ou dados relacionais; o módulo de análise,
através do processamento analítico em tempo real; e o módulo de resultados, no qual se
apresenta os resultados do processamento analítico ao analista financeiro.
Flores et al. (2012) discutem um modelo de combate à lavagem de dinheiro através da
combinação de práticas forenses digitais, juntamente com ferramentas de banco de dados e
metodologias de análise de dados, com a finalidade de alinhá-los com as políticas de KnowYour-Costumer (KYC) (PWC, 2013). Um modelo é proposto, considerando os estágios
definidos por Grobler et al. (2010) para a elaboração de um sistema de combate a fraudes
financeiras, i.e. antes, durante e depois do incidente. Conforme ilustrado na Figura 10, três
etapas são apresentadas no modelo de Flores et al. (2013): (i) para compreensão do caso,
observa-se transações anteriores do cliente e as políticas KYC; (ii) para análise e avaliação,
ocorre a aquisição dos dados extraídos das transações dos clientes (utiliza-se nesse processo
Stored Procedures e Triggers), e através de processo de ETL (Extract, Transform e Load) os
dados são armazenados em uma tabela desnormalizada, a qual registra os logs com
informações das transações, e para examinação das evidências de fraudes, são aplicadas as
boas práticas de manipulação de provas propostas pela ACPO (ASSOCIATION OF CHIEF
POLICE OFFICERS, 2011); e (iii) para notificação do caso de fraude, informa-se um alerta
por meio da tela de interação com o usuário.
43
Figura 10 - Modelo proposto para combate a lavagem de dinheiro
Fonte: Adaptado de Flores et al. (2012).
Para a etapa de execução da análise dos dados e de notificação do caso, foram
utilizados os softwares proprietários FTK (ACCESSDATA GROUP INC, 2014) e SAP Crystal
Dashboard Designer (SAP, 2014), respectivamente, o que não corrobora com um dos
objetivos desta dissertação que é a utilização de uma solução open source e gratuita. Ainda, os
dados financeiros analisados são obrigatoriamente relacionais, devido a utilização de Stored
Procedures e Triggers de um SGBD relacional, não permitindo a análise de dados financeiros
em outros formatos (e.g. XBRL), sem a intervenção de um processo de ETL.
Winter et al. (2012) discutem o modelo Digit Distribution ou Digital Distribution,
uma análise forense financeira baseada nos seguintes modelos de análise dos dados: Lei de
Benford, Distribuição Log-Uniform (USPENSKY, 1937), Distribuição Log-Normal
(KALECKI, 1945) e Distribuição Log-Pearson Type IV (HEINRICH, 2004). Nesses modelos,
o valor do desvio médio padrão é calculado baseado nas distribuições da ocorrência dos
dígitos (de 1 a 9), o qual fornece uma margem de tolerância à distribuição proposta pela Lei
de Benford. Conforme ilustrado na Figura 11, os modelos são aplicados, obtendo-se
distribuições distintas na análise de ocorrência dos dígitos. O modelo Digital Distribution
propõe o cálculo médio entre as distribuições, e a aplicação do desvio médio no modelo da
Lei de Benford. O modelo Digital Distribution reduziu a taxa de alarme falso sobre os dados
do censo dos EUA e permitiu identificar irregularidades específicas em dados fiscais
noruegueses. Esses resultados não poderiam ser obtidos por meio da aplicação única do
modelo da Lei de Benford.
44
Figura 11 - Aplicação dos modelos para análise forense financeira
Os cálculos probabilísticos Teste Z e Qui-Quadrado, discutidos nas seções 2.2.3 e
2.2.4, respectivamente, também fornecem uma margem de tolerância à distribuição proposta
pela Lei de Benford, tendo aplicação semelhante aos modelos Distribuição Log-Uniform,
Log-Normal e Log-Pearson Type IV. Nesse trabalho, Winter et al. (2012) discutiram uma
abordagem teórica, sem apresentação de qualquer implementação de um sistema
computacional ou de linguagens de consultas, tampouco foi considerando qualquer formato
de dados financeiros na análise dos dados.
Khan et al (2012) propõem um modelo para detecção de fraude em transações de
cartões de créditos baseadas no modelo estatístico Hidden Markov Model (HMM), além de
sugerir o uso de técnicas de Data Mining para o agrupamentos dos dados. Esse modelo é
baseado no histórico de transações do cliente, no qual se compara os valores de uma nova
transação com o valor do desvio padrão de transações anteriores, os quais não devem ser
valores muito distantes, e caso haja a um valor muito acima do desvio padrão, deve-se alertar
a transação como suspeita. Não foram encontrados no trabalho detalhes de implementação do
sistema proposto (arquitetura, linguagem de programação ou banco de dados). Os dados no
experimento foram manipulados manualmente, segundo informa o autor. Não ocorre relato da
extensibilidade do modelo a outros modelos probabilísticos. Não é informado o tipo de dados
financeiros utilizado na análise. Também não é visto no trabalho uma linguagem para
consultas de relatórios financeiros específicos, ou qualquer interação com o usuário.
Chai et al. (2006) discutem que a detecção automática de anomalias financeiras (i.e.
dados fraudulentos) pode ser realizada considerando o comportamento fraudulento de outras
45
empresas. Nesse trabalho é abordado um sistema baseado no algoritmo Fuzzy, o qual analisa
previamente as transações fraudulentas de várias empresas, estabelecendo um padrão, com o
qual as novas transações em execução são comparadas, e caso haja semelhança gera-se o
alerta de fraude. Nesse trabalho, não foi identificado a existência de uma linguagem de
consulta para processamento analítico, não foi proposta uma ferramenta que seja extensível a
outros cálculos probabilísticos ou modelos de detecção de fraudes.
Sherly & Nedunchezhian (2010) propõem um modelo e um sistema de detecção de
fraudes financeiras baseados em duas técnicas de Data Mining: Algoritmo K-means (DING;
HE, 2004; TAN et al., 2006), para agrupamento de dados financeiros, e algoritmo BOAT
(GEHRKE et al., 1999) um algoritmo de classificação de dados baseado em árvore de
decisão. O modelo proposto considera a análise de uma amostra de transações e as agrupam
em transações genuínas ou falsas. O cálculo baseado no algoritmo BOAT é efetuado para
determinar um score da nova transação, o qual se for maior que o limite definido pelo score
do histórico de transações daquele cliente, classifica-se como uma transação genuína, caso
contrário é declarada a suspeita de fraude, um alerta é enviado ao analista e os dados dessa
transação serão agrupados no grupo de transações falsas. Nesse trabalho não há uma
linguagem de consulta com a qual o analista forense possa fazer análises em relatórios
financeiros específicos. O formato dos dados financeiro não é especificado, e não há
evidências de que seja um sistema extensível a novos modelos de detecção de fraude.
Zhang et al. (2009) discutem um método de detecção de fraudes financeiras baseado
em redes neurais, i.e. Iteration Learning Self-Generating Neural Network (ISGNN) (LI et al.,
2005), para detecção de fraude em declaração de impostos. O processo desse algoritmo inclui
duas fases: (i) a geração da SGNT (Self-Generating Neural Tree), uma árvore neural de auto
aprendizado (WEN et al., 1992), e (ii) sua otimização. O ISGNN sugere um auto aprendizado
de um sistema de informação, por meio da interação com alguma amostra de dados
financeiros colhidos previamente. Empregado como um algoritmo classificador, rotula os
dados analisados em genuínos ou fraudulentos. Nesse trabalho não foi detectado uma
linguagem de consulta, com a qual o analista possa especificar qual dado ou relatório
financeiro almeja analisar. O formato dos dados também não é especificado. Também não foi
evidenciada uma possibilidade de extensão para outros modelos forenses.
Panigrahi (2011) discute a detecção de fraude financeira baseada em um
processamento computadorizado. Um framework, denominado Knowledge-driven Internal
Fraud Detection (KDIFD), aborda a junção do conhecimento tácito, experiência,
pressentimento e intuição de auditores forenses, com técnicas de Data Mining e análises de
46
dados. Como ilustrado na Figura 12, a proposta inicia-se com a (i) etapa Estabelecendo o
Contexto, a qual consiste na compreensão e análise dos analistas financeiros para
determinação dos riscos existentes; (ii) a etapa Fornecimento de Arquivos e Bancos de Dados
é responsável pela busca de arquivos que possam auxiliar na detecção de fraudes, assim como
bancos de dados com dados do cliente e das transações financeiras efetuadas, dados não
eletrônicos também devem ser considerados nessa etapa, contudo devem ser transferidos para
formatos digitais; (iii) na etapa Preparação dos Dados, os dados devem ser preparados para
análise e processamento, baseado nas conformidades legais, privacidade e questões de
segurança; (iv) na etapa Transformação e Limpeza dos Dados, os dados de qualquer formato
devem ser limpos antes de qualquer transformação para o posterior processamento; (v) na
Seleção de Técnicas, avalia-se as técnicas de detecção de fraudes mais adequadas (e.g. Lei de
Benford); (vi) Mineração e Análise de Dados Forenses é uma etapa complementar ao
repositório baseado nas experiências de análise de investigação, é importante considerar que
uma gama de técnicas analíticas tem evoluído na área de análise de dados e mineração; (vii)
em Confirmação baseada em experiência, os auditores devem conhecer a aplicabilidade das
análises e interpretabilidade dos resultados obtidos, para confirmar as suspeitas descobertas.
Figura 12 - Modelo do Framework KDIFD
Fonte: Adaptado de Panigrahi (2011).
Esse framework provê um processo sistemático para os analistas financeiros no
descobrimento de fraudes financeiras. Há evidência de extensibilidade para diversos cálculos
probabilísticos ou modelos de detecção de fraudes (através da etapa Seleção de Técnicas).
Não há evidências de uma linguagem de consulta OLAP, com a qual o analista possa
47
especificar o relatório ou a transação financeira a ser analisada, nem de uma base de dados
relacional baseada em padrões financeiros internacionais.
3.3 BANCOS DE DADOS XBRL
Uma pesquisa na literatura acadêmica e no mercado foi conduzida, com a finalidade
de averiguar propostas de bancos de dados relacionais baseados na especificação XBRL 2.1.
A seguir, serão discutidos os trabalhos encontrados.
O IPHIX LLC (2014) propõe um banco de dados relacional baseado na taxonomia
XBRL GL (Global Ledger), a qual permite a representação dos dados representados em um
plano de contas, lançamentos contábeis ou transações históricas, financeiras e não financeiras
de uma empresa (XBRL INTERNATIONAL INC., 2007). Esse banco de dados é proprietário,
sob a licença da IPHIX LLC, seu modelo de dados não está disponível no site da empresa,
nem tampouco o seu script, não se adequando aos requisitos open source e free software,
especificados no objetivo desta dissertação.
A Reporting Standard (2014) propõe um esquema de dados relacional para armazenar
informações XBRL contidos em relatórios e taxonomias XBRL. Duas etapas são propostas
nesse esquema: (i) uma cópia exata dos arquivos transmitidos (i.e. documento XBRL nativo)
é armazenada em uma tabela relacional com o tipo de dados XML, permitindo que
ferramentas possam acessar os arquivos como se fossem armazenados em um sistema de
arquivos de um disco rígido, ou em um SGBD nativo XML, e (ii) o conteúdo de cada arquivo
é armazenado em tabelas do modelo de banco de dados relacional. É possível utilizar a
linguagem SQL para acesso ao documento de instância e informações de sua(s) taxonomia(s).
Esse esquema é baseado na descrição XBRL Infoset (descrito na Seção 2.5.3), o qual permite
o acesso a qualquer informação da semântica fornecida em XBRL. É possível armazenar
informações de múltiplas taxonomias ou várias versões de uma mesma taxonomia, ao mesmo
tempo, juntamente com seus relatórios. Esse banco de dados é proprietário, sob a licença da
Reporting Standard, seu modelo de dados não é disponível gratuitamente, nem tampouco o
seu script. Também não foi encontrado evidências de tabelas multidimensionais, característica
importante para processamento analítico forense, o qual se trata do uso de linguagens OLAP
para detecçao de fraude em dados digitais.
O XBRL-US Public database (ARELLE, 2014b) é um banco de dados relacional
especificado sobre as definições dos demonstrativos contábeis da U.S SEC, e foi
desenvolvido para contemplar o aspecto sintático XBRL (i.e. os elementos XML contido na
48
especificação XBRL 2.1). Este banco de dados é baseado na taxonomia XBRL da U.S-SEC,
utilizada no mercado financeiro norte americano, os linkbases representados nesse banco de
dados são os padrões da especificação XBRL 2.1: presentation, calculation, definition, label e
reference. Possui tabelas normalizadas, o que facilita a recuperação de dados e reconstrução
de relatórios financeiros no formato XBRL nativo. Esse banco possui código disponível e está
sob a licença da Arelle. Tabelas dimensionais e de fato não são contemplados nesse projeto,
características importantes para compor o sistema OLAP proposto nesta dissertação.
DPM Database (ARELLE, 2014c), é um banco de dados, open source e está sob a
licença da Arelle, baseado na semântica XBRL e no Data Point Model (descrito na Seção
2.5.1). Sua arquitetura é baseada na Table Linkbase XBRL 1.0 (especificação descrita na
Seção 2.5.2). O DPM database evoluiu a partir de projetos do EBA (European Banking
Authority), órgão regulamentador e supervisor do setor bancário da Europa (EBA, 2014), e
planejado para um conjunto de ferramentas da EIOPA (European Insurance and
Occupational Pensions Authority), órgão supervisor que faz parte do Sistema Europeu de
Supervisão Financeira (EIOPA, 2014). Possui atributos que não são contemplados pelos
relatórios financeiros atuais da U.S. SEC. Assim sendo, implica em um banco de dados
adequado aos relatórios XBRL trafegados no sistema financeiro europeu (ARELLE, 2014b).
Este banco de dados não contempla a análise forense em documentos XBRL baseado em
qualquer taxonomia ou DTS.
Jones (2004) apresenta um data warehouse contábil baseado no framework XBRL GL
(Global Ledger), o qual permite a representação dos dados de um plano de contas,
lançamentos contábeis ou transações financeiras. Três tipos de data marts compõe o data
warehouse proposto: Balance Sheet Data Mart, Profit and Loss Data Mart e Item Data Mart.
Os dois primeiros permitem análises relacionadas aos planos de contas, armazenando dados
de lançamento contábil diário no demonstrativo financeiro, Balanço Patrimonial e em contas
de receitas e despesas. O terceiro data mart refere-se aos detalhes das transações comerciais
formatadas com base na taxonomia XBRL GL. É verificado que esse data warehouse é
baseado nas regras de negócio de uma empresa específica, o que o torna inapropriado para a
solução proposta nesta dissertação, pois seria necessário uma modelagem de tabelas e
atributos para as regra de negócio de cada empresa.
Fischer (2013) propõe um banco de dados baseado no XBRL Abstract Model (descrito
na Seção 2.5.2). Um database baseado em um modelo de dados mantido pelo consórcio
internacional XBRL, com código fonte (i.e. script do banco de dados relacional) disponível e
gratuito, sob a licença da Arelle (ARELLE, 2014a), a qual é baseada na licença da Apache
49
2.0, exigindo a inclusão do aviso da autoria do produto e termos de responsabilidade (THE
APACHE SOFTWARE FOUNDATION, 2014). Trata-se de um repositório que comporta oito
módulos, dos quais o módulo Table Linkbase registra os relacionamentos (i.e. a semântica)
entre os elementos (FISCHER, 2013), comumente expressos nos linkbases XBRL.
3.4 CONSIDERAÇÕES FINAIS
Em nenhum dos trabalhos investigados sobre sistemas de análise forense financeira,
descritos na Seção 3.2, foi verificada a análise forense sobre os dados dos relacionamentos
existentes entre os conceitos contábeis, característica comum na representação de relatórios
financeiros. Nos relatórios XBRL, esses relacionamentos são representados nos linkbases
XBRL, e a solução proposta nesta dissertação considera a análise de dados dos linkbases na
análise forense. Na Tabela 3 é apresentada uma comparação entre os trabalhos analisados na
Seção 3.2 deste capítulo, i.e. Sistemas de Análises Forenses Financeiras, no que se refere a
alguns dos requisitos descritos no objetivo desta dissertação (Seção 1.2), i.e. se é uma solução
open source e/ou livre de licença paga, se a ferramenta promove análise de documentos
financeiros para detecção de fraude, se analisa dados XBRL, se possui linguagem para o
analista financeiro fazer a análise forense, se executa a análise forense considerando a
semântica dos dados financeiras (e.g. Linkbase), se foi implementado um sistema
computacional, se é possível a análise com aplicação de cálculos probabilísticos, assim como
a possibilidade de aplicação conjunta de cálculos probabilísticos, e se a ferramenta é
extensível à novos modelos de detecção de fraudes. É importante ressaltar que os trabalhos
Choi et al. (2009), Winter et al. (2012), Khan et al. (2012), Chai et al. (2006), Zhang et al.
(2009) e Panigrahi (2011) propuseram um modelo para detecção de fraude sugerindo o uso de
recursos computacionais, contudo não implementaram um sistema computacional, nesses
casos o quesito "open source e livre de licença paga" não se aplica (como informado na
Tabela 3).
50
Tabela 3 - Comparativo entre os Sistemas de Análise Forense investigados
Open Source e livre de
Não se
Não
Não se
Não se
aplica
aplica
aplica
Informa
aplica
aplica
Winter et
(2004)
(2014)
(2011)
al. (2007)
(2009)
(2009)
(2012)
al. (2012)
Sim
Sim
Dados XBRL
Não
Não
Não
Linguagem de Consulta
Não
Não
Não
Não se
Nedunchezhian
(2010)
Zhang
et al.
(2009)
Panigrahi
(2011)
Não
Não
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Parcial-
Parcial-
Parcial-
mente
mente
mente
Sim
Não
Sim
Sim
Não
Não
Não
Sim
Não
Não
(macros)
(macros)
(macros)
Sim
Sim
Sim
Não
Não
Não
Não
Sim
Não
Não
Não
Não
Sim
Não
Não
Sim
Não
Não
Não
Não
Sim
Não
Não
Não
Não
Sim
computacional
cálculos probabilísticos
Não se
Flores et al.
Sim
Aplicação conjunta de
Não se
Seo et al.
Sim
Cálculos probabilísticos
(2006)
Choi et al.
Detecção de fraude
Implementa um Sistema
(2012)
Kirkosa et
Não
(Linkbase)
al.
Kovach
Não
Semântica dos dados
al.
Nigrini
Não
licença paga
Chai et
Durtschi et al.
Não
Sherly &
Khan et
aplica
51
Extensível à novos
modelos
Tempo Real
Durtschi et al.
Nigrini
Kovach
Kirkosa et
Choi et al.
Seo et al.
Flores et al.
Winter et
(2004)
(2014)
(2011)
al. (2007)
(2009)
(2009)
(2012)
al. (2012)
Khan et
Chai et
al.
al.
(2012)
(2006)
Sherly &
Nedunchezhian
(2010)
Zhang
et al.
(2009)
Panigrahi
(2011)
Sim
Sim
Sim
Não
Não
Sim
Não
Sim
Não
Não
Não
Não
Sim
Não
Não
Sim
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Quanto aos repositórios XBRL investigados, observou-se que há poucos disponíveis no mercado e na academia. A maioria não se
adequou aos objetivos especificados nesta dissertação, devido as seguintes lacunas: código não disponível e proprietário, modelagens baseadas
em modelos e diretrizes que se aplicam em um mercado financeiro específico e implementações baseadas na semântica de taxonomias XBRL
específicas.
A Tabela 4 exibe uma comparação entre os trabalhos analisados na Seção 3.3 deste capítulo, i.e. Bancos de Dados XBRL, no que se
refere a alguns requisitos relativos ao sistema OLAP proposto, i.e. se é um repositório open source, livre de licença paga, relacional,
multidimensional e baseado na semântica e sintaxe da especificação XBRL 2.1. Definiu-se o XBRL Abstract Model Database (FISCHER, 2013)
(Anexo A) como um banco de dados adequado à solução proposta, considerando ser um repositório relacional e multidimensional, open source e
software livre, baseado na especificação XBRL 2.1, seguindo um modelo de dados mantido pelo XBRL Internacional Consortium (2014), i.e.
XBRL Abstract Model (descrito na Seção 2.5.2).
52
Tabela 4 - Comparativo entre os bancos de dados XBRL investigados
IPHIX (2014)
Reporting Standard (2014)
Arelle (2014b)
Arelle (2014c)
Jones (2004)
Fischer (2013)
Open Source
Não
Não
Sim
Sim
Sim
Sim
Software Livre
Não
Não
Sim
Sim
Sim
Sim
Relacional
Sim
Sim
Sim
Sim
Sim
Sim
Multidimensional
Sim
Sim
Não
Sim
Sim
Sim
Adequada a qualquer taxonomia XML
Sim
Sim
Não
Não
Não
Sim
Baseado na Especificação XBRL 2.1
Sim
Sim
Sim
Sim
Sim
Sim
No capítulo seguinte serão apresentados os requisitos, a linguagem e o sistema LMDQL Forense, além de um modelo de processo para
extensão dessa solução para novos modelos de detecção de fraudes.
53
4 LMDQL FORENSE: LINGUAGEM E SISTEMA
Para criação de um ambiente computacional para a realização da contabilidade forense
sobre documentos financeiros XML, baseada nos modelos probabilísticos da Lei dos
Primeiros Dígitos, Teste Z, Teste χ2 e Regra Empírica (descritas na Seção 2.2), novos
operadores foram incorporados à LMDQL (i.e. FirstDigit, ZTest, ChiSquaredTest e
EmpiricalRule), os quais são chamados de Operadores Forenses. A extensão proposta para os
operadores da linguagem LMDQL, preserva suas características originais, i.e. consultas
baseadas em links além da possibilidade de utilização de bancos de dados relacionais ou
baseados em arquivos XML nativos, conforme propõe a arquitetura do processador LMDQL
(discutida na Seção 2.4).
4.1 REQUISITOS DA LINGUAGEM LMDQL FORENSE
A especificação da linguagem LMDQL Forense atendeu a um objetivo geral: uma
linguagem para detecção de fraudes financeiras, baseado em métodos tradicionais na
contabilidade forense. Para que esse escopo seja alcançado, alguns objetivos específicos são
almejados:
• Deixar a critério do analista forense a definição do documento financeiro (ou conjunto
de documentos), dos elementos, da empresa e do período de tempo, que se almeja na
consulta analítica;
• Análise forense considerando a semântica dos elementos definidos nos esquemas
XBRL, expressos em documentos de linkbases, os quais armazenam dados que
representam um relacionamento, e.g. a definição labels (como "Accounts Payable,
Current" e "Contas Atuais a Pagar") para representar o elemento "usgaap:AccountsPayableCurrent";
• Aplicação de cálculos estatístico-probabilísticos para detecção de fraudes: Lei de
Benford, Regra Empírica, Teste Z e Teste Qui-Quadrado, sobre os dados financeiros;
• Ser possível, na consulta, a escolha de uma técnica de detecção de fraudes financeira,
dentro do conjunto de técnicas;
• Ser possível a escolha de mais de uma técnica, para a aplicação conjunta em uma
consulta ao conjunto de dados;
• Ter característica extensível para implementação e incorporação de outras técnicas
estatístico-probabilísticas usadas na contabilidade forense;
54
4.2 A LINGUAGEM LMDQL FORENSE
A gramática dos operadores da LMDQL Forense (descritas no Anexo A) é
representada na linguagem EBNF (WIRTH, 1996), a qual é uma notação usada para expressar
gramáticas livres de contexto, i.e. uma expressão formal para descrever linguagens de
programação e outras linguagens formais. Essa gramática é uma extensão da gramática da
LMDQL, a qual estende a MDX, incorporando as definições dos novos operadores.
Antes de listar os operadores forenses, é importante destacar algumas definições que
são utilizadas nas especificações dos parâmetros dos operadores da linguagem LMDQL
(Tabela 5). Considera-se como (a) <Member> um elemento contido na especificação XBRL
2.1, o qual pode ser a representação de um conceito contábil, um rótulo (label), um
documento financeiro, uma empresa, uma data específica; as demais definições, i.e.
<MemberSet>, <DimensionName>, <LevelName>, <MemberName>, <NumericExpression>,
<IntegerExpression> e <NumericSet> encontram-se explicadas na Tabela 5.
Tabela 5 - Definições usadas para especificar a sintaxe LMDQL
<Member>
<MemberSet>
<DimensionName>
<LevelName>
<MemberName>
<NumericExpression>
<IntegerExpression>
<NumericSet>
Um membro de um cubo
Conjunto de membros de um cubo
Nome de uma dimensão (e.g. [Localizacao]).
Nome de um nível (e.g. [Localizacao].[Estado]).
Nome de um membro (e.g. [Localizacao].[Estado].[Bahia]).
Um valor numérico qualquer.
Um valor inteiro qualquer.
Um conjunto de valores numéricos quaisquer. Pode ser,
por exemplo, um conjunto de índices de rentabilidade do
patrimônio liquido.
Fonte: Silva (2010).
A seguir são discutidos detalhes do processamento de cada operador forense e
apresentada a sintaxe proposta para efetuar consultas, as quais são baseadas na sintaxe
LMDQL (descrita na seção 2.4.5):
1)
Sintaxe: EmpiricalRule(Member, MemberSet, MemberSet, MemberSet). O
operador forense EmpiricalRule aplica o cálculo probabilístico baseado na Regra Empírica
(discutido na Seção 2.2.1). Para execução dessa consulta são fornecidos quatro parâmetros
(conforme apresentado na Figura 13): (i) um membro referente à entidade emissora do
relatório financeiro que será avaliado (e.g. [Entity].[Microsoft]); podendo-se utilizar a
palavra-chave "all", a qual faz referência a todas as entidades armazenadas no repositório de
dados (e.g. [Entity].all); (ii) um membro referente ao período de tempo desejado na consulta,
55
obedecendo à sequência de ano, mês e dia (e.g. [Time].[2013].[12].[31]), podendo-se variar o
tempo da análise utilizando a palavra chave "children", em qualquer nível, i.e.
[Time].[2013].[10].children, para consultas em todos os dias do mês 10 do ano de 2013;
[Time].[2013].children, para consultas em todos os dias, de todos os meses, do ano de 2013; e
[Time].children, para consulta em todos os dias, de todos os meses, de todos os anos contidos
no repositório; (iii) um membro referente ao documento que será avaliado (e.g.
[Document].[10-Q]) ou a palavra chave “children” (i.e. [Document].children), que determina
a avaliação de todos os documentos do membro de referência; (iv) um membro referente ao
elemento que será avaliado (e.g. [Element].[msft:GainLossOnInvestments]) ou a palavra
chave “children” (i.e. [Element].children), que considera todos os elementos do membro de
referência na análise do operador.
Figura 13 - Consulta com o operador EmpiricalRule
O resultado do operador EmpiricalRule é a classificação da posição sigma (σ) para
cada elemento, ou label, cuja classificação é baseada no cálculo da Distribuição Normal
(descrito na seção 2.2.1). A Distribuição Normal é calculada baseada no valor monetário
daquele elemento, ou label, em outros relatórios na base de dados. Desta forma, o resultado
deste operador apresenta cada elemento como: -out (o valor do elemento analisado está fora
da Distribuição Normal, negativamente), -3rd sigma (o valor do elemento está a uma distância
de até 3 sigmas, negativamente, a partir da média padrão), -2nd sigma (menos 2 sigmas), -1st
sigma (menos 1 sigma), +1st sigma (o valor do elemento analisado está a uma distância de
mais 1 sigma, a partir da média padrão), +2nd sigma (mais dois sigmas), +3rd sigma (mais
três sigmas) ou +out (o valor do elemento analisado está fora da Distribuição Normal,
positivamente). As posições sigmas são ilustradas na Figura 3. Caso não haja dados
armazenados suficientes para a execução da Regra Empírica para um determinado elemento
(i.e. não há registro de um elemento ou label em mais de um relatório financeiro na base de
56
dados), o operador retorna uma mensagem informando "There are not enough stored data".
Ilustrações de resultados de consultas com esse operador, e com os demais operadores
forenses descritos a seguir, são encontradas no Capítulo 5, no qual é discutido um Estudo de
Caso.
2)
Sintaxe: FirstDigit (Member, MemberSet, MemberSet, String). Este operador
aplica o cálculo probabilístico baseado na Lei dos Primeiros Dígitos (discutida na Seção
2.2.2). Conforme a consulta ilustrada na Figura 14, neste operador faz-se necessário o envio
de quatro parâmetros: o primeiro, segundo e terceiro parâmetros seguem a semântica definida
para o operador EmpiricalRule; o quarto parâmetro permite a especificação do tipo de retorno
da consulta, podendo ser (i) null, retornando a informação de conformidade (ou não
conformidade) do relatório sob análise com a Lei dos Primeiros Dígitos, a porcentagem
esperada para cada dígito, e a porcentagem encontrada nos registros financeiros, a quantidade
de dígitos analisados e o tempo de execução da consulta; e (ii) serialized, retorna as
porcentagens encontradas para cada dígito, em sequencia, separada por ponto-e-vírgula, no
qual o primeiro dado refere-se ao dígito 1 (um), o segundo ao dígito 2 (dois) e assim
sucessivamente até o dígito 9 (nove). Este último tipo de retorno é útil para a interação com
outros operadores forenses, conforme será discutido na apresentação dos operadores ZTest e
ChiSquaredTest.
Figura 14 - Consulta com o operador FirstDigit com a instrução null
3)
Sintaxe:
ZTest
(NumericSet,
NumericSet,
IntegerExpression,
NumericExpression). Este operador realiza o cálculo probabilístico Teste Z, para medir o grau
de significância entre dois conjuntos de dados, i.e. as probabilidades esperada (Pe) e a
observada (Po) (conforme descrito na Seção 2.2.3). Para realização de uma consulta com este
operador, faz-se necessário o envio de quatro parâmetros: (i) conjunto de números referente à
Pe para aquele conjunto de dados em análise, (ii) o conjunto de Po referente aos dados dos
relatórios analisados, (iii) quantidade de dados da amostra analisada, a qual é considerada no
cálculo probabilístico Teste Z (i.e. é um cálculo estatístico paramétrico), e (iv) o z-crítico
aceito no cálculo, o qual vai determinar a tolerância na análise efetuada. A Figura 15 ilustra
57
uma consulta na qual no primeiro parâmetro a Pe informada são as probabilidades aceitas para
cada um dos nove dígitos, em sequência (baseada na Lei dos Primeiros Dígitos). No segundo
parâmetro é informada a Po, no exemplo apresentado é obtida através do uso do operador
FirstDigit. Desta forma, é possível realizar uma consulta do operador ZTest em conjunto com
o operador FirstDigit. No terceiro parâmetro informa-se a quantidade de dígitos analisados
(i.e. 1708), que pode ser obtido com o uso do operador FirstDigit instrução null. No quarto
parâmetro a tolerância aceita no cálculo (z-crítico), que é igual a 2.57. O resultado deste
operador informa o z-crítico calculado para cada dado pertencente ao conjunto da Po, e
também uma mensagem informando a correlação, ou não, entre os dados da Pe e Po.
Figura 15 - Consulta com o operador ZTest em conjunto com FirstDigit
4)
Sintaxe: ChiSquaredTest (NumericSet, NumericSet, NumericExpression). Este
operador é baseado no cálculo probabilístico Teste χ2 (discutido na Seção 2.2.4). O
processamento analítico dos dados, com este operador, é feito com a especificação de três
parâmetros: o primeiro e segundo seguem a semântica definida para o operador ZTest, o
terceiro representa o χ2-crítico aceito no cálculo. Para a obtenção dos dados referentes à Po (no
segundo parâmetro), também é possível a utilização conjunta dos operadores ChiSquaredTest
e FirstDigit. Um exemplo dessa consulta pode ser vista na Figura 16, a qual informa um χ2crítico igual a 15.507 (o qual é definido pelo usuário). O resultado deste operador informa o
χ2-crítico calculado para cada dado pertencente ao conjunto da Po, e também uma mensagem
informando a correlação, ou não, entre os conjuntos analisados (i.e. Pe e Po).
58
Figura 16 - Consulta com o operador ChiSquaredTest em conjunto com
FirstDigit
4.3 O SISTEMA LMDQL FORENSE
A utilização de funções externas é possível na MDX (SPOFFORD, 2001, p. 163).
Neste trabalho, considerando que a LMDQL estende a MDX, o uso de funções externas
permitiu a incorporação dos quatro operadores Forenses (i.e. FirstDigit, EmpiricalRule,
ZTest, ChiSquaredTest) na biblioteca de operadores LMDQL. Assim como na LMDQL, os
operadores forenses foram implementados no servidor OLAP mondrian (SILVA, 2010). Com
isso, além dos operadores OLAP tradicionais especificados no mondrian por meio da MDX,
os operadores LMDQL Forense foram incorporados com sintaxe semelhante.
A execução da consulta LMDQL Forense no servidor mondrian segue um processo,
ilustrado na Figura 17, que é iniciado por meio da tela de interação com o usuário, na qual
tanto a consulta como o tipo de banco de dados almejado (Relacional ou XML) são definidos
pelo usuário. Em seguida, é executado um processo de validação (parser LMDQL) que é
composto por duas etapas: (i) verificação da existência do operador especificado na consulta,
na biblioteca de operadores da LMDQL e (ii) análise da sintaxe da consulta LMDQL Forense,
observando-se a ocorrência de erros sintáticos, e.g. erros relacionados ao nome do operador
escolhido e tipo de dados enviados em seus parâmetros (i.e. Member, MemberSet,
DimensionName, LevelName, MemberName, NumericExpression, IntegerExpression ou
NumericSet), e em caso de erro em qualquer uma dessas duas etapas, uma mensagem de erro
é apresentada ao usuário, e o processamento é interrompido. Caso não ocorra erro na sintaxe,
ocorre a seleção dos operadores na biblioteca LMDQL. Em seguida é feita a aquisição dos
dados, caso o usuário tenha escolhido um banco de dados XML, é feita uma conversão das
consultas SQL (geradas pelo servidor OLAP relacional) para expressões XQuery, i.e. um
conversor de expressões SQL para XQuery foi especificado e implementado na arquitetura
LMDQL (SILVA ; TIMES, 2009; SILVA, 2010; SILVA et al., 2012). Em seguida os dados
59
são processados e submetidos ao cálculo probabilístico definido na consulta. Por fim, o
resultado dessa análise é apresentado ao usuário, por meio de um dashboard ou painel de
apresentação.
Figura 17 - Processo de execução da consulta LMDQL Forense
Funções externas, especificadas na MDX, podem ser codificadas em qualquer
linguagem de programação (SPOFFORD, 2001). Em virtude da implementação da LMDQL
ter sido feita no servidor mondrian, e deste ser codificado na linguagem de programação Java,
optou-se pela implementação dos operadores forenses nessa linguagem. Entretanto, este é um
critério flexível, podendo ser implementado com outras linguagens de programação.
60
4.4 EXTENSÃO DO SISTEMA LMDQL FORENSE
Como diretriz de extensão do sistema LMDQL Forense a outros modelos de detecção
de fraude, são sugeridas nove etapas para a sua extensão é apresentadas na Figura 18, a qual
foi
utilizada
para
implementação
dos
operadores
EmpiricalRule(),
ZTest()
e
ChiSquaredTest(). Essas etapas são discutidas a seguir.
Figura 18 - Processo para Extensão do sistema LMDQL Forense
Algumas destas etapas (i.e. de 1 a 3) se referem a estudos, pesquisas e especificações.
Etapa 1: é necessário uma pesquisa na literatura, das técnicas de detecção de fraude
aplicadas na contabilidade forense ou auditoria contábil;
Etapa 2: define-se o nome do novo operador LMDQL e os parâmetros necessários
para processamento dos dados. Nesta etapa, deve-se observar as definições usadas para
especificar a sintaxe LMDQL, as quais são ilustradas na Tabela 5;
Etapa 3: são especificadas as dimensões que serão representadas nos parâmetros do
operador forense (e.g. documento, elemento, entidade, período), para obtenção dos dados nas
tabelas dimensionais, que são usadas para executar as consultas OLAP;
Dando continuidade ao processo, as próximas etapas lidam com a implementação do
sistema LMDQL Forense.
Etapa 4: implementa-se o novo operador através das funcionalidades disponíveis no
servidor OLAP utilizado, como o sistema LMDQL Forense (nesta dissertação) foi
implementado sobre o servidor mondrian (seguindo a proposta da LMDQL). Assim sendo,
61
nesta etapa utilizou-se as funções definidas pelo usuário (UDF- uma interface nativa do
mondrian para criação de funções externas);
Etapa 5: ocorre a aquisição dos relatórios financeiros, no sistema LMDQL Forense.
Nesta dissertação foram considerados documentos XBRL, por se tratar de um padrão
internacional com adoção em diversos países (conforme descrito na Seção 1.1 do Capítulo 1),
entretanto a solução apresentada pode ser adaptada para outros modelos de dados financeiros
representados em um ambiente baseado em documentos XML ou dados relacionais;
Etapa 6: é realizado o carregamento dos dados financeiros nos SGBD relacional e
XML, pois a LMDQL possibilita consultas OLAP sobre ambos os formatos, portanto, fica a
critério do usuário escolher sobre qual tipo de banco de dados o processamento analítico será
executado;
Etapa 7: deve-se modelar e implementar uma base de dados financeira que represente
os fatos e a semântica dos conceitos financeiros; contudo é uma etapa optativa para dados
representados em XBRL, considerando o uso do XBRL Abstract Model Database (descrito na
Seção 3.3), um banco de dados open source e sem licença paga, podendo-se utilizá-lo sem
restrições;
Etapa 8: implementação de um processo de ETL para o SGBD relacional. Os dados
contidos nos documentos são extraídos, transformados e carregados em um repositório
relacional financeiro;
Etapa 9: implementa-se uma tela de interação com o usuário, para inserção da consulta
LMDQL Forense (input), obtenção do resultado e sua exibição no painel de apresentação
(output). Neste trabalho, o JPivot (TONBELLER AG.,2003), incorporado ao servidor
mondrian, foi utilizado como tela de interação com o usuário.
4.5 CONSIDERAÇÕES FINAIS
A especificação dos requisitos da linguagem LMDQL Forense preenche três lacunas
encontradas nos trabalhos correlatos: (i) a inexistência de uma linguagem de consulta; (ii) o
usuário não define o paradigma do modelo de dados (Relacional ou XML) na consulta; e (iii)
a análise forense não considera a semântica dos dados financeiros (descritos nas taxonomias
XBRL em linkbases).
Com a linguagem LMDQL Forense é possível a análise forense de dados financeiros
em níveis de detalhes especificados pelo usuário, i.e. na consulta, especifica-se o documento
que se almeja analisar, seus elementos, a data ou período e o modelo de análise forense a ser
62
aplicado (i.e. Lei de Benford, Regra Empírica, Teste Z ou Teste Qui-Quadrado), assim como
o tipo de banco de dados que almeja na consulta.
O sistema LMDQL Forense, open source e livre de licença paga (XBRL
FRAMEWORK, 2014), automatiza o processo de análise forense em documentos financeiros
que trafegam pela Internet, através da aplicação dos operadores contidos na biblioteca
LMDQL, a qual é extensível a novos modelos de detecção de fraude financeira, conforme
descrito na seção 4.4. As contribuições do sistema LMDQL Forense sobre a arquitetura
LMDQL estão localizadas na camada Data (conforme descrito na Seção 2.4.1), na qual se
observa (i) uma nova biblioteca de operadores OLAP baseada em quatro técnicas estatísticoprobabilísticas (i.e. Lei de Benford, Regra Empírica, Teste Z e Teste Qui-Quadrado) para
análise forense em dados XML e relacional, somando-se aos operadores pré-existentes da
LMDQL (i.e. HAnalysis, VAnalysis, Cross, NNearestValues, NNearestValuesPercentual); e
(ii) a adoção do XBRL Abstract Model Database para representar os documentos financeiros
XBRL.
O sistema LMDQL Forense propõe uma análise baseada no processamento analítico
on-line (OLAP), i.e. soma-se aos demais trabalhos correlatos (Seção 3.2 do Capítulo 3), pois
não foi encontrado trabalho com essa abordagem para a análise forense (conforme
apresentado na Tabela 3).
A extensão proposta do sistema LMDQL Forense, descrito na Figura 18, serve como
base para elaboração de sistemas OLAP para análise forense financeira (baseado em
ambientes de dados relacional e XML), assim como para a extensão do sistema LMDQL
Forense à novos modelos de detecção de fraudes (não necessariamente baseada em técnicas
estatístico-probabilísticas).
Quanto ao repositório utilizado no sistema LMDQL Forense, i.e. O XBRL Abstract
Model Database (Descrito na etapa 7 da Seção 4.4), não é de uso obrigatório. A utilização de
qualquer outro repositório é possível, cujos dados estejam representados em XML ou pelo
modelo de dados relacional; desta forma, é possível também a extensão do sistema proposto à
outros ambientes (não financeiros) cujos modelos probabilísticos, especificados e
incorporados à LMDQL, possam ser aplicados.
No próximo capítulo é apresentado um estudo de caso, no qual ocorre a aplicação do
sistema LMDQL Forense sobre documentos XML nativos e dados relacionais.
63
5 EXEMPLO DE APLICAÇÃO DA LMDQL FORENSE EM RELATÓRIOS
FINANCEIROS DA U.S. SEC
Com o objetivo de validar a LMDQL Forense no domínio de detecção de fraudes em
relatórios financeiros, consultas LMDQL Forenses foram feitas sobre documentos XBRL
divulgados no site da U.S. SEC. Neste capítulo serão demonstrados os uso das consultas
OLAP baseadas nos operadores FirstDigit(), EmpiricalRule(), ZTest() e ChiSquaredTest(), e
seus respectivos resultados, sobre documentos financeiros XBRL trafegados pela internet.
Neste exemplo de aplicação, as consultas LMDQL Forense foram feitas em dois
formatos de dados, isto permitiu identificar a expressividade da linguagem e a possibilidade
de sua utilização em contextos distintos. Esses formatos são: (a) XML, o qual mantém a
estrutura sintática e semântica nativa dos documentos XBRL, e (b) relacional, a partir de
documentos XBRL nativos os dados são manipulados por meio de um processo de ETL que
os insere em um banco de dados relacional. Neste exemplo de aplicação é também realizada
uma avaliação preliminar de desempenho do processamento das consultas LMDQL Forense
nessas duas bases de dados, para dar subsídios aos analistas de sistemas financeiros a respeito
do desempenho do sistema LMDQL Forense.
Para realização do exemplo de aplicação do sistema LMDQL Forense, foram
carregados em ambas as bases de dados, relatórios financeiros emitidos pelo Bobs, Microsoft
e Facebook dos anos de 2011, 2012 e 2013 à U.S SEC.
5.1 BANCO DE DADOS XML
Para efetuar a análise forense nos documentos XBRL mantendo sua estrutura sintática,
os arquivos XBRL (instâncias e taxonomias) foram carregados em um SGBD XML nativo.
Para tal, o SGBD escolhido foi o Exist (EXIST SOLUTIONS, 2014), o qual é open source e
livre de licença paga.
As Figuras 19 e 20 apresentam, respectivamente, os resultados da execução do
operador forense FirstDigit utilizando os valores serialized e null no quarto parâmetro, o qual
foi aplicado sobre o relatório financeiro 10-Q, no mês de dezembro do ano de 2013, da
empresa Facebook. Os resultados dessas consultas não apresentaram conformidade com a Lei
dos Primeiros Dígitos, conforme pode ser visto com o uso do parâmetro null (Figura 20), que
informa as porcentagens esperadas e as encontradas para cada dígito. O tempo utilizado nesta
consulta foi de 11,3 segundos e foram considerados 853 dígitos na análise.
64
Figura 19 - Consulta forense FirstDigit, instrução serialized
Figura 20 - Consulta forense FirstDigit, instrução null
Este resultado obtido pelo operador FirstDigit não expressa uma forte evidência de
fraude do relatório. Conforme aplicado na contabilometria de alguns trabalhos sobre
contabilidade forense (DURTSCHI et al., 2004; FRANCISCHETTI, 2007; LAGIOIA et al.,
2011; COSTA et al., 2013; WINTER et al., 2012), a Lei dos Primeiros Dígitos requer a
aplicação conjunta com outro cálculo probabilístico, com a finalidade de obter uma margem
de tolerância para os valores percentuais encontrados nos demonstrativos contábeis
analisados.
Essa proposta de aplicação conjunta de mais de um cálculo probabilístico, em um
mesmo conjunto de dados financeiros, é permitida pela LMDQL Forense. Conforme ilustrado
na Figura 21, apresenta-se o uso em conjunto dos operadores ZTest e FirstDigit com instrução
65
serialized. Esta consulta assegura a conformidade dos relatórios sob análise com a Lei dos
Primeiros Dígitos, nos quais se aplicou uma margem de tolerância às porcentagens
encontradas.
Mesmo o relatório apresentando não conformidade com a Lei dos Primeiros Dígitos,
de acordo com o resultado da consulta realizada apenas com o operador FirstDigit, após a
aplicação conjunta de dois operadores forense, como é proposto pela contabilometria, a
conformidade foi evidenciada.
Nas consultas com uso do ZTest(), verificam-se (i) no primeiro parâmetro, a
probabilidade esperada - neste exemplo são os percentuais definidos pela Lei dos Primeiros
Dígitos para os dígitos de 1 a 9 (em sequência) (descritos na Tabela 1); (ii) no segundo
parâmetro, os valores do percentual observado para cada dígito, calculado sob o relatório
financeiro em análise, seguindo a mesma sequência do primeiro parâmetro - neste exemplo, é
fornecido o resultado serializado do operador FirstDigit (conforme ilustrado na Figura 19);
(iii) no terceiro parâmetro, é informada a quantidade total de dígitos que foram analisados no
relatório em análise (i.e. 853) - esse dado deve ser informado pelo usuário e pode ser
encontrado no retorno null do operador FirstDigit (ilustração da Figura 20); (iv) no último
parâmetro, o analista deve informar a margem de tolerância aos percentuais observados neste exemplo, foi informado o valor crítico (i.e. z-crítico) igual a 2.57, o qual representa uma
margem de 1% dos valores apresentarem fraudes (CHARLES STURT UNIVERSITY, 2010),
i.e. com esse z-crítico há a probabilidade de aceitação de 99% dos dados financeiros
analisados. Essa margem de tolerância é equivalente à margem do terceiro sigma (i.e. 99,7)
definido pela Regra Empírica (ilustrada na Figura 3). O valor de z-crítico não pode ser
excedido, positivamente ou negativamente, i.e. os valores devem ficar no intervalo de -2.57 e
+ 2.57, classificando-se como hipótese nula (H0), i.e. válida ou livre de fraudes. O resultado
dessa consulta identificou que a análise da H0 é válida e os valores avaliados têm
conformidade com os valores esperados, havendo parecer favorável à veracidade dos dados.
O tempo de execução utilizado por este operador forense, nessa consulta, foi 12,9 segundos.
66
Figura 21 - Aplicação dos operadores ZTest e FirstDigit em conjunto
Ainda em concordância com a contabilometria, a qual define a aplicação conjunta de
cálculos probabilísticos, na ilustração da Figura 22 é apresentado o uso em conjunto dos
operadores ChiSquaredTest e FirstDigit. Nessa consulta os dois primeiros parâmetros seguem
a mesma especificação do operador ZTest. No último parâmetro, é dado o χ2-crítico igual a
15.507, o que determina uma tolerância de 5% de possibilidade de ocorrência de fraude aos
percentuais encontrados (DURTSCHI et al., 2004; FRANCISCHETTI, 2007; CHARLES
STURT UNIVERSITY, 2010; LAGIOIA et al., 2011; COSTA et al., 2013). Essa margem é
equivalente à margem do segundo sigma (i.e. 95,4), definido na Regra Empírica (ilustrada na
Figura 3). O resultado da consulta informa um novo parecer favorável ao relatório em análise,
uma vez que nenhum dígito ultrapassou o valor crítico fornecido 15.507. O tempo na
execução dessa consulta foi 7,9 segundos.
67
Figura 22 - Aplicação dos operadores ChiSquaredTest e FirstDigit em
conjunto
A aplicação do operador EmpiricalRule sobre o demonstrativo financeiro do Facebook
é ilustrada na Figura 23, na qual é possível verificar oito elementos da taxonomia XBRL do
Facebook, com seus respectivos valores monetários, dos quais o primeiro não tem históricos
de dados armazenados suficientes para execução desta análise (i.e. o Sigma position é igual a
"There are not enough stored data"), e os demais apresentam suas classificações da posição
sigma (i.e. +2nd sigma, -1st sigma, +3rd sigma, -1st sigma, -1st sigma, -1st sigma, +1st
sigma, respectivamente). Nessa consulta optou-se pela análise de todos os elementos (i.e.
[Element].children),de todos os dias do mês de dezembro, do ano 2013. O documento
solicitado na busca foi o 10-Q. Somente é possível a visualização de parte do resultado na
Figura 23, pois corresponde a 145 elementos analisados. O tempo de execução desta consulta
foi 4 minutos 24 segundos.
68
Figura 23 - Aplicação do operador EmpiricalRule à todos os elementos do
documento XBRL
No intuito de validar a análise forense através de dados que representam a semântica
(contidos nos linkbases XBRL) dos elementos definidos no esquema XBRL, apresenta-se
uma consulta considerando o label - um nome legível que corresponde ao nome de um
elemento, único em toda a taxonomia (U.S. SECURITIES AND EXCHANGE
COMMISSION, 2010) - para representar o elemento us-gaap:AccountsPayableCurrent. As
Figuras 24 e 25 ilustram a mesma consulta de duas formas distintas. A primeira, define o
elemento us-gaap:AccountsPayableCurrent contido no XBRL Schema (documento XML que
especifica todos os elementos de uma taxonomia XBRL, conforme discutido na Seção 2.3) e a
segunda por meio de um label (i.e. Accounts Payable, Current) contido no linkbase label.
69
Figura 24 - Consulta forense pelo elemento "us-gaap:AccountsPayableCurrent"
Figura 25 - Consulta forense pelo linkbase label "Accounts Payable, Current"
5.2 BANCO DE DADOS RELACIONAL
Para realizar a carga no XBRL Abstract Model Database (Anexo B) foi feito um
processo de extração dos dados nos documentos XBRL, ilustrado na Figura 26. Os
documentos XBRL foram carregados no Arelle (ARELLE, 2014a), uma ferramenta para
manipulação de documentos XBRL e cuja plataforma é de código aberto e gratuito. Os dados
de interesse (i.e. elementos, período, descrição do documento e valores) foram exportados
para uma planilha Excel e extraídos para o banco de dados por meio de um código java. Ao
final desse processamento, foram armazenados 5664 registros financeiros no repositório
relacional, sendo 2320 registros pertencentes ao Facebook. O XBRL Abstract Model
70
Database foi construído no SGDB MySql (Oracle Corporation, 2014), cujo critério de escolha
baseou-se na sua licença gratuita e código aberto.
Figura 26 - Processamento ETL utilizado neste trabalho
As Figuras 27 e 28 apresentam, respectivamente, os resultados obtidos com as
utilização do XBRL Abstract Model Database, para ambas as instruções do operador
FirstDigit: serialized e null. A diferença entre esta consulta em banco de dados XML e
relacional é com relação ao tempo de execução da consulta que foi de 828 milésimos de
segundo, com os mesmos 853 dígitos na análise.
Figura 27 - Uso do operador FirstDigit, com a instrução serialized, na base relacional
Figura 28 - Uso do operador FirstDigit, com a instrução null, na base
relacional
71
Seguindo o mesmo princípio da contabilometria que sugere o uso de um conjunto de
modelos probabilísticos (conforme descrito na Seção 5.1 deste capítulo), nas Figuras 29 e 30 é
apresentado, respectivamente, o uso do operador ZTest com FirstDigit, e ChiSquaredTest com
FirstDigit. O tempo de execução observado na primeira consulta é de 842 milésimos e na
segunda, 776 milésimos.
Figura 29 - Aplicação do ZTest em conjunto com o FirstDigit
Figura 30 - Aplicação do ChiSquaredTest em conjunto com o FirstDigit
Como o objetivo de avaliar o tempo de execução na base de dados relacional, aplicouse o operador EmpiricalRule sobre os dados relacionais manteve a mesma análise observada
sobre a base XML, entretanto o tempo de execução foi 2,4 segundos. A Figura 31 ilustra parte
do resultado obtido.
72
Figura 31 - Aplicação do operador forense EmpiricalRule especificando todos
os elementos
Avaliando
as
consultas
por
um
elemento
específico
(us-
gaap:AccountsPayableCurrent) e por seu label, i.e. "Accounts Payable, Current", observou-se o
mesmo resultado com menor tempo de execução, ilustrados nas Figuras 32 e 33.
Figura 32 - Operador EmpiricalRule
gaap:AccountsPayableCurrent"
sobre
o
elemento
"us-
73
Figura 33 - Consulta forense pelo linkbase label "Accounts Payable, Current"
5.3 AVALIAÇÃO DE DESEMPENHO DO TEMPO DE EXECUÇÃO DAS CONSULTAS
Uma análise do desempenho da LMDQL Forense também foi investigada, para
verificar sobre qual banco de dados as consultas tem melhor atuação. O desempenho é um
atributo importante quando se trata de sistemas OLAP. O computador utilizado para os testes
apresentados a seguir, possui processador Intel(R) Core (TM) i5-3317U CPU @ 1.70GHz
com memória RAM de 8Gb, e o sistema operacional utilizado é de 64bits. Os tempos de
execução (em milissegundos) das consultas forenses são apresentados na Tabela 6, assim
como a diferença percentual dos resultados obtidos. Uma consulta LMDQL Forense com o
operador EmpiricalRule considerando todos os elementos do documento financeiro, em uma
base relacional foi executada em 2.499 milissegundo, e na base XML (documento XBRL
nativo) foi em 4 minutos 24 segundos (ou 236.999 milésimos de segundo), apresentando uma
diferença percentual de 9.383% no tempo de execução. Ao especificar um elemento, em uma
consulta com o operador EmpiricalRule, o tempo para sua execução foi 48 milésimos de
segundo, na base relacional, e 499 milésimos de segundo, na base XML, apresentando uma
diferença percentual de 936,6%. Comportamento semelhante ocorreu quando se utiliza este
mesmo operador (EmpiricalRule) e especifica-se na consulta um dado contido nos linkbases
(i.e. um label), desta forma, sua execução foi de 75 milissegundos, na base relacional, e 1.051
milésimos de segundo, na base XML. Com relação às consultas com o operador FirstDigit, o
tempo de execução para seu processamento foi 828 milissegundos (base relacional), enquanto
na base XML foi de 11.369, tendo uma diferença percentual de 1273,1%. O operador ZTest
teve sua execução em 824 e 12.980 milissegundos, nas base relacional e XML
74
respectivamente, com uma diferença percentual de 1.475,2%. Por fim, o operador
ChiSquaredTest executou a consulta em 776 e 7.942 milésimos de segundo, nas bases
relacional e XML respectivamente, apresentando uma diferença percentual de 923,5%.
Tabela 6 - Tempo de execução da LMDQL Forense nas bases relacional e XML e Diferença
Percentual dos resultados
BD
BD
Diferença
Operadores Forenses
Relacional* XML* Percentual
2.499
236.999
9383,8%
48
499
939,6%
EmpiricalRule (um label)
75
1.051
1301,3%
FirstDigit
828
11.369
1273,1%
ZTest
824
12.980
1475,2%
ChiSquaredTest
776
7.942
923,5%
EmpiricalRule (todos os elementos)
EmpiricalRule (Um elemento específico do esquema
XBRL)
* Milésimos de segundos
A seguir é apresentado um gráfico (Figura 34), baseados nos dados da Tabela 6,
comparando o desempenho (em milissegundos) de cada operador forense nos repositórios
relacional e XML. O eixo do tempo, no gráfico, está em escala logarítmica de base 10, para
melhor representação dos resultados.
75
Figura
34
milissegundos)
-
Tempo
de
desempenho
dos
operadores
forenses
(em
76
5.4 CONSIDERAÇÕES FINAIS
Nos trabalhos cuja detecção de fraudes não é computadorizada, verifica-se a utilização
conjunta de mais de um cálculo probabilístico, e.g. Lei dos Primeiros Dígitos com Teste Z ou
Teste χ2. Esse comportamento foi contemplado nas consultas realizadas pelos operadores da
LMDQL Forense, um dos requisitos para a definição da linguagem.
Uma característica comum em taxonomias XBRL é a utilização de linkbases para
descrever a semântica dos conceitos financeiros. Nos exemplos apresentados nas Figuras 25 e
33, verifica-se a possibilidade de executar consultas por meio dos labels (rótulos) dos
elementos definido no documento XBRL Schema, considerando a semântica do dado XBRL
na consulta forense. A linguagem LMDQL Forense torna transparente (ao usuário ou analista
forense) tanto o processo de manipulação de componentes necessários para troca do tipo de
banco de dados, quanto a busca pelos dados nos linkbases XBRL, características herdadas da
LMDQL.
O desempenho das consultas forenses sobre o banco de dados relacional obtiveram
melhores resultados, como era de se esperar, já que é de conhecimento na comunidade
acadêmica e no mercado que os SGBD relacionais possuem desempenho superior ao XML
nativo (SILVA, 2010). A diferença percentual entre as consultas LMDQL Forense
apresentados no Exemplo de Aplicação oscilou entre 923,5% e 9383,8%. Esta última
porcentagem caracterizou a diferença percentual entre as consultas efetuadas com o operador
forense EmpiricalRule sobre todos os elementos (Figura 23 e 31), comprovando que a
diferença entre os tempos de execução de uma consulta em ambas as bases, aumenta quando
demanda maiores quantidades de documentos XML. Neste caso, a consulta contabilizou todos
os valores de todos os elementos de todos os relatórios 10-Q, contidos no repositório, para
fazer o cálculo da Regra Empírica (discutida na Seção 2.2.1).
No capítulo seguinte serão abordadas as conclusões finais desta dissertação e
oportunidades de trabalhos futuros.
77
6 CONCLUSÃO
No domínio financeiro, a incidência de fraudes tem aumentado nos últimos anos,
assim como também tem sido crescente a adoção da linguagem XBRL pelo mercado
financeiro, em nível mundial. Esse cenário comprova que trabalhos que promovem a
preservação, coleta, validação, identificação, análise dos dados em documentos formatados
pela tecnologia XBRL, são oportunos. A LMDQL Forense é um meio para aplicação da
contabilidade forense em relatórios financeiros digitais baseados na tecnologia XML (da qual
a XBRL é derivada), estabelecendo uma nova abordagem à auditoria contábil e contabilidade
forense, a qual trata da utilização de recursos computacionais baseadas em consultas OLAP,
para a detecção de fraudes em documentos digitais, por meio da aplicação de cálculos
probabilísticos em uso na contabilidade forense não computadorizada.
Sendo um banco de dados baseado na especificação XBRL 2.1, o XBRL Abstract
Model Database permite a extensão desse repositório a qualquer sistema financeiro baseado
na tecnologia XBRL. Desta forma, trata-se de um repositório que abrange tanto os fatos
financeiros, reportados nas instâncias XBRL, como os relacionamentos padrões (i.e. definidos
nos linkbases presentation, calculation, definition, label e reference) entre os conceitos
especificados no XBRL Schema. Logo, a semântica dos dados financeiros também pode fazer
parte das visões da consulta LMDQL Forense (e.g. o uso de labels, "[element].[Accounts
Payable, Current]", ilustrado na Figura 25 e 33). Outra característica relevante é que a adição,
exclusão ou alteração de um relacionamento estabelecido entre dois ou mais conceitos XBRL,
não implica na modificação da estrutura de tabelas do repositório, limitando-se à manipulação
de alguns registros no SGBD. Isto preserva a sincronização entre o modelo relacional e a
taxonomia XBRL. Também baseado na especificação XBRL Dimension, este repositório
possui características apropriadas para suportar os processamentos analíticos do sistema
LMDQL Forense, o qual também faz uso de tabelas multidimensionais.
A linguagem LMDQL Forense representa uma perspectiva de análise aos contadores
forenses ou auditores contábeis sobre dados XBRL. Mediadora entre a contabilidade forense
não computadorizada e os relatórios financeiros digitais, a LMDQL Forense constitui-se um
facilitador nas análises forenses de documentos XBRL, cujo processamento ocorre em
desempenhos superiores às análises manuais, ou parcialmente computadorizadas. Destacamse dois benefícios dessa linguagem de consulta forense: (i) agilidade na detecção de fraude em
grandes quantidades de dados financeiros, o que a depender da quantidade de relatórios
financeiros seria impraticável ou poderia demorar dias, de forma manual, e (ii) aplicação da
78
contabilidade forense por meio de técnicas de detecção de fraude em uso na academia e no
mercado, sendo possível a aplicação simultânea dessas técnicas em um mesmo conjunto de
dados pelos analistas financeiros.
Os Operadores Forenses, que compõem a linguagem LMDQL Forense, são baseados
em quatro cálculos probabilísticos (i.e. Lei de Benford, Regra Empírica, Teste Z e Teste QuiQuadrado). Eles apresentam-se adequados à proposta de detecção de fraudes financeiras, pois
segue padrões já estabelecidos na contabilidade forense não computadorizada (HILL, 1998;
FRANCISCHETTI, 2007; LAGIOIA et al.,2011; SILVA JR, 2013; COSTA et al, 2013,
WINTER et al, 2013). Também se mostram adequados à proposta do sistema LMDQL
Forense,
que
viabiliza
a
aplicação
desses
cálculos
probabilísticos
no
contexto
computadorizado através de um sistema OLAP.
É importante destacar a possibilidade da aplicação dos Operadores Forenses de forma
unitária ou conjunta. Por possuir código disponível e livre de licença paga (característica da
LMDQL), é possível a inserção de novos operadores forenses aos já existentes na biblioteca
de operadores LMDQL, e a manipulação dos quatro operadores forenses (i.e. FirstDigit,
ZTest, ChiSquaredTest, EmpiricalRule) para adequação à novos contextos, e.g. a adequação
dos resultados dos operadores forenses à outros dashboard (ou painéis de apresentação de
resultados), comumente utilizado em sistemas de Business Inteligence.
O sistema LMDQL Forense teve seu desenvolvimento baseado em componentes
disponíveis (padrões abertos e gratuitos) à comunidade, i.e. XBRL, MySQL, LMDQL,
mondrian e Arelle. Ele possui características de extensibilidade e personalização em todos os
seus componentes, sendo possível sua manipulação, para atender evoluções tecnológicas ou
algum contexto específico, no repositório relacional, no processo de ETL, nos operadores
forenses, assim como na linguagem LMDQL Forense (desde que obedecendo a especificação
LMDQL). Um processo foi apresentado para guiar a construção do sistema LMDQL Forense,
assim como também poder guiar a extensão dessa ferramenta, por meio de novos operadores
forenses baseados em outras modalidades de análises forenses, tornando a LMDQL Forense
um arcabouço tecnológico para detecção de fraudes financeiras baseado em técnicas
estatístico-probabilísticos, sobre dados XML (e linguagens derivadas, e.g. XBRL) e
relacional.
A LMDQL Forense é acessível a qualquer entidade privada ou governamental, não
havendo problemas de licenças, na sua utilização (XBRL FRAMEWORK, 2014). Ressalta-se a
extensão da LMDQL Forense em outros domínios (i.e. não financeiros), cujos dados estejam
formatados em documentos XML ou em tabelas relacionais, os quais sejam passíveis de
79
análises baseadas em técnicas estatístico-probabilísticas, e.g. bioestatística (AYRES et al.,
2007), geografia e dados sociais (IBGE, 2014), química analítica (UNICAMP, 2006),
psicologia (PASQUALI, 2008), dentre outros.
Com relação ao formato dos dados (i.e. relacional e nativo XBRL), a análise forense
sobre uma base de dados XML permite a preservação da estrutura sintática e semântica dos
documentos XBRL analisados (i.e. instâncias, linkbases e schema), sem a necessidade de
modificá-los para outros formatos de dados (e.g. relacional). No que se refere ao desempenho,
constata-se que os repositórios relacionais são mais eficientes, requisito não funcional (i.e.
desempenho) relevante quando se trata de sistemas OLAP. Contudo, a utilização de uma base
de dados relacional, exige um processo adicional (i.e. ETL), devido à mudança de formato de
XML para relacional, na implementação do sistema.
A Tabela 7 ilustra as contribuições deste trabalho com relação aos trabalhos correlatos
(Seção 3.2), no que se refere a alguns requisitos descritos no objetivo desta dissertação (Seção
1.3 do Capítulo 1). O desenvolvimento do sistema LMDQL Forense possibilitou que fossem
alcançados os objetivos desta dissertação, pois se trata de um sistema computacional open
source e livre de licença paga (XBRL FRAMEWORK, 2014), permite a análise de dados
financeiros para detecção de fraude, realiza consulta sobre dados XBRL, possui uma
linguagem de consulta para análise forense de dados financeiros, faz análise forense
considerando a semântica dos dados financeiros (i.e. linkbase), faz análise forense com
aplicação de cálculos probabilísticos, possibilita a aplicação conjunta de cálculos
probabilísticos, é uma ferramenta extensível a novos modelos de detecção de fraudes e faz
aplicação de análises em tempo real.
80
Tabela 7 - Comparativo entre os Sistemas de Análise Forense investigados e o sistema LMDQL Forense
Durtschi
et al.
(2004)
Open Source e livre
Nigrini
(2014)
Fin
Dynamics
(2014)
Kovach
(2011)
Sherly &
Kirkosa
Choi et
Seo et
Flores
Winter
Khan
Chai et
et al.
al.
al.
et al.
et al.
et al.
al.
(2007)
(2009)
(2009)
(2012)
(2012)
(2012)
(2006)
Não
Não
Não se
Não se
Não se
Não
Não se
Não se
aplica
aplica
aplica
Informa
aplica
aplica
Não se
Nedunchezhian
(2010)
Zhang
et al.
(2009)
Panigrahi
LMDQL
(2011)
Forense
Não
Não
Não
Não
Não
Detecção de fraude
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Dados XBRL
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Sim
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Sim
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Sim
Parcial-
Parcial-
Parcial-
Parcial-
mente
mente
mente
mente
Sim
Não
Sim
Sim
Não
Não
Não
Sim
Não
Não
Sim
(macro)
(macros)
(macros)
(macros)
Sim
Sim
Não
Sim
Não
Não
Não
Não
Sim
Não
Não
Não
Não
Sim
Sim
de licença paga
Linguagem de
Consulta
Semântica dos
dados (Linkbase)
Implementa um
Sistema
computacional
Cálculos
probabilísticos
aplica
Sim
81
Durtschi
et al.
(2004)
Nigrini
(2014)
Fin
Dynamics
(2014)
Kovach
(2011)
Kirkosa
Choi et
Seo et
Flores
Winter
Khan
Chai et
et al.
al.
al.
et al.
et al.
et al.
al.
(2007)
(2009)
(2009)
(2012)
(2012)
(2012)
(2006)
Sherly &
Nedunchezhian
(2010)
Zhang
et al.
(2009)
Panigrahi
LMDQL
(2011)
Forense
Aplicação conjunta
de cálculos
Não
Não
Não
Sim
Não
Não
Não
Não
Sim
Não
Não
Não
Não
Sim
Sim
Sim
Sim
Sim
Sim
Não
Não
Sim
Não
Sim
Não
Não
Não
Não
Sim
Sim
Não
Não
Não
Sim
Sim
Não
Não
Não
Não
Não
Não
Não
Não
Não
Sim
probabilísticos
Extensível à novos
modelos forenses
Tempo Real
82
Em seguida, finalizando a conclusão, são apresentados os trabalhos publicados
em conferências científicas e as oportunidades de trabalhos futuros.
6.1 TRABALHOS COMPLETOS PUBLICADOS EM ANAIS DE CONGRESSOS
Durante o desenvolvimento deste trabalho, artigos científicos foram elaborados e
submetidos em conferências científicas, com o objetivo de validar na comunidade
acadêmica as contribuições. Desta forma, as ideias propostas puderam ser avaliadas pela
comunidade científica, contribuindo de maneira importante para o desenvolvimento
desta dissertação. A aceitação ocorreu no congresso CONTECSI, na Universidade de
São Paulo em São Paulo, no eDOC, na University of Ulm na Alemanha, e na ICWI
(www/Internet), na cidade de Porto em Portugal. As referências aos artigos são
apresentadas a seguir:
• SILVA, M.A.; SILVA, P.C. ; CAMPOS, J.A. XBRL GIS - Integrating
Geographic Information in XBRL Documents. In: INTERNATIONAL
CONFERENCE ON INFORMATION SYSTEMS AND TECHNOLOGY
MANAGEMENT – CONTECSI, 10., 2013, São Paulo University, Brazil.
Proceedings… 2013.
•
SILVA, M.A.; SILVA, P.C. Analytical Processing for Forensic Analysis. In:
INTERNATIONAL WORKSHOP ON COMPLIANCE, EVOLUTION AND
SECURITY IN CROSS-ORGANIZATIONAL PROCESSES (CESCOP 2014),
1., IEEE INTERNATIONAL EDOC CONFERENCE 2014, Workshops
(EDOCW'14). 18., 2014, Ulm, Germany. Proceedings… 2014.
• SILVA, M.A.; SILVA, P.C. Financial Forensic Analysis.13th IADIS
International Conference WWW/INTERNET (ICWI), 13., 2014, Porto,
Portugal. Proceedings… 2014.
6.2 TRABALHOS FUTUROS
No decorrer das investigações dos trabalhos correlatos outros cálculos
probabilísticos foram encontrados, e.g. P-Rule (ABBOTT, 2011), Belief Function
(DENCEUX, 2011), T Test (HARVARD UNIVERSITY, 2014), a teoria matemática
Dempster-Shafer, Distribuição Log-Uniform e Log-Pearson Type IV (descritos na Seção
83
3.2), os quais são aplicados para detecção de dados anômalos (i.e. dados com suspeitas
de fraude) na investigação forense. A incorporação desses cálculos probabilísticos à
LMDQL Forense fomenta novas investigações.
Os variados modelos para detecção de fraude, investigados nos trabalhos
correlatos (Seção 3.2 no Capítulo 3), e.g. árvores de decisão ISGNT e SGNT,
algoritmos de pontuação difusa (fuzzy), redes neurais, redes bayesianas, algoritmo
HMM, reconhecimento de padrões K-means, também foram identificadas como
oportunidades para investigações futuras. Muito embora esses modelos não entrem no
escopo desta dissertação, por ser baseado em lógicas utilizadas na computação e não em
cálculos probabilísticos, podem contribuir com a ampliação da LMDQL Forense,
incorporando novas modalidades de análises forenses baseados em algoritmos
computacionais capazes de detectar anomalias em dados financeiros, promovendo novas
perspectivas de análises aos auditores financeiros e contabilistas forenses.
Outra oportunidade de trabalho futuro é a integração dos operadores forenses
LMDQL com Geographic Information Systems (GIS), verificando a possibilidade de
análises forenses financeiras baseados em informações geográficas contidos nos
documentos XBRL. Em Silva et al. (2013) é proposto a integração da XBRL com a
Geography Markup Language (GML). Esta abordagem transforma a LMDQL em uma
ferramenta de processamento analítico online espacial (SOLAP).
84
REFERÊNCIAS
ABBOTT, M. G. The P-value decision rule for hypothesis tests. 2011. Disponível
em: <http://qed.econ.queensu.ca/walras/custom/300/351A/addnot08.pdf>. Acesso em: 1
set. 2014.
ACCESSDATA GROUP INC. Forensic Toolkit® 5.4 Download. 2014. Disponível
em: <http://www.accessdata.com/support/ftk-download-page>. Acesso em: 17 ago.
2014.
ACL SERVICES LTD. [Portal]. 2014. Disponível em: <http://www.acl.com/>. Acesso
em: 29 jul. 2014.
ACM, Inc. 2014. [Portal]. Disponível em: <http://dl.acm.org/>. Acesso em: 2 dez. 2013.
ARDENNE, R. Interface Discoverable Taxonomy Set. Disponível em:
<http://www.batavia-xbrl.com/javadoc/bxjl.1/com/batavia/xbrl/taxonomy/
DiscoverableTaxonomySet.html>. Acesso em: 28 ago. 2014.
ARELLE. Arelle Open Source XBRL Plataform. 2014a Disponível em:
<http://arelle.org/>. Acesso em: 12 jan. 2014.
ARELLE. The XBRL Database. 2014b. Disponível em:
<http://arelle.org/documentation/xbrl-database/#XBRLUSPublicDatabase>. Acesso em:
12 ago. 2014.
ARELLE . The XBRL Database. 2014c. Disponível em:
<http://arelle.org/documentation/xbrl-database/#DPMDatabase>. Acesso em: 12 ago.
2014.
ASSOCIATION OF CHIEF POLICE OFFICERS. Good Practice Guide for
Computer-Based Electronic Evidence. 2011. Disponível em:
<http://www.7safe.com/electronic_evidence/
ACPO_guidelines_computer_evidence.pdf>. Acesso em: 30 jul. 2014.
AYRES, M. et al. BioEstat: aplicações estatísticas nas áreas das ciências bio-médicas.
2007. Disponível em: <http://dv.fosjc.unesp.br/ivan/downloads/Bioestat_5*ManualBioEstat_5.pdf>. Acesso em: 8 set. 2014.
BAI, Z. ; SAKAUE, M. ; TAKEDA, F. The Impact of XBRL Adoption on the
Information Environment in Japan. Tokyo : University of Tokyo, 2012. Disponível
em: <http://ipr-ctr.t.u-tokyo.ac.jp/jp/libraries/dp/DP5.pdf>.Acesso em: 31 out. 2013.
BLANCO, M. ; GINOVART, M. How to Introduce Historically the Normal
Distribution in Engineering Education: a Classroom Experiment. International
Journal of Mathematical Education in Science and Technology, v. 41, is. 1, p. 1930, 2010.
BRANCO JR, T. Um modelo de processo para estruturação do anteprojeto de
sistemas de informação. Uma aplicação na Prefeitura Municipal de Salvador. 2013.
Dissertação. (Mestrado em Sistemas e Computação)- UNFACS Universidade Salvador,
Salvador, 2013.
85
CASEWARE ANALYTICS. IDEA Data Analysis. 2014. Disponível em:
<http://www.casewareanalytics.com/products/idea-data-analysis/>. Acesso em: 4 set.
2013.
CHAI, W. ; HOOGS, B.K. ; VERSCHUEREN, B.T. Fuzzy Ranking of Financial
Statements for Fraud Detection. Fuzzy Systems. In: IEEE INTERNATIONAL
CONFERENCE, 2006. Proceedings… 2006. Doi: 10.1109/FUZZY.2006.1681708.
Disponível em:
<http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1681708&isnumber=35437
>. Acesso em: 2 mar. 2014.
CHARLES STURT UNIVERSITY.Critical scores - What does zα, zα/2, tα and tα/2
mean? 2010. Disponível em: <http://www.csu.edu.au/division/studserv/mystudies/maths/docs/6-z-and-t-scores.pdf>. Acesso em: 2 jun. 2014.
CHAUDHURI, S. ; DAYAY, U. Data warehouse and OLAP for decision support. In:
INTERNATIONAL CONFERENCE ON VERY LARGE DATA BASE, 22.,
Proceedings… Bombay,1996, p. 295-30.
CHENG, P. ; QIULI, T. Design and Realization of College Finance OLAP Analyzer
Based on MDX. In: INTERNATIONAL CONGRESS ON COMPUTER
APPLICATIONS AND COMPUTATIONAL SCIENCE ADVANCES IN
INTELLIGENT AND SOFT COMPUTING, 2., 2012. Proceedings… 2012. Disponível
em: <http://link.springer.com/chapter/10.1007%2F978-3-642-28314-7_11#page-1>.
Acesso em: 24 jul. 2014.
CHENG, J. Cheng's Bayesian Belief Network Software. 2001.Disponível em:
<http://webdocs.cs.ualberta.ca/~jcheng/bnsoft.htm>. Acesso em: 28 jul. 2014.
CHOI, J. ; CHOI, K. ; LEE, S. Evidence Investigation Methodologies for Detecting
Financial Fraud Based on Forensic Accounting. Computer Science and its Applications,
2009. CSA '09. In: INTERNATIONAL CONFERENCE, 2., 2009. Proceedings…
2009. Doi: 10.1109/CSA.2009.5404202. Disponível em:
<http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5404202&isnumber=54041
69>. Acesso em: 8 jan. 2014.
COLLI, M. Cibercrimes: limites e perspectivas à investigação policial de crimes
cibernéticos. São Paulo: Juruá, 2010.
COHN, M. SEC Refocuses on Accounting Fraud. 2013.Disponível em:
<http://www.accountingtoday.com/news/SEC-Refocuses-Accounting-Fraud-668931.html>. Acesso em: 2 jun. 2013.
CONTI, F. Biometria Qui Quadrado. [S.l.]: Laboratório de Informática - ICB –
UFPA, 2009. Disponível em: <http://www.ufpa.br/dicas/biome/biopdf/bioqui.pdf>.
Acesso em: 26 jan. 2014.
COSTA, M. Computação forense: a análise forense no contexto da resposta a
acidentes computacionais.3ed. [S.l.]: Millenium, 2011.
COSTA, J.; TRAVASSOS, S. ; SANTOS, J. Application of newcomb-benford law in
accounting audit: a bibliometric analysis in the period from 1988 to 2011. In:
CONTECSI– FEA, 10., 2011, São Paulo. Anais… São Paulo: USP, 2011.
86
DASGUPTA, D. An Overview of Artificial Immune Systems and Their Applications.
In: DASGUPTA, D. (Ed.). Artificial immune systems and their applications. Berlin:
Springer-Verlag, 1998. p.3-21.
DENCEUX, T. Introduction to belief functions. Université de Technologie de
Compiègne. 2011. Disponível em: <http://www.gipsa-lab.grenobleinp.fr/summerschool/bfta/includes/Denoeux_introduction_belief_functions.pdf>.
Acesso em: 1 set. 2014.
DING, C. ; HE, X. K-means Clustering via Principal Component Analysis. In: INT'L
CONF. MACHINE LEARNING (ICML 2004), 2004. Proceedings… 2004. Disponível
em: < http://ranger.uta.edu/~chqding/papers/KmeansPCA1.pdf>. Acesso em: 4 set.
2014.
DUCKDUCKGO. [Portal]. 2014. Disponível em: <https://duckduckgo.com>. Acesso
em: 2 mar. 2014.
DURTSCHI, C. ; HILLISON,W. ; PACINI, C. The Effective Use of Benford's Law to
Assist In Detecting Fraud in Accounting Data. Journal of Forensic Accounting, p. 1734, 2004. Disponível em: <http://faculty.usfsp.edu/gkearns/Articles_Fraud/Benford
AnalysisArticle.pdf>. Acesso em: 16 jan. 2014.
ECK, D. ; RYAN, J. Mathbeans Project - The Chi Square Statistic. Department of
Mathematics and Computer Science, Hobart and William Smith Colleges. 2012.
Disponível em: <http://math.hws.edu/javamath/ryan/ChiSquare.html>. Acesso em: 19
jan. 2014.
EDDY, S. R. What is a hidden Markov model? Nature Biotechnology, 2004. Doi:
10.1038/ nbt 1004-1315. Disponível em:
<http://www.nature.com/nbt/journal/v22/n10/full/nbt1004-1315.html>. Acesso em: 6
mar. 2014.
EIOPA. [Portal]. 2014. Disponível em: <https://eiopa.europa.eu>. Acesso em: 4 ago.
2014.
ELEUTÉRIO, P. M. ; MACHADO, M. P. Desvendando a computação forense. [S.l.]:
Nova Tec. Elsevier, 2011. ISBN:
8575222600, 9788575222607. Disponível em:
<http://www.novateceditora.com.br/livros/computacaoforense/capitulo9788575222607.
pdf>. Acesso em: 30 maio 2013.
EUROPEAN BANKING AUTHORITY (EBA). Data Point Model and Taxonomies
for Implementing Technical Standard (ITS) on Supervisory Reporting. 2014.
Disponível em: <http://www.eba.europa.eu/regulation-and-policy/supervisoryreporting/implementing-technical-standard-on-supervisory-reporting-data-point-model/-/regulatory-activity/consultation-paper>. Acesso em: 16 ago. 2014.
EXIST SOLUTIONS. [Portal]. 2014. Disponível em: <http://www.exist-db.org/>.
Acesso em: 8 jun. 2014.
FELDEN, C. Characteristics of XBRL adoption in Germany. Journal of Management
Control, v.22, n. 2, p. 161-186, Springer, 2011.. Disponível em:
<http://link.springer.com/article/10.1007%2Fs00187-011-0134-7>. Acesso em: 31 maio
2013.
87
FLORES, D. ; ANGELOPOULOU, O. ; SELF, R. Combining Digital Forensic
Practices and Database Analysis as an Anti-Money Laundering Strategy for Financial
Institutions. In: EMERGING INTELLIGENT DATA AND WEB TECHNOLOGIES
(EIDWT), 2012 INTERNATIONAL CONFERENCE, 3., 2012. Proceedings… 2012.
Doi: 10.1109/EIDWT.2012.22. Disponível em:
<http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6354745&isnumber=63547
13>. Acesso: 8 jan. 2014.
FISCHER. Evolution and Future Trends for XBRL Development. 2013. Disponível
em: <http://arelle.org/wordpress/wp-content/uploads/downloads/2013/04/KU%
202013%20Evolution%20and%20Future.pdf>. Acesso em: 4 set. 2014.
FRANCISCHETTI, C. E. Aplicação da Lei dos Números Anômalos ou Lei de
NewComb-Benford para o controle das demonstrações financeiras das
organizações. 2007. Dissertação (Mestrado)- Universidade Metodista de Piracicaba Faculdade de Gestão e Negócios, 2007. Disponível em:
<https://www.unimep.br/phpg/bibdig/pdfs/2006/CYYCKXQDWKIK.pdf>. Acesso em:
maio de 2013.
FREE SOFTWARE FOUNDATION. [Portal]. 2014. Disponível em:
<http://www.fsf.org/>. Acesso em: 17 ago. 2014.
FREITAS, C. O. ; ROCHA, A. Mensagem da Coordenação do WFC. In: SbSEG, 12.,
2012. Anais... 2012. Disponível
em:<http://sbseg2012.ppgia.pucpr.br/@docs/SBSeg2012Anais.pdf>. Acesso em: 19
jun. 2013.
GATEN, T. Z-tests and T-tests. Leicester: University of Leicester. Department of
Biology, 2000. Disponível em: <http://www.le.ac.uk/bl/gat/virtualfc/Stats/ttest.html>.
Acesso em: 19 jan. 2014.
GEHRKE, J. ; GANTI, V. ; RAMAKRISHNAN, R. BOAT—optimistic decision tree
construction. In: SIGMOD '99. ACM SIGMOD INTERNATIONAL CONFERENCE
ON MANAGEMENT OF DATA, 1999. Proceedings… 1999. Disponível em:
<http://dl.acm.org/citation.cfm?id=304197>. Acesso em: 31 jul. 2014.
GERÔNIMO, L. et al. Governança corporativa: uma abordagem segundo a Lei
Sarbanes-Oxley. RUC – Revista Unieuro de Contabilidade, Brasília, 2009.
GOLDWATER, E. Using excel for statistical data analysis - caveats. Massachusetts:
University of Massachusetts School of Public Health, 2007. Disponível em:
<http://people.umass.edu/evagold/excel.html>. Acesso em: 16 ago. 2014.
GOOGLE. [Portal]. 2014. Disponível em:<https://www.google.com.br>. Acesso em: 2
mar. 2014.
GROBLER, C.; LOUWRENS, C. ; VON SOLMS, S. A framework to guide the
implementation of Proactive Digital Forensics in Organizations. In: INTERNATIONAL
CONFERENCE ON AVAILABILITY, RELIABILITY AND SECURITY. 2010.
Proceedings… Krakow, Poland, 2010.
88
HARVARD UNIVERSITY. What is a t-test? 2014. Disponível em:
<http://isites.harvard.edu/fs/docs/icb.topic241760.files/Presentation_3-_t_test.ppt>.
Acesso em: 1 set. 2014.
HEINRICH, J. A guide to the Pearson type IV distribution. Pennsylvania: University
of Pennsylvania, CDF note 6820. 2004 Disponível em: <http://wwwcdf.fnal.gov/physics/statistics/notes/cdf6820_pearson4.pdf>. Acesso em: 30 ago. 2014.
HILL, T.P. The first digit phenomenon. American Scientist, 1998. ISSN: 86:358.
HOGAN, C. E. et al.Financial Statement Fraud: Insights from the Academic Literature.
AUDITING: A Journal of Practice & Theory, v. 27, n. 2, p. 231-252, nov. 2008.
Disponível em: <http://aaahq.org/audit/Pubs/Audrep/07summer/team08.pdf>. Acesso
em: 31 maio 2013.
HORMOZI, E. et al. Accuracy evaluation of a credit card fraud detection system on
Hadoop MapReduce. In: INFORMATION AND KNOWLEDGE TECHNOLOGY
(IKT), 2013 5TH CONFERENCE, 2013. Proceedings… 2013. Doi:
10.1109/IKT.2013.6620034. Disponível em :
<http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6620034&
isnumber=6620027>. Acesso em: 2 mar. 2014.
IADIS DIGITAL LIBRARY. International Association for Development of the
Information Society. [Portal]. 2014. Disponível em: <http://www.iadisportal.org/digitallibrary>. Acesso em: 5 jun. 2014.
IBGE. [Portal]. 2014. Disponível em: <http://www.ibge.gov.br/>. Acesso em: 8 set.
2014.
IEEEXPLORE DIGITAL LIBRARY. [Portal]. 2014. Disponível em:
<http://ieeexplore.ieee.org/ Xplore/home.jsp>. Acesso em: 2 mar. 2014.
IPHIX LLC. [Portal]. 2014. Disponível em: <http://iphix.net/>. Acesso em: 17 ago.
2014.
IFRS. XQRT Paper. 2012. Disponível em:
<http://www.ifrs.org/Meetings/MeetingDocs/IASB/2012/XBRLOctober/9a)%20IFRS%
20Taxonomy%20-%20the%20data%20point%20model-XQRT.pdf>. Acesso em: 16
ago. 2014.
INSTITUTO GAUSS DE MATEMÁTICA. Distribuição Normal. 2010. Disponível
em:
<http://www.igm.mat.br/aplicativos/index.php?option=com_content&view=article&id=
340:intro&catid=61:distnormal>. Acesso em: 23 fev. 2013.
KHAN, A. ; SINGH, T. ; SINHAL, A. Implement credit card fraudulent detection
system using observation probabilistic in hidden Markov model. In: ENGINEERING
(NUICONE), 2012 NIRMA UNIVERSITY INTERNATIONAL CONFERENCE, 2012.
Proceedings… 2012. Doi: 10.1109/NUICONE.2012.6493206. Disponível em:
<http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6493206&isnumber=64931
72>. Acesso em: 2 mar. 2014.
KIM, A. et al. Fraud and Financial Crime Detection Model Using Malware Forensics.
Multimedia Tools and Applications, v.68, n.2, p. 479-496, jan. 2014. Disponível em:
89
<http://link.springer.com/article/10.1007%2Fs11042-013-1410-3#page-1>. Acesso em:
24 jul. 2014.
KIRKOSA, E.; SPATHISB, C. ; MANOLOPOULOSC, Y. Data Mining techniques for
the detection of fraudulent financial statements. Journal Expert Systems with
Applications: An International Journal archive, v. 32, n.4, p.9995-1003, may 2007.
Elsevier. DOI: 10.1016/j.eswa.2006.02.016. Disponível em:
<http://dl.acm.org/citation.cfm?id=1222770>. Acesso em: 28 jul. 2014.
LAGIOIA, U. et al. Aplicabilidade da Lei de Newcomb-Benford nas fiscalizações do
imposto sobre serviços - ISS. Revista Contabilidade & Finanças, v.22, n.56, p.203224, 2011. Disponível em:
<http://www.scielo.br/scielo.php?script=sci_arttext&pid=S151970772011
000200006&lng=pt&tlng=pt. 10.1590/S1519-70772011000200006>. Acesso em: 20
jan. 2014.
LENARCIC, A. ; STANLEY, K. Statistics 104. Harvard University, 2008. Disponível
em:
<http://isites.harvard.edu/fs/docs/icb.topic481506.files/Section62008MidtermReview.pd
f>. Acesso em: 17 jan. 2014.
LI, A.; YONG, H.; LI, Z. Iteration Learning SGNN. Neural Networks and Brain, 2005.
In: ICNN&B '05. INTERNATIONAL CONFERENCE, 2005. Proceedings… 2005.
doi: 10.1109/ICNNB.2005.1614998.
LI, O.; NI, C. ; LIN, Y. Does XBRL Adoption Reduce the Cost of Equity Capital?
National University of Singapore. 2013.Diponsível em:
<http://dx.doi.org/10.2139/ssrn.2131001>. Acesso em: 31maio 2013.
MATTES, I.V. ; PETRI, S. M. Accounting Information Security: Procedures for the
Preparation of a Security Policy Based on ISO 27001 and ISO 27002. In:
INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS AND
TECHNOLOGY MANAGEMENT – CONTECSI, 10., 2013, São Paulo, Brazil.
Anais… 2013.
MCCULLOUGH, B. ; WILSONB, B. On the accuracy of statistical procedures in
Microsoft Excel 2003. 2005. Disponível em:
<http://www.sciencedirect.com/science/article/pii/S0167947304002026>. Acesso em:
16 ago. 2014.
MCKEMMISH, R. What is Forensic Computing? Trends & Issues in crime and
criminal justice. Australian Institute of Criminology, n. 118, 1999. ISSN 0817-8542.
MENEGUSSI, E. ; IANESKO, J. A Importância da Auditoria Contábil na Prevenção e
Combates aos Erros e às Fraudes na Organizações. Revista Eletrônica Lato Sensu –
UNICENTRO, ed. 6, 2008. ISSN: 1980-6116.
MICROSOFT. MDX Language Reference (MDX). 2008. Disponível em:
<http://msdn. microsoft.com/pt-br/library/ms145595.aspx>. Acesso em: 28 jun. 2013.
MICROSOFT. About macros in Excel. 2014. Disponível em:
<http://office.microsoft.com/en-us/excel-help/about-macros-in-excelHP005201201.aspx>. Acesso em: 29 jul. 2014.
90
MONDRIAN. [Portal]. 2014. Disponível em: <http://mondrian.pentaho.org>. Acesso
em: 17 jul. 2014.
MORILLA, V. Data Point Modelling (DPM) Methodology. 2014. Disponível em:
<https://docs.google.com/document/d/12sIqru0nVI4l8KcvExdnNLLSTTmBMSrzlGaFNNy2Vc/edit>. Acesso em: 16 de agosto de 2014.
NIGRINI, M. Benford's Law Excel 2007/2010 software. 2009. Disponível em:
<http://www.nigrini.com/datas_software.htm>. Acesso em: 29 jul. 2014.
NIGRINI, M. ; WELLS, J. Benford's Law: Applications for Forensic Accounting,
Auditing, and Fraud Detection. [S.l.]: Wiley Corporate F&A, 2012.
NIGRINI, M. Excel Templates. 2014. Disponível em:
<http://www.nigrini.com/ForensicAnalytics/NigriniCycle.xlsx>. Acesso em: 24 de julho
de 2014.
ODUEKE, A. ; WEIR, G. Triage in Forensic Accounting using Zipf's Law.
Department of Computer and Information Sciences, University of Strathclyde,
Glasgow. Issues in Cybercrime, Security and Digtal Forensics. [S.l.]: University of
Strathclyde Publishing, 2012. Disponível em:
<http://www.cis.strath.ac.uk/cis/research/publications/papers/strath_cis_publication_25
90.pdf>. Acesso em: 19 jan. 2014.
OPEN SOURCE INITIATIVE. [Portal]. 2014. Disponível em:
<http://opensource.org/>. Acesso em: 17 ago. 2014.
ORACLE CORPORATION. SGBD MySQL. 2014. Disponível em:
<http://www.mysql.com/>. Acesso em: 12 jun. 2014.
ORLOFF, J. Null Hypothesis Signicance Testing (NHST) Rejection regions, Z-tests.
2013. Disponível em: <http://web.mit.edu/jorloff/www/18.05/pdf/class22-prep.pdf >.
Acesso em: 20 de janeiro de 2014.
OXFORD REFERENCE. Z Test. 2014. Diponível em:
<http://www.oxfordreference.com/ view/10.1093/oi/authority.20110803133548456>.
Acesso em: 17 jan. 2014.
PANIGRAHI, P. K. A Framework for Discovering Internal Financial Fraud Using
Analytics. In: COMMUNICATION SYSTEMS AND NETWORK TECHNOLOGIES
(CSNT), 2011 INTERNATIONAL CONFERENCE, 2011. Proceedings… 2011. Doi:
10.1109/CSNT.2011.74. Disponível em: <http://ieeexplore.ieee.org/stamp/
stamp.jsp?tp=&arnumber=5966462&isnumber=5966391>. Acesso em: 2 mar. 2014.
PARADA, A. Contabilidade Forense. 2013. Disponível em:
<http://www.cosif.com.br/ mostra.asp?arquivo=forense02-introduc>. Acesso em: 23
abr. 2013.
PASQUALI, L. Psicometria. 2008. Disponível em: <http://www.revistas.usp.br/reeusp/
article/download/40416/43399>. Acesso em: 8 set. 2014.
PEARL, J. Bayesian networks. [S.l.]: Department of Statistics, UCLA, 2011.
Disponível em: <https://escholarship.org/uc/item/53n4f34m>. Acesso em: 2 ago. 2014.
91
PENG, E. ; SHON, J. ; TAN, C. XBRL and Accruals: Empirical Evidence from
China. [S.l.]: Wiley Online Library, 2011. Disponível em:
<http://onlinelibrary.wiley.com/doi/10.1111/j.1911-3838.2011.00021.x/abstract>.
Acesso em: 31 maio 2013.
PWC. Know Your Customer: Quick Reference Guide. 2013. Disponível em:
<http://www.pwc.com/en_gx/gx/financial-services/assets/pwc-kyc-anti-moneylaundering-guide-2013.pdf>. Acesso em: 16 ago. 2014.
RAKOTOMALALA, R. Sipina Overview. Lumière Lyon: Département informatique
et statistique, Université Lumière Lyon 2, Lyon, France, 2014. Disponível em:
<http://eric.univ-lyon2.fr/~ricco/sipina.html>. Acesso em: 28 jul. 2014.
REPORTING STANDARD. The XBRL Database. 2014. Diponível em:
<http://www.reportingstandard.com/index.php/en/productos/xbrl-database>. Acesso
em: 4 ago. 2014.
RICCIO, E. L. ; SILVA, P. C. ; MARICI, G. XBRL: a divulgação de informações
empresariais. Rio de Janeiro: Ciência Moderna, 2005. ISBN: 8573934719.
ROSENHOLTZ, R. Statistical Methods in Brain and Cognitive Science. Spring
2004. (MIT OpenCourseWare: Massachusetts Institute of Technology), License:
Creative Commons BY-NC-SA., 2004. Disponível em:
<http://ocw.mit.edu/courses/brain-and-cognitive-sciences/9-07-statistical-methods-inbrain-and-cognitive-science-spring-2004/lecture-notes/17_chi_sq_tests.pdf >. Acesso
em: 28 jul. 2014.
RUDIN, C.Prediction: Machine Learning and Statistics. Springer 2012. (MIT
OpenCourseWare: Massachusetts Institute of Technology), License: Creative Commons
BY-NC-SA, 2012. Disponível em: < http://ocw.mit.edu/courses/sloan-school-ofmanagement/15-097-prediction-machine-learning-and-statistics-spring-2012/lecturenotes/MIT15_097S12_lec08.pdf >. Acesso em: 28 jul. 2014.
SANTOS ; GRATERON. Contabilidade criativa e responsabilidade dos auditores.
2003. Disponível em: < http://www.scielo.br/scielo.php?script=sci_arttext&
pid=S1519-70772003000200001>. Acesso em: 3 set. 2014.
SCHOLAR GOOGLE. [Postal]. 2011 Disponível em: <http://scholar.google.com.br>.
Acesso em: 2 mar. 2011.
SEO, K. et al. Research about extracting and analyzing accounting data of company to
detect financial fraud. INTELLIGENCE AND SECURITY INFORMATICS, 2009. ISI
'09. IEEE INTERNATIONAL CONFERENCE, 2009. Proceedings… 2009. Doi:
10.1109/ISI.2009.5137302. Disponível
em:<http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5137302&isnumber=51
37253>. Acesso: 8 fev. 2014.
SEUNG, S. Introduction to Neural Networks. Spring 2005. (MIT OpenCourseWare:
Massachusetts Institute of Technology), License: Creative Commons BY-NC-SA, 2005.
Disponível em: <http://ocw.mit.edu/courses/brain-and-cognitive-sciences/9-641jintroduction-to-neural-networks-spring-2005>. Acesso em: 28 jul. 2014.
92
SILVA, P. C. ; TEIXEIRA, C. C. Informações Financeiras como Hiperdocumentos na
Web. In: BRAZILIAN SYMPOSIUM ON MULTIMEDIA AND HYPERMEDIA
SYSTEMS - SBMIDIA, BRAZILIAN SYMPOSIUM ON MULTIMEDIA AND
HYPERMEDIA SYSTEMS – SBMIDIA, 8., 2002, Fortaleza. Anais... Fortaleza: SBC,
2002. p. 356-364.
SILVA, P. C ; TEIXEIRA, C. C. A Gestão da Informação Financeira do Banco Central
do Brasil Apoiada por XBRL. In: WORKSHOP DE TECNOLOGIA DA
INFORMAÇÃO E GERÊNCIA DO CONHECIMENTO, 1., 2003, Fortaleza. Anais...
2003.
SILVA, P.C. ; SULAIMAN, A. XBRL, regras de negócios e relatórios financeiros. In:
KMBRASIL 2003, 2003, São Paulo. Anais... 2003.
SILVA, P. C. Explorando linguagens de marcação para representação de relatórios
de informações financeiras. 2007. Dissertação (Mestrado)- UNIFACS Universidade
Salvador, 2007. Disponível em: < http://tede.unifacs.br/tde_arquivos/2/TDE-2007-0726T170817Z-94/Publico/Dissertacao%20Paulo%20Caetano.pdf>. Acesso em: 10 jan.
2013.
SILVA, P.C. et al. XBRL: conceitos e aplicações. Rio de Janeiro: Ciência Moderna,
2006. ISBN: 8573934999.
SILVA, P. C. ; TIMES, V.C. LMDQL: Link-based and multidimensional query
language. In: DOLAP 09 - ACM TWELFTH INTERNATIONAL WORKSHOP ON
DATA WAREHOUSING AND OLAP. ACM TWELFTH INTERNATIONAL
WORKSHOP ON DATA WAREHOUSING AND OLAP, 2009, Hong Kong.
Proceedings…2009.
SILVA, P. C. Análise multidimensional de dados XML baseados em links: modelos
e linguagens. 2010. Tese (Doutorado)- Centro de Informática, Universidade Federal de
Pernambuco, Recife, PE, Brasil, 2010. Disponível em:
<http://xbrlframework.files.wordpress.com/2014/02/tese-xldm-e-lmdql.pdf>. Acesso
em: 17 jul. 2010.
SILVA, P. C.; SANTOS, M. S. ; TIMES,V.C. XLPath: a XML Linking Path Language.
In: IADIS INTERNATIONAL CONFERENCE ON WWW/INTERNET 2010.
TIMISOARA, ROMANIA. IADIS ON WWW/INTERNET, 2010. Proceedings…
Timisoara: Bebo White, Pedro Isaías and Diana And one, 2010.
SILVA, P. C. et al. Analytical Processing Over XML and XLink. International
Journal of Data Warehousing and Mining (IJDWM), v. 8, n.1, 2012.
SILVA, M. A.; SILVA, P.C. ; CAMPOS, J. A. XBRL GIS - Integrating Geographic
Information in XBRL Documents. In: INTERNATIONAL CONFERENCE ON
INFORMATION SYSTEMS AND TECHNOLOGY MANAGEMENT – CONTECSI,
10., 2013, São Paulo, Brazil. Proceedings… 2013. Disponível em:
<http://www.infoteca.inf.br/contecsi/smarty/
templates/arquivos_template/upload_arquivos/acervo/docs/PDFs/211.pdf >. Acesso em:
17 jul. 2010.
SILVA JR. ; G. R. Lei NewComb-Benford: uma aplicação vertical nas peças financeiras
de uma empresa concessionária de rodovias. In: CONGRESSO USP
93
CONTROLADORIA E CONTABILIDADE, 13., 2013. Anais... 2013. Disponível em:
<http://www.congressousp.fipecafi.org/web/artigos132013/ 528.pdf >. Acesso em: 19
jan. 2014.
SHAFER, G. Dempster–Shafer theory. 2002. Disponível em:
<http://www.glennshafer.com/assets/downloads/articles/article48.pdf>. Acesso em: 30
ago. 2014.
SHERLY, K. K. ; NEDUNCHEZHIAN, R. BOAT adaptive credit card fraud detection
system. Computational Intelligence and Computing Research (ICCIC), 2010. In: IEEE
INTERNATIONAL CONFERENCE, 2010. Proceedings… 2010. Doi:
10.1109/ICCIC.2010.5705824. Disponível em: <http://ieeexplore.ieee.org/
stamp/stamp.jsp?tp=&arnumber=5705824&isnumber=5705719>. Acesso em: 2 mar.
2014.
SPOFFORD, G. MDX solutions: with Microsof SQL Server Analysis Services. New
York: J. Wiley, 2001.
SPRINGER. [Portal]. Disponível em: <www.springer.com/?SGWID=12-102-0-0-0>.
Acesso em: 12. jun. 2014.
STEENKAMP, L. P. ; NEL, G. F. The adoption of XBRL in South Africa: an empirical
study. The Electronic Library, v. 30, n.3, p.409-425, 2013.
SPERBERG-MCQUEEN, C. M. ; THOMPSON, H. XML Schema. 2000. Disponível
em: <http://www.w3.org/XML/Schema>. Acesso em: 23 jun. 2013.
STOPFRAUD.GOV. [Portal]. 2014. Disponível em: <http://www.stopfraud.gov/>.
Acesso em: 27 jul. 2014.
TAN, P. ; KUMAR, V. ; STEINBACH, M. The k-means algorithm. In: IEEE
INTERNATIONAL CONFERENCE ON DATA MINING, 2006. Proceedings…
2006. Disponível em: <http://www.cs.uvm.edu/~icdm/algorithms/ 10Algorithms08.pdf>. Acesso em: 31 jul. 2014.
THE APACHE SOFTWARE FOUNDATION. Apache License, Version 2.0. 2014.
Disponível em: <http://www.apache.org/licenses/LICENSE-2.0.html>. Acesso em: 17
ago. 2014.
THE BOOK OF THREES. EmpiricalRule - The 68-95-99,7. 2013. Disponível em:
<http://www.threes.com/index.php?view=article&catid=72%3Amathematics&id=2341
%3Aempirical-rule-the-68-95-997-rule&format=pdf&option=com_cont
ent&Itemid=50>. Acesso em: 26 abr. 2013.
THE JOHNS HOPKINS UNIVERSITY ; DIENER-WEST, M. Use of the Chi-Square
Statistic. The Johns Hopkins University. 2008. Disponível em:
<http://ocw.jhsph.edu/courses/fundepiii/PDFs/Lecture17.pdf>. Acesso em: 24 jul. 2014.
THE OXFORD MATH CENTER. The Empirical Rule. [S.l.]: Oxford College, 2014.
Disponível em: <http://www.oxfordmathcenter.com/drupal7/node/290>. Acesso em: 26
abr. 2013.
TONBELLER, A. G. JPivot. 2003. Disponível em: <http://jpivot.sourceforge.net/>.
Acesso em: 5 ago. 2014.
94
UNICAMP. Laboratório de Quimiometria em Química Analítica. [Portal]. 2006.
Disponível em: <http://laqqa.iqm.unicamp.br/>. Acesso em: 8 set. 2014.
U.S. DEPARTMENT OF JUSTICE. President Obama Establishes Interagency
Financial Fraud Enforcement Task Force. 2009. Disponível em:
<http://www.sec.gov/ news/press/2009/2009-249.htm>. Acesso em: 27 jul. 2014.
U.S SEC. XBRL Glossary. 2010. Disponível em:
<http://www.sec.gov/spotlight/xbrl/glossary.shtml>. Acesso em: 31 ago. 2014.
U.S. SECURITIES AND EXCHANGE COMMISSION (U.S. SEC). 2014. Disponível
em: <http://www.sec.gov/>. Acesso em: 29 mar. 2014.
USPENSKY, J. Introduction to mathematical probability. New York: McGraw Hill,
1937.
VOLONINO, L. ; GODWIN, J. ; ANZALDUA, R. Computer Forensics, Principles
and Practices. [S.l.]: Pearson Vue, 2006.
WEN, W. ; JENNINGS, A. ; LIU, H. Learning a neural tree. In: INTERNARIONAL
JOINT CONFERENCE ON NEURAL NETWORKS, 1992, Beijing, China.
Proceedings… 1992, p.751-756.
WINTER, C.; SCHNEIDER, M. ; YANNIKOS, Y. (2012) Model-Based Digit Analysis
for Fraud Detection Overcomes Limitations of Benford Analysis. In: AVAILABILITY,
RELIABILITY AND SECURITY (ARES), 2012 INTERNATIONAL CONFERENCE,
70., 2012. Proceedings… 2012. Doi: 10.1109/ARES.2012.37. Disponível em:
<http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6329191&isnumber=63291
68>. Acesso em: 15 abr. 2014.
WIRTH, N. Extended Backus-Naur Form (EBNF). [S.l.]: ISO/IEC, 1996.
WU, J. ; VASARHELYI, M. XBRL: A New Tool For Electronic Financial Reporting.
In: ANANDARAJAN, M.; ANANDARAJAN, A.; SRINIVASAN, C. Business
Intelligence Techniques A Perspective from Accounting and Finance. 2004. p. 7392. Disponível em: <http://link.springer.com/book/ 10.1007/978-3-540-24700-5>.
Acesso em: 11 abr. 2014.
XBRL FRAMEWORK. XBRL Framework Projects. 2014. Disponível em:
sourceforge.net/projects/xbrlframework/. Acesso em: 4 set. 2014.
XBRL INTERNATIONAL INC. XBRL Dimensions 1.0. 2006. Disponível em:
<http://www.xbrl.org/Specification/XDT-REC-2006-09-18.htm>. Acesso em: 16 ago.
2014.
XBRL INTERNATIONAL INC. XBRL Global Ledger Framework. 2007. Disponível
em: <http://xbrl.org/int/gl/2007-04-17/GLFramework-REC-2007-04-17.htm>. Acesso
em: 16 ago. 2014.
XBRL INTERNATIONAL INC. Extensible Business Reporting Language 2.1 Recommendation. (2008a). Disponível em: <http://www.xbrl.org/Specification/ XBRLRECOMMENDATION-2003-12-31+Corrected-Errata-2008-07-02.htm>. Acesso em:
12 jan. 2014.
95
XBRL INTERNATIONAL INC. Link Role Registry - Structure 2.0. (2008b).
Disponível em: <http://www.xbrl.org/Specification/lrr/REC-2008-07-31/lrr-REC-200807-31.html>. Acesso em: 4 ago. 2014.
XBRL INTERNATIONAL INC. XBRL Infoset 0.3. (2009a). Disponível em:
<http://www.xbrl.org/specification/infoset/pwd-2009-02-04/infoset-pwd-2009-0204.html>. Acesso em: 4 ago. 2014.
XBRL INTERNATIONAL INC. Formula 1.0. (2009b). Disponível em:
<http://www.xbrl.org/specification/formula/rec-2009-06-22/formula-rec-2009-0622.html>. Acesso em: 18 ago. 2014.
XBRL INTERNATIONAL INC. Table Linkbase Overview 1.0. (2011a). Disponível
em: <http://www.xbrl.org/wgn/table-linkbase-overview/pwd-2011-12-21/tablelinkbase-overview-wgn-pwd-2011-12-21.html>. Acesso em: 04 ago. 2014.
XBRL INTERNATIONAL INC. XBRL Formula Overview 1.0. (2011b). Disponível
em: <http://xbrl.org/WGN/XBRL-formula-overview/PWD-2011-12-21/XBRL-formulaoverview-WGN-PWD-2011-12-21.html>. Acesso em: 16 ago. 2014.
XBRL INTERNATIONAL INC. Overview of Versioning 1.0. (2011c). Disponível em:
<http://xbrl.org/WGN/versioning-overview/PWD-2011-10-19/versioning-overviewWGN-PWD-2011-10-19.html>. Acesso em: 16 ago. 2014.
XBRL INTERNATIONAL INC. Inline XBRL Part 1: Specification 1.0. (2011d).
Disponível em: <http://www.xbrl.org/specification/inlinexbrl-part1/rec-2010-0420/inlinexbrl-part1-rec-2010-04-20+corrected-errata-2011-08-17.html>. Acesso em: 28
ago. 2014.
XBRL INTERNATIONAL INC. XBRL Abstract Model 2.0. 2012. Disponível em:
<http://xbrl.org/Specification/abstractmodel-primary/PWD-2012-06-06/abstractmodelprimary-pwd-2012-06-06.html>. Acesso em: 14 de abril 2014.
XBRL INTERNATIONAL INC. XBRL Internacional Consortium. 2014. Disponível
em: <http://xbrl.org/>. Acesso em: 14 abr. 2014.
ZHANG, K.; LI, A. ; SONG, B. Fraud Detection in Tax Declaration Using Ensemble
ISGNN. In: COMPUTER SCIENCE AND INFORMATION ENGINEERING, 2009
WRI WORLD CONGRESS ON, 2009. Proceedings… 2009. Doi:
10.1109/CSIE.2009.73. Disponível em:
<http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5170994&isnumber=51709
43>. Acesso em: 2 mar. 2014.
96
ANEXO A – LMDQL Forense EBNF
<MDX_statement> ::= <select_statement>
| <create_formula_statement>
| <drop_formula_statement>
<select_statement> ::= [$VARIABLE <variable_specification>]
[WITH <formula_specification>]
SELECT [<axis_specification>
[, <axis_specification>...]]
FROM [<cube_specification>]
[WHERE [<slicer_specification>]]
[<cell_props>]
<variable_specification> ::= <member>.<identifier>
[<or><member>.<identifier>…]
<or> ::= |
<formula_specification> ::= <single_formula_specification> [<single_formula_specification>...]
<single_formula_specification> ::= <member_specification> | <set_specification>
<member_specification> ::= MEMBER <member_name> AS <value_expression>
[, <solve_order_specification>] [, <member_property_definition>...]
<member_name> ::= <member>.<identifier> | <cube_name>.<member>.<identifier>
<solve_order_specification> ::= SOLVE_ORDER = <unsigned_integer>
<member_property_definition> ::= <identifier> = <value_expression>
<set_specification> ::= SET <set_name> AS <set>
<set_name> ::= <identifier> | <cube_name>.<identifier>
<axis_specification> ::= [NON EMPTY] <set> [<dim_props>] ON <axis_name>
<axis_name> ::= COLUMNS
| ROWS
| PAGES
| CHAPTERS
| SECTIONS
| AXIS(<index>)
<dim_props> ::= [DIMENSION] PROPERTIES <property> [, <property>...]
cube_specification> ::= [<cube_name> [,<cube_name>...]]
<slicer_specification> ::= {<set> | <tuple>}
<cell_props> ::= [CELL] PROPERTIES <cell_property> [, <cell_property>...]
<cell_property> ::= <mandatory_cell_property>
| <optional_cell_property>
| <provider_specific_cell_property>
<mandatory_cell_property> ::= CELL_ORDINAL | VALUE | FORMATTED_VALUE
<optional_cell_property> ::= FORMAT_STRING
| FORE_COLOR
| BACK_COLOR
| FONT_NAME
| FONT_SIZE
| FONT_FLAGS
<provider_specific_cell_property> ::= <identifier>
<create_formula_statement> ::= CREATE [<scope>]<formula_specification>
<drop_formula_statement> ::= <drop_member_statement>
| <drop_set_statement>
<drop_member_statement> ::= DROP MEMBER <member_name>
[, <member_name>...]
<drop_set_statement> ::= DROP SET <set_name> [, <set_name>...]
<scope> := GLOBAL | SESSION
<identifier> ::= <regular_identifier> | <delimited_identifier>
<regular_identifier> ::= <alpha_char> [{<alpha_char> | <digit>
| <underscore>}...]
<delimited_identifier> ::=
<start_delimiter>{<double_end_delimiter> | <nondelimit_end_symbol>}
[{<double_end_delimiter> | <nondelimit_end_symbol> }...]
97
<end_delimiter>
<start_delimiter> ::= <open_bracket>
<end_delimiter> ::= <close_bracket>
<double_end_delimiter> ::= <end_delimiter><end_delimiter>
<nondelimit_end_symbol> ::= !! Any character except <end_delimiter>
<cube_name> ::= [ [ [ <data_source>.] <catalog_name>.][<schema_name>.]
<identifier>
<data_source> ::= <identifier>
<catalog_name> ::= <identifier>
<schema_name> ::= <identifier>
<dim_hier> ::= [<cube_name>.]<dimension_name>
| [[<cube_name>.]< dimension_name>.]<hierarchy_name>
<dimension_name> ::= <identifier>
| <member>.DIMENSION
| <level>.DIMENSION
| <hierarchy>.DIMENSION
<dimension> ::= <dimension_name>
<hierarchy> ::= <hierarchy_name>
<hierarchy_name> ::= <identifier>
| < member>.HIERARCHY
| <level>.HIERARCHY
<level> ::= [<dim_hier>.]< identifier>
| <dim_hier>.LEVELS(<index>)
| <member>.LEVEL
<member> ::= [<level>.]<identifier>
| <dim_hier>.<identifier>
| <member>.<identifier>
| <member_value_expression>
<property> ::= <mandatory_property> | <user_defined_property>
<mandatory_property> ::= CATALOG_NAME
| SCHEMA_NAME
| CUBE_NAME
| DIMENSION_UNIQUE_NAME
| HIERARCHY_UNIQUE_NAME
| LEVEL_UNIQUE_NAME
| LEVEL_NUMBER
| MEMBER_UNIQUE_NAME
| MEMBER_NAME
| MEMBER_TYPE
| MEMBER_GUID
| MEMBER_CAPTION
| MEMBER_ORDINAL
| CHILDREN_CARDINALITY
| PARENT_LEVEL
| PARENT_UNIQUE_NAME
| PARENT_COUNT
| DESCRIPTION
<user_defined_property> ::= <dim_hier>.<identifier>
| <level>.<identifier>
| <member>.<identifier>
<tuple> ::= <member>
| (<member> [, <member>...])
| <tuple_value_expression>
<set> ::= <member>:<member>
| <set_value_expression>
| <open_brace>[<set>|<tuple> [, <set>|<tuple>...]]<close_brace>
| (<set>)
<open_brace> ::= {
<close_brace> ::= }
<open_bracket> ::= [
98
<close_bracket> ::= ]
<open_parenthesis> ::= (
<close_parenthesis> ::= )
<underscore> ::= _
<alpha_char> ::= a | b | c | ...| z | A | B | C | ... | Z
<digit> ::= 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9
<value_expression> ::= <numeric_value_expression>
| <string_value_expression>
<numeric_value_expression> ::= <term>
| <numeric_value_expression> {<plus | <minus>} <term>
<term> ::= <factor> | <term> {<asterisk> | <solidus>| <exponentiation> | <root>} <factor>
<factor> ::= [<sign>] <numeric_primary>
<sign> ::= + | <plus> ::= +
<minus> ::= <asterisk>::= *
<solidus> ::= /
<exponentiation> ::= ^
<root> ::= root
<numeric_primary> ::= <value_expression_primary>
| <numeric_value_function>
<value_expression_primary> ::= <unsigned_numeric_literal>
| (<value_expression>)
| <character_string_literal>
| [<cube_name>.]<tuple>[.VALUE]
| <property>[.VALUE]
| <conditional_expression>
<conditional_expression> ::= <if_expression> | <case_expression>
<if_expression> ::= IIF(<search_condition>, <true_part>, <false_part>)
<true_part> ::= <value_expression>
<false_part> ::= <value_expression>
<case_expression> ::= <simple_case> | <searched_case> | <coalesce_empty>
<simple_case> ::= CASE <case_operand>
<simple_when_clause>...
[<else_clause>]
END
<searched_case> ::= CASE
<searched_when_clause>...
[<else_clause>]
END
<simple_when_clause> ::= WHEN <when_operand> THEN <result>
<searched_when_clause> ::= WHEN <search_condition> THEN <result>
<else_clause> ::= ELSE <value_expression>
<case_operand> ::= <value_expression>
<when_operand> ::= <value_expression>
<result> ::= <value_expression>
<coalesce_empty> ::= COALESCEEMPTY (<value_expression> ,
<value_expression>
[, <value_expression> ]...)
<unsigned_numeric_literal> ::= <exact_numeric_literal>
| <approximate_numeric_literal>
<exact_numeric_literal> ::= <unsigned_integer>[.<unsigned_integer>]
| <unsigned_integer>.
| .<unsigned_integer>
<unsigned_integer> ::= {<digit>}...
<approximate_numeric_literal> ::= <mantissa>E<exponent>
<mantissa> ::= < exact_numeric_literal>
<exponent> ::= [<sign>]<unsigned_integer>
<string_value_expression> ::= <value_expression_primary>
| <string_value_expression>
99
<concatenation_operator>
<value_expression_primary>
<character_string_literal>::=<quote>[<character_representation>...]
<quote>
<character_representation> ::= <nonquote_character> | <quote_symbol>
<nonquote_character> ::= !!
Any character in the character set other than <quote>
<quote_symbol> ::= <quote><quote>
<quote> ::= '
<concatenation_operator> ::= ||
<index> ::= <numeric_value_expression>
<percentage> ::= <numeric_value_expression>
<set_value_expression> ::= <dim_hier>.MEMBERS
| <level>.MEMBERS
| <member>.CHILDREN
| BOTTOMCOUNT(<set>, <index>
[, <numeric_value_expression>])
| BOTTOMPERCENT(<set>, <percentage>,
<numeric_value_expression>)
| BOTTOMSUM(<set>, <numeric_value_expression>,
<numeric_value_expression>)
| CROSSJOIN(<set>, <set>)
| DESCENDANTS(<member>, <level> [,<desc_flags>])
| DISTINCT(<set>)
| DRILLDOWNLEVEL(<set> [, <level>])
| DRILLDOWNLEVELBOTTOM(<set>, <index>
[,[<level>], <numeric_value_expression>])
| DRILLDOWNLEVELTOP(<set>, <index>[, [<level>]
, <numeric_value_expression>])
| DRILLDOWNMEMBER(<set>, <set>[, RECURSIVE])
| DRILLDOWNMEMBERBOTTOM(<set>, <set>, <index>
[, <numeric_value_expression>], RECURSIVE])
| DRILLDOWNMEMBERTOP(<set>, <set>, <index>
[, [<numeric_value_expression>], RECURSIVE])
| DRILLUPLEVEL(<set>[, <level>])
| DRILLUPMEMBER(<set>, <set>)
| EXCEPT(<set>, <set> [, [ALL]])
| EXTRACT(<set>, <dim_hier>[, <dim_hier>...])
| FILTER(<set>, <search_condition>)
| GENERATE(<set>, <set> [, [ALL]])
| HIERARCHIZE(<set>)
| INTERSECT(<set>, <set> [, [ALL]])
| LASTPERIODS(<index> [, <member>])
| MTD([<member>])
| ORDER(<set>, <value_expression>
[, ASC | DESC | BASC | BDESC])
| PERIODSTODATE([<level>[, <member>]])
| QTD([<member>])
| TOGGLEDRILLSTATE(<set1>, <set2>[, RECURSIVE])
| TOPCOUNT(<set>, <index> [, <numeric_value_expression>])
| TOPPERCENT(<set>, <percentage>, <numeric_value_expression>)
| TOPSUM(<set>, <numeric_value_expression>, <numeric_value_expression>)
| UNION(<set>, <set> [, [ALL]])
| WTD([<member>])
| YTD(<member>)
| OPERATORDEFINITION (<string_value_expression>,
<string_value_expression>
[,PARAM<open_parenthesis>
<string_value_expression>...
100
<close_parenthesis>])
| HANALYSIS (<set>, <set><set>[<set>] [,<unsigned_numeric_literal>...])
| VANALYSIS (<member>, <set>)
| CROSS (<member>[, <string_value_expression>...])
| NNEARESTVALUES (<member>, <unsigned_integer> [, ASC | DESC])
| NNEARESTVALUESPERCENTUAL (<member>, <unsigned_numeric_literal> [,
ASC | DESC])
| EMPIRICALRULE (<member>, <set>, <set> ,<set>)
| FIRSTDIGIT (<member>,<set>, <set> ,<string_value_expression>)
| ZTEST (<numeric_value_expression>, <numeric_value_expression>, <unsigned_integer>,
<unsigned_integer>, <unsigned_numeric>)
| CHISQUAREDTEST (<numeric_value_expression>, <numeric_value_expression>,
<unsigned_numeric>)
<desc_flags> ::= SELF
| AFTER
| BEFORE
| BEFORE_AND_AFTER
| SELF_AND_AFTER
| SELF_AND_BEFORE
| SELF_BEFORE_AFTER
<member_value_expression> ::= <member>.{PARENT | FIRSTCHILD | LASTCHILD
| PREVMEMBER | NEXTMEMBER}
| <member>.LEAD(<index>)
| <member>.LAG(<index>) | <member>.{FIRSTSIBLING | LASTSIBLING}
| <dimension>[.CURRENTMEMBER]
| <dimension>.DEFAULTMEMBER
| <hierarchy>.DEFAULTMEMBER
| ANCESTOR(<member>, <level>)
| CLOSINGPERIOD(<level>[, <member>])
| COUSIN(<member>, <member>)
| OPENINGPERIOD(<level>[, <member>])
| PARALLELPERIOD([<level>[, <index> [, <member>]]])
<tuple_value_expression> ::= <set>.CURRENTMEMBER
| <set>[.ITEM]({<string_value_expression>
[, <string_value_expression>...]}
| <index>)
<boolean_primary> ::= <value_expression><comp_op><value_expression>
alter_statement ::= <create_statement> | <remove_statement> | <move_statement> |
<update_statement>
<create_statement> ::= CREATE DIMENSION MEMBER <member_spec>,
KEY='<key_value>' [[, <property_name>='<value>'] [, <property_name>='<value>']...]
<remove_statement> ::= DROP DIMENSION MEMBER <member_spec> [WITH DESCENDANTS]
<move_statement> ::= MOVE DIMENSION MEMBER <member_spec>
[WITH DESCENDANTS]
UNDER <member_spec>
<update_statement> ::= UPDATE DIMENSION MEMBER <member_spec>
[AS '<mdx_expression>', ] |
<property_name>='<value>' [[, <property_name>='<value>']...]
<numeric_value_function> ::=
AGGREGATE(<set> [, <numeric_value_expression>])
AVG(<set>[, <numeric_value_expression>])
CORRELATION(<set> , <numeric_value_expression> [, <numeric_value_expression>])
COVARIANCE(<set>, <numeric_value_expression> [, <numeric_value_expression>])
COUNT(<set>[, INCLUDEEMPTY])
LINREGINTERCEPT(<set>, <numeric_value_expression> [, <numeric_value_expression>])
LINREGPOINT(<numeric_value_expression>,
<set>,
<numeric_value_expression>
[,<numeric_value_expression>])
LINREGR2(<set>, <numeric_value_expression> [, <numeric_value_expression>])
LINREGSLOPE(<set>, <numeric_value_expression> [, <numeric_value_expression>])
LINREGVARIANCE(<set>, <numeric_value_expression> [, <numeric_value_expression>])
101
MAX(<set>[, <numeric_value_expression>])
MEDIAN(<set>[, <numeric_value_expression>])
MIN(<set>[, <numeric_value_expression>])
RANK(<tuple>, <set>)
STDEV(<set>[, <numeric_value_expression>])
SUM(<set>[, <numeric_value_expression>])
VAR(<set>[, <numeric_value_expression>])
SEPARATRIX (<set>, <member>, <unsigned_integer>)
<search_condition> ::= <boolean_term> | <search_condition> {OR | XOR} <boolean_term>
<boolean_term> ::= <boolean_factor> | <boolean_term> AND <boolean_factor>
<boolean_factor> ::= [NOT] <boolean_primary>
<boolean_primary> ::= <value_expression><comp_op><value_expression>
| ISEMPTY(<value_expression>)
| (<search_condition>)
<comp_op> ::= <equals_operator>
| <not_equals_operator>
| <less_than_operator>
| <greater_than_operator>
| <less_than_or_equals_operator>
| <greater_than_or_equals_operator>
<equals_operator> ::= =
<not_equals_operator> ::= <>
<greater_than_operator> ::= >
<less_than_operator> ::= <
<greater_than_or_equals_operator> ::= >=
<less_than_or_equals_operator> ::= <=
102
ANEXO B - Modelo de dados do XBRL Abstract model database