UNIFACS UNIVERSIDADE SALVADOR MESTRADO ACADÊMICO EM SISTEMAS E COMPUTAÇÃO MARCIO ALEXANDRE PEREIRA DA SILVA PROCESSAMENTO ANALITÍCO SOBRE DOCUMENTOS XBRL PARA A CONTABILIDADE FORENSE Salvador 2014 MARCIO ALEXANDRE PEREIRA DA SILVA PROCESSAMENTO ANALITÍCO SOBRE DOCUMENTOS XBRL PARA A CONTABILIDADE FORENSE Dissertação apresentada ao Curso de Mestrado em Sistemas e Computação, UNIFACS Universidade Salvador, Universidade Salvador – Laureate International Universities como requisito parcial para obtenção do grau de Mestre. Orientador: Prof. Dr. Paulo Caetano. Salvador 2014 FICHA CATALOGRÁFICA Elaborada pelo Sistema de Bibliotecas da UNIFACS Universidade Salvador, Laureate Internacional Universities Silva, Marcio Alexandre Pereira da Processamento analitíco sobre documentos XBRL para a Contabilidade Forense. / Marcio Alexandre Pereira da Silva. Salvador, 2014. 102 f. : il. Dissertação apresentada ao Curso de Mestrado em Sistemas e Computação, UNIFACS Universidade Salvador, Laureate International Universities, como requisito parcial para obtenção do grau de Mestre. Orientador Prof. Dr. Paulo Caetano. 1. Linguagem de programação. 2. Bancos de dados. I. Caetano, Paulo, orient. II. Universidade Salvador – UNIFACS. III. Título. CDD: 005 MARCIO ALEXANDRE PEREIRA DA SILVA PROCESSAMENTO ANALITÍCO SOBRE DOCUMENTOS XBRL PARA A CONTABILIDADE FORENSE Dissertação aprovada como requisito final para obtenção do grau de Mestre em Sistemas e Computação, UNIFACS Universidade Salvador, Laureate International Universities pela seguinte banca examinadora: Paulo Caetano da Silva – Orientador - ___________________________________________________ Doutor pela Universidade Federal de Pernambuco - UFPE UNIFACS Universidade Salvador, Laureate International Universities Valéria Cesário Times - ______________________________________________________________ Doutora pela University of Leeds Doutor pela Universidade Federal de Pernambuco – UFPE Sérgio Martins Fernandes - ____________________________________________________________ Doutor pela Universidade de São Paulo - USP UNIFACS Universidade Salvador, Laureate International Universities Salvador, setembro de 2014 "Porque dele e por ele, e para ele, são todas as coisas; glória, pois, a ele eternamente." (Romanos 11:36). AGRADECIMENTOS Primeiramente ao Filho de Deus, Jesus Cristo, por ser a coluna de sustentação em minha vida, e por abrir caminhos que permitiram a realização de mais um sonho; Aos meus pais, Jasiel e Lucenilda, pelo amor, carinho, respeito e suporte incondicional em minha vida; Ao meu orientador, professor Paulo Caetano, pelos ensinamentos, paciência, comprometimento sério e disponibilidade constante, fundamentais para a elaboração dos artigos aceitos e a concretização desta dissertação. Espero contar com sua orientação e parceria em projetos futuros; À minha querida Amanda Eliúde, pelas orações, pelo amor, pela compreensão e paciência em minhas ausências para conclusão de mais essa etapa em minha vida; À minha família, meus irmãos (Clara e Binho) que apesar da ausência física, cada encontro é a certeza de momentos alegres, aliviando as tensões decorrentes dos prazos a cumprir; minha sobrinha Márcia Regina, com sua perene energia, exalando alegria em nosso dia-a-dia; Aos amigos, Irlan, Lau, Priscilinha, Denysson e Lenierrison, todos em outras fronteiras, cujas saudosas recordações estiveram presentes nos inúmeros momentos de reclusão, para realização deste trabalho; E por fim, à CAPES/PROSUP, pela bolsa de mestrado a mim confiada, vinculada ao programa de Pós Graduação em Sistemas e Computação da Universidade Salvador. RESUMO O atual estágio da Tecnologia da Informação impulsionou diversos países a adotarem tecnologias baseadas em padrões internacionais para divulgação de seus demonstrativos contábeis. Com o objetivo de facilitar o intercâmbio de dados e aumentar a transparência das informações financeiras disponibilizadas na Internet, linguagens derivadas da XML (e.g. XBRL) foram adotadas como padrão tecnológico por diversas empresas. Todavia, a ocorrência de ilícitos contábeis em grandes corporações e transações eletrônicas fraudulentas, têm gerado prejuízos em bilhões de dólares anualmente e despertado a atenção de governos e órgãos reguladores, fomentando pesquisas para detecção de fraudes através de recursos computacionais aplicáveis em relatórios financeiros digitais. Com esse objetivo, o presente trabalho propõe uma ferramenta de apoio aos analistas financeiros forenses (i.e. contabilistas ou auditores fiscais forenses) baseada em linguagens de consultas OLAP. Esta linguagem auxilia a detecção de fraudes em relatórios financeiros XML ou linguagens derivadas, i.e. XBRL, a qual é mantida por um consórcio internacional composto por mais de 650 organizações e adotada por diversos governos. Propõe-se uma extensão da linguagem LMDQL, a qual executa consultas tanto em documentos XML interligados por XLink e XML Schema (característica intrínseca da XBRL), como em dados relacionais. Para isso são apresentados operadores OLAP, baseado em modelos probabilísticos, que estendem aqueles definidos na LMDQL e seu uso é demonstrado em um banco de dados relacional, assim como em um banco de dados XML nativo. O modelo de dados relacional utilizado nesta dissertação é baseado na especificação XBRL 2.1, o que o torna independente do modelo de negócios da organização que o usa, facilitando sua aplicação em contextos diferentes. Para avaliação dos operadores forenses, foi realizado um exemplo de aplicação a partir de documentos XBRL disponibilizados pela United States Securities and Exchange Commission (U.S. SEC). Para carga desses documentos no banco de dados relacional é apresentado um processamento ETL (Extract, Transform, Load) sobre os relatórios financeiros, enquanto que no banco de dados XML nativo houve a preservação do formato original dos documentos XBRL. Desta forma, foi possível avaliar a eficiência da proposta apresentada, na qual foram aplicados, em um servidor OLAP, cálculos probabilísticos utilizados na contabilidade forense. Uma avaliação do tempo de execução foi efetuada sobre as consultas em ambos modelos de dados, i.e. relacional e XML, na qual se verificou o processamento mais rápido das consultas sobre o banco de dados relacional. Palavras-chave: LMDQL. OLAP XML. OLAP XBRL. Auditoria Financeira Forense. Contabilidade Forense. Análise Financeira Forense. ABSTRACT The current stage of Information Technology led many countries to adopt technologies based on international standards for the disclosure of their financial statements. Aiming to facilitate the exchange of data and increase the transparency of financial information available on the internet, languages derived from XML (e.g. XBRL) have been adopted as the standard technology for several companies. However, the occurrences of financial crime in large corporations - and also fraudulent electronic transactions - have generated losses of billions of dollars annually and have also attracted the attention of governments and regulatory agencies, fostering research for fraud detection using computational resources applicable to digital financial reports. With such goal, this dissertation proposes a tool for forensic financial analysts (i.e. forensic accountants or forensic inspectors) based on OLAP query languages, for the detection of fraud in financial reports represented in an the derivative of XML, i.e. XBRL, which is maintained by an international consortium composed of more than 600 companies and adopted by several governments. An extension of LMDQL language is proposed, which supports both queries on XML documents connected by XLink and XML Schema (intrinsic characteristic of XBRL), and on relational data. Thus, forensic operators which extend those defined in LMDQL are presented, and their use is demonstrated in a relational database, as well as in a native XML database. The relational data model chosen in this dissertation is based on XBRL 2.1 specification, which makes it independent of the business model of the organization that uses it, facilitating its application in different contexts. To evaluate the forensic operators, a application example was conducted from XBRL documents made available by the United States Securities and Exchange Commission (U.S. SEC). To load the relational repository an ETL processing is presented (Extract, Transform, Load) on financial reports, while in the native XML database the original format of XBRL documents was kept. Thus, it was possible to evaluate the efficiency of the proposal presented, in which probabilistic calculations used in forensic accounting were applied, on an OLAP server. An evaluation of the runtime was performed on the queries in relational and XML databases and it was verified that the processing of queries on the relational repository was faster. Keywords: LMDQL. XML OLAP. XBRL OLAP. Forensic Financial Audit. Forensic Accounting. Forensic Financial Analysis. LISTAS DE FIGURAS Figura 1 - Registro de prejuízo financeiro nos EUA em cinco anos, através de fraudes por meio do uso de cartões de crédito................................................................................... 17 Figura 2 - Organização da Dissertação.......................................................................... 22 Figura 3 - Distribuição Normal ...................................................................................... 26 Figura 4 - Fórmula do Z-Teste ....................................................................................... 28 Figura 5 - Fórmula do χ2-Teste....................................................................................... 29 Figura 6 - Taxonomia XBRL.......................................................................................... 31 Figura 7 - Arquitetura do Processador da Linguagem LMDQL .................................... 32 Figura 8 - Metodologias de investigação para detectar evidências de fraudes financeiras40 Figura 9. Módulos da Financial Data Extract & Analyzer ............................................. 41 Figura 10 - Modelo proposto para combate a lavagem de dinheiro ............................... 43 Figura 11 - Aplicação dos modelos para análise forense financeira .............................. 44 Figura 12 - Modelo do Framework KDIFD ................................................................... 46 Figura 13 - Consulta com o operador EmpiricalRule..................................................... 55 Figura 14 - Consulta com o operador FirstDigit com a instrução null ........................... 56 Figura 15 - Consulta com o operador ZTest em conjunto com FirstDigit ..................... 57 Figura 16 - Consulta com o operador ChiSquaredTest em conjunto com FirstDigit ..... 58 Figura 17 - Processo de execução da consulta LMDQL Forense................................... 59 Figura 18 - Processo para Extensão do sistema LMDQL Forense................................. 60 Figura 19 - Consulta forense FirstDigit, instrução serialized......................................... 64 Figura 20 - Consulta forense FirstDigit, instrução null .................................................. 64 Figura 21 - Aplicação dos operadores ZTest e FirstDigit em conjunto ......................... 66 Figura 22 - Aplicação dos operadores ChiSquaredTest e FirstDigit em conjunto ......... 67 Figura 23 - Aplicação do operador EmpiricalRule à todos os elementos do documento XBRL 68 Figura 24 - Consulta forense pelo elemento "us-gaap:AccountsPayableCurrent" ......... 69 Figura 25 - Consulta forense pelo linkbase label "Accounts Payable, Current". ........... 69 Figura 26 - Processamento ETL utilizado neste trabalho............................................... 70 Figura 27 - Uso do operador FirstDigit, com a instrução serialized, na base relacional 70 Figura 28 - Uso do operador FirstDigit, com a instrução null, na base relacional ......... 70 Figura 29 - Aplicação do ZTest em conjunto com o FirstDigit ..................................... 71 Figura 30 - Aplicação do ChiSquaredTest em conjunto com o FirstDigit ..................... 71 Figura 31 - Aplicação do operador forense EmpiricalRule especificando todos os elementos 72 Figura 32 - Operador EmpiricalRule sobre o elemento "us-gaap:AccountsPayableCurrent" 72 Figura 33 - Consulta forense pelo linkbase label "Accounts Payable, Current" ............ 73 Figura 34 - Tempo de desempenho dos operadores forenses (em milissegundos) ........ 75 LISTAS DE QUADROS Quadro 1 - Estrutura de uma consulta LMDQL ............................................................. 33 Quadro 2 - Exemplo de strings de buscas, no idioma português.................................... 37 Quadro 3 - Exemplos de strings de buscas, no idioma inglês ........................................ 38 LISTAS DE TABELAS Tabela 1 - Probabilidade de ocorrência dos primeiros dígitos ....................................... 27 Tabela 2 - Quantidade de trabalhos retornados das buscas nas fontes de pesquisas ...... 38 Tabela 3 - Comparativo entre os Sistemas de Análise Forense investigados................. 50 Tabela 4- Comparativo entre os bancos de dados XBRL investigados.......................... 52 Tabela 5 - Definições usadas para especificar a sintaxe LMDQL ................................. 54 Tabela 6 - Tempo de execução da LMDQL Forense nas bases relacional e XML e Diferença Percentual dos resultados................................................................................................ 74 Tabela 7 - Comparativo entre os Sistemas de Análise Forense investigados e o sistema LMDQL Forense ............................................................................................................ 80 LISTA DE ABREVIATURAS E SIGLAS DTS DW EBNF ETL EUA H0 H1 iXBRL LMDQL MDX OLAP Pe Po SGBD SQL W3C U.S. SEC χ2 XBRL XBRL GIS XLink XLPath XML XQuery Discoverable Taxonomy Set Data Warehouse Extended Backus–Naur Form Extract, Transform, Load Estados Unidos da América Hipótese Nula Hipótese Não Nula Inline Extensible Business Reporting Language Link Based Multidimensional Query Language Multidimensional Expressions On-line Analytical Processing Probabilidade Esperada Probabilidade Observada Sistema Gerenciador de Banco de Dados Structered Query Language World Wide Web Consortium United States Securities and Exchange Commission Qui-Quadrado Extensible Business Reporting Language XBRL Geographic Information System XML Linkink Language XML Linking Path Language Extensible Markup Language XML Query Language SUMÁRIO 1 INTRODUÇÃO ......................................................................................................... 16 1.1 CONTEXTUALIZAÇÃO ........................................................................................ 16 1.2 MOTIVAÇÃO.......................................................................................................... 18 1.3 OBJETIVO ............................................................................................................... 20 1.4 ORGANIZAÇÃO DA DISSERTAÇÃO ................................................................. 21 2 FUNDAMENTAÇÃO TEÓRICA............................................................................ 24 2. 1 COMPUTAÇÃO FORENSE .................................................................................. 24 2.2 CONTABILIDADE FORENSE OU AUDITORIA CONTÁBIL ........................... 25 2.2.1 Regra Empírica.................................................................................................... 25 2.2.2 Lei dos Primeiros Dígitos ou Lei de Benford .................................................... 26 2.2.3 Teste Z .................................................................................................................. 27 2.2.4 Teste χ2 .................................................................................................................. 28 2.3 XBRL ....................................................................................................................... 29 2.4 LMDQL: LINK MULTIDIMENSIONAL QUERY LANGUAGE......................... 31 2.4.1 Arquitetura LMDQL .......................................................................................... 31 2.4.2 Consulta LMDQL................................................................................................ 32 2.5 MODELOS DE DADOS XBRL .............................................................................. 33 2.5.1 DPM: Data Point Model...................................................................................... 33 2.5.2 XBRL Abstract Model ........................................................................................ 34 2.5.3 XBRL Infoset ............................................................................................ 35 2.6. CONSIDERAÇÕES FINAIS .................................................................................. 35 3 TRABALHOS CORRELATOS ............................................................................... 37 3.1 METODOLOGIA UTILIZADA PARA A REVISÃO DA LITERATURA ........... 37 3.2 SISTEMAS DE ANÁLISES FORENSE FINANCEIRAS ...................................... 39 3.3 BANCOS DE DADOS XBRL ................................................................................. 47 3.4 CONSIDERAÇÕES FINAIS ................................................................................... 49 4 LMDQL FORENSE: LINGUAGEM E SISTEMA................................................ 53 4.1 REQUISITOS DA LINGUAGEM LMDQL FORENSE......................................... 53 4.2 A LINGUAGEM LMDQL FORENSE .................................................................... 54 4.3 O SISTEMA LMDQL FORENSE ........................................................................... 58 4.4 EXTENSÃO DO SISTEMA LMDQL FORENSE .................................................. 60 4.5 CONSIDERAÇÕES FINAIS ................................................................................... 61 5 EXEMPLO DE APLICAÇÃO DA LMDQL FORENSE EM RELATÓRIOS FINANCEIROS DA U.S. SEC .................................................................................... 63 5.1 BANCO DE DADOS XML ..................................................................................... 63 5.2 BANCO DE DADOS RELACIONAL..................................................................... 69 5.3 AVALIAÇÃO DE DESEMPENHO DO TEMPO DE EXECUÇÃO DAS CONSULTAS 73 5.4 CONSIDERAÇÕES FINAIS ................................................................................... 76 6 CONCLUSÃO............................................................................................................ 77 6.1 TRABALHOS COMPLETOS PUBLICADOS EM ANAIS DE CONGRESSOS.. 82 6.2 TRABALHOS FUTUROS ....................................................................................... 82 REFERÊNCIAS ........................................................................................................... 84 ANEXO A – LMDQL Forense EBNF......................................................................... 96 ANEXO B - Modelo de Dados do XBRL Abstract Model Database ....................... 102 16 1 INTRODUÇÃO Este capítulo tem como propósito contextualizar os problemas referentes ao combate à fraude financeira, expondo os motivos e objetivos que levaram à realização deste trabalho. Na Seção 1.1, é contextualizada a ocorrência de fraudes financeiras em nível mundial, a adoção de linguagens de marcação para padronização dos demonstrativos financeiros e, por fim, a necessidade da utilização da tecnologia da informação para conter a ocorrência de fraudes em documentos contábeis digitais. Na Seção 1.2, são descritas as motivações que nortearam a necessidade de resolução dos problemas encontrados, seguindo-se de duas seções nas quais são descritos os objetivos e a estrutura desta dissertação, respectivamente. 1.1 CONTEXTUALIZAÇÃO Diversos escândalos financeiros promoveram a perda de confiança nas práticas contábeis em nível mundial (SANTOS; GRATERON, 2003), como as ocorrências de fraudes contábeis em grandes empresas norte-americanas (e.g. Enron, Tyco, WorldCom e Adelphia), as quais estão associadas aos maiores escândalos financeiros desde a Grande Depressão de 1929. Evidências semelhantes ocorrem no Brasil, as quais geraram a publicação de 9446 matérias relacionadas à fraudes financeiras ou contábeis os no jornal "O Globo" (CARDOSO; SILVA, 2008). Inúmeras fraudes identificadas em grandes corporações impulsionaram o desenvolvimento de padrões internacionais para os relatórios financeiros, e a sua adoção nas corporações contribuiu para combater a perda de credibilidade nas práticas contábeis (Gerônimo et al., 2009). Nesse contexto foi desenvolvida a linguagem de marcação XBRL (eXtensible Business Reporting Language) (XBRL International Consortium, 2008), derivada da XML é uma linguagem para intercâmbio de informações financeiras na Internet (SILVA; TEIXEIRA, 2002; SILVA; TEIXEIRA, 2003; SILVA; SULAIMAN, 2003; SILVA, 2003; WU; VASARHELYI, 2004; RICCIO et. al, 2005; SILVA et. al., 2006). No intuito de aumentar a transparência do mercado financeiro, alguns governos (e.g. Japão, China, Estados Unidos, Reino Unido, Espanha) padronizaram os demonstrativos contábeis que trafegam entre o mercado e governo, adotando a XBRL como linguagem padrão para a representação e o intercambio de seus relatórios financeiros (PENG et al., 2011; FELDEN, 2011; BAI et al., 2012; STEENKAMP; NEL, 2013; LI et al., 2013). 17 A utilização da Tecnologia de Informação na contabilidade tem importância vital para a sobrevivência das organizações, pois sem computadores, redes, banco de dados e um sistema de informação seguro, a prestação de serviços torna-se inviável (MATTES; PETRI, 2013). Uma pesquisa divulgada em 2011 pela American Bankers Association revelou que a maioria (57%) dos americanos com idade igual ou superior a 55 anos preferem fazer suas operações bancárias pela Internet em vez de filiais ou caixas automáticos. Em 2010 esse percentual era de 20%. (KIM et al., 2013). Essa pesquisa indica a adesão contínua da população às transações financeiras online. A necessidade da utilização de recursos computacionais para reprimir os avanços de fraudes financeiras, é ascendente (HOGAN et al, 2008). A incidência de fraudes financeiras é preocupante, tendo em vista que o prejuízo advindo dessa prática criminosa é estimado em bilhões de dólares, anualmente. Conforme ilustrado na Figura 1, somente nos Estados Unidos da América (EUA) em 2006 verificou-se uma perda de 1.991.960.000 de dólares, com fraudes em pagamentos com cartões de créditos (atividade financeira efetuada com uso de sistemas computacionais), cujo problema não apenas continuou, mas aumentou nos anos seguintes, chegando em 2010 ao montante de 2.845.300.000 dólares (KHAN et al., 2012), um aumento de 42,84% em quatro anos. Figura 1 - Registro de prejuízo financeiro nos EUA em cinco anos, através de fraudes por meio do uso de cartões de crédito Fonte: Khan et al. (2012). O combate às fraudes, e sua deteção em documentos financeiros, tem recebido atenção pelos órgãos reguladores do mercado financeiro a exemplo da United States Securities and Exchange Commission (U.S. SEC, 2014) - agência federal americana que detém a 18 responsabilidade primária pela regulação do setor de valores mobiliários nos EUA, i.e. ações, opções de câmbio e outros mercados eletrônicos de valores - cuja preocupação é ratificada com os formulários online (http://www.sec.gov/complaint/select.shtml) nos quais é possível reportar queixas sobre suspeitas de fraudes financeiras. Além dessa iniciativa de comunicação online, observa-se o incentivo (por parte da U.S. SEC) para combater as fraudes contábeis com uso de Sistemas de Informação (SI), para checagem de documentos financeiros reportados à comissão, os quais possuem formato digital (i.e. XBRL), e das transações efetuadas por meios eletrônicos (COHN, 2013). O governo federal dos EUA também tem concentrado esforços na deteção de crimes financeiros. A Financial Fraud Enforcement Task Force (U.S. Department of Justice, 2009) foi criada pelo presidente americano Barack Obama em 2009, com o intuito de centralizar os esforços do governo juntamente com os parceiros locais e estaduais para investigar e processar crimes financeiros significativos, assegurar a punição justa e eficaz para aqueles que cometem crimes financeiros, recuperar recursos para as vítimas e enfrentar a discriminação financeira nos mercados de crédito e financeiras. Com mais de 20 agências federais, 94 escritórios de advocacia dos EUA e parceiros estaduais e locais, é a coalizão mais ampla da aplicação da lei, de investigação e agências reguladoras já montada para combater a fraude financeira (STOPFRAUD.GOV, 2014). Desta forma, soluções automatizadas para a detecção de fraude financeira em meios eletrônicos, é um importante componente para diminuir a ocorrência de transações financeiras ilícitas, as quais geram prejuízos em bilhões de dólares aos governos e instituições privadas. 1.2 MOTIVAÇÃO A motivação deste trabalho baseia-se em vários aspectos observados no domínio financeiro sobre ocorrência de fraudes, tais como: (i) pesquisas recentes (KHAN et al., 2012) comprovam a urgência de novas soluções para combate e deteção de fraudes em documentos financeiros, as quais já contabilizam prejuízo em bilhões de dólares aos governos e instituições financeiras; (ii) órgãos reguladores do mercado financeiro e governos têm incentivado a utilização da Tecnologia da Informação para a análise dos documentos digitais financeiros, conforme apresentado na contextualização (Seção 1.1); (iii) concomitantemente, é ascendente o uso da Internet para transações financeiras, implicando na necessidade de soluções para proteger as empresas e seus usuários, de fraudes digitais (SHERLY; NEDUNCHEZHIAN, 2010). Desta forma, é necessária uma ferramenta baseada em recursos 19 computacionais que auxilie a aplicação da contabilidade forense, analisando os dados contidos em arquivos digitais (i.e. documentos financeiros), auxiliando a detecção de fraudes em relatórios financeiros. A seguir são descritas as vertentes tecnológicas adotadas para a solução proposta dos problemas relacionados à análise forense, contudo, elas são explanadas com mais ênfase na fundamentação teórica (Capítulo 2): (i) processamento analítico (OLAP), uma das técnicas computacionais mais populares disponível aos auditores, a qual analisa dados, oferecendo subsídios para tomadas de decisão (PANIGRAHI, 2011); (ii) solução em tempo real (Online), a dinamicidade inerente ao domínio financeiro e a quantidade de dados trafegados diariamente entre os sistemas, na Internet, exige a concepção de soluções que executem análises rapidamente, auxiliando a tomada de decisão em tempo cada vez menor; (iii) LMDQL, linguagem de consulta OLAP sobre repositórios relacionais e documentos XML interligados por XLink, tecnologias comumente utilizadas para representar relatórios financeiros digitais (e.g. documentos XBRL); (iv) XBRL, uma linguagem derivada da XML e baseada em padrões internacionais, para representação de relatórios financeiros. A partir da análise dos trabalhos correlatos descritos no Capítulo 3, não se verifica a existência de uma ferramenta com a qual se aplique uma linguagem para análise forense, com base em consultas analíticas em tempo real, cujo processamento seja baseado em técnicas utilizadas na contabilidade forense convencional; tampouco enseje a sua aplicação sobre um repositório multidimensional baseado em tecnologia reconhecida internacionalmente no domínio financeiro, e.g. especificação XBRL 2.1 (XBRL INTERNATIONAL CONSORTIUM, 2008). Sobre os repositórios relacionais investigados, para suporte ao processamento analítico forense sobre dados relacionais, buscou-se um modelo que adapte qualquer taxonomia XBRL, sem adesão a qualquer modelo de negócio específico, e que não haja necessidade de alterar a estrutura de tabelas em caso de armazenamentos de diferentes relatórios financeiros. Em vista disso, a principal motivação para realização deste trabalho é o desenvolvimento de uma ferramenta de apoio aos analistas da área financeira (ou órgãos reguladores), na qual se aplica uma linguagem para análise forense de dados financeiros, apoiando a tomada de decisões baseadas na detecção de fraudes, sobre repositórios que contemplam dois paradigmas, i.e. XML (mantendo formato nativo dos relatórios financeiros digitais baseados em XBRL) e relacional. 20 1.3 OBJETIVO Este trabalho tem como objetivo implementar uma solução para detecção de fraudes baseada em processamento analítico online (OLAP), disponibilizando ao analista forense uma linguagem de consulta para execução da análise sobre documentos XML (interligados ou não por XLink) e dados relacionais. Em suma, a solução proposta deve necessariamente: (a) possuir uma linguagem que permita a realização de consultas para análise forense; (b) analisar dados com a finalidade de detecção fraudes em documentos XML e dados relacionais; (c) aplicar cálculos probabilísticos, comumente utilizados na contabilidade forense; (d) permitir a aplicação conjunta de mais de um cálculo probabilístico; (e) ser uma solução open source que possibilite sua extensão às novas técnicas de detecção de fraudes, permitindo a evolução da solução proposta conjuntamente com o estado da arte da contabilidade forense e auditoria financeira. Para que esse objetivo seja alcançado, alguns objetivos específicos são almejados: • Adoção das licenças compatíveis com a versão 1.9 (ou superior) da Open Source Definition (OPEN SOURCE INITIATIVE, 2014), cujos softwares que as adotam são conhecidos como open source ou código aberto, e das licenças recomendadas pela Fundação de Software Livre (FREE SOFTWARE FOUNDATION, 2014), com as quais os softwares são conhecidos como software livre ou free software. A adoção destas licenças torna o uso da solução irrestrito e ilimitado, por qualquer instituição ou governo; • Especificação e implementação de uma linguagem de consulta de processamento analítico, estendida da LMDQL (a qual faz consultas em bases XML e relacionais), de código aberto e gratuito, a qual executa análises dos dados financeiros em tempo real com a finalidade de averiguação de fraudes. Os requisitos e a implementação dessa linguagem, são descritas nas Seções 5.1 e 5.2, respectivamente, no Capítulo 5; • Definição de uma modelagem de dados relacional que possua as seguintes propriedades: (a) ser baseada na semântica e sintaxe da especificação XBRL 2.1, com a finalidade de contemplar a taxonomia de qualquer documento XBRL, sem a necessidade de alterar a estrutura de tabelas em caso de novas taxonomias XBRL, conforme descrito na motivação (Seção 1.2 deste capítulo); (b) conter tabelas dimensionais que seja extensível às novas dimensões, sem que haja a necessidade de alterar as tabelas do banco de dados, e tabelas relacionais que armazenem os relacionamentos entre os elementos (i.e. semântica) do esquema XBRL, definidos em documentos de linkbase XBRL. Algumas modelagens são discutidas na Seção 2.5 do Capítulo 2; 21 • Projeto e implementação de um sistema OLAP, com código disponível e gratuito, para aplicação de modelos estatístico-probabilísticos sobre dados, nos paradigmas XML e relacional, considerando no processamento analítico a semântica dos conceitos definidos no esquema XBRL. Essa implementação é descrita nas Seções 4.3 e 4.4 do Capítulo 4; • Realização de estudos de casos, para demonstrar a expressividade dos operadores da linguagem proposta e a realização de consultas OLAP em demonstrativos contábeis XBRL, em uso no mundo real (e.g. os relatórios trafegados no mercado financeiros norte americano e regulados pela U.S. SEC). Um estudo de caso foi conduzido no Capítulo 6, utilizando como base tanto documentos XBRL nativos (Seção 5.1), como dados contidos em um banco de dados relacional (Seção 5.2). • Realização de testes preliminares de avaliação de desempenho do processamento do sistema proposto, no que se refere ao tempo de execução de consultas nas bases de dados relacionais e XML. A avaliação preliminar de desempenho será apresentada na Seção 5.3 desta dissertação. 1.4 ORGANIZAÇÃO DA DISSERTAÇÃO Além deste capítulo introdutório, no qual foram apresentadas a contextualização, as motivações e os objetivos, esta dissertação está organizada em mais cinco capítulos, os quais são mostrados na Figura 2. 22 Figura 2 - Organização da Dissertação • No segundo capítulo são discutidos alguns conceitos básicos relacionados ao desenvolvimento desta dissertação. Os principais conceitos abordados são a computação forense (Seção 2.1), a contabilidade forense ou auditoria contábil, e a aplicação de técnicas estatístico-probabilísticas Regra Empírica, Lei dos Primeiros Dígitos ou Lei de Benford, Teste Z e Teste Qui-Quadrado, para detecção de fraudes (Seção 2.2), a linguagem XBRL (Seção 2.3), a linguagem de consulta multidimensional baseada em dados XML interligados 23 (LMDQL) (Seção 2.4), e alguns modelos de dados XBRL, que servem como diretrizes para construção de repositórios XBRL (Seção 2.5). • No capítulo três, uma revisão da literatura é mostrada, buscando trabalhos correlatos ao proposto nesta dissertação. Os trabalhos encontrados são apresentados em duas seções, uma para os trabalhos que abordam detecção de fraudes financeiras com utilização de recursos computacionais e a outra discute bancos de dados baseados na tecnologia XBRL. Este capítulo é encerrado com considerações finais avaliando vantagens, desvantagens e lacunas dos trabalhos, as quais serviram de base para os requisitos discutidos nos objetivos desta dissertação (Seção 1.4 do Capítulo 1); • O capítulo quatro apresenta os (i) requisitos para a linguagem de consulta LMDQL para detecção de fraudes financeira (a qual foi denominada Linguagem LMDQL Forense), (ii) a sintaxe da LMDQL forense, que propõe o uso de operadores OLAP baseados em técnicas probabilísticas (denominados Operadores Forense), estendo àqueles presentes na LMDQL; (iii) o sistema LMDQL Forense, e (iv) um modelo para extensão do sistema LMDQL Forense a outras técnicas de detecção de fraudes financeiras; • O quinto capítulo mostra o Estudo de Caso, no qual é detalhado o processo de ETL (Extract, Transform, Load) aplicado neste trabalho, com o qual se efetuou o carregamento de dados dos documentos (instâncias, schemas e linkbases) XBRL para o XBRL Abstract Model Database. Resultados das consultas analíticas são apresentados, os quais advêm tanto de repositório relacional quanto XML. Além disso, um estudo de desempenho é apresentado, avaliando o tempo de execução das consultas em ambas as bases de dados; • No capítulo seis, as considerações finais sobre o trabalho realizado para o desenvolvimento desta dissertação são apresentadas, os artigos completos publicados em congressos científicos, além de indicações para trabalhos futuros; • Por fim, o Anexo A e B os quais mostram, respectivamente, a gramática estendida da LMDQL para LMDQL Forense, e a modelagem do XBRL Abstract Model Database. A seguir é apresentado o capítulo referente à fundamentação teórica, na qual são discutidos os conceitos e tecnologias que serviram de base para a solução proposta nesta dissertação. 24 2 FUNDAMENTAÇÃO TEÓRICA São realizadas neste capítulo discussões acerca da fundamentação teórica, apresentando conceitos e tecnologias referentes ao desenvolvido do trabalho descrito nesta dissertação. Dentre os principais tópicos abordados estão a computação forense, contabilidade forense, as tecnologias XBRL e LMDQL, seguindo-se de algumas modelagens para representação de dados financeiros (i.e. Data Point Model (MORILLA, 2014), o XBRL Abstract Model (XBRL INTERNATIONAL INC., 2012) e o XBRL Infoset (XBRL INTERNATIONAL INC., 2009a)). 2. 1 COMPUTAÇÃO FORENSE A computação forense analisa artefatos digitais e faz a checagem e validação de seus dados. A análise forense por meio de recursos computacionais é uma exigência atual, em razão da transferência para o ambiente virtual (e.g. digital) da maioria das relações da sociedade (e.g. transações financeiras). Assim, problemas sociais do cotidiano rompem as fronteiras do mundo físico e adentram ao mundo digital, surgindo diversos e novos problemas técnicos e jurídicos. Para exemplificar alguns problemas, pode-se listar: invasão de privacidade, descumprimentos de contratos celebrados por meio da Internet, disseminação de e-mails caluniosos ou difamatórios, compartilhamento ilícito de softwares, músicas e filmes, entre outros problemas que passaram a fazer parte da realidade vivida pela sociedade atual (FREITAS; ROCHA, 2012). A aplicação de tecnologias da informação para investigar crimes digitais cresceu no final do século passado e fez surgir a computação forense, a qual é o processo de identificar, preservar, analisar e apresentar evidências digitais amparadas pela lei (MCKEMMISH, 1999). Com a crescente utilização da Internet para transações financeiras, a computação também vem sendo utilizada no combate ao CyberCrime (i.e. crimes cibernéticos, praticados através da Internet) (COLLI, 2010). Esta modalidade criminal vem atingindo toda a sociedade que muitas vezes não tem consciência dos riscos das tecnologias utilizadas diariamente. Furtos em operações bancárias na web, fraudes em documentos, espionagem, são cada vez mais associados a recursos computadorizados (VOLONINO et al., 2006; COSTA, 2011). Devido ao crescente uso dos computadores e à popularização dos dispositivos computacionais portáteis, são esperados que novos tipos de análises forenses baseadas em computadores sejam criados. Da mesma forma, estima-se o aumento da demanda de soluções 25 forenses computacionais nos próximos anos, pois os computadores tornaram-se uma ferramenta imprescindível nesse processo (ELEUTÉRIO; MACHADO, 2011). 2.2 CONTABILIDADE FORENSE OU AUDITORIA CONTÁBIL A contabilidade forense (ou auditoria contábil) apresenta-se como uma evolução do processo de controle patrimonial que é realizado com o intuito de descobrir fraudes, desfalques, entre outros danos ao patrimônio das organizações e de seus cotistas ou acionistas. Constituindo-se a ciência responsável pelo combate à fraude patrimonial, qualifica-se como uma estrutura capaz de produzir provas hábeis e admissíveis em juízo, cujos profissionais precisam ter pleno domínio da ciência contábil, especialmente no que se refere à auditoria e à perícia (PARADA, 2013). Aplicada por um auditor contábil ou contabilista forense - cuja atuação, na visão dos usuários externos da informação contábil, é sinônimo de confiança e credibilidade (SANTOS; GRATERON, 2003), a auditoria contábil tem importância na prevenção e combates aos erros e às fraudes na organização. Trata-se de um instrumento indispensável na verificação de fraudes e erros contábeis, pois realiza procedimentos importantes, como: exame, vistoria, indagação, investigação, arbitramento, avaliação e certificação, a fim de esclarecer determinados fatos. Portanto, é fundamental que as irregularidades sejam combatidas, pois, caso contrário, as empresas poderão ter problemas, como algumas que chegaram à falência (MENEGUSSI; IANESKO, 2008). A contabilidade forense tem a finalidade de obtenção de evidências e provas de documentos fraudulentos. Para apuração dos dados contidos em relatórios financeiros, são aplicados diversos métodos estatístico-probabilísticos para comprovação da veracidade dos documentos que a compõe. Diversos trabalhos são encontrados na literatura que abordam a detecção de fraudes, nos quais são encontrados estudos de técnicas probabilísticas em uso pela contabilidade forense não computadorizada para análise dos dados (HILL, 1998; FRANCISCHETTI, 2007; LAGIOIA et al.,2011; SILVA JR, 2013; COSTA et al, 2013). Alguns desses cálculos probabilísticos utilizados nesses trabalhos (i.e. Regra Empírica, Lei dos Primeiros Dígitos, Teste Z e Teste χ2), tiveram sua aplicação comprovada na área financeira (por meio de recursos não computacionais), cujas teorias são discutidas a seguir. 2.2.1 Regra Empírica Na literatura são encontrados vários estudos e aplicações da Regra Empírica, cuja 26 proposta tem como base a Distribuição Normal sobre um conjunto de dados (THE OXFORD MATH CENTER, 2013; BLANCO ; GINOVART, 2010; INSTITUTO GAUSS DE MATEMÁTICA, 2010; THE BOOK OF THREES, 2013). No domínio contábil, após a coleta de dados de relatórios financeiros, define-se a sua Distribuição Normal, a qual se trata da medição da variabilidade dos valores, baseado na soma e subtração (em até 3 vezes) do desvio padrão (σ) em relação à média padrão (µ), calculados a partir de um conjunto de dados. Segundo esta regra, conforme ilustração da Figura 3, há 68,26% de probabilidade de que todos os valores válidos possíveis encontrem-se a uma distância da média padrão de 1 sigma (σ), aqui considera-se a soma e subtração de um desvio padrão (i.e. µ-1σ e µ+1σ), tendo como base a média padrão. Quando os valores encontram-se a uma distância de 2 sigmas (i.e. µ-2σ e µ+2σ) , há probabilidade de ocorrência dos dados é de 95,44%, e a uma distância de 3 sigmas (i.e. µ-3σ e µ+3σ), o percentual é de 99,74%. O que passar da distância de 3 sigmas, negativamente ou positivamente, pode ser considerado um dado anômalo, i.e. não é correspondente com seu histórico de dados, está fora da Distribuição Normal, podendo caracterizar uma fraude. Figura 3 - Distribuição Normal 2.2.2 Lei dos Primeiros Dígitos ou Lei de Benford A Lei dos Primeiros Dígitos, também conhecida como Lei de Newcomb-Benford ou Lei de Benford, foi originalmente descoberta em 1881, quando o astrônomo americano Simon Newcomb observou que as primeiras páginas dos livros logarítmicos encontravam-se mais gastas que as demais. No mesmo ano, Newcomb afirmou que a ocorrência de dígitos em um universo de dados numéricos segue uma distribuição particular da probabilidade (HILL,1998). O mais completo trabalho empírico relacionado a esta lei até a década de 1990 27 foi o de Benford (1938), o qual contém a maior tabela de frequência de dígitos. O período de maior publicação científica abordando o uso da Lei de Newcomb-Benford foi entre os anos de 2002 e 2006, ficando o Brasil em segundo lugar com 10 publicações, abaixo apenas dos Estados Unidos que lidera com 22 publicações. Conclui-se que esta análise evolutiva das publicações delineia a Lei dos Primeiros Dígitos como um instrumento aplicável e eficaz na detecção de desvios significativos relacionados à ocorrência de fraudes (COSTA et al., 2013). Outras obras que abordam a aplicação dessa lei na auditoria e contabilidade forense ratificam a importante desta lei no domínio financerio (DURTSCHI et al., 2004; FRANCISCHETTI, 2007; NIGRINI ; WELLS, 2012;). Esta lei é uma anomalia da probabilidade que demonstra a ocorrência irregular dos dígitos de 1 a 9, i.e. não obedece a probabilidade comum de ocorrência dos dígitos, que seria de 1/9. Esta particular anomalia sugere que a ocorrência dos dígitos 1, 2 e 3 ocorrem com mais frequência, sendo estes dígitos mais comuns que os demais (HILL, 1998). Tendo em vista uma séria aleatória de números, verifica-se que se os números investigados não estiverem relacionados a algum evento social ou natural, a distribuição do primeiro dígito não é uniforme. Esta anomalia proposta por Newcomb prenuncia que o primeiro dígito (um) aparece em aproximadamente 30,1% dos casos de um conjunto de dados numéricos, já o número 2 ocorre em aproximadamente 17,6%, diminuindo a ocorrência sucessivamente até o digito nove, conforme se verifica na Tabela 1. Tabela 1 - Probabilidade de ocorrência dos primeiros dígitos Dígito Probabilidade 1 2 3 4 5 6 7 8 9 30,10% 17,61% 12,49% 9,69% 7,92% 6,69% 5,80% 5,11% 4,58% Fonte: Hill (1998). 2.2.3 Teste Z O cálculo probabilístico Teste Z é utilizado para medir a correlação entre um conjunto de dados que representa a probabilidade observada (Po) e outro conjunto de dados referentes à probabilidade esperada (Pe) (Oxford Reference, 2014; Lenarcic & Stanley, 2008; Charles 28 Sturt University, 2010). No domínio financeiro, o teste Z pode ser aplicado considerando a Lei de Benford como a Pe, i.e. a probabilidade esperada para cada dígito segue as definições da Lei dos Primeiros Dígitos (Tabela 1), e a Po é extraída dos relatórios financeiros analisados. O Teste Z tem a finalidade de definir o grau de significância entre as diferenças das duas probabilidades (Pe e Po), comprovando suas correlações. O sistema de hipóteses adotados no domínio estatístico, denota-se a partir de uma simbologia usual, tais quais: (i) Hipótese nula (H0), na qual não existe diferença estatisticamente significativa entre as duas probabilidades, i.e. Po é correlata a Pe, ou seja, não há indicação de ocorrência de fraudes entre os valores analisados; e (ii) Hipótese não nula (H1) na qual existe diferença estatisticamente significativa entre distribuições de Po e Pe, traduzindo-se que Po não é correlato a Pe, podendo ser um indício de ocorrência de fraude. O Teste Z trata-se de um teste probabilístico paramétrico, ou seja, necessita de parâmetros relacionados aos dados analisados, como média e variância, e por isso requer a quantidade numérica (n) da amostra de dados analisada (GATEN, 2000; ORLOFF, 2013). Assim sendo, a fórmula do Z-Teste é o módulo da diferença entre Po e Pe decrescido pela razão inversa de duas vezes o número de elementos contidos na amostra a ser analisada (2n), dividido pela raiz da divisão entre a multiplicação de Pe com o número 1 decrescido pela Pe, e o número de elementos (n), conforme ilustrado na Figura 4. Importante ressaltar que a razão 1 /2n contida no numerador da fórmula, é o termo de correção de continuidade - o qual é utilizado para melhorar a aproximação de uma variável pela distribuição normal que é contínua, este termo é usado quando ele é menor que o módulo de Po decrescida de Pe (i.e. |Po − Pe|). Figura 4 - Fórmula do Z-Teste 2.2.4 Teste χ2 O Teste Qui-Quadrado (χ2), semelhantemente ao Teste Z, é utilizado para medir o grau de conformidade da distribuição de Po com a Pe, mas se trata de um modelo não paramétrico, 29 i.e. não é preciso informar a quantidade de dados analisados, diferenciando-se do Teste Z nesse aspecto (ROSENHOLTZ, 2004; THE JOHNS HOPKINS UNIVERSITY ; DIENERWEST, 2008; ECK ; RYAN, 2012). O sistema de hipóteses deste teste denota-se de forma semelhante ao descrito no Teste Z, ou seja, a ocorrência de H0 indica a ausência de fraude, havendo conformidade da distribuição de Po com Pe, e a ocorrência de H1 indica a não conformidade entre essas duas distribuições. Por se tratar de um teste probabilístico não paramétrico, o Teste χ2 não necessita da média ou variância das amostras de dados analisados, e por isso não requer a quantidade numérica das amostras de dados. Assim sendo, a fórmula do Teste χ2 é o quadrado da diferença entre Po e Pe, a qual é divida pelo valor da Pe, conforme ilustrado na Figura 5. Quando Po é muito próximo a Pe, o valor de χ2 é pequeno, mas quando as divergências são grandes, χ2 assume valores maiores, caracterizando-se um quadro de verificação de fraude ou erros nos valores informados (CONTI, 2009). Figura 5 - Fórmula do χ2-Teste 2.3 XBRL Derivada da linguagem XML (eXtensible Markup Language), a XBRL é um padrão aberto e gratuito, cuja concepção tem como base a criação, o intercâmbio e a análise de relatórios de informações financeiras. Como tal, permite que investidores, pesquisadores e analistas do mercado financeiro analisem e extraiam informações por meio de suas aplicações, simplificando uma das fases principais da análise financeira: a obtenção e conversão de formatos de dados (SILVA ; TEIXEIRA, 2002; SILVA ; TEIXEIRA, 2003; SILVA ; SULAIMAN, 2003; SILVA, 2003; WU ; VASARHELYI, 2004; RICCIO et. al, 2005; SILVA et. al., 2006). A estrutura e semântica dos elementos XBRL são definidas em uma taxonomia, a qual é composta por um conjunto de documentos XBRL interligados. A associação entre elementos XBRL e documentos XBRL ocorre por meio de links. Um link é um mecanismo utilizado para associar dois ou mais recursos. Os links usados em XBRL podem estar contidos no próprio documento XBRL, no qual estão os recursos ou em outro documento XBRL, denominado linkbase, que contém uma coleção de links. Os links associam recursos locais e 30 remotos. Um recurso local é um elemento XBRL que participa de uma ligação em virtude dele, ou do elemento que o contém (elemento pai), ser um elemento de ligação. Já um recurso remoto participa de uma ligação em razão de ser endereçado por uma URI (Universal Resource Identifier). Um recurso local é especificado "por valor" e um recurso remoto "por referência" (W3C, 2001). Uma tecnologia usada para estabelecer links entre dados representados em XML é XLink (XML Linkink Language) (W3C, 2001), que define dois tipos principais de links: os simples e os estendidos (SILVA, 2010). Um link simples associa exatamente dois recursos, um local e um remoto. Essa associação cria um arco de ligação entre eles, cuja origem é o recurso local e o destino, o remoto. Os arcos são representados por elementos que indicam os recursos participantes da ligação. Por outro lado, os links estendidos permitem associar um número arbitrário de recursos participantes na ligação. Um link estendido consiste basicamente de um elemento XBRL que contém outros elementos, nos quais atributos especificados por XLink são declarados, conferindo a estes sub-elementos determinadas funcionalidades. XLink provê quatro tipos de sub-elementos: (i) locator, usado para referenciar recursos remotos por meio de uma URI; (ii) resource, usado para encapsular informações no elemento de link estendido; (iii) arc, usado para estabelecer relações direcionais entre pares de elementos locators e/ou resources; e (iv) title, que provê informações descritivas a respeito do link, que devem ser entendidas por pessoas (SILVA, 2010). A utilização em conjunto de tecnologias para definir a estrutura e relacionamentos entre instâncias XBRL forma uma rede de documentos XBRL. A Figura 6 ilustra como pode ocorrer uma rede de documentos XBRL usando as tecnologias XML Schema e XLink. Uma instância pode apontar para um esquema (XML Schema) (SPERBERG-MCQUEEN ; THOMPSON, 2000), que por sua vez pode apontar para outro(s) esquema(s). Esses conjuntos de esquemas podem referenciar linkbases. Além disso, linkbases podem referenciar outros linkbases, enquanto que a instância, os esquemas e linkbases podem possuir links internos. Assim, um encadeamento de documentos é formado, sendo necessária a navegação por eles para se encontrar informação adicional. Portanto, percebe-se que é possível navegar de uma instância XBRL para esquemas ou para linkbases, ou entre esquemas, ou entre linkbases XBRL. Deste modo, links internos e externos aos documentos XBRL podem ser criados. Essa estrutura permite a definição de relacionamentos entre os elementos XBRL, servindo de informação complementar àquelas presentes nas instâncias XBRL (SILVA ; TEIXEIRA, 2002; SILVA ; TEIXEIRA, 2003; SILVA ; SULAIMAN, 2003; SILVA, 2003). 31 Figura 6 - Taxonomia XBRL Fonte: Silva (2010). 2.4 LMDQL: LINK MULTIDIMENSIONAL QUERY LANGUAGE A LMDQL (SILVA; TIMES, 2009; SILVA, 2010; SILVA et al., 2012) é uma linguagem derivada da MDX (Multidimension Expression) (SPOFFORD, 2001; MICROSOFT, 2008), de padrão aberto e gratuito, que executa consultas OLAP sobre documentos XML interligados por links. A LMDQL possui operadores para o domínio financeiro (i.e. HAnalysis, VAnalysis, Cross, NNearestValues, NNearestValuesPercentual), os quais permitem (a) a aquisição de informação em linkbases, característica das taxonomias XBRL, a partir de integração da XLPath (SILVA; TIMES, 2009; SILVA et al., 2010) com LMDQL; (b) a realização de consultas analíticas em um conjunto de documentos XML; (c) a realização de consultas com base no valor ou na estrutura do documento XML; (d) a criação de operadores com base em outros operadores criados em tempo de execução; e (e) a realização de análises horizontal, vertical, de separatrizes e com base na proximidade dos valores dos dados (SILVA, 2010). Por estender a MDX fica implícito que a extensão de operadores é nativa. A seguir serão apresentadas duas subseções descrevendo a arquitetura e a sintaxe de consulta da LMDQL, as quais foram extraídas de Silva (2010) para melhor contextualizar a extensão da LMDQL na proposta desta dissertação. 2.4.1 Arquitetura LMDQL Conforme ilustrado na Figura 7, a arquitetura LMDQL está dividida em três camadas que desempenham as seguintes funções: interface com o usuário, processamento das consultas 32 LMDQL e aquisição de dados. A camada Interface transfere a requisição de consulta do usuário para a camada intermediária (Processor). Esta camada é responsável pelo processamento da consulta, comunicando-se com a camada inferior (Data), a qual fornece os dados requisitados. A primeira camada da arquitetura, Interface, contempla a interface gráfica com o usuário. Na segunda camada, encontra-se o mecanismo de processamento analíticomultidimensional. A terceira camada refere-se ao armazenamento dos dados, o qual é composto pelo (a) banco de dados de documentos de instância XBRL, Data Cube; (b) o repositório de metadados, i.e. Metadata Repository, no qual estão os schemas e os linkbases; (c) e o componente Operators Library, onde são armazenados os operadores criados pelo usuário. O Data Cube, o Metadata Repository e o Operators Library podem estar armazenados em um mesmo sistema gerenciador de banco de dados (SGBD). Figura 7 - Arquitetura do Processador da Linguagem LMDQL Fonte: Silva (2010). 2.4.2 Consulta LMDQL Conforme descrito em Silva e Times (2009), Silva (2010) e Silva et al. (2012), a sintaxe da LMDQL fornece um conjunto de recursos que possibilita ao usuário, realizar consultas sobre dados multidimensionais no contexto de documentos XML. As consultas LMDQL são representadas pelo conjunto de elementos ilustrados no Quadro 1. Uma consulta LMDQL retorna um subconjunto de dados do cubo sobre o qual a consulta é aplicada, 33 denominado cubo de resultado. Para especificação de uma consulta, são necessárias as seguintes informações: número de eixos ou conjuntos de hierarquias, os membros de cada dimensão que serão incluídos em cada eixo da consulta, o nome do cubo que define o contexto da consulta, os membros de um eixo sobre o qual os dados são extraídos. Para a realização de consultas em documentos com estruturas diferentes, a LMDQL especifica a cláusula opcional $VARIABLE. A declaração variable_specification define os possíveis caminhos que serão utilizados para recuperação dos membros na estrutura hierárquica dos documentos XML. A cláusula SELECT define um cubo de resultado que conterá os dados multidimensionais obtidos na consulta. Por possuir uma sintaxe semelhante à de MDX, as demais cláusulas da expressão da consulta permanecem inalteradas. A definição de expressões LMDQL, possibilita consultas a dados multidimensionais, permitindo a coleta de informações sobre repositório multidimensional (SILVA, 2010; SILVA et al., 2012). Quadro 1 - Estrutura de uma consulta LMDQL 2.5 MODELOS DE DADOS XBRL Alguns modelos de dados para XBRL foram investigados na literatura, os quais são diretrizes para a construção de um repositório de dados financeiros, baseados na tecnologia XBRL. A seguir, serão discutidos o DPM, o XBRL Abstract Model e o XBRL Infoset, os quais são modelos de dados em uso no mercado e na academia para representação de relatórios financeiros XBRL. 2.5.1 DPM: Data Point Model O Data Point Model (DPM) é um modelo para representação de dados financeiros, baseado na tecnologia XBRL, focada no mercado financeiro europeu (IFRS, 2012). São diretrizes - publicadas na Internet (MORILLA, 2014) - para representação estruturada dos dados financeiros, identificando os conceitos de negócio e suas relações, bem como as regras de validação. Este modelo contém todas as especificações técnicas necessárias para o desenvolvimento de uma solução de relatórios de TI. O DPM é destinado principalmente para 34 uso na transmissão de dados entre as autoridades competentes e à European Banking Authority (EBA) (EUROPEAN BANKING AUTHORITY, 2014). Um ponto de dados do DPM é identificado por cinco elementos: Primary item, especifica o tipo de dados a ser relatado, i.e. um número, uma data, um texto, um valor monetário. Dimension, trata-se de uma característica ou atributos que identificam as informações financeiras descritas em um ponto de dados, e.g. categoria principal, a moeda dos instrumentos, o setor da contraparte, residência da contraparte, a localização da atividade. Member, cada dimension deve ter dois ou mais members, os quais são um dos valores que as dimensions são atribuídas, e.g. dinheiro, empréstimos e ações são membros da dimensão "categoria principal" - cada membro deve ter uma definição exata, então dois conceitos que compartilham algumas características, mas não são exatamente os mesmos, deve ser identificado por dois membros diferentes (e.g. carteira de negociação contabilidade e carteira de negociação prudencial). Domain, especificado para evitar redundâncias quando um membro é utilizado por mais de uma dimensão, e.g. o domain "área geográfica" é utilizado para incluir todos os membros de acordo com os países e regiões, independentemente se esses membros estão alocados em outras dimensões, as quais podem ser: localização da atividade, residência do emitente, residência da contraparte. Hierarchies, as quais fornecem informações adicionais sobre a relação entre os membros incluídos em um domínio, indicando a relação entre eles (MORILLA, 2014). 2.5.2 XBRL Abstract Model É um modelo que define a representação semântica da especificação XBRL 2.1. Divulgado na Internet, esse modelo é mantido pelo consórcio internacional XBRL (XBRL INTERNATIONAL INC, 2012) - o qual propõe diretrizes para representação, em bancos de dados (relacional ou não), da semântica e das taxonomias XBRL. O XBRL Abstract Model é apresentado através de data points, i.e. um fato financeiro é representada por um conjunto de informações semânticas de negócio, característica intrínseca da especificação Table Linkbases 1.0 (XBRL INTERNATIONAL INC, 2011a), a qual fornece mecanismos para a representação de relacionamentos mais complexos entre os conceitos contábeis baseada na especificação XBRL Formula e XBRL Dimension. Um exemplo da vantagem do Table Linkbase sobre os linkbases padrões da especificação XBRL 2.1 (i.e. presentation, calculation, definition, label e reference) é a representação de 35 hierarquias entre os conceitos do esquema XBRL, no linkbase presentation é previsto apenas um simples arranjo de fatos, com a Table Linkbase pode-se definir a apresentação de dados multidimensionais contidos em um conjunto de taxonomias interligadas. O modelo XBRL Abstract é baseado na especificação XBRL 2.1, comportando oito módulos XBRL: (i) Módulo de Instâncias XBRL, refere-se ao armazenamento de elementos da sintaxe XBRL que representa os itens dos relatórios financeiros; (ii) Módulo Inline XBRL (iXBRL) (XBRL INTERNATIONAL INC, 2011d), representa os elementos que definem a renderização HMTL dos relatórios financeiros; (ii) Módulo Discoverable Taxonomy Set (DTS) XBRL (ARDENNE, 2006), refere-se ao conjunto de dados referente às taxonomias interligadas que um relatório XBRL pertence; (iv) Módulo Dimensions (XBRL INTERNATIONAL INC., 2006), representa as informações dimensionais de uma instância XBRL; (v) Módulo Table Linkbases, refere-se aos dados que representam a semântica do conceito financeiro; (vi) Módulo de Tipos XBRL/XML, faz referência aos tipos de dados possíveis em XML, assim como os definidos na especificação XBRL 2.1, para definir os valores e outras características dos dados; (vii) Módulo Formula XBRL (INTERNATIONAL INC, 2011b), que armazena os dados que expressam fórmulas XBRL (i.e. conjuntos de declaração, conjuntos de variáveis, e filtros); e (viii) Módulo Versioning (XBRL INTERNATIONAL INC, 2011c), refere-se à sintaxe e semântica dos controles de versão dos relatórios e taxonomias. 2.5.3 XBRL Infoset O XBRL Infoset é uma descrição formal, não normativa, do conteúdo de um conjunto de taxonomias interligadas que um relatório XBRL pertence, i.e. Discoverable Taxonomy Set (DTS) (ARDENNE, 2006). Não se tratando de uma especificação XBRL, o XBRL Infoset não faz qualquer referência à sintaxe utilizada para a representação dos DTS, e não há qualquer definição de como representar regras de validação ou relacionamentos (XBRL INTERNATIONAL INC., 2009a). 2.6. CONSIDERAÇÕES FINAIS As tecnologias, as diretrizes e os conceitos descritos neste capítulo são base para a construção da solução proposta nesta dissertação, a qual promove a investigação de dados 36 financeiros por meio de recursos computacionais, constituindo-se um intermédio entre a contabilidade forense não computadorizada e os relatórios financeiros digitais, os quais são representados por linguagens de marcação (e.g. XBRL), ou em bases de dados relacionais. O conjunto de tecnologias descrito neste capítulo viabiliza o projeto e a implementação da solução proposta nesta dissertação: a XBRL representa os documentos financeiros digitais, a LMDQL executa consultas de processamento analítico em documentos XBRL nativos ou em dados relacionais e em linkbases XML; os operadores que permitem cálculos probabilísticos possibilita a análise forense em dados digitais, os quais neste trabalho chamou-se de Operadores Forenses, e os modelos de dados XBRL são diretrizes para a escolha de um banco de dados relacional apropriado para o armazenamentos de dados XBRL. A seguir são discutidos a metodologia apresentada para busca de trabalhos correlatos, alguns trabalhos identificados sobre sistemas para detecção de fraudes financeiras e, por fim, bancos de dados relacionais baseados na tecnologias XBRL. 37 3 TRABALHOS CORRELATOS Neste capítulo se discute a metodologia utilizada para uma revisão da literatura, com a finalidade de encontrar trabalhos que tenham abordagens correlatas à proposta desta dissertação. Em seguida, uma investigação é feita sobre os trabalhos encontrados, os quais foram divididos em duas seções: uma para a discussão dos sistemas de análises forense financeiras, e outra para os trabalhos que abordam bancos dados baseados na tecnologia XBRL. Conclui-se o capítulo com considerações finais que apontam as vantagens e lacunas dos trabalhos encontrados, no que se referem aos objetivos deste trabalho, descritos na Seção 1.4. 3.1 METODOLOGIA UTILIZADA PARA A REVISÃO DA LITERATURA Uma revisão da literatura foi conduzida no intuito de encontrar e analisar trabalhos relevantes e correlatos a esta dissertação. A metodologia aplicada como estratégia de busca por esses trabalhos iniciou-se a partir da formação de termos (strings) para submetê-los à execução em motores de busca na web. As fontes de pesquisa utilizadas foram as seguintes: (a) Google (GOOGLE INC., 2014), (b) Google Scholar (SCHOLAR GOOGLE, 2011), (c) IEEE (IEEE XPLORE® DIGITAL LIBRARY, 2014), (d) Duckduckgo (DUCKDUCKGO, 2014), (e) ACM Digital Library (ACM INC., 2014), (f) Springer (SPRINGER, 2014), (g) Science Direct (ELSEVIER, 2014) e (h) IADIS (IADIS DIGITAL LIBRARY, 2014). As strings de busca foram elaboradas nos idiomas português e inglês e são ilustradas nos Quadros 2 e 3, respectivamente. Quadro 2 - Exemplo de strings de buscas, no idioma português ("Sistema" ou "Software") e ("Detecção de Fraude" ou "Contabilidade Forense" ou "Auditoria Contábil") e ("XBRL" ou "relatórios financeiros" ou "dados financeiros digitais" ou "financeiro") e ("OLAP" ou "Processamento analítico" ou "Processamento online") ("banco de dados" ou "repositório" ou "SGBD") e ("XBRL" ou "contábil" ou "financeiro") e ("relacional") 38 Quadro 3 - Exemplos de strings de buscas, no idioma inglês ("detection fraud" or "forensic accounting" or "accounting audit") and ("System" or "Software") and ("XBRL" or "financial report" or "Business report" or "digital financial data" or "financial") and ("OLAP" or "Analytical Processing" or "Online Processing") ("XBRL" or "Extensible Business Reporting Language" or "accounting" or "financial") and ("relational") and ("database" or "repository" or "DBMS") A quantidade dos resultados retornados a partir dessas strings de buscas nas fontes de pesquisas são apresentados na Tabela 2. Os motores de busca convencionais, i.e. não focados em trabalhos científicos, tal qual Google e Duckduckgo, trouxeram um total de 2942 resultados, dos quais a maioria não foi compatível com o almejado, i.e. trabalhos acadêmicos e do mercado relacionado com o objetivo desta dissertação, i.e. foram encontrados trabalhos, os quais não foram avaliados, do tipo: ementas de cursos de graduação e pós-graduação (nas áreas de contabilidade, administração, direito), divulgação de palestras e consultorias, ferramentas proprietárias para manipulação XBRL, sites e blogs não oficiais abordando a XBRL, contabilidade forense, auditoria contábil, ou detecção de fraudes. As fontes de pesquisas especializadas em buscas por trabalhos científicos, i.e. Google Scholar, ACM Digital Library, IEEEXplore Digital Library, Springer, Science Direct e IADIS, trouxeram respectivamente (somando-se a quantidade de resultados nos dois idiomas) um total de 26, 8, 36, 14, 28, 3 trabalhos. Tabela 2 - Quantidade de trabalhos retornados das buscas nas fontes de pesquisas IEEEXplore Google DuckDuckG ACM Digital Google Digital Scholar o Science IADIS Digital Direct Library Springer Library Library Strings 260 18 21 0 0 0 0 0 2551 8 20 8 36 14 28 3 (Português) Strings (inglês) Os critérios de inclusão dos trabalhos que abordam a detecção de fraudes basearam-se em: (a) tipo de trabalho (i.e. científico), (b) tipo de aplicação proposta para detecção de fraude (i.e. com uso de recursos computacionais), (c) sua aplicação ao domínio financeiro; (d) 39 relevância do local de publicação do trabalho. A partir disso, quinze trabalhos foram selecionados para investigação de suas técnicas, os quais serão discutidos a seguir. 3.2 SISTEMAS DE ANÁLISES FORENSE FINANCEIRAS Durtschi et al. (2004) discute a identificação de fraudes em dados contábeis por meio da Lei de Benford. Nesse trabalho é feita uma revisão bibliográfica da utilização dessa lei no domínio financeiro, desde os anos 70. No estudo de caso, é apresentada uma análise forense sobre dados contábeis, de um centro médico, por meio do software proprietário DATAS (Digital Analysis Tests and Statistics) (NIGRINI, 2009). Nessa ferramenta os dados financeiros são inseridos pelo usuário numa planílha eletrônica do Excel, os quais são computados por meio de macros Excel (MICROSOFT, 2014). Em Durtschi et al. (2001), assim como em Kovach (2011) e Nigrini (2014), os quais propõem a detecção de fraude baseada, respectivamente, na teoria matemática de evidências de Dempster-Shafer (SHAFER, 2002) e na Lei dos Primeiros Dígitos - são implementados em macros da ferramenta Microsoft Excel. Desta forma, ocorre a obrigatoriedade de um processo de ETL dos dados financeiros para as tabelas da planilha, ou a inserção manual dos dados, não contemplando os formatos nativos adotados por organizações reguladores e governos para representação de relatórios financeiros (conforme discutido na Seção 1.2). Outras duas desvantagens investigadas no uso de macros da planilha eletrônica Excel, foram: (i) McCullough & Wilsonb (2005) e Goldwater (2007) discutem a existência de limitações na execução de análises estatísticas mais complexas, gerando resultados errados, principalmente nos modelos estatísticos que fazem uso de regressão e análise de variância; e (ii) o código fonte é fechado e com licença paga. Kirkosa et al. (2007) discutem algumas técnicas de mineração de dados (Data Mining) para detecção de fraudes em relatórios financeiros. Data Mining é um processo analítico projetado para explorar grandes quantidades de dados (comumente relacionados a negócios, mercado ou pesquisas científicas) com a finalidade de descobrir fatos ocultos, tendências ou padrões, para posterior criação de subconjuntos de dados baseados nesses padrões descobertos (KIRKOSA ET al., 2007). Três técnicas foram escolhidas para detecção de fraudes financeiras: (i) Decision Tree, baseado na estrutura de dados em árvore, na qual cada nó representa um teste com relação a um atributo e cada ramo representa um resultado do teste (Rudin, 2012), (ii) Neural Networks, algoritmo com dezenas de unidades de processamento interligados, as quais simulam comportamento típico de neurônios (SEUNG, 2005) e (iii) 40 Bayesian Belief Networks, algoritmo baseado na teorema estatístico de Bayes (PEARL, 2011). Para aplicação dos métodos, três softwares foram utilizados: Sipina Research (RAKOTOMALALA, 2014), para aplicação da Decision Tree; BN Power Predictor (CHENG, 2001), para aplicação do Bayesian Networks; e Nuclass 7 (IPNN LAB, 2009), para aplicação da Neural Networks. Com relação aos requisitos discutidos no objetivo (Seção 1.3 do Capítulo 1), a desvantagem averiguada foi o uso de vários softwares que, apesar de ser livre de licenças pagas, possuem código fechado. Choi et al. (2009) propõem uma sistematização nos processo de detecção fraudes para o Serviço Supervisor Financeiro da Coréia. Conforme ilustrada na Figura 8, uma metodologia de investigação forense financeira computadorizada é proposta, na qual deve haver: (i) detecção de recursos vulneráveis no que tange a aquisição dos dados a serem analisados (i.e. Informações de conexão do banco de dados e Redes), (ii) extração de dados de negócios e financeiros, com uso de ERP (Enterprise Resource Planning) ou AMS (Accounting Management Software), tendo como prioridade a segurança de acesso a rede e aos dados, (iii) apreensão de documentos fraudulentos e (iv) detecção da fraude financeira. Nessa modelagem é sugerido o uso de qualquer ferramenta computacional que proponha uma análise no registro de todas as transações financeiras de uma companhia, devido a quantidade de dados manipulados e a necessidade de maior eficiência. Figura 8 - Metodologias de investigação para detectar evidências de fraudes financeiras Fonte: Adaptado de Choi et al. (2009). O sistema proposto nesta dissertação contempla as fases da metodologia proposta por Choi et al. (2009), i.e. ocorre a conexão com a base de dados via sistema, é executada a 41 extração dos dados financeiros e de negócios (em documentos XBRL ou dados relacionais), a identificação dos relatórios que apresentam suspeitas de fraudes, e sua exibição (em tela) para investigação, por parte de um analista financeiro. Seo et al. (2009) discutiram sobre a importância de uma ferramenta para extrair e analisar dados contábeis com a finalidade de detectar fraude financeira. São apresentados alguns sistemas, os quais são utilizados para perícia contábil em nível mundial, assim como as desvantagens encontradas para fazer auditoria na Coréia do Sul. Uma ferramenta - chamada Financial Data Extract & Analyzer - composta por quatro módulos (entrada, extração, análise e resultado) é proposta, a qual foi projetada para se adequar ao ambiente de investigação forense financeira do governo da Coréia do Sul. Conforme ilustrado na Figura 9, o Módulo de Entrada (input) tem a função de selecionar um alvo para extrair informação, o Módulo de Extração captura dados dos repositórios contidos nas ERP ou AMS (Accounting Management Software), o Módulo de Análise tem como função básica a triagem, adição, agrupamento e pesquisa, sobre os dados das transações financeiras ou relatórios, além de funções específicas para análise vertical, análise horizontal e análise de correlação. Por fim, o Módulo de Saída pode apresentar resultado extraído ou resultado analisado em uma tela, ou pode exportar para planilha (CSV) ou formato de texto (TXT). Não há nesse trabalho qualquer detalhe de implementação (arquitetura, linguagem de implementação ou banco de dados). A ferramenta Financial Data Extract & Analyzer eliminou a dependência de outras soluções, tal como a ACL (Audit Command Language) (ACL SERVICE LTD, 2014) e IDEA (Interactive Data Extraction and Analysis) (CASEWARE ANALYTICS, 2014), ambos com código fechado e licença paga. Figura 9 - Módulos da Financial Data Extract & Analyzer Fonte: Adaptado de Seo et al. (2009). 42 Algumas desvantagens foram observadas, o módulo de extração ocorre por meio de dados contidos em repositórios de ERP ou AMS, i.e. não há um repositório baseado em especificações com padrões financeiros internacionais (e.g. XBRL 2.1), tampouco desenvolvido em dois paradigmas (i.e. relacionais e XML). No módulo de análise ocorre a aplicação de Data Mining, e nas funções específicas não é citada a implementação de cálculos probabilísticos, os quais são comumente utilizados na contabilidade forense e, portanto, relevantes nesse contexto de análises de fraudes financeiras, assim como não é citada a possibilidade de extensão da ferramenta à outros modelos de detecção de fraude. A solução proposta nesta dissertação é baseada em uma solução open source que contempla os módulos propostos na FEA, i.e. possui um módulo de entrada, na qual o analista financeiro insere uma consulta OLAP (estendida da LMDQL); o módulo de extração, pelo qual o sistema extrai dados financeiros de documentos XBRL nativo ou dados relacionais; o módulo de análise, através do processamento analítico em tempo real; e o módulo de resultados, no qual se apresenta os resultados do processamento analítico ao analista financeiro. Flores et al. (2012) discutem um modelo de combate à lavagem de dinheiro através da combinação de práticas forenses digitais, juntamente com ferramentas de banco de dados e metodologias de análise de dados, com a finalidade de alinhá-los com as políticas de KnowYour-Costumer (KYC) (PWC, 2013). Um modelo é proposto, considerando os estágios definidos por Grobler et al. (2010) para a elaboração de um sistema de combate a fraudes financeiras, i.e. antes, durante e depois do incidente. Conforme ilustrado na Figura 10, três etapas são apresentadas no modelo de Flores et al. (2013): (i) para compreensão do caso, observa-se transações anteriores do cliente e as políticas KYC; (ii) para análise e avaliação, ocorre a aquisição dos dados extraídos das transações dos clientes (utiliza-se nesse processo Stored Procedures e Triggers), e através de processo de ETL (Extract, Transform e Load) os dados são armazenados em uma tabela desnormalizada, a qual registra os logs com informações das transações, e para examinação das evidências de fraudes, são aplicadas as boas práticas de manipulação de provas propostas pela ACPO (ASSOCIATION OF CHIEF POLICE OFFICERS, 2011); e (iii) para notificação do caso de fraude, informa-se um alerta por meio da tela de interação com o usuário. 43 Figura 10 - Modelo proposto para combate a lavagem de dinheiro Fonte: Adaptado de Flores et al. (2012). Para a etapa de execução da análise dos dados e de notificação do caso, foram utilizados os softwares proprietários FTK (ACCESSDATA GROUP INC, 2014) e SAP Crystal Dashboard Designer (SAP, 2014), respectivamente, o que não corrobora com um dos objetivos desta dissertação que é a utilização de uma solução open source e gratuita. Ainda, os dados financeiros analisados são obrigatoriamente relacionais, devido a utilização de Stored Procedures e Triggers de um SGBD relacional, não permitindo a análise de dados financeiros em outros formatos (e.g. XBRL), sem a intervenção de um processo de ETL. Winter et al. (2012) discutem o modelo Digit Distribution ou Digital Distribution, uma análise forense financeira baseada nos seguintes modelos de análise dos dados: Lei de Benford, Distribuição Log-Uniform (USPENSKY, 1937), Distribuição Log-Normal (KALECKI, 1945) e Distribuição Log-Pearson Type IV (HEINRICH, 2004). Nesses modelos, o valor do desvio médio padrão é calculado baseado nas distribuições da ocorrência dos dígitos (de 1 a 9), o qual fornece uma margem de tolerância à distribuição proposta pela Lei de Benford. Conforme ilustrado na Figura 11, os modelos são aplicados, obtendo-se distribuições distintas na análise de ocorrência dos dígitos. O modelo Digital Distribution propõe o cálculo médio entre as distribuições, e a aplicação do desvio médio no modelo da Lei de Benford. O modelo Digital Distribution reduziu a taxa de alarme falso sobre os dados do censo dos EUA e permitiu identificar irregularidades específicas em dados fiscais noruegueses. Esses resultados não poderiam ser obtidos por meio da aplicação única do modelo da Lei de Benford. 44 Figura 11 - Aplicação dos modelos para análise forense financeira Os cálculos probabilísticos Teste Z e Qui-Quadrado, discutidos nas seções 2.2.3 e 2.2.4, respectivamente, também fornecem uma margem de tolerância à distribuição proposta pela Lei de Benford, tendo aplicação semelhante aos modelos Distribuição Log-Uniform, Log-Normal e Log-Pearson Type IV. Nesse trabalho, Winter et al. (2012) discutiram uma abordagem teórica, sem apresentação de qualquer implementação de um sistema computacional ou de linguagens de consultas, tampouco foi considerando qualquer formato de dados financeiros na análise dos dados. Khan et al (2012) propõem um modelo para detecção de fraude em transações de cartões de créditos baseadas no modelo estatístico Hidden Markov Model (HMM), além de sugerir o uso de técnicas de Data Mining para o agrupamentos dos dados. Esse modelo é baseado no histórico de transações do cliente, no qual se compara os valores de uma nova transação com o valor do desvio padrão de transações anteriores, os quais não devem ser valores muito distantes, e caso haja a um valor muito acima do desvio padrão, deve-se alertar a transação como suspeita. Não foram encontrados no trabalho detalhes de implementação do sistema proposto (arquitetura, linguagem de programação ou banco de dados). Os dados no experimento foram manipulados manualmente, segundo informa o autor. Não ocorre relato da extensibilidade do modelo a outros modelos probabilísticos. Não é informado o tipo de dados financeiros utilizado na análise. Também não é visto no trabalho uma linguagem para consultas de relatórios financeiros específicos, ou qualquer interação com o usuário. Chai et al. (2006) discutem que a detecção automática de anomalias financeiras (i.e. dados fraudulentos) pode ser realizada considerando o comportamento fraudulento de outras 45 empresas. Nesse trabalho é abordado um sistema baseado no algoritmo Fuzzy, o qual analisa previamente as transações fraudulentas de várias empresas, estabelecendo um padrão, com o qual as novas transações em execução são comparadas, e caso haja semelhança gera-se o alerta de fraude. Nesse trabalho, não foi identificado a existência de uma linguagem de consulta para processamento analítico, não foi proposta uma ferramenta que seja extensível a outros cálculos probabilísticos ou modelos de detecção de fraudes. Sherly & Nedunchezhian (2010) propõem um modelo e um sistema de detecção de fraudes financeiras baseados em duas técnicas de Data Mining: Algoritmo K-means (DING; HE, 2004; TAN et al., 2006), para agrupamento de dados financeiros, e algoritmo BOAT (GEHRKE et al., 1999) um algoritmo de classificação de dados baseado em árvore de decisão. O modelo proposto considera a análise de uma amostra de transações e as agrupam em transações genuínas ou falsas. O cálculo baseado no algoritmo BOAT é efetuado para determinar um score da nova transação, o qual se for maior que o limite definido pelo score do histórico de transações daquele cliente, classifica-se como uma transação genuína, caso contrário é declarada a suspeita de fraude, um alerta é enviado ao analista e os dados dessa transação serão agrupados no grupo de transações falsas. Nesse trabalho não há uma linguagem de consulta com a qual o analista forense possa fazer análises em relatórios financeiros específicos. O formato dos dados financeiro não é especificado, e não há evidências de que seja um sistema extensível a novos modelos de detecção de fraude. Zhang et al. (2009) discutem um método de detecção de fraudes financeiras baseado em redes neurais, i.e. Iteration Learning Self-Generating Neural Network (ISGNN) (LI et al., 2005), para detecção de fraude em declaração de impostos. O processo desse algoritmo inclui duas fases: (i) a geração da SGNT (Self-Generating Neural Tree), uma árvore neural de auto aprendizado (WEN et al., 1992), e (ii) sua otimização. O ISGNN sugere um auto aprendizado de um sistema de informação, por meio da interação com alguma amostra de dados financeiros colhidos previamente. Empregado como um algoritmo classificador, rotula os dados analisados em genuínos ou fraudulentos. Nesse trabalho não foi detectado uma linguagem de consulta, com a qual o analista possa especificar qual dado ou relatório financeiro almeja analisar. O formato dos dados também não é especificado. Também não foi evidenciada uma possibilidade de extensão para outros modelos forenses. Panigrahi (2011) discute a detecção de fraude financeira baseada em um processamento computadorizado. Um framework, denominado Knowledge-driven Internal Fraud Detection (KDIFD), aborda a junção do conhecimento tácito, experiência, pressentimento e intuição de auditores forenses, com técnicas de Data Mining e análises de 46 dados. Como ilustrado na Figura 12, a proposta inicia-se com a (i) etapa Estabelecendo o Contexto, a qual consiste na compreensão e análise dos analistas financeiros para determinação dos riscos existentes; (ii) a etapa Fornecimento de Arquivos e Bancos de Dados é responsável pela busca de arquivos que possam auxiliar na detecção de fraudes, assim como bancos de dados com dados do cliente e das transações financeiras efetuadas, dados não eletrônicos também devem ser considerados nessa etapa, contudo devem ser transferidos para formatos digitais; (iii) na etapa Preparação dos Dados, os dados devem ser preparados para análise e processamento, baseado nas conformidades legais, privacidade e questões de segurança; (iv) na etapa Transformação e Limpeza dos Dados, os dados de qualquer formato devem ser limpos antes de qualquer transformação para o posterior processamento; (v) na Seleção de Técnicas, avalia-se as técnicas de detecção de fraudes mais adequadas (e.g. Lei de Benford); (vi) Mineração e Análise de Dados Forenses é uma etapa complementar ao repositório baseado nas experiências de análise de investigação, é importante considerar que uma gama de técnicas analíticas tem evoluído na área de análise de dados e mineração; (vii) em Confirmação baseada em experiência, os auditores devem conhecer a aplicabilidade das análises e interpretabilidade dos resultados obtidos, para confirmar as suspeitas descobertas. Figura 12 - Modelo do Framework KDIFD Fonte: Adaptado de Panigrahi (2011). Esse framework provê um processo sistemático para os analistas financeiros no descobrimento de fraudes financeiras. Há evidência de extensibilidade para diversos cálculos probabilísticos ou modelos de detecção de fraudes (através da etapa Seleção de Técnicas). Não há evidências de uma linguagem de consulta OLAP, com a qual o analista possa 47 especificar o relatório ou a transação financeira a ser analisada, nem de uma base de dados relacional baseada em padrões financeiros internacionais. 3.3 BANCOS DE DADOS XBRL Uma pesquisa na literatura acadêmica e no mercado foi conduzida, com a finalidade de averiguar propostas de bancos de dados relacionais baseados na especificação XBRL 2.1. A seguir, serão discutidos os trabalhos encontrados. O IPHIX LLC (2014) propõe um banco de dados relacional baseado na taxonomia XBRL GL (Global Ledger), a qual permite a representação dos dados representados em um plano de contas, lançamentos contábeis ou transações históricas, financeiras e não financeiras de uma empresa (XBRL INTERNATIONAL INC., 2007). Esse banco de dados é proprietário, sob a licença da IPHIX LLC, seu modelo de dados não está disponível no site da empresa, nem tampouco o seu script, não se adequando aos requisitos open source e free software, especificados no objetivo desta dissertação. A Reporting Standard (2014) propõe um esquema de dados relacional para armazenar informações XBRL contidos em relatórios e taxonomias XBRL. Duas etapas são propostas nesse esquema: (i) uma cópia exata dos arquivos transmitidos (i.e. documento XBRL nativo) é armazenada em uma tabela relacional com o tipo de dados XML, permitindo que ferramentas possam acessar os arquivos como se fossem armazenados em um sistema de arquivos de um disco rígido, ou em um SGBD nativo XML, e (ii) o conteúdo de cada arquivo é armazenado em tabelas do modelo de banco de dados relacional. É possível utilizar a linguagem SQL para acesso ao documento de instância e informações de sua(s) taxonomia(s). Esse esquema é baseado na descrição XBRL Infoset (descrito na Seção 2.5.3), o qual permite o acesso a qualquer informação da semântica fornecida em XBRL. É possível armazenar informações de múltiplas taxonomias ou várias versões de uma mesma taxonomia, ao mesmo tempo, juntamente com seus relatórios. Esse banco de dados é proprietário, sob a licença da Reporting Standard, seu modelo de dados não é disponível gratuitamente, nem tampouco o seu script. Também não foi encontrado evidências de tabelas multidimensionais, característica importante para processamento analítico forense, o qual se trata do uso de linguagens OLAP para detecçao de fraude em dados digitais. O XBRL-US Public database (ARELLE, 2014b) é um banco de dados relacional especificado sobre as definições dos demonstrativos contábeis da U.S SEC, e foi desenvolvido para contemplar o aspecto sintático XBRL (i.e. os elementos XML contido na 48 especificação XBRL 2.1). Este banco de dados é baseado na taxonomia XBRL da U.S-SEC, utilizada no mercado financeiro norte americano, os linkbases representados nesse banco de dados são os padrões da especificação XBRL 2.1: presentation, calculation, definition, label e reference. Possui tabelas normalizadas, o que facilita a recuperação de dados e reconstrução de relatórios financeiros no formato XBRL nativo. Esse banco possui código disponível e está sob a licença da Arelle. Tabelas dimensionais e de fato não são contemplados nesse projeto, características importantes para compor o sistema OLAP proposto nesta dissertação. DPM Database (ARELLE, 2014c), é um banco de dados, open source e está sob a licença da Arelle, baseado na semântica XBRL e no Data Point Model (descrito na Seção 2.5.1). Sua arquitetura é baseada na Table Linkbase XBRL 1.0 (especificação descrita na Seção 2.5.2). O DPM database evoluiu a partir de projetos do EBA (European Banking Authority), órgão regulamentador e supervisor do setor bancário da Europa (EBA, 2014), e planejado para um conjunto de ferramentas da EIOPA (European Insurance and Occupational Pensions Authority), órgão supervisor que faz parte do Sistema Europeu de Supervisão Financeira (EIOPA, 2014). Possui atributos que não são contemplados pelos relatórios financeiros atuais da U.S. SEC. Assim sendo, implica em um banco de dados adequado aos relatórios XBRL trafegados no sistema financeiro europeu (ARELLE, 2014b). Este banco de dados não contempla a análise forense em documentos XBRL baseado em qualquer taxonomia ou DTS. Jones (2004) apresenta um data warehouse contábil baseado no framework XBRL GL (Global Ledger), o qual permite a representação dos dados de um plano de contas, lançamentos contábeis ou transações financeiras. Três tipos de data marts compõe o data warehouse proposto: Balance Sheet Data Mart, Profit and Loss Data Mart e Item Data Mart. Os dois primeiros permitem análises relacionadas aos planos de contas, armazenando dados de lançamento contábil diário no demonstrativo financeiro, Balanço Patrimonial e em contas de receitas e despesas. O terceiro data mart refere-se aos detalhes das transações comerciais formatadas com base na taxonomia XBRL GL. É verificado que esse data warehouse é baseado nas regras de negócio de uma empresa específica, o que o torna inapropriado para a solução proposta nesta dissertação, pois seria necessário uma modelagem de tabelas e atributos para as regra de negócio de cada empresa. Fischer (2013) propõe um banco de dados baseado no XBRL Abstract Model (descrito na Seção 2.5.2). Um database baseado em um modelo de dados mantido pelo consórcio internacional XBRL, com código fonte (i.e. script do banco de dados relacional) disponível e gratuito, sob a licença da Arelle (ARELLE, 2014a), a qual é baseada na licença da Apache 49 2.0, exigindo a inclusão do aviso da autoria do produto e termos de responsabilidade (THE APACHE SOFTWARE FOUNDATION, 2014). Trata-se de um repositório que comporta oito módulos, dos quais o módulo Table Linkbase registra os relacionamentos (i.e. a semântica) entre os elementos (FISCHER, 2013), comumente expressos nos linkbases XBRL. 3.4 CONSIDERAÇÕES FINAIS Em nenhum dos trabalhos investigados sobre sistemas de análise forense financeira, descritos na Seção 3.2, foi verificada a análise forense sobre os dados dos relacionamentos existentes entre os conceitos contábeis, característica comum na representação de relatórios financeiros. Nos relatórios XBRL, esses relacionamentos são representados nos linkbases XBRL, e a solução proposta nesta dissertação considera a análise de dados dos linkbases na análise forense. Na Tabela 3 é apresentada uma comparação entre os trabalhos analisados na Seção 3.2 deste capítulo, i.e. Sistemas de Análises Forenses Financeiras, no que se refere a alguns dos requisitos descritos no objetivo desta dissertação (Seção 1.2), i.e. se é uma solução open source e/ou livre de licença paga, se a ferramenta promove análise de documentos financeiros para detecção de fraude, se analisa dados XBRL, se possui linguagem para o analista financeiro fazer a análise forense, se executa a análise forense considerando a semântica dos dados financeiras (e.g. Linkbase), se foi implementado um sistema computacional, se é possível a análise com aplicação de cálculos probabilísticos, assim como a possibilidade de aplicação conjunta de cálculos probabilísticos, e se a ferramenta é extensível à novos modelos de detecção de fraudes. É importante ressaltar que os trabalhos Choi et al. (2009), Winter et al. (2012), Khan et al. (2012), Chai et al. (2006), Zhang et al. (2009) e Panigrahi (2011) propuseram um modelo para detecção de fraude sugerindo o uso de recursos computacionais, contudo não implementaram um sistema computacional, nesses casos o quesito "open source e livre de licença paga" não se aplica (como informado na Tabela 3). 50 Tabela 3 - Comparativo entre os Sistemas de Análise Forense investigados Open Source e livre de Não se Não Não se Não se aplica aplica aplica Informa aplica aplica Winter et (2004) (2014) (2011) al. (2007) (2009) (2009) (2012) al. (2012) Sim Sim Dados XBRL Não Não Não Linguagem de Consulta Não Não Não Não se Nedunchezhian (2010) Zhang et al. (2009) Panigrahi (2011) Não Não Sim Sim Sim Sim Sim Sim Sim Sim Sim Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Não Parcial- Parcial- Parcial- mente mente mente Sim Não Sim Sim Não Não Não Sim Não Não (macros) (macros) (macros) Sim Sim Sim Não Não Não Não Sim Não Não Não Não Sim Não Não Sim Não Não Não Não Sim Não Não Não Não Sim computacional cálculos probabilísticos Não se Flores et al. Sim Aplicação conjunta de Não se Seo et al. Sim Cálculos probabilísticos (2006) Choi et al. Detecção de fraude Implementa um Sistema (2012) Kirkosa et Não (Linkbase) al. Kovach Não Semântica dos dados al. Nigrini Não licença paga Chai et Durtschi et al. Não Sherly & Khan et aplica 51 Extensível à novos modelos Tempo Real Durtschi et al. Nigrini Kovach Kirkosa et Choi et al. Seo et al. Flores et al. Winter et (2004) (2014) (2011) al. (2007) (2009) (2009) (2012) al. (2012) Khan et Chai et al. al. (2012) (2006) Sherly & Nedunchezhian (2010) Zhang et al. (2009) Panigrahi (2011) Sim Sim Sim Não Não Sim Não Sim Não Não Não Não Sim Não Não Sim Não Não Não Não Não Não Não Não Não Não Quanto aos repositórios XBRL investigados, observou-se que há poucos disponíveis no mercado e na academia. A maioria não se adequou aos objetivos especificados nesta dissertação, devido as seguintes lacunas: código não disponível e proprietário, modelagens baseadas em modelos e diretrizes que se aplicam em um mercado financeiro específico e implementações baseadas na semântica de taxonomias XBRL específicas. A Tabela 4 exibe uma comparação entre os trabalhos analisados na Seção 3.3 deste capítulo, i.e. Bancos de Dados XBRL, no que se refere a alguns requisitos relativos ao sistema OLAP proposto, i.e. se é um repositório open source, livre de licença paga, relacional, multidimensional e baseado na semântica e sintaxe da especificação XBRL 2.1. Definiu-se o XBRL Abstract Model Database (FISCHER, 2013) (Anexo A) como um banco de dados adequado à solução proposta, considerando ser um repositório relacional e multidimensional, open source e software livre, baseado na especificação XBRL 2.1, seguindo um modelo de dados mantido pelo XBRL Internacional Consortium (2014), i.e. XBRL Abstract Model (descrito na Seção 2.5.2). 52 Tabela 4 - Comparativo entre os bancos de dados XBRL investigados IPHIX (2014) Reporting Standard (2014) Arelle (2014b) Arelle (2014c) Jones (2004) Fischer (2013) Open Source Não Não Sim Sim Sim Sim Software Livre Não Não Sim Sim Sim Sim Relacional Sim Sim Sim Sim Sim Sim Multidimensional Sim Sim Não Sim Sim Sim Adequada a qualquer taxonomia XML Sim Sim Não Não Não Sim Baseado na Especificação XBRL 2.1 Sim Sim Sim Sim Sim Sim No capítulo seguinte serão apresentados os requisitos, a linguagem e o sistema LMDQL Forense, além de um modelo de processo para extensão dessa solução para novos modelos de detecção de fraudes. 53 4 LMDQL FORENSE: LINGUAGEM E SISTEMA Para criação de um ambiente computacional para a realização da contabilidade forense sobre documentos financeiros XML, baseada nos modelos probabilísticos da Lei dos Primeiros Dígitos, Teste Z, Teste χ2 e Regra Empírica (descritas na Seção 2.2), novos operadores foram incorporados à LMDQL (i.e. FirstDigit, ZTest, ChiSquaredTest e EmpiricalRule), os quais são chamados de Operadores Forenses. A extensão proposta para os operadores da linguagem LMDQL, preserva suas características originais, i.e. consultas baseadas em links além da possibilidade de utilização de bancos de dados relacionais ou baseados em arquivos XML nativos, conforme propõe a arquitetura do processador LMDQL (discutida na Seção 2.4). 4.1 REQUISITOS DA LINGUAGEM LMDQL FORENSE A especificação da linguagem LMDQL Forense atendeu a um objetivo geral: uma linguagem para detecção de fraudes financeiras, baseado em métodos tradicionais na contabilidade forense. Para que esse escopo seja alcançado, alguns objetivos específicos são almejados: • Deixar a critério do analista forense a definição do documento financeiro (ou conjunto de documentos), dos elementos, da empresa e do período de tempo, que se almeja na consulta analítica; • Análise forense considerando a semântica dos elementos definidos nos esquemas XBRL, expressos em documentos de linkbases, os quais armazenam dados que representam um relacionamento, e.g. a definição labels (como "Accounts Payable, Current" e "Contas Atuais a Pagar") para representar o elemento "usgaap:AccountsPayableCurrent"; • Aplicação de cálculos estatístico-probabilísticos para detecção de fraudes: Lei de Benford, Regra Empírica, Teste Z e Teste Qui-Quadrado, sobre os dados financeiros; • Ser possível, na consulta, a escolha de uma técnica de detecção de fraudes financeira, dentro do conjunto de técnicas; • Ser possível a escolha de mais de uma técnica, para a aplicação conjunta em uma consulta ao conjunto de dados; • Ter característica extensível para implementação e incorporação de outras técnicas estatístico-probabilísticas usadas na contabilidade forense; 54 4.2 A LINGUAGEM LMDQL FORENSE A gramática dos operadores da LMDQL Forense (descritas no Anexo A) é representada na linguagem EBNF (WIRTH, 1996), a qual é uma notação usada para expressar gramáticas livres de contexto, i.e. uma expressão formal para descrever linguagens de programação e outras linguagens formais. Essa gramática é uma extensão da gramática da LMDQL, a qual estende a MDX, incorporando as definições dos novos operadores. Antes de listar os operadores forenses, é importante destacar algumas definições que são utilizadas nas especificações dos parâmetros dos operadores da linguagem LMDQL (Tabela 5). Considera-se como (a) <Member> um elemento contido na especificação XBRL 2.1, o qual pode ser a representação de um conceito contábil, um rótulo (label), um documento financeiro, uma empresa, uma data específica; as demais definições, i.e. <MemberSet>, <DimensionName>, <LevelName>, <MemberName>, <NumericExpression>, <IntegerExpression> e <NumericSet> encontram-se explicadas na Tabela 5. Tabela 5 - Definições usadas para especificar a sintaxe LMDQL <Member> <MemberSet> <DimensionName> <LevelName> <MemberName> <NumericExpression> <IntegerExpression> <NumericSet> Um membro de um cubo Conjunto de membros de um cubo Nome de uma dimensão (e.g. [Localizacao]). Nome de um nível (e.g. [Localizacao].[Estado]). Nome de um membro (e.g. [Localizacao].[Estado].[Bahia]). Um valor numérico qualquer. Um valor inteiro qualquer. Um conjunto de valores numéricos quaisquer. Pode ser, por exemplo, um conjunto de índices de rentabilidade do patrimônio liquido. Fonte: Silva (2010). A seguir são discutidos detalhes do processamento de cada operador forense e apresentada a sintaxe proposta para efetuar consultas, as quais são baseadas na sintaxe LMDQL (descrita na seção 2.4.5): 1) Sintaxe: EmpiricalRule(Member, MemberSet, MemberSet, MemberSet). O operador forense EmpiricalRule aplica o cálculo probabilístico baseado na Regra Empírica (discutido na Seção 2.2.1). Para execução dessa consulta são fornecidos quatro parâmetros (conforme apresentado na Figura 13): (i) um membro referente à entidade emissora do relatório financeiro que será avaliado (e.g. [Entity].[Microsoft]); podendo-se utilizar a palavra-chave "all", a qual faz referência a todas as entidades armazenadas no repositório de dados (e.g. [Entity].all); (ii) um membro referente ao período de tempo desejado na consulta, 55 obedecendo à sequência de ano, mês e dia (e.g. [Time].[2013].[12].[31]), podendo-se variar o tempo da análise utilizando a palavra chave "children", em qualquer nível, i.e. [Time].[2013].[10].children, para consultas em todos os dias do mês 10 do ano de 2013; [Time].[2013].children, para consultas em todos os dias, de todos os meses, do ano de 2013; e [Time].children, para consulta em todos os dias, de todos os meses, de todos os anos contidos no repositório; (iii) um membro referente ao documento que será avaliado (e.g. [Document].[10-Q]) ou a palavra chave “children” (i.e. [Document].children), que determina a avaliação de todos os documentos do membro de referência; (iv) um membro referente ao elemento que será avaliado (e.g. [Element].[msft:GainLossOnInvestments]) ou a palavra chave “children” (i.e. [Element].children), que considera todos os elementos do membro de referência na análise do operador. Figura 13 - Consulta com o operador EmpiricalRule O resultado do operador EmpiricalRule é a classificação da posição sigma (σ) para cada elemento, ou label, cuja classificação é baseada no cálculo da Distribuição Normal (descrito na seção 2.2.1). A Distribuição Normal é calculada baseada no valor monetário daquele elemento, ou label, em outros relatórios na base de dados. Desta forma, o resultado deste operador apresenta cada elemento como: -out (o valor do elemento analisado está fora da Distribuição Normal, negativamente), -3rd sigma (o valor do elemento está a uma distância de até 3 sigmas, negativamente, a partir da média padrão), -2nd sigma (menos 2 sigmas), -1st sigma (menos 1 sigma), +1st sigma (o valor do elemento analisado está a uma distância de mais 1 sigma, a partir da média padrão), +2nd sigma (mais dois sigmas), +3rd sigma (mais três sigmas) ou +out (o valor do elemento analisado está fora da Distribuição Normal, positivamente). As posições sigmas são ilustradas na Figura 3. Caso não haja dados armazenados suficientes para a execução da Regra Empírica para um determinado elemento (i.e. não há registro de um elemento ou label em mais de um relatório financeiro na base de 56 dados), o operador retorna uma mensagem informando "There are not enough stored data". Ilustrações de resultados de consultas com esse operador, e com os demais operadores forenses descritos a seguir, são encontradas no Capítulo 5, no qual é discutido um Estudo de Caso. 2) Sintaxe: FirstDigit (Member, MemberSet, MemberSet, String). Este operador aplica o cálculo probabilístico baseado na Lei dos Primeiros Dígitos (discutida na Seção 2.2.2). Conforme a consulta ilustrada na Figura 14, neste operador faz-se necessário o envio de quatro parâmetros: o primeiro, segundo e terceiro parâmetros seguem a semântica definida para o operador EmpiricalRule; o quarto parâmetro permite a especificação do tipo de retorno da consulta, podendo ser (i) null, retornando a informação de conformidade (ou não conformidade) do relatório sob análise com a Lei dos Primeiros Dígitos, a porcentagem esperada para cada dígito, e a porcentagem encontrada nos registros financeiros, a quantidade de dígitos analisados e o tempo de execução da consulta; e (ii) serialized, retorna as porcentagens encontradas para cada dígito, em sequencia, separada por ponto-e-vírgula, no qual o primeiro dado refere-se ao dígito 1 (um), o segundo ao dígito 2 (dois) e assim sucessivamente até o dígito 9 (nove). Este último tipo de retorno é útil para a interação com outros operadores forenses, conforme será discutido na apresentação dos operadores ZTest e ChiSquaredTest. Figura 14 - Consulta com o operador FirstDigit com a instrução null 3) Sintaxe: ZTest (NumericSet, NumericSet, IntegerExpression, NumericExpression). Este operador realiza o cálculo probabilístico Teste Z, para medir o grau de significância entre dois conjuntos de dados, i.e. as probabilidades esperada (Pe) e a observada (Po) (conforme descrito na Seção 2.2.3). Para realização de uma consulta com este operador, faz-se necessário o envio de quatro parâmetros: (i) conjunto de números referente à Pe para aquele conjunto de dados em análise, (ii) o conjunto de Po referente aos dados dos relatórios analisados, (iii) quantidade de dados da amostra analisada, a qual é considerada no cálculo probabilístico Teste Z (i.e. é um cálculo estatístico paramétrico), e (iv) o z-crítico aceito no cálculo, o qual vai determinar a tolerância na análise efetuada. A Figura 15 ilustra 57 uma consulta na qual no primeiro parâmetro a Pe informada são as probabilidades aceitas para cada um dos nove dígitos, em sequência (baseada na Lei dos Primeiros Dígitos). No segundo parâmetro é informada a Po, no exemplo apresentado é obtida através do uso do operador FirstDigit. Desta forma, é possível realizar uma consulta do operador ZTest em conjunto com o operador FirstDigit. No terceiro parâmetro informa-se a quantidade de dígitos analisados (i.e. 1708), que pode ser obtido com o uso do operador FirstDigit instrução null. No quarto parâmetro a tolerância aceita no cálculo (z-crítico), que é igual a 2.57. O resultado deste operador informa o z-crítico calculado para cada dado pertencente ao conjunto da Po, e também uma mensagem informando a correlação, ou não, entre os dados da Pe e Po. Figura 15 - Consulta com o operador ZTest em conjunto com FirstDigit 4) Sintaxe: ChiSquaredTest (NumericSet, NumericSet, NumericExpression). Este operador é baseado no cálculo probabilístico Teste χ2 (discutido na Seção 2.2.4). O processamento analítico dos dados, com este operador, é feito com a especificação de três parâmetros: o primeiro e segundo seguem a semântica definida para o operador ZTest, o terceiro representa o χ2-crítico aceito no cálculo. Para a obtenção dos dados referentes à Po (no segundo parâmetro), também é possível a utilização conjunta dos operadores ChiSquaredTest e FirstDigit. Um exemplo dessa consulta pode ser vista na Figura 16, a qual informa um χ2crítico igual a 15.507 (o qual é definido pelo usuário). O resultado deste operador informa o χ2-crítico calculado para cada dado pertencente ao conjunto da Po, e também uma mensagem informando a correlação, ou não, entre os conjuntos analisados (i.e. Pe e Po). 58 Figura 16 - Consulta com o operador ChiSquaredTest em conjunto com FirstDigit 4.3 O SISTEMA LMDQL FORENSE A utilização de funções externas é possível na MDX (SPOFFORD, 2001, p. 163). Neste trabalho, considerando que a LMDQL estende a MDX, o uso de funções externas permitiu a incorporação dos quatro operadores Forenses (i.e. FirstDigit, EmpiricalRule, ZTest, ChiSquaredTest) na biblioteca de operadores LMDQL. Assim como na LMDQL, os operadores forenses foram implementados no servidor OLAP mondrian (SILVA, 2010). Com isso, além dos operadores OLAP tradicionais especificados no mondrian por meio da MDX, os operadores LMDQL Forense foram incorporados com sintaxe semelhante. A execução da consulta LMDQL Forense no servidor mondrian segue um processo, ilustrado na Figura 17, que é iniciado por meio da tela de interação com o usuário, na qual tanto a consulta como o tipo de banco de dados almejado (Relacional ou XML) são definidos pelo usuário. Em seguida, é executado um processo de validação (parser LMDQL) que é composto por duas etapas: (i) verificação da existência do operador especificado na consulta, na biblioteca de operadores da LMDQL e (ii) análise da sintaxe da consulta LMDQL Forense, observando-se a ocorrência de erros sintáticos, e.g. erros relacionados ao nome do operador escolhido e tipo de dados enviados em seus parâmetros (i.e. Member, MemberSet, DimensionName, LevelName, MemberName, NumericExpression, IntegerExpression ou NumericSet), e em caso de erro em qualquer uma dessas duas etapas, uma mensagem de erro é apresentada ao usuário, e o processamento é interrompido. Caso não ocorra erro na sintaxe, ocorre a seleção dos operadores na biblioteca LMDQL. Em seguida é feita a aquisição dos dados, caso o usuário tenha escolhido um banco de dados XML, é feita uma conversão das consultas SQL (geradas pelo servidor OLAP relacional) para expressões XQuery, i.e. um conversor de expressões SQL para XQuery foi especificado e implementado na arquitetura LMDQL (SILVA ; TIMES, 2009; SILVA, 2010; SILVA et al., 2012). Em seguida os dados 59 são processados e submetidos ao cálculo probabilístico definido na consulta. Por fim, o resultado dessa análise é apresentado ao usuário, por meio de um dashboard ou painel de apresentação. Figura 17 - Processo de execução da consulta LMDQL Forense Funções externas, especificadas na MDX, podem ser codificadas em qualquer linguagem de programação (SPOFFORD, 2001). Em virtude da implementação da LMDQL ter sido feita no servidor mondrian, e deste ser codificado na linguagem de programação Java, optou-se pela implementação dos operadores forenses nessa linguagem. Entretanto, este é um critério flexível, podendo ser implementado com outras linguagens de programação. 60 4.4 EXTENSÃO DO SISTEMA LMDQL FORENSE Como diretriz de extensão do sistema LMDQL Forense a outros modelos de detecção de fraude, são sugeridas nove etapas para a sua extensão é apresentadas na Figura 18, a qual foi utilizada para implementação dos operadores EmpiricalRule(), ZTest() e ChiSquaredTest(). Essas etapas são discutidas a seguir. Figura 18 - Processo para Extensão do sistema LMDQL Forense Algumas destas etapas (i.e. de 1 a 3) se referem a estudos, pesquisas e especificações. Etapa 1: é necessário uma pesquisa na literatura, das técnicas de detecção de fraude aplicadas na contabilidade forense ou auditoria contábil; Etapa 2: define-se o nome do novo operador LMDQL e os parâmetros necessários para processamento dos dados. Nesta etapa, deve-se observar as definições usadas para especificar a sintaxe LMDQL, as quais são ilustradas na Tabela 5; Etapa 3: são especificadas as dimensões que serão representadas nos parâmetros do operador forense (e.g. documento, elemento, entidade, período), para obtenção dos dados nas tabelas dimensionais, que são usadas para executar as consultas OLAP; Dando continuidade ao processo, as próximas etapas lidam com a implementação do sistema LMDQL Forense. Etapa 4: implementa-se o novo operador através das funcionalidades disponíveis no servidor OLAP utilizado, como o sistema LMDQL Forense (nesta dissertação) foi implementado sobre o servidor mondrian (seguindo a proposta da LMDQL). Assim sendo, 61 nesta etapa utilizou-se as funções definidas pelo usuário (UDF- uma interface nativa do mondrian para criação de funções externas); Etapa 5: ocorre a aquisição dos relatórios financeiros, no sistema LMDQL Forense. Nesta dissertação foram considerados documentos XBRL, por se tratar de um padrão internacional com adoção em diversos países (conforme descrito na Seção 1.1 do Capítulo 1), entretanto a solução apresentada pode ser adaptada para outros modelos de dados financeiros representados em um ambiente baseado em documentos XML ou dados relacionais; Etapa 6: é realizado o carregamento dos dados financeiros nos SGBD relacional e XML, pois a LMDQL possibilita consultas OLAP sobre ambos os formatos, portanto, fica a critério do usuário escolher sobre qual tipo de banco de dados o processamento analítico será executado; Etapa 7: deve-se modelar e implementar uma base de dados financeira que represente os fatos e a semântica dos conceitos financeiros; contudo é uma etapa optativa para dados representados em XBRL, considerando o uso do XBRL Abstract Model Database (descrito na Seção 3.3), um banco de dados open source e sem licença paga, podendo-se utilizá-lo sem restrições; Etapa 8: implementação de um processo de ETL para o SGBD relacional. Os dados contidos nos documentos são extraídos, transformados e carregados em um repositório relacional financeiro; Etapa 9: implementa-se uma tela de interação com o usuário, para inserção da consulta LMDQL Forense (input), obtenção do resultado e sua exibição no painel de apresentação (output). Neste trabalho, o JPivot (TONBELLER AG.,2003), incorporado ao servidor mondrian, foi utilizado como tela de interação com o usuário. 4.5 CONSIDERAÇÕES FINAIS A especificação dos requisitos da linguagem LMDQL Forense preenche três lacunas encontradas nos trabalhos correlatos: (i) a inexistência de uma linguagem de consulta; (ii) o usuário não define o paradigma do modelo de dados (Relacional ou XML) na consulta; e (iii) a análise forense não considera a semântica dos dados financeiros (descritos nas taxonomias XBRL em linkbases). Com a linguagem LMDQL Forense é possível a análise forense de dados financeiros em níveis de detalhes especificados pelo usuário, i.e. na consulta, especifica-se o documento que se almeja analisar, seus elementos, a data ou período e o modelo de análise forense a ser 62 aplicado (i.e. Lei de Benford, Regra Empírica, Teste Z ou Teste Qui-Quadrado), assim como o tipo de banco de dados que almeja na consulta. O sistema LMDQL Forense, open source e livre de licença paga (XBRL FRAMEWORK, 2014), automatiza o processo de análise forense em documentos financeiros que trafegam pela Internet, através da aplicação dos operadores contidos na biblioteca LMDQL, a qual é extensível a novos modelos de detecção de fraude financeira, conforme descrito na seção 4.4. As contribuições do sistema LMDQL Forense sobre a arquitetura LMDQL estão localizadas na camada Data (conforme descrito na Seção 2.4.1), na qual se observa (i) uma nova biblioteca de operadores OLAP baseada em quatro técnicas estatísticoprobabilísticas (i.e. Lei de Benford, Regra Empírica, Teste Z e Teste Qui-Quadrado) para análise forense em dados XML e relacional, somando-se aos operadores pré-existentes da LMDQL (i.e. HAnalysis, VAnalysis, Cross, NNearestValues, NNearestValuesPercentual); e (ii) a adoção do XBRL Abstract Model Database para representar os documentos financeiros XBRL. O sistema LMDQL Forense propõe uma análise baseada no processamento analítico on-line (OLAP), i.e. soma-se aos demais trabalhos correlatos (Seção 3.2 do Capítulo 3), pois não foi encontrado trabalho com essa abordagem para a análise forense (conforme apresentado na Tabela 3). A extensão proposta do sistema LMDQL Forense, descrito na Figura 18, serve como base para elaboração de sistemas OLAP para análise forense financeira (baseado em ambientes de dados relacional e XML), assim como para a extensão do sistema LMDQL Forense à novos modelos de detecção de fraudes (não necessariamente baseada em técnicas estatístico-probabilísticas). Quanto ao repositório utilizado no sistema LMDQL Forense, i.e. O XBRL Abstract Model Database (Descrito na etapa 7 da Seção 4.4), não é de uso obrigatório. A utilização de qualquer outro repositório é possível, cujos dados estejam representados em XML ou pelo modelo de dados relacional; desta forma, é possível também a extensão do sistema proposto à outros ambientes (não financeiros) cujos modelos probabilísticos, especificados e incorporados à LMDQL, possam ser aplicados. No próximo capítulo é apresentado um estudo de caso, no qual ocorre a aplicação do sistema LMDQL Forense sobre documentos XML nativos e dados relacionais. 63 5 EXEMPLO DE APLICAÇÃO DA LMDQL FORENSE EM RELATÓRIOS FINANCEIROS DA U.S. SEC Com o objetivo de validar a LMDQL Forense no domínio de detecção de fraudes em relatórios financeiros, consultas LMDQL Forenses foram feitas sobre documentos XBRL divulgados no site da U.S. SEC. Neste capítulo serão demonstrados os uso das consultas OLAP baseadas nos operadores FirstDigit(), EmpiricalRule(), ZTest() e ChiSquaredTest(), e seus respectivos resultados, sobre documentos financeiros XBRL trafegados pela internet. Neste exemplo de aplicação, as consultas LMDQL Forense foram feitas em dois formatos de dados, isto permitiu identificar a expressividade da linguagem e a possibilidade de sua utilização em contextos distintos. Esses formatos são: (a) XML, o qual mantém a estrutura sintática e semântica nativa dos documentos XBRL, e (b) relacional, a partir de documentos XBRL nativos os dados são manipulados por meio de um processo de ETL que os insere em um banco de dados relacional. Neste exemplo de aplicação é também realizada uma avaliação preliminar de desempenho do processamento das consultas LMDQL Forense nessas duas bases de dados, para dar subsídios aos analistas de sistemas financeiros a respeito do desempenho do sistema LMDQL Forense. Para realização do exemplo de aplicação do sistema LMDQL Forense, foram carregados em ambas as bases de dados, relatórios financeiros emitidos pelo Bobs, Microsoft e Facebook dos anos de 2011, 2012 e 2013 à U.S SEC. 5.1 BANCO DE DADOS XML Para efetuar a análise forense nos documentos XBRL mantendo sua estrutura sintática, os arquivos XBRL (instâncias e taxonomias) foram carregados em um SGBD XML nativo. Para tal, o SGBD escolhido foi o Exist (EXIST SOLUTIONS, 2014), o qual é open source e livre de licença paga. As Figuras 19 e 20 apresentam, respectivamente, os resultados da execução do operador forense FirstDigit utilizando os valores serialized e null no quarto parâmetro, o qual foi aplicado sobre o relatório financeiro 10-Q, no mês de dezembro do ano de 2013, da empresa Facebook. Os resultados dessas consultas não apresentaram conformidade com a Lei dos Primeiros Dígitos, conforme pode ser visto com o uso do parâmetro null (Figura 20), que informa as porcentagens esperadas e as encontradas para cada dígito. O tempo utilizado nesta consulta foi de 11,3 segundos e foram considerados 853 dígitos na análise. 64 Figura 19 - Consulta forense FirstDigit, instrução serialized Figura 20 - Consulta forense FirstDigit, instrução null Este resultado obtido pelo operador FirstDigit não expressa uma forte evidência de fraude do relatório. Conforme aplicado na contabilometria de alguns trabalhos sobre contabilidade forense (DURTSCHI et al., 2004; FRANCISCHETTI, 2007; LAGIOIA et al., 2011; COSTA et al., 2013; WINTER et al., 2012), a Lei dos Primeiros Dígitos requer a aplicação conjunta com outro cálculo probabilístico, com a finalidade de obter uma margem de tolerância para os valores percentuais encontrados nos demonstrativos contábeis analisados. Essa proposta de aplicação conjunta de mais de um cálculo probabilístico, em um mesmo conjunto de dados financeiros, é permitida pela LMDQL Forense. Conforme ilustrado na Figura 21, apresenta-se o uso em conjunto dos operadores ZTest e FirstDigit com instrução 65 serialized. Esta consulta assegura a conformidade dos relatórios sob análise com a Lei dos Primeiros Dígitos, nos quais se aplicou uma margem de tolerância às porcentagens encontradas. Mesmo o relatório apresentando não conformidade com a Lei dos Primeiros Dígitos, de acordo com o resultado da consulta realizada apenas com o operador FirstDigit, após a aplicação conjunta de dois operadores forense, como é proposto pela contabilometria, a conformidade foi evidenciada. Nas consultas com uso do ZTest(), verificam-se (i) no primeiro parâmetro, a probabilidade esperada - neste exemplo são os percentuais definidos pela Lei dos Primeiros Dígitos para os dígitos de 1 a 9 (em sequência) (descritos na Tabela 1); (ii) no segundo parâmetro, os valores do percentual observado para cada dígito, calculado sob o relatório financeiro em análise, seguindo a mesma sequência do primeiro parâmetro - neste exemplo, é fornecido o resultado serializado do operador FirstDigit (conforme ilustrado na Figura 19); (iii) no terceiro parâmetro, é informada a quantidade total de dígitos que foram analisados no relatório em análise (i.e. 853) - esse dado deve ser informado pelo usuário e pode ser encontrado no retorno null do operador FirstDigit (ilustração da Figura 20); (iv) no último parâmetro, o analista deve informar a margem de tolerância aos percentuais observados neste exemplo, foi informado o valor crítico (i.e. z-crítico) igual a 2.57, o qual representa uma margem de 1% dos valores apresentarem fraudes (CHARLES STURT UNIVERSITY, 2010), i.e. com esse z-crítico há a probabilidade de aceitação de 99% dos dados financeiros analisados. Essa margem de tolerância é equivalente à margem do terceiro sigma (i.e. 99,7) definido pela Regra Empírica (ilustrada na Figura 3). O valor de z-crítico não pode ser excedido, positivamente ou negativamente, i.e. os valores devem ficar no intervalo de -2.57 e + 2.57, classificando-se como hipótese nula (H0), i.e. válida ou livre de fraudes. O resultado dessa consulta identificou que a análise da H0 é válida e os valores avaliados têm conformidade com os valores esperados, havendo parecer favorável à veracidade dos dados. O tempo de execução utilizado por este operador forense, nessa consulta, foi 12,9 segundos. 66 Figura 21 - Aplicação dos operadores ZTest e FirstDigit em conjunto Ainda em concordância com a contabilometria, a qual define a aplicação conjunta de cálculos probabilísticos, na ilustração da Figura 22 é apresentado o uso em conjunto dos operadores ChiSquaredTest e FirstDigit. Nessa consulta os dois primeiros parâmetros seguem a mesma especificação do operador ZTest. No último parâmetro, é dado o χ2-crítico igual a 15.507, o que determina uma tolerância de 5% de possibilidade de ocorrência de fraude aos percentuais encontrados (DURTSCHI et al., 2004; FRANCISCHETTI, 2007; CHARLES STURT UNIVERSITY, 2010; LAGIOIA et al., 2011; COSTA et al., 2013). Essa margem é equivalente à margem do segundo sigma (i.e. 95,4), definido na Regra Empírica (ilustrada na Figura 3). O resultado da consulta informa um novo parecer favorável ao relatório em análise, uma vez que nenhum dígito ultrapassou o valor crítico fornecido 15.507. O tempo na execução dessa consulta foi 7,9 segundos. 67 Figura 22 - Aplicação dos operadores ChiSquaredTest e FirstDigit em conjunto A aplicação do operador EmpiricalRule sobre o demonstrativo financeiro do Facebook é ilustrada na Figura 23, na qual é possível verificar oito elementos da taxonomia XBRL do Facebook, com seus respectivos valores monetários, dos quais o primeiro não tem históricos de dados armazenados suficientes para execução desta análise (i.e. o Sigma position é igual a "There are not enough stored data"), e os demais apresentam suas classificações da posição sigma (i.e. +2nd sigma, -1st sigma, +3rd sigma, -1st sigma, -1st sigma, -1st sigma, +1st sigma, respectivamente). Nessa consulta optou-se pela análise de todos os elementos (i.e. [Element].children),de todos os dias do mês de dezembro, do ano 2013. O documento solicitado na busca foi o 10-Q. Somente é possível a visualização de parte do resultado na Figura 23, pois corresponde a 145 elementos analisados. O tempo de execução desta consulta foi 4 minutos 24 segundos. 68 Figura 23 - Aplicação do operador EmpiricalRule à todos os elementos do documento XBRL No intuito de validar a análise forense através de dados que representam a semântica (contidos nos linkbases XBRL) dos elementos definidos no esquema XBRL, apresenta-se uma consulta considerando o label - um nome legível que corresponde ao nome de um elemento, único em toda a taxonomia (U.S. SECURITIES AND EXCHANGE COMMISSION, 2010) - para representar o elemento us-gaap:AccountsPayableCurrent. As Figuras 24 e 25 ilustram a mesma consulta de duas formas distintas. A primeira, define o elemento us-gaap:AccountsPayableCurrent contido no XBRL Schema (documento XML que especifica todos os elementos de uma taxonomia XBRL, conforme discutido na Seção 2.3) e a segunda por meio de um label (i.e. Accounts Payable, Current) contido no linkbase label. 69 Figura 24 - Consulta forense pelo elemento "us-gaap:AccountsPayableCurrent" Figura 25 - Consulta forense pelo linkbase label "Accounts Payable, Current" 5.2 BANCO DE DADOS RELACIONAL Para realizar a carga no XBRL Abstract Model Database (Anexo B) foi feito um processo de extração dos dados nos documentos XBRL, ilustrado na Figura 26. Os documentos XBRL foram carregados no Arelle (ARELLE, 2014a), uma ferramenta para manipulação de documentos XBRL e cuja plataforma é de código aberto e gratuito. Os dados de interesse (i.e. elementos, período, descrição do documento e valores) foram exportados para uma planilha Excel e extraídos para o banco de dados por meio de um código java. Ao final desse processamento, foram armazenados 5664 registros financeiros no repositório relacional, sendo 2320 registros pertencentes ao Facebook. O XBRL Abstract Model 70 Database foi construído no SGDB MySql (Oracle Corporation, 2014), cujo critério de escolha baseou-se na sua licença gratuita e código aberto. Figura 26 - Processamento ETL utilizado neste trabalho As Figuras 27 e 28 apresentam, respectivamente, os resultados obtidos com as utilização do XBRL Abstract Model Database, para ambas as instruções do operador FirstDigit: serialized e null. A diferença entre esta consulta em banco de dados XML e relacional é com relação ao tempo de execução da consulta que foi de 828 milésimos de segundo, com os mesmos 853 dígitos na análise. Figura 27 - Uso do operador FirstDigit, com a instrução serialized, na base relacional Figura 28 - Uso do operador FirstDigit, com a instrução null, na base relacional 71 Seguindo o mesmo princípio da contabilometria que sugere o uso de um conjunto de modelos probabilísticos (conforme descrito na Seção 5.1 deste capítulo), nas Figuras 29 e 30 é apresentado, respectivamente, o uso do operador ZTest com FirstDigit, e ChiSquaredTest com FirstDigit. O tempo de execução observado na primeira consulta é de 842 milésimos e na segunda, 776 milésimos. Figura 29 - Aplicação do ZTest em conjunto com o FirstDigit Figura 30 - Aplicação do ChiSquaredTest em conjunto com o FirstDigit Como o objetivo de avaliar o tempo de execução na base de dados relacional, aplicouse o operador EmpiricalRule sobre os dados relacionais manteve a mesma análise observada sobre a base XML, entretanto o tempo de execução foi 2,4 segundos. A Figura 31 ilustra parte do resultado obtido. 72 Figura 31 - Aplicação do operador forense EmpiricalRule especificando todos os elementos Avaliando as consultas por um elemento específico (us- gaap:AccountsPayableCurrent) e por seu label, i.e. "Accounts Payable, Current", observou-se o mesmo resultado com menor tempo de execução, ilustrados nas Figuras 32 e 33. Figura 32 - Operador EmpiricalRule gaap:AccountsPayableCurrent" sobre o elemento "us- 73 Figura 33 - Consulta forense pelo linkbase label "Accounts Payable, Current" 5.3 AVALIAÇÃO DE DESEMPENHO DO TEMPO DE EXECUÇÃO DAS CONSULTAS Uma análise do desempenho da LMDQL Forense também foi investigada, para verificar sobre qual banco de dados as consultas tem melhor atuação. O desempenho é um atributo importante quando se trata de sistemas OLAP. O computador utilizado para os testes apresentados a seguir, possui processador Intel(R) Core (TM) i5-3317U CPU @ 1.70GHz com memória RAM de 8Gb, e o sistema operacional utilizado é de 64bits. Os tempos de execução (em milissegundos) das consultas forenses são apresentados na Tabela 6, assim como a diferença percentual dos resultados obtidos. Uma consulta LMDQL Forense com o operador EmpiricalRule considerando todos os elementos do documento financeiro, em uma base relacional foi executada em 2.499 milissegundo, e na base XML (documento XBRL nativo) foi em 4 minutos 24 segundos (ou 236.999 milésimos de segundo), apresentando uma diferença percentual de 9.383% no tempo de execução. Ao especificar um elemento, em uma consulta com o operador EmpiricalRule, o tempo para sua execução foi 48 milésimos de segundo, na base relacional, e 499 milésimos de segundo, na base XML, apresentando uma diferença percentual de 936,6%. Comportamento semelhante ocorreu quando se utiliza este mesmo operador (EmpiricalRule) e especifica-se na consulta um dado contido nos linkbases (i.e. um label), desta forma, sua execução foi de 75 milissegundos, na base relacional, e 1.051 milésimos de segundo, na base XML. Com relação às consultas com o operador FirstDigit, o tempo de execução para seu processamento foi 828 milissegundos (base relacional), enquanto na base XML foi de 11.369, tendo uma diferença percentual de 1273,1%. O operador ZTest teve sua execução em 824 e 12.980 milissegundos, nas base relacional e XML 74 respectivamente, com uma diferença percentual de 1.475,2%. Por fim, o operador ChiSquaredTest executou a consulta em 776 e 7.942 milésimos de segundo, nas bases relacional e XML respectivamente, apresentando uma diferença percentual de 923,5%. Tabela 6 - Tempo de execução da LMDQL Forense nas bases relacional e XML e Diferença Percentual dos resultados BD BD Diferença Operadores Forenses Relacional* XML* Percentual 2.499 236.999 9383,8% 48 499 939,6% EmpiricalRule (um label) 75 1.051 1301,3% FirstDigit 828 11.369 1273,1% ZTest 824 12.980 1475,2% ChiSquaredTest 776 7.942 923,5% EmpiricalRule (todos os elementos) EmpiricalRule (Um elemento específico do esquema XBRL) * Milésimos de segundos A seguir é apresentado um gráfico (Figura 34), baseados nos dados da Tabela 6, comparando o desempenho (em milissegundos) de cada operador forense nos repositórios relacional e XML. O eixo do tempo, no gráfico, está em escala logarítmica de base 10, para melhor representação dos resultados. 75 Figura 34 milissegundos) - Tempo de desempenho dos operadores forenses (em 76 5.4 CONSIDERAÇÕES FINAIS Nos trabalhos cuja detecção de fraudes não é computadorizada, verifica-se a utilização conjunta de mais de um cálculo probabilístico, e.g. Lei dos Primeiros Dígitos com Teste Z ou Teste χ2. Esse comportamento foi contemplado nas consultas realizadas pelos operadores da LMDQL Forense, um dos requisitos para a definição da linguagem. Uma característica comum em taxonomias XBRL é a utilização de linkbases para descrever a semântica dos conceitos financeiros. Nos exemplos apresentados nas Figuras 25 e 33, verifica-se a possibilidade de executar consultas por meio dos labels (rótulos) dos elementos definido no documento XBRL Schema, considerando a semântica do dado XBRL na consulta forense. A linguagem LMDQL Forense torna transparente (ao usuário ou analista forense) tanto o processo de manipulação de componentes necessários para troca do tipo de banco de dados, quanto a busca pelos dados nos linkbases XBRL, características herdadas da LMDQL. O desempenho das consultas forenses sobre o banco de dados relacional obtiveram melhores resultados, como era de se esperar, já que é de conhecimento na comunidade acadêmica e no mercado que os SGBD relacionais possuem desempenho superior ao XML nativo (SILVA, 2010). A diferença percentual entre as consultas LMDQL Forense apresentados no Exemplo de Aplicação oscilou entre 923,5% e 9383,8%. Esta última porcentagem caracterizou a diferença percentual entre as consultas efetuadas com o operador forense EmpiricalRule sobre todos os elementos (Figura 23 e 31), comprovando que a diferença entre os tempos de execução de uma consulta em ambas as bases, aumenta quando demanda maiores quantidades de documentos XML. Neste caso, a consulta contabilizou todos os valores de todos os elementos de todos os relatórios 10-Q, contidos no repositório, para fazer o cálculo da Regra Empírica (discutida na Seção 2.2.1). No capítulo seguinte serão abordadas as conclusões finais desta dissertação e oportunidades de trabalhos futuros. 77 6 CONCLUSÃO No domínio financeiro, a incidência de fraudes tem aumentado nos últimos anos, assim como também tem sido crescente a adoção da linguagem XBRL pelo mercado financeiro, em nível mundial. Esse cenário comprova que trabalhos que promovem a preservação, coleta, validação, identificação, análise dos dados em documentos formatados pela tecnologia XBRL, são oportunos. A LMDQL Forense é um meio para aplicação da contabilidade forense em relatórios financeiros digitais baseados na tecnologia XML (da qual a XBRL é derivada), estabelecendo uma nova abordagem à auditoria contábil e contabilidade forense, a qual trata da utilização de recursos computacionais baseadas em consultas OLAP, para a detecção de fraudes em documentos digitais, por meio da aplicação de cálculos probabilísticos em uso na contabilidade forense não computadorizada. Sendo um banco de dados baseado na especificação XBRL 2.1, o XBRL Abstract Model Database permite a extensão desse repositório a qualquer sistema financeiro baseado na tecnologia XBRL. Desta forma, trata-se de um repositório que abrange tanto os fatos financeiros, reportados nas instâncias XBRL, como os relacionamentos padrões (i.e. definidos nos linkbases presentation, calculation, definition, label e reference) entre os conceitos especificados no XBRL Schema. Logo, a semântica dos dados financeiros também pode fazer parte das visões da consulta LMDQL Forense (e.g. o uso de labels, "[element].[Accounts Payable, Current]", ilustrado na Figura 25 e 33). Outra característica relevante é que a adição, exclusão ou alteração de um relacionamento estabelecido entre dois ou mais conceitos XBRL, não implica na modificação da estrutura de tabelas do repositório, limitando-se à manipulação de alguns registros no SGBD. Isto preserva a sincronização entre o modelo relacional e a taxonomia XBRL. Também baseado na especificação XBRL Dimension, este repositório possui características apropriadas para suportar os processamentos analíticos do sistema LMDQL Forense, o qual também faz uso de tabelas multidimensionais. A linguagem LMDQL Forense representa uma perspectiva de análise aos contadores forenses ou auditores contábeis sobre dados XBRL. Mediadora entre a contabilidade forense não computadorizada e os relatórios financeiros digitais, a LMDQL Forense constitui-se um facilitador nas análises forenses de documentos XBRL, cujo processamento ocorre em desempenhos superiores às análises manuais, ou parcialmente computadorizadas. Destacamse dois benefícios dessa linguagem de consulta forense: (i) agilidade na detecção de fraude em grandes quantidades de dados financeiros, o que a depender da quantidade de relatórios financeiros seria impraticável ou poderia demorar dias, de forma manual, e (ii) aplicação da 78 contabilidade forense por meio de técnicas de detecção de fraude em uso na academia e no mercado, sendo possível a aplicação simultânea dessas técnicas em um mesmo conjunto de dados pelos analistas financeiros. Os Operadores Forenses, que compõem a linguagem LMDQL Forense, são baseados em quatro cálculos probabilísticos (i.e. Lei de Benford, Regra Empírica, Teste Z e Teste QuiQuadrado). Eles apresentam-se adequados à proposta de detecção de fraudes financeiras, pois segue padrões já estabelecidos na contabilidade forense não computadorizada (HILL, 1998; FRANCISCHETTI, 2007; LAGIOIA et al.,2011; SILVA JR, 2013; COSTA et al, 2013, WINTER et al, 2013). Também se mostram adequados à proposta do sistema LMDQL Forense, que viabiliza a aplicação desses cálculos probabilísticos no contexto computadorizado através de um sistema OLAP. É importante destacar a possibilidade da aplicação dos Operadores Forenses de forma unitária ou conjunta. Por possuir código disponível e livre de licença paga (característica da LMDQL), é possível a inserção de novos operadores forenses aos já existentes na biblioteca de operadores LMDQL, e a manipulação dos quatro operadores forenses (i.e. FirstDigit, ZTest, ChiSquaredTest, EmpiricalRule) para adequação à novos contextos, e.g. a adequação dos resultados dos operadores forenses à outros dashboard (ou painéis de apresentação de resultados), comumente utilizado em sistemas de Business Inteligence. O sistema LMDQL Forense teve seu desenvolvimento baseado em componentes disponíveis (padrões abertos e gratuitos) à comunidade, i.e. XBRL, MySQL, LMDQL, mondrian e Arelle. Ele possui características de extensibilidade e personalização em todos os seus componentes, sendo possível sua manipulação, para atender evoluções tecnológicas ou algum contexto específico, no repositório relacional, no processo de ETL, nos operadores forenses, assim como na linguagem LMDQL Forense (desde que obedecendo a especificação LMDQL). Um processo foi apresentado para guiar a construção do sistema LMDQL Forense, assim como também poder guiar a extensão dessa ferramenta, por meio de novos operadores forenses baseados em outras modalidades de análises forenses, tornando a LMDQL Forense um arcabouço tecnológico para detecção de fraudes financeiras baseado em técnicas estatístico-probabilísticos, sobre dados XML (e linguagens derivadas, e.g. XBRL) e relacional. A LMDQL Forense é acessível a qualquer entidade privada ou governamental, não havendo problemas de licenças, na sua utilização (XBRL FRAMEWORK, 2014). Ressalta-se a extensão da LMDQL Forense em outros domínios (i.e. não financeiros), cujos dados estejam formatados em documentos XML ou em tabelas relacionais, os quais sejam passíveis de 79 análises baseadas em técnicas estatístico-probabilísticas, e.g. bioestatística (AYRES et al., 2007), geografia e dados sociais (IBGE, 2014), química analítica (UNICAMP, 2006), psicologia (PASQUALI, 2008), dentre outros. Com relação ao formato dos dados (i.e. relacional e nativo XBRL), a análise forense sobre uma base de dados XML permite a preservação da estrutura sintática e semântica dos documentos XBRL analisados (i.e. instâncias, linkbases e schema), sem a necessidade de modificá-los para outros formatos de dados (e.g. relacional). No que se refere ao desempenho, constata-se que os repositórios relacionais são mais eficientes, requisito não funcional (i.e. desempenho) relevante quando se trata de sistemas OLAP. Contudo, a utilização de uma base de dados relacional, exige um processo adicional (i.e. ETL), devido à mudança de formato de XML para relacional, na implementação do sistema. A Tabela 7 ilustra as contribuições deste trabalho com relação aos trabalhos correlatos (Seção 3.2), no que se refere a alguns requisitos descritos no objetivo desta dissertação (Seção 1.3 do Capítulo 1). O desenvolvimento do sistema LMDQL Forense possibilitou que fossem alcançados os objetivos desta dissertação, pois se trata de um sistema computacional open source e livre de licença paga (XBRL FRAMEWORK, 2014), permite a análise de dados financeiros para detecção de fraude, realiza consulta sobre dados XBRL, possui uma linguagem de consulta para análise forense de dados financeiros, faz análise forense considerando a semântica dos dados financeiros (i.e. linkbase), faz análise forense com aplicação de cálculos probabilísticos, possibilita a aplicação conjunta de cálculos probabilísticos, é uma ferramenta extensível a novos modelos de detecção de fraudes e faz aplicação de análises em tempo real. 80 Tabela 7 - Comparativo entre os Sistemas de Análise Forense investigados e o sistema LMDQL Forense Durtschi et al. (2004) Open Source e livre Nigrini (2014) Fin Dynamics (2014) Kovach (2011) Sherly & Kirkosa Choi et Seo et Flores Winter Khan Chai et et al. al. al. et al. et al. et al. al. (2007) (2009) (2009) (2012) (2012) (2012) (2006) Não Não Não se Não se Não se Não Não se Não se aplica aplica aplica Informa aplica aplica Não se Nedunchezhian (2010) Zhang et al. (2009) Panigrahi LMDQL (2011) Forense Não Não Não Não Não Detecção de fraude Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Dados XBRL Não Não Não Não Não Não Não Não Não Não Não Não Não Não Sim Não Não Não Não Não Não Não Não Não Não Não Não Não Não Sim Não Não Não Não Não Não Não Não Não Não Não Não Não Não Sim Parcial- Parcial- Parcial- Parcial- mente mente mente mente Sim Não Sim Sim Não Não Não Sim Não Não Sim (macro) (macros) (macros) (macros) Sim Sim Não Sim Não Não Não Não Sim Não Não Não Não Sim Sim de licença paga Linguagem de Consulta Semântica dos dados (Linkbase) Implementa um Sistema computacional Cálculos probabilísticos aplica Sim 81 Durtschi et al. (2004) Nigrini (2014) Fin Dynamics (2014) Kovach (2011) Kirkosa Choi et Seo et Flores Winter Khan Chai et et al. al. al. et al. et al. et al. al. (2007) (2009) (2009) (2012) (2012) (2012) (2006) Sherly & Nedunchezhian (2010) Zhang et al. (2009) Panigrahi LMDQL (2011) Forense Aplicação conjunta de cálculos Não Não Não Sim Não Não Não Não Sim Não Não Não Não Sim Sim Sim Sim Sim Sim Não Não Sim Não Sim Não Não Não Não Sim Sim Não Não Não Sim Sim Não Não Não Não Não Não Não Não Não Sim probabilísticos Extensível à novos modelos forenses Tempo Real 82 Em seguida, finalizando a conclusão, são apresentados os trabalhos publicados em conferências científicas e as oportunidades de trabalhos futuros. 6.1 TRABALHOS COMPLETOS PUBLICADOS EM ANAIS DE CONGRESSOS Durante o desenvolvimento deste trabalho, artigos científicos foram elaborados e submetidos em conferências científicas, com o objetivo de validar na comunidade acadêmica as contribuições. Desta forma, as ideias propostas puderam ser avaliadas pela comunidade científica, contribuindo de maneira importante para o desenvolvimento desta dissertação. A aceitação ocorreu no congresso CONTECSI, na Universidade de São Paulo em São Paulo, no eDOC, na University of Ulm na Alemanha, e na ICWI (www/Internet), na cidade de Porto em Portugal. As referências aos artigos são apresentadas a seguir: • SILVA, M.A.; SILVA, P.C. ; CAMPOS, J.A. XBRL GIS - Integrating Geographic Information in XBRL Documents. In: INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS AND TECHNOLOGY MANAGEMENT – CONTECSI, 10., 2013, São Paulo University, Brazil. Proceedings… 2013. • SILVA, M.A.; SILVA, P.C. Analytical Processing for Forensic Analysis. In: INTERNATIONAL WORKSHOP ON COMPLIANCE, EVOLUTION AND SECURITY IN CROSS-ORGANIZATIONAL PROCESSES (CESCOP 2014), 1., IEEE INTERNATIONAL EDOC CONFERENCE 2014, Workshops (EDOCW'14). 18., 2014, Ulm, Germany. Proceedings… 2014. • SILVA, M.A.; SILVA, P.C. Financial Forensic Analysis.13th IADIS International Conference WWW/INTERNET (ICWI), 13., 2014, Porto, Portugal. Proceedings… 2014. 6.2 TRABALHOS FUTUROS No decorrer das investigações dos trabalhos correlatos outros cálculos probabilísticos foram encontrados, e.g. P-Rule (ABBOTT, 2011), Belief Function (DENCEUX, 2011), T Test (HARVARD UNIVERSITY, 2014), a teoria matemática Dempster-Shafer, Distribuição Log-Uniform e Log-Pearson Type IV (descritos na Seção 83 3.2), os quais são aplicados para detecção de dados anômalos (i.e. dados com suspeitas de fraude) na investigação forense. A incorporação desses cálculos probabilísticos à LMDQL Forense fomenta novas investigações. Os variados modelos para detecção de fraude, investigados nos trabalhos correlatos (Seção 3.2 no Capítulo 3), e.g. árvores de decisão ISGNT e SGNT, algoritmos de pontuação difusa (fuzzy), redes neurais, redes bayesianas, algoritmo HMM, reconhecimento de padrões K-means, também foram identificadas como oportunidades para investigações futuras. Muito embora esses modelos não entrem no escopo desta dissertação, por ser baseado em lógicas utilizadas na computação e não em cálculos probabilísticos, podem contribuir com a ampliação da LMDQL Forense, incorporando novas modalidades de análises forenses baseados em algoritmos computacionais capazes de detectar anomalias em dados financeiros, promovendo novas perspectivas de análises aos auditores financeiros e contabilistas forenses. Outra oportunidade de trabalho futuro é a integração dos operadores forenses LMDQL com Geographic Information Systems (GIS), verificando a possibilidade de análises forenses financeiras baseados em informações geográficas contidos nos documentos XBRL. Em Silva et al. (2013) é proposto a integração da XBRL com a Geography Markup Language (GML). Esta abordagem transforma a LMDQL em uma ferramenta de processamento analítico online espacial (SOLAP). 84 REFERÊNCIAS ABBOTT, M. G. The P-value decision rule for hypothesis tests. 2011. Disponível em: <http://qed.econ.queensu.ca/walras/custom/300/351A/addnot08.pdf>. Acesso em: 1 set. 2014. ACCESSDATA GROUP INC. Forensic Toolkit® 5.4 Download. 2014. Disponível em: <http://www.accessdata.com/support/ftk-download-page>. Acesso em: 17 ago. 2014. ACL SERVICES LTD. [Portal]. 2014. Disponível em: <http://www.acl.com/>. Acesso em: 29 jul. 2014. ACM, Inc. 2014. [Portal]. Disponível em: <http://dl.acm.org/>. Acesso em: 2 dez. 2013. ARDENNE, R. Interface Discoverable Taxonomy Set. Disponível em: <http://www.batavia-xbrl.com/javadoc/bxjl.1/com/batavia/xbrl/taxonomy/ DiscoverableTaxonomySet.html>. Acesso em: 28 ago. 2014. ARELLE. Arelle Open Source XBRL Plataform. 2014a Disponível em: <http://arelle.org/>. Acesso em: 12 jan. 2014. ARELLE. The XBRL Database. 2014b. Disponível em: <http://arelle.org/documentation/xbrl-database/#XBRLUSPublicDatabase>. Acesso em: 12 ago. 2014. ARELLE . The XBRL Database. 2014c. Disponível em: <http://arelle.org/documentation/xbrl-database/#DPMDatabase>. Acesso em: 12 ago. 2014. ASSOCIATION OF CHIEF POLICE OFFICERS. Good Practice Guide for Computer-Based Electronic Evidence. 2011. Disponível em: <http://www.7safe.com/electronic_evidence/ ACPO_guidelines_computer_evidence.pdf>. Acesso em: 30 jul. 2014. AYRES, M. et al. BioEstat: aplicações estatísticas nas áreas das ciências bio-médicas. 2007. Disponível em: <http://dv.fosjc.unesp.br/ivan/downloads/Bioestat_5*ManualBioEstat_5.pdf>. Acesso em: 8 set. 2014. BAI, Z. ; SAKAUE, M. ; TAKEDA, F. The Impact of XBRL Adoption on the Information Environment in Japan. Tokyo : University of Tokyo, 2012. Disponível em: <http://ipr-ctr.t.u-tokyo.ac.jp/jp/libraries/dp/DP5.pdf>.Acesso em: 31 out. 2013. BLANCO, M. ; GINOVART, M. How to Introduce Historically the Normal Distribution in Engineering Education: a Classroom Experiment. International Journal of Mathematical Education in Science and Technology, v. 41, is. 1, p. 1930, 2010. BRANCO JR, T. Um modelo de processo para estruturação do anteprojeto de sistemas de informação. Uma aplicação na Prefeitura Municipal de Salvador. 2013. Dissertação. (Mestrado em Sistemas e Computação)- UNFACS Universidade Salvador, Salvador, 2013. 85 CASEWARE ANALYTICS. IDEA Data Analysis. 2014. Disponível em: <http://www.casewareanalytics.com/products/idea-data-analysis/>. Acesso em: 4 set. 2013. CHAI, W. ; HOOGS, B.K. ; VERSCHUEREN, B.T. Fuzzy Ranking of Financial Statements for Fraud Detection. Fuzzy Systems. In: IEEE INTERNATIONAL CONFERENCE, 2006. Proceedings… 2006. Doi: 10.1109/FUZZY.2006.1681708. Disponível em: <http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1681708&isnumber=35437 >. Acesso em: 2 mar. 2014. CHARLES STURT UNIVERSITY.Critical scores - What does zα, zα/2, tα and tα/2 mean? 2010. Disponível em: <http://www.csu.edu.au/division/studserv/mystudies/maths/docs/6-z-and-t-scores.pdf>. Acesso em: 2 jun. 2014. CHAUDHURI, S. ; DAYAY, U. Data warehouse and OLAP for decision support. In: INTERNATIONAL CONFERENCE ON VERY LARGE DATA BASE, 22., Proceedings… Bombay,1996, p. 295-30. CHENG, P. ; QIULI, T. Design and Realization of College Finance OLAP Analyzer Based on MDX. In: INTERNATIONAL CONGRESS ON COMPUTER APPLICATIONS AND COMPUTATIONAL SCIENCE ADVANCES IN INTELLIGENT AND SOFT COMPUTING, 2., 2012. Proceedings… 2012. Disponível em: <http://link.springer.com/chapter/10.1007%2F978-3-642-28314-7_11#page-1>. Acesso em: 24 jul. 2014. CHENG, J. Cheng's Bayesian Belief Network Software. 2001.Disponível em: <http://webdocs.cs.ualberta.ca/~jcheng/bnsoft.htm>. Acesso em: 28 jul. 2014. CHOI, J. ; CHOI, K. ; LEE, S. Evidence Investigation Methodologies for Detecting Financial Fraud Based on Forensic Accounting. Computer Science and its Applications, 2009. CSA '09. In: INTERNATIONAL CONFERENCE, 2., 2009. Proceedings… 2009. Doi: 10.1109/CSA.2009.5404202. Disponível em: <http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5404202&isnumber=54041 69>. Acesso em: 8 jan. 2014. COLLI, M. Cibercrimes: limites e perspectivas à investigação policial de crimes cibernéticos. São Paulo: Juruá, 2010. COHN, M. SEC Refocuses on Accounting Fraud. 2013.Disponível em: <http://www.accountingtoday.com/news/SEC-Refocuses-Accounting-Fraud-668931.html>. Acesso em: 2 jun. 2013. CONTI, F. Biometria Qui Quadrado. [S.l.]: Laboratório de Informática - ICB – UFPA, 2009. Disponível em: <http://www.ufpa.br/dicas/biome/biopdf/bioqui.pdf>. Acesso em: 26 jan. 2014. COSTA, M. Computação forense: a análise forense no contexto da resposta a acidentes computacionais.3ed. [S.l.]: Millenium, 2011. COSTA, J.; TRAVASSOS, S. ; SANTOS, J. Application of newcomb-benford law in accounting audit: a bibliometric analysis in the period from 1988 to 2011. In: CONTECSI– FEA, 10., 2011, São Paulo. Anais… São Paulo: USP, 2011. 86 DASGUPTA, D. An Overview of Artificial Immune Systems and Their Applications. In: DASGUPTA, D. (Ed.). Artificial immune systems and their applications. Berlin: Springer-Verlag, 1998. p.3-21. DENCEUX, T. Introduction to belief functions. Université de Technologie de Compiègne. 2011. Disponível em: <http://www.gipsa-lab.grenobleinp.fr/summerschool/bfta/includes/Denoeux_introduction_belief_functions.pdf>. Acesso em: 1 set. 2014. DING, C. ; HE, X. K-means Clustering via Principal Component Analysis. In: INT'L CONF. MACHINE LEARNING (ICML 2004), 2004. Proceedings… 2004. Disponível em: < http://ranger.uta.edu/~chqding/papers/KmeansPCA1.pdf>. Acesso em: 4 set. 2014. DUCKDUCKGO. [Portal]. 2014. Disponível em: <https://duckduckgo.com>. Acesso em: 2 mar. 2014. DURTSCHI, C. ; HILLISON,W. ; PACINI, C. The Effective Use of Benford's Law to Assist In Detecting Fraud in Accounting Data. Journal of Forensic Accounting, p. 1734, 2004. Disponível em: <http://faculty.usfsp.edu/gkearns/Articles_Fraud/Benford AnalysisArticle.pdf>. Acesso em: 16 jan. 2014. ECK, D. ; RYAN, J. Mathbeans Project - The Chi Square Statistic. Department of Mathematics and Computer Science, Hobart and William Smith Colleges. 2012. Disponível em: <http://math.hws.edu/javamath/ryan/ChiSquare.html>. Acesso em: 19 jan. 2014. EDDY, S. R. What is a hidden Markov model? Nature Biotechnology, 2004. Doi: 10.1038/ nbt 1004-1315. Disponível em: <http://www.nature.com/nbt/journal/v22/n10/full/nbt1004-1315.html>. Acesso em: 6 mar. 2014. EIOPA. [Portal]. 2014. Disponível em: <https://eiopa.europa.eu>. Acesso em: 4 ago. 2014. ELEUTÉRIO, P. M. ; MACHADO, M. P. Desvendando a computação forense. [S.l.]: Nova Tec. Elsevier, 2011. ISBN: 8575222600, 9788575222607. Disponível em: <http://www.novateceditora.com.br/livros/computacaoforense/capitulo9788575222607. pdf>. Acesso em: 30 maio 2013. EUROPEAN BANKING AUTHORITY (EBA). Data Point Model and Taxonomies for Implementing Technical Standard (ITS) on Supervisory Reporting. 2014. Disponível em: <http://www.eba.europa.eu/regulation-and-policy/supervisoryreporting/implementing-technical-standard-on-supervisory-reporting-data-point-model/-/regulatory-activity/consultation-paper>. Acesso em: 16 ago. 2014. EXIST SOLUTIONS. [Portal]. 2014. Disponível em: <http://www.exist-db.org/>. Acesso em: 8 jun. 2014. FELDEN, C. Characteristics of XBRL adoption in Germany. Journal of Management Control, v.22, n. 2, p. 161-186, Springer, 2011.. Disponível em: <http://link.springer.com/article/10.1007%2Fs00187-011-0134-7>. Acesso em: 31 maio 2013. 87 FLORES, D. ; ANGELOPOULOU, O. ; SELF, R. Combining Digital Forensic Practices and Database Analysis as an Anti-Money Laundering Strategy for Financial Institutions. In: EMERGING INTELLIGENT DATA AND WEB TECHNOLOGIES (EIDWT), 2012 INTERNATIONAL CONFERENCE, 3., 2012. Proceedings… 2012. Doi: 10.1109/EIDWT.2012.22. Disponível em: <http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6354745&isnumber=63547 13>. Acesso: 8 jan. 2014. FISCHER. Evolution and Future Trends for XBRL Development. 2013. Disponível em: <http://arelle.org/wordpress/wp-content/uploads/downloads/2013/04/KU% 202013%20Evolution%20and%20Future.pdf>. Acesso em: 4 set. 2014. FRANCISCHETTI, C. E. Aplicação da Lei dos Números Anômalos ou Lei de NewComb-Benford para o controle das demonstrações financeiras das organizações. 2007. Dissertação (Mestrado)- Universidade Metodista de Piracicaba Faculdade de Gestão e Negócios, 2007. Disponível em: <https://www.unimep.br/phpg/bibdig/pdfs/2006/CYYCKXQDWKIK.pdf>. Acesso em: maio de 2013. FREE SOFTWARE FOUNDATION. [Portal]. 2014. Disponível em: <http://www.fsf.org/>. Acesso em: 17 ago. 2014. FREITAS, C. O. ; ROCHA, A. Mensagem da Coordenação do WFC. In: SbSEG, 12., 2012. Anais... 2012. Disponível em:<http://sbseg2012.ppgia.pucpr.br/@docs/SBSeg2012Anais.pdf>. Acesso em: 19 jun. 2013. GATEN, T. Z-tests and T-tests. Leicester: University of Leicester. Department of Biology, 2000. Disponível em: <http://www.le.ac.uk/bl/gat/virtualfc/Stats/ttest.html>. Acesso em: 19 jan. 2014. GEHRKE, J. ; GANTI, V. ; RAMAKRISHNAN, R. BOAT—optimistic decision tree construction. In: SIGMOD '99. ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, 1999. Proceedings… 1999. Disponível em: <http://dl.acm.org/citation.cfm?id=304197>. Acesso em: 31 jul. 2014. GERÔNIMO, L. et al. Governança corporativa: uma abordagem segundo a Lei Sarbanes-Oxley. RUC – Revista Unieuro de Contabilidade, Brasília, 2009. GOLDWATER, E. Using excel for statistical data analysis - caveats. Massachusetts: University of Massachusetts School of Public Health, 2007. Disponível em: <http://people.umass.edu/evagold/excel.html>. Acesso em: 16 ago. 2014. GOOGLE. [Portal]. 2014. Disponível em:<https://www.google.com.br>. Acesso em: 2 mar. 2014. GROBLER, C.; LOUWRENS, C. ; VON SOLMS, S. A framework to guide the implementation of Proactive Digital Forensics in Organizations. In: INTERNATIONAL CONFERENCE ON AVAILABILITY, RELIABILITY AND SECURITY. 2010. Proceedings… Krakow, Poland, 2010. 88 HARVARD UNIVERSITY. What is a t-test? 2014. Disponível em: <http://isites.harvard.edu/fs/docs/icb.topic241760.files/Presentation_3-_t_test.ppt>. Acesso em: 1 set. 2014. HEINRICH, J. A guide to the Pearson type IV distribution. Pennsylvania: University of Pennsylvania, CDF note 6820. 2004 Disponível em: <http://wwwcdf.fnal.gov/physics/statistics/notes/cdf6820_pearson4.pdf>. Acesso em: 30 ago. 2014. HILL, T.P. The first digit phenomenon. American Scientist, 1998. ISSN: 86:358. HOGAN, C. E. et al.Financial Statement Fraud: Insights from the Academic Literature. AUDITING: A Journal of Practice & Theory, v. 27, n. 2, p. 231-252, nov. 2008. Disponível em: <http://aaahq.org/audit/Pubs/Audrep/07summer/team08.pdf>. Acesso em: 31 maio 2013. HORMOZI, E. et al. Accuracy evaluation of a credit card fraud detection system on Hadoop MapReduce. In: INFORMATION AND KNOWLEDGE TECHNOLOGY (IKT), 2013 5TH CONFERENCE, 2013. Proceedings… 2013. Doi: 10.1109/IKT.2013.6620034. Disponível em : <http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6620034& isnumber=6620027>. Acesso em: 2 mar. 2014. IADIS DIGITAL LIBRARY. International Association for Development of the Information Society. [Portal]. 2014. Disponível em: <http://www.iadisportal.org/digitallibrary>. Acesso em: 5 jun. 2014. IBGE. [Portal]. 2014. Disponível em: <http://www.ibge.gov.br/>. Acesso em: 8 set. 2014. IEEEXPLORE DIGITAL LIBRARY. [Portal]. 2014. Disponível em: <http://ieeexplore.ieee.org/ Xplore/home.jsp>. Acesso em: 2 mar. 2014. IPHIX LLC. [Portal]. 2014. Disponível em: <http://iphix.net/>. Acesso em: 17 ago. 2014. IFRS. XQRT Paper. 2012. Disponível em: <http://www.ifrs.org/Meetings/MeetingDocs/IASB/2012/XBRLOctober/9a)%20IFRS% 20Taxonomy%20-%20the%20data%20point%20model-XQRT.pdf>. Acesso em: 16 ago. 2014. INSTITUTO GAUSS DE MATEMÁTICA. Distribuição Normal. 2010. Disponível em: <http://www.igm.mat.br/aplicativos/index.php?option=com_content&view=article&id= 340:intro&catid=61:distnormal>. Acesso em: 23 fev. 2013. KHAN, A. ; SINGH, T. ; SINHAL, A. Implement credit card fraudulent detection system using observation probabilistic in hidden Markov model. In: ENGINEERING (NUICONE), 2012 NIRMA UNIVERSITY INTERNATIONAL CONFERENCE, 2012. Proceedings… 2012. Doi: 10.1109/NUICONE.2012.6493206. Disponível em: <http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6493206&isnumber=64931 72>. Acesso em: 2 mar. 2014. KIM, A. et al. Fraud and Financial Crime Detection Model Using Malware Forensics. Multimedia Tools and Applications, v.68, n.2, p. 479-496, jan. 2014. Disponível em: 89 <http://link.springer.com/article/10.1007%2Fs11042-013-1410-3#page-1>. Acesso em: 24 jul. 2014. KIRKOSA, E.; SPATHISB, C. ; MANOLOPOULOSC, Y. Data Mining techniques for the detection of fraudulent financial statements. Journal Expert Systems with Applications: An International Journal archive, v. 32, n.4, p.9995-1003, may 2007. Elsevier. DOI: 10.1016/j.eswa.2006.02.016. Disponível em: <http://dl.acm.org/citation.cfm?id=1222770>. Acesso em: 28 jul. 2014. LAGIOIA, U. et al. Aplicabilidade da Lei de Newcomb-Benford nas fiscalizações do imposto sobre serviços - ISS. Revista Contabilidade & Finanças, v.22, n.56, p.203224, 2011. Disponível em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S151970772011 000200006&lng=pt&tlng=pt. 10.1590/S1519-70772011000200006>. Acesso em: 20 jan. 2014. LENARCIC, A. ; STANLEY, K. Statistics 104. Harvard University, 2008. Disponível em: <http://isites.harvard.edu/fs/docs/icb.topic481506.files/Section62008MidtermReview.pd f>. Acesso em: 17 jan. 2014. LI, A.; YONG, H.; LI, Z. Iteration Learning SGNN. Neural Networks and Brain, 2005. In: ICNN&B '05. INTERNATIONAL CONFERENCE, 2005. Proceedings… 2005. doi: 10.1109/ICNNB.2005.1614998. LI, O.; NI, C. ; LIN, Y. Does XBRL Adoption Reduce the Cost of Equity Capital? National University of Singapore. 2013.Diponsível em: <http://dx.doi.org/10.2139/ssrn.2131001>. Acesso em: 31maio 2013. MATTES, I.V. ; PETRI, S. M. Accounting Information Security: Procedures for the Preparation of a Security Policy Based on ISO 27001 and ISO 27002. In: INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS AND TECHNOLOGY MANAGEMENT – CONTECSI, 10., 2013, São Paulo, Brazil. Anais… 2013. MCCULLOUGH, B. ; WILSONB, B. On the accuracy of statistical procedures in Microsoft Excel 2003. 2005. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0167947304002026>. Acesso em: 16 ago. 2014. MCKEMMISH, R. What is Forensic Computing? Trends & Issues in crime and criminal justice. Australian Institute of Criminology, n. 118, 1999. ISSN 0817-8542. MENEGUSSI, E. ; IANESKO, J. A Importância da Auditoria Contábil na Prevenção e Combates aos Erros e às Fraudes na Organizações. Revista Eletrônica Lato Sensu – UNICENTRO, ed. 6, 2008. ISSN: 1980-6116. MICROSOFT. MDX Language Reference (MDX). 2008. Disponível em: <http://msdn. microsoft.com/pt-br/library/ms145595.aspx>. Acesso em: 28 jun. 2013. MICROSOFT. About macros in Excel. 2014. Disponível em: <http://office.microsoft.com/en-us/excel-help/about-macros-in-excelHP005201201.aspx>. Acesso em: 29 jul. 2014. 90 MONDRIAN. [Portal]. 2014. Disponível em: <http://mondrian.pentaho.org>. Acesso em: 17 jul. 2014. MORILLA, V. Data Point Modelling (DPM) Methodology. 2014. Disponível em: <https://docs.google.com/document/d/12sIqru0nVI4l8KcvExdnNLLSTTmBMSrzlGaFNNy2Vc/edit>. Acesso em: 16 de agosto de 2014. NIGRINI, M. Benford's Law Excel 2007/2010 software. 2009. Disponível em: <http://www.nigrini.com/datas_software.htm>. Acesso em: 29 jul. 2014. NIGRINI, M. ; WELLS, J. Benford's Law: Applications for Forensic Accounting, Auditing, and Fraud Detection. [S.l.]: Wiley Corporate F&A, 2012. NIGRINI, M. Excel Templates. 2014. Disponível em: <http://www.nigrini.com/ForensicAnalytics/NigriniCycle.xlsx>. Acesso em: 24 de julho de 2014. ODUEKE, A. ; WEIR, G. Triage in Forensic Accounting using Zipf's Law. Department of Computer and Information Sciences, University of Strathclyde, Glasgow. Issues in Cybercrime, Security and Digtal Forensics. [S.l.]: University of Strathclyde Publishing, 2012. Disponível em: <http://www.cis.strath.ac.uk/cis/research/publications/papers/strath_cis_publication_25 90.pdf>. Acesso em: 19 jan. 2014. OPEN SOURCE INITIATIVE. [Portal]. 2014. Disponível em: <http://opensource.org/>. Acesso em: 17 ago. 2014. ORACLE CORPORATION. SGBD MySQL. 2014. Disponível em: <http://www.mysql.com/>. Acesso em: 12 jun. 2014. ORLOFF, J. Null Hypothesis Signicance Testing (NHST) Rejection regions, Z-tests. 2013. Disponível em: <http://web.mit.edu/jorloff/www/18.05/pdf/class22-prep.pdf >. Acesso em: 20 de janeiro de 2014. OXFORD REFERENCE. Z Test. 2014. Diponível em: <http://www.oxfordreference.com/ view/10.1093/oi/authority.20110803133548456>. Acesso em: 17 jan. 2014. PANIGRAHI, P. K. A Framework for Discovering Internal Financial Fraud Using Analytics. In: COMMUNICATION SYSTEMS AND NETWORK TECHNOLOGIES (CSNT), 2011 INTERNATIONAL CONFERENCE, 2011. Proceedings… 2011. Doi: 10.1109/CSNT.2011.74. Disponível em: <http://ieeexplore.ieee.org/stamp/ stamp.jsp?tp=&arnumber=5966462&isnumber=5966391>. Acesso em: 2 mar. 2014. PARADA, A. Contabilidade Forense. 2013. Disponível em: <http://www.cosif.com.br/ mostra.asp?arquivo=forense02-introduc>. Acesso em: 23 abr. 2013. PASQUALI, L. Psicometria. 2008. Disponível em: <http://www.revistas.usp.br/reeusp/ article/download/40416/43399>. Acesso em: 8 set. 2014. PEARL, J. Bayesian networks. [S.l.]: Department of Statistics, UCLA, 2011. Disponível em: <https://escholarship.org/uc/item/53n4f34m>. Acesso em: 2 ago. 2014. 91 PENG, E. ; SHON, J. ; TAN, C. XBRL and Accruals: Empirical Evidence from China. [S.l.]: Wiley Online Library, 2011. Disponível em: <http://onlinelibrary.wiley.com/doi/10.1111/j.1911-3838.2011.00021.x/abstract>. Acesso em: 31 maio 2013. PWC. Know Your Customer: Quick Reference Guide. 2013. Disponível em: <http://www.pwc.com/en_gx/gx/financial-services/assets/pwc-kyc-anti-moneylaundering-guide-2013.pdf>. Acesso em: 16 ago. 2014. RAKOTOMALALA, R. Sipina Overview. Lumière Lyon: Département informatique et statistique, Université Lumière Lyon 2, Lyon, France, 2014. Disponível em: <http://eric.univ-lyon2.fr/~ricco/sipina.html>. Acesso em: 28 jul. 2014. REPORTING STANDARD. The XBRL Database. 2014. Diponível em: <http://www.reportingstandard.com/index.php/en/productos/xbrl-database>. Acesso em: 4 ago. 2014. RICCIO, E. L. ; SILVA, P. C. ; MARICI, G. XBRL: a divulgação de informações empresariais. Rio de Janeiro: Ciência Moderna, 2005. ISBN: 8573934719. ROSENHOLTZ, R. Statistical Methods in Brain and Cognitive Science. Spring 2004. (MIT OpenCourseWare: Massachusetts Institute of Technology), License: Creative Commons BY-NC-SA., 2004. Disponível em: <http://ocw.mit.edu/courses/brain-and-cognitive-sciences/9-07-statistical-methods-inbrain-and-cognitive-science-spring-2004/lecture-notes/17_chi_sq_tests.pdf >. Acesso em: 28 jul. 2014. RUDIN, C.Prediction: Machine Learning and Statistics. Springer 2012. (MIT OpenCourseWare: Massachusetts Institute of Technology), License: Creative Commons BY-NC-SA, 2012. Disponível em: < http://ocw.mit.edu/courses/sloan-school-ofmanagement/15-097-prediction-machine-learning-and-statistics-spring-2012/lecturenotes/MIT15_097S12_lec08.pdf >. Acesso em: 28 jul. 2014. SANTOS ; GRATERON. Contabilidade criativa e responsabilidade dos auditores. 2003. Disponível em: < http://www.scielo.br/scielo.php?script=sci_arttext& pid=S1519-70772003000200001>. Acesso em: 3 set. 2014. SCHOLAR GOOGLE. [Postal]. 2011 Disponível em: <http://scholar.google.com.br>. Acesso em: 2 mar. 2011. SEO, K. et al. Research about extracting and analyzing accounting data of company to detect financial fraud. INTELLIGENCE AND SECURITY INFORMATICS, 2009. ISI '09. IEEE INTERNATIONAL CONFERENCE, 2009. Proceedings… 2009. Doi: 10.1109/ISI.2009.5137302. Disponível em:<http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5137302&isnumber=51 37253>. Acesso: 8 fev. 2014. SEUNG, S. Introduction to Neural Networks. Spring 2005. (MIT OpenCourseWare: Massachusetts Institute of Technology), License: Creative Commons BY-NC-SA, 2005. Disponível em: <http://ocw.mit.edu/courses/brain-and-cognitive-sciences/9-641jintroduction-to-neural-networks-spring-2005>. Acesso em: 28 jul. 2014. 92 SILVA, P. C. ; TEIXEIRA, C. C. Informações Financeiras como Hiperdocumentos na Web. In: BRAZILIAN SYMPOSIUM ON MULTIMEDIA AND HYPERMEDIA SYSTEMS - SBMIDIA, BRAZILIAN SYMPOSIUM ON MULTIMEDIA AND HYPERMEDIA SYSTEMS – SBMIDIA, 8., 2002, Fortaleza. Anais... Fortaleza: SBC, 2002. p. 356-364. SILVA, P. C ; TEIXEIRA, C. C. A Gestão da Informação Financeira do Banco Central do Brasil Apoiada por XBRL. In: WORKSHOP DE TECNOLOGIA DA INFORMAÇÃO E GERÊNCIA DO CONHECIMENTO, 1., 2003, Fortaleza. Anais... 2003. SILVA, P.C. ; SULAIMAN, A. XBRL, regras de negócios e relatórios financeiros. In: KMBRASIL 2003, 2003, São Paulo. Anais... 2003. SILVA, P. C. Explorando linguagens de marcação para representação de relatórios de informações financeiras. 2007. Dissertação (Mestrado)- UNIFACS Universidade Salvador, 2007. Disponível em: < http://tede.unifacs.br/tde_arquivos/2/TDE-2007-0726T170817Z-94/Publico/Dissertacao%20Paulo%20Caetano.pdf>. Acesso em: 10 jan. 2013. SILVA, P.C. et al. XBRL: conceitos e aplicações. Rio de Janeiro: Ciência Moderna, 2006. ISBN: 8573934999. SILVA, P. C. ; TIMES, V.C. LMDQL: Link-based and multidimensional query language. In: DOLAP 09 - ACM TWELFTH INTERNATIONAL WORKSHOP ON DATA WAREHOUSING AND OLAP. ACM TWELFTH INTERNATIONAL WORKSHOP ON DATA WAREHOUSING AND OLAP, 2009, Hong Kong. Proceedings…2009. SILVA, P. C. Análise multidimensional de dados XML baseados em links: modelos e linguagens. 2010. Tese (Doutorado)- Centro de Informática, Universidade Federal de Pernambuco, Recife, PE, Brasil, 2010. Disponível em: <http://xbrlframework.files.wordpress.com/2014/02/tese-xldm-e-lmdql.pdf>. Acesso em: 17 jul. 2010. SILVA, P. C.; SANTOS, M. S. ; TIMES,V.C. XLPath: a XML Linking Path Language. In: IADIS INTERNATIONAL CONFERENCE ON WWW/INTERNET 2010. TIMISOARA, ROMANIA. IADIS ON WWW/INTERNET, 2010. Proceedings… Timisoara: Bebo White, Pedro Isaías and Diana And one, 2010. SILVA, P. C. et al. Analytical Processing Over XML and XLink. International Journal of Data Warehousing and Mining (IJDWM), v. 8, n.1, 2012. SILVA, M. A.; SILVA, P.C. ; CAMPOS, J. A. XBRL GIS - Integrating Geographic Information in XBRL Documents. In: INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS AND TECHNOLOGY MANAGEMENT – CONTECSI, 10., 2013, São Paulo, Brazil. Proceedings… 2013. Disponível em: <http://www.infoteca.inf.br/contecsi/smarty/ templates/arquivos_template/upload_arquivos/acervo/docs/PDFs/211.pdf >. Acesso em: 17 jul. 2010. SILVA JR. ; G. R. Lei NewComb-Benford: uma aplicação vertical nas peças financeiras de uma empresa concessionária de rodovias. In: CONGRESSO USP 93 CONTROLADORIA E CONTABILIDADE, 13., 2013. Anais... 2013. Disponível em: <http://www.congressousp.fipecafi.org/web/artigos132013/ 528.pdf >. Acesso em: 19 jan. 2014. SHAFER, G. Dempster–Shafer theory. 2002. Disponível em: <http://www.glennshafer.com/assets/downloads/articles/article48.pdf>. Acesso em: 30 ago. 2014. SHERLY, K. K. ; NEDUNCHEZHIAN, R. BOAT adaptive credit card fraud detection system. Computational Intelligence and Computing Research (ICCIC), 2010. In: IEEE INTERNATIONAL CONFERENCE, 2010. Proceedings… 2010. Doi: 10.1109/ICCIC.2010.5705824. Disponível em: <http://ieeexplore.ieee.org/ stamp/stamp.jsp?tp=&arnumber=5705824&isnumber=5705719>. Acesso em: 2 mar. 2014. SPOFFORD, G. MDX solutions: with Microsof SQL Server Analysis Services. New York: J. Wiley, 2001. SPRINGER. [Portal]. Disponível em: <www.springer.com/?SGWID=12-102-0-0-0>. Acesso em: 12. jun. 2014. STEENKAMP, L. P. ; NEL, G. F. The adoption of XBRL in South Africa: an empirical study. The Electronic Library, v. 30, n.3, p.409-425, 2013. SPERBERG-MCQUEEN, C. M. ; THOMPSON, H. XML Schema. 2000. Disponível em: <http://www.w3.org/XML/Schema>. Acesso em: 23 jun. 2013. STOPFRAUD.GOV. [Portal]. 2014. Disponível em: <http://www.stopfraud.gov/>. Acesso em: 27 jul. 2014. TAN, P. ; KUMAR, V. ; STEINBACH, M. The k-means algorithm. In: IEEE INTERNATIONAL CONFERENCE ON DATA MINING, 2006. Proceedings… 2006. Disponível em: <http://www.cs.uvm.edu/~icdm/algorithms/ 10Algorithms08.pdf>. Acesso em: 31 jul. 2014. THE APACHE SOFTWARE FOUNDATION. Apache License, Version 2.0. 2014. Disponível em: <http://www.apache.org/licenses/LICENSE-2.0.html>. Acesso em: 17 ago. 2014. THE BOOK OF THREES. EmpiricalRule - The 68-95-99,7. 2013. Disponível em: <http://www.threes.com/index.php?view=article&catid=72%3Amathematics&id=2341 %3Aempirical-rule-the-68-95-997-rule&format=pdf&option=com_cont ent&Itemid=50>. Acesso em: 26 abr. 2013. THE JOHNS HOPKINS UNIVERSITY ; DIENER-WEST, M. Use of the Chi-Square Statistic. The Johns Hopkins University. 2008. Disponível em: <http://ocw.jhsph.edu/courses/fundepiii/PDFs/Lecture17.pdf>. Acesso em: 24 jul. 2014. THE OXFORD MATH CENTER. The Empirical Rule. [S.l.]: Oxford College, 2014. Disponível em: <http://www.oxfordmathcenter.com/drupal7/node/290>. Acesso em: 26 abr. 2013. TONBELLER, A. G. JPivot. 2003. Disponível em: <http://jpivot.sourceforge.net/>. Acesso em: 5 ago. 2014. 94 UNICAMP. Laboratório de Quimiometria em Química Analítica. [Portal]. 2006. Disponível em: <http://laqqa.iqm.unicamp.br/>. Acesso em: 8 set. 2014. U.S. DEPARTMENT OF JUSTICE. President Obama Establishes Interagency Financial Fraud Enforcement Task Force. 2009. Disponível em: <http://www.sec.gov/ news/press/2009/2009-249.htm>. Acesso em: 27 jul. 2014. U.S SEC. XBRL Glossary. 2010. Disponível em: <http://www.sec.gov/spotlight/xbrl/glossary.shtml>. Acesso em: 31 ago. 2014. U.S. SECURITIES AND EXCHANGE COMMISSION (U.S. SEC). 2014. Disponível em: <http://www.sec.gov/>. Acesso em: 29 mar. 2014. USPENSKY, J. Introduction to mathematical probability. New York: McGraw Hill, 1937. VOLONINO, L. ; GODWIN, J. ; ANZALDUA, R. Computer Forensics, Principles and Practices. [S.l.]: Pearson Vue, 2006. WEN, W. ; JENNINGS, A. ; LIU, H. Learning a neural tree. In: INTERNARIONAL JOINT CONFERENCE ON NEURAL NETWORKS, 1992, Beijing, China. Proceedings… 1992, p.751-756. WINTER, C.; SCHNEIDER, M. ; YANNIKOS, Y. (2012) Model-Based Digit Analysis for Fraud Detection Overcomes Limitations of Benford Analysis. In: AVAILABILITY, RELIABILITY AND SECURITY (ARES), 2012 INTERNATIONAL CONFERENCE, 70., 2012. Proceedings… 2012. Doi: 10.1109/ARES.2012.37. Disponível em: <http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6329191&isnumber=63291 68>. Acesso em: 15 abr. 2014. WIRTH, N. Extended Backus-Naur Form (EBNF). [S.l.]: ISO/IEC, 1996. WU, J. ; VASARHELYI, M. XBRL: A New Tool For Electronic Financial Reporting. In: ANANDARAJAN, M.; ANANDARAJAN, A.; SRINIVASAN, C. Business Intelligence Techniques A Perspective from Accounting and Finance. 2004. p. 7392. Disponível em: <http://link.springer.com/book/ 10.1007/978-3-540-24700-5>. Acesso em: 11 abr. 2014. XBRL FRAMEWORK. XBRL Framework Projects. 2014. Disponível em: sourceforge.net/projects/xbrlframework/. Acesso em: 4 set. 2014. XBRL INTERNATIONAL INC. XBRL Dimensions 1.0. 2006. Disponível em: <http://www.xbrl.org/Specification/XDT-REC-2006-09-18.htm>. Acesso em: 16 ago. 2014. XBRL INTERNATIONAL INC. XBRL Global Ledger Framework. 2007. Disponível em: <http://xbrl.org/int/gl/2007-04-17/GLFramework-REC-2007-04-17.htm>. Acesso em: 16 ago. 2014. XBRL INTERNATIONAL INC. Extensible Business Reporting Language 2.1 Recommendation. (2008a). Disponível em: <http://www.xbrl.org/Specification/ XBRLRECOMMENDATION-2003-12-31+Corrected-Errata-2008-07-02.htm>. Acesso em: 12 jan. 2014. 95 XBRL INTERNATIONAL INC. Link Role Registry - Structure 2.0. (2008b). Disponível em: <http://www.xbrl.org/Specification/lrr/REC-2008-07-31/lrr-REC-200807-31.html>. Acesso em: 4 ago. 2014. XBRL INTERNATIONAL INC. XBRL Infoset 0.3. (2009a). Disponível em: <http://www.xbrl.org/specification/infoset/pwd-2009-02-04/infoset-pwd-2009-0204.html>. Acesso em: 4 ago. 2014. XBRL INTERNATIONAL INC. Formula 1.0. (2009b). Disponível em: <http://www.xbrl.org/specification/formula/rec-2009-06-22/formula-rec-2009-0622.html>. Acesso em: 18 ago. 2014. XBRL INTERNATIONAL INC. Table Linkbase Overview 1.0. (2011a). Disponível em: <http://www.xbrl.org/wgn/table-linkbase-overview/pwd-2011-12-21/tablelinkbase-overview-wgn-pwd-2011-12-21.html>. Acesso em: 04 ago. 2014. XBRL INTERNATIONAL INC. XBRL Formula Overview 1.0. (2011b). Disponível em: <http://xbrl.org/WGN/XBRL-formula-overview/PWD-2011-12-21/XBRL-formulaoverview-WGN-PWD-2011-12-21.html>. Acesso em: 16 ago. 2014. XBRL INTERNATIONAL INC. Overview of Versioning 1.0. (2011c). Disponível em: <http://xbrl.org/WGN/versioning-overview/PWD-2011-10-19/versioning-overviewWGN-PWD-2011-10-19.html>. Acesso em: 16 ago. 2014. XBRL INTERNATIONAL INC. Inline XBRL Part 1: Specification 1.0. (2011d). Disponível em: <http://www.xbrl.org/specification/inlinexbrl-part1/rec-2010-0420/inlinexbrl-part1-rec-2010-04-20+corrected-errata-2011-08-17.html>. Acesso em: 28 ago. 2014. XBRL INTERNATIONAL INC. XBRL Abstract Model 2.0. 2012. Disponível em: <http://xbrl.org/Specification/abstractmodel-primary/PWD-2012-06-06/abstractmodelprimary-pwd-2012-06-06.html>. Acesso em: 14 de abril 2014. XBRL INTERNATIONAL INC. XBRL Internacional Consortium. 2014. Disponível em: <http://xbrl.org/>. Acesso em: 14 abr. 2014. ZHANG, K.; LI, A. ; SONG, B. Fraud Detection in Tax Declaration Using Ensemble ISGNN. In: COMPUTER SCIENCE AND INFORMATION ENGINEERING, 2009 WRI WORLD CONGRESS ON, 2009. Proceedings… 2009. Doi: 10.1109/CSIE.2009.73. Disponível em: <http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5170994&isnumber=51709 43>. Acesso em: 2 mar. 2014. 96 ANEXO A – LMDQL Forense EBNF <MDX_statement> ::= <select_statement> | <create_formula_statement> | <drop_formula_statement> <select_statement> ::= [$VARIABLE <variable_specification>] [WITH <formula_specification>] SELECT [<axis_specification> [, <axis_specification>...]] FROM [<cube_specification>] [WHERE [<slicer_specification>]] [<cell_props>] <variable_specification> ::= <member>.<identifier> [<or><member>.<identifier>…] <or> ::= | <formula_specification> ::= <single_formula_specification> [<single_formula_specification>...] <single_formula_specification> ::= <member_specification> | <set_specification> <member_specification> ::= MEMBER <member_name> AS <value_expression> [, <solve_order_specification>] [, <member_property_definition>...] <member_name> ::= <member>.<identifier> | <cube_name>.<member>.<identifier> <solve_order_specification> ::= SOLVE_ORDER = <unsigned_integer> <member_property_definition> ::= <identifier> = <value_expression> <set_specification> ::= SET <set_name> AS <set> <set_name> ::= <identifier> | <cube_name>.<identifier> <axis_specification> ::= [NON EMPTY] <set> [<dim_props>] ON <axis_name> <axis_name> ::= COLUMNS | ROWS | PAGES | CHAPTERS | SECTIONS | AXIS(<index>) <dim_props> ::= [DIMENSION] PROPERTIES <property> [, <property>...] cube_specification> ::= [<cube_name> [,<cube_name>...]] <slicer_specification> ::= {<set> | <tuple>} <cell_props> ::= [CELL] PROPERTIES <cell_property> [, <cell_property>...] <cell_property> ::= <mandatory_cell_property> | <optional_cell_property> | <provider_specific_cell_property> <mandatory_cell_property> ::= CELL_ORDINAL | VALUE | FORMATTED_VALUE <optional_cell_property> ::= FORMAT_STRING | FORE_COLOR | BACK_COLOR | FONT_NAME | FONT_SIZE | FONT_FLAGS <provider_specific_cell_property> ::= <identifier> <create_formula_statement> ::= CREATE [<scope>]<formula_specification> <drop_formula_statement> ::= <drop_member_statement> | <drop_set_statement> <drop_member_statement> ::= DROP MEMBER <member_name> [, <member_name>...] <drop_set_statement> ::= DROP SET <set_name> [, <set_name>...] <scope> := GLOBAL | SESSION <identifier> ::= <regular_identifier> | <delimited_identifier> <regular_identifier> ::= <alpha_char> [{<alpha_char> | <digit> | <underscore>}...] <delimited_identifier> ::= <start_delimiter>{<double_end_delimiter> | <nondelimit_end_symbol>} [{<double_end_delimiter> | <nondelimit_end_symbol> }...] 97 <end_delimiter> <start_delimiter> ::= <open_bracket> <end_delimiter> ::= <close_bracket> <double_end_delimiter> ::= <end_delimiter><end_delimiter> <nondelimit_end_symbol> ::= !! Any character except <end_delimiter> <cube_name> ::= [ [ [ <data_source>.] <catalog_name>.][<schema_name>.] <identifier> <data_source> ::= <identifier> <catalog_name> ::= <identifier> <schema_name> ::= <identifier> <dim_hier> ::= [<cube_name>.]<dimension_name> | [[<cube_name>.]< dimension_name>.]<hierarchy_name> <dimension_name> ::= <identifier> | <member>.DIMENSION | <level>.DIMENSION | <hierarchy>.DIMENSION <dimension> ::= <dimension_name> <hierarchy> ::= <hierarchy_name> <hierarchy_name> ::= <identifier> | < member>.HIERARCHY | <level>.HIERARCHY <level> ::= [<dim_hier>.]< identifier> | <dim_hier>.LEVELS(<index>) | <member>.LEVEL <member> ::= [<level>.]<identifier> | <dim_hier>.<identifier> | <member>.<identifier> | <member_value_expression> <property> ::= <mandatory_property> | <user_defined_property> <mandatory_property> ::= CATALOG_NAME | SCHEMA_NAME | CUBE_NAME | DIMENSION_UNIQUE_NAME | HIERARCHY_UNIQUE_NAME | LEVEL_UNIQUE_NAME | LEVEL_NUMBER | MEMBER_UNIQUE_NAME | MEMBER_NAME | MEMBER_TYPE | MEMBER_GUID | MEMBER_CAPTION | MEMBER_ORDINAL | CHILDREN_CARDINALITY | PARENT_LEVEL | PARENT_UNIQUE_NAME | PARENT_COUNT | DESCRIPTION <user_defined_property> ::= <dim_hier>.<identifier> | <level>.<identifier> | <member>.<identifier> <tuple> ::= <member> | (<member> [, <member>...]) | <tuple_value_expression> <set> ::= <member>:<member> | <set_value_expression> | <open_brace>[<set>|<tuple> [, <set>|<tuple>...]]<close_brace> | (<set>) <open_brace> ::= { <close_brace> ::= } <open_bracket> ::= [ 98 <close_bracket> ::= ] <open_parenthesis> ::= ( <close_parenthesis> ::= ) <underscore> ::= _ <alpha_char> ::= a | b | c | ...| z | A | B | C | ... | Z <digit> ::= 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 <value_expression> ::= <numeric_value_expression> | <string_value_expression> <numeric_value_expression> ::= <term> | <numeric_value_expression> {<plus | <minus>} <term> <term> ::= <factor> | <term> {<asterisk> | <solidus>| <exponentiation> | <root>} <factor> <factor> ::= [<sign>] <numeric_primary> <sign> ::= + | <plus> ::= + <minus> ::= <asterisk>::= * <solidus> ::= / <exponentiation> ::= ^ <root> ::= root <numeric_primary> ::= <value_expression_primary> | <numeric_value_function> <value_expression_primary> ::= <unsigned_numeric_literal> | (<value_expression>) | <character_string_literal> | [<cube_name>.]<tuple>[.VALUE] | <property>[.VALUE] | <conditional_expression> <conditional_expression> ::= <if_expression> | <case_expression> <if_expression> ::= IIF(<search_condition>, <true_part>, <false_part>) <true_part> ::= <value_expression> <false_part> ::= <value_expression> <case_expression> ::= <simple_case> | <searched_case> | <coalesce_empty> <simple_case> ::= CASE <case_operand> <simple_when_clause>... [<else_clause>] END <searched_case> ::= CASE <searched_when_clause>... [<else_clause>] END <simple_when_clause> ::= WHEN <when_operand> THEN <result> <searched_when_clause> ::= WHEN <search_condition> THEN <result> <else_clause> ::= ELSE <value_expression> <case_operand> ::= <value_expression> <when_operand> ::= <value_expression> <result> ::= <value_expression> <coalesce_empty> ::= COALESCEEMPTY (<value_expression> , <value_expression> [, <value_expression> ]...) <unsigned_numeric_literal> ::= <exact_numeric_literal> | <approximate_numeric_literal> <exact_numeric_literal> ::= <unsigned_integer>[.<unsigned_integer>] | <unsigned_integer>. | .<unsigned_integer> <unsigned_integer> ::= {<digit>}... <approximate_numeric_literal> ::= <mantissa>E<exponent> <mantissa> ::= < exact_numeric_literal> <exponent> ::= [<sign>]<unsigned_integer> <string_value_expression> ::= <value_expression_primary> | <string_value_expression> 99 <concatenation_operator> <value_expression_primary> <character_string_literal>::=<quote>[<character_representation>...] <quote> <character_representation> ::= <nonquote_character> | <quote_symbol> <nonquote_character> ::= !! Any character in the character set other than <quote> <quote_symbol> ::= <quote><quote> <quote> ::= ' <concatenation_operator> ::= || <index> ::= <numeric_value_expression> <percentage> ::= <numeric_value_expression> <set_value_expression> ::= <dim_hier>.MEMBERS | <level>.MEMBERS | <member>.CHILDREN | BOTTOMCOUNT(<set>, <index> [, <numeric_value_expression>]) | BOTTOMPERCENT(<set>, <percentage>, <numeric_value_expression>) | BOTTOMSUM(<set>, <numeric_value_expression>, <numeric_value_expression>) | CROSSJOIN(<set>, <set>) | DESCENDANTS(<member>, <level> [,<desc_flags>]) | DISTINCT(<set>) | DRILLDOWNLEVEL(<set> [, <level>]) | DRILLDOWNLEVELBOTTOM(<set>, <index> [,[<level>], <numeric_value_expression>]) | DRILLDOWNLEVELTOP(<set>, <index>[, [<level>] , <numeric_value_expression>]) | DRILLDOWNMEMBER(<set>, <set>[, RECURSIVE]) | DRILLDOWNMEMBERBOTTOM(<set>, <set>, <index> [, <numeric_value_expression>], RECURSIVE]) | DRILLDOWNMEMBERTOP(<set>, <set>, <index> [, [<numeric_value_expression>], RECURSIVE]) | DRILLUPLEVEL(<set>[, <level>]) | DRILLUPMEMBER(<set>, <set>) | EXCEPT(<set>, <set> [, [ALL]]) | EXTRACT(<set>, <dim_hier>[, <dim_hier>...]) | FILTER(<set>, <search_condition>) | GENERATE(<set>, <set> [, [ALL]]) | HIERARCHIZE(<set>) | INTERSECT(<set>, <set> [, [ALL]]) | LASTPERIODS(<index> [, <member>]) | MTD([<member>]) | ORDER(<set>, <value_expression> [, ASC | DESC | BASC | BDESC]) | PERIODSTODATE([<level>[, <member>]]) | QTD([<member>]) | TOGGLEDRILLSTATE(<set1>, <set2>[, RECURSIVE]) | TOPCOUNT(<set>, <index> [, <numeric_value_expression>]) | TOPPERCENT(<set>, <percentage>, <numeric_value_expression>) | TOPSUM(<set>, <numeric_value_expression>, <numeric_value_expression>) | UNION(<set>, <set> [, [ALL]]) | WTD([<member>]) | YTD(<member>) | OPERATORDEFINITION (<string_value_expression>, <string_value_expression> [,PARAM<open_parenthesis> <string_value_expression>... 100 <close_parenthesis>]) | HANALYSIS (<set>, <set><set>[<set>] [,<unsigned_numeric_literal>...]) | VANALYSIS (<member>, <set>) | CROSS (<member>[, <string_value_expression>...]) | NNEARESTVALUES (<member>, <unsigned_integer> [, ASC | DESC]) | NNEARESTVALUESPERCENTUAL (<member>, <unsigned_numeric_literal> [, ASC | DESC]) | EMPIRICALRULE (<member>, <set>, <set> ,<set>) | FIRSTDIGIT (<member>,<set>, <set> ,<string_value_expression>) | ZTEST (<numeric_value_expression>, <numeric_value_expression>, <unsigned_integer>, <unsigned_integer>, <unsigned_numeric>) | CHISQUAREDTEST (<numeric_value_expression>, <numeric_value_expression>, <unsigned_numeric>) <desc_flags> ::= SELF | AFTER | BEFORE | BEFORE_AND_AFTER | SELF_AND_AFTER | SELF_AND_BEFORE | SELF_BEFORE_AFTER <member_value_expression> ::= <member>.{PARENT | FIRSTCHILD | LASTCHILD | PREVMEMBER | NEXTMEMBER} | <member>.LEAD(<index>) | <member>.LAG(<index>) | <member>.{FIRSTSIBLING | LASTSIBLING} | <dimension>[.CURRENTMEMBER] | <dimension>.DEFAULTMEMBER | <hierarchy>.DEFAULTMEMBER | ANCESTOR(<member>, <level>) | CLOSINGPERIOD(<level>[, <member>]) | COUSIN(<member>, <member>) | OPENINGPERIOD(<level>[, <member>]) | PARALLELPERIOD([<level>[, <index> [, <member>]]]) <tuple_value_expression> ::= <set>.CURRENTMEMBER | <set>[.ITEM]({<string_value_expression> [, <string_value_expression>...]} | <index>) <boolean_primary> ::= <value_expression><comp_op><value_expression> alter_statement ::= <create_statement> | <remove_statement> | <move_statement> | <update_statement> <create_statement> ::= CREATE DIMENSION MEMBER <member_spec>, KEY='<key_value>' [[, <property_name>='<value>'] [, <property_name>='<value>']...] <remove_statement> ::= DROP DIMENSION MEMBER <member_spec> [WITH DESCENDANTS] <move_statement> ::= MOVE DIMENSION MEMBER <member_spec> [WITH DESCENDANTS] UNDER <member_spec> <update_statement> ::= UPDATE DIMENSION MEMBER <member_spec> [AS '<mdx_expression>', ] | <property_name>='<value>' [[, <property_name>='<value>']...] <numeric_value_function> ::= AGGREGATE(<set> [, <numeric_value_expression>]) AVG(<set>[, <numeric_value_expression>]) CORRELATION(<set> , <numeric_value_expression> [, <numeric_value_expression>]) COVARIANCE(<set>, <numeric_value_expression> [, <numeric_value_expression>]) COUNT(<set>[, INCLUDEEMPTY]) LINREGINTERCEPT(<set>, <numeric_value_expression> [, <numeric_value_expression>]) LINREGPOINT(<numeric_value_expression>, <set>, <numeric_value_expression> [,<numeric_value_expression>]) LINREGR2(<set>, <numeric_value_expression> [, <numeric_value_expression>]) LINREGSLOPE(<set>, <numeric_value_expression> [, <numeric_value_expression>]) LINREGVARIANCE(<set>, <numeric_value_expression> [, <numeric_value_expression>]) 101 MAX(<set>[, <numeric_value_expression>]) MEDIAN(<set>[, <numeric_value_expression>]) MIN(<set>[, <numeric_value_expression>]) RANK(<tuple>, <set>) STDEV(<set>[, <numeric_value_expression>]) SUM(<set>[, <numeric_value_expression>]) VAR(<set>[, <numeric_value_expression>]) SEPARATRIX (<set>, <member>, <unsigned_integer>) <search_condition> ::= <boolean_term> | <search_condition> {OR | XOR} <boolean_term> <boolean_term> ::= <boolean_factor> | <boolean_term> AND <boolean_factor> <boolean_factor> ::= [NOT] <boolean_primary> <boolean_primary> ::= <value_expression><comp_op><value_expression> | ISEMPTY(<value_expression>) | (<search_condition>) <comp_op> ::= <equals_operator> | <not_equals_operator> | <less_than_operator> | <greater_than_operator> | <less_than_or_equals_operator> | <greater_than_or_equals_operator> <equals_operator> ::= = <not_equals_operator> ::= <> <greater_than_operator> ::= > <less_than_operator> ::= < <greater_than_or_equals_operator> ::= >= <less_than_or_equals_operator> ::= <= 102 ANEXO B - Modelo de dados do XBRL Abstract model database