Inteligência em Fontes Abertas : Um Estudo sobre Extração de Informações do Diário Oficial Da União1 Camilo Damasceno2, Dalyleide Coutinho3, Gabriel Silva4, Candido Salgado5 Resumo Este trabalho apresenta a pesquisa que foi desenvolvida como projeto final do curso de Bacharelado em Ciência da Computação. O problema inicial era como extrair as informações do Diário Oficial da União - DOU da melhor maneira possível mantendo a qualidade, para que a Controladoria Geral da União - CGU pudesse fazer uso dessas informações com o intuito de auxiliar no combate a fraudes. Foi obtido como resultado desse trabalho, um protótipo que realiza a extração das informações do DOU e disponibiliza uma base para que se possa ser aplicados algoritmos de Data Mining. Palavras-chave : DOU, CGU, CRISP-DM, Data Mining. 1. Introdução A CGU – Controladoria Geral da União é um orgão responsável em auxiliar o Governo Federal no âmbito do Poder Executivo tanto em assuntos de patrimônio público quanto em transparência geral. Diante disso, há necessidade de se auditar como está sendo feito o gasto do dinheiro público, com o intuito de descobrir alguma fraude. Uma das fontes na qual a CGU faz uso para auditar o gasto do dinheiro público é o DOU - Diário Oficial da União, especificamente a seção 3, na qual há informações sobre contratos, editais, avisos e editoriais. Visto a necessidade de se extrair informações do DOU, foi feito um estudo para conseguir extrair essas informações da melhor maneira possível mantendo a qualidade da informação, o que resultou em um prótotipo que faça essa dentre outras funcionalidade. Esse prótotipo tem como objetivo auxiliar a extração de dados do DOU, tornando essa tarefa automática e disponibilizando uma base de dados estruturada para que futuramente se possa aplicar algoritmos de Data Mining. O protótipo desenvolvido utilizou como auxílio a metodologia descrita na fase “Preparação de Dados” do CRISP-DM, que tem como objetivo criar uma base que sirva de entrada para um Data Mining. 1 Projeto final do curso de Bacharelado em Ciência da Computação Aluno do curso de Bacharelado em Ciência da Computação - [email protected] 3 Aluna do curso de Bacharelado em Ciência da Computação - [email protected] 4 Aluno do curso de Bacharelado em Ciência da Computação - [email protected] 5 Professor Orientador do projeto final - [email protected] 2 2. Referencial Teórico Os DOU são disponibilizados em meio eletrônico, contemplam os atos administrativos que por sua vez expõe informações sobre os Gastos do Governo e também tem a vantagem de ser uma Fonte Aberta, essas fontes constituem o método mais barato de adquirir informação, e dentre as classificações de fontes o jornal se classifica como Open Source Intelligence - OSINT que seria a ‘Coleta de Informações em Fontes Publicas. Fazer uso desse tipo de fonte traz beneficios à organização, dentre eles, prover os fundamentos para operações de inteligência e não-inteligência. Foi utilizado como referência um trabalho anteriormente desenvolvido, no qual tinha como objetivo avaliar a importância de se utilizar o DOU como fonte para o auxílio no combate a fraude. O trabalho também utilizou o CRISP-DM como referência, abordando somente as duas primeiras fases da metodologia, que são : Entendimento do Negócio e Entendimento dos Dados. Após ser feita a análise das informações publicadas no DOU, o trabalho utilizado como referência obteve como resposta de que as informações seriam úteis, havendo portanto a necessidade de se extrair e fazer o uso corretamente essas informações. 3. Metodologia Diante do problema apresentado pela CGU, foi feito um estudo para identificar uma solução tecnológica que melhor contribua para a resolução do problema. Com essa necessidade, esse trabalho identificou a oportunidade de se desenvolver um software de extração de dados baseando-se na metodologia do CRISP-DM. Considerando a quantidade de informações contidas nos DOU e a falta de formatação da mesma foi necessário o uso de um ciclo de inteligência para otimizar o uso delas. Este trabalho não trata de todas as etapas previstas em um ciclo que se resumem basicamente em: Planejamento, Coleta , Processo, Análise e Disseminação que devem ser executadas de forma cíclica e quantas vezes for necessário. No trabalho em questão foi tratada apenas a etapa de coleta, que cuida da obtenção e tratamento das informações, e essa pode ser considerada a etapa mais importante. Atualmente as àreas de inteligencia do governo gastam de 80 à 90% de seus investimentos em atividades de coleta de informação, isso prova que é mais importante ter o dado do que conseguir classificá-lo. Sabendo da atividade que deveria ser executada, para facilitar a obtenção de um resultado satisfatório foi escolhida a metodologia CRISP-DM(Cross Industry Standard Process for Data Mining), que é um modelo para se desenvolver um Data Mining. A Mineração de Dados, termo traduzido para o português, é um processo que se é aplicado em grandes volumes de dados com o intuito de se tentar extrair alguma informação útil, na qual não é descoberta fazendo análises convencionais. O CRISP-DM é dívidido em fases, que são : Entendimento do Negócio, Entendimento dos Dados, Preparação dos Dados, Modelagem, Evaluate, Deployment. A fase na qual o projeto baseou-se foi somente a de Preparação de Dados, as primeiras fases da metodologia foi abordada em um trabalho anterior, no qual teve como resultado a importância de se extrair informações do DOU. A fase de Preparação de Dados tem como objetivo construir um conjunto de dados que facilite a análise dos mesmos durante a obtenção de conhecimento, que é feita em fases posteriores, isso seria extrair os dados não estruturados do DOU e armazená-los em uma base estruturada. Para produzir o resultado previsto na fase, essa propõe tarefas genéricas, que seria : Selecionar os Dados, Limpar os Dados, Construir os Dados, Integrar os Dados e Formatar os Dados. 4. Resultados O resultado obtido com a pesquisa foi o desenvolvimento de um protótipo que tem como objetivo realizar a extração das informações presentes no DOU, e armazená-las de forma estruturada, e disponibilizar uma interface para que se possa realizar pesquisas. O principal objetivo da pesquisa era chegar ao final com uma solução de software que atendesse a necessidade dos profissionais da CGU, sendo útil e prática para a realização de atividades diárias, que seria a busca de informações no DOU, e esse resultado foi alcançado. Atendendo a essa necessidade dos profissionais do CGU, e também visando a realização de trabalhos futuros, o software desenvolvido irá disponibilizar uma base de dados estruturada atualizada com informações relevantes. Essa base não terá o intuito de somente auxiliar a CGU na extração das informações, mas também de prover uma base na qual se possa aplicar algoritmos de Data Mining, e ajudar no processo de identificar irregularidades no setor público através das informações publicadas no DOU. 5. Conclusão O trabalho teve o resultado esperado, no qual foi o protótipo que resolveu o problema inical proposto, além de fornecer uma base para que se possa desenvolver trabalhos futuros voltados ao auxílio na identificação de fraudes. Ao realizar o trabalho houve grande motivação por parte dos integrantes, devido a contribuição e a importância que o mesmo oferece ao ajudar no trabalho que a CGU exerce, que em suma é o de fiscalizar se o Governo Público Federal está fazendo o uso corretamente do dinheiro público, que é o dinheiro de todos os brasileiros que pagam impostos. Sendo assim é esperado que esse trabalho seja continuado, com o intuito de ser feita a identificação de fraudes com base nas informações do DOU. 6. Referências Bibliográficas CHAPMAN, Pete; KERBER, Randy; CLINTON, Julian; KHABAZA, Thomas; REINARTZ, Thomas, WIRTH, Rüdiger. The CRISP-DM Process Model. CRISP-DM consortium, 1999. (Discussion Paper). Disponível em : <http://www.spss.ch/upload/1107356429_CrispDM1.0.pdf>. Acessado em setembro 2011. CIA, The Intelligence Cycle. Disponível em: < https://www.cia.gov/kids-page/612th-grade/who-we-are-what-we-do/the-intelligence-cycle.html>. Acesso em 22 set. 2010. Imprensa Nacional. A imprensa nacional. Disponível em: < http://portal.in.gov.br/in/ imprensa1/a-imprensa-nacional/>. Acesso em 22 ago. 2011. LARA ROCHA, João Paulo. Inteligência em fontes abertas : um estudo sobre descoberta de conhecimento no Diário Oficial da União. 2011. 88 folhas. Mestrado em Gestão do Conhecimento e da Tecnologia da Informação, Universidade Católica de Brasília, Brasília, 2011.