Inteligência em Fontes Abertas : Um Estudo sobre Extração de Informações
do Diário Oficial Da União1
Camilo Damasceno2, Dalyleide Coutinho3, Gabriel Silva4, Candido Salgado5
Resumo
Este trabalho apresenta a pesquisa que foi desenvolvida como projeto final do curso de
Bacharelado em Ciência da Computação. O problema inicial era como extrair as informações
do Diário Oficial da União - DOU da melhor maneira possível mantendo a qualidade, para que
a Controladoria Geral da União - CGU pudesse fazer uso dessas informações com o intuito de
auxiliar no combate a fraudes. Foi obtido como resultado desse trabalho, um protótipo que
realiza a extração das informações do DOU e disponibiliza uma base para que se possa ser
aplicados algoritmos de Data Mining.
Palavras-chave : DOU, CGU, CRISP-DM, Data Mining.
1.
Introdução
A CGU – Controladoria Geral da União é um orgão responsável em auxiliar o
Governo Federal no âmbito do Poder Executivo tanto em assuntos de patrimônio público quanto
em transparência geral. Diante disso, há necessidade de se auditar como está sendo feito o gasto
do dinheiro público, com o intuito de descobrir alguma fraude. Uma das fontes na qual a CGU
faz uso para auditar o gasto do dinheiro público é o DOU - Diário Oficial da União,
especificamente a seção 3, na qual há informações sobre contratos, editais, avisos e editoriais.
Visto a necessidade de se extrair informações do DOU, foi feito um estudo para
conseguir extrair essas informações da melhor maneira possível mantendo a qualidade da
informação, o que resultou em um prótotipo que faça essa dentre outras funcionalidade. Esse
prótotipo tem como objetivo auxiliar a extração de dados do DOU, tornando essa tarefa
automática e disponibilizando uma base de dados estruturada para que futuramente se possa
aplicar algoritmos de Data Mining. O protótipo desenvolvido utilizou como auxílio a
metodologia descrita na fase “Preparação de Dados” do CRISP-DM, que tem como objetivo criar
uma base que sirva de entrada para um Data Mining.
1
Projeto final do curso de Bacharelado em Ciência da Computação
Aluno do curso de Bacharelado em Ciência da Computação - [email protected]
3
Aluna do curso de Bacharelado em Ciência da Computação - [email protected]
4
Aluno do curso de Bacharelado em Ciência da Computação - [email protected]
5
Professor Orientador do projeto final - [email protected]
2
2. Referencial Teórico
Os DOU são disponibilizados em meio eletrônico, contemplam os atos
administrativos que por sua vez expõe informações sobre os Gastos do Governo e também tem a
vantagem de ser uma Fonte Aberta, essas fontes constituem o método mais barato de adquirir
informação, e dentre as classificações de fontes o jornal se classifica como Open Source
Intelligence - OSINT que seria a ‘Coleta de Informações em Fontes Publicas. Fazer uso desse
tipo de fonte traz beneficios à organização, dentre eles, prover os fundamentos para operações de
inteligência e não-inteligência.
Foi utilizado como referência um trabalho anteriormente desenvolvido, no qual tinha
como objetivo avaliar a importância de se utilizar o DOU como fonte para o auxílio no combate
a fraude. O trabalho também utilizou o CRISP-DM como referência, abordando somente as duas
primeiras fases da metodologia, que são : Entendimento do Negócio e Entendimento dos Dados.
Após ser feita a análise das informações publicadas no DOU, o trabalho utilizado como
referência obteve como resposta de que as informações seriam úteis, havendo portanto a
necessidade de se extrair e fazer o uso corretamente essas informações.
3. Metodologia
Diante do problema apresentado pela CGU, foi feito um estudo para identificar uma
solução tecnológica que melhor contribua para a resolução do problema. Com essa necessidade,
esse trabalho identificou a oportunidade de se desenvolver um software de extração de dados
baseando-se na metodologia do CRISP-DM.
Considerando a quantidade de informações contidas nos DOU e a falta de formatação da
mesma foi necessário o uso de um ciclo de inteligência para otimizar o uso delas. Este trabalho
não trata de todas as etapas previstas em um ciclo que se resumem basicamente em:
Planejamento, Coleta , Processo, Análise e Disseminação que devem ser executadas de forma
cíclica e quantas vezes for necessário. No trabalho em questão foi tratada apenas a etapa de
coleta, que cuida da obtenção e tratamento das informações, e essa pode ser considerada a etapa
mais importante. Atualmente as àreas de inteligencia do governo gastam de 80 à 90% de seus
investimentos em atividades de coleta de informação, isso prova que é mais importante ter o
dado do que conseguir classificá-lo.
Sabendo da atividade que deveria ser executada, para facilitar a obtenção de um resultado
satisfatório foi escolhida a metodologia CRISP-DM(Cross Industry Standard Process for Data
Mining), que é um modelo para se desenvolver um Data Mining. A Mineração de Dados, termo
traduzido para o português, é um processo que se é aplicado em grandes volumes de dados com o
intuito de se tentar extrair alguma informação útil, na qual não é descoberta fazendo análises
convencionais. O CRISP-DM é dívidido em fases, que são : Entendimento do Negócio,
Entendimento dos Dados, Preparação dos Dados, Modelagem, Evaluate, Deployment.
A fase na qual o projeto baseou-se foi somente a de Preparação de Dados, as primeiras
fases da metodologia foi abordada em um trabalho anterior, no qual teve como resultado a
importância de se extrair informações do DOU. A fase de Preparação de Dados tem como
objetivo construir um conjunto de dados que facilite a análise dos mesmos durante a obtenção de
conhecimento, que é feita em fases posteriores, isso seria extrair os dados não estruturados do
DOU e armazená-los em uma base estruturada. Para produzir o resultado previsto na fase, essa
propõe tarefas genéricas, que seria : Selecionar os Dados, Limpar os Dados, Construir os Dados,
Integrar os Dados e Formatar os Dados.
4. Resultados
O resultado obtido com a pesquisa foi o desenvolvimento de um protótipo que tem como
objetivo realizar a extração das informações presentes no DOU, e armazená-las de forma
estruturada, e disponibilizar uma interface para que se possa realizar pesquisas. O principal
objetivo da pesquisa era chegar ao final com uma solução de software que atendesse a
necessidade dos profissionais da CGU, sendo útil e prática para a realização de atividades
diárias, que seria a busca de informações no DOU, e esse resultado foi alcançado.
Atendendo a essa necessidade dos profissionais do CGU, e também visando a realização
de trabalhos futuros, o software desenvolvido irá disponibilizar uma base de dados estruturada
atualizada com informações relevantes. Essa base não terá o intuito de somente auxiliar a CGU
na extração das informações, mas também de prover uma base na qual se possa aplicar
algoritmos de Data Mining, e ajudar no processo de identificar irregularidades no setor público
através das informações publicadas no DOU.
5. Conclusão
O trabalho teve o resultado esperado, no qual foi o protótipo que resolveu o problema
inical proposto, além de fornecer uma base para que se possa desenvolver trabalhos futuros
voltados ao auxílio na identificação de fraudes. Ao realizar o trabalho houve grande motivação
por parte dos integrantes, devido a contribuição e a importância que o mesmo oferece ao ajudar
no trabalho que a CGU exerce, que em suma é o de fiscalizar se o Governo Público Federal está
fazendo o uso corretamente do dinheiro público, que é o dinheiro de todos os brasileiros que
pagam impostos. Sendo assim é esperado que esse trabalho seja continuado, com o intuito de ser
feita a identificação de fraudes com base nas informações do DOU.
6. Referências Bibliográficas
CHAPMAN, Pete; KERBER, Randy; CLINTON, Julian; KHABAZA, Thomas; REINARTZ,
Thomas, WIRTH, Rüdiger. The CRISP-DM Process Model. CRISP-DM consortium, 1999.
(Discussion Paper). Disponível em : <http://www.spss.ch/upload/1107356429_CrispDM1.0.pdf>.
Acessado em setembro 2011.
CIA, The Intelligence Cycle. Disponível em: < https://www.cia.gov/kids-page/612th-grade/who-we-are-what-we-do/the-intelligence-cycle.html>. Acesso em 22 set. 2010.
Imprensa Nacional. A imprensa nacional. Disponível em: < http://portal.in.gov.br/in/
imprensa1/a-imprensa-nacional/>. Acesso em 22 ago. 2011.
LARA ROCHA, João Paulo. Inteligência em fontes abertas : um estudo sobre descoberta de
conhecimento no Diário Oficial da União. 2011. 88 folhas. Mestrado em Gestão do
Conhecimento e da Tecnologia da Informação, Universidade Católica de Brasília, Brasília, 2011.
Download

Inteligência em Fontes Abertas - Universidade Católica de Brasília