Aplicação de Data Warehousing
no Cadastro de Ficha Limpa do TSE
Mateus Ferreira Silva, Luís Gustavo Corrêa Lira, Marcelo Fernandes Antunes, Tatiana Escovedo, Rubens N. Melo
[email protected], [email protected], [email protected],
{tatiana,rubens}@inf.puc-rio.br
Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio)
Rua Marquês de São Vicente, 225, Rio de Janeiro, RJ, 22453-900, Brasil
Resumo - Este trabalho apresenta uma solução de Data
Warehousing para o cadastro de ficha limpa dos candidatos a
cargos públicos eletivos. A solução propõe disponibilizar dados
modelados de forma multidimensional para análise através de
ferramenta OLAP ou de um dashboard, com a finalidade do
eleitor ter mais informações sobre os candidatos ou partidos em
que irá votar.
Palavras-Chave: Data Warehousing; Eleição; Ficha Limpa;
OLAP; Voto.
Abstract - This paper presents a solution of Data Warehousing
for the registration of clean form of candidates for elective public
office. A solution is proposed to provide multidimensional data
modeled so through OLAP analysis tool or a dashboard, with a
purpose of the voter to have more information about candidates
or political parties will vote.
Keywords: Data Warehousing; Election; Clean Form; OLAP;
Vote. (Keywords)
I. INTRODUÇÃO
As escolhas eleitorais da maior parte da população
brasileira são definidas por critérios emocionais e poucas vezes
objetivos, baseadas na imagem que os candidatos passam
através dos meios de comunicação, onde a confiança e a
simpatia influenciam diretamente na escolha do voto [2].
A internet pode servir como meio para o eleitor pesquisar e
analisar o perfil dos candidatos de forma mais objetiva e
imparcial. Entretanto, segundo pesquisa do Tribunal Superior
Eleitoral (TSE) realizada em 2010, somente 9,9% dos
entrevistados utilizam a internet como fonte de informação
para a escolha dos candidatos [3].
O TSE possui um cadastro sobre os candidatos, informando
o status de elegibilidade, o resultado da eleição, além de outros
dados, como: partido, escolaridade, sexo, cargo político, etc.
Estas informações são apresentadas no seu sítio, através de um
front-end web, sem permitir que o usuário realize uma análise
crítica e apurada. Apesar desta iniciativa, ainda existe uma
carência de ferramentas que possibilitem a consolidação e o
cruzamento destes dados para uma melhor análise do perfil dos
candidatos.
Este artigo está dividido em cinco seções, a seção I
apresenta a introdução, motivação e objetivo do trabalho. Na
seção II será apresentada a proposta da solução, como foi
realizado levantamento de requisitos e visão geral da solução.
Enquanto na seção III será detalhada a solução, como foi
realizado o projeto do Data Warehouse. A seção IV
apresentará a implementação e resultados, como foram
executados os processos de: Extração, Transformação e Carga
dos dados (ETL), geração dos relatórios e construção do
dashboard. Por fim, na seção V serão apresentadas as
considerações finais sobre o trabalho de pesquisa realizado e
sugestões para trabalhos futuros.
A. Motivação
Há muito tempo a população brasileira necessita de maiores
informações dos candidatos e partidos nos quais ela irá votar.
Atualmente, existe uma dificuldade de apresentação destas
informações para uma análise crítica. Em 2010, a partir da
sanção da lei complementar n° 135, foi concretizado um
projeto iniciado em 2009 através de uma iniciativa da
sociedade civil brasileira que veio para ajudar a dirimir a falta
destas informações. Esta lei, conhecida pela expressão “Ficha
Limpa”, estabelece de acordo com o § 9o do art. 14 da
Constituição Federal, casos de inelegibilidade e prazos de
cessação.
Uma das formas de solucionar a dificuldade supracitada é a
utilização de Business Intelligence (BI), que pode ser utilizado
para realizar o processo de transformação e consolidação de
dados para as análises.
BI é uma estratégia que abrange pessoas, processos e
ferramentas para organizar as informações, permitindo o acesso
e análise para melhoria no processo de decisão e para gerir
melhor o desempenho das organizações [1].
Existem vários processos e tecnologias que suportam BI nas
organizações, entre eles: Data Warehouse (DW); ETL; Online
Analytical Processing (OLAP), Dashboard, etc.
Um dos elementos mais importante da arquitetura BI é o
DW, que é um grande banco de dados com a função de
disponibilizar informações de forma rápida, fácil, consistente e
segura. A arquitetura implementada precisa ser adaptável às
mudanças nas regras de negócios e devem impactar
minimamente as aplicações existentes [4]. Outro elemento
importante são as ferramentas ETL que automatizam o
processo de conversão, formatação e integração dos dados
oriundos de múltiplas fontes de dados legadas [5].
OLAP é um processo interativo capaz de criar, manipular e
analisar dados em um DW. Através de geração de relatórios,
estes dados são transformados em informações. A
representação dos dados analisados é semelhante a um array de
dados em múltiplas dimensões que é chamado de cubo OLAP
[6]. Além da utilização de recursos para a análise dos dados
como o OLAP, podemos também utilizar o dashboard, que são
painéis de indicadores com o objetivo de fornecer uma
visualização gráfica e dinâmica do desempenho do negócio
através de dados agregados e indicadores.
O uso de BI nos dados do cadastro de Ficha Limpa
permitirá a população brasileira conhecer melhor o perfil dos
candidatos a cargos eletivos de forma mais transparente,
ajudando o eleitor a decidir melhor em quem votar, e assim,
interferindo positivamente no processo político do país.
B. Objetivo
Este trabalho tem como objetivo criar um ambiente de BI
para a análise multidimensional dos dados do cadastro Ficha
Limpa. Será criado um Data Warehouse, onde através de um
processo ETL serão carregados os dados. Os resultados serão
apresentados através de gráficos e relatórios gerados pelas
ferramentas SQL Server Analysis Service (SSAS) e Qlik View.
II.
PROPOSTA DA SOLUÇÃO
A solução proposta é criar um Data Warehouse, com um
modelo de dados multidimensional, implementado em um
banco de dados relacional Oracle, utilizando ferramentas para
criação e visualização do cubo e implementação de um
dashboard.
Com o objetivo de determinar os dados necessários para
alimentar o DW e as análises para o eleitor, realizamos um
brainstorm para levantar os requisitos de informação. Na
qualidade de eleitores podemos identificar que os requisitos
necessários são: dados dos candidatos, como: nome, sexo,
profissão, escolaridade, etc.; cargos políticos; partidos
políticos; situação de candidatura, como: elegibilidade e
resultado da eleição; ano e local da eleição. E também foram
levantadas as necessidades das medidas: total de fichas,
quantidade e percentual de fichas aptas e inaptas e o valor da
campanha. Na tabela I estão listados os requisitos levantados e
validados.
TABELA I – Lista de requisitos de informação
Requisitos de Informação
1
Informações do candidato (Nome, Estado Civil, Grau de Instrução,
Profissão, Sexo, Idade, Faixa Etária, Naturalidade e Nacionalidade).
2
Local da eleição (Município, Estado e Região).
3
Ano da eleição
4
Partidos políticos
5
Cargos políticos
6
Informações sobre a candidatura (Elegibilidade, Descrição da
Elegibilidade, Resultado da Eleição e Prestação de Contas).
7
Informações sobre as fichas do candidato (Total de Fichas,
Quantidade e Percentual de Fichas Aptas e Inaptas).
8
Valor da Campanha
9
Percentual de fichas Inaptas por Grau de Instrução, Faixa Etária e
Estado Civil.
10
Percentual de Fichas Inaptas por Região e Estado.
11
Percentual de Fichas Inaptas por Partido Político.
12
Percentual de Fichas Inaptas por Cargo Político.
13
Candidatos Inaptos que foram Eleitos.
14
Painel com indicadores.
A partir dos requisitos foram selecionados os dados
extraídos
do
sítio
do
TSE
<http://divulgacand2010.tse.jus.br/divulgacand2010>
em
formato de arquivo com valores separados por vírgula (csv) e
carregados no banco de dados através de uma ferramenta ETL.
Estes dados possuem informações públicas sobre os candidatos
a cargos eletivos.
III.
DETALHAMENTO DA SOLUÇÃO
Para facilitar o processo de Data Warehousing desta
solução, os dados dos arquivos csv são carregados em um
esquema de banco de dados, passando por um processo ETL e
carregados em uma área de tratamento (staging area), em
seguida ocorre a carga de dados para o modelo
multidimensional proposto e a partir dele será gerado um cubo
multidimensional, que pode ser acessado através de drivers
ODBC (Open Data Base Connectivity) ou por serviço de
dados disponibilizados por ferramentas como o SQL Server
Analysis Services. Através das ferramentas escolhidas são
gerados os relatórios analíticos e os gráficos. A Figura 7
ilustra a arquitetura da solução proposta, demonstrando o
fluxo de dados dentro do processo.
Figura 3 - Modelo Multidimensional
Figura 1 – Arquitetura da Solução
A modelagem de dados escolhida para o Data Warehouse
foi do tipo esquema-estrela, com a tabela fato exibindo a
quantidade de fichas, o valor de campanhas e quantidade de
fichas aptas e inaptas relativas às seis dimensões: Campanha,
Candidato, Cargo Político, Partido, Tempo e Local.
A figura 3 representa o modelo lógico de dados construído,
que possui seis tabelas dimensão e uma tabela fato. A tabela
fato (FATO_PERFIL_CANDIDATO) possui as medidas de
número de fichas de candidatos, número de fichas aptas e
inaptas e valor das campanhas. O número de fichas aptas e
inaptas servirá para calcular a porcentagem destas fichas sobre
o total. Os dados sobre o valor da campanha não estão
disponíveis no site do TSE.
Os dados sobre os candidatos como nome, estado civil,
sexo, profissão, idade, naturalidade e nacionalidade foram
representadas na tabela dimensão DIME_CANDIDATO. Para
facilitar as análises foi adicionado um atributo com a faixa
etária de 10 em 10 anos.
A tabela dimensão DIME_CAMPANHA possui dados
sobre a candidatura dos candidatos, como: resultado da
eleição, situação do registro e prestação de contas.
As
tabelas
dimensão
DIME_PARTIDO,
DIME_CARGO_POLITICO,
DIME_LOCAL
e
DIME_TEMPO referem-se aos dados do partido, cargo
político, local da eleição e ano da eleição, respectivamente.
Para as tabelas de dimensão DIME_LOCAL,
DIME_CAMPANHA,
DIME_TEMPO,
DIME_CARGO_POLITICO
foram
utilizadas
chaves
surrogates, devido à ausência das chaves naturais na origem,
somente a tabela DIME_PARTIDO foi utilizado uma chave
natural. Apesar de o candidato possuir código, havia repetição
de códigos para candidatos diferentes, logo, foi utilizada
também uma chave surrogate como chave primária da tabela
DIME_CANDIDATO. A chave primária da tabela fato é
composta pelas chaves estrangeiras das tabelas dimensão.
IV.
IMPLEMENTAÇÃO E RESULTADOS
Para extração de dados foi utilizada a ferramenta SQL
Server Integration Service (SSIS). Os arquivos csv foram
carregados por esta ferramenta para uma tabela
desnormalizada que possui todos os atributos existentes nos
arquivos de origem dos dados.
Houve necessidade de correção de dados de forma manual e
automatizada, pois havia duplicidade de registros e não
existiam informações das regiões, além de haver informações
incorretas, como por exemplo: formato errado da data de
nascimento do candidato.
Para criar o cubo OLAP foi utilizada a ferramenta SQL
Server Analysis Services (SSAS), que a partir de uma conexão
ODBC com o banco de dados foram selecionadas todas as
tabelas dimensão e a tabela fato do modelo de dados proposto.
Das tabelas dimensão foram escolhidos os atributos que
compõem o cubo como: cidade, ano da eleição, idade, etc.
Também foram criadas hierarquias da dimensão de local,
como: município, estado e região. A porcentagem dos
candidatos aptos e inaptos foi calculada através de uma função
do SSAS.
Para visualizar o cubo e gerar gráficos e relatórios
dinâmicos foi utilizado o Microsoft Excel, que apresenta as
medidas contidas no fato: número de fichas, valor da(s)
campanha(s), porcentagem de fichas aptas e inaptas, de acordo
com as dimensões escolhidas de forma dinâmica. Algumas
análises que podem ser feitas de acordo com alguns requisitos
de informação identificados são ilustrados na tabela II.
os eleitores entendam como utilizar as ferramentas e as
informações, uma vez que que nem toda população brasileira
possui um perfil educacional mínimo necessário. Uma
alternativa para este problema seria que o usuário da solução
fosse alguma entidade independente ou os meios de
comunicação existentes, de forma a realizar as análises dos
dados para disponibilizar aos eleitores.
Uma análise muito importante que pode ser realizada
através da dimensão Partido é que em 2010 o PCO teve um
alto índice (70%) de candidatos que foram considerados
inaptos (Figura 3).
TABELA II - Requisitos de Informação x Análises
Requisitos de Informação
Percentual de fichas Inaptas por Grau
de Instrução, Faixa Etária e Estado
Civil.
Percentual de Fichas Inaptas por
Região e Estado.
Percentual de Fichas Inaptas por
Partido Político.
Percentual de Fichas Inaptas por
Cargo Político.
Histórico do candidato
Candidatos Inaptos que foram Eleitos.
Análises
Gráficos por grau de instrução, faixa
etária e estado civil.
Gráficos por região e estado.
Gráfico por partido político.
Gráfico por cargo político.
Relatório
com
histórico
do
candidato com candidaturas e
elegibilidade
Relatório com candidatos inaptos e
eleitos.
Outra forma de visualização dos dados pode ser feita pelo
dashboard, que foi criado através da ferramenta QlikView.
Esta ferramenta se conecta com o banco de dados e em
seguida mapeia as tabelas para a carga de dados, onde são
escolhidos os atributos das dimensões selecionadas, como:
partido, tempo, ano da eleição, etc. Logo após, é possível ver
os dados apresentados em um painel através de indicadores
gráficos dos tipos: mostrador e de barras, utilizando o recurso
de lista, que permite a mudança dos gráficos de forma
dinâmica. Além disso, foram criados indicadores de percentual
de candidatos aptos e inaptos, que podem ser analisados de
acordo com as dimensões escolhidas pelo usuário.
A partir das ferramentas escolhidas foram gerados
relatórios e dashboard para que o eleitor possa analisar o
perfil do candidato e do partido que estão concorrendo a
cargos eletivos. Entretanto, apesar das ferramentas SSAS e
QlikView serem bastante ricas para a análise das informações,
é necessário disponibilizar estes dados através de uma
interface mais acessível, como por exemplo: uma aplicação na
web. Outro problema é encontrar uma forma de fazer com que
Figura 3 – Gráfico por partido político
A figura 4 ilustra a distribuição dos candidatos inaptos por
grau de instrução, onde o eleitor pode observar que os
candidatos com maior escolaridade (superior completo)
possuem o menor índice de inaptos (14%). Entretanto, neste
caso não houve como estabelecer uma razão direta das
variáveis: escolaridade e percentual de ficha inapta, visto que
os candidatos analfabetos (20%) possuem menor índice de
inaptos em relação aos que possuem o ensino médio completo
(20,54%), e os que possuem o ensino fundamental incompleto
(21,64%) tem uma menor incidência em relação aos que
possuem o ensino fundamental completo (22,20%).
Figura 4 – Gráfico por grau de instrução do candidato
V. CONCLUSÃO
O uso de técnicas de BI para análise de dados pode ser
utilizado em diversas áreas de negócios, inclusive em áreas
governamentais, como pôde ser constatado durante a
construção deste trabalho. O uso de Data Warehousing no
cadastro de ficha limpa do TSE fornece um importante
mecanismo para a tomada de decisão na escolha do candidato
pelo eleitor, contribuindo de forma positiva no processo
eleitoral brasileiro.
Podemos ainda perceber, que a falta de dados referentes aos
anos anteriores a 2010 impossibilitou a análise histórica anual
dos perfis das fichas dos candidatos, além da falta de
informações com o valor das campanhas que não nos
permitiram fazer uma análise mais detalhada. Foram
detectados vários problemas de qualidade de dados, como: a
indisponibilidade, a falta de acurácia e de completeza dos
dados. Seria interessante, que outras fontes de dados fossem
inseridas na solução proposta, como: dados do imposto de
renda, histórico de projeto do parlamentar, seus gastos, etc.
Apesar de BI possuir ferramentas para análise de dados, o
seu acesso e entendimento pelo eleitor ainda não é uma
realidade, devido ao perfil educacional da população brasileira
não ser adequado para tal propósito. Entretanto, para validar
tal afirmação seria necessário disponibilizar a solução para o
público e realizar uma pesquisa para verificar a eficácia da
utilização da(s) ferramenta(s). Além disso, o uso dessas
ferramentas é pouco difundido, sendo necessário obter
mecanismos para que essas análises sejam disponibilizadas
para todos os eleitores brasileiros de uma forma mais simples,
como por exemplo, alguma entidade independente realizar
estas análises e divulgá-las através dos meios de comunicação.
Para complementar este trabalho, o cubo gerado pode ser
disponibilizado numa ferramenta web para acesso pela
internet, e pode-se também utilizar técnicas de mineração de
dados para identificar padrões do perfil do candidato. Além
disso, outras fontes de dados podem ser adicionadas para o
cruzamento das informações, conforme citado anteriormente.
Não conseguimos identificar trabalhos correlatos sobre o
assunto abordado neste artigo, talvez pelo fato da sanção da lei
Ficha Limpa ter ocorrido somente em 2010.
Este trabalho apresentou a aplicação de Data Warehousing
no cadastro de Ficha Limpa do TSE, a seção II descreveu a
proposta da solução utilizando Data Warehouse em um
modelo multidimensional. Além disso, foi apresentada a
análise de requisitos realizada. Da mesma forma na seção III
foi detalhada a implementação da solução: processo ETL,
modelagem de dados e acesso aos dados; a arquitetura da
solução foi ilustrada na figura 1 e o modelo de dados proposto
é apresentado na figura 2. Na seção IV foram apresentadas as
ferramentas de BI utilizadas para os processos de ETL, cubo
OLAP e dashboard e também a ilustração de alguns requisitos
na tabela I e alguns resultados através de gráficos nas figuras 3
e 4, os resultados apresentados apenas ilustram as
potencialidades da solução, mas outras análises mais
complexas poderão ser realizadas
REFERÊNCIAS
[1]
Gartner
Business
Intelligence
(BI).
Disponível
em:
<http://www.gartner.com/technology/it-glossary/businessintelligence.jsp>. Acessado em: outubro/2011.
[2] E. Radmann. O Eleitor Brasileiro: uma análise do comportamento
eleitoral. Porto Alegre: Universidade Federal do Rio Grande do Sul, 2001.
[3] TSE. Tribunal Superior Eleitoral. Disponível em: <http://www.tse.jus.br >.
Acessado em: outubro/2011.
[4] R.
Kimball, R. Margy. Data Warehouse Toolkit: Pratical Techniques for
Building Dimensional Data Warehouses. 2ª ed. New York: John Wiley & Sons,
2002.
[5] W. Inmon. Building the Data Warehouse. New York: John Wiley & Sons,
2002.
[6] C. J. Date. Introdução a Sistema de Banco de Dados. 8ª ed. Rio de Janeiro:
Campos, 2003.
Download

Aplicação de Data Warehousing no Cadastro de Ficha Limpa do TSE