Mineração de dados: um estudo de caso de concessão de crédito
explorando o software Weka
Andreia Smiderle, Alessandra Marchiori de Oliveira
Depto de Sistemas de Informação, Faculdade MATER DEI,
85501-030, Pato Branco, PR
E-mail: [email protected], [email protected]
A sociedade está inserida em uma época, onde a
informação e o conhecimento exercem papéis
fundamentais e estão se disseminando em toda
parte. Com o advento da informática, as pessoas em
geral e as organizações passaram a fazer grande uso
da informação e, a partir disso, novas formas de
armazenamento
surgiram.
Então,
busca-se
aproveitar de maneira otimizada a grande
quantidade de informações que existe nos bancos de
dados informatizados das organizações, para
melhorar a sua performance perante o mercado
competitivo e auxiliar na importante tarefa de
tomada de decisão. Porém, surge a questão, em que
um grande banco de dados pode influenciar na
tomada de decisão? Em muitos aspectos, pois destes
bancos de dados pode-se extrair conhecimentos
valiosos e úteis como, por exemplo, construção de
perfis de consumidores.
No entanto, devido ao seu grande volume de
“dados”, que ultrapassam a habilidade técnica e a
capacidade humana de interpretação, a maioria das
organizações é incapaz de aproveitar totalmente o
que está armazenado em seus arquivos. Para suprir a
ineficiência da habilidade técnica e a capacidade
humana em filtrar uma informação de um banco de
dados surge o KDD – Knowledge Discovery in
Database (Descoberta de Conhecimento) como
ferramenta para viabilizar a análise de grandes
bancos de dados.
A descoberta de conhecimento em bases de dados
é um processo que envolve a automação da
identificação e do reconhecimento de padrões em
um banco de dados. Sua principal característica é a
extração não trivial de informações a partir de uma
base de dados de grande porte, identificando
padrões
em
dados
que
sejam válidos,
potencialmente úteis e compreensíveis, de acordo
com [3].
Neste contexto, surge o Data Mining que é o
procedimento que define o processo extração e
análise de enormes conjuntos de dados, na maioria
das vezes desordenados, para então extrair um
significado. Essa tecnologia está sendo usada para
descrever características do passado, assim como
reconhecer tendências para o futuro. Sua utilização
permite avanços tecnológicos e descobertas
científicas, fornecendo às organizações estratégias
fundamentais para obter conhecimento sobre seu
próprio negócio, além de garantir uma vantagem
competitiva invejável. O administrador necessita, hoje,
saber como obter o máximo de informações úteis e como
utilizá-las adequadamente.
Hoje, as organizações têm grandes dificuldades em
conhecer seus atuais e em avaliar seus novos clientes,
bem como lhes conceder crédito. Desta forma, justificase o estudo de caso proposto neste trabalho, onde se
busca obter informações úteis de uma grande quantidade
de dados.
Com a descoberta do conhecimento (informações) as
organizações passam a construir seus sistemas de apoio à
decisão, seu marketing direcionado, sua forma de
concessão de crédito (limite) e, até mesmo, traçando o
perfil de seus clientes. Assim, organizações que detém ou
fornecem o conhecimento adquirido com confiabilidade,
rapidez e de forma organizada, têm grandes chances de
permanecerem de forma competitiva no mercado, e esta é
uma das poucas áreas de negócios em que se conseguem
vantagens competitivas.
O objetivo principal deste estudo é minerar a base de
dados dos clientes “encarteirados” da empresa, buscando
utilizar as características de clientes adimplentes e
inadimplentes como conhecimento prévio para agilizar a
operação de concessão de crédito a novos clientes. Bem
como transformar os dados dos clientes armazenados no
banco da organização em subsídios que auxiliem na
tomada de decisão; utilizar regras de classificação para
analisar e classificar novos clientes para concessão de
créditos e explorar algoritmos do Software Weka
buscando identificar aquele que melhor se adapta para
este estudo de caso, de acordo com a confiabilidade do
mesmo.
De acordo com [2] uma organização ou empresa é:
“um grupo de pessoas, que trabalham juntas, sob
orientação de um líder, visando a consecução de um
objetivo”. Ou ainda, segundo [2] “uma integração
impessoal, altamente racionalizada, de um grande
número de especialistas que operam para atingir algum
objetivo e sobre a qual é importante uma estrutura de
autoridade altamente elaborada”.
Para as organizações o objetivo principal é obter lucro,
que só poderá ser alcançando com a obtenção e
fidelização dos clientes. Para [1] “cliente é a pessoa que
recebe os produtos ou serviços resultantes de um
processo, no intuito de satisfazer suas necessidades e de
cuja aceitação depende a sobrevivência de quem os
fornece”.
Mas, infelizmente, a relação entre a organização e
seus clientes pode não ser amigável quando o
assunto é crédito. Analisar um crédito significa
avaliar os riscos envolvidos em um negócio e a
capacidade do cliente liquidar a dívida nas
condições contratadas. As empresas tentam
prevenir-se dos novos clientes que tem uma forte
tendência a serem inadimplentes da melhor forma
possível: fazendo uma ficha cadastral, consultando
outras empresas onde o cliente já compra,
consultando o Serasa (Centralização de Serviços dos
Bancos S.A.), SPC (Serviço de Proteção ao Crédito)
e outros órgãos especializados. Desta forma, buscase minimizar o prejuízo e, é possível que durante o
detalhamento da carteira, identifiquem-se quais
produtos este cliente consome, a qual região
pertence e de que maneira cumpre seus
compromissos. Vale lembrar que, apesar de
conhecer
o
comportamento
do
cliente
“encarteirado”, sempre existe o risco de
inadimplência, ou seja, que esta pessoa falte ao
cumprimento de suas obrigações no prazo
estipulado.
Segundo [1] a concessão de crédito e as práticas
de cobrança influenciam grandemente os volumes
de venda e níveis de receita alcançados pelo
vendedor. Decisões creditícias altamente restritivas
aceitam somente as contas com solvência, mas
podem perder vendas e receitas. Por outro lado, o
acompanhamento agressivo de cobrança pode gerar
relações problemáticas com os clientes.
Assim como existem os 4P´s (Praça, Preço,
Promoção, Produto), os 4A´s (Análise, Adaptação,
Ativação, Avaliação) que são muito utilizados pelos
agentes de marketing, na hora de planejar uma nova
estratégia de mercado, também existem os 5C´s que
auxiliam como roteiro para a investigação de
crédito, facilitando que nenhum aspecto relevante
seja ignorado ou esquecido ao avaliar uma ficha
cadastral: Caráter, Capacidade, Capital; Colateral e
Condições.
Ações desta natureza reforçam a imagem da
organização perante o seu cliente, dando-lhe a
sensação de contar com sua organização nos
momentos difíceis ou importantes para o seu
crescimento ou necessidades diversas. O
monitoramento gera uma fotografia precisa dos
negócios, permitindo traçar estratégias de
crescimento e rentabilidade da carteira, reduzindo
perdas e aumento a receita.
lento, impreciso, manual e com uma grande
probabilidade de erros. Por mais que sejam consultadas
outras organizações onde o cliente já possua um
“relacionamento”, verifique-se SPC e Serasa, pode ficar
omitido algo importante que traz a possibilidade de, mais
tarde, ocasionar problemas maiores.
A concessão de crédito ocorre após uma pesquisa de
alguns dados fundamentais do cliente, como: nome e
endereço completo, data de nascimento, naturalidade,
número de CPF e RG, condição da moradia, empresa
onde trabalha, cargo que ocupa, renda média mensal,
estado civil, nome do cônjuge, data de nascimento de
cônjuge, filiação, bancos que opera, referências
comerciais e relação de bens.
Sendo que os dados mais relevantes são os
pesquisados nas referências comerciais, que são: tempo
de relação com o fornecedor, o valor da maior compra, o
valor médio mensal de compras, data e valor da última
compra, forma de pagamento, pontualidade e o conceito
que esta referência comercial tem sobre o cliente
pesquisado: ótimo, bom ou ruim.
Aplicação das ferramentas de Data
Mining como proposta de análise para
a concessão de crédito
Com as ferramentas do Data Mining pode-se extrair
informações não triviais e também podem ser definidos
os campos a serem analisados, de acordo com a
necessidade de implementação, de acordo com [4].
Assim, no caso específico deste estudo, ele irá confrontar
as informações dos clientes já existentes no banco de
dados, buscando uma regra de classificação em
adimplente e inadimplente, e depois comparando o perfil
do novo cliente, classificando-o de acordo com a regra.
Para isso, foram realizados testes utilizando 29
atributos que a organização considera relevante para a
concessão de crédito a seus clientes. Os atributos
relevantes são informados por outras organizações onde
o cliente já tem relacionamento, que são tempo de
relação com o fornecedor, forma de pagamento, o valor
médio mensal de compras, o valor da maior compra, data
da maior compra, valor da última compra, data da última
compra, pontualidade e o conceito que esta referência
comercial tem sobre o cliente pesquisado: ótimo, bom,
ruim ou inativo. Essas referências são consideradas 3
vezes, pois são consultadas três organizações diferentes
para se obter o maior número de informações possíveis.
Ainda são consultados o SPC, Serasa ou outros órgãos
qualificados. E o último atributo seria a “opinião” da
Descrição do processo utilizado pessoa que está preenchendo o cadastro, se ela concederá
crédito ao cliente ou não, baseada nas informações que
pela organização
ela obteve nos contatos indicados.
No desenvolvimento deste estudo, três etapas foram
Atualmente, o sistema de crédito da organização é realizadas: na primeira etapa foram utilizados vários
testes com diversos algoritmos e, a partir dos
resultados destes testes, de acordo com a
confiabilidade dos mesmos, partiu-se para as
segunda e terceira etapas, que foram as de
treinamento, classificação e inclusão de novos
clientes. Este estudo foi desenvolvido com o
software Weka.
O Weka é uma ferramenta de Data Mining
desenvolvida pela Universidade de Waikato (Nova
Zelândia), que vem sendo utilizado em pesquisas na
área de aprendizagem de máquinas, pois
disponibiliza componentes que auxiliam a
implementação de classificação e agrupamentos,
este ambiente também permite que novos algoritmos
sejam comparados a outros já consolidados na área
de aprendizagem. Com este pacote podemos obter
resultados estatísticos comparativos da execução
simultânea de diversos programas de aprendizagem
em domínios variados.
O Weka é formado por um conjunto de pacotes,
que são: attribute selection (seleção de atributos),
classifiers (implementação de algoritmos de
aprendizagem
supervisionada),
clustering
(implementação de algoritmos de aprendizado não
supervisionado), association rules (generalização
de regras de associação usando taxonomias), filters
(seleção de instância de uma base) e estimators
(estimadores).
Attribute Selection é usado como o próprio nome
diz para selecionar atributos de uma base de dados
para a extração de padrões. O Classifiers é formado
por implementações de algoritmos de aprendizagem,
tais como: IBK (K-nearest neighbor), o J48.J48 e
J48.PART. Cluster contém uma implementação de
dois métodos de aprendizagem não supervisionada:
Cobweb e o algoritmo EM. O Associations contém
duas classes, ItemSet e Apriori, que juntos
implementam esse algoritmo. Estimators contém
subclasses que são utilizadas pelo algoritmo Naive
Bayes para computar os diferentes tipos de
distribuição de probabilidade. Filters permite aos
usuários selecionar um subconjunto de atributos ou
selecionar um subconjunto de instâncias de dados
baseada em algum critério.
A ferramenta Weka dispõe também de métodos de
meta aprendizagem que são utilizados para a
construção de conjuntos de classificadores.
A escolha da ferramenta Weka para o
desenvolvimento deste estudo, deve-se a várias
razões. Pode-se citar o fato de que foi desenvolvida
em Java, tendo como principal característica à
portabilidade (multi plataforma), assim, pode ser
executada na mais diversas plataformas. Possui o
código fonte aberto, e aproveitando os benefícios de
uma linguagem orientada a objetos como
modularidade, polimorfismo (mesma operação pode
se comportar diferentemente em classes diferentes),
encapsulamento (consiste em separar os aspectos
externos de um objeto, que são acessíveis para outros
objetos, dos detalhes internos de implementação do
objeto), reutilização de código (mecanismo de criação de
novas classes de objetos a partir de outras já existentes).
E, além disso, encontra-se disponível na Internet,
caracterizando a fácil instalação.
Ao contrário da maioria das ferramentas de Data
Mining, a ferramenta Weka apresenta uma interface
gráfica para o usuário. O formato de arquivo aceito pelo
Weka é o “arff” que, inicialmente apresenta os valores
possíveis dos atributos da base (cabeçalho) e, em
seguida, os dados propriamente dito, separados por
vírgula.
Supondo ter alguns dados para gerar regras de
associação, e sendo possível armazená-los de alguma
forma, que pode ser na forma de uma planilha ou de um
banco de dados., pode-se aplicar as técnicas de
mineração de dados.
Antes de aplicar os dados a qualquer algoritmo do
pacote Weka, os mesmos devem ser convertidos para o
formato ARFF que consiste basicamente de duas partes.
A primeira contém uma lista de todos os atributos, onde
devemos definir o tipo do atributo ou os valores que ele
pode representar, quando utilizamos os valores estes
devem estar entre “{ }“ e separados por vírgulas. A
segunda parte consiste da listagem das instâncias, ou
seja, os registros a serem minerados com o valor dos
atributos para cada instância, separado por vírgula. A
ausência de um item em um registro deve ser registrada
pelo símbolo “?”.
Para isso, pode-se usar programas de planilhas
eletrônicas e banco de dados, os quais permitem exportar
os dados em um arquivo onde as virgulas são os
separadores ou criar o arquivo diretamente em um editor
de texto. Neste estudo de caso, foram utilizados os
Microsoft Excel e Microsoft Word, pelo fato estar
disponível na empresa pesquisada, entretanto, ressalta-se
que pode ser utilizada qualquer outra plataforma além do
MICROSOFT WINDOWS, como por exemplo:
LINUX, UNIX, SOLARES.
Uma vez feito isso, é necessário apenas carregar o
arquivo em um editor de texto e adicionar o nome do
conjunto
de
dados
usando:
@relation
nome_do_conjuto_de_dados. Para cada atributo usar
@attribute e, após, colocar uma linha com @data e logo
em seguida os dados em si, salvando o arquivo como
texto puro com extensão ARFF.
1. Primeira Etapa
A primeira etapa de testes foi realizada com um
conjunto de 100 clientes, aplicando-se cinco algoritmos
Classify
DecisionTable,
de
(ConjunctiveRule,
DecisionStump, J48, ADTree). Sendo que a base de
14
65
2
21
12
91
9
65
2
26
7
86
14
65
2
21
12
83
95
17
5
66
67
1
0
18
28
16
5
Inadimplente
incorreto
Adimplente
correto
86
Adimplente
incorreto
Inadimplente
correto
% classificados
incorretamente
Conjunctive
Rule
Decision
Table
Decision
Stump
J48
ADTree
% classificados
corretamente
clientes possui 29 atributos, porém, dependendo do
algoritmo, nem sempre são considerados os 29
atributos.
Na tabela 1 pode-se comparar a eficiência dos
algoritmos utilizados nesta etapa, onde destacam-se
os Algoritmos ADTree e DecisionTable que serão
analisados na etapa seguinte também para a
posterior escolha de qual algoritmo melhor se
adapta a este estudo de caso.
Decision
Table
Decision
Stump
J48
ADTree
80
20
11
1
5
3
70
30
8
4
6
2
70
50
30
50
12
8
0
4
2
2
6
6
Tabela 2 – Tabela comparativa no uso dos algoritmos
realizados com um conjunto de 80 clientes para
treinamento e um conjunto de 20 clientes para testes
3. Terceira Etapa: Inclusão de um novo Cliente
Para melhor visualizar e comprovar a utilidade e
viabilidade da ferramenta Weka, foram utilizados os dois
algoritmos de maior confiabilidade das etapas anteriores:
o algoritmo DecisionTable e o algoritmo J48 para testes
de inclusão de um novo cliente. Foi criada uma base com
100 clientes e outra com apenas um cliente, para avaliar
o comportamento dos algoritmos.
As características deste “cliente teste” podem ser
digitadas pela funcionária do setor responsável na
empresa, numa planilha do Microsoft Excel, de acordo
com a figura 1 abaixo:
Tabela 1- Tabela comparativa no uso dos
algoritmos realizados com um conjunto de 100
clientes
% classificados
incorretamente
Adimplente
correto
Adimplente
incorreto
Inadimplente
correto
Inadimplente
incorreto
Conjunctive
Rule
% classificados
corretamente
2. Segunda etapa
A segunda etapa foi realizada explorando os
mesmo
cinco
algoritmos
de
Classify
(ConjunctiveRule, DecisionTable, DecisionStump,
J48, ADTree), porém utilizando uma base de 80
clientes pra treinamento e uma base de 20 clientes
para teste.
Na tabela 2 pode-se observar a eficiência dos
algoritmos utilizados nesta segunda etapa, onde
destaca-se o Algoritmo DecisionTable e os
Algoritimos ConjunctiveRule, DecisionStump e J48
que obtiveram a mesma porcentagem de
Figura 1 – Planilha para coleta de informações dos
confiabilidade e enquanto o Algoritmo ADTree
clientes
obteve uma confiabilidade baixíssima. De modo
Partindo
do
conjunto
de
treinamento, que é a base de
que, os Algoritmos que serão analisados na etapa
dados
dos
100
clientes
(adimplentes
e inadimplentes),
seguinte serão o DecisionTable
e o J48.
foram
realizados
7
testes
de
inclusão
de
novos clientes.
Justificando-se o uso do Algoritmo DecisionTable
Na
tabela
3
pode-se
confirmar
que
os
dos Algoritmos
pelo seu nível de confiabilidade e o Algoritmos J48
DecisionTable e J48 obtiveram os resultados esperados
por ser um dos mais conhecidos na literatura.
com um nível de confiabilidade muito grande, e mesmo
quando tentamos corrompê-lo, concedendo crédito a um
cliente com perfil de inadimplente, o algoritmo não
concordou com a prévia classificação.
70
30
8
4
6
2
0
100
0
100
0
0
1
0
0
1
0
0
1
0
0
0
0
0
0
1
100
0
100
0
100
0
1
0
1
0
1
0
0
0
0
0
0
0
Inadimplente
incorreto
% classificados
incorretamente
100
0
100
0
Adimplente
correto
Adimplente
incorreto
Inadimplente
correto
% classificados
corretamente
Decision
Table
Teste 1
Teste 2
Teste 3
Teste 4
J48
Teste 5
Teste 6
Teste 7
Tabela 3- Tabela comparativa no uso dos
algoritmos para a inclusão de um novo cliente
Conclusões
Verificou-se através do desenvolvimento deste
estudo de caso, que os dados dos clientes
cadastrados podem transformar-se em informações
que auxiliem a empresa na concessão de crédito a
novos clientes. Com os testes realizados, aplicando
as ferramentas do Data Mining através da
exploração do Software Weka, foi possível a criação
de regras de classificação para analisar e classificar
novos clientes para concessão de créditos.
Explorou-se algoritmos do Software Weka
identificando como os dois mais aptos para este
estudo de caso os algoritmos DecisionTable e J48,
de acordo com a taxa de acerto, ou seja,
confiabilidade dos mesmos.
A utilização de Data Mining possibilitou que
fossem minerados os dados pertinentes aos clientes
encarteirados, avaliando somente os campos de
maior relevância, desta forma encontrando regras de
classificação, que não só auxiliam na tomada de
decisão, mas também, possibilitam uma maior
agilidade e confiabilidade na difícil hora da
concessão ou não de crédito.
As classificações realizadas com a utilização do
software Weka e os 5 algoritmos selecionados:
ConjunctiveRule, DecisionTable, DecisionStump,
J48, ADTree, com uma base de 100 clientes,
apresentaram níveis de acerto altos, variando de
83% a 95%. Os treinamentos realizados com uma
base de 80 clientes e uma base de teste com 20
clientes, utilizando os mesmos algoritmos citados,
também apresentaram uma boa taxa de acerto, num
intervalo de 60% a 80%.
No momento dos testes para inclusão de um novo
cliente, selecionaram-se dois algoritmos, de acordo com
sua taxa de acerto na etapa anterior. Treinando os
algoritmos com uma base de 100 clientes, os testes de
inclusão de um novo cliente foram satisfatórios, pois em
6 testes de 7 que foram realizados, as ferramentas do
Weka comprovaram a pré-análise da funcionária. No
caso da não confirmação da pré-análise da atendente pelo
software, verificou-se que ela havia realizado uma
classificação inadequada do perfil do cliente.
Partindo-se destas conclusões, percebe-se que seria
viável a implementação destes procedimentos no setor
responsável da empresa, ressaltando que, é interessante
que cada novo cliente, após sua pré-análise e devida
classificação pelo software, tenha seus dados inclusos no
conjunto de dados de treinamento, visando enriquecer a
base de dados. Desta forma, o banco de dados da
empresa para a análise da concessão de crédito será
sempre alimentado, proporcionando um conjunto de
informações cada vez mais confiáveis para a
classificação de novos clientes.
Entende-se que este assunto é extremamente
importante para as organizações e para o
desenvolvimento de novos trabalhos acadêmicos, assim,
sugere-se que, a partir das regras de classificação do
Software Weka, um software de consulta seja
implementado em alguma linguagem. Desta forma, não
seria necessária uma pessoa, com todo o conhecimento
do Software Weka, de seus algoritmos e do Data Mining,
estar disponível para fazer a análise de um novo cliente.
Esta análise poderia ser facilmente realizada pela pessoa
responsável do setor que faz a pesquisa das informações.
Referências
[1] A. BLATT, Elementos Fundamentais na Concessão
de Crédito. Disponível em <http://www.sci.com.br/
articulistas/comunidade_artigos_adrianoblatt_2000_5
.htm. Acesso em: 28/05/04.
[2] G. R. CARAVANTES, Teoria Geral da
Administração: Pensando & Fazendo. Editora AGE,
2000.
[3] C. A. DINIZ, Data Mining: Uma Introdução. São
Calos: Editora UFSCAR, 2000.
[4] M. T. A. STEINER, A. SMIDERLE, Redes Neurais
e Árvores de Decisão na Análise do Crédito
Bancário. In: Simpósio Brasileiro de Pesquisa
Operacional, 36.. São João del-Rei, 2004.
Download

Ferramenta de Apoio à Decisão com Base no Problema de P