Mineração de dados: um estudo de caso de concessão de crédito explorando o software Weka Andreia Smiderle, Alessandra Marchiori de Oliveira Depto de Sistemas de Informação, Faculdade MATER DEI, 85501-030, Pato Branco, PR E-mail: [email protected], [email protected] A sociedade está inserida em uma época, onde a informação e o conhecimento exercem papéis fundamentais e estão se disseminando em toda parte. Com o advento da informática, as pessoas em geral e as organizações passaram a fazer grande uso da informação e, a partir disso, novas formas de armazenamento surgiram. Então, busca-se aproveitar de maneira otimizada a grande quantidade de informações que existe nos bancos de dados informatizados das organizações, para melhorar a sua performance perante o mercado competitivo e auxiliar na importante tarefa de tomada de decisão. Porém, surge a questão, em que um grande banco de dados pode influenciar na tomada de decisão? Em muitos aspectos, pois destes bancos de dados pode-se extrair conhecimentos valiosos e úteis como, por exemplo, construção de perfis de consumidores. No entanto, devido ao seu grande volume de “dados”, que ultrapassam a habilidade técnica e a capacidade humana de interpretação, a maioria das organizações é incapaz de aproveitar totalmente o que está armazenado em seus arquivos. Para suprir a ineficiência da habilidade técnica e a capacidade humana em filtrar uma informação de um banco de dados surge o KDD – Knowledge Discovery in Database (Descoberta de Conhecimento) como ferramenta para viabilizar a análise de grandes bancos de dados. A descoberta de conhecimento em bases de dados é um processo que envolve a automação da identificação e do reconhecimento de padrões em um banco de dados. Sua principal característica é a extração não trivial de informações a partir de uma base de dados de grande porte, identificando padrões em dados que sejam válidos, potencialmente úteis e compreensíveis, de acordo com [3]. Neste contexto, surge o Data Mining que é o procedimento que define o processo extração e análise de enormes conjuntos de dados, na maioria das vezes desordenados, para então extrair um significado. Essa tecnologia está sendo usada para descrever características do passado, assim como reconhecer tendências para o futuro. Sua utilização permite avanços tecnológicos e descobertas científicas, fornecendo às organizações estratégias fundamentais para obter conhecimento sobre seu próprio negócio, além de garantir uma vantagem competitiva invejável. O administrador necessita, hoje, saber como obter o máximo de informações úteis e como utilizá-las adequadamente. Hoje, as organizações têm grandes dificuldades em conhecer seus atuais e em avaliar seus novos clientes, bem como lhes conceder crédito. Desta forma, justificase o estudo de caso proposto neste trabalho, onde se busca obter informações úteis de uma grande quantidade de dados. Com a descoberta do conhecimento (informações) as organizações passam a construir seus sistemas de apoio à decisão, seu marketing direcionado, sua forma de concessão de crédito (limite) e, até mesmo, traçando o perfil de seus clientes. Assim, organizações que detém ou fornecem o conhecimento adquirido com confiabilidade, rapidez e de forma organizada, têm grandes chances de permanecerem de forma competitiva no mercado, e esta é uma das poucas áreas de negócios em que se conseguem vantagens competitivas. O objetivo principal deste estudo é minerar a base de dados dos clientes “encarteirados” da empresa, buscando utilizar as características de clientes adimplentes e inadimplentes como conhecimento prévio para agilizar a operação de concessão de crédito a novos clientes. Bem como transformar os dados dos clientes armazenados no banco da organização em subsídios que auxiliem na tomada de decisão; utilizar regras de classificação para analisar e classificar novos clientes para concessão de créditos e explorar algoritmos do Software Weka buscando identificar aquele que melhor se adapta para este estudo de caso, de acordo com a confiabilidade do mesmo. De acordo com [2] uma organização ou empresa é: “um grupo de pessoas, que trabalham juntas, sob orientação de um líder, visando a consecução de um objetivo”. Ou ainda, segundo [2] “uma integração impessoal, altamente racionalizada, de um grande número de especialistas que operam para atingir algum objetivo e sobre a qual é importante uma estrutura de autoridade altamente elaborada”. Para as organizações o objetivo principal é obter lucro, que só poderá ser alcançando com a obtenção e fidelização dos clientes. Para [1] “cliente é a pessoa que recebe os produtos ou serviços resultantes de um processo, no intuito de satisfazer suas necessidades e de cuja aceitação depende a sobrevivência de quem os fornece”. Mas, infelizmente, a relação entre a organização e seus clientes pode não ser amigável quando o assunto é crédito. Analisar um crédito significa avaliar os riscos envolvidos em um negócio e a capacidade do cliente liquidar a dívida nas condições contratadas. As empresas tentam prevenir-se dos novos clientes que tem uma forte tendência a serem inadimplentes da melhor forma possível: fazendo uma ficha cadastral, consultando outras empresas onde o cliente já compra, consultando o Serasa (Centralização de Serviços dos Bancos S.A.), SPC (Serviço de Proteção ao Crédito) e outros órgãos especializados. Desta forma, buscase minimizar o prejuízo e, é possível que durante o detalhamento da carteira, identifiquem-se quais produtos este cliente consome, a qual região pertence e de que maneira cumpre seus compromissos. Vale lembrar que, apesar de conhecer o comportamento do cliente “encarteirado”, sempre existe o risco de inadimplência, ou seja, que esta pessoa falte ao cumprimento de suas obrigações no prazo estipulado. Segundo [1] a concessão de crédito e as práticas de cobrança influenciam grandemente os volumes de venda e níveis de receita alcançados pelo vendedor. Decisões creditícias altamente restritivas aceitam somente as contas com solvência, mas podem perder vendas e receitas. Por outro lado, o acompanhamento agressivo de cobrança pode gerar relações problemáticas com os clientes. Assim como existem os 4P´s (Praça, Preço, Promoção, Produto), os 4A´s (Análise, Adaptação, Ativação, Avaliação) que são muito utilizados pelos agentes de marketing, na hora de planejar uma nova estratégia de mercado, também existem os 5C´s que auxiliam como roteiro para a investigação de crédito, facilitando que nenhum aspecto relevante seja ignorado ou esquecido ao avaliar uma ficha cadastral: Caráter, Capacidade, Capital; Colateral e Condições. Ações desta natureza reforçam a imagem da organização perante o seu cliente, dando-lhe a sensação de contar com sua organização nos momentos difíceis ou importantes para o seu crescimento ou necessidades diversas. O monitoramento gera uma fotografia precisa dos negócios, permitindo traçar estratégias de crescimento e rentabilidade da carteira, reduzindo perdas e aumento a receita. lento, impreciso, manual e com uma grande probabilidade de erros. Por mais que sejam consultadas outras organizações onde o cliente já possua um “relacionamento”, verifique-se SPC e Serasa, pode ficar omitido algo importante que traz a possibilidade de, mais tarde, ocasionar problemas maiores. A concessão de crédito ocorre após uma pesquisa de alguns dados fundamentais do cliente, como: nome e endereço completo, data de nascimento, naturalidade, número de CPF e RG, condição da moradia, empresa onde trabalha, cargo que ocupa, renda média mensal, estado civil, nome do cônjuge, data de nascimento de cônjuge, filiação, bancos que opera, referências comerciais e relação de bens. Sendo que os dados mais relevantes são os pesquisados nas referências comerciais, que são: tempo de relação com o fornecedor, o valor da maior compra, o valor médio mensal de compras, data e valor da última compra, forma de pagamento, pontualidade e o conceito que esta referência comercial tem sobre o cliente pesquisado: ótimo, bom ou ruim. Aplicação das ferramentas de Data Mining como proposta de análise para a concessão de crédito Com as ferramentas do Data Mining pode-se extrair informações não triviais e também podem ser definidos os campos a serem analisados, de acordo com a necessidade de implementação, de acordo com [4]. Assim, no caso específico deste estudo, ele irá confrontar as informações dos clientes já existentes no banco de dados, buscando uma regra de classificação em adimplente e inadimplente, e depois comparando o perfil do novo cliente, classificando-o de acordo com a regra. Para isso, foram realizados testes utilizando 29 atributos que a organização considera relevante para a concessão de crédito a seus clientes. Os atributos relevantes são informados por outras organizações onde o cliente já tem relacionamento, que são tempo de relação com o fornecedor, forma de pagamento, o valor médio mensal de compras, o valor da maior compra, data da maior compra, valor da última compra, data da última compra, pontualidade e o conceito que esta referência comercial tem sobre o cliente pesquisado: ótimo, bom, ruim ou inativo. Essas referências são consideradas 3 vezes, pois são consultadas três organizações diferentes para se obter o maior número de informações possíveis. Ainda são consultados o SPC, Serasa ou outros órgãos qualificados. E o último atributo seria a “opinião” da Descrição do processo utilizado pessoa que está preenchendo o cadastro, se ela concederá crédito ao cliente ou não, baseada nas informações que pela organização ela obteve nos contatos indicados. No desenvolvimento deste estudo, três etapas foram Atualmente, o sistema de crédito da organização é realizadas: na primeira etapa foram utilizados vários testes com diversos algoritmos e, a partir dos resultados destes testes, de acordo com a confiabilidade dos mesmos, partiu-se para as segunda e terceira etapas, que foram as de treinamento, classificação e inclusão de novos clientes. Este estudo foi desenvolvido com o software Weka. O Weka é uma ferramenta de Data Mining desenvolvida pela Universidade de Waikato (Nova Zelândia), que vem sendo utilizado em pesquisas na área de aprendizagem de máquinas, pois disponibiliza componentes que auxiliam a implementação de classificação e agrupamentos, este ambiente também permite que novos algoritmos sejam comparados a outros já consolidados na área de aprendizagem. Com este pacote podemos obter resultados estatísticos comparativos da execução simultânea de diversos programas de aprendizagem em domínios variados. O Weka é formado por um conjunto de pacotes, que são: attribute selection (seleção de atributos), classifiers (implementação de algoritmos de aprendizagem supervisionada), clustering (implementação de algoritmos de aprendizado não supervisionado), association rules (generalização de regras de associação usando taxonomias), filters (seleção de instância de uma base) e estimators (estimadores). Attribute Selection é usado como o próprio nome diz para selecionar atributos de uma base de dados para a extração de padrões. O Classifiers é formado por implementações de algoritmos de aprendizagem, tais como: IBK (K-nearest neighbor), o J48.J48 e J48.PART. Cluster contém uma implementação de dois métodos de aprendizagem não supervisionada: Cobweb e o algoritmo EM. O Associations contém duas classes, ItemSet e Apriori, que juntos implementam esse algoritmo. Estimators contém subclasses que são utilizadas pelo algoritmo Naive Bayes para computar os diferentes tipos de distribuição de probabilidade. Filters permite aos usuários selecionar um subconjunto de atributos ou selecionar um subconjunto de instâncias de dados baseada em algum critério. A ferramenta Weka dispõe também de métodos de meta aprendizagem que são utilizados para a construção de conjuntos de classificadores. A escolha da ferramenta Weka para o desenvolvimento deste estudo, deve-se a várias razões. Pode-se citar o fato de que foi desenvolvida em Java, tendo como principal característica à portabilidade (multi plataforma), assim, pode ser executada na mais diversas plataformas. Possui o código fonte aberto, e aproveitando os benefícios de uma linguagem orientada a objetos como modularidade, polimorfismo (mesma operação pode se comportar diferentemente em classes diferentes), encapsulamento (consiste em separar os aspectos externos de um objeto, que são acessíveis para outros objetos, dos detalhes internos de implementação do objeto), reutilização de código (mecanismo de criação de novas classes de objetos a partir de outras já existentes). E, além disso, encontra-se disponível na Internet, caracterizando a fácil instalação. Ao contrário da maioria das ferramentas de Data Mining, a ferramenta Weka apresenta uma interface gráfica para o usuário. O formato de arquivo aceito pelo Weka é o “arff” que, inicialmente apresenta os valores possíveis dos atributos da base (cabeçalho) e, em seguida, os dados propriamente dito, separados por vírgula. Supondo ter alguns dados para gerar regras de associação, e sendo possível armazená-los de alguma forma, que pode ser na forma de uma planilha ou de um banco de dados., pode-se aplicar as técnicas de mineração de dados. Antes de aplicar os dados a qualquer algoritmo do pacote Weka, os mesmos devem ser convertidos para o formato ARFF que consiste basicamente de duas partes. A primeira contém uma lista de todos os atributos, onde devemos definir o tipo do atributo ou os valores que ele pode representar, quando utilizamos os valores estes devem estar entre “{ }“ e separados por vírgulas. A segunda parte consiste da listagem das instâncias, ou seja, os registros a serem minerados com o valor dos atributos para cada instância, separado por vírgula. A ausência de um item em um registro deve ser registrada pelo símbolo “?”. Para isso, pode-se usar programas de planilhas eletrônicas e banco de dados, os quais permitem exportar os dados em um arquivo onde as virgulas são os separadores ou criar o arquivo diretamente em um editor de texto. Neste estudo de caso, foram utilizados os Microsoft Excel e Microsoft Word, pelo fato estar disponível na empresa pesquisada, entretanto, ressalta-se que pode ser utilizada qualquer outra plataforma além do MICROSOFT WINDOWS, como por exemplo: LINUX, UNIX, SOLARES. Uma vez feito isso, é necessário apenas carregar o arquivo em um editor de texto e adicionar o nome do conjunto de dados usando: @relation nome_do_conjuto_de_dados. Para cada atributo usar @attribute e, após, colocar uma linha com @data e logo em seguida os dados em si, salvando o arquivo como texto puro com extensão ARFF. 1. Primeira Etapa A primeira etapa de testes foi realizada com um conjunto de 100 clientes, aplicando-se cinco algoritmos Classify DecisionTable, de (ConjunctiveRule, DecisionStump, J48, ADTree). Sendo que a base de 14 65 2 21 12 91 9 65 2 26 7 86 14 65 2 21 12 83 95 17 5 66 67 1 0 18 28 16 5 Inadimplente incorreto Adimplente correto 86 Adimplente incorreto Inadimplente correto % classificados incorretamente Conjunctive Rule Decision Table Decision Stump J48 ADTree % classificados corretamente clientes possui 29 atributos, porém, dependendo do algoritmo, nem sempre são considerados os 29 atributos. Na tabela 1 pode-se comparar a eficiência dos algoritmos utilizados nesta etapa, onde destacam-se os Algoritmos ADTree e DecisionTable que serão analisados na etapa seguinte também para a posterior escolha de qual algoritmo melhor se adapta a este estudo de caso. Decision Table Decision Stump J48 ADTree 80 20 11 1 5 3 70 30 8 4 6 2 70 50 30 50 12 8 0 4 2 2 6 6 Tabela 2 – Tabela comparativa no uso dos algoritmos realizados com um conjunto de 80 clientes para treinamento e um conjunto de 20 clientes para testes 3. Terceira Etapa: Inclusão de um novo Cliente Para melhor visualizar e comprovar a utilidade e viabilidade da ferramenta Weka, foram utilizados os dois algoritmos de maior confiabilidade das etapas anteriores: o algoritmo DecisionTable e o algoritmo J48 para testes de inclusão de um novo cliente. Foi criada uma base com 100 clientes e outra com apenas um cliente, para avaliar o comportamento dos algoritmos. As características deste “cliente teste” podem ser digitadas pela funcionária do setor responsável na empresa, numa planilha do Microsoft Excel, de acordo com a figura 1 abaixo: Tabela 1- Tabela comparativa no uso dos algoritmos realizados com um conjunto de 100 clientes % classificados incorretamente Adimplente correto Adimplente incorreto Inadimplente correto Inadimplente incorreto Conjunctive Rule % classificados corretamente 2. Segunda etapa A segunda etapa foi realizada explorando os mesmo cinco algoritmos de Classify (ConjunctiveRule, DecisionTable, DecisionStump, J48, ADTree), porém utilizando uma base de 80 clientes pra treinamento e uma base de 20 clientes para teste. Na tabela 2 pode-se observar a eficiência dos algoritmos utilizados nesta segunda etapa, onde destaca-se o Algoritmo DecisionTable e os Algoritimos ConjunctiveRule, DecisionStump e J48 que obtiveram a mesma porcentagem de Figura 1 – Planilha para coleta de informações dos confiabilidade e enquanto o Algoritmo ADTree clientes obteve uma confiabilidade baixíssima. De modo Partindo do conjunto de treinamento, que é a base de que, os Algoritmos que serão analisados na etapa dados dos 100 clientes (adimplentes e inadimplentes), seguinte serão o DecisionTable e o J48. foram realizados 7 testes de inclusão de novos clientes. Justificando-se o uso do Algoritmo DecisionTable Na tabela 3 pode-se confirmar que os dos Algoritmos pelo seu nível de confiabilidade e o Algoritmos J48 DecisionTable e J48 obtiveram os resultados esperados por ser um dos mais conhecidos na literatura. com um nível de confiabilidade muito grande, e mesmo quando tentamos corrompê-lo, concedendo crédito a um cliente com perfil de inadimplente, o algoritmo não concordou com a prévia classificação. 70 30 8 4 6 2 0 100 0 100 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 1 100 0 100 0 100 0 1 0 1 0 1 0 0 0 0 0 0 0 Inadimplente incorreto % classificados incorretamente 100 0 100 0 Adimplente correto Adimplente incorreto Inadimplente correto % classificados corretamente Decision Table Teste 1 Teste 2 Teste 3 Teste 4 J48 Teste 5 Teste 6 Teste 7 Tabela 3- Tabela comparativa no uso dos algoritmos para a inclusão de um novo cliente Conclusões Verificou-se através do desenvolvimento deste estudo de caso, que os dados dos clientes cadastrados podem transformar-se em informações que auxiliem a empresa na concessão de crédito a novos clientes. Com os testes realizados, aplicando as ferramentas do Data Mining através da exploração do Software Weka, foi possível a criação de regras de classificação para analisar e classificar novos clientes para concessão de créditos. Explorou-se algoritmos do Software Weka identificando como os dois mais aptos para este estudo de caso os algoritmos DecisionTable e J48, de acordo com a taxa de acerto, ou seja, confiabilidade dos mesmos. A utilização de Data Mining possibilitou que fossem minerados os dados pertinentes aos clientes encarteirados, avaliando somente os campos de maior relevância, desta forma encontrando regras de classificação, que não só auxiliam na tomada de decisão, mas também, possibilitam uma maior agilidade e confiabilidade na difícil hora da concessão ou não de crédito. As classificações realizadas com a utilização do software Weka e os 5 algoritmos selecionados: ConjunctiveRule, DecisionTable, DecisionStump, J48, ADTree, com uma base de 100 clientes, apresentaram níveis de acerto altos, variando de 83% a 95%. Os treinamentos realizados com uma base de 80 clientes e uma base de teste com 20 clientes, utilizando os mesmos algoritmos citados, também apresentaram uma boa taxa de acerto, num intervalo de 60% a 80%. No momento dos testes para inclusão de um novo cliente, selecionaram-se dois algoritmos, de acordo com sua taxa de acerto na etapa anterior. Treinando os algoritmos com uma base de 100 clientes, os testes de inclusão de um novo cliente foram satisfatórios, pois em 6 testes de 7 que foram realizados, as ferramentas do Weka comprovaram a pré-análise da funcionária. No caso da não confirmação da pré-análise da atendente pelo software, verificou-se que ela havia realizado uma classificação inadequada do perfil do cliente. Partindo-se destas conclusões, percebe-se que seria viável a implementação destes procedimentos no setor responsável da empresa, ressaltando que, é interessante que cada novo cliente, após sua pré-análise e devida classificação pelo software, tenha seus dados inclusos no conjunto de dados de treinamento, visando enriquecer a base de dados. Desta forma, o banco de dados da empresa para a análise da concessão de crédito será sempre alimentado, proporcionando um conjunto de informações cada vez mais confiáveis para a classificação de novos clientes. Entende-se que este assunto é extremamente importante para as organizações e para o desenvolvimento de novos trabalhos acadêmicos, assim, sugere-se que, a partir das regras de classificação do Software Weka, um software de consulta seja implementado em alguma linguagem. Desta forma, não seria necessária uma pessoa, com todo o conhecimento do Software Weka, de seus algoritmos e do Data Mining, estar disponível para fazer a análise de um novo cliente. Esta análise poderia ser facilmente realizada pela pessoa responsável do setor que faz a pesquisa das informações. Referências [1] A. BLATT, Elementos Fundamentais na Concessão de Crédito. Disponível em <http://www.sci.com.br/ articulistas/comunidade_artigos_adrianoblatt_2000_5 .htm. Acesso em: 28/05/04. [2] G. R. CARAVANTES, Teoria Geral da Administração: Pensando & Fazendo. Editora AGE, 2000. [3] C. A. DINIZ, Data Mining: Uma Introdução. São Calos: Editora UFSCAR, 2000. [4] M. T. A. STEINER, A. SMIDERLE, Redes Neurais e Árvores de Decisão na Análise do Crédito Bancário. In: Simpósio Brasileiro de Pesquisa Operacional, 36.. São João del-Rei, 2004.