1
Análise de Risco de Crédito para Financiamento de
Veículos Utilizando Técnicas de Data Mining
Flávio Henrique de Souza Gonçalves
Resumo—Na indústria financeira a utilização de ferramentas
analíticas que auxiliem na classificação do risco de crédito
dos clientes em bons e maus pagadores é indispensável para
disponibilização de crédito, uma necessidade vital para os negócios de crédito, principalmente no varejo, trazendo vantagens
competitivas para as Instituições Financeira (IF’s) que as utilizam
na sua metodologia. As instituições financeiras possuem uma
infinidade de dados disponíveis em seus repositórios de dados, que
utilizam para transformar em informações úteis para os processos
decisórios da organização. Neste trabalho serão analisados dados
de propostas de financiamento de aproximadamente 300 mil
clientes que tiveram seu créditos aprovados em uma grande IF
brasileira no período de 2012 a 2013, utilizando técnicas de data
mining (árvore de decisão, regressão logística e redes neurais)
do pacote SAS R Enterprise MinerTM 14.1, visando classificar
os futuros prospects a financiamento de veículos quanto a sua
característica creditícia e viabilizando uma estratégia de análise
massificada de financiamentos de veículos.
Index Terms—Data mining, CRISP-DM, árvore de decisão,
regressão logística, redes neurais, financiamento de veículos.
I. I NTRODUÇÃO
As IF’s tem como uma das suas principais linhas de crédito
do varejo o financiamento de veículos novos e usados. Estas
linhas de crédito apresentam um baixo índice de inadimplência
diante das demais linhas de crédito, como as linhas de crédito
rotativo e empréstimos pessoais sem destinação do recurso.
Uma vez observada a concorrência de mercado, as IF’s
buscam identificar, dentre os seus clientes prospects, aqueles
com o menor risco de crédito, com a intenção de disponibilizar
taxas de juros mais atrativas e competitivas.
As técnicas de mineração de dados auxiliam na classificação
de clientes quanto a sua capacidade creditícia, permitindo
identificar clientes com baixo risco de crédito e direcionando
a estes melhores condições de financiamento de veículos.
A mineração de dados é composta de exploração e a
análise, por meio automático ou semiautomático, de grandes
quantidades de dados, a fim de descobrir padrões e regras,
como em Berry[2].
O objetivo principal do trabalho é analisar o uso de três técnicas (árvore de decisão, regressão logística e redes neurais),
contidas no pacote estatístico SAS R Enterprise MinerTM 14.1,
para classificação de clientes prospects, em bons ou maus
pagadores. A linha de crédito utilizada foi a financiamento
de veículos novos ou usados, usando como modelo referência
o framework de mineração de dados proposto pelo CRISP-DM
(Cross Industry Process Model for Data Mining).
II. DESCOBERTA E CONHECIMENTO DOS DADOS
Os dados utilizados neste trabalho são dados reais de uma
grande IF com grande participação no mercado de finan-
ciamento de veículos. Foram capturadas cerca de 300 mil
propostas de financiamento de veículos aprovados no período
de 2012 e 2013 e observados os clientes que após tomarem o
financiamento do veículo vieram a ficar em descumprimento
(operações em atraso a mais de 90 dias) durante a vigência
do contrato.
Foram obtidas cerca de 52 variáveis independentes contínuas e categóricas, com informações da proposta de financiamento de veículos (percentual do financiamento, prazo,
idade do veículo, modelo, preços de mercado, etc.), além
das informações cadastrais de clientes (idade, sexo, endereço,
renda, profissão, dentre outros) e comportamentais (histórico
de pagamento, consumo de crédito no SFN, restrições cadastrais).
O objetivo da modelagem é estimar a probabilidade do
cliente vir a entrar em descumprimento em até 1 ano da
vigência do contrato.
As variáveis independentes sofreram tratamentos estatísticos
antes de serem utilizadas na construção do modelo, seja para
tratamentos de valores discrepantes (outliers) ou de valores
faltantes (missing). As variáveis foram categorizadas aplicando
técnicas estatísticas, mas especificamente foi utilizada odds
ratio. Após a categorização foi realizada uma análise descritiva
das variáveis conforme Laredo [4].
Posteriormente a construção e tratamento das variáveis
dependente e independentes, foi delineado um plano amostral
para extração de uma amostra e desenvolvimento dos modelos
de classificação. Optou-se por uma amostra pareada devido
a proporção dos clientes ruins (3%) em relação a clientes
bons (97%) encontrados na população, evitando assim que
os modelos utilizados nas técnicas de mineração de dados
escolhessem as variáveis que descriminam mais os clientes
bons pela sua predominância na população, uma vez que o
objetivo é encontrar aquelas variáveis que descriminam os
clientes ruins.
Após selecionar a amostra pareada de clientes, foi feita
a divisão em duas sub amostras para desenvolvimento e
treinamento dos modelos. A proporção utilizada para bons e
maus pagadores foi de 2/3 e 1/3 respectivamente, conforme
sugerido por Laredo[4].
III. IMPLEMENTAÇÃO COMPUTACIONAL E
MODELAGEM DOS DADOS
Nesta seção é apresentada a implementação computacional
das três técnicas abordadas, regressão logística, árvores de
decisão e redes neurais, bem como a comparação entre elas
no que diz respeito a seus desempenhos e resultados de
2
classificação de clientes entre bons e ruins para financiamento
de veículos. A escolha dessas técnicas foi motivada pela
facilidade em utilizar variáveis categóricas e contínuas, não
pressupor nenhuma distribuição dos seus dados e conseguir
ao final da modelagem escorar os clientes conforme sua
probabilidade de vir a ficar em descumprimento.
A. Regressão Logística
A primeira técnica de modelagem a ser utilizada é a
regressão logística. Esta trata-se de um técnica estatística
que tem como objetivo produzir, a partir de um conjunto de
observações, um modelo que permita a predição de valores
tomados por uma variável categórica, frequentemente binária,
a partir de uma série de variáveis explicativas contínuas e/ou
categóricas, conforme Agresti[1] .
Uma das vantagens na utilização da regressão logística
é que ela não pressupõe normalidade dos erros, é de fácil
interpretação e pode ser aplicada em variáveis contínuas e
categóricas.
Segundo Agresti[1], para uma variável resposta binaria Y e
variáveis explicativas X, temos:
⇡(x) = P (Y = 1|X = x) = 1
P (Y = 0|X = x).
O modelo de regressão logística pode ser expresso da seguinte
maneira:
exp (↵ + x)
⇡ (x) =
.
(1 + exp (↵ + x))
Equivalentemente, os ODDS, chamados logit, tem a relação
linear
log (⇡ (x))
Logit [⇡ (x)] =
= ↵ + x.
log (1 ⇡ (x))
Isso equivale a função de ligação logit para o preditor linear.
O modelo encontrado foi: Intercept f_var_0036 f_var_0059
f_var_0112 f_var_0114 f_var_0503 f_var_0511 f_var_0523
f_var_0532 f_var_0585 f_var_0825 f_var_0903 f_var_0904
Por motivos de confidencialidade dos dados as variáveis e
seus pesos não poderão ser divulgadas publicamente.
Na tabela I pode ser observada a ordem de entrada das variáveis nos modelos utilizando o processo de seleção stepwise,
note que todas as variáveis do modelo tiveram nível de
significância aceitável para o teste de qui-quadrado.
Tabela I
S ELEÇÃO DAS VARIVAIES UTILIZANDO O MÉTODO stepwise.
step
1
2
3
4
5
6
7
8
9
10
11
12
effect
entered
v_0112
v_0503
v_0904
v_0059
v_0532
v_0036
v_0114
v_0903
v_0825
v_0585
v_0511
v_0523
number
df
5
4
4
4
4
4
3
4
2
3
2
3
score
in
1
2
3
4
5
6
7
8
9
10
11
12
chi-square
pr>chisq
29.084.665
11.255.229
7.684.502
3.100.076
1.969.337
1.454.771
1.250.694
529.309
414.483
412.464
297.420
217.390
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
Na matriz de confusão apresentado na tabela II , observase que apenas 10% dos clientes classificados como “bons”
apresentaram pelo menos um, descumprimento após 12 meses
de observação, demonstrando um bom poder de descriminação
do modelo.
Tabela II
M ATRIZ DE CONFUSÃO - REGRESSÃO LOGÍSTICA .
False
Negative
1044
9%
False
Negative
483
10%
Amostra Desenvolvimento
True
False
True
Negative
Positive
Positive
4655
1159
4770
40%
10%
41%
Amostra Validação
True
False
True
Negative
Positive
Positive
1947
546
2010
39%
11%
40%
Total
11628
Total
4986
A distribuição dos scores dos clientes após a modelagem
pode ser observado na tabela III, que mostra a proporção
de clientes classificados como “bons” e “ruins” por faixa de
probabilidade, o que permite definir o ponto de corte (cut off )
para determinar a partir de que ponto autoriza a contratação
de operações do cliente.
Tabela III
M ATRIZ DE CONFUSÃO - REGRESSÃO LOGÍSTICA .
Posterior
Probability
Range
0.95-1.00
0.90-0.95
0.85-0.90
0.80-0.85
0.75-0.80
0.70-0.75
0.65-0.70
0.60-0.65
0.55-0.60
0.50-0.55
0.45-0.50
0.40-0.45
0.35-0.40
0.30-0.35
0.25-0.30
0.20-0.25
0.15-0.20
0.10-0.15
0.05-0.10
0.00-0.05
Number
of
Events
370
1208
870
695
447
331
272
225
184
168
154
114
109
130
104
88
112
94
86
53
Number
of
Nonevents
15
73
102
118
134
134
144
134
144
161
196
216
239
263
323
379
492
589
899
1059
Mean
Posterior
Probability
0.962
0.925
0.876
0.825
0.776
0.725
0.675
0.625
0.574
0.525
0.474
0.425
0.375
0.324
0.275
0.224
0.174
0.123
0.073
0.026
%
33.110
110.165
83.591
69.917
49.966
39.990
35.776
30.874
28.208
28.294
30.100
28.380
29.928
33.798
36.722
40.162
51.944
58.738
84.709
95.631
Para determinar o cut off foi observado em que faixa de
probabilidade o número observado de clientes ruins (numbers
of events) passa a ser maior que o número de clientes bons
(numbers of nonevents). Diante disso, foi encontrado o ponto
de corte para clientes com probabilidades de vir a descumprir
abaixo de 50%, ou seja, aqueles clientes que possuem probabilidade superior a 50% de descumprimento terão sua proposta
reprovada automaticamente pelo modelo.
B. Árvore de decisão
Quinlan[5] é considerado o "pai das Árvores de Decisão",
a sua contribuição foi a elaboração de um novo algoritmo
chamado ID3, desenvolvido em 1983. O ID3 e suas evoluções
3
(ID4, ID6, C4.5, See 5) são algoritmos muito utilizados para
gerar árvore de decisão.
Segundo Lemos[3], árvore de decisão são métodos de
classificação de dados no contexto de mineração de dados.
Podem ser usadas em conjunto com a tecnologia de indução de
regras, mas são as únicas a apresentar os resultados hierarquicamente (com priorização). Nelas, o atributo mais importante
é apresentado na árvore como o primeiro nó, e os atributos
menos relevantes são mostradas nos nós subsequentes.
Os resultados encontrados durante a modelagem da árvore
e as principais variáveis explicativas do modelo foram por
ordem de importância conforme a tabela IV.
Tabela IV
I MPORTÂNCIA DAS VARIÁVEIS FINAIS DO MODELO - ÁRVORE DE DECISÃO .
step
1
2
3
4
5
6
7
8
9
10
11
12
effect
entered
v_0112
v_0503
v_0904
v_0059
v_0532
v_0036
v_0114
v_0903
v_0825
v_0585
v_0511
v_0523
number
df
5
4
4
4
4
4
3
4
2
3
2
3
score
in
1
2
3
4
5
6
7
8
9
10
11
12
chi-square
pr>chisq
29.084.665
11.255.229
7.684.502
3.100.076
1.969.337
1.454.771
1.250.694
529.309
414.483
412.464
297.420
217.390
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
Na matriz de confusão apresentado na tabela V, observase que apenas 12% dos clientes classificados como “bons”
apresentaram pelo menos um descumprimento após 12 meses
de observação, demonstrando um bom poder de descriminação
do modelo de classificação da árvore de decisão.
Tabela V
M ATRIZ DE CONFUSÃO - ÁRVORE DE DECISÃO .
False
Negative
1388
12%
False
Negative
610
12%
Amostra Desenvolvimento
True
False
True
Negative
Positive
Positive
4774
1040
4426
41%
9%
38%
Amostra Validação
True
False
True
Negative
Positive
Positive
2024
469
1883
41%
9%
38%
Total
11628
Total
4986
A distribuição dos scores dos clientes após o desenvolvimento da árvore de decisão pode ser observado na tabela VI,
que mostra a proporção de clientes classificados como “bons”
e “ruins” por faixa de probabilidade, o que permite definir o
ponto de corte (cut off ) para determinar a partir de que ponto
autoriza a contratação de operações do cliente.
O cut off foi definido para clientes com probabilidades de
vir a descumprir abaixo de 55%, ou seja, aqueles clientes que
possuem probabilidade superior a 55% de descumprimento
terão sua proposta reprovada automaticamente pelo modelo.
C. Redes Neurais
Redes Neurais Artificiais são técnicas computacionais que
apresentam um modelo matemático inspirado na estrutura neu-
Tabela VI
D ISTRIBUIÇÃO DO SCORE DOS CLIENTES - ÁRVORE DE DECISÃO .
Posterior
Probability
Range
0.90-0.95
0.80-0.85
0.75-0.80
0.70-0.75
0.60-0.65
0.55-0.60
0.45-0.50
0.40-0.45
0.35-0.40
0.30-0.35
0.25-0.30
0.15-0.20
0.10-0.15
0.05-0.10
0.00-0.05
Number
of
Events
1603
1501
193
444
455
230
115
38
554
119
233
180
38
101
10
Number
of
Nonevents
112
299
57
150
255
167
131
53
866
262
690
850
272
1397
253
Mean
Posterior
Probability
0.934
0.833
0.772
0.747
0.640
0.579
0.467
0.417
0.390
0.312
0.252
0.174
0.122
0.067
0.038
%
147.489
154.799
21.500
51.084
61.060
34.142
21.156
0.7826
122.119
32.766
79.377
88.579
26.660
128.827
22.618
ral de organismos inteligentes e que adquirem conhecimento
através da experiência.
A propriedade mais importante das redes neurais é a habilidade de aprender e com isso melhorar seu desempenho. Isso
é feito através de um processo iterativo de ajustes aplicado
a seus pesos, o treinamento. O aprendizado ocorre quando a
rede neural atinge uma solução generalizada para uma classe
de problemas.
Pode se destacar como as principais características da redes
neurais a utilização de variáveis categóricas, os valores numéricos devem ser “discretizados”, possui treinamento supervisionado, possui diversas técnicas não requer conhecimento
prévio sobre o domínio, facilidade para generalizar e tratar
ruídos, tem como desvantagens ser uma “caixa preta”, ajuste
de parâmetros é artesanal e pode tornar-se complexo.
Os resultados encontrados no processamento dos dados
utilizando a redes neurais demonstram uma boa classificação
dos clientes após o treinamento das redes. A arquitetura
utilizada para treinamento das redes foi multilayer perception
e a técnica de treinamento foi a backpropagation.
Na matriz de confusão apresentado pelas redes neurais,
observa-se que apenas 9% dos clientes classificados como
“bons” apresentaram pelo menos um, descumprimento após
12 meses de observação, demonstrando um bom poder de
descriminação conforme tabela VII.
Tabela VII
M ATRIZ DE CONFUSÃO - REDES NEURAIS .
step
1
2
3
4
5
6
7
8
9
10
11
12
effect
entered
v_0112
v_0503
v_0904
v_0059
v_0532
v_0036
v_0114
v_0903
v_0825
v_0585
v_0511
v_0523
number
df
5
4
4
4
4
4
3
4
2
3
2
3
score
in
1
2
3
4
5
6
7
8
9
10
11
12
chi-square
pr>chisq
29.084.665
11.255.229
7.684.502
3.100.076
1.969.337
1.454.771
1.250.694
529.309
414.483
412.464
297.420
217.390
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
4
Tabela VIII
D ISTRIBUIÇÃO DO SCORE DOS CLIENTES - REDES NEURAIS .
Posterior
Probability
Range
0.95-1.00
0.90-0.95
0.85-0.90
0.80-0.85
0.75-0.80
0.70-0.75
0.65-0.70
0.60-0.65
0.55-0.60
0.50-0.55
0.45-0.50
0.40-0.45
0.35-0.40
0.30-0.35
0.25-0.30
0.20-0.25
0.15-0.20
0.10-0.15
0.05-0.10
0.00-0.05
Number
of
Events
370
1208
870
695
447
331
272
225
184
168
154
114
109
130
104
88
112
94
86
53
Number
of
Nonevents
15
73
102
118
134
134
144
134
144
161
196
216
239
263
323
379
492
589
899
1059
Mean
Posterior
Probability
0.962
0.925
0.876
0.825
0.776
0.725
0.675
0.625
0.574
0.525
0.474
0.425
0.375
0.324
0.275
0.224
0.174
0.123
0.073
0.026
apresentaram um melhor poder explicativo que a árvore de
decisão.
%
Tabela IX
R ESULTADOS OBTIDOS PELAS TÉCNICAS DE REDES NEURAIS , REGRESSÃO
33.110
110.165
83.591
69.917
49.966
39.990
35.776
30.874
28.208
28.294
30.100
28.380
29.928
33.798
36.722
40.162
51.944
58.738
84.709
95.631
LOGÍSTICA E ÁRVORE DE DECISÃO
A distribuição dos scores dos clientes após o desenvolvimento das redes neurais pode ser observado na tabela VIII,
que mostra a proporção de clientes classificados como “bons”
e “ruins” por faixa de probabilidade, o que permite definir o
ponto de corte (cut off ) para determinar a partir de que ponto
autoriza a contratação de operações do cliente.
O cut off foi definido para clientes com probabilidades de
vir a descumprir abaixo de 45%, ou seja, aqueles clientes que
possuem probabilidade superior a 45% de descumprimento
terão sua proposta reprovada automaticamente pelo modelo.
D. Comparação dos Resultados
O primeiro resultado que pode ser observado é a curva ROC
dos três modelos. Note que os modelos de redes neurais e
regressão logística apresentaram os mesmo resultados tanto
na amostra de treinamento quanto na amostra de validação,
0,90 e 0,88, respectivamente, demonstrando um poder de
classificação melhor que a árvore de decisão.
Outras métricas estatísticas, além da curva ROC, também
podem ser utilizadas na escolha do melhor modelo para
classificar futuros clientes prospects de financiamento de veículos, como o K-S (kolmogorov-Sminorv) que é a medida
de avaliação de performance mais amplamente utilizada no
mercado e mede a capacidade do score distinguir bons e maus
clientes. Quanto maior a estatística de K-S, maior a separação
entre bons e maus. Basicamente esta estatística é construída
calculando a máxima diferença entre as distribuições acumuladas de bons e maus pagadores.
O Índice de GINI é duas vezes a área entre a diagonal
que cruza o gráfico em 45o e a curva ROC, esse coeficiente
sumariza a performance do modelo sobre todos os pontos de
corte.
Na tabela IX podemos observar as principais estatísticas
de performance dos modelos que podem ajudar na escolha
do melhor para o problema estudado. Observa-se que os
modelos desenvolvidos pela redes neurais e regressão logística
Estatísticas
Kolmogorov-Smirnov
Índice de ROC
Coeficiente de GINI
Neural
0,66
0,90
0,80
Regressão
0,65
0,90
0,78
Árvore
0,60
0,87
0,73
IV. C ONCLUSÃO
As técnicas de mineração de dados apresentadas e utilizadas
neste trabalho árvore de decisão, regressão logística e redes
neurais, no contexto do framework do CRISP-DM, demonstraram ser ferramentas analíticas de grande importância para
o processo decisório das IF’s no que diz respeito a concessão
de crédito para financiamento de veículos.
Diante do apresentado neste artigo, os analistas de crédito
das IF’s podem utilizar qualquer uma das três técnicas de
mineração de dados para classificar seus clientes entres bons e
ruins, pois se mostraram bastante eficientes. Apesar do critério
e escolha do melhor modelo apontado pelo do SAS R Enterprise MinerTM 14.1, outros fatores precisam ser levados em
consideração além da performance do modelo, principalmente
a interpretação do modelo desenvolvido onde as técnicas de
regressão logística e árvore de decisão são bem mais simples
de interpretar que a redes neurais.
Como os indicadores de performance da regressão logística
estão muito próximos das redes neurais e possui fácil interpretação dos seus resultados, esse modelo foi o escolhido para
classificar os clientes prospect de financiamento de veículos.
A difícil missão das IF’s em conceder crédito, pode ser
facilitadas pelas ferramentas quantitativas como apresentadas
neste artigo, mas não dispensa a expertise de seus analistas
de crédito que conseguem captar outras informações fora do
contexto da modelagem para conceder novos créditos.
Em trabalhos futuros pode ser testado modelos para inferência de rejeitados, visando obter uma maior rentabilidade da
carteira e mantendo os níveis de inadimplência nos mesmos
patamares atuais. Além de testes de hipóteses para ajudar a
decidir quais das técnicas utilizadas seria mais adequado ou
que traria um maior retorno dado o risco da carteira de crédito.
R EFERÊNCIAS
[1] A. Alan. Categorical Data Analysis. John Wiley and Sons, Hoboken,
New Jersey, 2002.
[2] G. S. L. e Michael J. A. Berry. Data Mining Techniques: For Marketing,
Sales, and Customer Relationship Management. John Wiley and Sons,
Hoboken, New Jersey, 2011.
[3] J. C. N. Eliane Prezepiorski Lemos, Maria Teresinha Arns Steiner. Análise
de crédito bancário por meio de redes neurais e árvores de decisão: uma
aplicação simples de data mining. Revista de Administração da USP, São
Paulo, 2011.
[4] S. A. Laredo. Credit Scoring. Edgar Blucher, São Paulo, 2010.
[5] J. R. Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann
Publishers, 2003.
Download

Análise de Risco de Crédito para Financiamento de Veículos