Uma abordagem de Mineração de
Dados na Concessão de Crédito
David J. Ribeiro
Icamaan B. V. Silva
Victor C. M. Braz
Renata Souza
Centro de Informática – UFPE
Recife, 01 de julho de 2009
Sumário
•
•
•
•
•
•
Introdução
Problema
Mineração de Dados
Modelagem
Experimentos e Resultados
Conclusões
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
2
Introdução
• PAKDD 2009
– Conferência líder nas áreas de mineração de
dados e descoberta de conhecimento
– Robustez contra a degradação causada ao longo
de alguns anos de operação comercial
– Conjuntos de dados provêm do cartão de crédito
(2003-2008)
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
3
Problema
• Avaliação de risco de crédito
– Grande rede de lojas brasileiras
– 8 anos de operação
– Taxa de aceitação de 50% para 75% neste período
• Clientes maus
– Atraso maior que 60 dias
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
4
Problema
• 31 variáveis afetadas pelas imperfeições
típicas dos problemas reais, como o ruído, a
falta de dados, outliers
• 9 variáveis numéricas e 22 categóricas
Modelagem
Período
Leaderboard
Período
Prediction
12 meses
12 meses
12 meses
12 meses
12 meses
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
5
Objetivo
• Extrair conhecimento dos dados de
modelagem para obter o melhor desempenho
Conjunto de Dados
Modelagem
Leaderboard
Prediction
Número de Padrões
50.000
10.000
10.000
Intervalo de tempo
12 meses
12 meses
12 meses
Variável Alvo
Rotulado
Não Rotulado
Não Rotulado
Prop. do Alvo
20% vs. 80%
Não Revelado
Não Revelado
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
6
Objetivo
Leaderboard
Team Name
University, Lab or Company
AUC_ROC
TDMS
VladN
LatentView Analytics
Victory
Tiberius Data Mining Solutions
Suncorp
LatentView
Victory
0.6292
0.6283
0.6215
0.6190
Prediction
Team Name
Equinox
Weka1
Logit
CRC
01/07/2009
University, Lab or Company
AUC_ROC
ANZ
University of Waikato
Tel-Aviv University, ISRAEL
University of Edinburgh
0.6588
0.6569
0.6550
0.6510
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
7
Mineração de Dados
• Entendimento dos Dados
ATRIBUTO
DESCRIÇÃO
Idade do candidato
AGE
MARITAL_STATUS
MONTHS_IN_THE_JOB
FLAG_RESIDENCIAL_PHONE
Estado civil do candidato
Quantidade de meses trabalhando
Indica se o candidato possui telefone residencial
ID_SHOP
Identificador da loja
PERSONAL_NET_INCOME
Renda
SEX
Sexo
MONTHS_IN_RESIDENCE
MATE_INCOME
01/07/2009
Quantidade de meses morando na atual
residência
Renda do parceiro
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
8
Mineração de Dados
• Eliminação de variáveis
– 10 variáveis eliminadas
• Missing Values
– 2 variáveis transformada para flag
– Moda ou mediana
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
9
Mineração de Dados
• Outliers
– 99º Percentil
ATRIBUTO
AGE
SHOP_RANK
MONTHS_IN_RESIDENCE
MONTHS_IN_THE_JOB
PERSONAL_NET_INCOME
QUANT_ADDITIONAL_CARDS_IN_THE_APPLICATION
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
OUTLIERS
238
287
547
1279
1
885
10
Mineração de Dados
• Importância das variáveis
– KS e ROC
Atributo
AGE
SHOP_RANK
MONTHS_IN_RESIDENCE
MONTHS_IN_THE_JOB
PERSONAL_NET_INCOME
01/07/2009
KS2 Máx
AUC_ROC
0,1912
0,0095
0,0489
0,1295
0,0885
0,3734
0,4998
0,4678
0,4329
0,4482
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
11
Mineração de Dados
• Importância das variáveis
– Ganho de informação
Ganho
Atributo
GANHO
Atributo
0.0375023
AGE
0.0033416
QUANT_ADDITIONAL_CARDS_IN_THE
0.0318123
DISCRETIZED_AGE
0.0019563
PAYMENT_DAY
0.0175899
MARITAL_STATUS
0.0013251
RESIDENCE_TYPE
0.0167471
MONTHS_IN_THE_JOB
0.0010863
FLAG_FATHERS_NAME
0.0132986
FLAG_RESIDENCIAL_PHONE
0.0007554
PERSONAL_REFERENCE_2
0.0130153
ID_SHOP
0.0005608
SHOP_RANK
0.010924
PERSONAL_NET_INCOME
0.0002966
FLAG_MOTHERS_NAME
0.0048649
SEX
0.0001462
FLAG_RESIDENCE_TOWN_WORKING_TOWN
0.0043717
MONTHS_IN_RESIDENCE
0.0000575
FLAG_RESIDENCIAL_ADDRESS_POSTAL
0.0033898
MATE_INCOME
0.0000313
FLAG_RESIDENCE_STATE_WORKING_STATE
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
12
Mineração de Dados
• Correlação de Pearson
RELAÇÃO ATRIBUTO VS. ATRIBUTO
AGE vs. MONTHS_IN_THE_JOB
AGE vs. MONTHS_IN_RESIDENCE
AGE vs. QUANT_ADDITIONAL_CARDS_IN
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
PEARSON
CORRELATION
0,358
0,253
0,174
13
Classificador
• Rede Neural MLP
– Backpropagation
– Sigmóide Logística
– Taxa de aprendizagem 0.001
– Momento 0.2
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
14
Experimentos
• Monte Carlo com 10 iterações
• 4-Fold Cross Validation
• Área sob a curva ROC
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
15
Resultados
• Iteração 1
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
16
Resultados
EXPERIMENTO
AUC_ROC
ITERAÇÃO 01
ITERAÇÃO 02
ITERAÇÃO 03
ITERAÇÃO 04
ITERAÇÃO 05
ITERAÇÃO 06
ITERAÇÃO 07
ITERAÇÃO 08
ITERAÇÃO 09
ITERAÇÃO 10
0.675
0.671
0.663
0.655
0.662
0.670
0.660
0.665
0.670
0.672
Desempenho médio 0.666 e desvio padrão 0.0063
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
17
Teste t
• A significancia do teste foi estipulada em 1%
• 10 iterações resultando em nove graus de
liberdade
• t0 = 2.821
H0 : µ <= 0.651
H1 : µ > 0.651
• t = 7.529
• Logo, com 99% de confiança rejeitamos H0
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
18
Conclusões
• Resultados satisfatórios
• Pouco tempo para um trabalho mais
detalhado permitindo a criação de novas
variáveis
• Avaliar desempenho sobre o Leaderboard
• Outros classificadores e a combinação entre
eles
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
19
Referências
• PAKDD 2009
http://itpe.siit.tu.ac.th/papervue/front/
• C. Shearer, "The CRISP-DM model: the new
blueprint for data mining“
• F. Tom, “An introduction to ROC analysis”
• M.H. DeGroot, Probability and Statistics. AddisonWesley, 1980
• W.J. Conover, Practical Nonparametric Statistics.
John Wiley & Sons,1998.
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
20
Uma abordagem de Mineração de
Dados na Concessão de Crédito
David J. Ribeiro
Icamaan B. V. Silva
Victor C. M. Braz
Renata Souza
Centro de Informática – UFPE
Recife, 01 de julho de 2009
Download

esap_projeto - Centro de Informática da UFPE