Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE Recife, 01 de julho de 2009 Sumário • • • • • • Introdução Problema Mineração de Dados Modelagem Experimentos e Resultados Conclusões 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 2 Introdução • PAKDD 2009 – Conferência líder nas áreas de mineração de dados e descoberta de conhecimento – Robustez contra a degradação causada ao longo de alguns anos de operação comercial – Conjuntos de dados provêm do cartão de crédito (2003-2008) 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 3 Problema • Avaliação de risco de crédito – Grande rede de lojas brasileiras – 8 anos de operação – Taxa de aceitação de 50% para 75% neste período • Clientes maus – Atraso maior que 60 dias 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 4 Problema • 31 variáveis afetadas pelas imperfeições típicas dos problemas reais, como o ruído, a falta de dados, outliers • 9 variáveis numéricas e 22 categóricas Modelagem Período Leaderboard Período Prediction 12 meses 12 meses 12 meses 12 meses 12 meses 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 5 Objetivo • Extrair conhecimento dos dados de modelagem para obter o melhor desempenho Conjunto de Dados Modelagem Leaderboard Prediction Número de Padrões 50.000 10.000 10.000 Intervalo de tempo 12 meses 12 meses 12 meses Variável Alvo Rotulado Não Rotulado Não Rotulado Prop. do Alvo 20% vs. 80% Não Revelado Não Revelado 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 6 Objetivo Leaderboard Team Name University, Lab or Company AUC_ROC TDMS VladN LatentView Analytics Victory Tiberius Data Mining Solutions Suncorp LatentView Victory 0.6292 0.6283 0.6215 0.6190 Prediction Team Name Equinox Weka1 Logit CRC 01/07/2009 University, Lab or Company AUC_ROC ANZ University of Waikato Tel-Aviv University, ISRAEL University of Edinburgh 0.6588 0.6569 0.6550 0.6510 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 7 Mineração de Dados • Entendimento dos Dados ATRIBUTO DESCRIÇÃO Idade do candidato AGE MARITAL_STATUS MONTHS_IN_THE_JOB FLAG_RESIDENCIAL_PHONE Estado civil do candidato Quantidade de meses trabalhando Indica se o candidato possui telefone residencial ID_SHOP Identificador da loja PERSONAL_NET_INCOME Renda SEX Sexo MONTHS_IN_RESIDENCE MATE_INCOME 01/07/2009 Quantidade de meses morando na atual residência Renda do parceiro David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 8 Mineração de Dados • Eliminação de variáveis – 10 variáveis eliminadas • Missing Values – 2 variáveis transformada para flag – Moda ou mediana 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 9 Mineração de Dados • Outliers – 99º Percentil ATRIBUTO AGE SHOP_RANK MONTHS_IN_RESIDENCE MONTHS_IN_THE_JOB PERSONAL_NET_INCOME QUANT_ADDITIONAL_CARDS_IN_THE_APPLICATION 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) OUTLIERS 238 287 547 1279 1 885 10 Mineração de Dados • Importância das variáveis – KS e ROC Atributo AGE SHOP_RANK MONTHS_IN_RESIDENCE MONTHS_IN_THE_JOB PERSONAL_NET_INCOME 01/07/2009 KS2 Máx AUC_ROC 0,1912 0,0095 0,0489 0,1295 0,0885 0,3734 0,4998 0,4678 0,4329 0,4482 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 11 Mineração de Dados • Importância das variáveis – Ganho de informação Ganho Atributo GANHO Atributo 0.0375023 AGE 0.0033416 QUANT_ADDITIONAL_CARDS_IN_THE 0.0318123 DISCRETIZED_AGE 0.0019563 PAYMENT_DAY 0.0175899 MARITAL_STATUS 0.0013251 RESIDENCE_TYPE 0.0167471 MONTHS_IN_THE_JOB 0.0010863 FLAG_FATHERS_NAME 0.0132986 FLAG_RESIDENCIAL_PHONE 0.0007554 PERSONAL_REFERENCE_2 0.0130153 ID_SHOP 0.0005608 SHOP_RANK 0.010924 PERSONAL_NET_INCOME 0.0002966 FLAG_MOTHERS_NAME 0.0048649 SEX 0.0001462 FLAG_RESIDENCE_TOWN_WORKING_TOWN 0.0043717 MONTHS_IN_RESIDENCE 0.0000575 FLAG_RESIDENCIAL_ADDRESS_POSTAL 0.0033898 MATE_INCOME 0.0000313 FLAG_RESIDENCE_STATE_WORKING_STATE 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 12 Mineração de Dados • Correlação de Pearson RELAÇÃO ATRIBUTO VS. ATRIBUTO AGE vs. MONTHS_IN_THE_JOB AGE vs. MONTHS_IN_RESIDENCE AGE vs. QUANT_ADDITIONAL_CARDS_IN 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) PEARSON CORRELATION 0,358 0,253 0,174 13 Classificador • Rede Neural MLP – Backpropagation – Sigmóide Logística – Taxa de aprendizagem 0.001 – Momento 0.2 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 14 Experimentos • Monte Carlo com 10 iterações • 4-Fold Cross Validation • Área sob a curva ROC 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 15 Resultados • Iteração 1 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 16 Resultados EXPERIMENTO AUC_ROC ITERAÇÃO 01 ITERAÇÃO 02 ITERAÇÃO 03 ITERAÇÃO 04 ITERAÇÃO 05 ITERAÇÃO 06 ITERAÇÃO 07 ITERAÇÃO 08 ITERAÇÃO 09 ITERAÇÃO 10 0.675 0.671 0.663 0.655 0.662 0.670 0.660 0.665 0.670 0.672 Desempenho médio 0.666 e desvio padrão 0.0063 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 17 Teste t • A significancia do teste foi estipulada em 1% • 10 iterações resultando em nove graus de liberdade • t0 = 2.821 H0 : µ <= 0.651 H1 : µ > 0.651 • t = 7.529 • Logo, com 99% de confiança rejeitamos H0 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 18 Conclusões • Resultados satisfatórios • Pouco tempo para um trabalho mais detalhado permitindo a criação de novas variáveis • Avaliar desempenho sobre o Leaderboard • Outros classificadores e a combinação entre eles 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 19 Referências • PAKDD 2009 http://itpe.siit.tu.ac.th/papervue/front/ • C. Shearer, "The CRISP-DM model: the new blueprint for data mining“ • F. Tom, “An introduction to ROC analysis” • M.H. DeGroot, Probability and Statistics. AddisonWesley, 1980 • W.J. Conover, Practical Nonparametric Statistics. John Wiley & Sons,1998. 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 20 Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE Recife, 01 de julho de 2009