Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008 Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) Descrição do Problema Empresa de Seguros O Problema consiste em tomar uma decisão de enviar por mala direta uma proposta de apólice de seguro para todos os clintes da seguradora ou só para os clientes que tem uma chance maior de fazer o seguro. A empresa identificando estes clientes potenciais conseguirá reduzir o custo e assim evitar desperdício nas vendas. Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) Categoria do Problema Classificação (Supervisionada ) ou predição categórica Classificação (supervisionada) ou predição categórica Tem por objetivo a criação de modelos para predizer as classes a que pertencem objetos desconhecidos. Determinar uma regra que possa ser usada para classificar de forma otimizada uma nova observação a uma classe já rotulada. Nosso objetivo final será predizer baseado nos dados de cada cliente quais tem maior chance de adquirir uma apólice de seguros. Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) Empresa de Seguros ( Fonte dos Dados) Os dados foram obtidos de uma competição internacional (Coil challenge 2000 dataming competion), porém são baseados em dados reais fornecidos pela Dutch datamining company Sentient Machine Research*. * Para informações sobre o datasets ver homepage: http://www.wi.leidenuniv.nl/~putten/library/cc2000/ Empresa de Seguros ( Descrição dos Dados) Foram informados 86 variavéis sobre os clientes dentre essas tinham dados sócio-demográficos e relativos a seguros. A base de treinamento do modelo contém 5826 clientes e inclui a informação se o cliente tinha ou não uma apólice de seguro. Para testar o modelo foram fornecidos dados de 4000 clientes com as mesmas informações, exceto se tinha ou não uma apólice de seguro. Sendo a variável alvo a que diz se comprou ou não seguro. Empresa de Seguros ( Descrição dos Dados) 1 MOSTYPE Customer Subtype see L0 2 MAANTHUI Number of houses 1 – 10 3 MGEMOMV Avg size household 1 – 6 4 MGEMLEEF Avg age see L1 5 MOSHOOFD Customer main type see L2 6 MGODRK Roman catholic see L3 7 MGODPR Protestant ... 8 MGODOV Other religion 9 MGODGE No religion 10 MRELGE Married 11 MRELSA Living together 12 MRELOV Other relation 13 MFALLEEN Singles 14 MFGEKIND Household without children 15 MFWEKIND Household with children 16 MOPLHOOG High level education 17 MOPLMIDD Medium level education 18 MOPLLAAG Lower level education 19 MBERHOOG High status 20 MBERZELF Entrepreneur 21 MBERBOER Farmer 22 MBERMIDD Middle management 23 MBERARBG Skilled labourers 24 MBERARBO Unskilled labourers 25 MSKA Social class A 26 MSKB1 Social class B1 27 MSKB2 Social class B2 28 MSKC Social class C 29 MSKD Social class D Variaveis Originais 30 MHHUUR Rented house 31 MHKOOP Home owners 32 MAUT1 1 car 33 MAUT2 2 cars 34 MAUT0 No car 35 MZFONDS National Health Service 36 MZPART Private health insurance 37 MINKM30 Income < 30.000 38 MINK3045 Income 30-45.000 39 MINK4575 Income 45-75.000 40 MINK7512 Income 75-122.000 41 MINK123M Income >123.000 42 MINKGEM Average income 43 MKOOPKLA Purchasing power class 44 PWAPART Contribution private third party insurance see L4 45 PWABEDR Contribution third party insurance (firms) ... 46 PWALAND Contribution third party insurane (agriculture) 47 PPERSAUT Contribution car policies 48 PBESAUT Contribution delivery van policies 49 PMOTSCO Contribution motorcycle/scooter policies 50 PVRAAUT Contribution lorry policies 51 PAANHANG Contribution trailer policies 52 PTRACTOR Contribution tractor policies 53 PWERKT Contribution agricultural machines policies 54 PBROM Contribution moped policies 55 PLEVEN Contribution life insurances 56 PPERSONG Contribution private accident insurance policies 57 PGEZONG Contribution family accidents insurance policies 58 PWAOREG Contribution disability insurance policies 59 PBRAND Contribution fire policies 60 PZEILPL Contribution surfboard policies 61 PPLEZIER Contribution boat policies 62 PFIETS Contribution bicycle policies 63 PINBOED Contribution property insurance policies 64 PBYSTAND Contribution social security insurance policies 65 AWAPART Number of private third party insurance 1 - 12 66 AWABEDR Number of third party insurance (firms) ... 67 AWALAND Number of third party insurane (agriculture) 68 APERSAUT Number of car policies 69 ABESAUT Number of delivery van policies 70 AMOTSCO Number of motorcycle/scooter policies 71 AVRAAUT Number of lorry policies 72 AAANHANG Number of trailer policies 73 ATRACTOR Number of tractor policies 74 AWERKT Number of agricultural machines policies 75 ABROM Number of moped policies 76 ALEVEN Number of life insurances 77 APERSONG Number of private accident insurance policies 78 AGEZONG Number of family accidents insurance policies 79 AWAOREG Number of disability insurance policies 80 ABRAND Number of fire policies 81 AZEILPL Number of surfboard policies 82 APLEZIER Number of boat policies 83 AFIETS Number of bicycle policies 84 AINBOED Number of property insurance policies 85 ABYSTAND Number of social security insurance policies 86 CARAVAN Number of mobile home policies 0 - 1 As variáveis de 1 a 43 são referentes a dados sócio-demográficos e as variáveis de 44 a 86 são referentes a seguros. Empresa de Seguros ( Descrição dos Dados) 1 MOSTYPE Customer Subtype 1 High Income, expensive child Renda Alta/despesa com criança 2 Very Important Provincials Morador de província muito importante 3 High status seniors Senior de alta renda L1: L2: 4 Affluent senior apartments Senior com apartamento grande 1 20-30 years 1 Successful hedonists 5 Mixed seniors Mora com várias pessoas seniors 6 Career and childcare Carreira e voluntário 2 30-40 years 2 Driven Growers 7 Dinki's (double income no kids) Sem crianças e duas fonte de renda 3 40-50 years 3 Average Family 8 Middle class families Famílias de classe média 4 50-60 years 4 Career Loners 9 Modern, complete families Famílias completas e modernas 10 Stable family Famílias estáveis 5 60-70 years 5 Living well 11 Family starters Famílias recém formadas 6 70-80 years 6 Cruising Seniors 12 Affluent young families Jovens famílias prósperas 13 Young all american family Famílias de jovens americanos 14 Junior cosmopolitan Joven cosmopolita 15 Senior cosmopolitans Senior cosmopolita 9 Conservative families 16 Students in apartments Estudantes em apartamentos 10 Farmers 17 Fresh masters in the city Professor novo em cidade 18 Single youth Jovem solteiro 19 Suburban youth Jovem suburbano 20 Etnically diverse Etnia diversa 21 Young urban have-nots Jovem urbanos sem posses 22 Mixed apartment dwellers Morador de repúblicas 23 Young and rising Jovem e próspero 24 Young, low educated 25 Young seniors in the city 7 Retired and Religeous 8 Family with grown ups L4: L3: Jovem com baixa educação 0f0 0 0% Seniors jovens na cidade 1 f 1 – 49 1 1 - 10% 26 Own home elderly Casa própia usada 2 f 50 – 99 2 11 - 23% 27 Seniors in apartments Seniors em apartamentos 28 Residential elderly Residência Antiga 3 f 100 – 199 3 24 - 36% 4 37 - 49% 29 Porchless seniors: no front yard Casa sem quintal 4 f 200 – 499 30 Religious elderly singles Idoso solteiro religioso 5 f 500 – 999 5 50 - 62% 31 Low income catholics Católicos com baixa renda 32 Mixed seniors Mora com várias pessoas seniors 6 f 1000 – 4999 6 63 - 75% 33 Lower class large families Famílias grandes com baixa renda 7 f 5000 – 9999 7 76 - 88% 34 Large family, employed child Famílias grandes com crianças trabalhando 8 f 10.000 - 19.999 8 89 - 99% 35 Village families Famílias de vila 9 f 20.000 - ? 36 Couples with teens 'Married with children' Casais adolescentes com filhos 9 100% 37 Mixed small town dwellers Habitantes de cidades pequenas misturados 38 Traditional families Famílias Tradicionais 39 Large religous families Grandes famíllias religiosas 40 Large family farms Fazenda de grandes famílias 41 Mixed rurals Pessoas rurais misturadas Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) Mostype Customer Subtype –Extraindo características e realce 1 MOSTYPE Customer Subtype Frequencia %Percentual 1 High Income, expensive child Renda Alta/despesa com criança 124 2% 2 Very Important Provincials Morador de província muito importante 82 1% 3 High status seniors Senior de alta renda 249 4% 4 Affluent senior apartments Senior com apartamento grande 52 1% 5 Mixed seniors Mora com várias pessoas seniors 45 1% 6 Career and childcare Carreira e voluntário 119 2% 7 Dinki's (double income no kids) Sem crianças e duas fonte de renda 44 1% 8 Middle class families Famílias de classe média 339 6% 9 Modern, complete families Famílias completas e modernas 278 5% 10 Stable family Famílias estáveis 165 3% 11 Family starters Famílias recém formadas 153 3% 12 Affluent young families Jovens famílias prósperas 111 2% 13 Young all american family Famílias de jovens americanos 179 3% 14 Junior cosmopolitan Joven cosmopolita 0 0% 15 Senior cosmopolitans Senior cosmopolita 5 0% 16 Students in apartments Estudantes em apartamentos 16 0% 17 Fresh masters in the city Professor novo em cidade 9 0% 18 Single youth Jovem solteiro 19 0% 19 Suburban youth Jovem suburbano 3 0% 20 Etnically diverse Etnia diversa 25 0% 21 Young urban have-nots Jovem urbanos sem posses 15 0% 22 Mixed apartment dwellers Morador de repúblicas 98 2% 23 Young and rising Jovem e próspero 251 4% 24 Young, low educated Jovem com baixa educação 180 3% 25 Young seniors in the city Seniors jovens na cidade 82 1% 26 Own home elderly Casa própia usada 48 1% 27 Seniors in apartments Seniors em apartamentos 50 1% 28 Residential elderly Residência Antiga 25 0% 29 Porchless seniors: no front yard Casa sem quintal 86 2% 30 Religious elderly singles Idoso solteiro religioso 118 2% 31 Low income catholics Católicos com baixa renda 205 4% 32 Mixed seniors Mora com várias pessoas seniors 141 2% 33 Lower class large families Famílias grandes com baixa renda 810 14% 34 Large family, employed child Famílias grandes com crianças trabalhando 182 3% 35 Village families Famílias de vila 214 4% 36 Couples with teens 'Married with children' Casais adolescentes com filhos 225 4% 37 Mixed small town dwellers Habitantes de cidades pequenas misturados 132 2% 38 Traditional families Famílias Tradicionais 339 6% 39 Large religous families Grandes famíllias religiosas 328 6% 40 Large family farms Fazenda de grandes famílias 71 1% 41 Mixed rurals Pessoas rurais misturadas 205 4% %Percentual de resposta assinaladas 16% 14% 12% 10% 8% 6% 4% 2% 0% -1 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 -2% Devido ao número baixo de pessoas que responderam e as suas características as variáveis14,15,16,17,18,19, 20, 21 e 28 foram eliminadas, além da variável 5 que é repetida. As variáveis 3,8,12,23,24,33 foram eliminadas devido a relação com outras variáveis como classe social,renda e idade. 41 5 MOSHOOFD Customer main type - Extraindo características e realce 5 MOSHOOFD (Tipo principal de cliente) Frequência %Percentual 1 Successful hedonists Hendonista de sucesso 552 9% 2 Driven Growers Morador do tralier 502 9% 3 Average Family Família média 886 15% 4 Career Loners Autônomo 52 1% 5 Living well Aventureiro 569 10% 6 Cruising Seniors Maduros de gostam de viajar 205 4% 7 Retired and Religeous Terceira idade reservado 550 9% 8 Family with grown ups Família com adultos 1563 27% 9 Conservative families Famílias conservadoras 667 11% 10 Farmers Fazendeiros 276 5% %Percentual de respostas assinaladas 30% 25% 20% 15% 10% 5% 0% 0 2 4 6 8 10 A variável 5 é definida como o tipo principal de clientes que a seguradora procura.Está variável vai ser desmembrada em 10 variáveis novas do tipo dummy na parte de protipagem. Variáveis do grupo 1 ( 1 ao 24) Variáveis Média Máximo Minimo Moda Nº de vezes que aparece a moda Percentil 95% Total de observações 2 MAANTHUI Number of houses 1 – 10 1,11 10 1 1 5267 2 5822 3 MGEMOMV Avg size household 1 – 6 2,68 5 1 3 2646 4 5822 4 MGEMLEEF Avg age see L1 2,99 6 1 3 3000 4 5822 5 MOSHOOFD Customer main type see L2 5,77 10 1 8 1563 9 5822 6 MGODRK Roman catholic see L3 0,70 9 0 0 3228 2 5822 7 MGODPR Protestant ... 4,63 9 0 4 1607 7 5822 8 MGODOV Other religion 1,07 5 0 1 2014 3 5822 9 MGODGE No religion 3,26 9 0 3 1453 6 5822 10 MRELGE Married 6,18 9 0 7 1683 9 5822 11 MRELSA Living together 0,88 7 0 0 2448 2 5822 12 MRELOV Other relation 2,29 9 0 2 1756 5 5822 13 MFALLEEN Singles 1,89 9 0 0 1757 5 5822 14 MFGEKIND Household without children 3,23 9 0 3 1498 6 5822 15 MFWEKIND Household with children 4,30 9 0 4 1137 8 5822 16 MOPLHOOG High level education 1,46 9 0 0 2147 5 5822 17 MOPLMIDD Medium level education 3,35 9 0 4 1426 6 5822 18 MOPLLAAG Lower level education 4,57 9 0 5 1009 9 5822 19 MBERHOOG High status 1,90 9 0 0 1524 5 5822 20 MBERZELF Entrepreneur 0,40 5 0 0 4171 2 5822 21 MBERBOER Farmer 0,52 9 0 0 4176 3 5822 22 MBERMIDD Middle management 2,90 9 0 2 1491 6 5822 23 MBERARBG Skilled labourers 2,22 9 0 2 1382 5 5822 24 MBERARBO Unskilled labourers 2,31 9 0 2 1439 5 5822 Atributo As variáveis de 7 a 24 são baseadas na região onde o cliente reside,ou seja , são atribuídos porcentagens de tal individuo possuir tal característica ou não, varia de 0% a 100%.Estas informações são retiradas do censo demográfico.Vide tabela ao lado. A variável 21 será eliminada devido a semelhança com a variável 5 atributo 10. 0 Porcentagem 0% 1 1- 10% 2 11-23% 3 24 - 36% 4 37 - 49% 5 50 - 62% 6 63 - 75% 7 76 - 88% 8 89 - 99% 9 100% Variáveis socioeconômicas: grupo 2 ( 25 ao 43) 25 26 27 28 29 30 31 32 33 34 35 37 38 39 40 41 42 43 Variáveis MSKA Social class A MSKB1 Social class B1 MSKB2 Social class B2 MSKC Social class C MSKD Social class D MHHUUR Rented house MHKOOP Home owners MAUT1 1 car MAUT2 2 cars MAUT0 No car MZFONDS National Health Service MINKM30 Income < 30.000 MINK3045 Income 30-45.000 MINK4575 Income 45-75.000 MINK7512 Income 75-122.000 MINK123M Income >123.000 MINKGEM Average income MKOOPKLA Purchasing power class Através do resultado da regressão logística, chegou-se a eliminação das variáveis 30,31,33,34 e 43 do grupo 2. 30 30 30 30 30 30 30 30 30 31 31 31 33 33 33 33 33 33 34 34 34 34 34 34 34 34 43 43 43 43 43 43 43 Variáveis MHHUUR Rented house MHHUUR Rented house MHHUUR Rented house MHHUUR Rented house MHHUUR Rented house MHHUUR Rented house MHHUUR Rented house MHHUUR Rented house MHHUUR Rented house MHKOOP Home owners MHKOOP Home owners MHKOOP Home owners MAUT2 2 cars MAUT2 2 cars MAUT2 2 cars MAUT2 2 cars MAUT2 2 cars MAUT2 2 cars MAUT0 No car MAUT0 No car MAUT0 No car MAUT0 No car MAUT0 No car MAUT0 No car MAUT0 No car MAUT0 No car MKOOPKLA Purchasing MKOOPKLA Purchasing MKOOPKLA Purchasing MKOOPKLA Purchasing MKOOPKLA Purchasing MKOOPKLA Purchasing MKOOPKLA Purchasing power class power class power class power class power class power class power class Atributo 0 1 2 3 4 5 6 7 8 2 4 5 0 1 2 3 4 5 0 1 2 3 4 5 7 8 1 2 3 4 5 6 7 P- valor 74% 55% 16% 0% 95% 92% 0% 88% 0% 88% 92% 95% 36% 36% 31% 21% 35% 29% 11% 15% 7% 5% 19% 9% 100% 100% 20% 66% 69% 40% 94% 43% 0% Variáveis relativas a seguro: grupo 3 ( 44 ao 85) Inclui 44 PWAPART Contribution private third party insurance 45 PWABEDR Contribution third party insurance (firms) ... 46 PWALAND Contribution third party insurane (agriculture) 47 PPERSAUT Contribution car policies 48 PBESAUT Contribution delivery van policies 49 PMOTSCO Contribution motorcycle/scooter policies 50 PVRAAUT Contribution lorry policies 51 PAANHANG Contribution trailer policies 52 PTRACTOR Contribution tractor policies 53 PWERKT Contribution agricultural machines policies 54 PBROM Contribution moped policies 55 PLEVEN Contribution life insurances 56 PPERSONG Contribution private accident insurance policies 57 PGEZONG Contribution family accidents insurance policies 58 PWAOREG Contribution disability insurance policies 59 PBRAND Contribution fire policies 60 PZEILPL Contribution surfboard policies 61 PPLEZIER Contribution boat policies 62 PFIETS Contribution bicycle policies 63 PINBOED Contribution property insurance policies 64 PBYSTAND Contribution social security insurance policies Excluidas 65 AWAPART Number of private third party insurance 1 - 12 66 AWABEDR Number of third party insurance (firms) ... 67 AWALAND Number of third party insurane (agriculture) 68 APERSAUT Number of car policies 69 ABESAUT Number of delivery van policies 70 AMOTSCO Number of motorcycle/scooter policies 71 AVRAAUT Number of lorry policies 72 AAANHANG Number of trailer policies 73 ATRACTOR Number of tractor policies 74 AWERKT Number of agricultural machines policies 75 ABROM Number of moped policies 76 ALEVEN Number of life insurances 77 APERSONG Number of private accident insurance policies 78 AGEZONG Number of family accidents insurance policies 79 AWAOREG Number of disability insurance policies 80 ABRAND Number of fire policies 81 AZEILPL Number of surfboard policies 82 APLEZIER Number of boat policies 83 AFIETS Number of bicycle policies 84 AINBOED Number of property insurance policies 85 ABYSTAND Number of social security insurance policies Atributo As variáveis relativas a seguro apresentam uma correlação muito grande, por isso serão eliminadas as variáveis da coluna excluídas. 0 1 2 3 4 5 6 7 8 9 Correlações 0,98 0,90 0,99 0,92 0,90 0,90 0,95 0,97 0,93 0,91 0,97 0,85 0,90 0,98 0,95 0,87 0,87 0,90 0,94 0,88 0,97 Contribuição($) 0 1 – 49 50 – 99 100 200 500 1000 5000 10000 20000 Variáveis Tabela com as variáveis que serão usados no ajuste do modelo. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 Mostype1 High Income, expensive child Mostype2 Very Important Provincials Mostype4 Affluent senior apartments Mostype6 Career and childcare Mostype7 Dinki's (double income no kids) Mostype9 Modern, complete families Mostype10 Stable family Mostype11 Family starters Mostype13 Young all american family Mostype22 Mixed apartment dwellers Mostype25 Young seniors in the city Mostype26 Own home elderly Mostype27 Seniors in apartments Mostype29 Porchless seniors: no front yard Mostype30 Religious elderly singles Mostype31 Low income catholics Mostype32 Mixed seniors Mostype34 Large family, employed child Mostype35 Village families Mostype36 Couples with teens 'Married with children' Mostype37 Mixed small town dwellers Mostype38 Traditional families Mostype39 Large religous families Mostype40 Large family farms Mostype41 Mixed rurals MAANTHUI Number of houses 1 – 10 MGEMOMV Avg size household 1 – 6 MGEMLEEF Avg age MOSHOOFD1 MOSHOOFD2 MOSHOOFD3 MOSHOOFD4 MOSHOOFD5 R 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 Número de variáveis final MOSHOOFD6 MOSHOOFD7 MOSHOOFD8 MOSHOOFD9 MOSHOOFD10 MGODRK Roman catholic see L3 MGODPR Protestant ... MGODOV Other religion MGODGE No religion MRELGE Married MRELSA Living together MRELOV Other relation MFALLEEN Singles MFGEKIND Household without children MFWEKIND Household with children MOPLHOOG High level education MOPLMIDD Medium level education MOPLLAAG Lower level education MBERHOOG High status MBERZELF Entrepreneur MBERMIDD Middle management MBERARBG Skilled labourers MBERARBO Unskilled labourers MSKA Social class A MSKB1 Social class B1 MSKB2 Social class B2 MSKC Social class C MSKD Social class D MHHUUR Rented house MHKOOP Home owners MAUT1 1 car MAUT2 2 cars MAUT0 No car 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 MZFONDS National Health Service MINKM30 Income < 30.000 MINK3045 Income 30-45.000 MINK4575 Income 45-75.000 MINK7512 Income 75-122.000 MINK123M Income >123.000 MINKGEM Average income MKOOPKLA Purchasing power class PWAPART Contribution private third party insurance PWABEDR Contribution third party insurance (firms) ... PWALAND Contribution third party insurane (agriculture) PPERSAUT Contribution car policies PBESAUT Contribution delivery van policies PMOTSCO Contribution motorcycle/scooter policies PVRAAUT Contribution lorry policies PAANHANG Contribution trailer policies PTRACTOR Contribution tractor policies PWERKT Contribution agricultural machines policies PBROM Contribution moped policies PLEVEN Contribution life insurances PPERSONG Contribution private accident insurance policies PGEZONG Contribution family accidents insurance policies PWAOREG Contribution disability insurance policies PBRAND Contribution fire policies PZEILPL Contribution surfboard policies PPLEZIER Contribution boat policies PFIETS Contribution bicycle policies PINBOED Contribution property insurance policies PBYSTAND Contribution social security insurance policies Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) Plano de Prototipagem Plano de Prototipagem Ferramenta de modelagem matemática Técnica utilizada É a etapa de desenvolvimento das hipóteses de trabalho para a análise,baseada nas metas definidas pela empresa e da construção de um plano para testá-las. A ferramenta utilizada foi o software Statistica. Para a estimação dos parâmetros do modelo e previsão dos resultados da amostra de treinamento foi utilizado a técnica de regressão logística e redes neurais. Padronização das variáveis Uma grande parte das 95 variáveis foram padronizadas,estas foram diminuídas da média e divididas pelo o desvio padrão, somente as variáveis dummy (0 ou 1) foram mantidas sem a padronização. Esta padronização deve como objetivo evitar problemas de escala e com isso deixá-las mais estáveis. X- Resultado da amostra de treinamento Para o ajuste do modelo foi utilizado, as variáveis definidas na etapa anterior Intercepto VAR1 VAR2 VAR3 VAR4 VAR5 VAR6 VAR7 VAR8 VAR9 VAR10 VAR11 VAR12 VAR13 VAR14 VAR15 VAR16 VAR17 VAR18 VAR19 VAR20 VAR21 VAR22 VAR23 VAR24 VAR25 VAR26 VAR27 VAR28 VAR29 VAR30 VAR31 VAR32 VAR33 VAR34 VAR35 VAR36 VAR37 VAR38 VAR39 VAR40 VAR41 VAR42 VAR43 VAR44 VAR45 VAR46 VAR47 VAR48 VAR49 Estimativa 3,24 0,42 0,10 1,23 0,18 0,94 0,66 1,38 0,80 0,81 -0,26 -13,99 -14,71 -14,26 0,68 0,01 0,06 -0,20 0,37 0,51 -0,20 -0,30 -0,22 0,11 28,71 0,77 0,03 0,03 -0,17 0,03 -0,03 -0,32 29,04 0,53 14,73 0,00 0,00 0,00 0,00 0,12 0,04 0,01 0,11 -0,46 -0,13 -0,27 0,13 0,21 0,19 -0,05 V Erro padrao 0,29 0,60 0,57 0,79 0,41 0,70 0,71 0,51 0,52 0,48 0,64 0,85 1,14 1,14 0,76 0,61 0,60 0,57 0,69 0,56 0,33 0,44 0,33 0,48 Wald 125,61 0,48 0,03 2,45 0,20 1,77 0,86 7,37 2,42 2,88 0,16 270,12 166,47 157,15 0,80 0,00 0,01 0,13 0,29 0,85 0,36 0,46 0,44 0,05 P-valor 0,00 0,49 0,86 0,12 0,65 0,18 0,35 0,01 0,12 0,09 0,68 0,00 0,00 0,00 0,37 0,98 0,92 0,72 0,59 0,36 0,55 0,50 0,51 0,82 0,55 0,09 0,11 0,09 0,58 0,79 0,83 1,98 0,15 0,06 3,37 0,00 0,00 0,15 0,16 0,70 0,81 0,07 0,96 0,97 0,70 0,41 1,66 0,20 0,11 0,21 0,11 0,18 0,30 0,14 0,27 0,24 0,22 0,29 0,22 1,19 0,04 0,01 0,37 2,32 0,87 1,01 0,31 0,90 0,45 0,05 0,27 0,84 0,94 0,54 0,13 0,35 0,32 0,58 0,34 0,50 0,82 VAR50 VAR51 VAR52 VAR53 VAR54 VAR55 VAR56 VAR57 VAR58 VAR59 VAR60 VAR61 VAR62 VAR63 VAR64 VAR65 VAR66 VAR67 VAR68 VAR69 VAR70 VAR71 VAR72 VAR73 VAR74 VAR75 VAR76 VAR77 VAR78 VAR79 VAR80 VAR81 VAR82 VAR83 VAR84 VAR85 VAR86 VAR87 VAR88 VAR89 VAR90 VAR91 VAR92 VAR93 VAR94 VAR95 Estimativa 0,15 0,48 -0,19 -0,03 -0,27 -0,08 -0,20 0,04 0,07 -0,02 -0,15 0,08 9,66 9,57 -0,29 -0,19 -0,16 -0,10 -0,22 -0,23 -0,21 -0,12 0,11 -0,09 -0,17 -0,14 0,04 0,16 -0,66 0,02 0,03 1,25 -0,06 -0,02 2,07 0,11 0,04 0,05 -0,04 -0,09 -0,22 -0,01 -0,15 -0,10 0,02 -0,05 Erro padrao 0,24 0,32 0,15 0,08 0,15 0,14 0,14 0,18 0,13 0,14 0,19 0,13 6,02 6,02 0,24 0,17 0,23 0,09 0,21 0,19 0,19 0,12 0,08 0,13 0,37 0,07 0,07 0,10 0,07 0,07 0,06 Wald 0,39 2,33 1,70 0,15 3,27 0,35 2,11 0,06 0,25 0,01 0,56 0,36 2,58 2,53 1,40 1,34 0,49 1,29 1,09 1,59 1,27 1,05 1,80 0,47 0,21 3,53 0,31 2,40 84,51 0,08 0,20 P-valor 0,53 0,13 0,19 0,70 0,07 0,55 0,15 0,81 0,61 0,91 0,45 0,55 0,11 0,11 0,24 0,25 0,48 0,26 0,30 0,21 0,26 0,31 0,18 0,49 0,64 0,06 0,58 0,12 0,00 0,78 0,66 0,06 0,08 1,12 0,05 0,29 0,82 0,10 0,05 0,10 0,04 0,04 0,08 0,05 0,03 0,05 0,06 0,04 1,21 0,58 0,23 1,26 4,80 7,71 0,09 23,11 4,61 0,13 1,59 0,27 0,44 0,63 0,26 0,03 0,01 0,76 0,00 0,03 0,72 0,21 Matriz de Confusão Para realizar a previsão foi utilizado uma probabilidade de que um cliente compre o seguro da ordem de px = 0,85( ponto de corte). Após fixar este valor foi observado a matriz de confusão abaixo.Os valores previstos foram comparados com a amostra de treinamento. px= 0,85 Previsão Não Compra Compra Total Não Compra Compra Total Previsão 5083 391 5474 219 129 348 5302 520 5822 Não Compra px= 0,8 Previsão Não Compra Compra Total Observação Não Compra Compra Total 5266 208 5474 263 85 348 5529 293 5822 px= 0,9 Previsão Não Compra Compra Total px= 0,81 Observação Observação Não Compra Compra Total 4608 866 5474 160 188 348 4768 1054 5822 Compra Total Observação Não Compra Compra Total 5224 250 5474 250 98 348 5474 348 5822 Gráfico Predição por cliente da amostra 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 -100 900 1900 2900 3900 4900 5900 Nota: o modelo não se mostrou sensível a mudanças no parâmetro fatorial que realiza interações entre as variáveis. Matriz de Confusão Redes Neurais As matrizes de confusão abaixo, mostra que o melhor modelo foi o modelo resumido com critério de paragem com entropia.Este obteve um acerto da ordem de 67% para os casos de compra e 72% para os casos de não compra. Modelo Completo com entropia Var_Target("0") 5474 3773 1701 69% 31% Total Correto Errado %Correto %ERRADO Matriz de Confusão Não Compra Compra Não Compra 3773 1701 Var_Target("1") 348 229 119 66% 34% Compra 119 229 Modelo Completo com soma dos quadrados Total 5822 4002 1820 Total 3892 1930 Modelo Resumido com entropia Var_Target("0") 5474 3949 1525 72% 28% Total Correto Errado %Correto %ERRADO Matriz de Confusão Não Compra Compra V Não Compra 3949 1525 Var_Target("1") 348 233 115 67% 33% Compra 115 233 Total Corretto Errado %Correto %ERRADO Var_Target("0") 5.482 3.451 2.031 63% 37% Matriz de Confusão Não Compra Compra Não Compra 3.451 2.031 Var_Target("1") 340 230 110 67% 32% Compra 110 230 Modelo Resumido com soma dos quadrados Total 5822 4182 1640 Total 4064 1758 Total Corretto Errado %Correto %ERRADO Matriz de Confusão Não Compra Compra Var_Target("0") 5.474 2.694 2.780 49% 51% Não Compra 2.694 2.780 Var_Target("1") 348 186 162 53% 47% Compra 162 186 Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) VALIDAÇÃO Todas as modificações realizadas com as variáveis na base de dados de treinamento foram feitas na base de validação , para manter a compatibilidade com o modelo proposto. Como a base de teste não tinha as respostas da variável target foi realizado na base de dados de treinamento um split para realizar a validação do modelo.Foi utilizado 30% da base de treinamento(1745 observações). A validação foi feita pela análise da matriz de confusão e o gráfico de alavancagem Modelo resumido de redes neurais com entropia Percentual de acertos na base de validação Var_Target("0") Var_Target("1") Total 1637 107 1744 1001 69 1070 636 38 674 61% 64% 39% 36% Total Correto Errado %Correto %Errado Matriz de Confusão Previsão Não Compra Compra Total Observação Não Compra Compra 1001 38 636 69 1637 107 Total 1039 705 1744 Gráfico de Alavancagem Gráfico de Alavancagem Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados Extração de características e realce Plano de Prototipagem Validação Implementação ROI( Análise Financeira) Implementação O Problema consiste em tomar uma decisão de enviar por mala direta uma proposta de apólice de seguro para todos os clientes da seguradora ou só para os clientes que tem uma chance maior de fazer o seguro. A empresa identificando estes clientes potenciais conseguirá reduzir o custo e evitar desperdício nas vendas. O modelo foi desenvolvido no software Statistica. Após um estudo detalhado das variáveis de entrada foram selecionadas inicialmente 95 variáveis e posteriormente foram selecionadas 34 variáveis. Foram implementados dois modelos um chamado de modelo completo que contém 95 variáveis e outro chamado modelo resumido que contém 34 variáveis. Modelo Resumido Modelo Completo Implementação Modelo Resumido 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 R 11 Family starters 12 Affluent young families 13 Young all american family 15 Senior cosmopolitans 16 Students in apartments 17 Fresh masters in the city 22 Mixed apartment dwellers 23 Young and rising 28 Residential elderly 29 Porchless seniors: no front yard 3 High status seniors 30 Religious elderly singles 31 Low income catholics 10 MRELGE Married 5 Mixed seniors 18 MOPLLAAG Lower level education 19 MBERHOOG High status 22 MBERMIDD Middle management 24 MBERARBO Unskilled labourers 30 MHHUUR Rented house 31 MHKOOP Home owners 38 MINK3045 Income 30-45.000 7 Dinki's (double income no kids) 41 MINK123M Income >123.000 44 PWAPART Contribution private third party insurance 46 PWALAND Contribution third party insurane (agriculture) 47 PPERSAUT Contribution car policies 8 Middle class families 58 PWAOREG Contribution disability insurance policies 9 Modern, complete families 59 PBRAND Contribution fire policies 61 PPLEZIER Contribution boat policies 63 PINBOED Contribution property insurance policies 64 PBYSTAND Contribution social security insurance policies V Implementação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 Mostype1 High Income, expensive child Mostype2 Very Important Provincials Mostype4 Affluent senior apartments Mostype6 Career and childcare Mostype7 Dinki's (double income no kids) Mostype9 Modern, complete families Mostype10 Stable family Mostype11 Family starters Mostype13 Young all american family Mostype22 Mixed apartment dwellers Mostype25 Young seniors in the city Mostype26 Own home elderly Mostype27 Seniors in apartments Mostype29 Porchless seniors: no front yard Mostype30 Religious elderly singles Mostype31 Low income catholics Mostype32 Mixed seniors Mostype34 Large family, employed child Mostype35 Village families Mostype36 Couples with teens 'Married with children' Mostype37 Mixed small town dwellers Mostype38 Traditional families Mostype39 Large religous families Mostype40 Large family farms Mostype41 Mixed rurals MAANTHUI Number of houses 1 – 10 MGEMOMV Avg size household 1 – 6 MGEMLEEF Avg age MOSHOOFD1 MOSHOOFD2 MOSHOOFD3 MOSHOOFD4 MOSHOOFD5 V 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 Número de variáveis final MOSHOOFD6 MOSHOOFD7 MOSHOOFD8 MOSHOOFD9 MOSHOOFD10 MGODRK Roman catholic see L3 MGODPR Protestant ... MGODOV Other religion MGODGE No religion MRELGE Married MRELSA Living together MRELOV Other relation MFALLEEN Singles MFGEKIND Household without children MFWEKIND Household with children MOPLHOOG High level education MOPLMIDD Medium level education MOPLLAAG Lower level education MBERHOOG High status MBERZELF Entrepreneur MBERMIDD Middle management MBERARBG Skilled labourers MBERARBO Unskilled labourers MSKA Social class A MSKB1 Social class B1 MSKB2 Social class B2 MSKC Social class C MSKD Social class D MHHUUR Rented house MHKOOP Home owners MAUT1 1 car MAUT2 2 cars MAUT0 No car 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 MZFONDS National Health Service MINKM30 Income < 30.000 MINK3045 Income 30-45.000 MINK4575 Income 45-75.000 MINK7512 Income 75-122.000 MINK123M Income >123.000 MINKGEM Average income MKOOPKLA Purchasing power class PWAPART Contribution private third party insurance PWABEDR Contribution third party insurance (firms) ... PWALAND Contribution third party insurane (agriculture) PPERSAUT Contribution car policies PBESAUT Contribution delivery van policies PMOTSCO Contribution motorcycle/scooter policies PVRAAUT Contribution lorry policies PAANHANG Contribution trailer policies PTRACTOR Contribution tractor policies PWERKT Contribution agricultural machines policies PBROM Contribution moped policies PLEVEN Contribution life insurances PPERSONG Contribution private accident insurance policies PGEZONG Contribution family accidents insurance policies PWAOREG Contribution disability insurance policies PBRAND Contribution fire policies PZEILPL Contribution surfboard policies PPLEZIER Contribution boat policies PFIETS Contribution bicycle policies PINBOED Contribution property insurance policies PBYSTAND Contribution social security insurance policies Implementação Antes de rodar o modelo, devem-se realizar as mesmas modificações nas variáveis que foram feitas na fase de treinamento, abaixo segue uma tabela com as variáveis e os tipos de transformações que devem ser feitas. Implementação A etapa de validação foi feita usando uma amostra teste, ou seja, o modelo parametrizado na etapa de treinamento foi rodado com esta amostra teste e foram observados os resultados obtidos. Para validar os resultados utilizamos a matriz de confusão e o gráfico de alavancagem. O modelo resumido com redes neurais com entropia com critério de paragem mostrou-se o mais assertivo. Etapas que devem ser seguidas pelo usuário do modelo 1º Etapa 2º Etapa 3º Etapa 4º Etapa 5º Etapa Obter os dados originais de todas as variáveis como proposto na base de dados. Baseado no modelo que se deseja rodar (modelo completo ou resumido), fazer as devidas transformações de variáveis. Abrir o arquivo .sdm(extensão do Statistica) com o modelo parametrizado. No Statistica deve-se importar a base de dados que se deseja prever, esta como dito na etapa 2 com as transformações já realizadas. Rodar o modelo no comando (Run) e analisar os resultados Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) ROI(Análise Financeira) Após a validação do modelo proposto deve-se fazer uma análise financeira,pois os softwares de dataming são caros e este investimento inicial tem que ser aprovado pela alta gerência. Porém, neste trabalho será realizado uma análise relacionada as metas de previsão com o ajuste do modelo mediante o conceito de função de perda. HIPÓTESES: Prêmio: R$ 3.000,00 Custo de Mala Direta(CMD): R$ 5,00 Despesas: CMD*Itens enviados Receitas:PCS x Prêmio Obs.: PCS: Pessoa que compram seguros de Trailer Enviadas Compra Modelo 705 69 Sem Modelo 1744 107 ROI(Análise Financeira) Com o modelo Despesas Receitas ROI R$ R$ 3.525,00 207.000,00 5772% Sem modelo Despesas Receitas ROI R$ R$ 8.720,00 321.000,00 3581% ROI(Análise Financeira) Análise de Sensibilidade 14000% 12000% ROI 10000% 8000% 6000% 4000% 2000% 0% 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 9,5 10 Custo da Mala Direta R$ Para valores de custo de mala direita maior que R$ 7,50 o ROI do modelo fica menor do que o ROI sem o modelo.Com isso, não compensaria o investimento no modelo. ROI(Análise Financeira) Análise de Sensibilidade 25000% 20000% ROI 15000% 10000% 5000% 0% 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Prêmio R$ Para valores de prêmio menor que R$ 1900 o ROI do modelo fica menor do que o ROI sem o modelo.Com isso, não compensaria o investimento no modelo.