Empresa de Seguros
Mineração de Dados
Carlos Eduardo Silva de Moura
Prof:Luis Paulo
23 de Junho de 2008
Agenda
Descrição do Problema
Categorização
Fonte e Descrição dos Dados
Extração de características e realce
Plano de Prototipagem
Validação
Implementação
ROI ( Análise Financeira)
Descrição do Problema
Empresa de Seguros
O Problema consiste em tomar uma decisão de enviar por
mala direta uma proposta de apólice de seguro para todos os
clintes da seguradora ou só para os clientes que tem uma
chance maior de fazer o seguro. A empresa identificando estes
clientes potenciais conseguirá reduzir o custo e assim evitar
desperdício nas vendas.
Agenda
Descrição do Problema
Categorização
Fonte e Descrição dos Dados
Extração de características e realce
Plano de Prototipagem
Validação
Implementação
ROI ( Análise Financeira)
Categoria do Problema
Classificação (Supervisionada ) ou predição categórica
Classificação (supervisionada) ou predição categórica
Tem por objetivo a criação de modelos para predizer as classes a que
pertencem objetos desconhecidos. Determinar uma regra que possa
ser usada para classificar de forma otimizada uma nova observação
a uma classe já rotulada.
Nosso objetivo final será predizer baseado nos dados de cada cliente
quais tem maior chance de adquirir uma apólice de seguros.
Agenda
Descrição do Problema
Categorização
Fonte e Descrição dos Dados
Extração de características e realce
Plano de Prototipagem
Validação
Implementação
ROI ( Análise Financeira)
Empresa de Seguros ( Fonte dos Dados)
Os dados foram obtidos de uma competição
internacional (Coil challenge 2000 dataming competion),
porém são baseados em dados reais fornecidos pela
Dutch datamining company Sentient Machine Research*.
* Para informações sobre o datasets ver homepage: http://www.wi.leidenuniv.nl/~putten/library/cc2000/
Empresa de Seguros ( Descrição dos Dados)
Foram informados 86 variavéis sobre os clientes dentre
essas tinham dados sócio-demográficos e relativos a
seguros. A base de treinamento do modelo contém 5826
clientes e inclui a informação se o cliente tinha ou não
uma apólice de seguro. Para testar o modelo foram
fornecidos dados de 4000 clientes com as mesmas
informações, exceto se tinha ou não uma apólice de
seguro. Sendo a variável alvo a que diz se comprou ou
não seguro.
Empresa de Seguros ( Descrição dos Dados)
1 MOSTYPE Customer Subtype see L0
2 MAANTHUI Number of houses 1 – 10
3 MGEMOMV Avg size household 1 – 6
4 MGEMLEEF Avg age see L1
5 MOSHOOFD Customer main type see L2
6 MGODRK Roman catholic see L3
7 MGODPR Protestant ...
8 MGODOV Other religion
9 MGODGE No religion
10 MRELGE Married
11 MRELSA Living together
12 MRELOV Other relation
13 MFALLEEN Singles
14 MFGEKIND Household without children
15 MFWEKIND Household with children
16 MOPLHOOG High level education
17 MOPLMIDD Medium level education
18 MOPLLAAG Lower level education
19 MBERHOOG High status
20 MBERZELF Entrepreneur
21 MBERBOER Farmer
22 MBERMIDD Middle management
23 MBERARBG Skilled labourers
24 MBERARBO Unskilled labourers
25 MSKA Social class A
26 MSKB1 Social class B1
27 MSKB2 Social class B2
28 MSKC Social class C
29 MSKD Social class D
Variaveis Originais
30 MHHUUR Rented house
31 MHKOOP Home owners
32 MAUT1 1 car
33 MAUT2 2 cars
34 MAUT0 No car
35 MZFONDS National Health Service
36 MZPART Private health insurance
37 MINKM30 Income < 30.000
38 MINK3045 Income 30-45.000
39 MINK4575 Income 45-75.000
40 MINK7512 Income 75-122.000
41 MINK123M Income >123.000
42 MINKGEM Average income
43 MKOOPKLA Purchasing power class
44 PWAPART Contribution private third party insurance see L4
45 PWABEDR Contribution third party insurance (firms) ...
46 PWALAND Contribution third party insurane (agriculture)
47 PPERSAUT Contribution car policies
48 PBESAUT Contribution delivery van policies
49 PMOTSCO Contribution motorcycle/scooter policies
50 PVRAAUT Contribution lorry policies
51 PAANHANG Contribution trailer policies
52 PTRACTOR Contribution tractor policies
53 PWERKT Contribution agricultural machines policies
54 PBROM Contribution moped policies
55 PLEVEN Contribution life insurances
56 PPERSONG Contribution private accident insurance policies
57 PGEZONG Contribution family accidents insurance policies
58 PWAOREG Contribution disability insurance policies
59 PBRAND Contribution fire policies
60 PZEILPL Contribution surfboard policies
61 PPLEZIER Contribution boat policies
62 PFIETS Contribution bicycle policies
63 PINBOED Contribution property insurance policies
64 PBYSTAND Contribution social security insurance policies
65 AWAPART Number of private third party insurance 1 - 12
66 AWABEDR Number of third party insurance (firms) ...
67 AWALAND Number of third party insurane (agriculture)
68 APERSAUT Number of car policies
69 ABESAUT Number of delivery van policies
70 AMOTSCO Number of motorcycle/scooter policies
71 AVRAAUT Number of lorry policies
72 AAANHANG Number of trailer policies
73 ATRACTOR Number of tractor policies
74 AWERKT Number of agricultural machines policies
75 ABROM Number of moped policies
76 ALEVEN Number of life insurances
77 APERSONG Number of private accident insurance policies
78 AGEZONG Number of family accidents insurance policies
79 AWAOREG Number of disability insurance policies
80 ABRAND Number of fire policies
81 AZEILPL Number of surfboard policies
82 APLEZIER Number of boat policies
83 AFIETS Number of bicycle policies
84 AINBOED Number of property insurance policies
85 ABYSTAND Number of social security insurance policies
86 CARAVAN Number of mobile home policies 0 - 1
As variáveis de 1 a 43 são referentes a dados sócio-demográficos e as variáveis
de 44 a 86 são referentes a seguros.
Empresa de Seguros ( Descrição dos Dados)
1 MOSTYPE Customer Subtype
1 High Income, expensive child
Renda Alta/despesa com criança
2 Very Important Provincials
Morador de província muito importante
3 High status seniors
Senior de alta renda
L1:
L2:
4 Affluent senior apartments
Senior com apartamento grande
1 20-30 years
1 Successful hedonists
5 Mixed seniors
Mora com várias pessoas seniors
6 Career and childcare
Carreira e voluntário
2 30-40 years
2 Driven Growers
7 Dinki's (double income no kids)
Sem crianças e duas fonte de renda
3 40-50 years
3 Average Family
8 Middle class families
Famílias de classe média
4 50-60 years
4 Career Loners
9 Modern, complete families
Famílias completas e modernas
10 Stable family
Famílias estáveis
5 60-70 years
5 Living well
11 Family starters
Famílias recém formadas
6 70-80 years
6 Cruising Seniors
12 Affluent young families
Jovens famílias prósperas
13 Young all american family
Famílias de jovens americanos
14 Junior cosmopolitan
Joven cosmopolita
15 Senior cosmopolitans
Senior cosmopolita
9 Conservative families
16 Students in apartments
Estudantes em apartamentos
10 Farmers
17 Fresh masters in the city
Professor novo em cidade
18 Single youth
Jovem solteiro
19 Suburban youth
Jovem suburbano
20 Etnically diverse
Etnia diversa
21 Young urban have-nots
Jovem urbanos sem posses
22 Mixed apartment dwellers
Morador de repúblicas
23 Young and rising
Jovem e próspero
24 Young, low educated
25 Young seniors in the city
7 Retired and Religeous
8 Family with grown ups
L4:
L3:
Jovem com baixa educação
0f0
0 0%
Seniors jovens na cidade
1 f 1 – 49
1 1 - 10%
26 Own home elderly
Casa própia usada
2 f 50 – 99
2 11 - 23%
27 Seniors in apartments
Seniors em apartamentos
28 Residential elderly
Residência Antiga
3 f 100 – 199
3 24 - 36%
4 37 - 49%
29 Porchless seniors: no front yard
Casa sem quintal
4 f 200 – 499
30 Religious elderly singles
Idoso solteiro religioso
5 f 500 – 999
5 50 - 62%
31 Low income catholics
Católicos com baixa renda
32 Mixed seniors
Mora com várias pessoas seniors
6 f 1000 – 4999
6 63 - 75%
33 Lower class large families
Famílias grandes com baixa renda
7 f 5000 – 9999
7 76 - 88%
34 Large family, employed child
Famílias grandes com crianças trabalhando
8 f 10.000 - 19.999
8 89 - 99%
35 Village families
Famílias de vila
9 f 20.000 - ?
36 Couples with teens 'Married with children'
Casais adolescentes com filhos
9 100%
37 Mixed small town dwellers
Habitantes de cidades pequenas misturados
38 Traditional families
Famílias Tradicionais
39 Large religous families
Grandes famíllias religiosas
40 Large family farms
Fazenda de grandes famílias
41 Mixed rurals
Pessoas rurais misturadas
Agenda
Descrição do Problema
Categorização
Fonte e Descrição dos Dados
Extração de características e realce
Plano de Prototipagem
Validação
Implementação
ROI ( Análise Financeira)
Mostype Customer Subtype –Extraindo características e realce
1 MOSTYPE Customer Subtype
Frequencia
%Percentual
1 High Income, expensive child
Renda Alta/despesa com criança
124
2%
2 Very Important Provincials
Morador de província muito importante
82
1%
3 High status seniors
Senior de alta renda
249
4%
4 Affluent senior apartments
Senior com apartamento grande
52
1%
5 Mixed seniors
Mora com várias pessoas seniors
45
1%
6 Career and childcare
Carreira e voluntário
119
2%
7 Dinki's (double income no kids)
Sem crianças e duas fonte de renda
44
1%
8 Middle class families
Famílias de classe média
339
6%
9 Modern, complete families
Famílias completas e modernas
278
5%
10 Stable family
Famílias estáveis
165
3%
11 Family starters
Famílias recém formadas
153
3%
12 Affluent young families
Jovens famílias prósperas
111
2%
13 Young all american family
Famílias de jovens americanos
179
3%
14 Junior cosmopolitan
Joven cosmopolita
0
0%
15 Senior cosmopolitans
Senior cosmopolita
5
0%
16 Students in apartments
Estudantes em apartamentos
16
0%
17 Fresh masters in the city
Professor novo em cidade
9
0%
18 Single youth
Jovem solteiro
19
0%
19 Suburban youth
Jovem suburbano
3
0%
20 Etnically diverse
Etnia diversa
25
0%
21 Young urban have-nots
Jovem urbanos sem posses
15
0%
22 Mixed apartment dwellers
Morador de repúblicas
98
2%
23 Young and rising
Jovem e próspero
251
4%
24 Young, low educated
Jovem com baixa educação
180
3%
25 Young seniors in the city
Seniors jovens na cidade
82
1%
26 Own home elderly
Casa própia usada
48
1%
27 Seniors in apartments
Seniors em apartamentos
50
1%
28 Residential elderly
Residência Antiga
25
0%
29 Porchless seniors: no front yard
Casa sem quintal
86
2%
30 Religious elderly singles
Idoso solteiro religioso
118
2%
31 Low income catholics
Católicos com baixa renda
205
4%
32 Mixed seniors
Mora com várias pessoas seniors
141
2%
33 Lower class large families
Famílias grandes com baixa renda
810
14%
34 Large family, employed child
Famílias grandes com crianças trabalhando
182
3%
35 Village families
Famílias de vila
214
4%
36 Couples with teens 'Married with children'
Casais adolescentes com filhos
225
4%
37 Mixed small town dwellers
Habitantes de cidades pequenas misturados
132
2%
38 Traditional families
Famílias Tradicionais
339
6%
39 Large religous families
Grandes famíllias religiosas
328
6%
40 Large family farms
Fazenda de grandes famílias
71
1%
41 Mixed rurals
Pessoas rurais misturadas
205
4%
%Percentual de resposta assinaladas
16%
14%
12%
10%
8%
6%
4%
2%
0%
-1
1
3
5
7
9
11
13
15
17
19
21 23 25
27 29
31 33
35 37
39
-2%
Devido ao número baixo de
pessoas que responderam e as
suas características as
variáveis14,15,16,17,18,19, 20, 21 e
28 foram eliminadas, além da
variável 5 que é repetida. As
variáveis 3,8,12,23,24,33 foram
eliminadas devido a relação com
outras variáveis como classe
social,renda e idade.
41
5 MOSHOOFD Customer main type - Extraindo características e realce
5 MOSHOOFD (Tipo principal de cliente)
Frequência
%Percentual
1 Successful hedonists
Hendonista de sucesso
552
9%
2 Driven Growers
Morador do tralier
502
9%
3 Average Family
Família média
886
15%
4 Career Loners
Autônomo
52
1%
5 Living well
Aventureiro
569
10%
6 Cruising Seniors
Maduros de gostam de viajar
205
4%
7 Retired and Religeous
Terceira idade reservado
550
9%
8 Family with grown ups
Família com adultos
1563
27%
9 Conservative families
Famílias conservadoras
667
11%
10 Farmers
Fazendeiros
276
5%
%Percentual de respostas assinaladas
30%
25%
20%
15%
10%
5%
0%
0
2
4
6
8
10
A variável 5 é definida como o tipo
principal de clientes que a
seguradora procura.Está variável
vai ser desmembrada em 10
variáveis novas do tipo dummy na
parte de protipagem.
Variáveis do grupo 1 ( 1 ao 24)
Variáveis
Média
Máximo
Minimo
Moda Nº de vezes que aparece a moda
Percentil 95% Total de observações
2 MAANTHUI Number of houses 1 – 10
1,11
10
1
1
5267
2
5822
3 MGEMOMV Avg size household 1 – 6
2,68
5
1
3
2646
4
5822
4 MGEMLEEF Avg age see L1
2,99
6
1
3
3000
4
5822
5 MOSHOOFD Customer main type see L2
5,77
10
1
8
1563
9
5822
6 MGODRK Roman catholic see L3
0,70
9
0
0
3228
2
5822
7 MGODPR Protestant ...
4,63
9
0
4
1607
7
5822
8 MGODOV Other religion
1,07
5
0
1
2014
3
5822
9 MGODGE No religion
3,26
9
0
3
1453
6
5822
10 MRELGE Married
6,18
9
0
7
1683
9
5822
11 MRELSA Living together
0,88
7
0
0
2448
2
5822
12 MRELOV Other relation
2,29
9
0
2
1756
5
5822
13 MFALLEEN Singles
1,89
9
0
0
1757
5
5822
14 MFGEKIND Household without children
3,23
9
0
3
1498
6
5822
15 MFWEKIND Household with children
4,30
9
0
4
1137
8
5822
16 MOPLHOOG High level education
1,46
9
0
0
2147
5
5822
17 MOPLMIDD Medium level education
3,35
9
0
4
1426
6
5822
18 MOPLLAAG Lower level education
4,57
9
0
5
1009
9
5822
19 MBERHOOG High status
1,90
9
0
0
1524
5
5822
20 MBERZELF Entrepreneur
0,40
5
0
0
4171
2
5822
21 MBERBOER Farmer
0,52
9
0
0
4176
3
5822
22 MBERMIDD Middle management
2,90
9
0
2
1491
6
5822
23 MBERARBG Skilled labourers
2,22
9
0
2
1382
5
5822
24 MBERARBO Unskilled labourers
2,31
9
0
2
1439
5
5822
Atributo
As variáveis de 7 a 24 são baseadas na região onde o cliente reside,ou seja ,
são atribuídos porcentagens de tal individuo possuir tal característica ou
não, varia de 0% a 100%.Estas informações são retiradas do censo
demográfico.Vide tabela ao lado.
A variável 21 será eliminada devido a semelhança com a variável 5 atributo
10.
0
Porcentagem
0%
1
1- 10%
2
11-23%
3
24 - 36%
4
37 - 49%
5
50 - 62%
6
63 - 75%
7
76 - 88%
8
89 - 99%
9
100%
Variáveis socioeconômicas: grupo 2 ( 25 ao 43)
25
26
27
28
29
30
31
32
33
34
35
37
38
39
40
41
42
43
Variáveis
MSKA Social class A
MSKB1 Social class B1
MSKB2 Social class B2
MSKC Social class C
MSKD Social class D
MHHUUR Rented house
MHKOOP Home owners
MAUT1 1 car
MAUT2 2 cars
MAUT0 No car
MZFONDS National Health Service
MINKM30 Income < 30.000
MINK3045 Income 30-45.000
MINK4575 Income 45-75.000
MINK7512 Income 75-122.000
MINK123M Income >123.000
MINKGEM Average income
MKOOPKLA Purchasing power class
Através do resultado da regressão
logística, chegou-se a eliminação das
variáveis 30,31,33,34 e 43 do grupo 2.
30
30
30
30
30
30
30
30
30
31
31
31
33
33
33
33
33
33
34
34
34
34
34
34
34
34
43
43
43
43
43
43
43
Variáveis
MHHUUR Rented house
MHHUUR Rented house
MHHUUR Rented house
MHHUUR Rented house
MHHUUR Rented house
MHHUUR Rented house
MHHUUR Rented house
MHHUUR Rented house
MHHUUR Rented house
MHKOOP Home owners
MHKOOP Home owners
MHKOOP Home owners
MAUT2 2 cars
MAUT2 2 cars
MAUT2 2 cars
MAUT2 2 cars
MAUT2 2 cars
MAUT2 2 cars
MAUT0 No car
MAUT0 No car
MAUT0 No car
MAUT0 No car
MAUT0 No car
MAUT0 No car
MAUT0 No car
MAUT0 No car
MKOOPKLA Purchasing
MKOOPKLA Purchasing
MKOOPKLA Purchasing
MKOOPKLA Purchasing
MKOOPKLA Purchasing
MKOOPKLA Purchasing
MKOOPKLA Purchasing
power class
power class
power class
power class
power class
power class
power class
Atributo
0
1
2
3
4
5
6
7
8
2
4
5
0
1
2
3
4
5
0
1
2
3
4
5
7
8
1
2
3
4
5
6
7
P- valor
74%
55%
16%
0%
95%
92%
0%
88%
0%
88%
92%
95%
36%
36%
31%
21%
35%
29%
11%
15%
7%
5%
19%
9%
100%
100%
20%
66%
69%
40%
94%
43%
0%
Variáveis relativas a seguro: grupo 3 ( 44 ao 85)
Inclui
44 PWAPART Contribution private third party insurance
45 PWABEDR Contribution third party insurance (firms) ...
46 PWALAND Contribution third party insurane (agriculture)
47 PPERSAUT Contribution car policies
48 PBESAUT Contribution delivery van policies
49 PMOTSCO Contribution motorcycle/scooter policies
50 PVRAAUT Contribution lorry policies
51 PAANHANG Contribution trailer policies
52 PTRACTOR Contribution tractor policies
53 PWERKT Contribution agricultural machines policies
54 PBROM Contribution moped policies
55 PLEVEN Contribution life insurances
56 PPERSONG Contribution private accident insurance policies
57 PGEZONG Contribution family accidents insurance policies
58 PWAOREG Contribution disability insurance policies
59 PBRAND Contribution fire policies
60 PZEILPL Contribution surfboard policies
61 PPLEZIER Contribution boat policies
62 PFIETS Contribution bicycle policies
63 PINBOED Contribution property insurance policies
64 PBYSTAND Contribution social security insurance policies
Excluidas
65 AWAPART Number of private third party insurance 1 - 12
66 AWABEDR Number of third party insurance (firms) ...
67 AWALAND Number of third party insurane (agriculture)
68 APERSAUT Number of car policies
69 ABESAUT Number of delivery van policies
70 AMOTSCO Number of motorcycle/scooter policies
71 AVRAAUT Number of lorry policies
72 AAANHANG Number of trailer policies
73 ATRACTOR Number of tractor policies
74 AWERKT Number of agricultural machines policies
75 ABROM Number of moped policies
76 ALEVEN Number of life insurances
77 APERSONG Number of private accident insurance policies
78 AGEZONG Number of family accidents insurance policies
79 AWAOREG Number of disability insurance policies
80 ABRAND Number of fire policies
81 AZEILPL Number of surfboard policies
82 APLEZIER Number of boat policies
83 AFIETS Number of bicycle policies
84 AINBOED Number of property insurance policies
85 ABYSTAND Number of social security insurance policies
Atributo
As variáveis relativas a seguro
apresentam uma correlação muito
grande, por isso serão eliminadas as
variáveis da coluna excluídas.
0
1
2
3
4
5
6
7
8
9
Correlações
0,98
0,90
0,99
0,92
0,90
0,90
0,95
0,97
0,93
0,91
0,97
0,85
0,90
0,98
0,95
0,87
0,87
0,90
0,94
0,88
0,97
Contribuição($)
0
1 – 49
50 – 99
100
200
500
1000
5000
10000
20000
Variáveis
Tabela com as variáveis que serão usados no ajuste do modelo.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
Mostype1 High Income, expensive child
Mostype2 Very Important Provincials
Mostype4 Affluent senior apartments
Mostype6 Career and childcare
Mostype7 Dinki's (double income no kids)
Mostype9 Modern, complete families
Mostype10 Stable family
Mostype11 Family starters
Mostype13 Young all american family
Mostype22 Mixed apartment dwellers
Mostype25 Young seniors in the city
Mostype26 Own home elderly
Mostype27 Seniors in apartments
Mostype29 Porchless seniors: no front yard
Mostype30 Religious elderly singles
Mostype31 Low income catholics
Mostype32 Mixed seniors
Mostype34 Large family, employed child
Mostype35 Village families
Mostype36 Couples with teens 'Married with children'
Mostype37 Mixed small town dwellers
Mostype38 Traditional families
Mostype39 Large religous families
Mostype40 Large family farms
Mostype41 Mixed rurals
MAANTHUI Number of houses 1 – 10
MGEMOMV Avg size household 1 – 6
MGEMLEEF Avg age
MOSHOOFD1
MOSHOOFD2
MOSHOOFD3
MOSHOOFD4
MOSHOOFD5
R
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
Número de variáveis final
MOSHOOFD6
MOSHOOFD7
MOSHOOFD8
MOSHOOFD9
MOSHOOFD10
MGODRK Roman catholic see L3
MGODPR Protestant ...
MGODOV Other religion
MGODGE No religion
MRELGE Married
MRELSA Living together
MRELOV Other relation
MFALLEEN Singles
MFGEKIND Household without children
MFWEKIND Household with children
MOPLHOOG High level education
MOPLMIDD Medium level education
MOPLLAAG Lower level education
MBERHOOG High status
MBERZELF Entrepreneur
MBERMIDD Middle management
MBERARBG Skilled labourers
MBERARBO Unskilled labourers
MSKA Social class A
MSKB1 Social class B1
MSKB2 Social class B2
MSKC Social class C
MSKD Social class D
MHHUUR Rented house
MHKOOP Home owners
MAUT1 1 car
MAUT2 2 cars
MAUT0 No car
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
MZFONDS National Health Service
MINKM30 Income < 30.000
MINK3045 Income 30-45.000
MINK4575 Income 45-75.000
MINK7512 Income 75-122.000
MINK123M Income >123.000
MINKGEM Average income
MKOOPKLA Purchasing power class
PWAPART Contribution private third party insurance
PWABEDR Contribution third party insurance (firms) ...
PWALAND Contribution third party insurane (agriculture)
PPERSAUT Contribution car policies
PBESAUT Contribution delivery van policies
PMOTSCO Contribution motorcycle/scooter policies
PVRAAUT Contribution lorry policies
PAANHANG Contribution trailer policies
PTRACTOR Contribution tractor policies
PWERKT Contribution agricultural machines policies
PBROM Contribution moped policies
PLEVEN Contribution life insurances
PPERSONG Contribution private accident insurance policies
PGEZONG Contribution family accidents insurance policies
PWAOREG Contribution disability insurance policies
PBRAND Contribution fire policies
PZEILPL Contribution surfboard policies
PPLEZIER Contribution boat policies
PFIETS Contribution bicycle policies
PINBOED Contribution property insurance policies
PBYSTAND Contribution social security insurance policies
Agenda
Descrição do Problema
Categorização
Fonte e Descrição dos Dados
Extração de características e realce
Plano de Prototipagem
Validação
Implementação
ROI ( Análise Financeira)
Plano de Prototipagem
Plano de
Prototipagem
Ferramenta de
modelagem
matemática
Técnica
utilizada
É a etapa de desenvolvimento das hipóteses de trabalho para
a análise,baseada nas metas definidas pela empresa e da
construção de um plano para testá-las.
A ferramenta utilizada foi o software Statistica.
Para a estimação dos parâmetros do modelo e previsão dos
resultados da amostra de treinamento foi utilizado a técnica de
regressão logística e redes neurais.
Padronização das variáveis
Uma grande parte das 95 variáveis foram padronizadas,estas foram diminuídas da média e divididas pelo o desvio
padrão, somente as variáveis dummy (0 ou 1) foram mantidas sem a padronização.
Esta padronização deve como objetivo evitar problemas de escala e com isso deixá-las mais estáveis.
X-

Resultado da amostra de treinamento
Para o ajuste do modelo foi utilizado, as variáveis definidas na etapa anterior
Intercepto
VAR1
VAR2
VAR3
VAR4
VAR5
VAR6
VAR7
VAR8
VAR9
VAR10
VAR11
VAR12
VAR13
VAR14
VAR15
VAR16
VAR17
VAR18
VAR19
VAR20
VAR21
VAR22
VAR23
VAR24
VAR25
VAR26
VAR27
VAR28
VAR29
VAR30
VAR31
VAR32
VAR33
VAR34
VAR35
VAR36
VAR37
VAR38
VAR39
VAR40
VAR41
VAR42
VAR43
VAR44
VAR45
VAR46
VAR47
VAR48
VAR49
Estimativa
3,24
0,42
0,10
1,23
0,18
0,94
0,66
1,38
0,80
0,81
-0,26
-13,99
-14,71
-14,26
0,68
0,01
0,06
-0,20
0,37
0,51
-0,20
-0,30
-0,22
0,11
28,71
0,77
0,03
0,03
-0,17
0,03
-0,03
-0,32
29,04
0,53
14,73
0,00
0,00
0,00
0,00
0,12
0,04
0,01
0,11
-0,46
-0,13
-0,27
0,13
0,21
0,19
-0,05
V
Erro padrao
0,29
0,60
0,57
0,79
0,41
0,70
0,71
0,51
0,52
0,48
0,64
0,85
1,14
1,14
0,76
0,61
0,60
0,57
0,69
0,56
0,33
0,44
0,33
0,48
Wald
125,61
0,48
0,03
2,45
0,20
1,77
0,86
7,37
2,42
2,88
0,16
270,12
166,47
157,15
0,80
0,00
0,01
0,13
0,29
0,85
0,36
0,46
0,44
0,05
P-valor
0,00
0,49
0,86
0,12
0,65
0,18
0,35
0,01
0,12
0,09
0,68
0,00
0,00
0,00
0,37
0,98
0,92
0,72
0,59
0,36
0,55
0,50
0,51
0,82
0,55
0,09
0,11
0,09
0,58
0,79
0,83
1,98
0,15
0,06
3,37
0,00
0,00
0,15
0,16
0,70
0,81
0,07
0,96
0,97
0,70
0,41
1,66
0,20
0,11
0,21
0,11
0,18
0,30
0,14
0,27
0,24
0,22
0,29
0,22
1,19
0,04
0,01
0,37
2,32
0,87
1,01
0,31
0,90
0,45
0,05
0,27
0,84
0,94
0,54
0,13
0,35
0,32
0,58
0,34
0,50
0,82
VAR50
VAR51
VAR52
VAR53
VAR54
VAR55
VAR56
VAR57
VAR58
VAR59
VAR60
VAR61
VAR62
VAR63
VAR64
VAR65
VAR66
VAR67
VAR68
VAR69
VAR70
VAR71
VAR72
VAR73
VAR74
VAR75
VAR76
VAR77
VAR78
VAR79
VAR80
VAR81
VAR82
VAR83
VAR84
VAR85
VAR86
VAR87
VAR88
VAR89
VAR90
VAR91
VAR92
VAR93
VAR94
VAR95
Estimativa
0,15
0,48
-0,19
-0,03
-0,27
-0,08
-0,20
0,04
0,07
-0,02
-0,15
0,08
9,66
9,57
-0,29
-0,19
-0,16
-0,10
-0,22
-0,23
-0,21
-0,12
0,11
-0,09
-0,17
-0,14
0,04
0,16
-0,66
0,02
0,03
1,25
-0,06
-0,02
2,07
0,11
0,04
0,05
-0,04
-0,09
-0,22
-0,01
-0,15
-0,10
0,02
-0,05
Erro padrao
0,24
0,32
0,15
0,08
0,15
0,14
0,14
0,18
0,13
0,14
0,19
0,13
6,02
6,02
0,24
0,17
0,23
0,09
0,21
0,19
0,19
0,12
0,08
0,13
0,37
0,07
0,07
0,10
0,07
0,07
0,06
Wald
0,39
2,33
1,70
0,15
3,27
0,35
2,11
0,06
0,25
0,01
0,56
0,36
2,58
2,53
1,40
1,34
0,49
1,29
1,09
1,59
1,27
1,05
1,80
0,47
0,21
3,53
0,31
2,40
84,51
0,08
0,20
P-valor
0,53
0,13
0,19
0,70
0,07
0,55
0,15
0,81
0,61
0,91
0,45
0,55
0,11
0,11
0,24
0,25
0,48
0,26
0,30
0,21
0,26
0,31
0,18
0,49
0,64
0,06
0,58
0,12
0,00
0,78
0,66
0,06
0,08
1,12
0,05
0,29
0,82
0,10
0,05
0,10
0,04
0,04
0,08
0,05
0,03
0,05
0,06
0,04
1,21
0,58
0,23
1,26
4,80
7,71
0,09
23,11
4,61
0,13
1,59
0,27
0,44
0,63
0,26
0,03
0,01
0,76
0,00
0,03
0,72
0,21
Matriz de Confusão
Para realizar a previsão foi utilizado uma probabilidade de que um cliente compre o seguro da
ordem de px = 0,85( ponto de corte). Após fixar este valor foi observado a matriz de confusão
abaixo.Os valores previstos foram comparados com a amostra de treinamento.
px= 0,85
Previsão
Não Compra
Compra
Total
Não Compra
Compra
Total
Previsão
5083
391
5474
219
129
348
5302
520
5822
Não Compra
px= 0,8
Previsão
Não Compra
Compra
Total
Observação
Não Compra
Compra
Total
5266
208
5474
263
85
348
5529
293
5822
px= 0,9
Previsão
Não Compra
Compra
Total
px= 0,81
Observação
Observação
Não Compra
Compra
Total
4608
866
5474
160
188
348
4768
1054
5822
Compra
Total
Observação
Não Compra
Compra
Total
5224
250
5474
250
98
348
5474
348
5822
Gráfico
Predição por cliente da amostra
0,90
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
-100
900
1900
2900
3900
4900
5900
Nota: o modelo não se mostrou sensível a mudanças no parâmetro fatorial que realiza interações entre as
variáveis.
Matriz de Confusão Redes Neurais
As matrizes de confusão abaixo, mostra que o melhor modelo foi o modelo resumido com critério
de paragem com entropia.Este obteve um acerto da ordem de 67% para os casos de compra e
72% para os casos de não compra.
Modelo Completo com entropia
Var_Target("0")
5474
3773
1701
69%
31%
Total
Correto
Errado
%Correto
%ERRADO
Matriz de Confusão
Não Compra
Compra
Não Compra
3773
1701
Var_Target("1")
348
229
119
66%
34%
Compra
119
229
Modelo Completo com soma dos quadrados
Total
5822
4002
1820
Total
3892
1930
Modelo Resumido com entropia
Var_Target("0")
5474
3949
1525
72%
28%
Total
Correto
Errado
%Correto
%ERRADO
Matriz de Confusão
Não Compra
Compra
V
Não Compra
3949
1525
Var_Target("1")
348
233
115
67%
33%
Compra
115
233
Total
Corretto
Errado
%Correto
%ERRADO
Var_Target("0")
5.482
3.451
2.031
63%
37%
Matriz de Confusão
Não Compra
Compra
Não Compra
3.451
2.031
Var_Target("1")
340
230
110
67%
32%
Compra
110
230
Modelo Resumido com soma dos quadrados
Total
5822
4182
1640
Total
4064
1758
Total
Corretto
Errado
%Correto
%ERRADO
Matriz de Confusão
Não Compra
Compra
Var_Target("0")
5.474
2.694
2.780
49%
51%
Não Compra
2.694
2.780
Var_Target("1")
348
186
162
53%
47%
Compra
162
186
Agenda
Descrição do Problema
Categorização
Fonte e Descrição dos Dados
Extração de características e realce
Plano de Prototipagem
Validação
Implementação
ROI ( Análise Financeira)
VALIDAÇÃO
Todas as modificações realizadas com as variáveis na base de dados de treinamento foram feitas
na base de validação , para manter a compatibilidade com o modelo proposto.
Como a base de teste não tinha as respostas da variável target foi realizado na base de dados de
treinamento um split para realizar a validação do modelo.Foi utilizado 30% da base de
treinamento(1745 observações).
A validação foi feita pela análise da matriz de
confusão e o gráfico de alavancagem
Modelo resumido de redes neurais com entropia
Percentual de acertos na base de validação
Var_Target("0")
Var_Target("1")
Total
1637
107
1744
1001
69
1070
636
38
674
61%
64%
39%
36%
Total
Correto
Errado
%Correto
%Errado
Matriz de Confusão
Previsão
Não Compra
Compra
Total
Observação
Não Compra
Compra
1001
38
636
69
1637
107
Total
1039
705
1744
Gráfico de Alavancagem
Gráfico de Alavancagem
Agenda
Descrição do Problema
Categorização
Fonte e Descrição dos Dados
Extração de características e realce
Plano de Prototipagem
Validação
Implementação
ROI( Análise Financeira)
Implementação
O Problema consiste em tomar uma decisão de enviar por mala direta uma proposta de
apólice de seguro para todos os clientes da seguradora ou só para os clientes que tem uma
chance maior de fazer o seguro. A empresa identificando estes clientes potenciais conseguirá
reduzir o custo e evitar desperdício nas vendas.
O modelo foi desenvolvido no software Statistica. Após um estudo detalhado das
variáveis de entrada foram selecionadas inicialmente 95 variáveis e posteriormente foram
selecionadas 34 variáveis. Foram implementados dois modelos um chamado de modelo completo
que contém 95 variáveis e outro chamado modelo resumido que contém 34 variáveis.
Modelo Resumido
Modelo Completo
Implementação
Modelo Resumido
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
R
11 Family starters
12 Affluent young families
13 Young all american family
15 Senior cosmopolitans
16 Students in apartments
17 Fresh masters in the city
22 Mixed apartment dwellers
23 Young and rising
28 Residential elderly
29 Porchless seniors: no front yard
3 High status seniors
30 Religious elderly singles
31 Low income catholics
10 MRELGE Married
5 Mixed seniors
18 MOPLLAAG Lower level education
19 MBERHOOG High status
22 MBERMIDD Middle management
24 MBERARBO Unskilled labourers
30 MHHUUR Rented house
31 MHKOOP Home owners
38 MINK3045 Income 30-45.000
7 Dinki's (double income no kids)
41 MINK123M Income >123.000
44 PWAPART Contribution private third party insurance
46 PWALAND Contribution third party insurane (agriculture)
47 PPERSAUT Contribution car policies
8 Middle class families
58 PWAOREG Contribution disability insurance policies
9 Modern, complete families
59 PBRAND Contribution fire policies
61 PPLEZIER Contribution boat policies
63 PINBOED Contribution property insurance policies
64 PBYSTAND Contribution social security insurance policies
V
Implementação
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
Mostype1 High Income, expensive child
Mostype2 Very Important Provincials
Mostype4 Affluent senior apartments
Mostype6 Career and childcare
Mostype7 Dinki's (double income no kids)
Mostype9 Modern, complete families
Mostype10 Stable family
Mostype11 Family starters
Mostype13 Young all american family
Mostype22 Mixed apartment dwellers
Mostype25 Young seniors in the city
Mostype26 Own home elderly
Mostype27 Seniors in apartments
Mostype29 Porchless seniors: no front yard
Mostype30 Religious elderly singles
Mostype31 Low income catholics
Mostype32 Mixed seniors
Mostype34 Large family, employed child
Mostype35 Village families
Mostype36 Couples with teens 'Married with children'
Mostype37 Mixed small town dwellers
Mostype38 Traditional families
Mostype39 Large religous families
Mostype40 Large family farms
Mostype41 Mixed rurals
MAANTHUI Number of houses 1 – 10
MGEMOMV Avg size household 1 – 6
MGEMLEEF Avg age
MOSHOOFD1
MOSHOOFD2
MOSHOOFD3
MOSHOOFD4
MOSHOOFD5
V
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
Número de variáveis final
MOSHOOFD6
MOSHOOFD7
MOSHOOFD8
MOSHOOFD9
MOSHOOFD10
MGODRK Roman catholic see L3
MGODPR Protestant ...
MGODOV Other religion
MGODGE No religion
MRELGE Married
MRELSA Living together
MRELOV Other relation
MFALLEEN Singles
MFGEKIND Household without children
MFWEKIND Household with children
MOPLHOOG High level education
MOPLMIDD Medium level education
MOPLLAAG Lower level education
MBERHOOG High status
MBERZELF Entrepreneur
MBERMIDD Middle management
MBERARBG Skilled labourers
MBERARBO Unskilled labourers
MSKA Social class A
MSKB1 Social class B1
MSKB2 Social class B2
MSKC Social class C
MSKD Social class D
MHHUUR Rented house
MHKOOP Home owners
MAUT1 1 car
MAUT2 2 cars
MAUT0 No car
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
MZFONDS National Health Service
MINKM30 Income < 30.000
MINK3045 Income 30-45.000
MINK4575 Income 45-75.000
MINK7512 Income 75-122.000
MINK123M Income >123.000
MINKGEM Average income
MKOOPKLA Purchasing power class
PWAPART Contribution private third party insurance
PWABEDR Contribution third party insurance (firms) ...
PWALAND Contribution third party insurane (agriculture)
PPERSAUT Contribution car policies
PBESAUT Contribution delivery van policies
PMOTSCO Contribution motorcycle/scooter policies
PVRAAUT Contribution lorry policies
PAANHANG Contribution trailer policies
PTRACTOR Contribution tractor policies
PWERKT Contribution agricultural machines policies
PBROM Contribution moped policies
PLEVEN Contribution life insurances
PPERSONG Contribution private accident insurance policies
PGEZONG Contribution family accidents insurance policies
PWAOREG Contribution disability insurance policies
PBRAND Contribution fire policies
PZEILPL Contribution surfboard policies
PPLEZIER Contribution boat policies
PFIETS Contribution bicycle policies
PINBOED Contribution property insurance policies
PBYSTAND Contribution social security insurance policies
Implementação
Antes de rodar o modelo, devem-se realizar as mesmas modificações nas variáveis que foram
feitas na fase de treinamento, abaixo segue uma tabela com as variáveis e os tipos de
transformações que devem ser feitas.
Implementação
A etapa de validação foi feita usando uma amostra teste, ou seja, o modelo parametrizado
na etapa de treinamento foi rodado com esta amostra teste e foram observados os resultados
obtidos. Para validar os resultados utilizamos a matriz de confusão e o gráfico de alavancagem. O
modelo resumido com redes neurais com entropia com critério de paragem mostrou-se o mais
assertivo.
Etapas que devem ser seguidas pelo usuário do modelo
1º Etapa
2º Etapa
3º Etapa
4º Etapa
5º Etapa
Obter os dados originais de todas as variáveis como proposto na base de dados.
Baseado no modelo que se deseja rodar (modelo completo ou resumido), fazer as devidas
transformações de variáveis.
Abrir o arquivo .sdm(extensão do Statistica) com o modelo parametrizado.
No Statistica deve-se importar a base de dados que se deseja prever, esta como dito na
etapa 2 com as transformações já realizadas.
Rodar o modelo no comando (Run) e analisar os resultados
Agenda
Descrição do Problema
Categorização
Fonte e Descrição dos Dados
Extração de características e realce
Plano de Prototipagem
Validação
Implementação
ROI ( Análise Financeira)
ROI(Análise Financeira)
Após a validação do modelo proposto deve-se fazer uma análise financeira,pois os softwares de
dataming são caros e este investimento inicial tem que ser aprovado pela alta gerência.
Porém, neste trabalho será realizado uma análise relacionada as metas de previsão com o ajuste
do modelo mediante o conceito de função de perda.
HIPÓTESES:
Prêmio: R$ 3.000,00
Custo de Mala Direta(CMD): R$ 5,00
Despesas: CMD*Itens enviados
Receitas:PCS x Prêmio
Obs.:
PCS: Pessoa que compram seguros de Trailer
Enviadas
Compra
Modelo
705
69
Sem Modelo
1744
107
ROI(Análise Financeira)
Com o modelo
Despesas
Receitas
ROI
R$
R$
3.525,00
207.000,00
5772%
Sem modelo
Despesas
Receitas
ROI
R$
R$
8.720,00
321.000,00
3581%
ROI(Análise Financeira)
Análise de Sensibilidade
14000%
12000%
ROI
10000%
8000%
6000%
4000%
2000%
0%
2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 9,5 10
Custo da Mala Direta R$
Para valores de custo de mala direita maior que R$ 7,50 o ROI
do modelo fica menor do que o ROI sem o modelo.Com isso,
não compensaria o investimento no modelo.
ROI(Análise Financeira)
Análise de Sensibilidade
25000%
20000%
ROI
15000%
10000%
5000%
0%
1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
Prêmio R$
Para valores de prêmio menor que R$ 1900 o ROI do modelo
fica menor do que o ROI sem o modelo.Com isso, não
compensaria o investimento no modelo.
Download

ROI(Análise Financeira) - Instituto de Matemática