Trabalho prático de Sistemas de Apoio à Decisão
Classificadores Baysianos, de k-vizinhos, árvores de decisão, e redes neuronais
Escola Naval
O problema da Companhia de Seguros
Imagine que a companhia de seguros “Sinto&Such Pensórios” contratou a Marinha, dada a nossa
inestimável experiência em sistemas de apoio à decisão, para desenvolver uma aplicação
informática que permita aos vendedores ter uma estimativa do “valor” de um cliente. Um cliente é
tão mais valioso quanto menos probabilidade tiver de se ver envolvido num acidente durante o ano
seguinte.
Depois de ter perdido muito tempo a pensar sobre o que é que aumenta ou diminui a probabilidade
de uma dada pessoa ter um acidente de automóvel, descobre que a companhia de seguros já tem
uma base de dados relativa aos seus clientes, onde para além de uma série de dados quanto às suas
características, tem um campo que indica se tiveram ou não um acidente em que a companhia de
seguros teve despesas.
Para cada cliente, a companhia tem na sua base de dados, para além da idade, os seguintes campos
binários:
m35
m65
cas
tf
tc5
ts3
tsr
tst
sm
tcs
est
tcp
tmt
fum
ta
1 se o cliente tem mais de 35 anos (0 em caso contrário)
1 se o cliente tem mais de 65 anos
1 se o cliente é casado
1 se o cliente tem filhos
1 se o cliente tem carta há mais de 5 anos
1 se o cliente tem seguro nesta companhia há mais de 3 anos
1 se o cliente tem seguro contra roubo
1 se o cliente tem seguro contra todos os riscos
1 se o cliente é do sexo masculino
1 se o cliente tem curso superior
1 se o cliente é estudante
1 se o cliente tem casa própria
1 se o cliente tem múltiplos telemóveis
1 se o cliente fuma
1 se o cliente teve um acidente
Pretende-se que o programa permita ao vendedor introduzir rapidamente as informações que dispõe
sobre a pessoa a quem está a tentar vender uma apólice, e que o programa, usando a base de dados
da empresa, preveja se essa pessoa vai ou não dar prejuízo e, se possível, qual a probabilidade de
isso acontecer.
Numa primeira fase, a companhia de seguros prefere (por razões culturais…) que use apenas
classificadores estatísticos “clássicos”, nomeadamente classificadores de máxima verosimilhança
(ML), maximum a posterioi (MAP), bayesianos, ou “naive Bayes”, e quer que isso seja feito usando
MS-Excel, para perceber ponto por ponto tudo que está a acontecer. Nunca segunda fase, está
interessada em usar outros classificadores, implementados em WEKA, nomeadamente k-vizinhos,
árvores de decisão, e redes neuronais. Nos casos em que precisa de saber os custos de decisões
erradas, a companhia informa-o que o custo (em lucros perdidos) por não tentar vender uma apólice
a uma pessoa que seria um bom cliente é de 500, enquanto o custo de vender uma apólice a uma
pessoa que é um mau cliente é de 600.
Para testar a sua capacidade, a companhia de seguros facultou-lhe uma base de dados com 1000
clientes (chamada “seguros”), e outra com 20 (chamada “prova”), onde ocultou o campo “ta”.
Questões:
1) Se aparecer um cliente que é casado, deve ou não tentar vender uma apólice ? Para tomar
essa decisão use um classificador ML, MAP, e Bayesiano com custos1. Um classificador
naive de Bayes faz sentido neste caso ?
2) Aparece um cliente que tem claramente mais de 35 anos, mas que usa aliança (é casado), e
vem com 2 telemóveis na mão. Deve tentar vender-lhe uma apólice ?
3) Aparece um senhor que preenche a ficha de inscrição, e através dela fica a saber que ele tem
36 anos, é casado, tem filhos, tem a carta há menos de 5 anos, não tem nenhum seguro, tem
curso superior e já não estuda, não tem casa própria mas tem múltiplos telemóveis, e não
fuma. Decida se lhe deve ou não vender uma apólice, usando:
a. Um classificador MAP (sem naive Bayes)
b. Um classificador MAP (com naive Bayes)
4) Se usasse um classificador de k-vizinhos (com k=11), qual seria a taxa de erro esperada ? Qual
seria a previsão de um sistema desses para o cliente da questão 3 ?
5) Se usasse uma árvore de decisão do tipo C4.5 (a que o Weka chama J48), qual seria a taxa de
erro esperada ? Qual seria a previsão de um sistema desses para o cliente da questão 3 ?
6) Se usasse uma rede neuronal multicamada, qual seria a taxa de erro esperada ? Qual seria a
previsão de um sistema desses para o cliente da questão 3 ?
Bom trabalho !
1
Não se esqueça que, como normalmente não calcula p(x), está a calcular um “score” proporcional a p(C|x) e não
p(C|x) propriamente dito. Assim sendo tem que calcular o “score” para “dá prejuízo” e o score para “não dar prejuízo”
(pois a soma dos dois não é 1).
Download

Enunciado