UNIVERSIDADE SÃO FRANCISCO Engenharia de Computação Marcos Eduardo Gomes Borges APLICAÇÃO DE BUSINESS INTELLIGENCE NA CLASSIFICAÇÃO DE SEGURADOS DE AUTOMÓVEIS Itatiba 2010 MARCOS EDUARDO GOMES BORGES – R.A. 002200800733 APLICAÇÃO DE BUSINESS INTELLIGENCE NA CLASSIFICAÇÃO DE SEGURADOS DE AUTOMÓVEIS Monografia apresentada ao curso de Engenharia de Computação da Universidade São Francisco, como requisito parcial para obtenção do título de Bacharel em Engenharia de Computação. Orientador: Prof. M.e Cláudio Luís Vieira Oliveira Itatiba 2010 A vovó Maria e a Mamãe Pelo grande amor e paciência que tiveram comigo em todos os momentos, me educando, aconselhando e motivando a lutar e acreditar nos meus sonhos. AGRADECIMENTOS Primeiramente agradeço a Deus por me conduzir por caminhos planos e por sempre me abençoar, em especial nesses cinco anos de curso. Agradeço a todos os meus familiares pelo apoio e fé no meu potencial, em especial a vovó Maria, minha mamãe e meus irmãos: Juliana e Fernando. Quero agradecer também a todos do Grupo Lucaph | Malcom, pela ajuda e compreensão nas horas em que eu precisei me ausentar para me dedicar na execução e elaboração deste trabalho. Agradeço também a todos os meus amigos que direta ou indiretamente me ajudaram. Sou grato também aos professores que partilharam seus conhecimentos colaborando com o meu crescimento pessoal e profissional. Ao meu orientador professor M.e Cláudio Luís Vieira Oliveira pela orientação na execução deste trabalho e ao meu colega de trabalho na BRQ IT Services, Alexandre Pereira, que me indicou o tema desta monografia. Por último, não menos importante, quero agradecer a minha amiga Camila Vieira Soler que me acompanhou durante toda a minha graduação me ajudando com sua alegria contagiante e sempre me motivando rumo ao próximo passo. Quero agradecer também a toda a sua família, que além de terem me adotado, sempre me apoiaram nas horas difíceis. RESUMO Em geral, as atividades desenvolvidas em uma instituição envolvem a manipulação de dados e informações que muitas vezes valem mais que seu patrimônio físico. O arquivamento e acesso aos dados sempre tiveram papel fundamental no mundo corporativo, e num mercado altamente competitivo esse papel tornou-se crucial: a eficiência em recuperar dados e processar informações pode determinar o sucesso ou o fracasso de uma empresa. Além do armazenamento e recuperação das informações, as empresas precisam agregar valor aos dados armazenados, e diante desse cenário surge a necessidade de analisar e comparar informações para auxiliar gestores nas tomadas de decisão, que é uma realidade tão verdadeira quanto no passado o foi para as primeiras civilizações analisarem e descobrirem quais os melhores períodos para plantio ou até mesmo identificarem as épocas mais e menos chuvosas. Howard Dresner (1989), ex-analista do Instituto Gartner, e conhecido como o criador do termo business intelligence (BI), defende que o uso dessa tecnologia aumenta conforme as empresas percebem que sua implantação agiliza os processos relacionados às tomadas de decisão. Hoje, um dos setores que amplamente utilizam essas ferramentas é o de seguros, e com o apoio desse tipo de solução, empresas seguradoras conseguem conhecer melhor os seus clientes, resultando num maior índice de fidelidade e identificação de oportunidades como venda cruzada (cross selling) e venda de produtos de maior valor agregado (up-selling). No setor de seguros de automóveis, o BI pode ser utilizado no auxílio à tomada de decisões nas campanhas de marketing, no levantamento de áreas de riscos, sinistros, dados de mercado e perfis de clientes. A classificação e o levantamento dos perfis de clientes servem como base para o cálculo do prêmio a ser pago à seguradora. Através das ferramentas de BI é possível identificar regiões que possuem maior índice de sinistros, veículos mais visados a roubo e assim utilizar essas informações para classificar o segurado com equidade. O objetivo deste trabalho é apresentar conceitos básicos sobre business intelligence e como podemos utilizá-lo na classificação de clientes de seguros de automóveis ou problemáticas similares. Palavras-chave: Banco de Dados. Data Mart. Data Warehouse. Business Intelligence. Seguro de automóveis. ABSTRACT In mostly, the activities in an institution involve the manipulation of data and information that often worth more than their physical assets. The archiving and data access always played a fundamental role in the corporate world, and in a highly competitive market that has become crucial role: the efficiency in retrieving data and processing information can determine the success or failure of a company. Besides the storage and retrieval of information, companies must add value to the stored data, and in this scenario the need arises to compare and analyze information to assist managers in decision making, which is a fact as true as it once was for the earliest civilizations to examine and find out what the best times for planting or even identify the most and least rainy seasons. Howard Dresner (1989), former Gartner analyst and known as the creator of the term business intelligence (BI), argues that the use of this technology increases the firms realize that speeds the deployment of processes related to decision making. Today, one of the sectors that extensively use such tools is the insurance, and with the support this solution, insurance companies can better understand their customers, resulting in a higher rate of loyalty and identification of opportunities to cross sell (cross selling) and selling products with higher added value (up-selling). In the automobile insurance industry, the BI can be used as an aid to decision making on marketing campaigns in the mapping of risk areas, claims, market data and customer profiles. The classification and survey of customer profiles serve as the basis for calculating the premium to be paid to the insurer. Through the BI tools can identify regions with the highest rate of accidents, the most targeted vehicle theft, and thus use this information to classify the insured fairly. The aim of this paper is to present basic concepts about business intelligence and how we can use it to classify customers of car insurance or similar problems. Key words: Database. Data Mart. Data Warehouse. Business Intelligence. Car Insurance. LISTA DE FIGURAS Figura 1 – Arquitetura de um Sistema de Gerenciamento de Banco de Dados .................... 13 Figura 2 – Cubo de dados – Vendas de Carros por Marca e Região e Ano ......................... 17 Figura 3 – Tipo de conexão com a base de dados............................................................... 26 Figura 4 – Configuração ODBC para Microsoft Access – Base para Metadados ................. 27 Figura 5 – Configuração ODBC para Microsoft Access – Data Mart .................................... 27 Figura 6 – Criação do Repositório de Metadados ................................................................ 29 Figura 7 – Criando instância do Data Mart ........................................................................... 29 Figura 8 – Projeto de Business Intelligence no MicroStrategy.............................................. 30 Figura 9 – Tabela de Fatos e Atributos ................................................................................ 31 Figura 10 – Exemplo de relatório gerado pelo MicroStrategy ............................................... 32 Figura 11 – Assistente para Relatório - Escolha dos Atributos ............................................. 34 Figura 12 – Assistente para Relatório - Seleção dos Fatos .................................................. 35 Figura 13 – Assistente para Relatório - Filtros ..................................................................... 35 Figura 14 – Assistente para Relatório - Campos Calculados ............................................... 36 Figura 15 – Assistente para Relatório - Campo LUCRO ...................................................... 36 Figura 16 – Assistente para Relatório – Drill Down por Modelo de Carro ............................. 38 LISTA DE TABELAS Tabela 1 – Modelo Relacional – Vendas de Carros por Marca e Região ............................. 15 Tabela 2 – Modelo Relacional – Vendas de Carros por Região ........................................... 15 Tabela 3 – Modelo Relacional – Vendas de Carros por Marca ............................................ 16 Tabela 4 – Modelo Multidimensional – Vendas de Carros por Marca e Região.................... 16 Tabela 5 – Receita de seguros no Brasil com valores dos prêmios pagos ........................... 22 Tabela 6 – Bonificação de clientes de seguro de automóveis .............................................. 23 Tabela 7 – Relatório de Sinistros por Categoria e Cidade .................................................... 33 Tabela 8 – Relatório de Sinistros por Modelo de Carro ........................................................ 37 Tabela 9 – Relatório de Sinistros por Faixa Etária ............................................................... 38 Tabela 10 – Relatório de Sinistros por Sexo do Condutor .................................................... 39 Tabela 11 – Valor do seguro por cidade .............................................................................. 40 Tabela 12 – Valor do seguro por Modelo de Carro .............................................................. 40 Tabela 13 – Valor do seguro por Faixa Etária ...................................................................... 41 Tabela 14 – Valor do seguro por Sexo do Condutor ............................................................ 41 LISTA DE ABREVIATURAS E SIGLAS ANS Agência Nacional de Saúde Complementar BI Business Intelligence DETRAN Departamento Estadual de Trânsito DM Data Mart (Armazém ou Depósito de Dados, subconjunto de um DW) DW Data Warehouse (Armazém ou Depósito de Dados) EIS Executive Information Systems (Sistemas de Informação Executiva) ERP Enterprise Resource Planning (Sistema de Gestão Integrada) ETL Extract Transform e Load (Extração/Transformação/Carga) FIPE Fundação Instituto de Pesquisas Econômicas OLAP On-Line Analytical Processing (Processo analítico on-line) SGBD Sistema de Gerenciamento de Banco de Dados SUSEP Superintendência de Seguros Privados SUMÁRIO 1. INTRODUÇÃO ............................................................................................................. 10 2. METODOLOGIA........................................................................................................... 11 3. SISTEMAS DE BANCO DE DADOS ............................................................................ 12 3.1. Sistemas de apoio a decisão..................................................................................... 13 3.1.1. Processamento Analítico On-line ........................................................................... 14 3.1.2. Data Mart ............................................................................................................... 18 3.1.3. Data Warehouse .................................................................................................... 18 3.1.4. Data Mining ........................................................................................................... 19 3.1.5. Business Intelligence ............................................................................................. 20 4. SEGURO DE AUTOMÓVEIS ....................................................................................... 21 4.1. 5. Classificação de segurados de automóveis ............................................................... 23 PROJETO DE BUSINESS INTELLIGENCE ................................................................. 25 5.1. Preparando as bases de dados ................................................................................. 25 5.1.1. Selecionando o tipo de conexão com as bases de dados ...................................... 26 5.1.2. Informando a localização das bases de dados ...................................................... 27 5.1.3. Criando repositório de metadados ......................................................................... 28 5.1.4. Criando a conexão com o data mart ...................................................................... 29 5.2. Criando um projeto no MicroStrategy ........................................................................ 30 5.3. Criando o esquema de dados ................................................................................... 31 5.4. Gerando relatórios para análise ................................................................................ 31 6. ANÁLISE E INTERPRETAÇÃO DOS DADOS ............................................................. 33 7. CONSIDERAÇÕES FINAIS.......................................................................................... 42 8. REFERÊNCIAS BIBLIOGRÁFICAS............................................................................. 44 10 1. INTRODUÇÃO Desde o surgimento das primeiras civilizações, povos do oriente médio utilizavam informações obtidas junto à natureza em benefícios de suas aldeias. Analisar a localização dos astros, a influência das marés na pescaria, os períodos chuvosos e de secas, eram formas de obter conhecimentos que seriam utilizados para tomar decisões importantes. Hoje não é diferente. Conforme relata Rezende e Abreu (2008), diante da enorme quantidade de informações geradas dia-a-dia, coletar, analisar e encontrar padrões entre os dados que contribuam na tomada de decisões é essencial para a sobrevivência das empresas num mercado altamente competitivo. Segundo informações da MicroStrategy (2010), hoje com a grande evolução e amadurecimento da informática possuímos inúmeras ferramentas que auxiliam empresas em seu crescimento, sendo a principal delas o Business Intelligence (BI), formada por plataformas de software que apóiam tomadores de decisão com informações estratégicas, ajudando empresas a analisar negócios, manter qualidade dos programas e reduzir custos. Hoje, um dos setores que amplamente utilizam essas ferramentas no auxílio às tomadas de decisão e análise de mercado é o de seguros, e conforme cita a SulAmérica (2010), com o apoio desse tipo de solução, empresas seguradoras conseguem conhecer melhor os seus clientes, resultando em um maior índice de fidelidade e melhoria na identificação de oportunidades de venda cruzada (cross selling) e venda de produtos de maior valor agregado (up-selling). A Superintendência de Seguros Privados (SUSEP) e a Agência Nacional de Saúde Complementar (ANS), relatam que a receita de seguros no Brasil no ano de 2009 foi proveniente da venda de 28,5% de apólices de seguros de automóveis, 23,1% de apólice de seguros de saúde, 22,7% de apólices de seguros de vida e 25,7% de outros ramos elementares. No setor de seguros de automóveis, o BI pode ser utilizado no auxílio à tomada de decisões nas campanhas de marketing, no levantamento de áreas de riscos, sinistros, dados de mercado e perfis de clientes. A classificação e o levantamento dos perfis de clientes servem como base para o cálculo do prêmio a ser pago à seguradora, e através das ferramentas de BI é possível identificar regiões que possuem maior índice de sinistros, veículos mais visados a roubo e assim utilizar essas informações para classificar o segurado com equidade. Assim, este trabalho de conclusão de curso tem por objetivo apresentar conceitos básicos sobre business intelligence e como podemos utilizá-lo na classificação de clientes de seguros de automóveis ou problemáticas similares. 11 2. METODOLOGIA A fim de atingir o objetivo deste trabalho, que foi o de aplicar as ferramentas e os conceitos de business intelligence no auxílio a classificação dos clientes de seguros de automóveis, foi necessário antes conhecer sobre os dois assuntos abordados, BI e seguros de automóveis. Para adquirir o conhecimento e entendimento sobre esses dois temas, foi realizada uma revisão bibliográfica a partir da qual foi possível escolher as ferramentas necessárias para análise dos dados e geração dos relatórios que auxiliaram na classificação dos segurados. Também foi necessário obter uma base de dados que tornasse possível encontrar informações relevantes sobre os sinistros ocorridos no país. Após a revisão bibliográfica, foi percebido que a Superintendência de Seguros Privados (SUSEP) disponibiliza em seu site um data mart contendo informações que as seguradoras do país enviam relatando o número de veículos expostos, prêmio médio, importância segurada média, número de sinistros e valor de indenizações, classificadas de acordo com categoria, modelo e ano do veículo, região, cidade ou CEP de circulação, e perfil do segurado. Esse data mart possui 1,58 GB de dados e mais de 7 milhões de registros. Antes da análise dos dados disponibilizados pela SUSEP, também foi realizada uma pesquisa buscando quais as principais ferramentas comerciais para auxilio na implantação de business intelligence, e através dessa pesquisa foi escolhida as ferramentas de BI para geração dos relatórios que auxiliaram na criação dos perfis de clientes. As consultas foram realizadas para as cidades de Atibaia, Bragança Paulista, Campinas, Itatiba e Jundiaí, onde foi possível obter informações estatísticas por tipo de sinistro, modelo de veículo, sexo do condutor e faixa etária, o que tornou possível demonstrar como os clientes dessas cidades podem ser classificados considerando resultados gerados através das ferramenta de BI. 12 3. SISTEMAS DE BANCO DE DADOS Em geral, as atividades desenvolvidas em uma instituição envolvem a manipulação de dados e informações que muitas vezes valem mais que seu patrimônio físico. O arquivamento e acesso aos dados sempre tiveram papel fundamental no mundo corporativo, e num mercado altamente competitivo esse papel tornou-se crucial: a eficiência em recuperar dados e processar informações pode determinar o sucesso ou o fracasso de uma empresa (REZENDE; ABREU, 2008). No início as empresas contavam com antiquados sistemas de arquivamento em papel, o que dificultava muito o gerenciamento, acesso e manipulação das informações. Com o avanço da informática e o surgimento de novas tecnologias, hoje contamos com os sistemas de gerenciamento de banco de dados (SGBD) para realização dessas tarefas. Segundo Silberschatz, Korth e Sudarshan (2006), os SGBDs são sistemas projetados para gerenciar muitas informações, e devem fornecer mecanismos para manipulação dos dados e garantir a segurança das informações armazenadas, isso mesmo diante das falhas de sistemas ou tentativas de acesso não autorizado. Devido a necessidade de manipular as informações de maneira otimizada e segura, o uso de um sistema de banco de dados cresceu em todas as empresas. E hoje, mesmo sem perceber, as pessoas interagem com os bancos de dados quando estão acessando informações de suas contas bancárias em máquinas de auto-atendimento, realizando pesquisas na Internet ou simplesmente utilizando sistemas de resposta de voz interativos como uma consulta ao catálogo telefônico através do serviço 1021. Silberschatz, Korth e Sudarshan (2006) citam que mesmo as pessoas não tendo consciência da interação com um banco de dados devido a interface dos aplicativos ocultarem os detalhes de acesso, a interação com esses sistemas já faz parte da vida de quase todo mundo. O processamento de dados tem impulsionado o crescimento da informática desde o surgimento dos primeiros computadores, e a automação das tarefas de processamento de dados já existia antes mesmo da sua criação. Temos como exemplo os cartões perfurados2 inventados por Herman Hollerit e usados no início do século XX para registrar dados de 1 Em um sistema de resposta de voz interativo, um chamador pode discar um número e pressionar teclas do telefone para inserir informações ou selecionar opções alternativas. Atualmente o sistema de consulta ao catálogo telefônico 102 permite que o usuário fale o que deseja localizar, e através das palavras do chamador o sistema telefônico realiza buscas no banco de dados a fim de encontrar a informação solicitada. 2 Cartões perfurados foram amplamente usados como meio para inserir dados nos primeiros computadores. (SILBERSCHATZ; KORTH; SUDARSHAN, 2006). 13 censo nos Estados Unidos, sendo usados sistemas mecânicos para processar os cartões e tabular os resultados. A Figura 1 demonstra como é a arquitetura de um SGBD. Fonte: Adaptação do autor segundo Silberschatz, Korth e Sudarshan (2006) Figura 1 – Arquitetura de um Sistema de Gerenciamento de Banco de Dados 3.1. Sistemas de apoio a decisão Silberschatz, Korth e Sudarshan (2006) classificam os sistemas de banco de dados em duas categorias: sistemas de processamento de transações e sistemas de apoio à decisão. Os sistemas de processamento de transações registram informações como notas de alunos de uma instituição de ensino, informações de vendas de produtos e movimentações bancárias. Esses sistemas são amplamente utilizados, e através deles as organizações têm acumulado uma grande quantidade de informações. Segundo Rezende e Abreu (2008), para compreender e agregar valor as informações armazenadas, as empresas contam com a ajuda dos sistemas de apoio à decisão, que visam obter informações de alto nível a partir de dados armazenados nos sistemas de processamento 14 de transação, ajudando a tomadores de decisão a decidir quais produtos estocar em uma loja, quais produtos merecem maior atenção em propagandas de marketing, ou qual o perfil das pessoas que mais utilizam seguro de automóvel e direcionar sua atenção a essas pessoas. Normalmente os bancos de dados de uma instituição possuem enormes quantidades de informações sobre clientes e transações que muitas vezes valem mais que seu patrimônio físico (REZENDE; ABREU, 2008). As informações armazenadas são apenas dados de baixo nível sem muito significado para um tomador de decisão, todavia, com a utilização de um sistema de apoio à decisão é possível extrair informações valiosas e encontrar padrões antes desconhecidos que auxiliam na tomada de decisão de negócios. Por exemplo, uma seguradora pode observar que alguns modelos de veículos apresentam um índice muito baixo de roubo, e para atrair mais clientes passa a oferecer descontos significativos a pessoas que possuem veículo de uma dessas marcas. Como outro exemplo, uma concessionária pode descobrir, consultando seu banco de dados, que a maioria dos seus carros para duas pessoas (carro smart) são comprados por senhoras cujas receitas anuais estão acima de R$ 30.000,00. A partir de então, a empresa pode focar seu marketing para atrair mais dessas senhoras a comprar seus carros smart, evitando desperdícios tentando atrair outras categorias de pessoas a comprar esses carros. Segundo Silberschatz, Korth e Sudarshan (2006), existem várias questões no que se refere ao armazenamento e a recuperação dos dados para apoio à decisão, e para resolver essas questões foram criadas diversas ferramentas como o processamento analítico online (OLAP, do inglês On-Line Analytical Processing) e os armazéns de dados (Data Warehouses) que oferecem um esquema unificado de dados reunidos de várias origens, além das técnicas de descoberta de conhecimento e padrões, mineração de dados (Data Mining), que tentam encontrar automaticamente regras estatísticas e padrões a partir dos dados armazenados. 3.1.1. Processamento Analítico On-line O OLAP (Online Analytical Processing), sistema de processamento analítico on-line, é um conjunto de ferramentas especialmente projetadas para dar suporte ao processo decisório por meio de consultas e análises de forma interativa, permitindo acessar e manipular dados de um modo dimensional gerando resumos de dados que serão utilizados para suporte à tomada de decisão (SILBERSCHATZ; KORTH; SUDARSHAN, 2006). 15 Segundo Date e Souza (2000), a modelagem entidade-relacionamento não é a mais adequada para gerentes analisarem os dados presentes em seus sistemas de negócio, pois por meio do modelo relacional fica difícil para um tomador de decisão visualizar os vários tipos de consultas e análises possíveis. Diante dessa complexidade surge a necessidade de construir um modelo mais adequado para a análise de informações: o modelo multidimensional, que facilita a seleção dos itens que devem ser medidos, totalizados ou sumarizados. Para melhor compreensão do modelo multidimensional, supondo a existência das três tabelas a seguir: Tabela 1 – Modelo Relacional – Vendas de Carros por Marca e Região Marca Região Vendas (unidade) Volkswagen Sul 500 Fiat Chevrolet Sudeste 300 Nordeste 100 Centro Oeste 250 Norte 150 Sul 400 Sudeste 350 Nordeste 110 Centro Oeste 300 Norte 100 Sul 250 Sudeste 200 Nordeste 80 Centro Oeste 250 Norte 100 Fonte: Adaptação do autor segundo Date e Souza (2000). Tabela 2 – Modelo Relacional – Vendas de Carros por Região Região Total de Vendas Sul 1150 Sudeste 850 Nordeste 290 Centro Oeste 800 Norte 350 Fonte: Adaptação do autor segundo Date e Souza (2000). 16 Tabela 3 – Modelo Relacional – Vendas de Carros por Marca Marca Total de Vendas Volkswagen 1300 Fiat 1260 Chevrolet 1150 Fonte: Adaptação do autor segundo Date e Souza (2000). Uma maneira mais natural de representar as três tabelas anteriores seria utilizando o modelo multidimensional: Tabela 4 – Modelo Multidimensional – Vendas de Carros por Marca e Região Centro Oeste Nordeste Norte Sudeste Sul TOTAL Volkswagen 250 100 150 300 500 1300 Fiat 300 110 100 350 400 1260 Chevrolet 250 80 100 200 250 1150 TOTAL 800 290 350 850 1150 3710 Fonte: Adaptação do autor segundo Date e Souza (2000). No modelo multidimensional, a tabela apresentada anteriormente representa as vendas por marca e região com os totais de vendas tanto por marca quanto por região. Consultas simples como “Qual a quantidade de carros Volkswagen vendidos na região norte” seriam executadas no modelo relacional acessando apenas um registro. No entanto, consultas como “Qual o total de vendas na região Centro Oeste” seriam executadas através de no mínimo duas consultas acessando os valores e totalizando-os, o que em uma base de dados grande, além de ser uma tarefa que consome um tempo considerável, as consultas utilizando o paradigma relacional seriam muito trabalhosas para serem elaboradas (DATE; SOUZA, 2000). No modelo multidimensional, essa segunda consulta seria executada acessando a coluna Centro Oeste e agregando os valores. As dimensões presentes no modelo multidimensional são comumente chamadas de cubos de dados ou cubos de decisão, e segundo Date e Souza (2000), ainda que o cubo, por sua natureza possua apenas três dimensões, através da tecnologia OLAP pode-se ter inúmeras dimensões das informações, sendo muito mais útil para os analistas visualizarem as informações do que a tradicional visão tabular utilizada nos sistemas relacionais. 17 Fonte: Adaptação do autor segundo Silberschatz, Korth e Sudarshan (2006) Figura 2 – Cubo de dados – Vendas de Carros por Marca e Região e Ano A análise OLAP possui várias funcionalidades, e as principais são as opções de slicing/dicing e a possibilidade de visualização em qualquer nível de granularidade (SILBERSCHATZ; KORTH; SUDARSHAN, 2006). Um exemplo de slicing ou fatia do cubo de dados, seria se um analista necessitasse de uma tabulação cruzada sobre marca de veículo e região de venda para um ano específico, como por exemplo, somente o ano de 2009. Em alguns casos, principalmente quando os valores para as múltiplas dimensões são fixos, a operação também é chamada de dicing. Quanto a escolha do nível de granularidade chamado de operação subir e descer (drill up e drill down), é possível visualizar os dados com mais ou menos detalhes, como no exemplo anterior, o ano pode ser dividido em bimestres, trimestres ou semestres, e um analista pode estar interessado em exibir as relações de vendas somente para o primeiro bimestre do ano, podendo depois realizar a análise mais detalhada, visualizando por trimestres, semestres ou o resultado anual. Segundo Silberschatz, Korth e Sudarshan (2006), os OLAP mais antigos usavam arrays multidimensionais na memória para armazenar os cubos de dados, e devido a esse fator são conhecidos como sistemas OLAP multidimensionais (MOLAP). Com a integração do OLAP aos sistemas de banco de dados relacionais, surgiram os sistemas conhecidos como sistemas OLAP relacional (ROLAP). Os sistemas híbridos, que armazenam alguns resumos na memória e armazenam a base de dados e outros resumos em um banco de dados relacional são chamados OLAP híbrido (HOLAP). 18 3.1.2. Data Mart Segundo Date e Souza (2000), as informações geradas e armazenadas em um banco de dados são voláteis, ou seja, são modificadas constantemente com o passar do tempo e não tem como objetivo o apoio à decisão. Devido a necessidade de possuir uma origem de dados única, limpa e consistente para fins de apoio à decisão, e que servissem como um histórico que pudesse ser consultado sem afetar as demais tarefas em um SGBD, surgiram os armazéns de dados, compreendidos pelos data marts (DM) e os data warehouses (DW). Um data mart pode ser definido como um armazém de dados orientado por assunto, cujo os dados armazenados não são modificados com o passar do tempo e que servem para apoiar tomadores de decisão em uma empresa. Para Primak (2008), um DM é uma coleção de bancos de dados e ferramentas com foco em um problema específico, como por exemplo, o setor de marketing ou vendas. Tamanho somente não define um data mart, entretanto eles tendem a ser menores que um data warehouse (DW) que são grandes coleções de dados que abrange várias áreas dentro de uma empresa. Quanto a implantação de um armazém de dados, há basicamente duas abordagens utilizadas: top-down e o bottom-up. A abordagem top-down consiste em iniciar a construção a partir de um data warehouse e gerar os data marts deste repositório central. Já a abordagem bottom-up seria o contrário, isto é, data marts seriam construídos primeiros e através da integração deles seria criado um data warehouse. 3.1.3. Data Warehouse Para Silberschatz, Korth e Sudarshan (2006), um data warehouse (DW) é um repositório de informações coletadas de várias origens, armazenadas sob um esquema unificado, em um único local. Uma vez reunidos, os dados são armazenados por muito tempo, permitindo o acesso a dados históricos, o que torna as consultas para tomadas de decisão mais fáceis de serem feitas, uma vez que se concentra em um único local as informações específicas de um determinado contexto, provenientes de fontes de dados operacionais que após sofrerem a coleta e a conversão das informações gerenciais necessárias, são armazenadas em estruturas próprias para análises de dados. Outra vantagem do DW é que quem toma decisão pode garantir que os sistemas de processamento de transações on-line não serão afetados pela carga de trabalho de apoio á decisão, uma vez que a execução de consultas gera uma grande carga no banco de dados. 19 O DW apresenta duas características essenciais, é integrado com várias bases de dados e pode ser visto como um histórico, proporcionando respectivamente bases para análise de tendências e observação do andamento da empresa por um grande espaço de tempo. Os elementos de dados brutos que são transformados para povoar um data warehouse são oriundos de dados operacionais e das fontes externas como sistemas legados e ambientes operacionais não integrado. Para extrair os dados é necessário ferramentas específicas, onde se destacam as ferramentas de extração, carga e transformação (ETL, do inglês Extract Transform e Load) e processamento analítico on-line (OLAP), que proporciona ao usuário grande capacidade de manipulação dos dados e análise crítica dos resultados obtidos (PRIMAK, 2008). 3.1.4. Data Mining O data mining (ou mineração de dados) refere-se ao processo de analisar armazéns de dados de forma semi-automática buscando padrões úteis aos tomadores de decisão. Podemos definir a mineração de dados como uma ferramenta para “descoberta de conhecimento em bancos de dados”, ou seja, através do data mining podemos agregar valor aos dados armazenados descobrindo informações que antes não eram óbvias ou desconhecidas (SILBERSCHATZ; KORTH; SUDARSHAN, 2006). Ferramentas de data mining utilizam-se das mais modernas técnicas de computação, como redes neurais, descoberta por regra, detecção de desvio, programação genética, para extrair padrões e associações de dados (PRIMAK, 2008). Segundo Silberschatz, Korth e Sudarshan (2006), O conhecimento descoberto possui várias aplicações, e é muito utilizado em situações que exigem algum tipo de previsão. Por exemplo, quando uma pessoa solicita uma análise para saber o valor que será pago por um seguro de automóvel, é realizado um estudo em relação ao perfil da pessoa tentando prever qual o risco que esse perfil de clientes pode trazer à seguradora, e assim conseguir realizar o orçamento em relação a essa previsão. Outra classe de aplicações procura associações, como por exemplo, pessoas que possuem veículos esportivos na cor vermelha e que estão entre 20 a 30 anos tem mais probabilidade a se envolver em acidentes que pessoas fora dessa associação. Naturalmente, essas regras não são universalmente verdadeiras, e possuem graus de suporte e confiança. 20 3.1.5. Business Intelligence A necessidade de cruzar e analisar informações para auxiliar as empresas na tomada de decisão é uma realidade tão verdadeira quanto no passado o foi para as primeiras civilizações analisarem e descobrirem quais os melhores períodos para plantio ou até mesmo identificarem as épocas mais e menos chuvosas. Conforme cita Primak (2008), Howard Dresner (1989), ex-analista do Instituto Gartner, e conhecido como o criador do termo business intelligence (BI), defende que o uso dessa tecnologia aumenta conforme as empresas percebem que sua implantação agiliza os processos relacionados às tomadas de decisão. No final da década de 60, os computadores começaram a ter o seu tamanho reduzido, deixando de ocupar salas enormes enquanto as empresas passavam a perceber o quanto os dados armazenados poderiam auxiliar nas tomadas de decisão, todavia ainda não existiam recursos eficientes para a análise de dados. Segundo Primak (2008), as grandes mudanças aconteceram na da década de 70 com surgimento dos primeiros sistemas de armazenamento e acesso a dados, seguido pelos Sistemas de Informação Executiva (EIS, do inglês Executive Information Systems), criados no fim da década 70 por pesquisadores do Massachusets Institute of Tecnology (MIT) com o objetivo de formatar dados e exibi-los a usuários sem muito conhecimento em tecnologia. Segundo a Next Generation Center (2010), até o início dos anos 90 as empresas contavam apenas com os Centros de Informação, que forneciam relatórios e informações gerenciais que supriam, de certa forma, as necessidades dos tomadores de decisão. Nessa mesma década surgiram os armazéns de dados, considerado por muitos especialistas a peça chave em um projeto de BI. Em 1996 o conceito de business intelligence passou a ser difundido como uma evolução dos EIS, e com o aprimoramento das tecnologias e o surgimento de novas ferramentas para extração, armazenamento e análise de dados, as empresas passaram a se interessar mais pelas soluções de BI. Segundo Primak (2008) e a Next Generation Center (2010), o business intelligence inicialmente foi utilizado pelos especialistas em TI, responsáveis pelo processamento e divulgação dos resultados aos tomadores de decisão, e com o crescimento da Internet tudo mudou, pois se antes a principal tarefa era levar informações a poucos funcionários para orientar as decisões, hoje a rede permite disponibilizar soluções de BI para um número maior de pessoas. A necessidade de as organizações atingirem metas crescentes exigiu maior envolvimento corporativo e a democratização da informação. 21 4. SEGURO DE AUTOMÓVEIS De acordo com o Dicionário eletrônico Houaiss (2007), Seguro, no termo jurídico, é o contrato em virtude do qual um dos contratantes (segurador) assume a obrigação de pagar ao outro (segurado3), ou a quem este designar, uma indenização, um capital ou uma renda, no caso em que advenha o risco indicado e temido, obrigando-se o segurado, por sua vez, a lhe pagar o prêmio4 que se tenha estabelecido. Dessa forma, entendemos que o seguro de automóveis é uma modalidade de transferência de risco, na qual as seguradoras, mediante contrato, se obrigam a indenizar seus clientes na hipótese de sinistros5. Ao contratar um seguro, o segurado tem como obrigação apenas fornecer informações corretas e documentos, quando necessário, para formulação do valor a ser pago pelo seguro, ao pagamento das parcelas que lhe couberem nos termos do contrato e a comunicação à seguradora em caso de sinistro. O segurador possui várias obrigações, sendo as principais o esclarecimento completo sobre todas as condições do seguro antes da contratação, o fornecimento de cópias dos termos da apólice6 quando da contratação, e na indenização ou cobertura quando da ocorrência dos eventos danosos previstos nas condições do seguro. Segundo dados da Superintendência de Seguros Privados (SUSEP, 2009) e da Agência Nacional de Saúde Complementar (ANS, 2009), a receita de seguros no Brasil é composta pela venda de 28,5% de apólices de seguros de automóveis, 23,1% de apólice de seguros de saúde, 22,7% de apólices de seguros de vida e 25,7% de outros ramos elementares, conforme demonstra a Tabela 5. 3 Segurado é a pessoa física ou jurídica a qual se destina o valor da indenização na hipótese de ocorrência de eventos danosos previstos em contrato. 4 Prêmio é o valor pelo qual o segurado paga para obter a garantia do seguro. 5 Sinistro é a ocorrência de evento danoso previstos na contratação do seguro. 6 Apólice é o documento que apresenta as responsabilidades e obrigações tanto do segurado, quanto da seguradora, mediante regras impostas pela lei e pelos órgãos oficiais que fiscalizam esta atividade econômica. 22 Tabela 5 – Receita de seguros no Brasil com valores dos prêmios pagos Fonte: SULAMÉRICA (2010). Dentre as modalidades de seguros, o de veículos automotores tem sido o mais comum e, dependendo do que foi acordado em contrato poderá contemplar a cobertura de incêndio, furto, colisão, prejuízos causados a terceiro por culpa do segurado entre outros danos. Em casos de roubo ou perda total do veículo, a seguradora deverá substituí-lo por outro, utilizando a tabela de referência elaborada pela Fundação Instituto de Pesquisas Econômicas (FIPE) em convênio com a Federação Nacional das Seguradoras para calcular o valor a ser restituído. Também é comum estabelecer-se um valor de franquia, ou seja, um limite de valor que será de inteira responsabilidade do segurado e que, somente a partir deste patamar a seguradora se responsabilizará. Na apólice deve constar obrigatoriamente a marca do veículo, ano de fabricação, o valor assegurado, o valor do prêmio, a data de início da vigência do contrato de seguro e o valor da franquia. Para algumas seguradoras, a franquia serve como um mecanismo para reduzir custos gerados com pequenos acidentes. Segundo a SUSEP (2010), franquia é o valor ou percentual descrito na apólice, que o segurado deverá arcar em casos de sinistros, e que somente se o valor do prejuízo superar a franquia, é que a seguradora o indenizará. A franquia não se aplica em acidentes causados pela natureza, perda total do veículo, acidentes com terceiros ou quando nada acontece com o veículo do segurado. Segundo a SulAmérica (2010), há várias modalidades de franquias. Abaixo segue as mais comuns: • Reduzida: torna o valor da franquia menor, mas encarece o valor das parcelas do seguro. • Dobrada: torna o valor da franquia maior, porém reduz o valor das parcelas do seguro. 23 • Percentual: o valor da franquia corresponde a um percentual do sinistro previamente estipulado no contrato. • Dedutível: o segurado só paga se o valor do conserto for menor do que a franquia. Em casos em que o seguro não é acionado por um período igual ou maior que um ano, as seguradoras oferecem a seus clientes um desconto que no jargão de seguros é chamado bônus. Este desconto varia de seguradora para seguradora, e cresce à medida que o segurado vai renovando o contrato de seguro sem a utilização do mesmo no ano anterior. Por exemplo: se o segurado não registrar nenhum acidente ou não acionar a seguradora arcando com os custos de acidentes menores no período, ele terá direito ao bônus na renovação de sua apólice conforme tabela abaixo (SULAMÉRICA, 2010): Tabela 6 – Bonificação de clientes de seguro de automóveis Período sem reclamação Bônus (%) 1 ano 10% 2 anos 15% 3 anos 20% 4 anos 25% Acima de 5 anos 30% Fonte: adaptação do autor segundo SulAmérica (2010). 4.1. Classificação de segurados de automóveis Há vários fatores que influenciam o valor das parcelas a serem pagas para a seguradora, todavia, segundo a SUSEP (2010), em média as seguradoras adotam o padrão de 7% do valor do veículo mais os fatores descritos abaixo: • Características do veículo: o Marca do veículo a ser segurado. Dependendo da marca há uma incidência maior ou menor de roubo, o que pode variar no valor do seguro. 24 o Ano de fabricação: para carros mais novos geralmente os seguros são mais caros. o Condições de segurança do veículo: um item de segurança como alarme ou travas de segurança pode diminuir as chances de ocorrer furtos ou roubos. • Região em que trafega: há uma incidência maior ou menor de roubo ou acidentes em certas regiões, o que também influencia no valor do seguro. • Perfil do motorista: o Brasil segue o modelo adotado internacionalmente, onde leva-se em conta o perfil do segurado como item importante na definição do valor do seguro. O valor das parcelas não é fixado considerando somente o carro, mas levando-se em conta o risco que determinadas pessoas oferecem para a seguradora, tendo como base, um questionário respondido. Neste questionário normalmente são considerados alguns pontos como: o Idade do condutor do veículo. o Tempo de habilitação do condutor. o Sexo do condutor. o Estado civil do condutor. o Número de filhos e idade desses. o Cidade onde o carro circula normalmente. o Local onde o veículo permanece estacionado (em garagem, estacionamento ou via pública). o • Histórico de acidentes ocorridos com o motorista. Valor da cobertura: o Cobertura total ou parcial nos casos de colisão. o Incêndio. o Roubo. o Responsabilidade civil. o Danos causados por inundações, alagamentos ou enchentes. o Acidente com queda de objetos sobre o veículo. o Reboque gratuito. 25 5. PROJETO DE BUSINESS INTELLIGENCE Para aplicação de business intelligence na classificação de clientes de seguro de automóveis, foi adquirido junto a SUSEP, uma base de dados contendo informações que as seguradoras do país enviam semestralmente com número de veículos expostos, prêmio médio, importância segurada média, número de sinistros e valor de indenizações, classificadas de acordo com categoria, modelo e ano do veículo, região, cidade ou CEP de circulação, e perfil do segurado. Há divergências entre alguns autores no tocante as melhores práticas para se iniciar um projeto de BI. Todavia, na prática, ou se inicia utilizando o próprio ambiente transacional ou cria-se um depósito de dados específico para essa finalidade (data mart ou data warehouse). Para a construção de um ambiente DW ou DM, os dados extraídos dos diversos sistemas devem passar por um processo de transformação e validação, onde é realizada a eliminação de duplicidade e sumarização dos dados coletados. Neste trabalho, essa tarefa pode ser simbolizada pela prática da SUSEP receber semestralmente os dados de todas as seguradoras do país, padronizá-los e armazená-los em uma única base de dados e disponibilizando-os para consulta. Após a definição da base de dados, foi necessário escolher as ferramentas para análise dos dados. As mais simples são as que geram relatórios e consultas através de menus e botões para a especificação das condições e critérios de agrupamento, sem que seja necessário conhecer uma linguagem de consulta a banco de dados. Todavia essas ferramentas limitam os relatórios apenas a médias, totais e desvios padrão entre outras funções básicas de análise. Para a realização deste trabalho foi escolhido as ferramentas de business intelligence da MicroStrategy que utiliza análises OLAP, oferecendo maior capacidade de manipulação dos dados através de visões multidimensionais, além de ser de fácil aprendizado para se iniciar um projeto de BI e apresentar grande integração com os diversos tipos de base de dados. 5.1. Preparando as bases de dados A Superintendência de Seguros Privados (SUSEP) disponibiliza em seu site um data mart contendo informações que as seguradoras do país enviam. Esse data mart está no formato Microsoft Access e possui 1,58 GB de dados e mais de 7 milhões de registros. 26 Todos os relatórios para auxílio na classificação dos clientes de seguro de automóveis foram gerados a partir dessa base de dados. Para integração da base de dados com as ferramentas de BI da MicroStrategy, foi necessário antes de tudo, criar um mapeamento das estruturas físicas dos dados (tabelas e colunas em que estão armazenados) para um repositório de metadados, onde foram armazenados os relatórios criados. Para isso foi utilizado uma base de dados em branco criada através do Microsoft Access 2007, e com as ferramentas de configuração da própria MicroStrategy foi feito o mapeamento conforme descrito abaixo: 5.1.1. Selecionando o tipo de conexão com as bases de dados Nesta primeira etapa foi selecionado o tipo de conexão com as bases de dados, ou seja, foi informado ao sistema o tipo de base de dados que seria utilizado para realizar as consultas e armazenar os metadados. Existem vários tipos de bases de dados, entre eles temos o IBM DB2, Microsoft SQL Server, Microsoft Access, Microsoft Excel, entre outros. Como o data mart fornecido pela SUSEP e a base de dados para metadados possui o formato Microsoft Access, então foi feita a seleção do tipo de conexão para esse formato utilizando o Microsoft Access Driver (*.mdb) conforme Figura 3. Figura 3 – Tipo de conexão com a base de dados 27 5.1.2. Informando a localização das bases de dados Após a seleção do tipo de conexão com as bases de dados, foi necessário informar qual a localização do data mart fornecido pela SUSEP e a localização repositório de metadados. Em um ambiente corporativo, as bases de dados podem estar localizadas em um servidor dentro da própria empresa ou até mesmo em servidores localizados em outros estados ou países. Nesta etapa foi informada a localização de cada repositório de dados conforme apresentado nas Figuras 4 e 5. Figura 4 – Configuração ODBC para Microsoft Access – Base para Metadados Figura 5 – Configuração ODBC para Microsoft Access – Data Mart 28 5.1.3. Criando repositório de metadados Os metadados são dados referentes a outros dados, ou seja, metadados contém informações descrevendo do que se trata o dado referenciado, apresentando o seu significado, bem como suas modificações ao longo do tempo. Em um ambiente de BI, os metadados são muito importantes por descreverem o fluxo dos dados desde a sua aquisição até a sua disponibilidade aos tomadores de decisão. Nos passos anteriores foi informado o tipo de conexão e a localização das bases de dados, e nesta etapa foi gerado os metadados no repositório configurado anteriormente. A Figura 6 apresenta as etapas para a criação do repositório de metadados, que foi realizada através de três passos: 1. Criar Tabelas de Metadados, Lista de Histórico e Repositório de Estatísticas Neste passo criou-se os metadados e os objetos de configuração padrão necessários para o funcionamento do MicroStrategy; esse repositório de metadados contém um modelo lógico de negócios e todos os objetos de aplicativos necessários para a execução de projetos utilizando as ferramentas de BI da MicroStrategy. 2. Configurar o Intelligence Server Neste segundo passo criou-se um servidor válido para execução do projeto utilizado neste trabalho, atualizando as informações no repositório de metadados, e iniciando uma instância do MicroStrategy Intellingece Server para o projeto, que permite configurar e acessar as informações através de um navegador web. 3. Criar Origens de Projetos Após a configuração do Intelligence Server, esse passo foi necessário para armazenar a localização do repositório de metadados e do MicroStrategy Intelligence Server que foi utilizado para acessar o projeto, criando assim uma referência (link) para que cada usuário do projeto conseguisse acessar os dados. 29 Figura 6 – Criação do Repositório de Metadados 5.1.4. Criando a conexão com o data mart Para realização das consultas na base de dados fornecida pela SUSEP, foi necessário primeiramente selecionar o tipo de conexão e informar a localização do data mart. Após esses dois passos, também foi necessário instanciar o banco de dados, ou seja, realizar a conexão propriamente dita com o data mart conforme Figura 7. Figura 7 – Criando instância do Data Mart 30 5.2. Criando um projeto no MicroStrategy Com o repositório de metadados configurado e o data mart instanciado, conseguiu- se criar um projeto de BI no MicroStrategy. Utilizando o assistente de criação de projetos (Figura 8), foi necessário executar duas etapas: 1. Criar Projeto: Etapa utilizada para informar o nome do projeto e selecionar os repositórios que foram previamente configurados (a base de dados para metadados e o data mart fornecido pela SUSEP). 2. Architect Etapa utilizada para criação do esquema de dados. Figura 8 – Projeto de Business Intelligence no MicroStrategy 31 5.3. Criando o esquema de dados Os objetos básicos para criação de qualquer projeto utilizando o MycroStrategy são atributos, fatos e hierarquias. Os fatos representam as várias dimensões ou visões que os usuários utilizarão para analisar os atributos, e as hierarquias representam as ordenações ou subdivisões dos elementos, ou seja, a representação de datas pode ser hierarquizada como Ano -> Semestre -> Trimestre, etc. A Figura 9 apresenta alguns dos fatos e atributos definidos no esquema de dados. Figura 9 – Tabela de Fatos e Atributos 5.4. Gerando relatórios para análise Após o mapeamento do dat mart, criação do repositório para metadados e definição do esquema do banco de dados, onde foram criadas as tabelas de fatos e definidos os atributos, conseguiu-se gerar os relatórios que serviram como base para análise e criação dos parâmetros para classificação dos clientes de seguro de automóveis. As consultas foram realizadas para as cidades de Atibaia, Bragança Paulista, Campinas, Itatiba e Jundiaí, gerando relatórios com diversas perspectivas, entre elas: a quantidade de sinistros por tipo e cidade; por tipo, cidade e modelo de carro; por tipo, região e idade; por tipo, região e sexo do condutor. A Figura 10 apresenta um exemplo de relatório gerado utilizando o MicroStrategy. 32 Figura 10 – Exemplo de relatório gerado pelo MicroStrategy Os resultados são bem simples, ou seja, as informações são apresentadas de maneira clara e objetiva, todavia para gerar relatórios conforme o apresentado na Figura 10 utilizando apenas SQL no modelo relacional seria necessário elaborar consultas muito complexas, sem considerar a carga que essas consultas gerariam na base de dados. Com a utilização das ferramentas de business intelligence da MicroStrategy utilizando OLAP multidimensional, conseguiu-se realizar essas consultas de forma fácil e com menos carga na base de dados conforme já explicado no Capítulo 3.1.1, sobre Processamento Analítico On-line. Segundo Silberschatz, Korth e Sudarshan (2006), o OLAP possibilita realizar consultas de forma interativa, permitindo acessar e manipular dados de modo dimensional gerando resumos de dados que são muito úteis nas tomadas de decisão. Outras características do OLAP são as opções de slicing/dicing e a possibilidade de visualização em vários níveis de granularidade. Para a geração dos relatórios foram realizadas consultas OLAP na base de dados através das ferramentas de BI da MicroStrategy, e através dessas consultas conseguiu-se obter dados que são mostrados nas Tabelas 7 a 10. 33 6. ANÁLISE E INTERPRETAÇÃO DOS DADOS A Tabela 7 apresenta a quantidade de carros expostos, quantos sinistros ocorreram, o valor pago na indenização desses sinistros e o valor do prêmio pago às seguradoras durante o 1º semestre de 2009, classificados por duas categorias de veículos e por cidades. Os valores em percentual correspondem a porcentagem que o item apresenta em relação ao total, seja do número de exposição, indenização ou prêmio. O percentual contido na coluna lucro apresenta a porcentagem de lucro em relação ao valor do prêmio que as seguradoras receberam, ou seja, na categoria de carro de passeio nacional para a cidade de Atibaia, o lucro de R$ 1.202.467,00 corresponde a 22% dos R$ 5.348.720,00 de prêmio pagos às seguradoras. Tabela 7 – Relatório de Sinistros por Categoria e Cidade Sinistro 1 Exposição Categoria ATIBAIA BRAGANÇA PAULISTA Passeio Nacional Sinistro 2 e 3 Indenização 1 Indenização 2 e 3 LUCRO = Prêmio - Indenização Prêmio Cidade CAMPINAS ITATIBA JUNDIAÍ Total ATIBAIA BRAGANÇA PAULISTA CAMPINAS Passeio Importado ITATIBA JUNDIAÍ Total Total 1.202.467 22% 6.264 5% 63 1.349.397 3% 435 1.922.503 6% 4.988.412 4,20% 1.716.512 34% 76.186 6.270 61% 5% 1.350 97 28.595.701 2.180.351 57% 4% 4.489 458 20.735.871 1.965.902 61% 6% 77.136.896 5.348.720 64,95% 4,50% 27.805.324 36% 5.970 5% 69 1.656.974 3% 395 1.726.091 5% 4.705.820 3,96% 1.322.755 28% 29.227 24% 765 16.343.132 33% 1.520 7.712.545 23% 26.588.278 22,39% 2.532.601 123.916 100% 2.344 50.125.555 100% 7.297 34.062.912 100% 118.768.127 100,00% 34.579.660 162 5% 3 53.910 4% 11 129.066 6% 275.857 4,05% 92.881 34% 10% 45% 130 4% 2 66.698 5% 7 67.241 3% 245.648 3,60% 111.709 2.475 69% 18 920.014 70% 126 1.789.921 78% 4.902.033 71,92% 2.192.098 45% 114 3% 1 21.237 2% 3 26.817 1% 215.745 3,17% 167.691 78% 634.688 54% 687 19% 3.567 100% 127.484 249.556 19% 31 1.311.415 100% 2.375 7 51.436.970 292.654 13% 182 2.305.699 100% 7.479 35 36.368.611 1.176.898 17,27% 6.816.182 100,00% 125.584.308 3.199.068 37.778.727 Sinistro 1: roubo ou furto Sinistro 2: colisão parcial Sinistro 3: colisão perda total Analisando os dados apresentados na Tabela 7, percebe-se que na cidade de Campinas houve maior quantidade de veículos cobertos por seguro (veículos expostos), seguida por Jundiaí, Atibaia, Bragança Paulista e Itatiba. Considerando o lucro que as seguradoras de cada cidade obtiveram, nota-se que na categoria passeio nacional a cidade de Campinas teve maior lucro, seguida por Bragança Paulista, Itatiba, Atibaia e Jundiaí. Na categoria passeio importado a cidade de Itatiba teve maior lucro, seguida por Jundiaí, Campinas e Bragança Paulista, e por Atibaia. É evidente que quanto maior o percentual de lucro, menor foi os gastos das seguradoras com pagamento de sinistros. Logo, em teoria, na categoria passeio nacional a cidade de Campinas pode apresentar o valor do seguro menor que a cidade de Jundiaí, pois seu custo com a cobertura de seguros foi mais baixo. A mesma regra de negócios pode ser aplicada em relação as demais cidades. 34 Para obter os valores apresentados na Tabela 7, assim como também nas demais tabelas, foi utilizado o assistente para geração de relatórios que acompanha as ferramentas de BI da MicroStrategy. Os relatórios foram gerados através de consulta OLAP na base de dados contendo mais de 7 milhões de registros, e através do assistente de relatório foi possível escolher os atributos, os fatos e as métricas para filtragem dos dados conforme apresentado abaixo: a) Na etapa de escolha dos atributos, foram definidos quais os itens que seriam medidos/analisados. Na Tabela 7 foi analisada a quantidade de sinistros por categoria de carro e cidade que foram os atributos selecionados, levando-se em consideração todos os modelos de carro, todas as faixa etárias, e ambos os sexos. Figura 11 – Assistente para Relatório - Escolha dos Atributos 35 b) Após a definição dos atributos, foram selecionadas as métricas ou fatos de dados. Os fatos representam as várias dimensões ou visões para analisar os atributos, e em geral são valores que podem ser agregados utilizando-se operações como média, soma, contagem, etc. Figura 12 – Assistente para Relatório - Seleção dos Fatos c) Quanto a qualificação dos atributos, foram aplicados os filtros para que o relatório apresentasse apenas resultados referentes as categorias Carro Passeio Nacional e Importado das cidades de Atibaia, Bragança Paulista, Campinas, Itatiba e Jundiaí. Figura 13 – Assistente para Relatório - Filtros 36 d) Para os campos calculados (Total, Lucro e percentuais), foi utilizado o assistente para criação de métricas que possui várias funções pré-definidas, além da possiblidade de criar novas funções especificando as fórmulas. A Figura 14 apresenta algumas funções pré-definidas pelo MicroStrategy, e a Figura 15 apresenta a definição da fórmula para cálculo do campo LUCRO, apresentado nas Tabelas 7 a 10. Figura 14 – Assistente para Relatório - Campos Calculados Figura 15 – Assistente para Relatório - Campo LUCRO 37 A Tabela 8 foi conseguida através da aplicação de drill down sobre a Tabela 7. A opção de drill down, explicada no Capítulo 3.1.1 Processamento Analítico On-line, é uma opção através da qual podemos analisar informações de forma mais específica, ou seja, na Tabela 7 tinham-se as informações de sinistros por categoria de carro e cidades considerando todos os modelos de carros, e aplicando drill down sobre essa tabela, obtevese a Tabela 8 considerando modelos de carros específicos. Nessa tabela foram apresentados apenas cinco modelos de veículos para facilitar a visualização e interpretação dos dados. Tabela 8 – Relatório de Sinistros por Modelo de Carro Exposição Sinistro 1 Indenização 1 Sinistro 2 e 3 Indenização 2 e 3 LUCRO = Prêmio - Indenização Prêmio Cod Modelo 004272-2 3.609 43% 32 22,70% 501.376 19% 227 45,40% 699.972 44% 2.555.885 38,67% 1.354.537 53,00% 001177-0 2.577 31% 42 29,79% 910.847 35% 147 29,40% 442.544 28% 2.107.685 31,89% 754.294 35,79% 001162-2 1.991 24% 62 43,97% 1.141.959 43% 114 22,80% 437.736 27% 1.793.955 27,14% 214.260 11,94% 004266-8 107 1% 5 3,55% 81.598 3% 5 1,00% 11.538 1% 74.395 1,13% (18.741) -25,19% 81,06% 025145-3 Total 71 1% 0 0,00% 0 0% 7 1,40% 14.588 1% 77.014 1,17% 62.426 8.356 100% 141 100,00% 2.635.780 100% 500 100,00% 1.606.378 100% 6.608.934 100,00% 2.366.776 Sinistro 1: roubo ou furto 004272-2 GM - Chevrolet - Corsa Sed Class.Life 1.0/1.0 FlexPower Sinistro 2: colisão parcial 025145-3 Renault - SANDERO Privilège Hi-Flex 1.6 8V 5p Sinistro 3: colisão perda total 001177-0 Fiat - Palio 1.0/ Trofeo 1.0 Fire/ Fire Flex 4p 004266-8 GM - Chevrolet - Celta Life 1.0 MPFI VHC 8V 5p 001162-2 Fiat - Uno Mille 1.0 Fire/ F.Flex/ ECONOMY 4p Em relação aos dados da Tabela 8, percebe-se que houve maior quantidade de carros cobertos por seguro para o modelo Chevrolet Corsa, seguido por Fiat Palio, Fiat Uno, Chevrolet Celta e Renault Sandero. Considerando o lucro, percebe-se que as seguradoras tiveram prejuízo com o carro Chevrolet Celta, e obtiveram rendimentos maiores com os modelos Renault Sandero, seguido por Chevrolet Corsa, Fiat Palio e Fiat Uno. Também é possível observar, levando em consideração a quantidade de cada modelo exposto e a quantidade de roubo ou furto para cada modelo, que o carro Chevrolet Celta apresentou índice de roubo7 de 4,66%, seguido pelo modelo Fiat Uno com 3,11%, Fiat Palio com 1,63%, Chevrolet Corsa com 0,89% e Renault Sandero com 0%. Essas são informações muito importantes para o cálculo do prêmio, pois é em relação a esses dados que é obtido o valor base para cada modelo de carro que comporá o valor final do seguro. Uma das vantagens em se trabalhar utilizando OLAP é a facilidade de navegação pelos dados apresentados, onde é possível aumentar (drill up) ou diminuir (drill down) a granularidade e consequentemente alterar o nível de detalhe. O MicroStrategy traz várias opções para visualização dos dados, e para geração das informações apresentadas nas 7 Índice de roubo = (quantidade de sinistro 1 / quantidade de carros expostos) x 100. 38 Tabelas 8 a 10 foram aplicadas a diminuição da granularidade (drill down) e consequentemente o aumento do nível de detalhes conforme apresentado na Figura 16, que apresenta a configuração para drill down selecionando os modelos de veículos. Figura 16 – Assistente para Relatório – Drill Down por Modelo de Carro A Tabela 9 foi gerada da mesma forma que a Tabela 8, ou seja, utilizando a aplicação de drill down na Tabela 7 e exibindo resultados classificados por faixa etária. Na Tabela 7 tinham-se informações considerando todas as faixas etárias. Tabela 9 – Relatório de Sinistros por Faixa Etária Exposicao Sinistro 1 Indenização 1 Sinistro 2 Indenização 2 Sinistro 3 Indenização 3 Prêmio Indenização Prêmio IDADE 11.043 7% 370 11% 8.119.473 11% 1.051 12% 3.667.994 13% 95 12% 2.541.249 13% 11.980.012 7,38% 18 a 25 ? 8.075 5% 198 6% 3.530.189 5% 651 7% 2.222.001 8% 70 9% 1.560.198 8% 9.168.470 5,65% 1.856.082 20,24% 26 a 35 37.471 22% 894 26% 19.359.737 26% 1.841 21% 5.584.525 20% 196 25% 4.813.267 25% 37.003.301 22,79% 7.245.772 19,58% 36 a 45 43.998 26% 855 25% 19.158.335 26% 2.271 26% 7.123.852 25% 159 20% 3.864.853 20% 41.856.007 25,78% 11.708.967 27,97% 46 a 55 34.785 21% 627 18% 13.385.162 18% 1.663 19% 5.424.385 19% 164 21% 4.033.051 21% 34.158.081 21,04% 11.315.483 33,13% > 55 31.316 19% 498 14% 10.652.300 14% 1.362 15% 4.008.193 14% 106 13% 2.417.084 13% 28.216.455 17,38% 11.138.878 39,48% 790 100% 19.229.702 100% 162.382.325 100,00% 40.916.477 Total 166.688 100% 3.442 100% 74.205.196 100% 8.839 100% 28.030.950 100% (2.348.704) -19,61% Sinistro 1: roubo ou furto Sinistro 2: colisão parcial Sinistro 3: colisão perda total Em relação aos dados expostos na Tabela 9, nota-se que as seguradoras obtiveram maior lucro com os clientes acima de 55 anos, seguidos dos clientes com faixa etária entre 46 a 55, 36 a 45, 18 a 25 e 26 a 35. O grupo com a idade do condutor não foi identifica trouxe prejuízo para as seguradoras. Essas informações influenciam diretamente na classificação do cliente de seguro, pois cada segurado será enquadrado dentro de uma 39 dessas faixas etárias, e conforme o índice de sinistros para a faixa etária pagará um valor maior ou menor no seguro. Considerando-se o valor total de indenizações para as faixas etárias, temos o valor de R$ 14.328.716,00 para a idade do condutor não identificada, R$ 7.312.388,00 para a faixa estaria entre 18 a 25 anos, R$ 29.757.529,00 para 26 a 35 anos, R$ 30.147.040,00 para 36 a 45 anos, R$ 22.842.598,00 45 a 55 anos e R$ 17.077.577,00 para condutores acima de 55 anos. Esses dados indicam que os condutores com idade entre 36 a 45 apresentam maior prejuízo com indenizações, seguidos do grupo com idade entre 26 a 35 anos, 46 a 55 anos, maiores de 55 anos e do grupo com idade entre 18 a 25 anos. Embora o grupo com idade entre 36 a 45 anos apresente maior valor com indenizações, considerando-se a quantidade de sinistros ocorridos, é evidente que os grupos com idade entre 18 a 25 anos e 26 a 35 anos são os que mais se envolvem em acidentes, isso pode ser justificado levando em consideração que o grupo com idade maior já possua estabilidade financeira e os valores dos veículos segurados sejam maiores que o dos grupos com idades menores. A Tabela 10 apresenta a quantidade de carros expostos, quantos sinistros ocorreram, o valor pago na indenização desses sinistros e o valor do prêmio pago às seguradas durante o 1º semestre de 2009, classificados por sexo do condutor. Essa tabela também foi obtida através da Tabela 7 aplicando-se drill down por faixa etária. Tabela 10 – Relatório de Sinistros por Sexo do Condutor Exposição Sinistro 1 Indenização 1 Sinistro 2 Indenização 2 Sinistro 3 Indenização 3 LUCRO Prêmio - Indenização Prêmio SEXO F 68.422 45% 1.259 42% 26.753.614 42% 3.530 44% 10.439.649 42% 252 36% 6.041.068 36% 62.337.958 38,72% 19.103.627 30,65% M 84.584 55% 1.762 58% 37.441.711 58% 4.404 56% 14.608.357 58% 446 64% 10.849.483 64% 84.350.908 52,39% 21.451.357 25,43% 698 100% 16.890.551 100% 146.688.866 100,00% 40.554.984 Total 153.006 100% 3.021 100% 64.195.325 100% 7.934 100% 25.048.006 100% Sinistro 1: roubo ou furto Sinistro 2: colisão parcial Sinistro 3: colisão perda total Analisando a Tabela 10 percebe-se que as seguradoras obtiveram maior lucro com os condutores do sexo feminino, mesmo apresentando menor quantidade de carros sob seguro. O percentual de roubo ou furto em relação a quantidade de carros expostos apresenta valores iguais para ambos os sexos: 2%. O mesmo é válido para o percentual de colisão parcial em relação a quantidade de carros expostos: 5%. A única diferença está entre a relação de carros expostos e colisão com perca total: 0,37% para condutores do sexo feminino e 0,53% para condutores do sexo masculino. 40 Através da análise dos dados apresentados nas Tabelas 7 a 10, foi possível fundamentar os parâmetros para classificação dos clientes de seguro de automóveis conforme as especificações abaixo. I. Cidade A Tabela 7 trouxe informações de sinistros por categorias de carro e por cidades, e através dos dados apresentados tornou possível a identificação e ordenação das cidades x categorias em que o seguro de automóvel pode ser mais barato devido aos índices de sinistros serem menor e o lucro com seguro maior, conforme pode ser observado na Tabela 11. Tabela 11 – Valor do seguro por cidade Valor do seguro Passeio Nacional mais barato Campinas Itatiba Bragança Paulista Jundiaí mais caro II. Passeio Importado Itatiba Campinas Atibaia Bragança Paulista Jundiaí Atibaia Modelo de Carro A Tabela 8 apresentou o índice de sinistros por modelos de carros, onde foi possível a identificação e ordenação dos carros em que o valor base do seguro pode ser mais barato conforme apresentado na Tabela 12. Tabela 12 – Valor do seguro por Modelo de Carro Valor do seguro mais barato Modelo de Carro Renault Sandero Chevrolet Corsa Fiat Palio Fiat Uno mais caro Chevrolet Celta 41 III. Faixa Etária Em relação a faixa etária, as informações foram apresentadas na Tabela 9, e conforme a análise dos dados realizada nessa tabela, o valor do seguro pode variar conforme a faixa etária segundo a Tabela 13. Tabela 13 – Valor do seguro por Faixa Etária Valor do seguro mais barato Faixa Etária Acima de 55 anos 46 a 55 anos 36 a 45 anos 18 a 25 anos mais caro IV. 26 a 35 anos Sexo do Condutor A tabela 14 apresenta a diferença que o valor do seguro pode ter em relação ao sexo do condutor, tendo como base os dados analisados na Tabela 10. Tabela 14 – Valor do seguro por Sexo do Condutor Valor do seguro Sexo do Condutor mais barato Sexo Feminino mais caro Sexo Masculino 42 7. CONSIDERAÇÕES FINAIS Atualmente as empresas precisam trabalhar com um grande volume de dados e informações que surgem a cada segundo, e a necessidade de extrair valor destas é crucial para sua sobrevivência. Hoje existem os sistemas de gerenciamento de banco de dados no auxílio a manipulação e acesso as informações, todavia a necessidade do mercado vai além de manipular e acessar informações. Atualmente para as empresas se manterem competitivas elas precisam agregar valor as informações que possuem, e para isso existem vários meios como, por exemplo, as ferramentas de apoio a decisão abordadas neste trabalho. Hoje, qualquer empresa possui pelo menos uma ferramenta para armazenar suas informações, seja em planilhas do Microsoft Excel, em banco de dados do Microsoft Access ou em sofisticados bancos de dados. No mercado de seguros, regulamentado pela SUSEP e ANS, as seguradoras possuem duas fontes de dados principais: as informações geradas pela própria seguradora e um data mart disponibilizado pela SUSEP contendo as informações sobre seguro de todas as outras seguradoras do país. A análise de informações e a correlação destas com o tempo e outras variáveis não é nenhuma novidade deste século, pois o homem sempre se baseou nos acontecimentos passados para tomar as decisões do presente e até tentar prever os acontecimentos futuro. O grande diferencial é que hoje as informações são geradas em uma quantidade maior, e para as empresas conseguirem dados válidos e sumarizados para apoio a decisão precisam utilizar várias ferramentas tecnológicas. A aplicação das ferramentas de BI hoje é indispensável para uma empresa conseguir agregar valor aos dados armazenados. Através deste trabalho percebe-se que o resultado que essas ferramentas geram é simples e objetivo, todavia conseguido através de várias tecnologias como a integração com um data mart e consultas utilizando OLAP multidimensional, sem as quais, as consultas e a geração de relatórios seriam uma tarefa muito trabalhosa e quase que inviável. Analisando os dados apresentados nas Tabelas 7 a 10, foi possível encontrar parâmetros para classificar os clientes de seguro de automóvel através da sumarização de mais de 7 milhões de registros contidos no DM disponibilizado pela SUSEP, evidenciando assim a importância da análise de dados para apoio a tomada de decisão, agregando valor e dando significado aos dados armazenados. Ainda há muito a se fazer para conseguir a classificação dos clientes de seguro de automóveis de maneira totalmente automatizada. Este trabalho visou apenas apresentar os 43 conceitos de BI, e como a sua utilização pode fornecer informações e agregar valor a dados armazenados, que inicialmente não traziam significado relevante. Pode-se perceber que business intelligence não se trata de uma única metodologia ou ferramenta tecnológica para auxílio a tomada de decisão, mas sim de uma ampla plataforma de softwares que possibilitam através das suas interações várias formas de visualizar as informações, facilitando assim a análise dos dados. Com este trabalho e os conceitos apresentados, espera-se que em projetos futuros consiga-se aplicar ferramentas de Data Mining a fim de encontrar padrões desconhecidos e que possam servir para melhor classificação dos clientes. Outra tarefa que também carece ser desenvolvida é a integração dos resultados com um sistema para classificação do segurado de forma online, onde seria possível o preenchimento dos dados do segurado e do veículo, e através dessas informações o sistema informar o valor do seguro. 44 8. REFERÊNCIAS BIBLIOGRÁFICAS CELEDO, Consultoria. Fundamentos de Business Intelligence. Disponível em: <http://celedo.com.br/portal/index.php>. Acesso em: 27 fev. 2010. DATE, C. J.; SOUZA, Vandenberg Dantas de. Introdução a Sistemas de Bancos de Dados. 7. ed. Rio de Janeiro: Campus, 2000. 803 p. HOUAISS: Dicionário Eletrônico da língua portuguesa. Versão 2.0a. Rio de Janeiro: Editora Objetiva. 2007. IBM. Business Intelligence. Disponível em: businessintelligence>. Acesso em: 26 fev. 2010. <http://www-01.ibm.com/software/data/ MICROSOFT. Soluções de BI Microsoft. Disponível em: <http://www.microsoft.com/brasil/ servidores/bi/default.aspx>. Acesso em: 26 fev. 2010. MICROSTRATEGY. Business Intelligence Software Solutions. <http://www.microstrategy.com.br>. Acesso em: 26 fev. 2010. NEXT GENERATION CENTER. Business Intelligence. <http://www.nextgenerationcenter.com>. Acesso em: 20 fev. 2010. Disponível Disponível em: em: OLIVEIRA, João Lúcio de. Sistema de Business Intelligence: Sistema de apoio a gestão para tomadas de decisões inteligentes. 2009, 40 f. Trabalho de Conclusão de Curso Administração de Sistemas de Informações, Centro Universitário Una, Belo Horizonte, 2008. OLIVEIRA, Sue Ellen Munhoz de. Business Intelligence utilizada na alavancagem da força de vendas no setor industrial de misturas prontas para panificação. 2009, 40 f. Trabalho de Conclusão de Curso – Sistemas de Informação, Faculdade Anhanguera de Jundiaí, Jundiaí, 2009. ORACLE. Oracle Enterprise Performance Management and Business Intelligence. Disponível em: <http://www.oracle.com>. Acesso em: 26 fev. 2010. PRIMAK, Fábio Vinícius. Decisões com B.I.: Business Intelligence. 1. ed. Rio de Janeiro: Editora Ciência Moderna, 2008. 152 p. 45 REZENDE, Denis Alcides; ABREU, Aline França. Tecnologia da informação aplicada a sistemas de informação empresariais: o papel estratégico da informação e dos sistemas de informação nas empresas. 5. ed. São Paulo: Atlas, 2008. 303 p. SEGS. Portal Nacional de Seguros, Saúde, Informática & TI. Disponível em: <http://www.segs.com.br/index.php>. Acesso em: 25 jul. 2010. SILBERSCHATZ, Abraham; KORTH, Henry F.; SUDARSHAN, S. Sistema de Banco de Dados. 5. ed. São Paulo: Campus, 2006. 808 p. SINGH, Harry S. Data Warehouse: conceitos, tecnologias, implementação e gerenciamento.1 ed. São Paulo: Makron Books, 2001. 382 p. SOUZA, Gisele Paola de; ROCHA, Kátia Regina da; SAMPAIO, Rafaela Girotte. Utilização de técnicas de data mining para análise de crédito em instituições financeiras. 2007, 56 f. Trabalho de Conclusão de Curso – Ciência da Computação, Faculdade Politécnica de Jundiaí, Jundiaí, 2008. SULAMÉRICA. Visão Geral do Setor de Seguros. <http://www.sulamerica.com.br>. Acesso em: 05 mar. 2010. SUSEP. Superintendência de Seguros <http://www.susep.gov.br>. Acesso em: 05 mar. 2010. Privados. Disponível Disponível em: em: