Capítulo 1 Introdução O que é Data Mining? Produzir conhecimento novo escondido em grandes bases de dados A coleta de dados (transações bancárias, registros de compras, perfil de uso da internet, integração das informações de diversos sistemas, código de barras, via sensores remotos (sistemas fotográficos ou óptico-eletrônicos capazes de detectar e registrar, sob a forma de imagens ou não, o fluxo de energia radiante refletido ou emitido por objetos distantes), satélites, processamento analítico on line (OLAP), documentos), tem atingido grandes proporções acarretou problema na área do conhecimento novo ramo do conhecimento (KDD – Knowledge Discovery in Databases), o qual visa otimizar e automatizar o processo de descrição das tendências e dos padrões contidos neste processo, potencialmente úteis e interpretáveis. 1 Os dados: • Os dados geralmente originam-se de diversas fontes, e combinando-se as informações destas pode-se encontrar “algumas coisas” novas e não triviais, usuais. • A necessidade por informações melhores e rápidas, tem gerado grande interesse na construção de data warehouse capazes de trabalhar rapidamente em conjunto e fornecer as informações necessárias de forma prática (úteis). • Um conjunto de dados típico apresenta milhares de observações. • Uma observação pode representar um consumidor, uma transação específica, ou um chefe de família. • Como estas informações são utilizadas depende das questões de interesse da pesquisa. • Os arquivos de dados contém informações específicas (variáveis) sobre cada observação tais como informações demográficas, histórico de vendas, informações financeiras. • Bases de dados: relacional, data warehouse, transacional, orientado a objetos, espaciais, séries temporais, textos, multimedia (imagem, vídeo, áudio). 2 Padrão: Um evento ou combinações de eventos numa base de dados que ocorre com mais freqüência do que esperamos. Significa que sua ocorrência é significativamente diferente do que se esperaria devido ao acaso. Padrões são guiados pelos dados e geralmente refletem os próprios dados; Exemplo: se “salário < T, então a pessoa não efetuou o pagamento” pode ser um padrão para uma escolha adequada de T. Úteis: Representa o grau de utilidade de um padrão, isto é, até que ponto a descoberta ajuda a responder os objetivos inerentes ao processo de KDD. Interpretáveis: Um dos objetivos do KDD é gerar padrões compreensíveis para os analistas na perspectiva de um melhor entendimento dos dados. Válidos: Para dados novos ou arquivo de teste com certo grau de certeza. Novo, desconhecido: Especialmente no sentido de interessante, não usual. 3 A extração de conhecimento de bases de dados é um processo complexo e, ainda hoje, muito dependente da experiência e do trabalho do analista (formulação do problema, preparação dos dados, análises e interpretações dos resultados, avaliações). É indispensável a presença do mesmo. É atribuído às máquinas a responsabilidade de manipular conjuntos de dados, procurando sempre de maneira eficaz, padrões que satisfazem os problemas apresentados. Utiliza-se um conjunto de técnicas estatísticas e de inteligência artificial. Data Mining se relaciona com a análise de dados e o uso de ferramentas computacionais (softwares) na busca de características, regras e regularidades em um grande conjunto de dados. A interdisciplinaridade da técnica Data mining é, também, uma área interdisciplinar, envolvendo banco de dados, técnicas de estatísticas, redes neurais, de aprendizado de máquinas, de reconhecimento de padrões e de visualização de dados. 4 Estatística Banco de dados Outras Disciplinas Mineração de dados Visualização Inteligência Artificial (Redes Neurais) 5 Capítulo 2 Observando e Aprendendo Exemplo: um proprietário de uma pequena loja de vinhos conhece tudo sobre vinhos, por exemplo, o tipo de uva, a região onde a uva foi cultivada, o clima, o solo, a altitude dos parreirais, aroma, sabor, cor, o processo de fabricação. Os clientes gostam de visitar sua loja pois, também, aprendem muito sobre vinhos. Porém, só isto não basta, o proprietário precisa conhecê-los, como por exemplo, qual o tipo de vinho que o cliente gosta? Qual o poder aquisitivo? Assim, ele poderá dar um atendimento diferenciado (um a um) aos clientes. Temos, portanto, duas necessidades: conhecimento e aprendizado Uma pequena loja poucos clientes atendimento personalizado Uma grande empresa milhares de clientes dificuldade em dar um atendimento dedicado 8 Qual a tendência nos dias atuais? Ter clientes leais, através de um relacionamento pessoal, umpara-um, entre a empresa e o cliente. Dentro desta tendência, as empresas desejam identificar os clientes cujos valores e necessidades sejam compatíveis com o uso prolongado de seus produtos, e nos quais é válido o risco de investir em promoções com descontos, pacotes, brindes e outras formas de criar essa relação pessoal. Esta mudança de foco requer mudanças em toda a empresa, mas principalmente nos setores de marketing, vendas e atendimento ao cliente. 9 Memória e Inteligência Na pequena empresa, o proprietário com sua inteligência e memória aprende, conhece o cliente. 10 Data Warehouse: a memória da empresa Para criar relações um-para-um em uma grande empresa, o proprietário humano precisa ser substituído por uma máquina capaz de tratar grandes números, o computador. A memória do proprietário é substituída por um grande banco de dados denominado de Data Warehouse, enquanto a capacidade de aprendizado é substituída por técnicas de inteligência artificial e estatística genericamente denominadas de Data Mining (Mineração de Dados). Diariamente gera-se dados, por exemplo, considere que gera-se e armazena-se atributos tais como: o número do telefone, a duração da chamada telefônica, o número do cartão de crédito, o endereço da entrega, o produto escolhido, renda do consumidor, escolaridade do consumidor, gasto com lazer, etc. Certamente, só armazenar dados não significa aprender sobre o cliente. 11 Dados armazenados Fonte de informações preciosas para a empresa 12 Data Mining: a inteligência da empresa Para o aprendizado ocorrer, uma série de informações de diferentes formatos e fontes precisa ser organizada de maneira consistente na grande memória empresarial denominada data warehouse. Após isto, métodos de análise estatística e inteligência artificial precisam ser aplicados sobre esses dados e relações novas e úteis à empresa devem ser descobertas, ou seja, os dados devem ser minerados (data mining). A mineração dos dados consiste mais especificamente em descobrir relações entre produtos, classificar consumidores, prever vendas, localizar áreas geográficas potencialmente lucrativas para novas filiais, inferir necessidades, entre outras. Definição de data mining Uso de técnicas, preferencialmente automáticas, de exploração de grandes quantidades de dados de forma a descobrir novos padrões e relações que, devido ao volume de dados, não seriam facilmente descobertos a olho nú pelo ser humano (Carvalho, 2001). 13 Data Warehouse Data Mining Na grande empresa, a memória é o data warehouse, enquanto a inteligência é o data mining 14 Alguns resultados do data mining numa empresa: melhor relação entre empresa e cliente aumenta as vendas dirige as estratégias de marketing diminuir custos operacionais Áreas de aplicação: Medicina Agronomia Economia Administração Geologia Outros. É indispensável a presença de um analista com conhecimento profundo da área de estudo. 15 Motivação: O volume de dados armazenados atualmente é muito grande Data mining é uma técnica aplicável a grandes bancos de dados. Estes são necessários para construir e treinar modelos que serão utilizados para realizar alguma tarefa de data mining. Exemplo: empresas de telefonia, cartões de crédito, bancos, televisão por assinatura, comércio eletrônico e outros. Os dados estão sendo organizados Com a tecnologia data warehousing os dados de várias fontes estão sendo organizados e padronizados de forma a possibilitar sua organização dirigida para o auxílio à decisão. As técnicas de data mining necessitam de bancos de dados limpos, padronizados e organizados. Os recursos computacionais possuem grande capacidade Algoritmos computacionalmente intensivos (processos iterativos). Preços de memória, discos, etc. estão diminuindo. A competição empresarial exige técnicas mais modernas de decisão Programas de data mining já podem ser adquiridos 16 Algumas aplicações de data mining 1. O governo dos EUA se utiliza do data mining já há bastante tempo para identificar padrões de transferências de fundos internacionais que se parecem com lavagem de dinheiro do narcotráfico. Data mining usado para identificar fraudes. 17 2. Supermercados apresentam ofertas aos clientes que se cadastram, fornecendo informações importantes sobre suas vidas financeiras e preferências. A partir de então, esses dados são cruzados com suas compras mês a mês e as informações sobre compras casadas e nível de consumo são utilizadas para organizar as prateleiras de melhor forma a propiciar compras casadas, além de oferecer brindes e descontos personalizados. Esses supermercados vendem suas informações para que outras empresas façam propaganda e ofertas apropriadas para os clientes 18 cujos dados foram minerados. 3. Com dados de clientes, é possível definir hábitos de consumo e prever necessidades de outras classes sociais em outras cidades (community knowledge). Por exemplo, podemos realizar uma pesquisa como perguntar ao cliente que tipo de filmes e músicas ele gosta e, baseado nesses dados, extrapolar e classificá-lo em certa categoria de consumo e preferência. A partir daí, ofertas podem ser dirigidas a ele, pois seu perfil está enquadrado pelo data mining. 19 4. Vendas cruzadas podem ser realizadas com facilidade se um banco de dados com informações sobre o passado do cliente existir. Sabendo das necessidades e gostos do cliente, novos produtos podem ser oferecidos pela empresa, mantendo a fidelidade do cliente que não precisa ir buscar o produto em outro local. 20 5. Devido a competição empresarial, clientes mudam de empresa com facilidade. O data mining pode ser usado para verificar por que os clientes trocam uma empresa por outra e oferecer serviços, vantagens e ofertas que evitam essa fuga de clientes. Com o data mining, pode-se localizar que oferta fazer a que cliente para mantê-lo na empresa, ou mesmo localizar os clientes que podem sair da empresa sem representar prejuízo. 21 6. Na medicina já é possível a criação e manutenção de grandes bancos de dados com informações sobre sintomas, resultados de exames, diagnósticos, tratamentos e curso das doenças para cada paciente. A mineração desses dados pode fornecer conhecimento novo, como, por exemplo, a relação entre algumas doenças e certos perfis profissionais, sócio-culturais, hábitos pessoais e local de moradia. Essas relações são usadas para melhor entendimento das doenças e seus tratamentos. 22 7. Com o uso de data mining na sua base de dados, você pode construir modelos preditivos (Predictive Modeling Techniques: Regression Models, Decision Trees, Neural Networks), que mostram consumidores que estão sob risco, ou seja, estão na eminência de mudar para uma empresa competidora. Por exemplo, empresas de telefones celulares, cartões de créditos. 8. Internet - Identificação de determinados padrões em home pages, busca e agrupamento de documentos. 23 9. Marketing e comércio - Identificação do comportamento de compra dos clientes, predição de respostas para campanhas de marketing, determinação de associações entre itens comprados e entre características demográficas dos clientes. 24 10. Seguros e Planos de saúde - Predição de quais clientes ou grupos de clientes comprariam novas apólices de seguro, ou planos de saúde, identificação de clientes/pacientes de risco, identificação de clientes ou sinistros fraudulentos, verificação de quais procedimentos médicos e/ou odontológicos são utilizados conjuntamente. 25 11.Setor bancário - Estudo do comportamento do uso de cartões de crédito para determinados grupos de clientes, detecção de cartões de crédito roubados, estudo do comportamento do uso de cartões de crédito roubados, identificação de clientes fiéis, detecção de correlações “escondidas” entre diferentes indicadores financeiros, credit scoring (concessão de crédito) e behaviour scoring (administração da carta de crédito) (relacionados à determinação do comportamento de clientes de risco). 12.Meio ambiente - determinação do impacto ambiental de instalação de fábricas em uma determinada região, 26 estudo de difusão de poluentes. 13. Crimes – causas sócio-econômicas e sua relação com o tipo de crime de acordo com a região de ocorrência. Se a ocorrência da criminalidade está associada com locais de consumo de bebidas alcoólicas, drogas. 27 14. Marketing direto. Imagine uma empresa que quer aumentar a venda de telefones celulares. Temos: 1. Através do histórico de compradores da empresa, pode-se criar duas classes: i) pessoas que já compraram pelo menos um telefone celular e ii) pessoas que nunca compraram este tipo de aparelho. 28 14. Marketing direto. Imagine uma empresa que quer aumentar a venda de telefones celulares. Temos: 2. Após define-se alguns atributos preditivos (classe social, estilo de vida, região demográfica, etc.). Assim, definese um conjunto de treinamento contendo dados de compradores e não compradores de celulares. 29 14. Marketing direto. Imagine uma empresa que quer aumentar a venda de telefones celulares. Temos: 3. Gera-se a árvore de classificação. Após esse passo a empresa poderá identificar novos clientes como potenciais compradores (ou não) de celulares, e de tempos em tempos formar uma base de clientes que devem receber mala-direta sobre promoção de celulares. 30 Capítulo 3 O Processo KDD Historicamente, a noção de encontrar padrões úteis em dados em seu estado bruto tem recebido diversos nomes, inclusive descoberta de conhecimento em base de dados (KDD – Knowledge Discovery in Database) Definição: KDD é a descoberta de novos conhecimentos, seja padrões, tendências, relações, associações, probabilidades ou fatos, que não são óbvios ou de fácil identificação. 31 As fases e os passos do processo KDD O processo KDD envolve duas grandes fases: 1. Preparação de dados 2. Mineração de dados Essas fases possuem vários passos, os quais envolvem um número elevado de decisões a serem tomadas pelo usuário, ou seja, é um processo interativo. É também um processo iterativo, pois ao longo do processo KDD, um passo será repetido tantas vezes quantas se fizerem necessárias para que se chegue a um resultado satisfatório. O processo KDD está representado na figura do próximo slide. 32 Assimilação (Conhecimento) ⃟⃟⃟⃟⃟⃟⃟⃟ °°°° °°°° °°°° °°°° Base de dados •••• •••• Padrões Dados transformados Dados processados Dados selecionados (a analisar) Preparação de dados Mineração de dados 33 Tríade: dados informação conhecimento 34 A fase de preparação dos dados Esta fase envolve seleção, pré-processamento e transformação dos dados. É uma etapa que exige bastante tempo, aproximadamente entre 60 e 80% do tempo utilizado em todo o processo, com a maior parte do tempo consumido com a limpeza dos dados. 1. O primeiro passo é a definição do problema ou do objetivo do trabalho, que é o conhecimento desejado pelo usuário final, ou seja, é definido o tipo de conhecimento que se deseja extrair do banco de dados. Exemplo: o departamento financeiro de uma grande loja de vestuário, notou pelos seus bancos de dados, que o faturamento sofreu uma queda significativa nos últimos meses. Isto ocorreu pela queda das vendas em suas lojas que estão espalhadas por todo o país. Uma análise humana simples constatou que a queda das vendas se deu em quase todas as regiões do país com predominância nas regiões Sudeste, Nordeste e Norte. Esta é a primeira fase do data mining: a definição do problema ou, a definição de um objetivo a ser alcançado (questões importantes). Algumas soluções propostas pelos diversos departamentos da empresa foram: O setor de marketing poderia desenvolver uma campanha publicitária; O setor de crédito pessoal proporia aumentar a oferta do cartão de crédito 35 O setor de planejamento sugestionaria uma mudança no formato da rede, tornando suas lojas mais atrativas com novos layouts; O setor de vendas poderia propor um serviço de mala direta com o envio de catálogos periódicos. Todas estas propostas custam muito dinheiro e possuem a característica de não atacarem o problema causador da queda das vendas que, por enquanto, é desconhecido por nós. 2. O segundo passo é a criação de um conjunto de dados-alvo, ou dados selecionados. Nesta fase, seleciona-se um conjunto de dados ou focaliza-se em um subconjunto de atributos (variáveis) ou de instâncias de dados, em que a descoberta deverá ser efetuada. Certamente a seleção dos dados vai variar de acordo com os objetivos do trabalho. As variáveis selecionadas podem ser de dois tipos: qualitativas (categorizadas) ou quantitativas. As variáveis qualitativas referem-se a uma qualidade, a um atributo e assumem valores finitos, diferem na forma, e podem ser nominais ou ordinais. As variáveis qualitativas ordinais apresentam, como o próprio nome indica, um ordem entre os possíveis valores, por exemplo, grau de instrução (primeiro grau, segundo grau, superior) e escore de crédito pessoal (ruim, regular, bom). Quando uma variável qualitativa não apresentar esta ordenação, temos uma variável nominal, por exemplo, estado civil (casado, solteiro, divorciado, desconhecido), sexo (masculino, feminino). 36 As variáveis quantitativas assumem valores numéricos e podem ser do tipo contínua (os possíveis valores são os números reais), por exemplo, receita, taxa, salários, e discretas (os possíveis valores fazem parte de um conjunto finito ou infinito numerável), por exemplo, número de empregados, número de filhos de uma família. Esquematicamente, temos: ordinal Qualitativas nominal Variáveis Quantitativas discreta contínua As variáveis selecionadas para data mining são denominadas de variáveis ativas uma vez que elas são ativamente usadas para distinguir segmentos, fazer predições ou desenvolver outras operações específicas de data mining. Muitas vezes, o sucesso desse processo depende da correta escolha dos dados que formam o conjunto de dados-alvo. Para isso, são usadas técnicas, linguagens, ferramentas e comandos convencionais de bancos de dados, como o SQL. É difícil fazer-se uma boa seleção das variáveis de entrada sem se ter um bom conhecimento do problema em estudo. 37 3. O terceiro passo é a limpeza e o pré-processamento dos dados. As grandes bases de dados são altamente susceptíveis a ruídos (outliers), valores faltantes e inconsistentes. Dados limpos e compreensíveis são requisitos básicos para o sucesso da mineração dos dados. O pré-processamento dos dados tem por objetivo assegurar a qualidade dos dados selecionados. Esta fase inicia-se com uma revisão geral da estrutura dos dados e algumas medidas de sua qualidade (mínimo, máximo, média, mediana, desvio padrão). 38 Isto pode ser feito utilizando-se uma combinação de métodos estatísticos e técnicas de visualização (Análise Exploratória de Dados)(ver capítulo 10 de Diniz e Neto, 2000). Para entender os dados, no caso de variáveis categorizadas, podemos construir as distribuições de freqüências dos valores e/ou utilizar ferramentas gráficas, como, por exemplo, gráficos de setores, colunas, etc. Da mesma forma, conhecimento sobre os possíveis níveis das variáveis categorizadas pode ajudar a detectar entrada errônea de dados e outras anomalias. No caso de variáveis quantitativas, também podemos construir as distribuições de freqüências (tabelas, histograma, polígono de freqüência) para entender as variáveis. Úteis para verificar a assimetria da distribuição. Uma forma de verificar a presença de dados inválidos (incoerentes ou outliers) é através do cálculo de estatísticas (valores mínimo e máximo, média, mediana, quartis, desvio padrão amostral). O box plot e diagrama de dispersão são ferramentas gráficas extremamente úteis no caso de variáveis quantitativas. Os box plots podem ser usados para comparação de várias distribuições, inclusive comparar médias ou desvio padrão de duas ou mais variáveis, enquanto o diagrama de dispersão é um gráfico simples, bidimensional, que representa a relação entre duas variáveis contínuas. (ver capítulo 10 de Diniz e Neto, 2000). Dados com erros (valores discrepantes), registros repetidos e valores faltantes (missing values) são problemas que naturalmente são resolvidos no passo pré-processamento dos dados. 39 Valores que são significativamente fora do esperado são denominados de valores discrepantes ou, em inglês, outliers. Os outliers podem indicar uma boa ou má notícia. Uma boa notícia se indicarem uma nova tendência de resultados para as variáveis em questão e uma má notícia se realmente forem dados inválidos. Um tipo comum de outlier é devido a erro humano, como um registro de compra da ordem de milhões de reais. Estes registros devem ser corrigidos se valores razoáveis ou válidos estão disponíveis, caso contrário, estes registros devem ser excluídos da análise. Outro tipo de outlier é criado quando alguma mudança no sistema operacional ainda não tenha sido refletida no ambiente da mineração de dados. Por exemplo, novos códigos de produtos, que aparecerão no ambiente como sendo outliers. Neste caso deve-se atualizar o sistema. Regressão: Os valores discrepantes (outliers) podem ser substituídos através do ajuste de uma função matemática aos dados. Médias móveis (página 110 do livro de HAN & KAMBER) Dados incoerentes podem ser corrigidos manualmente usando referências externas. Pode haver incoerências devido a integração dos dados, onde um determinado atributo pode receber diferentes nomes em diferentes bases de dados. 40 Os valores missing incluem os valores que simplesmente não estão presentes no conjunto selecionado e os valores inválidos que foram eliminados durante a detecção de outliers. Os valores missing podem ocorrer devido a erros humanos, ou porque a informação não está disponível no momento do levantamento dos dados, ou quando os dados são selecionados considerando-se diferentes origens, gerando informações contraditórias. Uma forma de tratamento de valores missing é eliminar todo o registro (toda a linha), ou coluna (campo) de observações que contenha valores faltantes. Isto é simples porém há perda de informação. A decisão de eliminar observações ou variáveis não é fácil. Existem técnicas que podem ser usadas para substituir os valores missing. Para variáveis quantitativas , a mais simples, é o uso da média. Para variáveis categorizadas, pode-se utilizar um novo atributo para a variável, como por exemplo, usar a denotação: Desconhecido. Use a média da variável para todas as amostras pertencentes a mesma classe. Por exemplo: numa classificação dos consumidores de acordo com o risco de crédito, substitua os valores missing, com o valor médio do rendimento na mesma categoria de risco. Use o valor mais provável para preencher os valores missing. Técnicas mais avançadas, para ambos os tipos de variáveis, como modelos de predição (análise de regressão, árvores de decisão) e técnicas de imputação, estão também disponíveis. Por exemplo: usando os outros atributos dos consumidores do seu arquivo de dados, você pode construir uma árvore de decisão para predizer o valor faltante para rendimento. 41 4. O quarto passo é a redução e transformação de dados. Um dos objetivos principais da transformação de dados é converter o conjunto bruto de dados em uma forma padrão de uso. Técnicas como discretização (converter variáveis contínuas em categorizadas e, após, em discretas), 1 a n (converte variáveis categorizadas em discretas) e técnicas de redução de dimensionalidade (combinar várias variáveis em uma única) são comumente usadas (Análise de Componentes Principais). Agregação, onde uma operação resumo é aplicada aos dados. Por exemplo: vendas diárias podem ser agregadas para calcular as vendas mensais, anuais. Transformação, onde os dados de um atributo são normalizados para cair dentro de uma faixa de valores, por exemplo, -1,0 a 1,0 ou, 0,0 a 1,0. Um método de normalização é o Normalização Min-Max. Por exemplo: suponha que os valores mínimo e máximo da variável rendimento são R$ 12,00 e R$ 98,00, respectivamente. Desejamos transformar a variável rendimento na faixa [0,0; 1,0]. Por este método, um valor de rendimento igual a R$ 73,6, transforma-se em: 73,6 12,0 1,0 0,0 0,0 0,716 v 98,0 12,0 ' 42 “Alisamento”, usada para remover valores discrepantes (análise de regressão). Construir novas variáveis a partir de um conjunto de outras variáveis. Exemplo de transformação: números inteiros passar para proporção; números inteiros grandes, fazer transformação logarítmica. Muitas vezes a base de dados usada apresenta muitas variáveis (centenas), porém poucas são utilizadas para a decisão, ou seja, muitas são irrelevantes ou redundantes. Deve-se ter o cuidado para que apenas as variáveis irrelevantes sejam retiradas da base de dados. Métodos para selecionar subconjuntos de variáveis: 1) Métodos automáticos: a) Forward stepwise; b) Backward stepwise e) Combinação de forward selection e backward elimination. 2) As árvores de decisão também são utilizadas para seleção de variáveis. Todas as variáveis que não aparecem na árvore são consideradas irrelevantes. O conjunto de variáveis que aparecem na árvore formam o conjunto de variáveis selecionadas. 43 A fase de mineração dos dados 1. Num processo de data mining, a linha mestre é o objetivo a ser alcançado. Portanto, não devemos esquecer que temos um problema que exige uma solução ou um objetivo a ser alcançado. Reporte-se ao exemplo do item 1 da fase de preparação dos dados. Para que a mineração de dados tenha sucesso, precisamos saber quais resultados ela deve produzir. Algumas questões de interesse podem ser: Preparação para a introdução de um produto novo Planejamento de uma campanha de marketing Entendimento dos “atritos” com consumidores Avaliar os resultados de um teste de marketing 2. Descoberta do conhecimento. Esta é a fase de mineração dos dados, que é caracterizada pela busca de padrões de interesse em uma forma particularmente representativa ou em um conjunto dessas representações. Esta é a fase de descoberta de novas relações, não identificáveis a olho nú, mas que podem ser visualizadas com Técnicas de Inteligência Artificial e Técnicas Estatísticas, por meio de uma análise sistemática e exaustiva sobre, por exemplo, os milhares de registros de clientes nos bancos de dados da empresa. 44 Continuando com o exemplo, uma análise preliminar sobre as séries temporais das vendas da empresa, feita globalmente para toda a rede, por região e por ponto de venda, constatou que a queda das vendas se deu em quase todas as regiões do país com predominância nas regiões Nordeste e Norte. Outra análise mais aprofundada buscou encontrar pontos comuns entre os dados das vendas de cada uma das regiões, concluindo que a queda do volume de vendas das regiões Norte e Nordeste se deu a partir, aproximadamente, do mês de julho, recuperando-se um pouco a partir do mês de outubro, mas ainda assim permanecendo, daí para frente, em níveis mais baixos. Enquanto a queda das vendas nas regiões Sudeste e Sul não foi tão acentuada, porém progressiva ao longo de todo o ano. Outra nova relação descoberta foi a diminuição das vendas nos cartões de crédito da financiadora da empresa, em todas as regiões do país. Uma análise mais aprofundada por data mining desta nova relação permitiu visualizar um elemento comum entre os clientes que deixaram de comprar no cartão de crédito, a saber, um alto percentual de reclamações desses clientes no serviço de atendimento ao cliente. 45 3. Análise das relações descobertas. Terminada a fase de mineração de dados inicia-se a fase de análise das descobertas. Esta etapa é desenvolvida pelo raciocínio do analista (especialista da área). É possível que se retorne a alguma fase anterior para maior documentação ou interação. A questão é como incorporar informação nos negócios, portanto, as análises das relações descobertas são parte do processo de mineração de dados. Da análise das novas descobertas pelo data mining, concluiu-se que dois fatores sobrepostos determinaram a queda das vendas. Em primeiro lugar, a ocorrência de um inverno muito brando no ano considerado, não tendo a empresa oferecido opções de vestuário mais leve em sua rede, isto seria fundamental para as regiões Norte e Nordeste. A nova relação descoberta de que as vendas nos cartões de crédito da rede caíram progressivamente ao longo do ano representa o segundo fator que se sobrepõe ao primeiro, piorando ainda mais as vendas nas regiões Norte e Nordeste e diminuindo, menos acentuadamente, as vendas nas regiões Sul e Sudeste. 46 4. Consolidação ou uso das relações descobertas. Decisões são tomadas de forma a utilizar da melhor forma possível as relações fornecidas pela mineração de dados. É possível gerar um plano de ações necessário para viabilizar a efetiva aplicação do conhecimento gerado no problema definido na área a qual foi proposta inicialmente. Geração de relatórios para as partes interessadas. Verificação e resolução de potenciais conflitos gerados pelo conhecimento obtido. Continuando com o exemplo, um possível uso das relações descobertas poderia ser a oferta de vestuário mais leve em conjunto com vestuário apropriado ao inverno em todas as lojas da rede nos meses de julho a setembro e não a fixação de todo o vestuário à estação do ano, como fora realizado. 5. Avaliação (mensuração) dos resultados. Só após uma avaliação criteriosa podemos realmente afirmar que as causas do problema foram sanadas ou o objetivo da empresa alcançado. Continuando com o exemplo, sem uma análise por data mining, a empresa teria possivelmente investido em algumas soluções genéricas apresentadas por cada um dos setores da empresa. Esse investimento traria retorno com o aumento de vendas, porém a real causa da evasão da clientela não teria sido resolvida e o risco de novas evasões estaria sempre presente. 47 As etapas de data mining Definição do problema ou objetivo Análise dos resultados Aplicação das relações descobertas Data Mining Análise das relações descobertas 48 Retorno Se, após a avaliação dos resultados, novos objetivos precisam ser definidos, ou as soluções propostas não são eficientes, deve-se voltar à primeira fase do processo iniciando, assim, um processo iterativo de trabalho, como é de praxe na aplicação do método científico. 49 Capítulo 4 As Tarefas e Técnicas de Data Mining Este capítulo dá uma visão das tarefas na perspectiva dos problemas e desafios em data mining. As técnicas são de caráter genérico e podem ser implementadas por meio de ferramentas diferentes, como Inteligência Artificial e Métodos Estatísticos. Seis tarefas de data mining são as mais utilizadas: 1. Classificação 2. Estimação 3. Previsão e Predição 4. Análise de afinidade 5. Análise de agrupamento 6. Descrição Geralmente, num mesmo problema, são usadas várias técnicas. A familiaridade com as técnicas é necessário para resolver os problemas de data mining. 50 Classificação Associa ou classifica um item (registro) em uma ou várias classes prédefinidas. O ser humano está sempre classificando o que percebe à sua volta: • criando classes de relações humanas diferentes, aí temos, por exemplo, colegas de trabalho, amigos, familiares, e dando a cada classe uma forma diferente de tratamento; • definindo classes sociais No data mining são comuns as tarefas de classificação de clientes em baixo, médio ou alto risco de empréstimo bancário; de clientes potencialmente consumidores de um determinado produto a julgar pelo seu perfil; de transações financeiras como legais, ilegais ou suspeitas; de ações da bolsa de valores com lucros baixos, médios e altos. Ferramentas (técnicas) mais utilizadas: Redes Neurais artificiais, Árvores de decisão(CHAID, CART, C4.5, ID3) Estatística (Análise discriminante, Regressão logística) 51 Exemplo: Uma base de dados relativa a empréstimos pessoais. O tipo de conhecimento que se deseja extrair desses dados é como identificar os mutuários negligentes. Um especialista considerou que as variáveis (atributos) mais representativos do conhecimento desejado são: salário, débito e regularidade de pagamento. Veja figura composta de 14 mutuários. Cluster x Débitos x x Rede x x x x Regressão neural x Em dia Débito com pagamento Salários 52 Na figura tem-se uma partição simples dos dados em duas regiões distintas de classes. Caso o banco queira usar a região de classificação para uma decisão automática de futuros empréstimos, a decisão linear não é considerada uma perfeita separação das classes. Classificar um objeto é determinar com que grupo de entidades, já classificados anteriormente, esse objeto apresenta mais semelhança 53 Estimação Dado alguns valores de entrada (variáveis explicativas) usamos a estimação para retornar (obter) um valor para alguma variável desconhecida, tal como: rendimento, altura, saldo do cartão de crédito. Estimar a probabilidade de um paciente sobreviver, dado o resultado de um conjunto de diagnósticos de exames; estimar a probabilidade de um consumidor realizar uma compra. A arte de estimar é exatamente esta: determinar da melhor maneira possível um valor médio baseando-se em outros valores de situações idênticas, mas nunca exatamente iguais. Ferramentas mais utilizadas: Redes Neurais artificiais, Algoritmos genéticos, Estatística (intervalos de confiança, intervalos de estimação (regressão)). 54 Estimar uma grandeza é avaliá-la tendo como base casos semelhantes nos quais essa grandeza esteja presente 55 Previsão e Predição A técnica de previsão resume-se na avaliação do valor futuro de algum índice, baseandose em dados do comportamento passado deste índice (Modelo de série temporal). A técnica de predição resume-se na avaliação de um novo registro (para este particular registro), para uma variável de interesse, em função de várias outras variáveis de entrada. Exemplo: 1) determinar se o índice Bovespa subirá ou descerá amanhã; 2) qual será a população de uma cidade daqui a 5 anos; 3) predição de quais consumidores deixarão (abandonarão) dentro dos próximos seis meses; 4) Predizer a demanda do consumo de um novo produto em função da despesa feita. A previsão consiste na determinação do futuro de uma grandeza Ferramentas mais utilizadas: Redes neurais artificiais para séries temporais, Árvores de decisão, Estatística (Regressão linear múltipla, Regressão logística binária). 56 Análise de Afinidade (Associação) (Market Basket Association Analysis) O exemplo mais fácil é o do carrinho do supermercado do qual se pode extrair muita informação sobre que produtos os consumidores compram em conjunto com grande chance. Dos modelos obtidos da análise de afinidade, podem-se extrair “regras” que regem o consumo de alguns itens. A análise de associação gera redes de interações e conexões presentes nos conjuntos de dados usando as associações item a item. Onde por associação item a item entende-se que a presença de um item implica necessariamente na presença de outro item na mesma transação. Considere um banco de dados de compras, onde cada compra (transação) consiste de vários artigos (itens) comprados por um consumidor. A aplicação de técnicas de análise de associação neste conjunto de transações pode revelar afinidades entre uma coleção de itens. Estas afinidades entre itens são representadas por regras de associação. Uma regra expõe, em forma textual, quais itens implicam a presença de outros itens. 57 O objetivo da análise de afinidade é encontrar quais produtos ou serviços os consumidores buscam conjuntamente. Um mercado de vendas à varejo pode dispor os produtos vendidos conjuntamente no mesmo corredor; Um comerciante da web pode usar a análise de afinidade para determinar o layout do seu catálogo; Bancos e companhias telefônicas podem usar análise de afinidade para determinar quais novos produtos oferecer para seus consumidores preferenciais. A análise de afinidade preocupa-se em descobrir que elementos dos eventos têm relações no tempo Ferramentas mais utilizadas: Regras de associação. 58 Análise de Agrupamento (Cluster Analysis) Um banco coleta e mantém um grande banco de dados sobre atributos de correntistas, tais como, conta corrente, poupança, depósitos, empréstimos e cartão de crédito. Baseado nestes atributos (variáveis), o banco desejaria segmentar os correntistas em grupos: ativo, moderado e passivo, baseado em dados dos últimos três anos. A divisão de marketing usa a segmentação dos clientes para definir estratégias diferenciadas para os vários grupos (cluster). 59 Empréstimo x x Cluster 1x xx Ativo x x x x Cluster 2 - xx x x x x x x x Cluster 3 Passivo Moderado Saldo conta corrente Agrupar é simplesmente classificar uma massa de dados em classes desconhecidas a priori em número ou forma. Uma tarefa é, dadas várias categorias ou classes conhecidas, dizer a qual delas um certo dado pertence; outra tarefa semelhante em objetivo, porém muito mais complexa, é, de posse de uma massa de dados, dizer em quantas classes esses dados se distribuem e como são essas classes. Dada uma massa de dados sobre o consumo no Brasil, determinar quantas classes ou padrões de comportamento consumista existem. 60 De fato pode não haver tais classes no base de dados, não sendo possível caracterizar os grupos. Na análise de agrupamentos, os grupos ou classes são construídos com base na semelhança entre os elementos, cabendo ao analista das classes resultantes avaliar se estas significam algo útil. Exemplo de sintomas e doenças, onde várias doenças apresentam os mesmos sintomas. A análise de agrupamentos é normalmente uma técnica preliminar utilizada quando nada ou pouco se sabe sobre os dados, como na metodologia da descoberta não supervisionada de relações. Segmentação de mercado é uma típica aplicação de análise de agrupamentos. Agrupar é, baseado em medidas de semelhança, definir quantas e quais classes existem em um conjunto de dados. Ferramentas mais utilizadas: Redes neurais artificiais (Kohonen Networks), Estatística (Análise de conglomerados (Cluster Analysis)) e Algoritmos genéticos. 61 Descrição Algumas vezes o propósito na realização de data mining é descrever o que está acontecendo numa base de dados, de forma que aumente o nosso entendimento (conhecimento) sobre os consumidores, produtos. Se fizermos uma boa descrição do comportamento facilitará encontrar uma explicação para o mesmo. 62 Implementação de um protocolo de mineração de dados Com o que já foi dito sobre as fases, os métodos e as tarefas de data mining, podemos esboçar um protocolo geral aplicável à maioria dos casos de mineração de dados, independentemente de suas áreas. Uma etapa importante para a mineração de dados é a preparação dos dados. Os dados a serem utilizados no data mining precisam ser preparados, pois as ferramentas de Estatística e Inteligência Artificial necessitam de dados em determinados formatos, completos e, de preferência, representativos do fenômeno em estudo. A fase de preparação envolve a seleção dos dados. Tanto a limitação da massa de dados (casos, observações, linhas) a ser explorada quanto a redução do número de variáveis (campos) consideradas na análise são fatores importantes para a eficiência e eficácia da mineração. Estes dois processos são realizados com base no conhecimento do analista ou com técnicas estatísticas. 63 Outra etapa importante da preparação de dados é a sua complementação. Num grande banco de dados é comum a presença de dados faltantes por falhas de digitação, erros de preenchimento de formulários, ou mesmo porque os registros pertencem a empresas ou épocas diferentes nas quais aquele dado em específico não era questionado ou considerado importante. Muitas ferramentas de data mining precisam de registros completos, com todos os dados. Para complementarmos os dados podemos simplesmente assumirmos um valor padrão. Outra forma melhor é utilizarmos a média dos demais registros. Finalmente, podemos usar uma ferramenta de inteligência artificial ou estatística para imputação de dados. A etapa de preparação de dados pode lidar ainda com processos de eliminação de registros cujos dados pareçam “errados” ou “não representativos” do fenômeno em estudo, além da eliminação de “ruído” que de alguma forma tenha sido adicionado ao dado. Aqui, também pode-se usar técnicas estatísticas e de inteligência artificial, como se fosse um data mining prévio ao data mining final. 64 Protocolo: 1. Definição do problema a ser estudado ou o objetivo a ser alcançado 2. Descoberta das relações pelo uso das técnicas de data mining 1. Nesta fase necessita-se de conhecimento das tarefas (classificação, agrupamento, predição, previsão, estimação, associação, etc.) aplicáveis e das ferramentas (regressão, cluster, árvores de decisão, redes neurais artificiais, análise de associação, etc.) capazes de realizá-las. 2. Após a escolha da tarefa e da ferramenta em função do problema estudado, é preciso realizar a etapa operacional de preparação dos dados 3. Após estas etapas inicia-se a aplicação do data mining propriamente dito e cujo resultado é um conjunto de relações “novas” descobertas automaticamente. 65 3. Análise das “novas” relações Nesta etapa os analistas estudam (explicam) as novas relações encontradas e seleciona aquelas relevantes 4. Aplicação das novas relações Escolhidas as relações consideradas “novas” e utilizáveis, a próxima etapa é sua aplicação, dependendo do objetivo do trabalho. Numa empresa, precisase de relações utilizáveis ou transformáveis em algum lucro ou eficiência. 5. Avaliação dos resultados Finalmente temos a etapa de avaliação na qual os resultados da aplicação, ou explicação, das novas relações escolhidas são contrapostos aos objetivos iniciais da primeira etapa. Eventualmente, retorna-se para a redefinição do problema. 66 Capítulo 5 A Metodologia de Data Mining Este capítulo está voltado à mineração de dados (análise dos dados) onde a informação resultante é usada para produzir conhecimento. 67 A metodologia de data mining Passar o problema real para um problema de data mining 1 2 Seleção de dados apropriados ao problema 10 Avaliar os resultados 3 Conhecer os dados 9 4 Por em prática os modelos Criar a base de dados 5 8 Resolver os problemas dos dados Avaliar os modelos 7 Construir modelos (MINERAÇÃO) Fonte: Berry & Linoff, 2004. 6 Transformação dos dados 68 A mineração de dados pode ser realizada de três diferentes formas, em função do nível de conhecimento que se tenha do problema estudado. I. Quando se possui um bom conhecimento sobre o campo de atuação da empresa ou alguma idéia concreta sobre que relação nova se está buscando, pode-se definir uma hipótese e verificar sua comprovação ou não comprovação por meio da metodologia de data mining. Hipótese: nós pensamos sobre possíveis explicações para o comportamento observado. Os dados a serem analisados devem ser escolhidos de acordo com estas hipóteses. 69 II. Se “nada se sabe” sobre o comportamento do fenômeno, podese simplesmente deixar as técnicas de data mining procurarem nos dados relações “novas” existentes, e que a olho nú não poderiam ser localizadas. Procura-se reconhecer padrões nos dados. Este método é chamado de descoberta não supervisionada de relações. Não há um campo target. Com a aplicação de um método não supervisionado de mineração podem surgir novas hipóteses a serem testadas. III. Quando se tem um nível maior de conhecimento da área e da relação que se deseja ajustar, procede-se com a descoberta supervisionada de relações ou modelagem de dados. Aqui, a tarefa é explicar o valor de um determinado campo (rendimento, idade, crédito (R$)) em termos de outros campos. Selecionamos o campo objeto (target) e o computador nos mostra como estimar, classificar, predizer, prever este campo. 70 Verificação de hipóteses O especialista que analisa as relações descobertas pode levantar alguma hipótese associada a elas, por exemplo, notando a preocupação dos consumidores de chocolate com sua estética e saúde, consumindo, assim, produtos dietéticos em quantidade razoável, pensa se não é também possível que esses consumidores se utilizem comumente de produtos de beleza. O teste da validade de uma hipótese é feita através da análise dos dados que podem ser obtidos através de levantamentos ou experimentos. O processo de teste de hipóteses (Referência: Berry & Linoff, 1997, pág. 65) 1. Passos do método para realizar um teste de hipótese: Formular as hipóteses (Gerar boas idéias); 2. Determinar quais os dados que vão permitir que esta hipótese seja testada; 3. Localizar os dados; 4. Preparar os dados para a análise (Resumo, valores inexistentes, inconsistências outliers, etc.); 5. Construir o modelo baseado nos dados; 71 6. Avaliar se o modelo confirma ou rejeita a hipótese. Comentários sobre os passos 1, 5 e 6. 1. Hipótese “Famílias com crianças matriculadas em séries mais avançadas apresentam maior probabilidade de responder a uma oferta de linha de internet” “Pessoas que viajam são menos sensíveis ao preço por minuto do telefone celular” 5. Construir o modelo Esta hipótese dever ser transformada num modelo estatístico ou computacional para que possa ser testada com dados reais. 6. Avaliar se o modelo confirma ou rejeita a hipótese Dependendo das hipóteses, e do modelo, pode ser feita através da interpretação de um único valor proveniente de uma única e simples pergunta, pode ser feito através de gráficos e estatísticas descritivas, pode ser feito através da interpretação de um conjunto de regras de associação gerada pela análise de cestas de compras (Market basket analysis), ou pela significância da relação encontrada por meio de um modelo de regressão, etc. 72 Descoberta de conhecimento supervisionada O analista poderia desejar conhecer melhor esse consumidor de chocolate, obtendo informações sobre seu nível sócio-econômico, pois seria interessante avaliar se ele consumidor possui condições de investir em chocolates finos, importados e mais caros, além dos nacionais. O analista, fazendo data mining nos seus dados, pode avaliar se a quantidade de consumidores deste tipo e seu poder aquisitivo compensariam que uma nova seção de chocolates importados fosse criada. Relações matemáticas entre os dados serão então criadas, permitindo que o analista verifique margens de lucros e previsões de vendas para esses consumidores de chocolate importado em função do seu perfil e poder aquisitivo. A modelagem matemática é caracterizada pela presença de uma única variável objetivo (target field) cujo valor deve ser predito em termos de outros campos da base de dados; um conjunto fixo de categorias nas quais os registros devem ser atribuídos (alocados); um relacionamento específico que desejamos explorar. 73 Procura responder questões como: quem é mais provável comprar um seguro? qual o lucro esperado para um novo consumidor? em qual categoria de atividade econômica (ativo....inativo) se enquadraria um correntista de um banco? Variáveis de entrada Modelo Saída Passos no processo de descoberta de conhecimento supervisionado 1. Identificar fontes de dados disponíveis. 2. Preparar os dados para a análise. 3. Construir e treinar modelos. 4. Validar o modelo. 74 1. É preciso ter dados bons para responder as questões. O ideal é ter um data warehouse (dados limpos e testados). Se são de diferentes fontes, devem ser integrados. As vezes é necessário pré-classificar os dados (fraude; não fraude). 2. Lidar com dados provenientes de diferentes (incompatíveis) arquiteturas; várias maneiras para representar a mesma coisa (F ou W para mulher); dados textuais com formato livre e dados incompletos ou nulos. Criação de novas variáveis, por exemplo, índice_obesidade=altura^2/peso. Dividir os dados em arquivos de treinamento, validação e teste. Treinamento: usado para construir um conjunto de modelos. Validação: é usado para escolher o melhor modelo. Verificar a sua qualidade, se o modelo vale a pena. Usado para monitorar e refinar o modelo. Exemplo: ajustar os pesos numa rede neural; verificar a poda numa árvore de decisão; resolver problemas de super treinamento. Teste: é usado para avaliar a performance do modelo com dados novos (dados ainda não visto pelo modelo). 75 3. Este passo depende da técnica a ser utilizada e será discutida nos próximos capítulos. O arquivo de treinamento é usado para gerar uma explicação da variável dependente (target) em termos de variáveis independentes (inputs). Pode ser feito por uma rede neural, regressão ou árvore de decisão. Problema de supertreinamento confrontar o modelo novo com o arquivo de validação (modificar os pesos numa rede neural. Poda numa árvore de decisão). 4. Considerando o modelo já testado, ainda não sabemos quão bem é o seu desempenho com dados novos (ainda não visto). Vamos usar o modelo no arquivo de teste. A taxa de erro no arquivo de teste é uma boa estimativa da taxa de erro com dados novos. 76 Descoberta não supervisionada de relações Neste caso não existe um compromisso com qualquer relação predeterminada, representando apenas uma observação exaustiva sobre os dados de forma a descobrirse uma relação nova e útil. Não se faz distinção entre variáveis respostas (variável objetiva, target) e preditoras. Os métodos mais comumente utilizados são os modelos de variáveis latentes, por exemplo, componentes principais e análise fatorial; análise de cluster (registros são agrupados se eles tem alguma coisa em comum) e cesta de compras (market basket analysis) (quais produtos vendem juntos?) Com a aplicação da técnica muitas relações novas surgem. Essas relações, são, então, analisadas por um especialista da área para realmente definir aquelas que são relevantes. Por exemplo: 1. Mulheres consomem mais chocolate que os homens; 2. Consumidores de chocolate consomem muitos produtos dietéticos. Assim, o gerente do supermercado poderia organizar melhor as prateleiras do estabelecimento, colocando os dois tipos de produtos próximos. 77 Passos no processo de descoberta de conhecimento não supervisionado 1. Identificar fontes de dados disponíveis. 2. Preparar os dados para a análise. 3. Construir e treinar modelos. 4. Validar o modelo. 5. Aplicar o modelo para dados novos. 6. Identificar potenciais variáveis targets para a descoberta de conhecimento supervisionado. 7. Gerar novas hipóteses para testes. 78 Comentários sobre os passos 6 e 7. 6. A análise não supervisionada é um campo fértil para gerar idéias que podem ser verificadas usando métodos diretos. Por exemplo, um resultado da análise de cestas de compras pode levar a questões: quem está comprando combinações particulares de produtos?, e quando as compras tendem a ser feitas?. 7. Por exemplo, da análise de agrupamentos, encontramos um cluster de adultos que tem visto muitos filmes de criança. Isto nos leva a suspeitar que os pais são um importante segmento da população que vão ao cinema. Para testar esta hipótese precisamos pegar mais dados. 79