Aplicações práticas da descoberta de conhecimento em BD Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações da Mineração de Dados Marketing e comércio Gerenciamento de relação com clientes • descrição multi-dimensional, agrupamento e classificação de clientes, associações entre produtos ou serviços, para otimização e personalização de: campanhas de propaganda e de promoções sugestões de produtos e serviços • mineração comparativa de evolução de compras, produtos ou serviços oferecidos e preços para: promover retenção de clientes definir política de preço altamente dinâmica (ex, passagem aérea) Marketing e comércio Gerenciamento de relação com clientes • ambos a partir de: Transações com cartões de fidelidade, de requisitos de programa a la carte (TV, vídeo, música), de reservas (passagens, hotéis, ingressos) Log de servidor Web para comércio eletrônico Finanças e segurança Serviços financeiros: • mineração de séries temporais de valores na bolsa para especulação • mineração de associação e grupos de valores para definição de portfolio de investimento e planos de aposentadoria • previsão de inadimplência para definir política de empréstimo Detecção de fraude: • descrição multi-dimensional e mineração de séries excepcionais de: uso de cartão de créditos para serviços financeiros pedidos de acesso a sites para segurança de sistemas transferências de fundos para lavagem de dinheiro sujo e sonegação de imposto chamadas para telecomunicações Finanças e segurança Detecção de tentativas de intrusão • mineração de padrões temporais de comandos de protocolos em arquivos de log de servidores • batch e tempo real Jogos, esportes e recursos humanos Jogos: • mineração de regras estratégicas e táticas a partir de BD de partidas (xadrez, futebol de robôs) Jogos, esportes e re-engenharia de organizações: • OLAP, agrupamento e mineração multi-dimensional de séries de resultados para identificar fatores internos (ex: composição do time, tática usada) e externos (ex: tipo de adversário, local do jogo) contribuindo a vitórias e a derrotas Jogos, esportes e recursos humanos Jogos de esportes virtuais, esportes e recrutamento: • previsão do desempenho e popularidade futura de atletas, artistas e funcionários para contratação e transferência Serviços de infra-estrutura: energia, água, transporte, telecomunicação, Internet descrição multi-dimensional e previsão comparativa de demanda e da capacidade das fontes ou equipamentos para: • planejar investimentos e otimizar rotas para evitar interrupção de serviços e congestionamento • definir vários níveis de qualidade de serviços, seus preços e seus clientes potenciais • detecção de fraudes Serviços de infra-estrutura: energia, água, transporte, telecomunicação, Internet previsão de falha de equipamento para definir política de prevenção de falha mineração de regras de diagnóstico para análise de falha Saúde Indústria farmacêutica: • previsão dos efeitos de um novo remédio composto a partir dos efeitos dos seus componentes em remédios testados Medicina e epidemiologia: • mineração de regras de diagnóstico • previsão de predisposição a doenças e resposta a tratamento • a partir de BD de órgãos de saúde (CDC, ministério da saúde) Saúde Pesquisa em genética e biologia molecular: • mineração comparativa de seqüências de genes em células sadias e doentes (adaptação da mineração de séries temporais para dados categóricos) • mineração de associações e grupos de genes baseada na sua co-ocorrência em várias classes de células • previsão da forma 3D de uma proteína a partir da sua seqüência de ácidos-amidos Conclusão sobre a aplicabilidade de KDD Ainda existe muito mais tarefas e domínios de aplicação prática da descoberta de conhecimento em BD não mencionadas Ubiqüidade da necessidade por mineração de dados e descoberta de conhecimento em BD O mais difícil não é identificar setores de atividade que precisam dessa tecnologia e sim identificar setores que não podem beneficiar-se dela Sistemas e Protótipos de Data Mining Como escolher um Sistema de Data Mining? Os sistemas comerciais de data mining tem pouco em comum • Diferentes funcionalidades ou metodologias de data mining • Podem trabalhar com conjuntos de dados de tipos completamente diferentes Tipos de dados: relacional, transacional, texto, seqüência temporal, espacial? Questões sobre o sistema • execução em um ou vários sistemas operacionais? • arquitetura cliente/servidor? • Fornece interfaces baseadas na Web e permite dados XML como entrada e/ou saída? Como escolher um Sistema de Data Mining? (2) Fontes de dados • arquivos texto ASCII, fontes de dados relacionais múltiplas • suporte de conexões ODBC (OLE DB, JDBC)? Funções e metodologias de Data mining • Única vs. múltiplas funções de data mining • Único vs. vários metodos por função Mais funções e métodos por função fornece ao usuário grande flexibilidade e poder de análise Como escolher um Sistema de Data Mining? (2) Acoplamento com BD e/ou data warehouse • Quatro formas de acoplamento: sem acoplamento, acoplamento “frouxo”, acoplamento semifirme, e acoplamento firme Idealmente, um sistema de data mining deve ser firmemente acoplado com um sistema de bases de dados Como escolher um Sistema de Data Mining? (3) Escalabilidade • Escalabilidade por linhas • Escalabilidade por coluna • realizar um sistema com escalabilidade por coluna é um desafio muito maior do que realizar um sistema com escalabilidade por linha Ferramentas de Visualização • “Uma figura vale milhares de palavras” • Categorias de visualização: visualização de dados, visualização dos resultados da mineração, vizualização do processo de mineração, e visual data mining Interface gráfica e linguagem de interrogação (query) de Data mining • Interface gráfica de alta qualidade e fácil de usar Exemplos de Sistemas de Data Mining (1) IBM Intelligent Miner SAS Enterprise Miner • Uma ampla faixa de algoritmos de data mining • Algoritmos de mineração escaláveis • Kit de ferramentas: algoritmos de redes neurais, métodos estatísticos, preparação de dados, ferramentas de visualização • Firme integração com o sistema de bases de dados relacionais IBM's DB2 • Grande variedade de ferramentas de análise estatística • Ferramentas de Data warehouse e múltiplos algoritmos de data mining Microsoft SQLServer 2000 • Integração de BD e OLAP com mineração Exemplos de Sistemas de Data Mining (2) SGI MineSet • Múltiplos algoritmos de data mining e métodos estatísticos avançados • Ferramentas de visualização avançadas Clementine (SPSS) • Meio ambiente de desenvolvimento integrado de data mining para usuários e programadores • Múltiplos algoritmos de data mining e ferramentas de visualização Exemplos de Sistemas de Data Mining (2) DBMiner (DBMiner Technology Inc.) • Múltiplos módulos de data mining: análise OLAP, associação, classificação, agrupamento • Funções eficientes de mineração de padrões seqüenciais e associação, ferramentas de classificação visual • Mineração de bases de dados relacionais e de data warehouses Temas Adicionais em Mineração de Dados Data Mining Visual Visualização: uso de computação gráfica para criar imagens visuais que ajudam a entender representações massivas e complexas de dados Data Mining Visual: processo de descoberta de conhecimento implícito a partir de grandes conjuntos de dados usando técnicas de visualização Computação Gráfica Computação de alto desempenho Multimídia Interface Homem Máquina Reconhecimento de Padrões Visualização Propósito da Visualização • Fornecer uma visão geral qualitativa de grandes conjuntos de dados • Busca de padrões, tendências, estrutura, irregularidades, relações entre dados. • Ajuda para encontrar regiões interessantes e parâmetros apropriados para posterior análise qualitativa. Data MiningVisual & Visualização de Dados Integração • • • • da visualização e do data mining visualização de dados visualização dos resultados de data mining visualização do processo de data mining data mining visual interativo Visualização de dados • Dados em um BD ou em um data warehouse podem ser visualizados em diferentes níveis de abstração via diferentes combinações de atributos (ou dimensões) • Os dados podem ser apresentados em várias formas visuais Visualização dos Resultados do Data Mining Apresentação visual dos resultados (ou conhecimento) obtidos da mineração de dados Exemplos • Scatter plots e boxplots (obtidos de data mining descritivo) • Árvores de Decisão • Regras de Associação • Agrupamentos • Outliers • Regras de generalização Boxplots (Statsoft): Múltiplas Combinações de Variáveis Visualização dos resultados de Data Mining (SAS Enterprise Miner): Scatter Plots Visualização de Regras de Associação (SGI/MineSet 3.0) Visualização de uma Árvore de decisão (SGI/MineSet 3.0) Visualização do Processo de Data Mining Apresentação dos vários processos de data mining em formas visuais de modo que o usuário pode ver • O processo de extração de dados • Onde os dados são extraídos • Como os dados são limpados, integrados, processados e minerados • O método selecionado para data mining • Onde os resultados são armazenados • Como eles podem ser vistos Data Mining Visual Interativo Uso de ferramentas de visualização no processo de mineração para ajudar os usuários a realizarem decisões locais astuciosas para a mineração Exemplo • Mostrar a distribuição dos dados em um conjunto de atributos usando setores coloridos • Usar o resultado para decidir qual setor deve ser selecionado para a classificação e onde fica um “bom” ponto de corte desse setor Áudio Data Mining Usar sinais de áudio para ressaltar padrões de dados ou características dos resultados da mineração Alternativa a mineração visual Data mining visual pode ressaltar padrões interessantes usando gráficos, mas exige que o usuário se concentre na busca visual de padrões Em vez disso: transformar padrões em sons e música e ouvir ritmos, tons, e melodias para identificar algo interessante ou não usual Impactos sociais da Mineração de Dados Data Mining é uma moda ou é algo persistente? Data mining é uma tecnologia Ciclo de vida tecnológico • Inovação • Adesão inicial • Ruptura • Maioridade inicial • Maioridade tardia • Legado Cilco de vida de adoção tecnológica Data mining está na ruptura!? • Os sistemas de data mining existentes são muito genéricos • É necessário soluções de data mining específicas e integração da lógica das organizações com as funções da mineração Impactos Sociais: Ameaça a privacidade e a segurança dos dados? Data mining é uma ameaça para a privacidade e segurança dos dados? • “Big Brother”, “Big Banker”, e “Big Business” estão vigiando você cuidadosamente • Informações de perfil são coletadas o tempo todo cartão de crédito, cartão de fidelidade, etc Surfar na Web, alugar um vídeo, preencher um formulário, • Coletar dados pessoais pode ser benéfico para as organizações e as pessoas, mas existe o perigo de uso indevido Registros médicos, Avaliação do empregado, Etc. Proteção da Privacidade e da Segurança dos Dados Práticas corretas • Regras internacionais para a proteção da privacidade de dados • Cobre aspectos relacionados a coleta de dados, propósito, uso, qualidade, acesso, participação individual, etc • Especificação do propósito e Limitação do Uso • Acesso: Indivíduos tem o direito de conhecer que informação é coletada sobre ele, quem tem acesso aos dados, e como os dados são usados Desenvolvimento de técnicas de segurança • criptografia • bases de dados anônimas Tendências em Mineração de Dados Tendências em Data Mining (1) Aplicações • desenvolvimento de sistemas de data mining para aplicações específicas • Data mining invisível (mineração como função interna) Métodos de data mining com escalabilidade • Constraint-based mining: uso de restrições para guiar os sistemas de data mining na busca por padrões interessantes Integração de data mining com bases de dados, data warehouse e bases de dados na Web Data mining invisível Tendências em Data Mining (2) Padronização da linguagem de data mining • A padronização facilitará o desenvolvimento sistemático, melhorará a interoperabilidade, e promoverá a instrução e o uso de sistemas de data mining na indústria e na sociedade Data mining Visual Novos métodos para minerar tipos de dados complexos • Maior esforço de pesquisa para a integração de métodos de mineração de dados com técnicas existentes da análise de dados para os tipos complexos de dados Web mining Proteção da privacidade e segurança da informação na mineração dos dados