Aplicações práticas da descoberta de conhecimento em BD Jacques Robin e Francisco de A. T. de Carvalho CIn-UFPE Aplicações da Mineração de Dados Marketing e comércio Gerenciamento de relação com clientes • descrição multi-dimensional, agrupamento e classificação de clientes, associações entre produtos ou serviços, para otimização e personalização de: campanhas de propaganda e de promoções sugestões de produtos e serviços • mineração comparativa de evolução de compras, produtos ou serviços oferecidos e preços para: promover retenção de clientes definir política de preço altamente dinâmica (ex, passagem aérea) Marketing e comércio Gerenciamento de relação com clientes • ambos a partir de: Transações com cartões de fidelidade, de requisitos de programa a la carte (TV, vídeo, música), de reservas (passagens, hoteis, ingressos) Log de servidor ‘Web para comércio eletrónico Finanças e segurança Serviços financeiros: • mineração de series temporais de valores na bolsa para especulação • mineração de associação e grupos de valores para definição de portfolio de investimento e planos de aposentadoria • previsão de inadimplência para definir política de empréstimo Detecção de fraude: • descrição multi-dimensional e mineração de series excepcionais de: de uso de cartão de créditos para serviços financeiros pedidos de acesso a sites para segurança de sistemas transferências de fundos para lavagem de dinheiro sujo e sonegação de imposto chamadas para telecomunicações Finanças e segurança Detecção de tentativas de intrusão • mineração de padrões temporais de comandos de protocolos em arquivos de log de servidores • batch e tempo real Jogos, esportes e recursos humanos Jogos: • mineração de regras estratégicas e táticas a partir de BD de partidas (xadrez, futebol de robôs) Jogos, esportes e re-engenharia de organizações: • OLAP, agrupamento e mineração multi-dimensional de series de resultados para identificar fatores internos (ex, composição do time, tática usada) e externos (ex, tipo de adversário, local do jogo) contribuindo a vitórias e a derrotas Jogos, esportes e recursos humanos Jogos de esportes virtuais, esportes e recrutamento: • previsão do desempenho e popularidade futuro de atletas, artistas e funcionários para contratação e transferência Serviços de infra-estrutura: energia, água, transporte, telecomunicação, Internet descrição multi-dimensional e previsão comparativa de demanda e da capacidade das fontes ou equipamentos para: • planejar investimentos e otimizar rotas para evitar interrupção de serviços e congestionamento • definir vários níveis de qualidade de serviços, seus preços e seus clientes potenciais • detecção de fraudes Serviços de infra-estrutura: energia, água, transporte, telecomunicação, Internet previsão de falha de equipamento para definir política de prevenção de falha mineração de regras de diagnóstico para análise de falha Saúde Indústria farmacêutica: • previsão dos efeitos de um novo remédio composto a partir dos efeitos dos seus componentes em remédios testados Medicina e epidemiologia: • mineração de regras de diagnostico • previsão de predisposição a doenças e resposta a tratamento • a partir de BD de órgãos de saúde (CDC, ministério da saúde) Saúde Pesquisa em genética e biologia molecular: • mineração comparativa de seqüências de genes em células sanas e doentes (adaptação da mineração de series temporais para dados categóricos) • mineração de associações e grupos de genes baseada na sua co-ocorrência em várias classes de células • previsão da forma 3D de uma proteína a partir da sua seqüência de ácidos-amidos Conclusão sobre a aplicabilidade de KDD Ainda existe muito mais tarefas e domínios de aplicação prática da descoberta de conhecimento em BD não mencionadas Ubiqüidade da necessidade por mineração de dados e descoberta de conhecimento em BD O mais difícil não é identificar setores de atividade que precisam dessa tecnologia e sim identificar setores que não podem beneficiar-se dela Sistemas e Protótipos de Data Mining Como escolher um Sistema de Data Mining? Os sistemas comerciais de data mining tem pouco em comum • Diferentes funcionalidades ou metodologias de data mining • Podem trabalhar com conjuntos de dados de tipos completamente diferentes Tipos de dados: relational, transacional, texto, sequencia temporal, espacial? Questões sobre o sistema • execução em um ou vários sistemas operacionais? • arquitetura cliente/servidor? • Fornece Web-based interfaces e permite XML data como entrada e/ou saída? Como escolher um Sistema de Data Mining? (2) Fontes de dados • arquivos texto ASCII, fontes de dados relacionais multiplas • suporte de conexões ODBC (OLE DB, JDBC)? Funções e metodologias de Data mining • Única vs. multiplas funções de data mining • Único vs. vários metodos por função Mais funções e métodos por função fornece ao usuário grande flexibilidade e poder de análise Como escolher um Sistema de Data Mining? (2) Acoplamento com BD e/ou data warehouse • Quatro formas de acoplamento: sem acoplamento, acoplamento “frouxo”, acoplamento semifirme, e acoplamento firme Idealmente, um sistema de data mining deve ser firmemente acoplado com um sistema de bases de dados Como escolher um Sistema de Data Mining? (3) Scalabilidade • Escalabilidade por linhas • Escalabilidade por coluna • realizar um sistema com escalabilidade por coluna é um desafio é muito maior do que realizar um sistema com escalabilidade por linha Ferramentas de Visualização • “Uma figura vale milhares de palavras” • Categorias de visualização: visualização de dados, visualização dos resultados da mineração, vizualização do processo de mineração, e visual data mining Interface gráfica e linguagem de interrogação (query) de Data mining • Interface gráfica de alta qualidade e fácil de usar Exemplos de Sistemas de Data Mining (1) IBM Intelligent Miner SAS Enterprise Miner • Uma ampla faixa de algoritmos de data mining • Algoritmos de mineração escaláveis • Kit de ferramentas: algoritmos de redes neurais, métodos estatisticos, preparação de dados, ferramentas de visualização • Firme integração com o sistema de bases de dados relacionais IBM's DB2 • Grande variedade de ferramentas de análise estatistica • Ferramentas de Data warehouse e multiplos algoritmos de data mining Mirosoft SQLServer 2000 • Integração de BD e OLAP com mineração Exemplos de Sistemas de Data Mining (2) SGI MineSet • Multiplos algoritmos de data mining e métodos estatísticos avançados • Ferramentas de visualização avançadas Clementine (SPSS) • Meio ambiente de desenvolvimento integrado de data mining para usuários e programadores • Multiplos algoritmos de data mining and ferramentas de visualização Exemplos de Sistemas de Data Mining (2) DBMiner (DBMiner Technology Inc.) • Multiplos módulos de data mining: análise OLAP, associação, classificação, agrupamento • Funções eficientes de mineração de padrões sequenciais e associação, ferramentas de classificação visual • Mineração de bases de dados relacionais e de data warehouses Temas Adidionais em Mineração de Dados Data Mining Visual Visualização: uso de computação gráfica para criar imagens visuais que ajudam a entender representações massivas e complexas de dados Data Mining Visual: processo de descoberta de conhecimento implicito a partir de grandes conjuntos de dados usando tecnicas de visualização Computação Gráfica Computação de alto desempenho Multimidia Interface Homem Máquina Rconhecimento de Padrões Visualização Proposito da Visualização • Fornecer uma visão geral qualitativa de grandes conjuntos de dados • Busca de padrões, tendencias, estrutura, irregularidades, relações entre dados. • Ajuda para encontrar regiões interessantes e parametros apropriados para posterior análise qualitativa. Data MiningVisual & Visualização de Dados Integração • • • • da visualização e do data mining visualização de dados visualização dos resultados do data mining visualização do processo de data mining data mining visual interativo Visualização de dados • Dados em um BD ou em uma data warehouse pode ser visualizado em diferentes níveis de abstração via diferentes combinações de atributos (ou dimensões) • Os dados podem ser apresentados em várias formas visuais Visualização dos Resultados do Data Mining Apresentação visual dos resultados (ou conhecimento) obtidos da mineração de dados Exemplos • Scatter plots and boxplots (obtidos do data mining descritivo) • Árvores de Decisão • Regras de Association • Agrupamentos • Outliers • Regras de generalização Boxplots (Statsoft): Multiplas Combinações de Variáveis Visualização dos resultados doData Mining (SAS Enterprise Miner): Scatter Plots Visualização de Regras de Associação (SGI/MineSet 3.0) Visualização de uma Árvore de decisão (SGI/MineSet 3.0) Visualização do Processo de Data Mining Apresentação dos varios processos de data mining em formas visuais de tal forma que o usuário pode ver • O processo de extração de dados • Onde os dados são extraídos • Como os dados são limpados, integrados, proprocessados e minerdos • O método selecionado para o data mining • Onde os resultados são armazenados • Como eles podem ser vistos Data Mining Visual Interativo Uso de ferramentas de visualização no processo de mineração para ajudar os usuários a realizarem decisões locais astuciosas para a mineraçãos Exemplo • Mostar a distribuição dos dados em um conjunto de atributos usando setores coloridos • Usar o resultado para decidir qual setor dever ser selecionado para a classificação e onde fica um “bom” ponto de corte desse setor Audio Data Mining Usar sinais de audio para ressaltar padrões de dados ou caracteristicas dos resultados da mineração Alternativa a mineração visual Data mining visual pode ressaltar padrões interessantes usando gráficos, mas exige que o usuário se concentre na busca visual de padrões Em vez disso: transformar padrões em sons e música e ouvir ritmos, tons, e melodias para identificar algo interessante ou não usual Impactos sociais da Mineração de Dados Data Mining é uma moda ou é algo persistente? Data mining é uma tecnologia Ciclo de vida tecnológico • Inovação • Adesão inicial • Ruptura • Maioridade inicial • Maioridade tardia • Legado Cilco de vida de adoção tecnológica Data mining está na ruptura!? • Os sistemas de data mining existentes são muito genericos • É necessário soluções de data mining especificas e integração da lógica das organisações com as funções da mineração Impactos Sociais: Ameaça a privacidade e a segurança dos dados? Data mining é uma ameaça para a privacidade e segurança dos dados? • “Big Brother”, “Big Banker”, e “Big Business” estão vigiando voce cuidadosamente • Informações de perfil são coletadas o tempo todo cartão de crédito, cartão de fidelidade, etc Surfar a Web, alugar um video, preencher um formulario, • Coletar dados pessoais pode ser benefico para as organisações e as pessoas, mas existe o perigo de uso indevido Registros médicos, Avaliação do empregado, Etc. Proteção da Privacidade e da Segurança dos Dados Praticas corretas • Regras internacionais para a proteção da privacidade de dados • Cobre aspectos relacionados a coleta de dados, proposito, uso, qualidade, acesso, participação individual, etc • Especificação do propósito e Limitação do Uso • Acesso: Individuos tem o direito de conhecer que informação é coletada sobre ele, quem tem acesso a os dados, e como os dados são usados Desenvolvimento de tecnicas segurança • criptografia • bases de dados anonimas Tendencias em Mineração de Dados Tendencias em Data Mining (1) Aplicações • desenvolvimento de sistemas de data minig para aplicações especificas • Data mining invisivel (mineração como função interna) Métodos de data mining com escalabilidade • Constraint-based mining: uso de restrições para guiar os sistemas de data maning na busca por padrões interessantes Integração de data mining com bases de dados, data warehouse e bases de dados na Web Data mining invisivel Tendencias em Data Mining (2) Padronização da linguagem do data mining • A padronização facilitará o desenvolvimento sistemático, melhorará a interoperabilidade, e promoverá a instrução e o uso de sistemas de data mining na indústria e na sociedade Data mining Visual Novos métodos para minerar tipos de dados complexos • Maior esforço de pesquisa para a integração de métodos de mineração de dados com técnicas existentes da análise de dados para os tipos complexos de dados Web mining Proteção da privacidade e segurança da informação na mineração dos dados