1 Projeto de Banco de Dados para Web Prof. Maurício Rodrigues de Morais [email protected] 2 Aula 2 Mineração de Dado 3 Conteúdo Mineração de Dado Plataforma WEKA Exemplo prático 4 Introdução Acúmulo de dados a uma razão crescente. Desenvolvimento das tecnologias para armazenamento de dados Popularização da Internet Métodos tradicionais para análise de dados inviáveis Necessidade de desenvolver tecnologias para o entendimento das informações contidas nas bases de dados Entre outros... 5 Muitos estudos direcionados ao desenvolvimento de tecnologias para extração automática de conhecimento de bases de dados 5 Conhecimento para Apoio à Tomada de Decisão Conhecimento para Apoio à Tomada de Decisões 6 6 Pontos importantes em DM... Dado cru é fácil de coletar, mas caro para analisar. Métodos: aprendizado de máquina, estatística, bases de dados + visualização. Uma ferramenta para análises de dados. Pode ser combinado com métodos tradicionais. Grande interesse desde 1989. Sucesso nas aplicações práticas. 7 7 Aquisição de Conhecimento de Dados Exemplos Aprendizado de Máquina (AM) Data Mining (DM) Dados BC Knowledge Discovery in Database (KDD) 8 8 Algumas Considerações... Usualmente percebe-se uma grande confusão de termos na comunidade como: Data Warehouse, OLAP, Data Mining, KDD KDD (Knowledge Discovery in Databases) e DM (Data Mining) são muitas vezes utilizados como sinônimo. É comum utilizar DM em contextos industriais, enquanto que KDD é uma expressão mais científica. 9 9 Algumas Considerações... (cont.) No sentido científico, DM corresponde a somente uma fase do processo de KDD. Como a industria vê Data Mining? Suporte a decisão Bussiness Inteligence Data Warehouse e Data Mining 10 10 Data Warehouse Data Warehouse é um repositório de dados, voltado para suporte à tomada de decisão, derivado de diversos outros bancos de dados. O objetivo principal é ter uma visão mais ampla das informações relacionadas à empresa/organização. 11 11 OLAP (On-Line Analytical Processing) Voltadas para análise multidimensional de dados de modo superior aos mecanismos oferecidos pelas ferramentas tradicionais É a análise, síntese e consolidação de grandes volumes de dados multidimensionais [Codd 93]. Ferramenta geralmente utilizada para a análise de Data Warehouse. 12 12 OLAP (cont.) Idade Motivo Duração Valor Risco 45 20 37 29 66 Baixo Alto Baixo Alto Alto Carro Negoc. Casa Carro Mobil. 36 20 40 24 10 10,000 35,000 30,000 25,000 7,000 13 13 OLAP (cont.) Idade Motivo Duração Valor Risco 45 20 37 29 66 Baixo Alto Baixo Alto Alto Carro Negoc. Casa Carro Mobil. 36 20 40 24 10 10,000 35,000 30,000 25,000 7,000 107,00 14 14 OLAP (cont.) Idade Motivo Duração Valor Risco 45 20 37 29 66 Baixo Alto Baixo Alto Alto Carro Negoc. Casa Carro Mobil. 36 20 40 24 10 10,000 35,000 30,000 25,000 7,000 39,4 15 15 Data Mining Idade Motivo Duração Valor Risco 45 20 37 29 66 Baixo Alto Baixo Alto Alto Carro Negoc. Casa Carro Mobil. 36 20 40 24 10 10,000 35,000 30,000 25,000 7,000 Se Idade >= 35 e Duração >=20 então Risco = Baixo 16 16 Evolução das Tecnologia Relacionadas com Dados EVOLUÇÃO Coleta de dados (1960s) Acesso aos Dados (1980s) Navegação pelos dados (1990s) Data Mining (2000) TECNOLOGIA UTILIZADA Computadores, Fitas, Discos RDBMS, SQL, ODBC SGBD, OLAP, Base de Dados Multidimensionais, Data Warehouse Algoritmos Avançados, Computadores com Multiprocessadores, Grandes Bases de Dados 17 17 Definição de Data Mining Data Mining (DM) refere-se ao processo de extrair conhecimento de bases de dados, ou seja, trabalhar com grandes quantidades de dados com o objetivo de extrair significado e descobrir novos conhecimentos. 18 18 Data Mining Data Mining - processo de extração de conhecimento de Bases de Dados. Definição formal (Fayyad,96) Processo não trivial de identificação de padrões: válidos; novos; potencialmente úteis; compreensíveis. Área multidisciplinar. 19 19 Alguns Casos de Sucesso NIKE WAL MART 20 20 Processo de Data Mining PRÉ-PROCESSAMENTO EXTRAÇÃO DE PADRÕES IDENTIFICAÇÃO DO PROBLEMA PÓS-PROCESSAMENTO UTILIZAÇÃO DO CONHECIMENTO 21 21 Conhecimento do Domínio / Identificação do Problema A exploração dos dados começa com os dados? Grande volume de dados Terabytes ou até PentaBytes (1015 bytes) Base de Dados 22 22 Conhecimento do Domínio / Identificação do Problema (cont.) A exploração normalmente começa com a identificação de uma necessidade! Necessidade: Decifrar os dados com informações biológicas e transformá-los em conhecimento Base de Dados 23 23 Conhecimento do Domínio / Identificação do Problema (cont.) Antes do início do processo é imprescindível a obtenção de um conhecimento inicial do domínio Questões importantes: Quais são as principais metas do processo? Quais critérios de performance são importantes? Qual deve ser a relação entre simplicidade e precisão do conhecimento extraído? Fornece subsídio para todas as etapas do processo 24 24 Tarefas de Data Mining Atividade preditivas Classificação Regressão Atividades descritivas Regras de associação Sumarização Clustering etc. 25 25 Escolha do Algoritmo Vários algoritmos estão disponíveis para cada função Nesta etapa deve ser escolhido o algoritmo a ser utilizado bem como a configuração de seus parâmetros Resultados experimentais mostram que não existe um único bom algoritmo para todas as tarefas. Assim, a escolha de vários algoritmos pode ser feita 26 26 Pós-processamento Medidas de avaliação Desempenho Qualidade Compreensibilidade Interessabilidade Objetiva Subjetiva 27 27 Tecnologias que dão suporte para Data Mining Aprendizado de máquina Estatística Arquiteturas Visualização Sistemas de suporte à decisão Gerenciamento de dados Data warehouse e OLAP 28 28 Suporte para Data Mining Aprendizado de Máquina Muito importante em todas as etapas do processo. Estatística Apoia, especialmente, os métodos na etapa de preparação de dados. Ferramentas de Visualização Importante na etapa de pré-avaliação, possibilitando verificar o que foi extraído, e de que forma está organizado. Banco de Dados e Data Warehouse Algumas ferramentas são utilizadas para auxiliar a manipulação dos dados. 29 29 Técnicas e Ferramentas para DM Técnicas simbólicas: Árvores de decisão e Regras de decisão Algoritmos genéticos Redes neurais Técnicas de preparação de dados para mineração Ferramentas para Data Mining 30 30 Algumas Área Relacionadas Text Mining Web Mining Recuperação de Informação 31 31 Algumas Ferramentas para DM DataMining Suite Darwin DataEngine DataMind Data Surveyor Discovery Server Intelligent Miner Omega SAS Syllogic DMT Mineset Weka Alice BusinessMiner Clementine 32 32 Considerações Finais DM é muito útil quando há dados disponíveis. Exemplos como Wal Mart nos Estados Unidos, demonstram que DM e TI funcionam. Um dos grandes problemas de DM está relacionado com a utilização/criação dos algoritmos para grande volume de dados. A presença de especialistas nos dados é muito importante no processo DM. Se o custo da descoberta é maior que o ganho, o esforço pode não justificar! 33 33 Considerações Finais (cont.) Alguns Problemas em Data Mining: falta de informação; buracos na seqüência da informação; em bases dinâmicas as trocas nos registros tipo, etc.) são comuns; contaminação da informação por erros; incerteza nos dados. 34 (tamanho, 34 Weka Biblioteca de algoritmos de Aprendizado de Máquina implementados em Java Paradigmas implementados: estatístico, instancebased e proposicional. Por exemplo: J48 (versão Java do C4.5), ID3, Naive Bayes, entre outros Os algoritmos podem ser utilizados isoladamente ou por uma aplicação Java escrita pelo usuário Pode ser conseguida em: http://www.cs.waikato.ac.nz/ml/weka 35 35