Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão Paulo J Azevedo Departamento de Informática ([email protected]) Sistemas de informação cada vez mais sofisticados, envolvendo elevadas quantidades de dados, motivam o desenvolvimento de técnicas de Análise Exploratória de Dados para apoio à Decisão Mineração de Dados - Apresentação 1 Extracção de “conhecimento” (relações não triviais entre os dados) em bases de dados • Uma possível definição (KDD): é a tarefa de desenvolver algoritmos (processos) para extrair estrutura dos dados. Esta estrutura pode ser descrita na sob a forma de padrões estatísticos, modelos ou mesmo relações. Encontrar esta estrutura pode ser visto como um processo de redução que permite uma sumarização dos dados. • Preparação e recolha dos dados (via Warehousing) • Data Mining (extracção das relações “escondidas” entre os dados recolhidos) • Pós-processamento e análise dos resultados • Visualização 2 Mineração de Dados - Apresentação Perguntas representativas dos problemas a tratar: • • • • Mostrar as transacções que indiciam fraude ? Quais os indivíduos que tem tendência a comprar o produto X ? Quais os acessos ao servidor Y que tinham o intuito de “ataque” ? A que clientes (ou tipo de clientes) deveremos enviar o catálogo de Natal ? • Quais os grupos que melhor caracterizam os nosso clientes ? • Como organizar (e apresentar ao utilizador) o resultado de uma pesquisa muito genérica no Google ? • Considerando o historial de concessão de crédito da nossa instituição deverá ser considerada a proposta Z ? • Sabendo o conjunto de páginas visitados, que tipo de produto consultará o utilizador no resto da sua sessão ? • Que padrões de aminoácidos, de elevado “interesse” biológico, se pode encontrar numa dada família de proteínas ? • Como se comporta um dado conjunto de aminoácidos ao longo do tempo (i.e. ao longo de um determinado processo sofrido pela proteína)? Mineração de Dados - Apresentação 3 Case Study (1) • Web sites Adaptativos – Amazon: site sugere novos interesses com base nas compras efectuadas. – Challange Netflix: http://www.netflixprize.com • Email Spam filtering, • Códigos Postais, – Handwriting recognition. • Crédito à Habitação – Apoio à decisão na atribuição de crédito baseando no historial da instituição. 4 Mineração de Dados - Apresentação Case Study (2) • DARPA challenge http://www.darpa.mil/grandchallenge/index.asp – Conduzir um veiculo autónomo no deserto durante cerca de 200 km. • Detecção de fraude nas chamadas de telefones móveis • Detecção de “churning”http://www.kdnuggets.com/news/2009/n05/4i.html (propensão para os clientes de uma empresa de comunicações/cartões de crédito/etc mudar de fornecedor) • MicroArrays http://www.en.wikipedia.org/wiki/DNA_microarray – Análise de expressão de DNA (matriz de genes x amostras “situações”) 5 Mineração de Dados - Apresentação A Estrutura extraída dos dados pode ter a forma de: • Padrões sequenciais, • Motifs • Modelos de Previsão (árvores de decisão, redes neuronais, regras de decisão, etc), • Agrupamentos (clustering)/ Segmentação, • Regras de Associação. • Dependências entre dados (dependências funcionais, multivalor, etc) 6 Mineração de Dados - Apresentação O processo KDD Data Mining Transformação Interpretação DATA (reavaliação) Pré-processamento Selecção Visualização 7 Mineração de Dados - Apresentação Algumas ferramentas usadas durante o curso: • • • • • • • C4.5 R Cubist Caren Weka Microsoft SQL Server Outras… 8 Mineração de Dados - Apresentação Principais temas a estudar… • Modelos de Previsão: árvores de decisão, classificação, previsão numérica, simplificação de modelos, avaliação, composição de modelos, etc. • Regras de Associação: algoritmos, medidas de interesse, pruning, tratamento de numéricos, aplicações, etc. • Clustering: algoritmos, medidas de similaridade, tipos de clustering, etc. • Revisão de significância estatística 9 Mineração de Dados - Apresentação Avaliação • Proposta: – Teste Teórico – Projectos Prático : • Exercícios semanais • Projecto final com apresentação em grupo. – Nota = 0.5 x projecto + 0.5 x teste ????? 10 Mineração de Dados - Apresentação Biblio • Data Mining (Pratical Machine Learning tools and Techniques), Ian Witten & Eibe Frank, Morgan Kaufmann Publishers. (WEKA book) • Data Mining, Concepts and Techniques, Jiawei Han & Micheline Kamber, Morgan Kaufmann Publishers. • Apontamentos das aulas Mineração de Dados - Apresentação 11