DATA MINING Disciplina SIPE EQUIPE 4 ARACHELY SILVA CLAUDINEI NASCIMENTO ERICA MIRELLA ARAUJO SANTOS FABIO STAUDINGOR LUCIANO FRANCISCO JANAÍNA MARTINS PEDRO GOMES Orientadora: Profº. MÁRCIA PASSOS 1 Tópicos da Apresentação 3 DATA MINING E OBJETIVOS 3 FUTURO E HISTÓRIA 3 CARACTERÍSTICAS 3 FASES E PROCESSOS 3 CONCEITOS 3 VANTAGENS E DESVANTAGENS 3 ESTUDO DE CASO 3 REFERÊNCIAS 2 DATA MINING • O que é Data mining: – “Data mining (mineração de dados), é o processo de extração de conhecimento de grandes bases de dados, convencionais ou não. – Utiliza técnicas de inteligência artificial que procuram relações de similaridade ou discordância entre dados. [01] Queens University - Belfast 3 Introdução • O que é Data mining: – “Data mining (mineração de dados), é o processo de extração de conhecimento de grandes bases de dados, convencionais ou não. – Utiliza técnicas de inteligência artificial que procuram relações de similaridade ou discordância entre dados. – Seu objetivo é encontrar, automaticamente, padrões, anomalias e regras com o propósito de transformar dados, aparentemente ocultos, em informações úteis para a tomada de decisão e/ou avaliação de resultados. Fernando S. Goulart Júnior & Robson do Nascimento Fidalgo (1998) 4 Exemplos de Data Mining • Exemplo: Fabricante Estado Cidade Cor do Produto Lucro Smith CA Los Angeles Azul Alto Smith AZ Flagstaff Verde Baixo Adams NY NYC Azul Alto Adams AZ Flagstaff Vermelho Baixo Johnson NY NYC Verde Médio Johnson CA Los Angeles Vermelho Médio •Conclusões: •Produtos azuis são de alto lucro ou •Arizona é um lucro baixo 5 Objetivos do Data Mining • Extrair inteligentimente os dados ; • Construir um modelo neural, "adestrado" a rede em um data set de treinamento e então usamos a rede já treinada para fazer predições; • Identificar padrões de comportamento em vendas de consumidores, Associar comportamentos à características demográficas de consumidoresCampanhas de marketing direto (mailing 6 História da Data Mining •Evolução até o data mining Evolução Perguntas Tecnologia disponível Características Coleção de dados 1960 “Qual foi meu rendimento total nos últimos cinco anos ?” Computadores, Fitas, discos Retrospectiva, Dados estáticos como resposta Acessos aos dados 1980 “Qual foi meu rendimento no Brasil no último janeiro ?” RDBMS, SQL, ODBC Restropectiva, dados dinâmicos a nível de registos como resposta Data warehousing & suporte a decisão 1990 “Qual foi meu rendimento no Brasil no último janeiro? Do sul até o nordeste Processamento analítico on-line, banco de dados multidimencionais, data warehousing Retrospectiva, dados dinâmicos em múltiplos níveis como resposta Data Mining Atualmente “Porque alguns produtos são mais vendidos na região sul ?” Algoritmos avançados, computadores multiprocessados, B.D. grandes e poderosos Prospectivo, Informações (perspectivas) como resposta. 7 O FUTURO da Data Mining • O futuro está no aprimoramento da técnica do Data Mining têm sido aplicadas com sucesso para a solução de problemas em diversas áreas, como descrito a seguir: • • Vendas: Identificar padrões de comportamento dos consumidor ,Encontrar características dos consumidores de acordo com a região e Prever quais consumidores serão atingidos nas campanhas de marketing. • • Finanças: - Detectar padrões de fraudes no uso dos cartões de crédito, Identificar os consumidores que estão tendendo a mudar a companhia do cartão de crédito,Identificar regras de estocagem a partir dos dados do mercado e Encontrar correlações escondidas nas bases de dados. • • Seguros e Planos de Saúde: Determinar quais procedimentos médicos são requisitados ao mesmo tempo8 Características do Data Mining • A estatística: A mais antiga delas. Sem a estatística não seria possível termos o DM, visto que a mesma é a base da maioria das tecnologias a partir das quais o DM é construído. A Estatística Clássica envolve conceitos como distribuição normal e análise de conjuntos. • Inteligência Artificial: A segunda linhagem do DM que soluciona os problemas estatísticos e como módulos de otimização de consulta para SGBDS. • Machine Learning: E a terceira e última linhagem do DM é a chamada machine learning, que pode ser melhor descrita como o casamento entre a estatística e a IA. 9 Fases do Data Mining • • • Os passos fundamentais de uma mineração bem sucedida a partir de fontes de dados (bancos de dados, relatórios, logs de acesso, transações, etc.) consistem de uma limpeza (consistência, preenchimento de informações, remoção de ruído e redundâncias, etc.). É a partir deles que se pode selecionar algumas colunas para atravessarem o processo de mineração. Tipicamente, este processo não é o final da história: de forma interativa e frequentemente usando visualização gráfica, um analista refina e conduz o processo até que os padrões apareçam 10 Processos do data mining • .Seleção-Selecionar ou segmentar dados de acordo com critérios definidos: • Ex.: Todas as pessoas que são proprietárias de carros é um subconjunto de dados determinado. • Pré-processamento -Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas. • Ex. :O sexo de um paciente gestante . • Transformação- Transforma-se os dados em formatos utilizáveis. Esta depende da técnica data Mining usada. • Interpretação e Avaliação- Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas 11 • Ex.: Tarefas de previsões e classificações. Conceitos do Data Mining • Segundo o autor ( Rob Mattison ),toda a Data Mining é a verdadeira extração dos padrões de comportamento dos dados e utilizando a definição de fatos, medidas de padrões, estados e o relacionamento entre eles. • • DataMining ou mineração de dados de (Bigus) é o processo de extrair informação válida, previamente desconhecida e de máxima abrangência a partir de grandes bases de dados, usando-as para efetuar decisões cruciais. 12 Vantagens do Data Mining • Vantagens: • Modelo de fácil compreensão; • Analisar Grandes bases de dados; • Descoberta de informações inesperadas; • Variáveis que não necessitam de recodificação; • Os Modelos são precisos; • Os Modelos são construídos e atualizados rapidamente. 13 Desvantagens do Data Mining •. Alto custo; Necessidades de grandes bases de dados; Novidade e complexidade; Criar ambientes ideais; Interação muito forte com analistas humanos 14 Estudo de Caso Data Mining • • • • • • • • • • • Exemplo (1) - Fraldas e cervejas O que as cervejas tem a ver com as fraldas ? homens casados, entre 25 e 30 anos; compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa; Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; Resultado: o consumo cresceu 30% . Exemplo (2) - Lojas Brasileiras (Info 03/98) Aplicou 1 milhão de dólares em técnicas de data mining Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas. Exemplo de anomalias detectadas: Roupas de inverno e guarda chuvas encalhadas no nordeste eBatedeiras 110v a venda em SC onde a 15 Conclusões Perguntas ? 16 Referências • Bigus, J. (1995). Data Mining with Neural Networks. McGraw-Hill. • • Fayyad, U.; Haussler, D.; Stolorz, P. (1996). "KDD for Science Data Analysis: Issues and Examples”. Proceedings of Second International Conference on Knowledge Discovery and Data Mining (KDD-96), AAAI Press. • Data Mining, Paulo Abadie Guedes, Eduardo Aranha – Documento de Datamining, 16-01-2004, 14H30; • Implementação e Desenvolvimento de uma Grade Computacional, Grupo COMCIDIS, coordenação de Ciência da 17 18