Mineração de Dados MINERAÇÃO DE DADOS Conceitos / Autores chave................................................. 3 1. Introdução...................................................................... 4 2. Conceitos de Mineração de Dados............................. 5 3. Aplicações de Mineração de Dados........................... 7 4. Ferramentas de Mineração de Dados........................ 8 5. Conclusões................................................................... 9 Materiais complementares.............................................. 9 Bibliografia......................................................................10 Curso - Mineração de Dados Universidade Anhembi Morumbi Sumário Conceitos / Autores-chave Dados Conjunto de fatos F, como instâncias de um banco de dados. Por exemplo, uma coleção de n cadastros de pessoa física contendo idade, profissão, renda etc. Padrão Expressão E em uma linguagem L descrevendo fatos em um subconjunto FE de F. E é chamado padrão se for mais simples do que a enumeração de todos os fatos em FE. Por exemplo, o padrão: “Se renda < $r então a pessoa não recebe financiamento” seria aplicável para uma escolha apropriada de r. Processo Geralmente em KDD, processo é uma seqüência de vários passos que envolve preparação de dados, pesquisa de padrões, avaliação de conhecimento, refinação envolvendo iteração e modificação. Validade Compreensível Os padrões descobertos devem ser válidos em novos dados com algum grau de certeza. Por exemplo, se um limite de padrão de crédito é ampliado, então a medida de certeza diminuiria, uma vez que mais financiamentos seriam concedidos a um grupo até então restrito a esta operação. Novo Em geral, assume-se que “novidade” pode ser medida por uma função N(E,F), que pode ser uma função booleana ou uma medida que expresse grau de “novidade” ou “surpresa”. Exemplo de um fato que não é novidade: sejam E = “usa tênis” e F = “alunos de colégio” então N(E,F) = 0 ou N(E,F) = falso. Por outro lado: sejam E = “bom pagador” e F = “trabalhador da construção civil” então N(E,F) = 0,85 ou N(E,F) = true. Potencialmente útil Padrões devem levar potencialmente à alguma atitude prática, conforme medidos por alguma função de utilidade. Por exemplo, regras obtidas no processo podem ser aplicadas para aumentar o retorno financeiro de uma instituição. Um dos objetivos de KDD é tornar padrões compreensíveis para humanos, visando promover uma melhor compreensão dos próprios dados. Embora seja um tanto subjetivo medir compreensibilidade, um dos fatores freqüentes é a medida de simplicidade. Por exemplo: o log (registro de acessos) de um servidor Web não é uma representação compreensível; já fatos estatísticos extraídos deste log, tais como totais de acesso ou classificação dos acessos realizados, fornecem informação num formato mais intuitivo e de granularidade humanamente compreensível. Pontos Críticos Diferenças entre Mineração de Dados (Data Mining - DM) e Descoberta de Conhecimento em Banco de Dados (Knowledge Discovery in Database - KDD) Knowledge Discovery in Databases, KDD, ou Descoberta de Conhecimento em Bancos de Dados, é o processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados. Curso - Mineração de Dados Universidade Anhembi Morumbi Descoberta de conhecimento em bancos de dados (KDD) é o processo não trivial de identificar em dados padrões que sejam válidos, novos (previamente desconhecidos), potencialmente úteis e compreensíveis, visando melhorar o entendimento de um problema ou um procedimento de tomada de decisão (Félix, 1998). Enquanto, Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável. KDD utiliza algoritmos de mineração de dados para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados. Mineração de dados é o principal passo do KDD, que consiste na exploração e análise dos dados, por meios automáticos ou semiautomáticos, em grandes quantidades de dados, com o objetivo de descobrir regras ou padrões interessantes. Um conceito muito difundido e errado sobre mineração de dados é o que define os sistemas de mineração de dados como sistemas que podem automaticamente minerar todos os conceitos valiosos que estão escondidos em um grande banco de dados sem intervenção humana. Quando na realidade, se trata de um processo altamente cooperativo entre homens e máquinas, que visa à exploração de grandes bancos de dados, com o objetivo de extrair conhecimento por meio do reconhecimento de padrões e relacionamento entre variáveis, conhecimentos esses que podem ser obtidos por técnicas comprovadamente confiáveis e validados pela sua expressividade estatística. A cada dia, as bases de dados das organizações vêm assumindo maiores proporções, e extrair informação útil a partir desta grande quantidade de dados passou a ser uma tarefa fundamental. Infelizmente, a extração realizada apenas por consultas rotineiras dos usuários não mais satisfaz a esta necessidade e são precisas outras formas de extração para que informações sejam descobertas a partir desta massa de dados, principalmente aquelas ocultas, imperceptíveis à intuição ou aos olhos humanos. Neste cenário, a mineração de dados surgiu como uma solução extremamente útil às organizações que querem melhor explorar a informação que possuem em seus repositórios de dados (Mendonça, 2002). Segundo (Fayyad et al 1996), mineração de dados “é o processo de descoberta de padrões válidos, novos, potencialmente úteis e compreensíveis, embutidos nos dados”. Um claro exemplo de mineração de dados é o caso de uma loja, que a partir de sua base de dados com informações sobre seus clientes e suas compras, pode traçar perfis de grupos de clientes, e até mesmo de cada cliente individualmente, classificando-os como desejar, por exemplo, como adimplente ou inadimplente. Curso - Mineração de Dados Universidade Anhembi Morumbi 1. Introdução Nos diferentes segmentos da sociedade, as instituições têm buscado na tecnologia recursos que agreguem valor aos seus negócios, seja agilizando operações, suportando ambientes ou viabilizando inovações. As ferramentas e técnicas empregadas para análise inteligente destes imensos repositórios são os objetos tratados pelo campo emergente da Descoberta de Conhecimento em Bancos de Dados, da expressão em inglês Knowledge Discovery in Databases (KDD). Diariamente, pessoas e instituições disponibilizam dados oriundos de tarefas cotidianas, a estas plataformas tecnológicas, através de simples atividades como compras no supermercado do bairro ou operações bancárias. Os sistemas de computação participam da vida das pessoas de forma cada vez mais próxima e constante. Não obstante, institutos científicos, indústrias, corporações e governos acumulam volumes gigantescos de dados, impulsionados também pela versatilidade e alcance, proporcionados pela Internet. Na verdade, KDD é um processo mais amplo consistindo das seguintes etapas, como ilustrado na figura a seguir: Esta ampla disponibilidade de imensas bases de dados, aliada à eminente necessidade de transformar tais dados em informação e conhecimento úteis para o suporte à decisão, têm demandado investimentos consideráveis da comunidade científica e da indústria de software. A informação e o conhecimento obtidos podem ser utilizados para diversas aplicações, que vão do gerenciamento de negócios, controle de produção e análise de mercado ao projeto de engenharia e exploração científica. Mineração de dados é a etapa em KDD responsável pela seleção dos métodos a serem utilizados para localizar padrões nos dados, seguida da efetiva busca por padrões de interesse numa forma particular de representação, juntamente com a busca pelo melhor ajuste dos parâmetros do algoritmo para a tarefa em questão. Mineração de Dados trata-se de extrair ou minerar conhecimento de grandes volumes de dados. Muitas pessoas consideram o termo Mineração de Dados como sinônimo de Knowledge Discovery in Databases (KDD) ou Descoberta de Conhecimento em Banco de Dados. Processo de Descoberta de Conhecimento em Banco de Dados (KDD) 1. Limpeza dos dados: etapa onde são eliminados ruídos e dados inconsistentes. Universidade Anhembi Morumbi 2. Conceitos de Mineração de Dados 2. Integração dos dados: etapa onde diferentes fontes de dados podem ser combinadas produzindo um único repositório de dados. Curso - Mineração de Dados 3. 4. Transformação dos dados: etapa onde os dados são transformados num formato apropriado para aplicação de algoritmos de mineração (por exemplo, através de operações de agregação). 5. Mineração: etapa essencial do processo consistindo na aplicação de técnicas inteligentes, a fim de se extrair os padrões de interesse. 6. Avaliação ou Pós-processamento: etapa onde são identificados os padrões interessantes de acordo com algum critério do usuário. 7. Visualização dos Resultados: etapa onde são utilizadas técnicas de representação de conhecimento, a fim de apresentar ao usuário o conhecimento minerado. O autor, (ZAIANE, 2000), afirma que atualmente as empresas são pobres em informação, mas ricas em dados. Com o intuito de facilitar a análise e visualização de dados, bem como a descoberta de informações úteis à tomada de decisão, é que surgiram as ferramentas de mineração de dados, ou seja, ferramentas computacionais que procuram por informações em grandes bases de dados, informações ditas como não triviais. Estas informações são ditas não triviais, pois não seriam encontradas ou percebidas por simples sistemas de análise, e as mesmas são de caráter desconhecido até a sua mineração. O autor afirma que o objetivo da mineração não é o de encontrar um “alfinete” em um “monte de feno”, pois os sistemas gerenciadores de banco de dados “sabem” como realizar esta tarefa, mas sim, tentar entender qual será a conseqüência da existência deste “alfinete”, caso ele realmente exista. A mineração de dados encontra-se como uma das etapas que formam o processo maior, denominado Descoberta de Conhecimento em Base de Dados (KDD). Este processo constitui-se em várias etapas, as quais foram citadas acima. Essas etapas juntas propiciam a descoberta de conhecimento. Como exemplo de uma aplicação prática de KDD e mineração de dados, REATEGUI e FELDENS (2000), descrevem o caso de aplicação em base de dados que continham informações sobre o histórico de pacientes, informações sobre hospitais bem como, o perfil de atuação dos médicos credenciados. Através do uso de mineração a empresa intitulada Golden Cross descobriu que os segurados que mais cancelavam o seguro de saúde eram os que menos faziam uso do mesmo. A descoberta possibilitou a criação de uma campanha para retenção destes clientes. Curso - Mineração de Dados Universidade Anhembi Morumbi Seleção: etapa onde são selecionados os atributos que interessam ao usuário. Por exemplo, o usuário pode decidir que informações como endereço e telefone não são relevantes para decidir se um cliente é um bom comprador ou não. 3. Aplicações em Mineração de Dados Importante Os resultados obtidos com a mineração de dados podem ser usados no gerenciamento de informação, processamento de pedidos de informação, tomada de decisão, controle de processo e muitas outras aplicações. A mineração de dados pode ser aplicada de duas formas: como um processo de verificação e como um processo de descoberta (Groth, 1998). No processo de verificação, o usuário sugere uma hipótese acerca da relação entre os dados e tenta prová-la aplicando técnicas como análises estatísticas e multidimensionais sobre um banco de dados contendo informações passadas (abordagem top-down). No processo de descoberta não é feita nenhuma suposição antecipada (abordagem bottom-up). Analisa os dados e extrai padrões. Esse processo usa técnicas, tais como descoberta de regras de associação, árvores de decisão, algoritmos genéticos e redes neurais. A tecnologia de mineração de dados pode ser aplicada a uma grande variedade de áreas, tais como: Saúde As aplicações incluem a análise da eficácia de certos tratamentos; a otimização de processos dentro de um hospital e a análise de efeitos colaterais de drogas. Marketing as aplicações incluem a análise do comportamento do consumidor com base em padrões de compra; a determinação de estratégias de marketing, incluindo propaganda, localização de lojas e mala direta; a segmentação de clientes, lojas ou produtos; bem como, o projeto de catálogos, o layout de lojas e campanhas publicitárias. Indústria As aplicações envolvem a otimização de recursos como equipamentos, força de trabalho e matéria-prima; o projeto ótimo de processos de produção e projetos de produtos com base nas exigências dos clientes. Finanças As aplicações incluem a análise da avaliação para concessão de créditos a clientes, segmentação de contas a receber, análise de desempenho de investimentos financeiros como ações e detecção de fraudes. Outras Aplicações Ciência Técnicas de mineração de dados podem ajudar cientistas em suas pesquisas, por exemplo, encontrar padrões em estruturas moleculares, dados genéticos, mudanças globais de clima, oferecendo conclusões valiosas rapidamente. Diversas áreas de conhecimento começam a utilizar técnicas de mineração de dados, visando conhecer e identificar padrões até então desconhecidos. Entre essas áreas destacam-se a área de seguros, bancos, comunicações e exploração de petróleo. Curso - Mineração de Dados Universidade Anhembi Morumbi Os principais objetivos da mineração de dados são descobrir relacionamentos entre dados e fornecer subsídios para que possa ser feita uma previsão de tendências futuras baseadas no passado. 4. Ferramentas de Mineração de Dados Entretanto, segundo os autores, a conexão rígida entre a ferramenta de descoberta de conhecimento e a base de dados analisada, utilizando o suporte do SGBD (Sistema de Gerenciamento de Banco de Dados) existente, é claramente desejável. Para Goebel e Gruenwald (O’BRIEN, 2007), as características a serem consideradas na escolha de uma ferramenta de mineração de dados devem ser as seguintes: A habilidade de acesso a uma variedade de fontes de dados, de forma on-line e off-line; A capacidade de incluir modelos de dados orientados a objetos ou modelos não padronizados (tal como multimídia, espacial ou temporal); A capacidade de processamento com relação ao número máximo de tabelas/tuplas/atributos; A capacidade de processamento com relação ao tamanho do banco de dados; Variedade de tipos de atributos que a ferramenta pode manipular; e Tipo de linguagem de consulta. Existem ferramentas que implementam uma ou mais técnicas de mineração de dados. A tabela abaixo relaciona algumas dessas ferramentas, fornecendo informações tais como: a empresa fornecedora, as técnicas implementadas de mineração de dados e exemplos de aplicações. FERRAMENTA/ EMPRESA FORNECEDORA TÉCNICAS DE MINERAÇÃO DE DADOS APLICAÇÕES AIRA / Hycones IT (1998) Regras de associação Gerenciamento de relacionamento de cliente, Marketing, detecção de fraude, controle de processo e controle de qualidade. Alice 5.1 Isoft A.S. (1998) Árvore de decisão Raciocínio baseado em casos Política de crédito, marketing, saúde, controle de qualidade, recursos humanos. Clementine / Integral Solutions Limited (ISL, 1996) Indução de regras Árvores de decisão Redes neurais Marketing direto, identificação de oportunidades de venda cruzada, retenção de cliente, previsão de lucro do cliente, detecção de fraude, segmentação e lucro do cliente. DataMind / DataMind Technology Center (1998), (Groth, 1998) (abordagem própria) Não identificadas. Decision Series / Neovista Solutions Inc. (1998) Árvore de decisão Métodos estatísticos Indução de regras Redes neurais Marketing direcionado, detecção de fraude, retenção de cliente, análise de risco, segmentação de cliente, análise de promoção. Intelligent MIner / IBM (1997) Árvores de decisão Redes neurais Segmentação de cliente, análise de conjunto de itens, detecção de fraude. KnowledgeSEEKER / Angoss IL (Groth, 1998) Árvores de decisão Indução de regras Lucro e segmentação de cliente para detecção de fraude e análise de risco, controle de processo, marketing direto. MineSet / Silicon Graphics Computer Systems (2000) Métodos estatísticos Árvores de decisão Indução de regras Áreas da saúde, farmacêutica, biotecnologia e química. NeuralWorks Predict / NeuralWare (Groth, 1998) Rede neural Indústria PolyAnalyst / Megaputer Intelligence Ltd. (1998) Algorítmo genético Métodos estatísticos Indução de regras Marketing direto, pesquisa médica, análise de conjunto de itens. Universidade Anhembi Morumbi Muitas ferramentas atualmente disponíveis são ferramentas que geralmente operam separadamente da fonte de dados, requerendo uma quantidade significativa de tempo gasto com exportação e importação de dados, pré e pós-processamento e transformação de dados. Ferramentas de Mineração de Dados Curso - Mineração de Dados 5. Conclusões A aplicação de mineração de dados pode ser justificada por questões do tipo: grande aumento no volume de dados devido às novas tecnologias; o poder computacional está disponível através de diversos fabricantes de hardware e software, o que permite a diminuição de custos e popularização de tecnologia e o aumento da pressão da competição entre empresas. A aplicação da mineração de dados, atualmente pode ser vista como um diferencial competitivo, pois a descoberta de perfil de clientes permite um tratamento individualizado pela oferta de produtos direcionados, sendo aplicado em larga escala em uma nova área denominada marketing de precisão (REATEGUI e FELDENS, 2000). A mineração, dos dados no ambiente da Internet, apresenta-se como uma aplicação e área de pesquisa com excelentes perspectivas de futuro devido à variedade de informações disponíveis na mesma, sendo uma das principais áreas de aplicação no mercado atual. Materiais complementares Fayyad, U. M.; Piatesky-Shapiro, G.; Smyth, P. “From Data Mining to Knowledge Discovery: An Overview”. In: Advances in Knowledge Discovery and Data Mining, AAAI Press, 1996. GORDON, J. R.; Gordon, Steven R. Sistemas de Informação: Uma abordagem Gerencial. LTC, 2006. Goebel, M. and Gruenwald, L. 1999. A survey of data mining and knowledge discovery software tools. SIGKDD Explor. Newsl. 1, 1 (Jun. 1999), 20-33. Disponível em: http://doi.acm.org/10.1145/846170.846172 Curso - Mineração de Dados Universidade Anhembi Morumbi A aplicação de ferramentas e técnicas de mineração permite a descoberta de informações ou conhecimento, que até a mineração, estavam armazenados fisicamente na base de dados da empresa, porém, não eram percebidos por não serem triviais ou explícitos. Bibliografia Félix, L. C. M. Data Mining no Processo de Extração de Conhecimento de Base de Dados. Instituto de Ciências Matemáticas e de Computação, São Carlos, Universidade de São Paulo, 1998. O’BRIEN, James A. Sistemas de Informação e As Decisões Gerenciais na Era da Internet. São Paulo: Saraiva, 2007. REATEGUI, Eliseo; FELDENS, Miguel. Roadmaps para projetos de Marketing de precisão. Hycones Information Technology. Disponível em: http://www.marketingdeprecisao.com.br/ dm_roadmaps.doc. Acesso em: 15 de maio 2001. ZAIANE, Osmar R., WEB Mining: Concepts, Practices and Research. In: Simpósio Brasileiro de Banco de Dados, Tutorial, XV SBBD, 2000, João Pessoa. Anais. João Pessoa: SBBD, 2000. p. 410-474. Universidade Anhembi Morumbi HACKNEY, Douglas. Data Warehouse Delivery: Who are You? Part I. DM Review Magazine, v.8, n. 2, 1998. Curso - Mineração de Dados 10