INSTITUTO VIANNA JÚNIOR LTDA FACULADE DE CIENCIAS ECONOMICAS VIANNA JUNIOR DATA MINING - EXTRAÇÃO E EXPLORAÇÃO DE CONHECIMENTO. Lúcia Helena de Magalhães1 Márcio Aarestrup Arbex2 Resumo Este artigo tem como objetivo fundamentar a técnica de Data Mining para extração e exploração de conhecimento e sua aplicabilidade nas organizações empresariais. Palavras Chaves: Data Mining, Mineração de Dados, Conhecimento e Informação 1 Lúcia Helena de Magalhães, Pós Graduada em Desenvolvimento de Aplicações para Web pelo Centro de Ensino Superior, Pós Graduada em Matemática e Estatística pela Universidade Federal de Lavras e Mestranda em Sistemas Computacionais – Computação de Auto-Desempenho pela Universidade Federal do Rio de Janeiro. Professora de Computação na Universidade Presidente Antonio Carlos e Professora no Curso de Desenvolvimento Web da Faculdade de Ciências Econômicas Vianna Júnior. [email protected] 2 Márcio Aarestrup Arbex, Pós Graduado em Sistema de Informação pela Universidade Federal de Viçosa. Professor de Computação na Universidade Presidente Antonio Carlos e Professor de Sistema de Informação na Faculdade Doctum. Administrador de Sistemas da BrasilCenter – Embratel. [email protected] Houve um tempo em que a superioridade empresarial era associada à abundância de capital financeiro. Os líderes de mercado defendiam suas posições basicamente ganhando mais que seus competidores. Essa estratégia não é mais um fator preponderante. No ambiente comercial moderno, a informação é um dos bens mais valiosos que uma empresa pode usar para sobreviver às batalhas competitivas e defender sua posição no mercado. O capital intelectual alcançou um status igual - se não superior - ao do capital financeiro. Aumentar a potencialidade do capital intelectual de uma empresa é, então, uma necessidade competitiva. Com o crescente aumento no número de informações e de dados armazenados em meio eletrônico, as organizações, em suas operações diárias, geram e coletam grandes volumes de dados, porém não são capazes de aplicá-los plenamente, pois as informações úteis estão implícitas e são de difícil compreensão (DILLY, 1995). Para se manterem competitivas no mercado, as organizações precisam identificar as informações importantes e utilizá-las no processo de tomada de decisões (IBM, 1996). Para tanto, necessitam de técnicas de análises de dados automatizadas que as ajudem a encontrálas (LUBEL, 1998). Neste contexto, está o processo de descoberta de conhecimento, no qual Data Mining se apresenta como a principal etapa. Data Mining ou Mineração de Dados é o processo de descobrir conhecimentos interessantes a partir de grandes conjuntos de dados, os quais podem estar armazenados em bases de dados, data warehouse 3 ou em outros repositórios de dados. É o processo de análise de conjuntos de dados que tem por objetivo a descoberta de padrões interessantes e que possam representar informações úteis A grande meta do Data Mining é permitir a uma empresa aumentar suas operações de marketing, vendas e apoio a clientes através da melhor compreensão destes, ou seja, o processo de Data Mining permite que se investigue informações de clientes à procura de padrões que tenham valor para a empresa. Contudo, embora essa idéia básica seja facilmente compreensível, fica sempre uma dúvida sobre como um sistema é capaz de obter esse tipo de relação. Sistemas avançados, através do uso de algoritmos e métodos estatísticos, são capazes de explorar um grande conjunto de dados, extraindo destes conhecimentos 3 Métodos de armazenamento de dados históricos e integrados para serem utilizados em sistemas de apoio a decisões. necessários para o apoio à tomada de decisões. Diariamente as empresas acumulam diversas informações em seus bancos de dados, tornando-os verdadeiros tesouros de informação sobre os vários processos e procedimentos das funções da empresa, inclusive com dados e hábitos de seus clientes, suas histórias de sucesso e fracassos. Todos esses dados podem contribuir com a empresa, sugerindo tendências e particularidades pertinentes a ela e seu meio ambiente interno e externo, visando uma rápida ação de seus gestores (FELDENS, 1999). Informática Grande quantidade de dados (Dados ricos, mas informações Data Warehouse, Data Mining Informações úteis e conhecimentos O´BRIEN, de J. A. (2004) Algumas das indústrias mais ricas de informações, como as de telecomunicações e serviços financeiros estão aprimorando o uso dos seus Data Warehouses. As empresas desses setores da economia que são ricos em informações possuíam há um bom tempo dados e recursos para executar o Data Mining. Agora, pela primeira vez, têm um forte incentivo comercial para fazê-lo. As indústrias que não têm sido tradicionalmente ricas em informações estão se esforçando para se tornar. Várias tendências estão aumentando a importância competitiva da informação: economia crescente baseada nos serviços, personalização em massa, crescente importância da informação. Um exemplo é a gestão dos relacionamentos com os usuários de uma empresa telefônica de grande porte. Uma das atuais preocupações é a perda de clientes que vem reduzindo margens de lucro severamente. Sabe-se que o custo de manter o cliente é significativamente menor que o custo de trazê-lo de volta depois que ele o deixar, então é necessário encontrar uma forma eficiente. A solução tradicional para resolver esse problema é escolher os bons clientes e tentar convencê-los a assinar um plano de mais um ano de serviço. Essa solução poderia envolver algum tipo de brinde ou talvez um desconto no plano tarifário. O valor do brinde seria baseado na quantia gasta, ficando os grandes gastadores com os melhores brindes. Esta solução será, provavelmente, muito dispendiosa. Existem, sem dúvida, muitos "bons" clientes que concordariam em permanecer com a empresa mesmo sem receber um brinde caro. Os clientes que merecem mais atenção são aqueles propensos a deixá-lo. Não há preocupação com aqueles que permanecem. Essa solução para a perda de clientes não seria o caminho ideal. Ao invés de oferecer ao cliente alguma coisa que é de grande valor à companhia, deve-se oferecer alguma coisa proporcional aos mesmos. Um cliente consumidor em potencial poderia valorizar o relacionamento em função da alta confiabilidade de seus serviços e, portanto, não precisaria de um brinde para. Por outro lado, um cliente que utiliza as funcionalidades topo de linha dos aparelhos e sempre contrata serviços especiais pode querer um novo aparelho ou outro brinde para manter-se fiel por mais outro ano. Ou simplesmente preferirem tarifas melhores para chamadas noturnas porque têm telefones em seus empregos e devem pagar pelas ligações fora do horário comercial. O ideal seria determinar o tipo de cliente com o qual a companhia está lidando. É importante, neste processo, considerar o tempo. Esperar até a última semana do vencimento do contrato do cliente para mandar uma oferta, tentando prevenir sua perda, pode ser inútil. Nesta época, já estarão decididos sobre o que farão e a chance de mudar essa decisão é tardia. Por outro lado, o processo não pode iniciar imediatamente após a contratação de um novo cliente: deveria acontecer meses antes que ele tenha alguma percepção do valor dos serviços prestados pela companhia. A chave é encontrar o ponto ideal, originado do entendimento do mercado e dos clientes, usando o data mining para encontrar automaticamente o ponto ótimo. Com as ferramentas do Data Mining é possível a "mineração" destes dados, a fim de gerar-lhes um real valor, transformando-o em informação e conhecimento. Dessa forma, a Mineração dos Dados é um processo que permite compreender melhor a análise dos dados, usando técnicas de aprendizagem para encontrar padrões e regularidades nesses conjuntos de dados, obtendo informação para ser bem aplicada em diversas áreas de negócios. Referências Bibliográficas A. Zanasi (edited by), Text Mining and its Applications to Intelligence, CRM and Knowledge Management, WITPress, 2005. BERSON, A.; SMITH S.; THEARLING K. Building Data Mining Applications for CRM. McGraw Hill, 2000. DILLY, R. Data Mining - an introduction. Parallel Computer Centre - Queen's University of Belfast. Dezembro, 1995. FAYYAD, U.; PIATETSKI-SHAPIRO, G.; SMYTH, P.The KDD Process for Extracting Useful Knowledge from Volumes of Data. In: Communications of the ACM, pp.27-34, Nov.1996 FELDENS, M. A.; CITOLIN, J. M. & FRIGERI, S. R. Metodologias para Implementação da Inteligência do Negócio: desenvolvimento de sistema de informação para Database Marketing. Caxias do Sul: Revista CCET-UCS, 1999. GROTH, R. Data Mining, A Hands-on Approach for Business Professionals. Prentice-Hall PTR, 1998 IBM. IBM'S data mining technology. White Paper, 1996. LUBEL, K. S. Data mining: a new way to find answers. White Paper. University of Maryland European Division, 1998. O´BRIEN, de J. ª Sistemas de Informação e as Decisões Gerenciais na Era da Internet. Saraiva, 2004. S.M. Weiss, N. Indurkhya, T. Zhang and F. L. Damerau. Text Mining: Predictive Methods for Analyzing Unstructured Information, Springer, 2005. Scime, Web Mining: Application and Techniques, Idea Group Pub. 2005.