XI SIMPEP - Bauru, SP, Brasil, 08 a 10 de novembro de 2004
Data Mining na Web para Inteligência Competitiva
Simone de Almeida (CEFET/PR) [email protected]
Rui Francisco Martins Marçal (CEFET/PR) [email protected]
Luciano Scandelari (CEFET/PR) [email protected]
Resumo
Estudos sobre a relevância do conhecimento organizacional têm sido cada vez mais
freqüentes nos últimos anos. A tecnologia passa a ser o ponto fundamental para possibilitar a
conquista da excelência, possuindo como aliados a rede mundial, sistemas de informação e
os computadores. A tecnologia da informação e da comunicação derruba as fronteiras entre
países, criando novas oportunidades de negócio e trazendo, atrelada a si, uma crescente
concorrência. A tecnologia aproxima as pessoas, as comunidades e os países, possibilitando
que informações e conhecimentos possam ser trocados com grande facilidade. A dificuldade
encontrada deve-se ao fato de que o valor não se encontra no domínio da informação, mas
em como trabalhar com o conhecimento a ela relacionado. Este artigo mostra alguns tipos de
aplicações de Sistema Baseado em Conhecimento (SBC), o processo de desenvolvimento de
um SBC apresentando algumas perspectivas futuras e uma aplicação prática de Web Mining.
Palavras-chave: Conhecimento, Data Mining, Inteligência Competitiva.
1.Introdução
No início da década de 90, a idéia de “organização voltada para o aprendizado” foi difundida
por Senge (1990), cuja base teórica é a de que as empresas conquistam suas vantagens
competitivas através de sua capacidade de aprender consigo mesmas e com outras
organizações.
A empresa é um conjunto de pessoas trabalhando para produzir algo: produtos, serviços ou
ambos. A eficácia com que elas realizam suas atividades está apoiada no conhecimento
adquirida e acumulada nas rotinas, nos processos, na capacidade de seus colaboradores e nos
equipamentos de produção. Leonad-Barton (1998) amplia este conceito e preconiza que as
organizações, além de “instituições financeiras”, são, antes de tudo, “instituições do saber”.
Quando se fala em conhecimento, Rezende (2003) apresenta algumas hipóteses e delimitações
que são necessárias. Em primeiro lugar, pode-se pensar em níveis de conhecimento: fatos
(relações arbitrárias entre objetos, símbolos, eventos etc); conceitos (resultam de idéias
abstratas); regras (conjunto de operações e passos que orientam a ação, desenvolvidas a partir
da análise de fatos e conceitos, correspondente a aplicação do conhecimento) e metaregras
(responsável pela criação e aplicação de novas regras e situações novas, correspondentes à
geração de conhecimento novo). Uma decisão passa a ser o uso explícito de um
conhecimento.
O tipo de conhecimento necessário à solução dos problemas existentes determina quais fontes
de informação, e suas disponibilidades, serão utilizadas pelos indivíduos. Isto significa que
conhecimento pode ser gerado de diversas maneiras, a partir da combinação adequada de
diferentes informações. Assim, uma decisão pode ser tomada por meio da análise lógica
XI SIMPEP - Bauru, SP, Brasil, 08 a 10 de novembro de 2004
(apoiada em dados obtidos de relatórios, entrevistas e outros meios) ou pode estar embasada
em dados heurísticos ou intuitivos (REZENDE, 2003).
A extração de Conhecimento, geralmente referenciada na literatura como Knowledge
Discovery in Database (KDD) ou Mineração de Dados (MD) ou ainda Data Mining (DM), é
uma área multidisciplinar que incorpora técnicas utilizadas em diversas áreas como Base de
Dados, Inteligência Artificial e Estatística. A definição aceita de DM foi elaborada por
Fayyad, Piatetsky-Shapiro, & Smyth (1996a) como sendo: “Extração de Conhecimento de
Base de Dados é o processo de identificação de padrões válidos, novos, potencialmente úteis
e compreensíveis embutidos nos dados”.
2.O processo de Data Mining
Há muitas abordagens para a divisão das etapas do processo de Extração de Conhecimento.
Inicialmente foi proposto por Fayyad, Pietetsky-Shapiro, & Smyth (1996b) uma divisão do
processo em nove etapas. Já em Weiss & Indurkhya (1998), essa divisão é composta por
apenas quatro etapas. No entanto, Rezende (2003) propõem três grandes etapas: Préprocessamento, Extração de Padrões e Pós-processamento. Foram incluídas nessa divisão uma
fase anterior ao processo de Data Mining, que se refere ao conhecimento do domínio e
identificação do problema, e uma fase posterior ao processo, que se refere à utilização do
conhecimento obtido.
Na primeira fase é realizado um estudo do domínio da aplicação e a definição de objetivos e
metas a serem atingidas no processo de Data Mining. Algumas questões importantes devem
ser respondidas segundo Rezende (2003), nessa fase de identificação do problema, como:
- Quais são as principais metas do processo?
- Quais critérios de desempenho são importantes?
- O conhecimento extraído deve ser compreensível a seres humanos ou um modelo do tipo
caixa-preta é apropriado?
- Qual deve ser a relação entre simplicidade e precisão do conhecimento extraído?
Além dessa análise inicial para a definição das principais metas, objetivos e restrições, o
conhecimento sobre o domínio fornece um subsídio para todas as etapas do processo de
Extração de Conhecimento. Esse conhecimento pode ajudar na escolha do melhor conjunto de
dados para se realizar a extração de padrões. Na fase de Extração de Padrões, o conhecimento
sobre o domínio pode ajudar na escolha de um critério de preferência entre modelos gerados,
no ajuste dos parâmetros do processo de indução, ou mesmo na obtenção de um conhecimento
inicial a ser estabelecido como entrada do algoritmo de mineração para aumentar a eficiência
no aprendizado dos conceitos e melhorar a precisão do modelo final. Na última etapa, o
conhecimento adquirido pelos algoritmos de Extração de Padrões deve ser avaliado.
Na segunda fase, Pré-processamento, os dados disponíveis para análise, geralmente não estão
num formato adequado para a Extração de Conhecimento. Diversas transformações nos
dados podem ser realizadas, entre elas:
- Extração e Integração: os dados disponíveis podem se apresentar em diversos formatos,
como arquivo-texto, arquivos no formato de planilhas, Banco de Dados ou Data
Warehouse. Dessa forma, há necessidade de unificação, a qual será aplicada como entrada
para o algoritmo de Extração de Padrões.
- Transformação: após a extração e integração dos dados, algumas transformações podem
ser realizadas aos dados, como: resumo, quando dados sobre vendas são agrupados para
XI SIMPEP - Bauru, SP, Brasil, 08 a 10 de novembro de 2004
-
-
formar resumos diários. As transformações de dados são extremamente importantes em
alguns domínios, por exemplo, em aplicações que envolvem dimensões temporais como
predições no mercado financeiro.
Limpeza: os dados disponíveis para aplicação dos algoritmos de Extração de Padrões
podem apresentar problemas advindos do processo de coleta. Esses erros podem ser de
digitação ou leitura de dados pelos sensores. Como o resultado do processo de extração
geralmente será aplicado em um processo de tomada de decisão, a qualidade dos dados é
um fator extremamente relevante. A Limpeza dos dados pode ser realizada utilizando o
conhecimento do domínio. Por exemplo, pode-se encontrar registros com valor inválido
em algum atributo, granularidade incorreta ou exemplos errôneos.
Seleção e Redução de Dados: em virtude das restrições de capacidade de memória ou
desempenho (tempo de processamento), o número de exemplos e de atributos disponíveis
para análise pode inviabilizar a utilização de algoritmos de Extração de Padrões. Como
solução pode ser aplicado um método para redução dos dados antes de começar a busca de
padrões. Esta redução pode ser realizada de três formas (WEISS & INDURKHYA, 1998):
redução do número de exemplos, de atributos ou de valores de um atributo.
A fase de Extração de Padrões é direcionada ao cumprimento dos objetivos definidos na
Identificação do Problema. Nessa fase é realizada a escolha, configuração e execução de um
ou mais algoritmos para extração do conhecimento, portanto compreende a escolha da tarefa
de Data Mining a ser aplicada, a definição do algoritmo e a extração dos padrões
propriamente dita. A disponibilização do conjunto de padrões extraídos é incorporada a um
Sistema Inteligente, ocorrendo após a análise e/ou o processamento dos padrões na etapa de
Pós-processamento.
A última fase de Pós-processamento, a obtenção do conhecimento não é o passo final do
processo de Extração de Conhecimento. O conhecimento extraído pode ser utilizado na
resolução de problemas da vida real, seja por meio de um Sistema Inteligente ou de um ser
humano como apoio a algum processo de tomada de decisão Para isso é importante que
algumas questões sejam respondidas aos usuários (LIU & HSU, 1996):
- O conhecimento extraído representa o conhecimento do especialista?
- De que maneira o conhecimento do especialista difere do conhecimento extraído?
- Em que parte o conhecimento do especialista está correto?
Os algoritmos de Extração de Padrões podem gerar uma quantidade enorme de padrões,
muitos dos quais podem não importantes, relevantes ou interessantes para o usuário. Diversas
medidas para avaliação de conhecimento tem sido pesquisadas com a finalidade de auxiliar o
usuário no entendimento e na utilização do conhecimento adquirido. Estas medidas podem ser
divididas entre medidas de desempenho e medidas de qualidade. Um dos objetivos principais
do Processo de Extração do Conhecimento é que o usuário possa compreender e utilizar o
conhecimento descoberto. Após a análise do conhecimento, caso este não seja de interesse do
usuário final ou não cumpra com os objetivos propostos, o processo de extração pode ser
repetido ajustando-se os parâmetros ou melhorando o processo de escolha dos dados para a
obtenção de resultados melhores numa próxima iteração.
3. Tecnologias de Suporte à Data Mining
O processo de Data Mining é feito incorporando-se várias técnicas de diferentes áreas como
(REZENDE, 2003):
XI SIMPEP - Bauru, SP, Brasil, 08 a 10 de novembro de 2004
-
-
-
-
Aprendizado de Máquina: extrair conhecimento de Bases de Dados pode envolver, entre
outras coisas, a utilização de algoritmos de Aprendizagem de Máquina capazes de
generalizar os exemplos encontrados em um grande repositório de dados na forma de
regras de alto nível compreensíveis ao ser humano. As técnicas de Aprendizagem de
Máquina parecem estimular muito os pesquisadores da área e talvez a parte do processo
de Data Mining que contenha substancialmente os maiores conteúdos científicos.
Data Warehousing: é um processo, para montar e gerenciar repositórios de dados a partir
de várias fontes com o propósito de ter uma visão detalhada e singular de parte ou do todo
de um negócio. O produto final obtido de um projeto de Data Warehousing é o seu Data
Warehouse.
Estatísticas: é a área da matemática que estuda a coleta, organização e interpretação de
dados numéricos, especialmente a análise das características da população por inferências
a partir de amostras. As técnicas de estatísticas possuem importância dentro do processo
Data Mining. Boa parte dos métodos utilizados em Data Mining tiveram suas origens
dentro da Estatística (DEGROOT, 1986).
Visualização de Dados: as técnicas e ferramentas para Visualização de Dados são
instrumentos indispensáveis ao processo de Data Mining. Elas podem ser usadas durante
a execução das etapas de extração de conhecimento melhorando a compreensão dos
resultados obtidos e a comunicação entre os usuários. As técnicas de Visualização de
Dados estimulam naturalmente a percepção e a inteligência humana, aumentando a
capacidade de entendimento e associação de novos padrões. Logo, a Visualização de
Dados utiliza a percepção humana como um primeiro método para descobrir valores.
Poderosas ferramentas de visualização que consigam gerar diversas formas de
visualização (árvores, regras, gráficos) combinadas com técnicas de Data Mining podem
melhorar muito o processo DM (FAYYAD, GRINSTEIN & WIERSE, 2002).
4. Algumas Perspectivas Futuras
Como Data Mining é uma área relativamente recente, diversas dificuldades e desafios estão
surgindo continuamente, as quais precisam ser atacadas, como:
- Interação com Usuário: muitas das tecnologias de Data Mining existentes não são
realmente interativas e não conseguem incorporar facilmente o conhecimento prévio a
respeito de um domínio de aplicação. O uso do conhecimento a priori relevante é de
grande importância para o processo de Data Mining (PAZZANI & KIBLER, 1992). Podese tentar incorporar um Sistema Baseado em Conhecimento para tentar colher o
conhecimento de especialistas em uma Base de Conhecimento;
- Interação com outros Sistemas: um sistema isolado de descobrimento pode não possuir
muita utilidade se ele não puder ser integrado a outros sistemas, como gerenciadores de
Bancos de Dados, ferramentas analíticas e de visualização;
- Suporte a Novas Tecnologias de Base de Dados: com a evolução da tecnologia de
armazenamento, os dados armazenados passarão a conter além de textos e números,
objetos gráficos, multimídias, bem como dados temporais, entre outros. Gerenciadores de
Base de Dados orientados a objetos podem tratar este tipo de problema de
armazenamento, facilitando a geração de metadados;
- Data Mining em um Ambiente de Rede e Distribuído: o rápido crescimento de recursos
disponíveis na Internet demanda uma grande necessidade por pesquisas para o
desenvolvimento de ferramentas, técnicas e sistemas que possam permitir a realização de
um processo de Data Mining nesse ambiente conectado e distribuído. Ainda, a tendência
da área de Data Mining é guiar-se para um descobrimento de conhecimento
“colaborativo” envolvendo uma equipe de analistas e especialistas do domínio que
XI SIMPEP - Bauru, SP, Brasil, 08 a 10 de novembro de 2004
utilizarão Bases de Dados distribuídas pela rede. A pesquisa atual de agentes inteligentes
é um começo para atingir os desafios impostos à área de Data Mining pelas novas
tecnologias de www (World Wide Web) e de Base de Dados multimídia (REZENDE,
2003).
Como qualquer área em desenvolvimento, novos desafios devem ser continuamente
superados. Uma síntese dessas tendências em termos de tipos de dados pode ser visualizada
na Figura 1.
Base de Dados Heterogênea,
Distribuída ou ligadas
Metadados
Texto
Data Mining em
Bases de Dados Relacionais
Multimídia
WEB
Tecnologias de Suporte à
Data Mining
Fonte: Rezende (2003, p.334)
FIGURA 1 – Tendências e perspectivas futuras
5. Web Mining
Uma Web Mining agrupa em três diferentes abordagens um conjunto de ferramentas que,
além de descobrir as fontes de informações relevantes, pretende mapear e analisar o padrão de
acesso e armazenamento de informações na Web. As três abordagens, mostradas na Figura 2,
têm sido largamente pesquisadas.
Web Mining
Web Mining
de conteúdo
Conteúdo de
Página
Web Mining
de estrutura
Resultado de
Busca
Padrão de acesso
geral
Web Mining
de uso
Personalização de
uso
Fonte: Rezende (2003, p. 366)
FIGURA 2 – Abordagem de Web Mining
-
Web Mining de Conteúdo:
A maioria das páginas da Web possui vários documentos, que podem ser analisados pelo
uso de procedimentos de Mineração de textos. Esses procedimentos têm a capacidade de
reestruturar o conteúdo dos documentos em uma representação apropriada para a
manipulação por programas que podem extrair o conhecimento dos documentos
propriamente ditos ou dos resultados de buscas por informações.
XI SIMPEP - Bauru, SP, Brasil, 08 a 10 de novembro de 2004
-
Web Mining de Estrutura:
Uma visão interessante em Web Mining é que a Internet possui mais informações que
somente o conteúdo de suas páginas. A referência cruzada entre sites ou páginas de um
mesmo site contém em si um conhecimento implícito a respeito do documento
propriamente dito. Essa técnica pretende analisar as referências realizadas na Web de
forma a descobrir páginas pertinentes a uma determinada área de conhecimento.
-
Web Mining de Uso:
Servidores Web armazenam dados em relação ao acesso e suas páginas de forma
permanente. Apesar de geralmente os registros de acesso serem limitados a análise desses
registros, eles podem explicar o comportamento de usuários que buscam informações
sobre determinado assunto e auxiliar na estruturação de um site. Alguns programas são
associados a esses registros para enriquecer a quantidade e o tipo de informação sobre o
acesso a determinado site. Em empresas que possuam Intranet, essa análise pode facilitar
e otimizar a infra-estrutura organizacional e formação de grupos de trabalho. Duas
tendências para análise desses dados mostram-se claras: a determinação de padrões de
acesso geral e a personalização de uso (REZENDE, 2003).
6. Uma aplicação Web Mining
Um grupo de empresários voltados para o turismo na Região Sul do Brasil resolveu montar
um sistema on-line que mantem empresas de pequeno e médio porte atualizadas com
informações que permite detectar áreas em regiões próximas ou distantes para comercializar
seus produtos e descobrir possíveis competidores / parceiros e suas ações nas áreas eleitas.
Trata-se de uma aplicação prática de Web Mining, que forneceu resultados significativos e
tem grande importância para a área de inteligência competitiva.
A Internet é agora um dos maiores repositórios mundiais de informação. Entretanto, a maioria
das informações disponíveis na Internet não está na forma mais adequada para ser tratada por
meios computacionais. Essas informações conhecidas como dados não-estruturados, estão na
forma de textos, imagens, gráficos, vídeos ou sons. Estima-se que 80% das informações que
uma empresa utiliza não estão armazenados em bancos de dados na forma de números e
caracteres (ZANASI, 2001).
Um mecanismo de crawler (sistema automático de busca) procura por páginas interessantes
nos diferentes sites da Web. Os resultados das pesquisas realizadas na Web geram um
repositório relativo àquela pesquisa e pode-se realizar a indexação dos documentos através de
clustering (técnica de agrupamento), etc.
Foi utilizado um software que efetua busca conceitual: interpreta as buscas em linguagem
natural, processa as palavras que tem vários significados, busca palavras-chave, avalia a
quantidade de informação em cada palavra-chave, expande a busca por thesaurus e indica o
nível de relevância de cada página (KOSALA & BLOCKEEL, 2000).
Os resultados obtidos pela presente metodologia são muito superiores aos resultados de
buscas exaustivas com os utilitários disponíveis na Web. A informação gerada atende
plenamente às facilidades esperadas pelos usuários. A metodologia usada encontra aplicação
em qualquer atividade de busca de oportunidades de negócios e inteligência competitiva
(SHAKYA, 2002).
XI SIMPEP - Bauru, SP, Brasil, 08 a 10 de novembro de 2004
A World Wide Web é um repositório de dados fracamente acoplados que pode ser usado como
um repositório central apenas se os dados em cada site forem armazenados com alguma
semântica comum.
Entretanto, é possível minerar os dados de diversos sites da Web e introduzir semântica neles.
A atividade de minerar grande coleção de documentos HTML dos Web site fornece
informação rica e vasta. Essa informação, no entanto, é codificada em um formato difícil de
decifrar e extrair.
Uma vez implementada a estratégia, pode-se disponibilizar a atualização das informações e
também aumentar o domínio de prospecção (LIU, MA, & YU, 2001).
7. Conclusão
A Internet, sem nenhuma dúvida, revolucionou o conceito de Sistema de Informação. A
explosão de tipos de informações associadas a um assunto como a referência a vídeos, áudios,
fotos, gráficos, dados ou simplesmente textos, dificultam sua obtenção de uma forma
padronizada que possibilite sua utilização. As grandes corporações contam, também com uma
intranet (uma rede interna geograficamente distribuída). Há necessidade, portanto de
algoritmos inteligentes de busca de informações que possam não só filtrar os sites que
aparecem múltiplas vezes, como também determinar o nível de detalhe requerido em cada
pesquisa. Isso sem falar do conhecimento implícito, quase escondido que existe nessa área. A
capacidade dos algoritmos de Mineração de Dados e de Textos em manipular grandes massas
de dados e textos, extraindo informações relevantes a partir de critérios preestabelecidos
sobre o grau de pertinência e importância de um dado agrega considerável valor aos
algoritmos de busca de informação.
Mesmo considerando todos os problemas ainda existentes na área para a implantação de
sistemas mais complexos para o tratamento de textos, pode-se considerar que é apenas uma
questão de tempo para que novas soluções para estes problemas não tão novos apareçam.
Essa área de pesquisa, no entanto, tende a crescer rapidamente em virtude principalmente da
enorme quantidade de textos produzidos pela Web, e pelo grande interesse que essa
disponibilidade acarreta de modo geral. Pode-se encontrar textos dos mais diversos assuntos
disponíveis em qualquer tempo pela Intranet.
Além disso, as empresas redescobriram suas informações já armazenadas em textos e estão
utilizando essas informações como uma vantagem competitiva em relação aos seus
concorrentes. O Data Mining apresentou os principais recursos que a inteligência competitiva
pudesse ser efetivada na prática (ZANASI, 2000).
8.Referências
DEGROOT, T. (1986) - Probability and Stastistics. Addison Wesley, MA.
FAYYAD, U., G. G. Grinstein, & A. Wierse (2002) - Information Visualization in Data Minin and Knowlwdge
Discovery. Morgan Kaufmann Publishers.
FAYYAD, U., G. Piatetsky-Shapiro, & P. Smith (1996a) - From data mining to knowledge discovery: na
overview. .1-34p.
XI SIMPEP - Bauru, SP, Brasil, 08 a 10 de novembro de 2004
FAYYAD, U., G. Piatetsky-Shapiro, & P. Smith (1996b) - The KDD process for extracting useful knowledge
from volumes of data: Comunications of the ACM. .27-34p.
FAYYAD, U., G. Piatetsky-Shapiro & P. Smith (1996c) - Knowledge Discovery and data mining: Towars a
unifying framework.
KOSALA, R. & H. Blockeel (2000) - Web mining research: A SURVEY. Sigkdd Explorations.
LEONARDO-BARTON, D. (1998) - Nascentes do saber: criando e sustentando as fontes de inovação.Rio de
Janeiro: Fundação Getúlio Vargas, 368p.
LIU, B. & W. Hsu (1996) - Post-analysis of learned rules, 828-1934p.
LIU, B., Y. Ma & P. Yu (2000) - Discovering unexpected information from your competitors web site. Em
KDD, San Francisco, 144-153p.
PAZZANI, M. & D. Kibler (1992) - The utility of knowledge in inductive learning. Machine Learning. 9,57-94
p.
REZENDE, Solange, O. (2003) - Sistemas Inteligentes: fundamentos e aplicações. São Paulo: Manole, 525 p.
SHAKYA, S. (2002) - Advanced data mining techniques using Visual Basic 6.0, ASP, XML, MSHRTML and
MSXML. ASP Today.
SENGE, Peter M. (1990) - A Quinta Disciplina: arte, teoria e prática da Organização de Aprendizagem. São
Paulo: Best Seller, 352p.
WEISS, S. M. & N. Indurkhya (1998) - Predictive Data Mining : a Practical Guide. San Francisco, CA.
ZANASI, A. (2000) -Web Mining through the on-line analyst.. Em N. Ebecken & C. Brebbia (eds.), Second
International Conference on Data Mining, England. Computational Machanics Publications.
ZANASI, A. (2001) - Text mining: the new competitive intelligence frontier. Em VSST Conference
Proceedings, Barcelona.
XI SIMPEP - Bauru, SP, Brasil, 08 a 10 de novembro de 2004
SIGNIFICA DO SISTEMA DE CRAWLER.
Os sistemas de busca baseados em "crawler" possuem três elementos principais. O primeiro é
o "spider", também chamado de "crawler". O "spider" visita as páginas web, as lê, e depois
segue os links para outras páginas dentro do site. O "spider" volta ao web site regularmente,
como por ex. uma ou duas vezes por mês, para procurar por alterações.
Tudo o que o "spider" encontra vai para a segunda parte do sistema de busca, o "index"
(índice). O "index", algumas vezes chamado de catálogo, é como se fosse um livro gigante
contendo uma cópia de todas as páginas web que o "spider" encontra. Se uma página web
muda, então esse livro é atualizado com a nova informação.
Algumas vezes pode demorar para que novas páginas ou alterações que o "spider" encontra
sejam adicionados no "index". Assim, uma página web pode já ter sido visitada (spidered)
mas não indexada ainda. Até que ela seja indexada - adicionada no "index" - ela não está
disponível à pesquisas com os sistema de busca.
A terceira parte de um sistema de busca é o "software". Este é o programa que peneira
(analisa) através de milhões de páginas gravadas no "index" para encontrar combinações para
a pesquisa e ranqueá-las segundo o que acredita ser mais relevante
Download

mineração de textos