“Conhecimento é o melhor investimento que podemos fazer....” Einstein Administração e Sistemas de Informação Mauricio Abreu MSc [email protected] Data, Text e Web Mining Agenda Geral Administração em Sistemas de Informação Soluções na Era do Conhecimento Tecnologias: Data Warehouse, Data Mart, Metadado e ODS; Data / Text / Web Mining; BPM; Portal Corporativo. © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Introdução Tecnologias: Agenda Data Mining Text Mining Web Mining © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Introdução © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Realidade Mundial @ Fatores de Produção da Economia TRABALHO Introdução CONHECIMENTO © Mauricio Abreu CAPITAL TERRA Conhecimento: 55% da riqueza mundial (OCDE: 2000) [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Realidade Mundial Item Pessoas Base de poder Principal tarefa gerencial Informação Introdução Produção Fluxo de informação Forma básica de receita Fluxo de produção Relacionamento com o cliente Conhecimento © Mauricio Abreu Visão Industrial Visão do Conhecimento Geradores de custo ou recursos Relativo a hierarquia organizacional Supervisão dos subordinados Geradores de Receita Instrumento do controle e poder Processamento de recursos físicos para criar bens tangíveis Via hierarquia organizacional Ferramenta para o recurso da comunicação Conversão do conhecimento em bens intangíveis Via redes de colaboração Relativo ao conhecimento Apoio aos colegas Tangível (capital) Intangível (aprendizado, novas idéias, P&D) Regido pelas máquinas Regido pelas idéias (sequêncial) (caótico) Unilateral pelos mercados Interativo pelas redes pessoais Uma ferramenta ou um recurso Foco empresarial entre outros [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Conhecimento: o principal fator de produção do sec. XXI “Palm top”: tem mais memória que toda a capacidade de memória existente em 1961! Introdução Computadores: 8.000 x mais baratos que há 30 anos © Mauricio Abreu Se o Mercedes classe A tivesse a mesma evolução: • custaria U$ 2 • andaria na velocidade do som • 800 km com 1l de gasolina [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Conhecimento: o principal fator de produção do sec. XXI Sigatoga amarela x banana pioneira • Mesmo sabor Introdução • 20% maior • frutos 3 meses antes © Mauricio Abreu 1 hectare produz 70% mais [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Conhecimento: o principal fator de produção do sec. XXI Introdução Na década de 40 a Boeing projetou o bombardeiro B-17 com menos de 100 engenheiros; na década de 90 o projeto do Boeing 777 envolveu 5.600 profissionais de nível superior espalhados em 8 localidades. EMBRAER: Custo da concepção >>> produção © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Um novo valor: o conteúdo Introdução {Produtos com conteúdo} Relógio de pulso da Philips com pequenas câmeras e pequenos alto-falantes acoplados que colocará as pessoas em contato via satélite. © Mauricio Abreu {Serviços com produtos agregados} Moderno cartão postal através do qual o usuário pode capturar imagens congeladas, vídeos ou sons (Philips). [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Nova Indústria? Equipamentos de rede e multimídia Conteúdo • • Introdução • © Mauricio Abreu Informática • • • TV a cabo e multimídia online • Bancos de dados Filmes / Imagens Música Propaganda Multimídia Interativa TeleCom •Redes Computadores Software Interfaces • • • de: TV a cabo Telefonia Satélites Jogos [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Surge uma organização diferente! Introdução @ © Mauricio Abreu $ $ @ $ @ @ $ $ @ [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Principais características da Sociedade do Conhecimento Famílias cada vez menores, muitas pessoas solteiras Introdução morando sozinhas, núcleos de 1 a 3 pessoas; Surge o trabalhador do conhecimento; O computador e a Internet representam esta nova economia; A indústria de serviços e de entretenimento ganha força; Alguns produtos começam a ser distribuídos online; As fronteiras organizacionais encontram-se cada vez mais tênues; Surge o comércio eletrônico. © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Quem é o trabalhador do conhecimento? Trabalhador Tradicional Trabalhador do Conhecimento principal tarefa fazer pensar principais habilidades físicas mentais processo de trabalho linear não-linear resultado do trabalho produto informação conhecimento utilizado aplicado criado Introdução Características © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Brasil na Sociedade do Conhecimento Introdução • Biotecnologia • Software • Aeroespacial • Petróleo / Energia • Cultural / Entretenimento © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Pontos relevantes para a Vantagem Competitiva Introdução Percentual de Consenso Criar/Manter relacionamento com o Cliente Transformar informação em conhecimento Flexibilidade Velocidade nas ações de negócio Habilidade de inovação Crescimento da qualidade continuamente Posicionamento dos custos Investimento em RH Relacionamento com os fornecedores 0 0.8 Fonte: Mercer Marketplace 2000 Survey © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Realidade Mundial O pessoal de TECNOLOGIA acredita que: A informação é facilmente armazenada nos computadores na forma de dados; Introdução Criar banco de dados em computadores é o único modo de administrar a complexidade da informação; A informação deve ser comum a toda a empresa; As © Mauricio Abreu mudanças tecnológicas irão aperfeiçoar o ambiente de informações. [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Realidade Mundial Em vez de se concentrarem na tecnologia, os ambientes de informação devem ser basear na maneira como as pessoas criam, distribuem, compreendem e usam a informação e o conhecimento, acreditando que: A informação não é facilmente armazenada e não é somente constituída de dados; Introdução Quanto mais complexa a arquitetura de informações, menor será sua utilidade; A informação e o conhecimento podem ter vários significados em uma organização; A tecnologia é apenas um dos componentes do ambiente de informações. © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Realidade Mundial Introdução Caso 1 Um fabricante de satélite necessitava de um planejamento mais preciso para suas células de trabalho, de modo a cumprir um novo prazo de produção, bem mais curto. Acreditando que a tecnologia podia resolver o problema ele desenvolveu um complexo e caro ambiente de informações. Entretanto os administradores das células continuavam fornecendo dados inexatos à respeito do prazo de conclusão das tarefas. Por fim, descobriu-se que o responsável pelo problema era o fator humano: os profissionais que revelassem atraso no trabalho seriam punidos mais tarde. © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Introdução Caso 2 Realidade Mundial Uma empresa farmacêutica queria aperfeiçoar a troca de informações entre seus departamentos de pesquisa e de desenvolvimento. Contrataram um consultor para criar uma arquitetura que incluísse banco de dados e programas centralizados, porém o trabalho acabou não funcionando, uma vez que os pesquisadores e o pessoal do setor de desenvolvimento não chegaram a um acordo quanto as aplicações que deveriam ser utilizadas para circular os resultados das pesquisas. Decidiram que a melhor maneira de trocar informações entre projetos de pesquisa era criar equipes de desenvolvimento, cada uma com seu especialista informacional. © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Fases de Conversão Introdução Brainstorming Observação Prática Interação SOCIALIZAÇÃO EXTERNALIZAÇÃO INTERNALIZAÇÃO COMBINAÇÃO Incorporação Verbalização Diagramação © Mauricio Abreu Dedução Metáfora Analogia Sistematização Classificação Ensino Fonte: Nonaka & Takeuchi [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Fases de Conversão Introdução SOCIALIZAÇÃO Cultura: Liderança Educação Treinamento INTERNALIZAÇÃO EXTERNALIZAÇÃO Tecnologia: Ferramentas Treinamento COMBINAÇÃO Fonte: Nonaka & Takeuchi © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Fases de Conversão Apropiação Extensão Introdução Consciência © Mauricio Abreu Assimilação Articulação Interiorização Aprendizagem Implícita Fonte: Baumard [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Tecnologias Data Mining Text Mining Web Mining © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Data Mining (Mineração de Dados) © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Mineração de Dados Data Mining (Data Mining) • Mineração de Dados é um processo analítico concebido para explorar conjuntos de dados, de grandes dimensões, na detecção de padrões consistentes e/ou relações sistemáticas entre as variáveis, bem como validar os resultados e aplicando os padrões detectados em novos conjuntos de dados. • É uma poderosa ferramenta para análise de informação, da qual se espera revelar estruturas de conhecimento que podem direcionar as decisões. © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Data Mining Diferentes Visões do Conhecimento Escondido © Mauricio Abreu Dados Rasos (descobertos com SQL) Dados Multi-Dimensionais (descobertos com OLAP) Dados Escondidos (descobertos com DCBD) Dados Profundos (descobertos somente com pistas) [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento DCBD x Data Mining Mineração de dados é um passo do processo de DCBD que produz um conjunto de padrões sob um custo computacional aceitável; Data Mining DCBD utiliza algoritmos de mineração de dados para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento, amostragem de dados e interpretação de resultados. © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Etapas do Processo DCBD Interpretação / Avaliação CONHECIMENTO Mineração dos Dados Data Mining Transformação Pre-processamento PADRÕES DESCOBERTOS DADOS TRANSFORMADOS Seleção DADOS PRÉ-PROCESSADOS DADO © Mauricio Abreu BD INTERMEDIÁRIO [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Descoberta de Regras de Associação Data Mining Cada registro corresponde a uma transação de um cliente, com itens assumindo valores binários (sim/não), indicando se o cliente comprou ou não o respectivo item. © Mauricio Abreu num 1 2 3 4 5 6 7 8 9 10 leite não sim não sim não não não não não não café sim não sim sim não não não não não não cerveja não sim não não sim não não não não não pão sim sim sim sim não não sim não não não manteiga sim sim sim sim não sim não não não não arroz não não não não não não não não sim sim feijão não não não não não não não sim sim não (FREITAS & LAVINGTON 98) SE (café) ENTÃO (pão) SE (café) ENTÃO (manteiga) SE (pão) ENTÃO (manteiga) SE (manteiga) ENTÃO (pão) SE (café E pão) ENTÃO (manteiga) SE (café E manteiga) ENTÃO (manteiga) SE (café) ENTÃO (manteiga E manteiga) sup=0.3 sup=0.3 sup=0.4 sup=0.4 sup=0.3 sup=0.3 sup=0.3 conf.=1 conf.=1 conf.=0.8 conf.=0.8 conf.=1 conf.=1 conf.=1 [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Data Mining Classificação Nome Idade Renda Profissão Classe Daniel ≤ 30 Média Estudante Sim João 31..50 Média-Alta Professor Sim Carlos 31..50 Média-Alta Médico Sim Maria 31..50 Baixa Vendedora Não Paulo ≤ 30 Baixa Porteiro Não Otavio > 60 Média-Alta Aposentado Não Se Idade ≤ 30 e Renda é Baixa então Não compra Eletrônico © Mauricio Abreu Se Idade = 31-50 e Prof é Médico então compra Eletrônico IDADE ≤ 30 31-50 >60 51-60 PROFISSÃO RENDA Não B A M Sim Med Prof Eng Vend M-A Sim Não Sim Sim Sim Sim Não Sim Árvore de Decisão [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Agrupamento (Cluster Analisys) Esta técnica agrupa informações homogêneas de grupos heterogêneos entre os demais e aponta o item que melhor representa cada grupo, permitindo, desta forma, que consigamos perceber a característica de cada grupo. Data Mining BD com n amostras K = número de clusters desejado (parâmetro) K≤n © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Clusterização versus Classificação Classificação – Aprendizado Supervisionado Data Mining Amostras de treinamento são classificadas Número de Classes é conhecido © Mauricio Abreu – Aprendizado por Exemplo Clusterização – Aprendizado Não Supervisionado – Aprendizado por Observação [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Áreas de Aplicação Vendas: • Identificar padrões de comportamento dos consumidores; • Encontrar características dos consumidores de acordo com a região demográficas; • Prever quais consumidores serão atingidos nas campanhas de marketing; • Campanhas de marketing direto (mailing campaigns); • Identificar consumidores “leais”. Finanças: Data Mining • Detectar padrões de fraudes no uso dos cartões de crédito; • Identificar os consumidores que estão tendendo a mudar a companhia do cartão de crédito. Seguros e Planos de Saúde: • Determinar quais procedimentos médicos são requisitados ao mesmo tempo; • Prever quais consumidores comprarão novas apólices; • Identificar comportamentos fraudulentos. Medicina: • Caracterizar o comportamento dos pacientes para prever novas consultas; • Identificar terapias de sucessos para diferentes tratamentos. Transporte: • Determinar a distribuição dos horários entre os vários caminhos; • Analisar padrões de sobrecarga. © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Exemplo - 2 Bank of America Data Mining – Selecionou entre seus 36 milhões de clientes © Mauricio Abreu • Aqueles com menor risco de dar calotes; • Tinham filhos com idades entre 18 e 21 anos; • Resultado: em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos. [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Data Mining Resumo Mineração de dados é um processo que permite compreender o comportamento dos dados; O processo de mineração analisa os dados usando técnicas de aprendizagem para encontrar padrões e regularidades nestes conjuntos de dados; É um problema multi-disciplinar, envolvendo Inteligência Artificial, Estatística, Computação Gráfica, Banco de Dados, etc; Pode ser aplicado em diversas áreas. Site interessantes: Portal de sobre data/text/web mining: www.kdnuggets.com Busca baseada em clusterização: clusty.com Software Livre: © Mauricio Abreu • WEKA: www.cs.waikato.ac.nz/ml/weka • CLUTO / gCLUTO: http://www-users.cs.umn.edu/~karypis/cluto/ • CBA / IAS: www.comp.nus.edu.sg/~dm2/p_download.html [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Text Mining (Mineração de Textos) © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Text Mining Definição © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Aplicações Marketing: Descoberta de grupos distintos de potenciais compradores de acordo com os perfis textuais preenchidos por pessoas. Ex: encarte de revista Text Mining Negócio: Identificação de competidores através da análise das páginas web. Busca de emprego: Identificação de parâmetros nas pesquisas de emprego. Ex.: www.monster.com © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Conhecimento Corporativo Text Mining © Mauricio Abreu E-mail Apólices de Seguro Artigos de Jornal Páginas Web Patentes Artigos Científicos Cartas de Clientes Contratos Transcriçõs de telefonemas Documentos Técnicos [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Métodos Recuperação de Informação – Indexação e recuperação de documentos textuais Extração de Informação Text Mining – Extração de conhecimentos a partir de documentos textuais © Mauricio Abreu Agrupamento de texto (Clustering) – Geração de coleções de documentos textuais similares Web Mining – Indexação e recuperação de documentos textuais e extração de conhecimentos a partir de documentos textuais usando a Web [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Recuperação de Informação textuais Necessidade de pesquisa baseada em texto Text Mining Documentos Pesquisa Ex.: Lua / Imagem Documentos fonte Sistema RI Documento • Encontra: © Mauricio Abreu • Um conjunto de documentos (ordenados) relevantes para atender a pesquisa Documentos Ordenados Documento Documento [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Extração de Informação É dado: – A fonte de documentos textuais – Um grupo limitado para busca baseada em texto Pesquisa 1 (ex.: título emprego) Documentos fonte Sistema de Extração Text Mining Pesquisa 2 (ex.: salário) Encontra: – Sentenças com informação relevante – Extrai a informação relevante e ignora as informações irrelevantes – Conecta a informação relevante e executa a saída da mesma em um formato pré-definido © Mauricio Abreu Combinando o resultado da Pesquisa Info Relevante 1 Documentos Ordenados Info Relevante 2 Info Relevante 3 [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Text Mining Extração de Informação Notícia Salvadoran President-elect Alfredo Cristiania condemned the terrorist killing of Attorney General Roberto Garcia Alvarado and accused the Farabundo Marti Natinal Liberation Front (FMLN) of the crime. … Garcia Alvarado, 56, was killed when a bomb placed by urban guerillas on his vehicle exploded as it came to a halt at an intersection in downtown San Salvador. … According to the police and Garcia Alvarado’s driver, who escaped unscathed, the attorney general was traveling with two bodyguards. One of them was injured. Data do Incidente: 19 Abr 1989 Tipo do Incidente: Atentado à bomba Perpetrador: “guerilhas urbanas” Nome do alvo humano: “Roberto Garcia Alvarado” ... © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Extração de Informação foodscience.com-Job2 JobTitle: Ice Cream Guru Employer: foodscience.com JobCategory: Travel/Hospitality JobFunction: Food Services Text Mining JobLocation: Upper Midwest © Mauricio Abreu Contact Phone: 800-488-2611 DateExtracted: January 8, 2001 Source: www.foodscience.com/jobs_midwest.html OtherCompanyJobs: foodscience.com-Job1 [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Agrupamento de Texto É dado: Documentos fonte – Documentos textuais – Medida de similiraridade • Ex.: quantas palavras são comuns nestes documentos Text Mining Medida de similaridade Sistema de Agrupamento Doc • Encontra: © Mauricio Abreu • Vários agrupamentos de documentos relevantes Doc Doc Doc Doc Doc Do Doc Docc Doc [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Desafios do Text Mining Grande número de dimensões possíveis para pesquisa e análise: – Todas as possíveis tipos de palavras e frases em uma língua Text Mining © Mauricio Abreu Complexidade dos relacionamentos entre os diversos conceitos encontrados em um texto: – “AOL se funde com a Time-Warner” – “Time-Warner é comprada pela AOL” Ambigüidade e sensibilidade ao contexto – automóvel = carro = veículo = Toyota – Apple (a empresa) ou apple (a fruta) [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Text Mining: Exemplos Ex 1: Suporte à decisão em CRM Text Mining - O que os clientes normalmente reclamam? - Qual é a tendência do número de clientes satisfeitos em Curitiba? Ex 2: Gestão do conhecimento – Procura por pessoas e competências. © Mauricio Abreu Ex 3: Personalização no e-Bussiness - Sugestão de produtos mais ajustados ao perfil de interesse do cliente (baseado na informação de personalidade de compra). [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Web Mining (Mineração de Páginas Web) © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Visão Geral Web Mining World Wide Web – O enorme crescimento do número de fontes de informação disponíveis na Web tornou imperativo o uso de ferramentas automatizadas para a busca, extração, filtragem e avaliação de recursos e informações; – Com a transformação da Web no principal meio para a realização do comércio eletrônico, é fundamental para as empresas, que investem milhões em tecnologias internet e intranet, rastrear e analisar os padrões de acesso dos usuários. © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Visão Geral Uma combinação natural... Web Mining Data/Text Mining Web Content Mining Web Mining World Wide Web Web Usage Mining As duas áreas têm o mesmo desafio: extração de informação relevante à partir de um volume enorme de dados; A natureza semi-estruturada ou não estruturada, distribuída, heterogênea e dinâmica dos dados na Web é o principal complicador. © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Visão Geral Web Content Mining Web Mining – Ferramentas tradicionais de busca e indexação como Alta Vista, Lycos, WebCrawler e outros não conseguem, de um modo geral, prover informação estrutural e nem categorizar, filtrar e interpretar documentos – O problema tem sido atacado de duas formas: © Mauricio Abreu • ferramentas mais inteligentes para a recuperação de informação: agentes inteligentes ou rôbos; • extensão de técnicas de banco de dados e data mining visando a obtenção de um nível mais alto de organização dos dados semi-estruturados disponíveis na Web. – Abordagens baseadas em agentes inteligentes • Agentes de busca • Agentes para filtragem/categorização de informação • Agentes personalizados – Abordagens baseadas em banco de dados [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Visão Geral Web Usage Mining Web Mining – Estratégias e técnicas para análise de mercado têm sito revisitadas dentro do novo contexto da Web; – Volumes enormes de dados são gerados e coletados automaticamente pelos servidores Web; – A análise destes dados pode trazer diversos benefícios: © Mauricio Abreu • Estabelecimento de estratégias de marketing; • Determinação da eficácia de campanhas promocionais; • Descoberta de padrões de comportamento de navegação no web site; • Melhor estruturação do Web site; • Melhor gerenciamento da infra-estrutura. [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Visão Geral Que dado na Web está sendo minerado? Web Mining Conteúdo – dados a partir dos documentos Web – textos e gráficos; Estrutura – dados a partir da estrutura Web – HTML ou tags XML; Uso – dados a partir do log do Site Web – endereço IP, data e tempo de acesso, navegação no site web (clickstream); Perfil de usuário – dados específicos do usuário – registro e perfil do cliente. © Mauricio Abreu [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento Visão Geral Spider Web Mining Web © Mauricio Abreu Documentos fonte Pesquisa 1. Doc1 2. Doc2 3. Doc3 . . Sistema RI / EI Documentos ordenados [email protected] [email protected] Administração em Sistemas de Informação Soluções na Era do Conhecimento © Mauricio Abreu [email protected] [email protected]