Agentes na Internet Patrícia Nunes Pereira Professor: Geber Ramalho Tópicos Motivação Introdução Categorias de Agentes Foco: Filtragem de Informação IR - Recuperação de Informação Categorização de Textos Exemplos Discussão Referências e Links Motivação Rápido crescimento do volume de informações disponível na Internet Dificuldade em localizar documentos relevantes Alto consumo de tempo Síndrome da Nau perdida TOO MUCH INFORMATION = NO INFORMATION Introdução Bum da Internet: Grande volume de informação, diversificada, não estruturada, multilíngue, ... Agentes inteligentes na Internet: Automatizar a busca e recuperação de informações Categorias de Agentes Agentes de Busca Agentes que Filtram Informação Agentes de Entrega Off-line Agentes de Notificadores Agentes de Comércio na Web Chatterbots ... Agentes de Busca Search Engine Consulta Servidor de Consultas Browser Resposta Base de Índices Usuário )--( Robô Busca Indexing Engine Web Agentes de Busca Atributos: Precisão X Recall Características: Esforço consciente para encontrar informação Entrada: palavras chave Descarta links menos relevantes Não há garantia da qualidade da informação Vários exemplos (robot-based): WebCrawler, Lycos, Altavista,... Agentes que Filtram Informação Browser Servidor News Artigos Indexados Perfil do usuário Indexing Engine Agente de Filtragem Internet Filtragem de Informação RI + Interesses do usuário = Informação Relevante Perfil do usuário: Estático ou Dinâmico Problemas: Indexação; Linguagem Natural: resolução de fenômenos lingüísticos Sinonímia (R=Gerador de sinônimos) Polisemia (R=Indexação por significado) Objetivo: Evitar a perda de documentos relevantes e a recuperação de documentos irrelevantes! Filtragem de Informação Tentativa de resolver parcialmente os problemas associados à recuperação de informação dos keyword-based systems. Características: Extração dos conceitos salientes do conjunto de documentos Aprendizado do perfil do usuário Filtragem de Informação (Extração de Conceitos salientes em Documentos) Abordagem PLN: Sumarização de Documentos Formato particular Self-Consuming Heurísticas de freqüência das palavras: TFIDF Associa pesos às palavras TFIDF(w) = TF(w) * (LOG(|D|) - LOG(DF(W))) HT Paradigm Sumarização Hierárquica Solução para Polisemia Categorização de Textos Tarefa bastante custosa, se manual Aplicação do domínio de ML Categorias pré-definidas Suporte à IR Rápido crescimento de informações textuais na Web Necessidade de processamento Abordagem ML para classificação: Usa indução sobre amostras pré-classificadas Categorização de Textos Visão unificada: Categ. Textos = ML + IR + Conhec. Adicional Texto inicial Representação Inicial Conhecimento Adicional Categorização Indução Redutor de Dimensão ou Seleção de Características Representação Final Categorização de Textos Construção indutiva de categorizadores Textos Exemplos para aprendizagem Aprendizado: Numérico (maioria) Ex.: Redes Neurais, Classificadores Probabilísticos, Regressão Linear, ... Simbólico - ID3, Espaço de Versões, ... Características a serem consideradas: modularidade, inteligibilidade, resistência a ruídos,... Categorização de Textos Impacto do conhecimento Três faces: IR e Aprendizagem Numérica: extraído dos dados Conhecimento do Domínio: aplicação específica Raciocínio Indutivo: fonte de conhecimento Conhecimento para: Gerar indexação Agrupar categorias Discriminar candidatas a palavras-chave Filtragem de Informação Exemplos BORGES (A. F. SMEATON, 1996) Usuário precisa especificar palavras ou frases descrevendo suas necessidades de informação Oferece solução para Polisemia - WordNet Extensão do perfil do usuário com os termos relacionados ao significado sem ambigüidade Filtragem de informação Exemplos WebWatcher Usuário (WebWatcher 1996) identifica palavras-chave Duas páginas estão relacionadas se há uma terceira página que aponta para elas Medida de similaridade: mutual information Filtragem de informação Exemplos LAW (Bayer 1995) Monitora ações do usuário para distinguir documentos relevantes Monta o perfil do usuário Robô autônomo busca por documentos relevantes Sugere links interativamente Filtragem de Informação Exemplos - Crítica Focam no aprendizado do perfil do usuário Baseados no modelo espaço-vetorial Não há muitas considerações sobre técnicas de PLN extensivas Virtualmente impossível isolar informações relevantes Filtragem de Informação Exemplo SAMURAI (H. Leong, S. Kapur, O de Vel, 1997) Módulos: Sumarização de Texto Monitoração e Modelagem do usuário Search Engine = Web Search + Perfil do Usuário Filtragem de links irrelevantes Compilação dos resultados Discussão O que é um Agente “inteligente”? Qual o futuro dos Agentes no mundo real? Links http://www.ece.curtin.edu.au/~saounb/bargainbot/ articles.html http://www.firefly.com http://www.sics.pe/ps/abc/survey.html http://www.dsv.su.se/~fk/if_Doc/IntFilter.html http://www.lcs.media.mit.edu/groups/agents/ resources.html http://www.cs.umbc.edu/agents http://www.iit.nrc.ca/bibliographies/ml-applied-toir.html Referências [1] Gleaning Information from the Web: Using Syntax to Filter out Irrelevant Information, R.Chandrasekar e B. Srinivas, University of Pennsylvania, Philadelphia, PA 19104, 1997; [2] Text Summarisation for Knowledge Filtering Agents in Distributed Heterogenous Enviroments, H. Leong, S. Kapur, O de Vel, James Cook, University of North Queensaland, Austrália, 1997; [3]A Framework for Comparing Text categorization Approaches, Isabelle Moulinier, LAFORIA-IBPCNRS, Université Paris VI, France, 1997 Referências [4]Agent Sourcebook, Alper K., Cagland e colin G. harrison; [5] Internet Agents, Fah-Chun Cheong, MIT MediaLaboratory, Cambridge, MA, 1994; [6]Learning and revision User Profiles: The Identification of Interesting Web Sites, Michael , Pazzani, Daniel Billsus, University of California, Irvine, Irvine, CA 92697, 1997 [7] Learning Information Retrieval Agents: Experiments with Automated web Browsing, Marko balabanovic e Yoav Sholan, Stanford University, 1995