Agentes na Internet
Patrícia Nunes Pereira
Professor: Geber Ramalho
Tópicos
 Motivação
 Introdução
 Categorias
de Agentes
 Foco: Filtragem de Informação
IR - Recuperação de Informação
 Categorização de Textos
 Exemplos

 Discussão
 Referências
e Links
Motivação
Rápido crescimento do volume de informações
disponível na Internet
 Dificuldade em localizar documentos relevantes
 Alto consumo de tempo
 Síndrome da Nau perdida

TOO MUCH INFORMATION = NO INFORMATION
Introdução
 Bum
da Internet:
Grande volume de informação, diversificada, não
estruturada, multilíngue, ...

Agentes inteligentes na Internet:
Automatizar a busca e recuperação de informações
Categorias de Agentes
Agentes de Busca
 Agentes que Filtram Informação
 Agentes de Entrega Off-line
 Agentes de Notificadores
 Agentes de Comércio na Web
 Chatterbots
 ...

Agentes de Busca
Search Engine
Consulta
Servidor de
Consultas
Browser
Resposta
Base de
Índices
Usuário
)--(
Robô
Busca
Indexing Engine
Web
Agentes de Busca
 Atributos:
Precisão X Recall
 Características:
Esforço consciente para encontrar informação
 Entrada: palavras chave
 Descarta links menos relevantes
 Não há garantia da qualidade da informação


Vários exemplos (robot-based):
 WebCrawler,
Lycos, Altavista,...
Agentes que Filtram Informação
Browser
Servidor News
Artigos
Indexados
Perfil do
usuário
Indexing
Engine
Agente de Filtragem
Internet
Filtragem de Informação
RI + Interesses do usuário = Informação Relevante
 Perfil do usuário: Estático ou Dinâmico
 Problemas:

Indexação;
 Linguagem Natural: resolução de fenômenos lingüísticos
 Sinonímia (R=Gerador de sinônimos)
 Polisemia (R=Indexação por significado)

Objetivo: Evitar a perda de documentos relevantes e
a recuperação de documentos irrelevantes!
Filtragem de Informação

Tentativa de resolver parcialmente os problemas
associados à recuperação de informação dos
keyword-based systems.

Características:
Extração dos conceitos salientes do conjunto de
documentos
 Aprendizado do perfil do usuário

Filtragem de Informação
(Extração de Conceitos salientes em Documentos)

Abordagem PLN: Sumarização de Documentos
 Formato particular  Self-Consuming
 Heurísticas de freqüência das palavras:
 TFIDF
Associa pesos às palavras
TFIDF(w) = TF(w) * (LOG(|D|) - LOG(DF(W)))
 HT Paradigm
 Sumarização
Hierárquica  Solução para Polisemia
Categorização de Textos
Tarefa bastante custosa, se manual
 Aplicação do domínio de ML
 Categorias pré-definidas
 Suporte à IR
 Rápido crescimento de informações textuais na
Web  Necessidade de processamento
 Abordagem ML para classificação:
Usa indução sobre amostras pré-classificadas

Categorização de Textos

Visão unificada:

Categ. Textos = ML + IR + Conhec. Adicional
Texto inicial
Representação Inicial
Conhecimento
Adicional
Categorização
Indução
Redutor de Dimensão
ou
Seleção de Características
Representação Final
Categorização de Textos
Construção indutiva de categorizadores
Textos  Exemplos para aprendizagem
 Aprendizado:
 Numérico (maioria)
 Ex.:
Redes Neurais, Classificadores Probabilísticos,
Regressão Linear, ...
 Simbólico
- ID3, Espaço de Versões, ...
 Características a serem consideradas:
modularidade, inteligibilidade, resistência a ruídos,...
Categorização de Textos
Impacto do conhecimento
Três faces:
 IR e Aprendizagem Numérica: extraído dos
dados
 Conhecimento do Domínio: aplicação específica
 Raciocínio Indutivo: fonte de conhecimento
 Conhecimento para:
 Gerar indexação
 Agrupar categorias
 Discriminar candidatas a palavras-chave

Filtragem de Informação
Exemplos
 BORGES (A. F. SMEATON, 1996)
 Usuário
precisa especificar palavras ou frases
descrevendo suas necessidades de informação
 Oferece solução para Polisemia - WordNet
 Extensão do perfil do usuário com os termos
relacionados ao significado sem ambigüidade
Filtragem de informação
Exemplos
 WebWatcher
 Usuário
(WebWatcher 1996)
identifica palavras-chave
 Duas páginas estão relacionadas se há uma
terceira página que aponta para elas
 Medida de similaridade: mutual information
Filtragem de informação
Exemplos
 LAW
(Bayer 1995)
 Monitora
ações do usuário para distinguir
documentos relevantes
 Monta o perfil do usuário
 Robô autônomo busca por documentos
relevantes  Sugere links interativamente
Filtragem de Informação
Exemplos - Crítica
Focam no aprendizado do perfil do usuário
 Baseados no modelo espaço-vetorial
 Não há muitas considerações sobre técnicas de
PLN extensivas
 Virtualmente impossível isolar informações
relevantes

Filtragem de Informação
Exemplo
 SAMURAI (H. Leong, S. Kapur, O de Vel, 1997)
 Módulos:
 Sumarização
de Texto
 Monitoração e Modelagem do usuário
 Search Engine = Web Search + Perfil do Usuário
 Filtragem de links irrelevantes
 Compilação dos resultados
Discussão
O
que é um Agente “inteligente”?
 Qual o futuro dos Agentes no mundo real?
Links
 http://www.ece.curtin.edu.au/~saounb/bargainbot/
articles.html
 http://www.firefly.com
 http://www.sics.pe/ps/abc/survey.html
 http://www.dsv.su.se/~fk/if_Doc/IntFilter.html
 http://www.lcs.media.mit.edu/groups/agents/
resources.html
 http://www.cs.umbc.edu/agents
 http://www.iit.nrc.ca/bibliographies/ml-applied-toir.html
Referências
[1] Gleaning Information from the Web: Using Syntax
to Filter out Irrelevant Information, R.Chandrasekar e
B. Srinivas, University of Pennsylvania, Philadelphia,
PA 19104, 1997;
 [2] Text Summarisation for Knowledge Filtering
Agents in Distributed Heterogenous Enviroments, H.
Leong, S. Kapur, O de Vel, James Cook, University of
North Queensaland, Austrália, 1997;
 [3]A Framework for Comparing Text categorization
Approaches, Isabelle Moulinier, LAFORIA-IBPCNRS, Université Paris VI, France, 1997

Referências
[4]Agent Sourcebook, Alper K., Cagland e colin G.
harrison;
 [5] Internet Agents, Fah-Chun Cheong, MIT MediaLaboratory, Cambridge, MA, 1994;
 [6]Learning and revision User Profiles:
 The Identification of Interesting Web Sites, Michael ,
Pazzani, Daniel Billsus, University of California,
Irvine, Irvine, CA 92697, 1997
 [7] Learning Information Retrieval Agents:
Experiments with Automated web Browsing, Marko
balabanovic e Yoav Sholan, Stanford University, 1995

Download

Agentes na Internet