Sistemas Multiagentes Cognitivos
para Extração de
Informações Relevantes na Web
Fred Freitas
[email protected]
LCMI - Laboratório de Controle e Microinformática
Pós-Graduação em Inteligência Artificial
Projeto PROBAL
UFSC - Universität Karlsruhe (Alemanha)
Fred Freitas - LCMI - DAS - UFSC
Roteiro






Problemas de Busca na Internet
Técnicas existentes
Princípios da solução proposta
Justificativa para Multiagentes para Extração
Implementação
– Técnicas, experimentos, avaliação
Trabalho futuro
Fred Freitas - LCMI - DAS - UFSC
Problemas de Busca na Internet:
Tamanho

Enorme quantidade de páginas
– Solução : distribuir
– Não apenas um robô de busca, mas vários
– Brokering, indexadores e índices distribuídos, como o
Bright!
Fred Freitas - LCMI - DAS - UFSC
Problemas de Busca na Internet:
Semântica



“A abordagem estatística e’ necessariamente uma
pobre substituta da abordagem baseada em
conhecimento” [Croft 93]
Não dá para contextualizar toda a Internet
(Raciocínio de Senso Comum e PLN) de uma vez
Engenharia de conhecimento
– Combinar informações por problema, situação e
usuário, complementando IR [van de Velde 95]
Fred Freitas - LCMI - DAS - UFSC
Busca na Internet
Computação
Tradicional
Integrar BDs
Estruturar págs
Robôs,
Java
?
BD
Bright!
Ags.cog Ontologias
CFP Finder
nitivos
Recuperação de
Informações (IR)
ES
Mecanismos de
Busca distribuídos
Mediação,
Planejamento
Tagging
Wrapping
SD
Inteligência
Artificial
Robôs
Distribuídos
SMA
Reativo
Fred Freitas - LCMI - DAS - UFSC
ML
PLN
Stemming
WordNet
Hiperônimos
Sinônimos
Parsing
Modelagem
do Usuário,PDAs
(Estatística,
Aprendizado
e CBR)
Problemas de
cada solução
Computação
Tradicional
SMA
cognitivo
Normalização
BD
Aquisição de
Ags.cog conhecimento
nitivos
Recuperação de
Informações (IR)
ES
Ausência de
contexto e
estrutura
SD
Inteligência
Artificial
SMA
Reativo
Fred Freitas - LCMI - DAS - UFSC
ML
PLN
Alto custo
computacional
sem benefício
correspondente
Avaliação das abordagens
Abordagem
IR
Precisão
Baixa
Robustez
Alta
Custo
Baixo
PLN
Alta
Baixa
Alto
K
Alta
Boa
Acessível
Fred Freitas - LCMI - DAS - UFSC
Princípios: Contexto


As palavras dos textos podem ganhar mais
semântica, se interpretadas de acordo com o
contexto (agregar valor).
Aplicar o máximo de conhecimento a priori e
heurísticas. Conhecimento sobre:
–
–
–
–
Localização
Informações esperadas
Estrutura de tópicos
Estilo de composição das páginas
Fred Freitas - LCMI - DAS - UFSC
Princípios: Memória e Concorrência

Não desperdiçar esforços na interpretação das páginas.
– Ao tratá-las, passar apenas uma vez por página.



Os requisitos de Contexto e Memória levam naturalmente
ao uso de abordagens baseadas em conhecimento
explícito (agentes cognitivos).
Agentes podem ser dotados de adaptabilidade,
apresentando robustez a informações e situações não
previstas de antemão .
O requisito de Concorrência leva ao uso de Sistemas
Multiagentes Cognitivos.
Fred Freitas - LCMI - DAS - UFSC
Lição aprendida de IA :
Dividindo para conquistar


Todo o conhecimento humano está armazenado
numa só coleção ? Deve-se encontrar carros à venda
em sites de .edu ?
Porque os testes da área são sempre sobre corpora
homogêneos ?
– Nenhuma solução é geral
– Restringir a domínios
Fred Freitas - LCMI - DAS - UFSC
Como prover contexto






O usuário está atrás de informação útil e não de páginas!
Buscam-se normalmente as mesmas informações.
Ao invés de Recuperação, Extração de Informações (nova
área) Baseada em Conhecimento (nossa novidade).
Construção de BDs de informações úteis a partir de
paginas estruturadas.
Consultas semanticamente bem definidas podem combinar
informações de vários sites.
Solução atual :
– Wrappers : Extratores de textos baseados em gramáticas

Pobres, exigem informação muito estruturada
Fred Freitas - LCMI - DAS - UFSC
Utilidade de BDs sobre a Web

Dá pra fazer consultas como essa na Web?
– Achar carros vermelhos a partir de 93, por menos de
5000


Select * From Car Where Color=“red” And Year >=
1993 And Price < 5000
Motivo da impossibilidade [Campbell et al 98]:
– Buscas baseadas exclusivamente em palavras chaves
e freqüências.
Fred Freitas - LCMI - DAS - UFSC
Extratores Atuais
'97 CHEV Cavalier, Red, 5 spd, only 7,000 miles on her.
Previous owner heart broken! Asking only $11,995. #1415.
JERRY SEINER MIDVALE, 566-3800

Descriptor/String/Position(start/end)
Year|97|1|3
Make|CHEV|5|8
Model|Cavalier|10|17
Feature|Red|20|22
Feature|5 spd|25|29
Mileage|7,000|37|41
KEYWORD(Mileage)|miles|43|47
Price|11,995|108|114
PhoneNr|556-3800|146|153
[Campbell et al 98]



Wrappers são gerados
automaticamente.
Baseados em aprendizado
automático ( machine
learning), adaptam-se rápido
a formatos diferentes.
Mas, usam sintaxe, no
reconhecimento , não
semântica...
Porisso, não permitem
inferência nem cooperação!
Fred Freitas - LCMI - DAS - UFSC
As Classes de Páginas

Unidade Básica da Internet:
– Texto sem estruturação formal


Mas, há classes de páginas com alguma estrutura
– Ex: Calls for papers, pesquisadores, dados da bolsa, etc
As classes possuem ainda Similaridade estrutural
– O estilo de composição das páginas de uma mesma
categoria do Yahoo (que é manual!) possui fatos
relevantes que podem ajudar a diferenciá-las das outras
áreas [Cruz et al 97].
Fred Freitas - LCMI - DAS - UFSC
Cooperando produtivamente

Um só agente resolve?
– A Internet é muito grande e diversa.
– O domínio de atuação de um agente não pode ser irrestrito.




Clusters - Conjuntos de classes fortemente conectadas
entre si, através de links.
Cada agente que trata uma classe de páginas coopera
com os outros, identificando links e outras informações,
que interessem a estes.
Sistema Multiagente Cognitivo: Um tipo de conhecimento
para cada agente diminui a complexidade e aproveita a
concorrência.
Resolução Distribuída de Problemas (RDP).
Fred Freitas - LCMI - DAS - UFSC
Tecnologia disponível baseada em
conhecimento explícito


Capacidade de inferência
Protocolo peer-to-peer
– Comunicação a nível de conhecimento

Ontologias Reusáveis
– Repositórios de conhecimento reaproveitados
– Em IR, pouco se aproveita do trabalho alheio, só as
estatísticas.
Fred Freitas - LCMI - DAS - UFSC
Experimentos

CFP Finder: agente para recuperar, armazenar e
classificar por área e extrair informações relevantes
de páginas de Calls for Papers.
– Resultados promissores com poucas regras.
– 86% no reconhecimento.

Robô aproveita consultas dos engenhos de busca
– Altavista, Excite, InfoSeek, ...
Fred Freitas - LCMI - DAS - UFSC
Possível arquitetura de Mecanismos
de Busca
Ex:WordNet
Ex: IMPS
Ag.
Construtor
Ontols.
Robô
Ontologias
Mec.
Busca
...
Robô
Links
+ pags
Índices
Fred Freitas - LCMI - DAS - UFSC
Thesaurus
semântico
Links,
Conhecimento
Técnicas empregadas - Básicas

Análise Léxica (tokens),Stop-lists, stemming, ranking

Tagging - PLN
– Determina regiões num texto.
– EX do FAQ Finder [Burke et al 96]
:QUE
When do I have to change oil ?
:QUE
:ANS
After ...

Wrapping
– Gramáticas para reconhecer e capturar informações
dentro de um determinado formato.
– Ex: Datas
Fred Freitas - LCMI - DAS - UFSC
Ontologias
(deftemplate Pagina
(slot Ano )
(slot Nome)
PáginaWWW PáginaGopher
(slot URL)
(slot Formato)
PáginaHTML
PáginaPS
...
)
(defrule PagHTML
PáginaCFP
“Se a pagina é HTML”
(formato ?x)
(eq ?x ‘html’)
=>
Fred Freitas - LCMI - DAS - UFSC.... )
Página
Funcionamento de um agente
Fila de
URLs
(ALTA
Prioridade)
Outros
Agentes
Fila de
URLs
(BAIXA
Prioridade)
Robô
URLs
Regras de validação
Inválidas
URLs válidas
Onto
logias
Pré-process.:stemming,
tagging, indexação, etc
Atualização nos “slots” da
Ontologia da Página
KQML
Regras de
reconhecimento
Categorização
baseada em
ontologias
Biblio
teca
Base
Dados*
Extração de infs
relevantes dos
Fred documentos
Freitas - LCMI - DAS - UFSC
* - contém
estatísitcas
Técnicas empregadas - Avançadas

Princípio Huhns-Singh para agentes:
– Um agente deve mudar de comportamento quando
outro agente entra no ambiente.

Modelo baseado no InfoSleuth [Bayardo et al 96]
– Um novo agente se anuncia dizendo que paginas e
links quer e recebe dos outros o que eles querem

Java +JDBC, HTML, BDs, JESS, KQML (JATLite).
CLIPS ou KIF(ACL).
Fred Freitas - LCMI - DAS - UFSC
Metodologia de Avaliação


1. Obter boas performances com cada agente
2. Testar se a cooperação melhora a performance, já que:
– Há um número significativo de links errados vindos dos robôs
– O overhead de reconhecimento de informações para outros
agentes é baixo


A cooperação facilitará também o monitoramento
– Ex: Papers por conferência, autor, ...
O processo inicial de troca de mensagens de identificação
entre os agentes não será considerado na mensuração da
performance.
Fred Freitas - LCMI - DAS - UFSC
Ontologias comuns a todos os
agentes


Classes Página, PáginaWWW e outras.
Talvez devam conter até os centróides :
– De palavras-chave (com ordem, para identificar termos)
– De tags HTML (para avaliar a estrutura).

Ontologia do domínio:
– No nosso caso, o domínio científico







áreas
papers
CFPs
pesquisadores
órgãos
eventos
Fred Freitas - LCMI - DAS - UFSC
etc.
Ontologias de cada agente





Classes específicas das páginas de que trata
Regras de Reconhecimento
Um subconjunto de regras de reconhecimento e
classes para os outros agentes lhe indicarem páginas
e links
Regras e classes para indicar páginas e links para os
outros agentes
Regras de extração e categorização
Fred Freitas - LCMI - DAS - UFSC
Passos futuros

Imediatos:
–
–
–
–
–
–
–
Conhecimento declarativo para a inferência: JESS
Técnicas de IR: stemming, tagging, ranking, ...
Heurísticas : título, pesos de palavras, termos...
Nomes próprios e de cidades
Definir as gramáticas e os dicionários
Tratar sites
Concorrência: threads (ver como dividi-las).
Fred Freitas - LCMI - DAS - UFSC
Passos futuros

Médio Prazo:
– Incluir outros agentes (pesquisadores, papers, ...)
– Troca de mensagens (KQML ?)
– Aproveitar informações de organização das URLs
– Incluir aprendizado e conseqüente feedback do
usuário, para facilitar a aquisição do conhecimento
– Definir métricas de avaliação
– Buscar no BD com IR [Cohen 95]
Fred Freitas - LCMI - DAS - UFSC
Download

- Um Sistema Multiagente para Tratamento de Domínios na