Ontologias para Melhorar
Precisão e Cobertura de
Buscas na Web
Flávia Barros, Pedro Gonçalves e Thiago Santos
Departamento de Informática
Universidade Federal de Pernambuco
Recife - PE
SEMISH’98
Buscas na Web
• O que queremos?
– Mecanismos de Busca na Web (search engines) que
ofereçam:
• precisão e boa cobertura (recall) nas buscas
• funcionamento transparente para o usuário
• flexibilidade na busca
• O que temos:
– Mecanismos de busca gerais com:
• boa cobertura, porém baixa precisão
• pouca transparência e flexibilidade.
• O que fazer?
_____________________________
F. Barros, P. Gonçalves e T. Santos
2
Contexto para Buscas
• Classificação em Hierarquias de conceitos
– problemas: transparência e flexibilidade
– e.g., Yahoo!, Cadê, Lycos
• Buscas “conceituais”
– problemas: precisão e transparência
– e.g., AltaVista, Excite!
• cursos de violoncelo - violino
• Problema central:
– como associar contexto às buscas na Web com
transparência e flexibilidade?
_____________________________
F. Barros, P. Gonçalves e T. Santos
3
Ontologias!
• Hierarquias de conceitos.
• Em Filosofia: Teoria Ontológica
– estudo do que existe no mundo
• Em IA: Engenharia Ontológica
– especificação das classes (conceitos), objetos e
suas relações em um dado domínio
• Taxonomia do domínio
_____________________________
F. Barros, P. Gonçalves e T. Santos
4
Nossas Ontologias
• Seguimos o trabalho da Engenharia Ontológica
– observando que nosso domínio é irrestrito (a Web)
• Nossas ontologias são grafos cíclicos dirigidos
onde:
– nós representam conceitos
• contêm palavras-chave e URL-exemplos
– arcos representam relações semânticas “frouxas”
• e.g., “é um“, especialização, parte-de, grupo, conceito
composto
– ciclos não são problema:
• o grafo é dirigido
• não classificamos URLs na ontologia.
_____________________________
F. Barros, P. Gonçalves e T. Santos
5
Exemplo de Ontologia
Cinema:
filme, diretor, Cannes, ..
http://www.cinemas.br
Entretenimento
Especialização
Teatro
Especialização
Cinema
Tem
Tem
programação
grupo
Segunda
Terça
Quarta
...
_____________________________
F. Barros, P. Gonçalves e T. Santos
6
Ontologias para contextualizar consultas
• Nossas Ontologias:
– Hierarquias de conceitos dinâmicas
– que não classificam a priori as páginas indexadas
– e sim, auxiliam na construção do contexto da busca.
• Contexto da busca:
– Construído pelo usuário a partir das ontologias do
sistema.
– Reflete a estrutura conceitual de cada consulta à Web
– favorecendo o aumento da precisão e da cobertura
nas buscas.
_____________________________
F. Barros, P. Gonçalves e T. Santos
7
Exemplo:
Nossa Abordagem
• Conceitos nas ontologias:
– descritos por palavras semanticamente relacionadas
– que podem ser selecionadas individualmente.
• Três classes:
(1) sinônimos => cobertura
• macaxeira OR aipim
• problema: difíceis de achar
– mesa, cadeira, parede ???
– tesauros
(2) restrição ou especialização => precisão
• esporte de campo AND futebol
(3) expansão ou generalização => cobertura
• Roland Garros OR campeonato de tênis
_____________________________
F. Barros, P. Gonçalves e T. Santos
9
Um Framework para Gerenciar Ontologias
• Framework para Gerenciar Ontologias (OMF)
– é um plug in que pode ser conectado a diferentes
mecanismos de busca
– é independente da língua usada
• Critérios básicos para o sistema:
– modularidade e reusabilidade
• engenharia de software
– escalabilidade
• sistemas de informação para a Web
– transparência e flexibilidade
• interfaces em geral
_____________________________
F. Barros, P. Gonçalves e T. Santos
10
Arquitetura do Sistema
As Ontologias
• As Ontologias são criadas e mantidas pelo
Módulo de Manutenção de Ontologias:
– uma Ontologia Pública, compartilhada por todos os
usuários do sistema
– diversas Ontologias Privadas, criadas e mantidas por
cada usuário em sua própria área
Ontologia pública (genérica)
=> sistema
Ontologias privadas
(domínios especializados)
=> usuário
_____________________________
F. Barros, P. Gonçalves e T. Santos
12
Interface do Sistema
Trabalhos Relacionados
• Uma solução para aumentar a precisão nas
buscas:
– classificar a página segundo alguma ontologia
disponível na Web usando tags HTML especiais
• SHOE = Simple HTML Ontology Extension)
• GDA = Global Document Annotation
• Maiores problemas:
– até o momento, não existe um sistema único de tags
universalmente aceito.
– os bancos de índices limitam-se às páginas marcadas
com as tags especiais de cada sistema.
_____________________________
F. Barros, P. Gonçalves e T. Santos
14
Considerações Finais
• Seguimos os critérios básicos estabelecidos:
– modularidade na arquitetura
• favorecendo portabilidade e reusabilidade
– transparência nas consultas
• o usuário determina o contexto de cada consulta
– flexibilidade no uso do sistema como um todo:
• acesso a diferentes mecanismos de busca
• construção de contextos dinamicamente
• o usuário constrói suas próprias ontologias
– que podem ser adicionadas à ontologia pública
• o framework é independente da Língua
• O exemplo apresentado demonstrou uma melhoria
de 30% pela expansão da consulta inicial.
_____________________________
F. Barros, P. Gonçalves e T. Santos
15
Trabalhos Futuros
• Atualmente estamos desenvolvendo o Módulo de
Manutenção de Ontologias.
• Próximos passos:
– desenvolver o mecanismo para criação e uso das
ontologias privadas
– testar o framework com usuários reais
_____________________________
F. Barros, P. Gonçalves e T. Santos
16
Download

slides - Centro de Informática da UFPE