Ontologias para Melhorar Precisão e Cobertura de Buscas na Web Flávia Barros, Pedro Gonçalves e Thiago Santos Departamento de Informática Universidade Federal de Pernambuco Recife - PE SEMISH’98 Buscas na Web • O que queremos? – Mecanismos de Busca na Web (search engines) que ofereçam: • precisão e boa cobertura (recall) nas buscas • funcionamento transparente para o usuário • flexibilidade na busca • O que temos: – Mecanismos de busca gerais com: • boa cobertura, porém baixa precisão • pouca transparência e flexibilidade. • O que fazer? _____________________________ F. Barros, P. Gonçalves e T. Santos 2 Contexto para Buscas • Classificação em Hierarquias de conceitos – problemas: transparência e flexibilidade – e.g., Yahoo!, Cadê, Lycos • Buscas “conceituais” – problemas: precisão e transparência – e.g., AltaVista, Excite! • cursos de violoncelo - violino • Problema central: – como associar contexto às buscas na Web com transparência e flexibilidade? _____________________________ F. Barros, P. Gonçalves e T. Santos 3 Ontologias! • Hierarquias de conceitos. • Em Filosofia: Teoria Ontológica – estudo do que existe no mundo • Em IA: Engenharia Ontológica – especificação das classes (conceitos), objetos e suas relações em um dado domínio • Taxonomia do domínio _____________________________ F. Barros, P. Gonçalves e T. Santos 4 Nossas Ontologias • Seguimos o trabalho da Engenharia Ontológica – observando que nosso domínio é irrestrito (a Web) • Nossas ontologias são grafos cíclicos dirigidos onde: – nós representam conceitos • contêm palavras-chave e URL-exemplos – arcos representam relações semânticas “frouxas” • e.g., “é um“, especialização, parte-de, grupo, conceito composto – ciclos não são problema: • o grafo é dirigido • não classificamos URLs na ontologia. _____________________________ F. Barros, P. Gonçalves e T. Santos 5 Exemplo de Ontologia Cinema: filme, diretor, Cannes, .. http://www.cinemas.br Entretenimento Especialização Teatro Especialização Cinema Tem Tem programação grupo Segunda Terça Quarta ... _____________________________ F. Barros, P. Gonçalves e T. Santos 6 Ontologias para contextualizar consultas • Nossas Ontologias: – Hierarquias de conceitos dinâmicas – que não classificam a priori as páginas indexadas – e sim, auxiliam na construção do contexto da busca. • Contexto da busca: – Construído pelo usuário a partir das ontologias do sistema. – Reflete a estrutura conceitual de cada consulta à Web – favorecendo o aumento da precisão e da cobertura nas buscas. _____________________________ F. Barros, P. Gonçalves e T. Santos 7 Exemplo: Nossa Abordagem • Conceitos nas ontologias: – descritos por palavras semanticamente relacionadas – que podem ser selecionadas individualmente. • Três classes: (1) sinônimos => cobertura • macaxeira OR aipim • problema: difíceis de achar – mesa, cadeira, parede ??? – tesauros (2) restrição ou especialização => precisão • esporte de campo AND futebol (3) expansão ou generalização => cobertura • Roland Garros OR campeonato de tênis _____________________________ F. Barros, P. Gonçalves e T. Santos 9 Um Framework para Gerenciar Ontologias • Framework para Gerenciar Ontologias (OMF) – é um plug in que pode ser conectado a diferentes mecanismos de busca – é independente da língua usada • Critérios básicos para o sistema: – modularidade e reusabilidade • engenharia de software – escalabilidade • sistemas de informação para a Web – transparência e flexibilidade • interfaces em geral _____________________________ F. Barros, P. Gonçalves e T. Santos 10 Arquitetura do Sistema As Ontologias • As Ontologias são criadas e mantidas pelo Módulo de Manutenção de Ontologias: – uma Ontologia Pública, compartilhada por todos os usuários do sistema – diversas Ontologias Privadas, criadas e mantidas por cada usuário em sua própria área Ontologia pública (genérica) => sistema Ontologias privadas (domínios especializados) => usuário _____________________________ F. Barros, P. Gonçalves e T. Santos 12 Interface do Sistema Trabalhos Relacionados • Uma solução para aumentar a precisão nas buscas: – classificar a página segundo alguma ontologia disponível na Web usando tags HTML especiais • SHOE = Simple HTML Ontology Extension) • GDA = Global Document Annotation • Maiores problemas: – até o momento, não existe um sistema único de tags universalmente aceito. – os bancos de índices limitam-se às páginas marcadas com as tags especiais de cada sistema. _____________________________ F. Barros, P. Gonçalves e T. Santos 14 Considerações Finais • Seguimos os critérios básicos estabelecidos: – modularidade na arquitetura • favorecendo portabilidade e reusabilidade – transparência nas consultas • o usuário determina o contexto de cada consulta – flexibilidade no uso do sistema como um todo: • acesso a diferentes mecanismos de busca • construção de contextos dinamicamente • o usuário constrói suas próprias ontologias – que podem ser adicionadas à ontologia pública • o framework é independente da Língua • O exemplo apresentado demonstrou uma melhoria de 30% pela expansão da consulta inicial. _____________________________ F. Barros, P. Gonçalves e T. Santos 15 Trabalhos Futuros • Atualmente estamos desenvolvendo o Módulo de Manutenção de Ontologias. • Próximos passos: – desenvolver o mecanismo para criação e uso das ontologias privadas – testar o framework com usuários reais _____________________________ F. Barros, P. Gonçalves e T. Santos 16