Querying Across Languages: A Dictionary-Based Approach to Multilingual Information Retrieval Trabalho executado por: Antónia Aguiar Eugénia Almeida Karen Goethals 1 Encontrar documentos, informação, paginas WWW ... Em qualquer linguagem • Usando queries expressas na linguagem preferida Fonte: Douglas W. Oard College of Library and Information Services University of Maryland 2 Source: Michael Lesk, How Much Information is there in the World? 3 Query Interface Query Tecnologia de pesquisa Documentos Conjunto recuperado Selecção de interface 4 Tecnologia de pesquisa French Query TREC Sistema de recuperação tradução da query Mais realistica English Documents TIPSTER tradução de documentos Custos de armazenamento aumentam linearmente com o número de linguagens suportadas 5 E s b n t t a t s e i e r n a r t t e r r Uso de queries com julgamentos r de relevância conhecidos o r a •Interrogações utilizadas e documentadas pelas oexperiências g d g a TRECa u ç ç ç õ Uso da colecção de textos TIPSTER ã e õ s o 6 e t d I • • O Xerox approach Nesta página entra o slide 7 com outra formatação, que se encontra no documento trabalho1_2.ppt 7 VERSÃO PRECENTAGEM DE RECUPERAÇÃO MOTIVOS IDENTIFICADOS COMO RESPONSÁVEIS PELA PERDA DE PERFORMANCE Query original Inglês (TREC) 54% Query retraduzida 34% Perdas na tradução (Inglês para Francês) Ambiguidade na tradução 19% Ambiguidade na tradução de Inglês para francês Ambiguidade na retradução 10% Ambiguidade na tradução de francês para Inglês Query retraduzida 5% 8 Pontos relevantes identificados A tradução correcta das frases é um dos factores mais importante nas experiências multilíngues. A ambiguidade na tradução pode igualmente causar sérios problemas pela adição de ruído à querie. Efectivamente, a torre de Babel pode vir a ser desmoronada se, houver cooperação e partilha de recursos preciosos que tendem a ser ciosamente guardados pelos seus donos. 9 Curiosidade De originele opzoekingen waren niet geschikt voor het terugvinden van meertalige informatie wegens hun lengte en inhoud. Meer bepaald, bepaalde domeinen bevatten specifieke terminology, bijvoorbeeld voor de telecommunicatiesector: video-on-demand, client/server,... Ook afkortingen zoals LAN en CPU zijn universeel herkenbaar, tevens als namen, om er maar een te noemen Bill Gates. The original queries were not suitable for multilingual information retrieval due to their length and content. In particular, certain domains contain specific terminology, for example for the telecommunication- sector: video-on-demand, client/server. Also abbreviations like LAN and CPU are universal recognisable, just like names, to name one Bill Gates. As interrogações originais não eram as mais adequadas para recuperação de informação multi-lingue devido ao seu comprimento e conteúdo. Certos domínios em particular, contêm terminologia específica, como por exemplo para as telecumuniações:Video-on-demand, Client/server. Também abreviações como LAN e CPU, são reconhecidas universalmente, tal como os nomes, para citar apenas um Bill Gates. 10