Querying Across Languages:
A Dictionary-Based Approach to Multilingual
Information Retrieval
Trabalho executado por:
Antónia Aguiar
Eugénia Almeida
Karen Goethals
1
Encontrar documentos, informação, paginas WWW ...
Em qualquer linguagem
• Usando queries expressas na linguagem preferida
Fonte:
Douglas W. Oard
College of Library and Information Services
University of Maryland
2
Source: Michael Lesk, How Much Information is there in the World?
3
Query
Interface
Query
Tecnologia
de pesquisa
Documentos
Conjunto recuperado
Selecção
de interface
4
Tecnologia de pesquisa
French Query
TREC
Sistema de
recuperação
tradução da query
Mais realistica
English Documents
TIPSTER
tradução de documentos
Custos de armazenamento aumentam
linearmente com o número de
linguagens suportadas
5
E
s
b
n
t
t
a
t
s
e
i
e
r
n
a
r
t
t
e
r
r
Uso de queries com julgamentos
r de relevância conhecidos
o
r
a
•Interrogações
utilizadas e documentadas pelas oexperiências
g
d
g
a
TRECa
u
ç
ç
ç
õ
Uso da colecção
de textos TIPSTER
ã
e
õ
s
o
6
e
t
d
I
•
•
O
Xerox approach
Nesta página entra o slide 7 com outra formatação, que se encontra no documento
trabalho1_2.ppt
7
VERSÃO
PRECENTAGEM
DE
RECUPERAÇÃO
MOTIVOS IDENTIFICADOS
COMO RESPONSÁVEIS PELA
PERDA DE PERFORMANCE
Query original Inglês
(TREC)
54%
Query retraduzida
34%
Perdas na tradução (Inglês para
Francês)
Ambiguidade na
tradução
19%
Ambiguidade na tradução de
Inglês para francês
Ambiguidade na
retradução
10%
Ambiguidade na tradução de
francês para Inglês
Query retraduzida
5%
8
Pontos relevantes identificados
A tradução correcta das frases é um dos factores
mais importante nas experiências multilíngues.
A ambiguidade na tradução pode igualmente
causar sérios problemas pela adição de ruído à querie.
Efectivamente, a torre de Babel pode vir a ser desmoronada
se, houver cooperação e partilha de recursos preciosos que
tendem a ser ciosamente guardados pelos seus donos.
9
Curiosidade
De originele opzoekingen waren niet geschikt voor het terugvinden van meertalige informatie
wegens hun lengte en inhoud. Meer bepaald, bepaalde domeinen bevatten specifieke
terminology, bijvoorbeeld voor de telecommunicatiesector: video-on-demand, client/server,...
Ook afkortingen zoals LAN en CPU zijn universeel herkenbaar, tevens als namen, om er
maar een te noemen Bill Gates.
The original queries were not suitable for multilingual information retrieval due to
their length and content. In particular, certain domains contain specific
terminology, for example for the telecommunication- sector: video-on-demand,
client/server. Also abbreviations like LAN and CPU are universal recognisable, just
like names, to name one Bill Gates.
As interrogações originais não eram as mais adequadas para recuperação de informação
multi-lingue devido ao seu comprimento e conteúdo. Certos domínios em particular, contêm
terminologia específica, como por exemplo para as telecumuniações:Video-on-demand,
Client/server. Também abreviações como LAN e CPU, são reconhecidas universalmente, tal
como os nomes, para citar apenas um Bill Gates.
10
Download

Tecnologia de pesquisa