Avaliação De Sistemas De
Recuperação De
Informação (RI):
Panorâmica E
Reflexões
Rachel Virgínia Xavier Aires
27 de junho de 2002
Avaliação De Sistemas De
RI: Panorâmica
O que avaliar
 Como avaliar
 Avaliação de máquinas de busca
 Planejamento de uma avaliação de
máquinas de busca

2—55
O Que Avaliar

Qual o objetivo da avaliação?

Fazer uma avaliação do sistema

Fazer uma avaliação dos usuários

Fazer uma avaliação do sistema
pensando nos usuários
3—55
Avaliando O Sistema (1-5)

Que forma de indexação funciona
melhor?

Qual algoritmo de RI é melhor?
4—55
Avaliando O Sistema (2-5)

As avaliações são feitas com: um
conjunto de documentos, um conjunto de
consultas e um conjunto de respostas

A comparação em geral é feita através de
duas medidas: recall e precision (ambas
serão explicadas em “como avaliar”)
5—55
Avaliando O Sistema (3-5)
Exemplos de avaliação deste tipo
são as avaliações do TREC
 Estas iniciativas são importantes
para melhorar a qualidade sob o
ponto de vista técnico de RI
 Exemplos de iniciativas semelhantes
são as do japão e china

6—55
Avaliando O Sistema (4-5)

Críticas:

Credibilidade
• Ambiente de laboratórios X ambiente real
• Relevância dos julgamentos (em “como
avaliar”)

Generalidade
• As consultas são representativas?
• Coleções de texto pequenas e mais
voltadas para ciência e tecnologia
7—55
Avaliando O Sistema (5-5)

Críticas:

Utilidade
• Alguns sistemas tem de ser avaliados segundo
outros critérios
• A precisão está relacionada a visão do usuário de
um bom sistema?

Comprovação teórica
• Recall e precision têm algum significado para o
usuário?
• Diferenças estatísticas entre estas medidas são
significante em contextos e situações reais?
8—55
Avaliando Os Usuários (1-3)

Comportamento (processo de explorar a
informação) e satisfação dos usuários na
busca

Eficiência do sistema



Se as necessidades do usuário foram
atendidas
Se a informação recuperada é útil ou não
Se a interface é amigável
9—55
Avaliando Os Usuários (2-3)

Estas avaliações promoveram avanços:




Para conhecer as necessidades dos usuários
Novos sistemas de RI, como os que passaram
a incluir interfaces de interação gráfica
Novas informações sobre que recursos podem
ajudar o usuário a encontrar recursos
relevantes
E principalmente serviram para mostrar que
relevância é um conceito dinâmico e
situacional
10—55
Avaliando Os Usuários (3-3)

Problemas:





Os pesquisadores deste tipo de avaliação são
experientes em teorias e métodos e raramente em
tecnologia – não sabem como fazer sistemas de acordo
com seus resultados ou traduzi-los de forma que outros
possam fazer
É difícil comparar ou resumir os resultados porque são
utilizados dados, métodos e níveis de análise diferentes
São estudos em geral focados em públicos específicos
Não estão relacionados a públicos grandes e
diferenciados
As análises levam de meses a anos
11—55
Avaliando O Sistema
Considerando Os Usuários (1-2)

Questões entre estes dois paradigmas
(Saracevic, 1995):



Quanto sucesso teve e tem a RI em resolver o
problema da explosão de informação?
Quão bem a RI dá suporte às pessoas em
situações difíceis quando têm de escolher
entre diversas opções?
Como toda esta informação, associada a
tecnologia de RI existente, afeta nosso
trabalho, lazer, sociedade, cultura?
12—55
Avaliando O Sistema
Considerando Os Usuários (2-2)

Estas questões devem ser respondidas já
que o propósito geral de uma avaliação é
aumentar as chances de um determinado
sistema de RI ser adotado e utilizado.

Só é possível respondê-las com análises
de sistemas associadas a análises de
usuários e unindo as pesquisas de
laboratório as situações reais, contextos,
indivíduos e organizações.
13—55
Avaliação De Sistemas De
RI: Reflexões
O que avaliar
 Como avaliar
 Avaliação de máquinas de busca
 Planejamento de uma avaliação de
máquinas de busca

14—55
Como Avaliar

Nem uma técnica proporciona por si só
uma avaliação completa.

Nem todos os critérios e medidas são
necessários para todos os contextos.

Como a performance é medida através de
benchmarks, a performance é válida
apenas para o ambiente em que foi
medida.
15—55
Como Avaliar

É difícil construir corpora.

Benchmarks pra web ainda estão
sendo construídos.

Não existem banchmarks para
várias línguas. Como é o caso do
português.
16—55
Precision e Recall
(precisão e revocação)
Todos os
documentos
Documentos
relevantes
Documentos
recuperados
Numero de documentos relevantes recuperado s
recall 
Número total de documentos relevantes
Núm erode docum entosrelevantesrecuperados
precision
Núm erototal de docum entosrecuperados
17—55
Precision E Recall No TREC




Sumário estatístico: número de tópicos,
número de documentos recuperados,
número de documentos relevantes.
Recall-precision: precisão média em 11
níveis de recall (de 0 a 1, de 0.1 em 0.1).
Precisão média quando 5, 10, .., 100, …
1000 documents são recuperados.
Recall-precision para cada tópico e a
média de recall-precision para cada um
dos sistemas para aquele tópico.
18—55
Dificuldades em medir

Eficiência está relacionada à
relevância dos documentos
recuperados
Não é fácil de calcular este número
 O que é relevante?
 Vai usar uma medida binária (sim/não)
ou não?

• A forma não binária é mais natural
19—55
Dificuldades em medir

A relevância é:
Subjetiva: depende do julgamento
 Situacional: relacionada as
necessidades atuais do usuário
 Cognitiva
 Dinâmica

20—55
Fallout

Problemas com precision e recall:
Número de documentos irrelevantes
não é considerado.
 Como medir o recall se não existir
documento relevante no conjunto de
documentos?
 Como medir precision se nenhum
documento for recuperado?

Fallout 
número de documentos irrelevant es recuperado s
número total de documentos irrelevant es
21—55
Outras Medidas

Diferença simétrica normalizada.
E  1

1
1 1  1 1 
   
2P 2R
Fornece a diferença proporcional entre o conjunto
de
documentos
relevantes
e
irrelevantes
recuperados por um sistema. Quanto menor a
diferença, melhor o sistema em recuperar todos
os documentos relevantes para uma
dada
consulta.
22—55
Medidas subjetivas De
relevância

Novelty: Proporção de items relevantes
recuperados que o usuário não conhecia.


Habilidade de encontrar nova informação
sobre um tópico.
Coverage: Proporção de items relevantes
recuperados que usuário já conhecia.

Quando o usuário quer encontrar documentos
que ele já conhecia.
23—55
Particularidades da avaliação
de sistemas RI na web
Precision = A / A+C
Recall = A / A+B
B
A
D
C
Na Web não temos B
Difícil obter A e C
24—55
Avaliação De Sistemas De
RI: Reflexões
O que avaliar
 Como avaliar
 Avaliação de máquinas de busca
 Planejamento de uma avaliação de
máquinas de busca

25—55
Particularidades Da Avaliação
De Máquinas De Busca

O que é mais importante: recall ou
precision?

Devido a generalidade desta aplicação
o recall e precision realmente não
servem como medidas únicas
26—55
Particularidades Da Avaliação
De Máquinas De Busca

Apesar das dificuldades em definir
os
número
de
documentos
relevantes
recuperados
e
não
recuperados a maioria dos estudos
compara
máquinas
de
busca
utilizando recall e/ou precision

Por exemplo, olhando as 2 primeiras
páginas
de
resultados
(Gwizdka
&
Chignell,1999)
27—55
Medidas Utilizadas





Composição dos índices: freqüência de
atualização e tamanho
Capacidade de busca: o que a máquina
de busca permite usar
Performance: além de precision e recall
usam tempo de resposta
Apresentação da saída
Esforço do usuário: quão difícil é para um
usuário comum utilizar a máquina de
busca
28—55
Medidas Sugeridas Por
Gwizdka & Chignell (1-5)



Sugerem que não se considere tempo de
resposta. Pois apesar de ser uma medida
importante é uma medida muito instável.
Falam de documentos relevantes,
documentos indiretamente relevantes e
não relevantes.
Propõe uma medida de precisão que
considere a posição do item relevante (se
entre os 10 primeiros tem um peso
maior).
29—55
Medidas Sugeridas Por
Gwizdka & Chignell (2-5)

Definem 4 tipos de precisão que
variam de acordo com a forma que a
relevância é utilizada: full precision,
best precision, useful precision e
objective precision.
30—55
Medidas Sugeridas Por
Gwizdka & Chignell (3-5)




Full precision - considera a
pontuação associada a cada hit
Best precision - considera apenas os hits
mais relevantes
Useful precision - considera apenas os
hits mais relevantes e os que contém
links para os mais relevantes
Objective precision - não requer
julgamentos de relevância. É baseada na
presença ou ausência de termos
requisitados e na distinção entre links
31—55
bons e ruins
Medidas Sugeridas Por
Gwizdka & Chignell (4-5)

A precisão é medida para os 20
primeiros itens recuperados
Pontuação Descrição
3
relevante
2
Parcialmente relevante ou contém um link
para uma página de pontuação 3
1
Pouco relevante. Menciona rapidamente
otópico ou contém um link para uma págica
com pontuação 2
0
Não relevante ou link inválido
32—55
Medidas Sugeridas Por
Gwizdka & Chignell (5-5)
Propõe uma medida de esforço
baseada na medida de tamanho da
busca (número de documentos
irrelevantes antes de um documento
relevante) – diferencia as paginas
indiretamente relevantes.
 Número de links ruins e de links
duplicados.

33—55
Clickthrough Data

Avaliação baseada totalmente nos cliques de
usuários.
Não
requer
julgamentos ou
feedback por parte do usuário.

Se o usuário clica em mais documentos de
uma máquina de busca do que nos de outra
tal máquina retornou resultados mais
relevantes (Joachims, 2002).
34—55
Avaliação De Sistemas De
RI: Reflexões
O que avaliar
 Como avaliar
 Avaliação de máquinas de busca
 Planejamento de uma avaliação
de máquinas de busca

35—55
Planejamento De Uma Avaliação
De Máquinas De Busca

O que interessa verificar sobre uma
máquina de busca? Exemplos:
Qual é a melhor máquina de busca
sobre medicina?
 Qual a melhor máquina de busca para
encontrar artigos científicos?


Para
diferentes
necessidades,
diferentes medidas e formas de
proceder a avaliação
36—55
Questões Tradicionais Ainda Não
Respondidas Para Máquinas De Busca
Para Português

Qual a melhor para as perguntas mais
freqüentes?

Qual o tamanho estimado do índice de
cada uma das máquinas de busca?

Como o índice vem sendo alterado ao
longo do tempo (volume, que tipo de
conteúdo, etc)?
37—55
Questões Tradicionais Ainda Não
Respondidas Para Máquinas De Busca
Para Português

Qual a freqüência com que seus
índices são atualizados (freshness)?

Como é a intersecção (overlap)
entre as máquinas de busca?

Qual a freqüência de links que não
existem mais?
38—55
Questões Interessantes Sobre As
Máquinas De Busca Para Português
É fácil encontrar artigos?
 Como é seu desempenho na busca
por serviços on-line?
 Dão suporte a estudantes em suas
pesquisas para o colégio?
 Qual a melhor para perguntas que
estão freqüentes em um
determinado período?


Islã, tiazinha, etc
39—55
O Que Definir

Que mecanismos de busca avaliar

Que consultas utilizar




Como selecionar as consultas
Filtrar ou não as consultas
Quantas consultas
Como julgar a relevância dos resultados
Que Mecanismos De Busca
Avaliar (1-2)




Somente máquinas de busca ou
máquinas de busca e diretórios?
Só serviços de busca gratuitos?
Somente máquinas de busca genéricas ou
também máquinas especializadas em um
determinado assunto?
Os meta searchers devem ser avaliados
ou não, somente quando possuem
também algum mecanismo de busca
próprio?
41—55
Que Mecanismos De Busca
Avaliar (2-2)



Avaliar apenas as máquinas de busca que
só indexam páginas em português ou
também as que indexam várias línguas
incluindo o português?
Quantas máquinas de busca avaliar?
Quais máquinas avaliar?

www.cade.com.br, www.todobr.com.br,
www.sapo.pt, www.tumba.pt,
www.google.com
42—55
Que Consultas Utilizar (1-2)

Selecionando dentre as consultas mais
freqüentes do log de uma máquina de
busca ou dentre todas:




Retirando uma amostra aleatória
Removendo os assuntos que não se quer
avaliar e então retirar uma amostra
Escolher entre as consultas sobre um dado
assunto
Escolher uma amostra seguindo proporções
• Uma determinada porcentagem de questões com
apenas 2 palavras, com apenas 3, com frases
• Questões em linguagem natural
43—55
Que Consultas Utilizar (2-2)

Elaborar uma lista de consultas
manualmente.



Para por exemplo, avaliar o desempenho das
máquinas de busca para pesquisa científica.
Solicitar que bibliotecários elaborem uma
lista de consultas para representar
diferentes necessidades de usuários.
Traduzir listas de consultas utilizadas em
outros estudos, por exemplo CLEF.
44—55
Filtrar Ou Não As Consultas



SPC
Nem sempre é possível interpretar
os
objetivos por trás de uma consulta.
CEE
Utilizar juízes humanos para
CETescolher
dentre as consultas quais possuem pelo
SdPM
menos um objetivo possível.
ou
Coletar consultas com um grupo pequeno
de usuários e solicitar que explicitem o
objetivo.
45—55
Filtrar Ou Não As Consultas



Nem sempre é possível interpretar os
objetivos por trás de uma consulta.
Utilizar juízes humanos para escolher
dentre as consultas quais possuem pelo
menos um objetivo possível.
ou
Coletar consultas com um grupo pequeno
de usuários e solicitar que explicitem o
objetivo.
46—55
Quantas Consultas

Quantas consultas para avaliar a
precisão?

03
07
15
18

Acima de 50




(Pratt & Fragan, 2000; Notess, 2000),
04
(Notess, 2002)
(Consumidor S.A; Moreira)
(Gwizdka & Chignell 1999; Notess, 1999)
(Bruza et al, 2000),
1999)
20
(CNET.com),
50
(Hawking et al,
(Hawking et al, 2001; Li et al, 2001)
Quantas consultas para avaliar critérios
que devem ser avaliados com uma
freqüência maior? Por exemplo,
freshness.
47—55
A Relevância Ou Não Dos
Documentos (1-3)

Dentre os documentos retornados como
resposta, quantos julgar?


Os primeiros 10 (CNET.com; Chu & Rosenthal, 1996;
Hawking et al, 2001), 20 (Gwizdka & Chignell, 1999; Hawking et
al, 1999; Li et al, 2001; Su et al, 1998) de cada máquina
(1ª e 2ª páginas de resultados)?
Quem irá julgar a relevância?


O grupo que está realizando a avaliação (Chu &
Rosenthal, 1996) – pesquisadores da área.
Pessoas que não são de RI nem de
computação. Por exemplo, usuários
interessados em um determinado assunto.
(Pratt & Fagan, 2000).

Bibliotecários.
(Chu & Rosenthal, 1996)
48—55
A Relevância Ou Não Dos
Documentos (2-3)

O julgamento será binário?
Relevante e não relevante
 Relevante, pouco relevante e
irrelevante
 Níveis de relevância (Su et al, 1998; Gwidka &

Chignell, 1999)

Haverá apenas um objetivo para
cada consulta?
49—55
A Relevância Ou Não Dos
Documentos (2-3)

O julgamento será binário?
SPC - Sociedade
de Proteção ao Crédito
Relevante
e não relevante
 Relevante, pouco relevante e
irrelevante
SPC - Só para contrariar
 Níveis de relevância (Su et al, 1998; Gwidka &

Chignell, 1999)

Considerar apenas um objetivo para
cada consulta?
50—55
A Relevância Ou Não Dos
Documentos (3-3)

Que instruções dar aos juizes?
(Hawking et al, 2000)
Não considerem a avaliação do
documento anterior na avaliação atual
 Não considerem a qualidade do
documento, vejam apenas se trata do
assunto questionado
 Não importa a veracidade das
informações

51—55
Avaliação De Sistemas De RI:
Reflexões

É possível realizar uma avaliação
conjunta de RI tomando por base os
critérios das já existentes e/ou
atualizando-os para as necessidades
atuais

É necessário criar uma base de
consultas e documentos relevantes
para português
52—55
Avaliação De Sistemas De RI:
Reflexões

Para quaisquer das tarefas de RI é
possível fazer avaliações mais
detalhadas individuais e participar de
avaliações conjuntas como o TREC e
CLEF

É necessário criar uma base de
consultas e documentos relevantes
para português
53—55
Como Criar Esta Base
Cooperativamente?




Definir como criar os tópicos
 Que assuntos
 Por exemplo: 20 consultas,
avaliando os primeiros 30 resultados
de 5 mb
Definir o processo de medir relevância
Definir um processo de adicionar novos
tópicos nas avaliações seguintes
Compatível com o TREC?
O Que Vamos Avaliar
Cooperativamente

Sugestões sob o ponto de vista de
uma base da web:
Recuperação de informação na web
 Recuperação de informação multilíngüe
 Filtering
 Question answering
 Information extraction
 Sumarização de documentos da web

Referências

(Bruza et al, 2000) Peter Bruza; Robert McArthur; Simon Dennis.
Interactive Internet Search: keyword, directory and query
reformulation mechanisms compared.
www.guidebeam.com/sigir00.pdf

(CNET.com) CNET.com. Search Engines Shoot-out.
http://www.cnet.com/software/0-352106-7276936.html?tag=txt

(Chu & Rosenthal, 1996). Heting Chu; Marilyn Rosenthal. Search
Engines the World Wide Web: A comparative study and
evaluation methodology. ASIS 1996.
http://www.asis.org/annual-96/ElectronicProceedings/chu.html

(Consumidor S.A)
http://server.digipronto.com.br/idec.org.br/consumidorsa/arquiv
o/jun99/aval.htm
56—55
Referências

(Cooper, 1968) W. S. Cooper. Expected search length: A
single measure of retrieval effectiveness based on weak
ordering action of retrieval systems. Journal of the American
Society for Information Science, 19, 30-41. 1968.

(Greisdorf & Spink, 2001) Howard Greisdorf; Amanda Spink.
Median Measure: an approach to IR systems evaluation.
Information Processing and Management 37, 843-857. 2001.

(Gwizdka & Chignell,1999) Jacek Gwizdka; Mark Chignell.
Towards Information Retrieval Measures for Evaluation of
Web Search Engines.
http://www.imedia.mie.utoronto.ca/~jacekg/pubs/webIR_eval1_
99.pdf
57—55
Referências

(Hawking et al, 1999) David Hawking; Nick Craswell; Donna
Harman. Results and Challenges in Web Search Evaluation.
http://www8.org/w8-papers/2c-searchdiscover/results/results.html

(Hawking et al, 2000) David Hawking; Nick Craswell; Peter
Bailey; Kathy Griffiths. Measuring Search Engine Quality.
Journal of Information Retrieval.
http://www.wkap.nl/journalhome.htm/1386-4564.

(Hawking et al, 2001)David Hawking; Nick Craswell; Kathleen
Griffiths. Which search engine is best at finding online
services? http://citeseer.nj.nec.com/455030.html

(Joachims, 2002) Thorsten Joachims. Evaluating Search
Engines using Clickthrough Data. 2002.
http://www.cs.cornell.edu/People/tj/publications/joachims_02b.p
df
58—55
Referências

(Li et al, 2001) Longzhuang Li; Yi Shang; Wei Zhang. Relevance
evaluation of search engines´query results.
http://www10.org/cdrom/posters/1017.pdf

(Moreira) Wálter Moreira. Eficácia dos mecanismos de busca
brasileiros na internet.
http://intermega.globo.com/biblio_fespsp/artigos.htm

(Notess, 1999) Greg R. Notess. Comparing Internet Search
Engines.
http://www.csu.edu.au/special/online99/proceedings99/103a.ht
m

(Notess, 2000) Greg R. Notess. Seacrh Engine Statistics:
Dead links report.
http://www.notess.com/search/stats/deads.shtml.
59—55
Referências
(Notess,
2002) Greg R. Notess. Seacrh Engine Statistics:
Unique Hits Report.
http://www.notess.com/search/stats/unique.html.
(Pratt
& Fagan, 2000) Wanda Pratt; Lawrence Fagan. The
usefulness of dynamically categorizing search results.
Journal of the American Medical Informatics Association, Vol 7, 6,
2000.
(Rijsbergen,
1979) C. J. van RIJSBERGEN. Information
Retrieval. 1979. Disponível em
http://www.dcs.gla.ac.uk/Keith/Preface.html.
(Robertson
& Teather, 1974) S.E. Robertson; D. Teather. A
statistical analysis of retrieval tests: a Bayesian approach.
Journal of Documentation, 30, 273-282. 1974.
60—55
Referências

(Saracevic, 1995) T. Saracevic. (1995). Evaluation of
evaluation in information retrieval. Proceedings og SIGIR 95,
138-146.
http://www.scils.rutgers.edu/~muresan/Docs/sigirSaracevic1995
.pdf

(Su et al, 1998) L. T. Su; H. Chen; X. Dong. Evaluation of
Web-based search engines from the end-user´s
perspective: a pilot study. Proceedings of the Annual
Conference for the American Society for Information Science,
348-361.

(Swets, 1963) J. A. Swets. Information Retrieval Systems.
Science, 141, 245-250. 1963.

(Wishard, 1998) Lisa Wishard. Precision Among Internet
Search Engines: An Earth Sciences Case Study.
http://www.library.ucsb.edu/istl/98-spring/article5.html
61—55
Referências

(Wu & Sonnenwald, 1999) Mei-Mei Wu; Diane H.
Sonnenwald. Reflections in Information Retrieval
Evaluation. Proceedings of the 1999 EBTI, ECAI, SEER &
PNC Joint Meeting, 63-81. http://pnclink.org/eventsreport/1999/Proceedings/wu-mm.pdf
62—55
Lista de mecanismos de
busca

Brasil



Portugal





www.todobr.com.br
www.cade.com.br
www.paginasamarelas.pt
www.gertrudes.pt
www.sapo.pt
www.aeiou.pt
Genéricas



www.google.com
www.altavista.com.br
www.fast.no
63—55
Download

Rachel_Aires