Introduction to Information Retrieval
Introduction to
Information Retrieval
CS276
Information Retrieval and Web Search
Christopher Manning and Prabhakar Raghavan
Lecture 8: Evaluation
Introduction to Information Retrieval
Sec. 6.2
Nesta Aula
 Como sabemos se nosso resultado é bom?
 Avaliando um mecanismo de busca
 Benchmarks
 Precisão e retorno
 Resumo dos resultados:
 Fazendo os bons resultados utilizáveis para o usuário
2
Introduction to Information Retrieval
AVALIANDO MECANISMOS DE
BUSCA
Introduction to Information Retrieval
Sec. 8.6
Medidas para um mecanismo de busca
 Quão rápido é a indexação
 Número de documentos/hora
 (Tamanho médio de documento)
 Quão rápido é a busca
 Latência em função do tamanho de índice
 Expressividade da linguagem de consulta
 Capacidade de expressar a necessidade de informações
complexas
 Velocidade em consultas complexas
 UI ordenado (Uncluttered UI)
 É grátis?
4
Introduction to Information Retrieval
Sec. 8.6
Medidas para um mecanismo de busca
 Todos os critérios anteriores são mensuráveis:
podemos quantificar a velocidade/tamanho
 Nós podemos fazer expressividade precisa
 A medida-chave: a felicidade do usuário
 O que é isso?
 Velocidade de resposta / tamanho do índice são fatores
 Mas mesmo que incrivelmente rápidas, respostas inúteis
não deixarão um usuário feliz
 Precisamos de uma forma de quantificar a felicidade
do usuário
5
Introduction to Information Retrieval
Sec. 8.6.2
Medindo a felicidade de usuário
 Questão: quem é o usuário que estamos tentando fazer feliz?
 Depende da configuração
 Sistema Web:
 Usuário encontra o que quer e retorna ao sistema
 Pode medir a taxa de retorno de usuários
 Usuário conclui a sua tarefa - a pesquisa como um meio, não fim
 Veja Russell http://dmrussell.googlepages.com/JCDL-talk-June-2007short.pdf
 Site de eCommerce: usuário encontra o que quer e compra
 É do usuário final, ou do site eCommerce, cuja felicidade se mede?
 Medida do tempo para comprar, ou fração de usuáris que se tornam
compradores?
6
Introduction to Information Retrieval
Sec. 8.6.2
Medindo a felicidade de usuário
 Empresas (companhias/governo/academia): Se
preocupam sobre “produtividade do usuário”
 Quanto tempo meus usuários economizam quando
procuram por informação?
 Muitos outros critérios têm a ver com a largura de acesso,
acesso seguro, etc
7
Introduction to Information Retrieval
Sec. 8.1
Felicidade: não há como medir
 Representante mais comum: relevância dos
resultados de busca
 Mas como medir relevância?
 Vamos detalhar a metodologia aqui, em seguida,
analisar os seus problemas
 Medição da relevância requer 3 elementos:
1. Uma coleção de documentos de referência
2. Um conjunto referência de consultas
3. Uma avaliação, geralmente binária, de Relevante ou
Não-Relevante para cada consulta e cada documento

Alguns trabalham com mais que binário, mas não é o padrão
8
Introduction to Information Retrieval
Sec. 8.1
Avaliando um sistema de RI
 Nota: a necessidade de informação é traduzida em uma
consulta
 A relevância é avaliada em relação à informação necessária
não a consulta
 Por exemplo, informação necessária: Estou procurando
informações sobre se beber vinho tinto é mais eficaz para
reduzir o risco de ataques cardíacos do que o vinho branco.
 Consulta: vinho branco vermelho ataque cardíaco eficaz
 Avaliar se o documento aborda a informação necessário, não
se possui estas palavras
9
Introduction to Information Retrieval
Sec. 8.2
Medida de relevância padrão
 TREC - National Institute of Standards and
Technology (NIST) rodou um grande teste base de RI
por muitos anos
 Reuters e outras coleções de documentos de
referência usados
 “Tarefas de recuperação” especificadas
 As vezes como consultas
 Um expert marca, para cada consulta e cada
documento, Relevante ou Não-relevante
 ou pelo menos um subconjunto de documentos que
alguns sistemas retornam para a consulta
10
Sec. 8.3
Introduction to Information Retrieval
Avaliação de recuperação não rankeada:
Precisão ou Retorno
 Precisão: fração de documentos recuperados que
são relevantes = P(relevante|recuperado)
 Retorno: fração de documentos relevantes que são
recuperados = R(recuperado|relevante)
Relevante
Não-relevante
Recuperado
tp
fp
Não recuperado
fn
tn
 Precisão P = tp/(tp + fp)
 Retorno R = tp/(tp + fn)
11
Introduction to Information Retrieval
Sec. 8.3
Nós devemos, ao invés, medida de
precisão para a avaliação?
 Dada uma consulta, um sistema classifica cada
documento como “Relevante” ou “Não-relevante”
 A precisão de um sistema: a fração destas
classificações são corretas
 (tp + tn) / ( tp + fp + fn + tn) = exatidão
 Precisão é uma medida de avaliação comumente
usada em trabalhos de classificação de máquinas de
aprendizagem
 Por que não é uma medida de avaliação muito útil
em RI?
12
Introduction to Information Retrieval
Sec. 8.3
Por que não usar precisão?
 Como construir um sistema de busca com precisão
de 99.9999% com baixo orçamento….
Search for:
0 matching results found.
 Pessoas que fazem recuperação de informação
querem encontrar alguma coisa e tem uma certa
tolerância a lixo.
13
Introduction to Information Retrieval
Sec. 8.3
Precisão/Retorno
 Você pode ter alto retorno (mas baixa precisão) ao
recuperar todos os documentos para todas as
consultas!
 Retorno é uma função crescente de número de
documentos recuperados
 Em um bom sistema, quando a precisão decresce o
número de documentos recuperados aumenta
(retorno aumenta)
 Isto não é um teorema, mas um resultado com forte
confirmação empírica
14
Introduction to Information Retrieval
Dificuldade no uso da
precisão/retorno
Sec. 8.3
 Precisa da decisão humana de relevância
 Pessoas não são assessores confiáveis
 Decisão tem que ser binária
 Decisões com nuances?
 Fortemente enviesado por coleção/autoria
 Resultados podem não traduzir de um domínio para outro
15
Sec. 8.3
Introduction to Information Retrieval
Uma medida combinada: F
 Medida combinada que avalia o intercâmbio
precisão/retorno é a medida F (modo de
ponderação harmônica):
2
F 
1

1
1
 (1   )
P
R

(
 1) PR
 2P  R
 Pessoas normalmente usam a medida balanceada
F1
 i.e., com  = 1 ou  = ½
 Modo harmônico é uma média conservadora
 Veja CJ van Rijsbergen, Information Retrieval
16
Sec. 8.3
Introduction to Information Retrieval
F1 e outras médias
Combined Measures
100
80
Minimum
Maximum
60
Arithmetic
Geometric
40
Harmonic
20
0
0
20
40
60
80
100
Precision (Recall fixed at 70%)
17
Introduction to Information Retrieval
Sec. 8.4
Avaliando resultados rankeados
 Avaliação de resultados rankeados:
 O sistema pode retornar qualquer número de resultados
 Por pegar vários dos top documentos retornados (nível de
retorno), o avaliador pode produzir uma curva
precisão/retorno
18
Sec. 8.4
Introduction to Information Retrieval
Uma curva precisão-retorno
1.0
Precision
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
Recall
19
Introduction to Information Retrieval
Sec. 8.4
Calculando a média sobre consultas
 Um gráfico precisão-retorno para uma consulta não é
uma coisa muito sensata de olhar
 Você precisa fazer o cálculo da média de performace
sobre uma grande grupo de consultas.
 Mas existe um problema técnico:
 Cálculos de precisão-retorno colocam alguns pontos no
gráfico
 Como determinar um valor (interpolado) entre os pontos?
20
Introduction to Information Retrieval
Sec. 8.4
Precisão interpolada
 Idéia: Se aumenta localmente a precisão com retorno
aumentando, então você deve levar em conta isto
 Então você tem o maximo de precisão para a direita
dos valores
21
Introduction to Information Retrieval
Sec. 8.4
Avaliação
 Gráficos são bons, mas pessoas querem medidas de resumo!
 Precisão no nível de recuperação fixo
 Precisão-em-k: Precisão dos top k resultados
 Talvez apropriado para a maioria das buscas web: o que todo
mundo quer são boas combinações na primeira ou segunda
páginas de resultados
 Mas: calcula mal a média e tem o parâmetro arbitrario de k
 Média de Precisão interpolada de ponto 11
 A medida padrão em competições atuais TREC : você pega a
precisão em 11 pontos de recuperação variando de 0 a 1 por
décimos de documentos, usando interpolação (o valor para 0 é
sempre interpolado!), e calcula a média deles
 Avalia a performace de todos os níveis de retorno
22
Sec. 8.4
Introduction to Information Retrieval
Tipicas (boas) precisões de 11 pontos
 Precisão SabIR/Cornell 8A1 11pt para TREC 8 (1999)
1
Precision
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
Recall
23
Introduction to Information Retrieval
Sec. 8.4
Mais medidas de avaliação…
 Meio termo da precisão média (MAP – Mean Average
Precision)
 Média do valor de precisão obtido para os top k documentos, cada vez
que um documento relevante é recuperado
 Evita interpolação, use níveis de retorno fixo
 MAP para coleção de consulta é média aritmética
 Macro-média: cada consulta conta igualmente
 Para cada consulta (pegamos os k documentos), calculamos a precisão
obtida. Ao final calculamos a média da precisão de todas as consultas.
 Precisão R
 Se é conhecido (embora talvez incompleta) o conjunto de documentos
relevantes de tamanho Rel, então calcula a precisão dos top Rel
documentos retornados
 Sistema perfeito pode pontuar 1.0.
24
Introduction to Information Retrieval
Sec. 8.4
Variação
 Para uma coleção de teste, é usual que um sistema
seja pobre em alguma necessidade de informação
(ex., MAP = 0.1) e excelente em outras (ex., MAP =
0.7)
 De fato,é normal o caso em que a variação da
performance do mesmo sistema em todas as
consultas é muito maior do que a variação de
diferentes sistemas na mesma consulta.
 Ou seja, há necessidade de informações fáceis e
difíceis!
25
Introduction to Information Retrieval
CRIANDO COLEÇÕES DE TESTES
PARA AVALIAÇÃO DE RI
Introduction to Information Retrieval
Sec. 8.5
Coleções de teste
27
Introduction to Information Retrieval
De coleções de documentos
para coleções de teste
Sec. 8.5
 Ainda precisa
 Consultas de teste
 Avaliações de relevância
 Consultas de teste
 Deve ser pertinente para documentos disponíveis
 Consultas relacionadas a engenharia em um domínio de engenharia
 Melhor concebido por especialistas do domínio
 Termos de consulta aleatórios geralmente não é uma boa idéia
 Avaliações de relevância
 Julgamento por homem, consumo de tempo
28
Introduction to Information Retrieval
Sec. 8.5
Unidade de avaliação
 Podemos computar precisão, retorno, F, e curva ROC
para diferentes unidades.
 Unidades possíveis
 Documentos (mais comum)
 Fatos (usado em algumas avaliações TREC)
 Entidades (ex., companhias de carro)
 Pode produzir resultados diferentes. Por quê?
29
Introduction to Information Retrieval
Medida Kappa para inter-julgar
(des)acordo
Sec. 8.5
 Medida Kappa
 Medida de acordo entre julgadores
 Projetado para julgamentos categóricos
 Corrige a probabilidade de acordo (Corrects for chance
agreement)




Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ]
P(A) – proporção de vezes que os julgadores concordam
P(E) – quando o acordo ocorre por acaso
Kappa = 0 por acaso, 1 para acordo total.
30
Sec. 8.5
Introduction to Information Retrieval
P(A)? P(E)?
Medida Kappa: Exemplo
Número de
documentos
Julgador 1
Julgador 2
300
Relevante
Relevante
70
Não relevante
Não relevante
20
Relevante
Não relevante
10
Não relevante
Relevante
31
Introduction to Information Retrieval
Sec. 8.5
Exemplo Kappa





P(A) = 370/400 = 0.925
P(não relevante) = (10+20+70+70)/800 = 0.2125
P(relevante) = (10+20+300+300)/800 = 0.7878
P(E) = 0.2125^2 + 0.7878^2 = 0.665
Kappa = (0.925 – 0.665)/(1-0.665) = 0.776
 Kappa > 0.8 = bom acordo
 0.67 < Kappa < 0.8 -> “conclusões preliminares” (Carletta
’96)
 Depende do propósito de estudo
 Para >2 julgadores: média de pares kappas
32
Introduction to Information Retrieval
33
Introduction to Information Retrieval
Sec. 8.2
TREC
 Tarefa ad hoc TREC para os primeiros 8 TRECs é tarefa padrão de RI
 50 informações necessárias detalhadas de um ano
 Avaliação humana de resultados retornados agrupados
 Mais recentemente outras coisas relacionadas: Web track, HARD
 Uma consulta TREC (TREC 5)
<top>
<num> Número: 225
<desc> Descrição:
Qual é a função principal da Federal Emergency Management Agency
(FEMA) e o nível de financiamento previsto para atender situações de
emergência? E também, que recursos estão disponíveis para a FEMA
tais como pessoas, equipamentos, facilidades?
</top>
34
Introduction to Information Retrieval
Sec. 8.2
Benchmarks padrões de relevância:
Outros
 GOV2




Outra coleção TREC/NIST
25 milhões de páginas web
Maior coleção que é facilmente disponível
Mas ainda menor em índice que Google/Yahoo/MSN em 3
ordens de magnitude
 NTCIR
 Idioma do leste asiático e recuperação de informação
multilíngüe
 Cross Language Evaluation Forum (CLEF)
 Esta série de avaliações é concentrada em idiomas europeus e
recuperação de informação multilíngüe.
 Muitos outros
35
Introduction to Information Retrieval
Sec. 8.5
Acordo entre julgadores: TREC 3
36
Introduction to Information Retrieval
Sec. 8.5
Impacto do acordo entre julgadores
 Impacto na medida de performance absoluta pode ser
significativo (0.32 vs 0.39)
 Pouco impacto no rankeamento de sistemas diferentes ou
performance relativa
 Suponha que nós queremos saber se um algoritmo A é
melhor que o algoritmo B
 Um experimento de recuperação de informação padrão nos
dará uma resposta confiável para esta questão.
37
Introduction to Information Retrieval
Sec. 8.5.1
Critica da relevância pura
 Relevância vs Relevância marginal
 Um documento pode ser redundante mesmo se for
altamente relevante
 Duplicatas
 A mesma informação de diferentes fontes
 Relevância marginal é uma melhor medida de utilidade
para o usuário.
 Usando fatos/entidades como unidades de avaliação
mais diretamente mede a verdadeira relevância.
 Mas, mais difícil para criar um conjunto de avaliação
 Veja a referência Carbonell
38
Introduction to Information Retrieval
Podemos evitar o julgamento
humano?
Sec. 8.6.3
 Não
 Deixa o trabalho experimental difícil
 Especialmente em larga escala
 Em algumas configurações muito específicas, podemos usar
proxies
 Ex.: para recuperação aproximada de espaço vetorial, nós podemos
comparar a proximidade de distância por cosseno dos documentos
mais próximos daqueles encontrados por um algoritmo de
recuperação aproximada
 Mas, uma vez que testamos coleções, podemos reusá-las
(contanto que nós não a super treinarmos muito mal)
39
Introduction to Information Retrieval
Sec. 8.6.3
Avaliação em grandes mecanismos de
busca
 Mecanismos de busca possuem coleções de teste, de consultas e
resultados rankeados à mão
 Retorno é difícil para medir na web
 Mecanismos de busca freqüentemente usam precisão dos top k, ex., k =
10
 . . . Ou medidas que recompensam você mais por receber o rank 1 direito
do que receber o rank 10 direito.
 NDCG (Normalized Cumulative Discounted Gain)
 Mecanismos de busca também usam medidas baseadas na nãorelevância.
 Cliques no primeiro resultado
 Não muito confiável se você olhar em um simples clique … mas
razoavelmente confiável no conjunto.
 Estudos do comportamento do usuários em laboratório
 Teste A/B
40
Introduction to Information Retrieval
Sec. 8.6.3
Teste A/B
 Propósito: Testa uma inovação única
 Pré-requisito: Você tem um grande mecanismo de busca em
funcionamento.
 Possui a maioria dos usuários utilizando o sistema antigo
 Desvia uma pequena parte do tráfego (ex., 1%) para o novo
sistema que inclui a inovação
 Avalia com uma medida “automática” como cliques no
primeiro resultado
 Podemos agora verificar diretamente se a inovação melhora a
felicidade do usuário.
 Provavelmente a metodologia de avaliação que grandes
mecanismos de busca confiam mais
 A principio menos poderoso que fazer um análise de
regressão multivariada, mas, mais fácil de entender
41
Introduction to Information Retrieval
Sec. 8.7
APRESENTAÇÃO DOS RESULTADOS
42
Introduction to Information Retrieval
Sec. 8.7
Resumo dos resultados
 Tendo rankeado os documentos que correspondem com a
consulta, nós queremos apresentá-los em uma lista de
resultados
 Mais comumente, uma lista dos títulos de documentos mais
um breve resumo, conhecido como “os 10 links azuis”
43
Introduction to Information Retrieval
Sec. 8.7
Resumos
 O título é freqüentemente extraído automaticamente do
metadado do documento. E sobre os resumos?
 A descrição é crucial.
 Usuário pode identificar hits como bom/relevante baseando-se na
descrição.
 Dois tipos básicos:
 Estático
 Dinâmico
 Um resumo estático de um documento é sempre o mesmo,
independentemente da consulta que trouxe o documento
 Um resumo dinâmico é uma tentativa dependente de
consulta para explicar porque o documento foi recuperado
para a consulta em questão
44
Introduction to Information Retrieval
Sec. 8.7
Resumos estáticos
 Em sistemas típicos, o resumo estático é um subconjunto do
documento
 Heurística simples: as primeiras 50 (ou outro valor – pode ser
variado) palavras do documento
 Resumo é pegado na hora da indexação
 Mais sofisticado: extrair de cada documento um conjunto de
sentenças “chave”
 Heurística NLP simples para pontuar cada sentença
 Resumo é composto de frases com maior pontuação.
 O mais sofisticado: NLP usado para sintetizar um resumo
 Raramente usado em RI; cf. sumarização de texto funciona (cf.
summarization work)
45
Introduction to Information Retrieval
Sec. 8.7
Resumos dinâmicos
 Apresenta uma ou mais “janelas” no documento que contém
muitos dos termos da consulta
 Fragmentos “KWIC” : Palavra chave na apresentação do Contexto
46
Introduction to Information Retrieval
Sec. 8.7
Técnicas para resumos dinâmicos
 Encontre pequenas janelas no documento que
contém os termos da consulta
 Requer procura rápida de janela no cache do documento
 Pontua cada janela da consulta (Score each window
wrt query)
 Usa várias características como tamanho de janela, posição
no documento, etc.
 Combina recursos através de uma função de pontuação
 Desafios na avaliação: julgar resumos
 Mais fácil fazer comparações de pareamento (pairwise) do
que avaliações de relevância binárias
47
Introduction to Information Retrieval
Quicklinks
 Para um consulta navegacional como united airlines
a necessidade dos usuários provavelmente serão
satisfeitas por www.united.com
 Quicklinks provêem dicas navegacionais em suas
páginas principais
48
Introduction to Information Retrieval
49
Introduction to Information Retrieval
Apresentação alternativa de
resultados?
 Uma área ativa na pesquisa IHC
 Uma alternativa: http://www.searchme.com / copia a idéia
do Apple’s Cover Flow para resultados de busca
 (searchme recentemente ficou fora de serviço)
50
Introduction to Information Retrieval
Resources for this lecture




IIR 8
MIR Chapter 3
MG 4.5
Carbonell and Goldstein 1998. The use of MMR,
diversity-based reranking for reordering documents
and producing summaries. SIGIR 21.
51
Download

lecture8-evaluation