Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar Raghavan Lecture 8: Evaluation Introduction to Information Retrieval Sec. 6.2 Nesta Aula Como sabemos se nosso resultado é bom? Avaliando um mecanismo de busca Benchmarks Precisão e retorno Resumo dos resultados: Fazendo os bons resultados utilizáveis para o usuário 2 Introduction to Information Retrieval AVALIANDO MECANISMOS DE BUSCA Introduction to Information Retrieval Sec. 8.6 Medidas para um mecanismo de busca Quão rápido é a indexação Número de documentos/hora (Tamanho médio de documento) Quão rápido é a busca Latência em função do tamanho de índice Expressividade da linguagem de consulta Capacidade de expressar a necessidade de informações complexas Velocidade em consultas complexas UI ordenado (Uncluttered UI) É grátis? 4 Introduction to Information Retrieval Sec. 8.6 Medidas para um mecanismo de busca Todos os critérios anteriores são mensuráveis: podemos quantificar a velocidade/tamanho Nós podemos fazer expressividade precisa A medida-chave: a felicidade do usuário O que é isso? Velocidade de resposta / tamanho do índice são fatores Mas mesmo que incrivelmente rápidas, respostas inúteis não deixarão um usuário feliz Precisamos de uma forma de quantificar a felicidade do usuário 5 Introduction to Information Retrieval Sec. 8.6.2 Medindo a felicidade de usuário Questão: quem é o usuário que estamos tentando fazer feliz? Depende da configuração Sistema Web: Usuário encontra o que quer e retorna ao sistema Pode medir a taxa de retorno de usuários Usuário conclui a sua tarefa - a pesquisa como um meio, não fim Veja Russell http://dmrussell.googlepages.com/JCDL-talk-June-2007short.pdf Site de eCommerce: usuário encontra o que quer e compra É do usuário final, ou do site eCommerce, cuja felicidade se mede? Medida do tempo para comprar, ou fração de usuáris que se tornam compradores? 6 Introduction to Information Retrieval Sec. 8.6.2 Medindo a felicidade de usuário Empresas (companhias/governo/academia): Se preocupam sobre “produtividade do usuário” Quanto tempo meus usuários economizam quando procuram por informação? Muitos outros critérios têm a ver com a largura de acesso, acesso seguro, etc 7 Introduction to Information Retrieval Sec. 8.1 Felicidade: não há como medir Representante mais comum: relevância dos resultados de busca Mas como medir relevância? Vamos detalhar a metodologia aqui, em seguida, analisar os seus problemas Medição da relevância requer 3 elementos: 1. Uma coleção de documentos de referência 2. Um conjunto referência de consultas 3. Uma avaliação, geralmente binária, de Relevante ou Não-Relevante para cada consulta e cada documento Alguns trabalham com mais que binário, mas não é o padrão 8 Introduction to Information Retrieval Sec. 8.1 Avaliando um sistema de RI Nota: a necessidade de informação é traduzida em uma consulta A relevância é avaliada em relação à informação necessária não a consulta Por exemplo, informação necessária: Estou procurando informações sobre se beber vinho tinto é mais eficaz para reduzir o risco de ataques cardíacos do que o vinho branco. Consulta: vinho branco vermelho ataque cardíaco eficaz Avaliar se o documento aborda a informação necessário, não se possui estas palavras 9 Introduction to Information Retrieval Sec. 8.2 Medida de relevância padrão TREC - National Institute of Standards and Technology (NIST) rodou um grande teste base de RI por muitos anos Reuters e outras coleções de documentos de referência usados “Tarefas de recuperação” especificadas As vezes como consultas Um expert marca, para cada consulta e cada documento, Relevante ou Não-relevante ou pelo menos um subconjunto de documentos que alguns sistemas retornam para a consulta 10 Sec. 8.3 Introduction to Information Retrieval Avaliação de recuperação não rankeada: Precisão ou Retorno Precisão: fração de documentos recuperados que são relevantes = P(relevante|recuperado) Retorno: fração de documentos relevantes que são recuperados = R(recuperado|relevante) Relevante Não-relevante Recuperado tp fp Não recuperado fn tn Precisão P = tp/(tp + fp) Retorno R = tp/(tp + fn) 11 Introduction to Information Retrieval Sec. 8.3 Nós devemos, ao invés, medida de precisão para a avaliação? Dada uma consulta, um sistema classifica cada documento como “Relevante” ou “Não-relevante” A precisão de um sistema: a fração destas classificações são corretas (tp + tn) / ( tp + fp + fn + tn) = exatidão Precisão é uma medida de avaliação comumente usada em trabalhos de classificação de máquinas de aprendizagem Por que não é uma medida de avaliação muito útil em RI? 12 Introduction to Information Retrieval Sec. 8.3 Por que não usar precisão? Como construir um sistema de busca com precisão de 99.9999% com baixo orçamento…. Search for: 0 matching results found. Pessoas que fazem recuperação de informação querem encontrar alguma coisa e tem uma certa tolerância a lixo. 13 Introduction to Information Retrieval Sec. 8.3 Precisão/Retorno Você pode ter alto retorno (mas baixa precisão) ao recuperar todos os documentos para todas as consultas! Retorno é uma função crescente de número de documentos recuperados Em um bom sistema, quando a precisão decresce o número de documentos recuperados aumenta (retorno aumenta) Isto não é um teorema, mas um resultado com forte confirmação empírica 14 Introduction to Information Retrieval Dificuldade no uso da precisão/retorno Sec. 8.3 Precisa da decisão humana de relevância Pessoas não são assessores confiáveis Decisão tem que ser binária Decisões com nuances? Fortemente enviesado por coleção/autoria Resultados podem não traduzir de um domínio para outro 15 Sec. 8.3 Introduction to Information Retrieval Uma medida combinada: F Medida combinada que avalia o intercâmbio precisão/retorno é a medida F (modo de ponderação harmônica): 2 F 1 1 1 (1 ) P R ( 1) PR 2P R Pessoas normalmente usam a medida balanceada F1 i.e., com = 1 ou = ½ Modo harmônico é uma média conservadora Veja CJ van Rijsbergen, Information Retrieval 16 Sec. 8.3 Introduction to Information Retrieval F1 e outras médias Combined Measures 100 80 Minimum Maximum 60 Arithmetic Geometric 40 Harmonic 20 0 0 20 40 60 80 100 Precision (Recall fixed at 70%) 17 Introduction to Information Retrieval Sec. 8.4 Avaliando resultados rankeados Avaliação de resultados rankeados: O sistema pode retornar qualquer número de resultados Por pegar vários dos top documentos retornados (nível de retorno), o avaliador pode produzir uma curva precisão/retorno 18 Sec. 8.4 Introduction to Information Retrieval Uma curva precisão-retorno 1.0 Precision 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 Recall 19 Introduction to Information Retrieval Sec. 8.4 Calculando a média sobre consultas Um gráfico precisão-retorno para uma consulta não é uma coisa muito sensata de olhar Você precisa fazer o cálculo da média de performace sobre uma grande grupo de consultas. Mas existe um problema técnico: Cálculos de precisão-retorno colocam alguns pontos no gráfico Como determinar um valor (interpolado) entre os pontos? 20 Introduction to Information Retrieval Sec. 8.4 Precisão interpolada Idéia: Se aumenta localmente a precisão com retorno aumentando, então você deve levar em conta isto Então você tem o maximo de precisão para a direita dos valores 21 Introduction to Information Retrieval Sec. 8.4 Avaliação Gráficos são bons, mas pessoas querem medidas de resumo! Precisão no nível de recuperação fixo Precisão-em-k: Precisão dos top k resultados Talvez apropriado para a maioria das buscas web: o que todo mundo quer são boas combinações na primeira ou segunda páginas de resultados Mas: calcula mal a média e tem o parâmetro arbitrario de k Média de Precisão interpolada de ponto 11 A medida padrão em competições atuais TREC : você pega a precisão em 11 pontos de recuperação variando de 0 a 1 por décimos de documentos, usando interpolação (o valor para 0 é sempre interpolado!), e calcula a média deles Avalia a performace de todos os níveis de retorno 22 Sec. 8.4 Introduction to Information Retrieval Tipicas (boas) precisões de 11 pontos Precisão SabIR/Cornell 8A1 11pt para TREC 8 (1999) 1 Precision 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 Recall 23 Introduction to Information Retrieval Sec. 8.4 Mais medidas de avaliação… Meio termo da precisão média (MAP – Mean Average Precision) Média do valor de precisão obtido para os top k documentos, cada vez que um documento relevante é recuperado Evita interpolação, use níveis de retorno fixo MAP para coleção de consulta é média aritmética Macro-média: cada consulta conta igualmente Para cada consulta (pegamos os k documentos), calculamos a precisão obtida. Ao final calculamos a média da precisão de todas as consultas. Precisão R Se é conhecido (embora talvez incompleta) o conjunto de documentos relevantes de tamanho Rel, então calcula a precisão dos top Rel documentos retornados Sistema perfeito pode pontuar 1.0. 24 Introduction to Information Retrieval Sec. 8.4 Variação Para uma coleção de teste, é usual que um sistema seja pobre em alguma necessidade de informação (ex., MAP = 0.1) e excelente em outras (ex., MAP = 0.7) De fato,é normal o caso em que a variação da performance do mesmo sistema em todas as consultas é muito maior do que a variação de diferentes sistemas na mesma consulta. Ou seja, há necessidade de informações fáceis e difíceis! 25 Introduction to Information Retrieval CRIANDO COLEÇÕES DE TESTES PARA AVALIAÇÃO DE RI Introduction to Information Retrieval Sec. 8.5 Coleções de teste 27 Introduction to Information Retrieval De coleções de documentos para coleções de teste Sec. 8.5 Ainda precisa Consultas de teste Avaliações de relevância Consultas de teste Deve ser pertinente para documentos disponíveis Consultas relacionadas a engenharia em um domínio de engenharia Melhor concebido por especialistas do domínio Termos de consulta aleatórios geralmente não é uma boa idéia Avaliações de relevância Julgamento por homem, consumo de tempo 28 Introduction to Information Retrieval Sec. 8.5 Unidade de avaliação Podemos computar precisão, retorno, F, e curva ROC para diferentes unidades. Unidades possíveis Documentos (mais comum) Fatos (usado em algumas avaliações TREC) Entidades (ex., companhias de carro) Pode produzir resultados diferentes. Por quê? 29 Introduction to Information Retrieval Medida Kappa para inter-julgar (des)acordo Sec. 8.5 Medida Kappa Medida de acordo entre julgadores Projetado para julgamentos categóricos Corrige a probabilidade de acordo (Corrects for chance agreement) Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ] P(A) – proporção de vezes que os julgadores concordam P(E) – quando o acordo ocorre por acaso Kappa = 0 por acaso, 1 para acordo total. 30 Sec. 8.5 Introduction to Information Retrieval P(A)? P(E)? Medida Kappa: Exemplo Número de documentos Julgador 1 Julgador 2 300 Relevante Relevante 70 Não relevante Não relevante 20 Relevante Não relevante 10 Não relevante Relevante 31 Introduction to Information Retrieval Sec. 8.5 Exemplo Kappa P(A) = 370/400 = 0.925 P(não relevante) = (10+20+70+70)/800 = 0.2125 P(relevante) = (10+20+300+300)/800 = 0.7878 P(E) = 0.2125^2 + 0.7878^2 = 0.665 Kappa = (0.925 – 0.665)/(1-0.665) = 0.776 Kappa > 0.8 = bom acordo 0.67 < Kappa < 0.8 -> “conclusões preliminares” (Carletta ’96) Depende do propósito de estudo Para >2 julgadores: média de pares kappas 32 Introduction to Information Retrieval 33 Introduction to Information Retrieval Sec. 8.2 TREC Tarefa ad hoc TREC para os primeiros 8 TRECs é tarefa padrão de RI 50 informações necessárias detalhadas de um ano Avaliação humana de resultados retornados agrupados Mais recentemente outras coisas relacionadas: Web track, HARD Uma consulta TREC (TREC 5) <top> <num> Número: 225 <desc> Descrição: Qual é a função principal da Federal Emergency Management Agency (FEMA) e o nível de financiamento previsto para atender situações de emergência? E também, que recursos estão disponíveis para a FEMA tais como pessoas, equipamentos, facilidades? </top> 34 Introduction to Information Retrieval Sec. 8.2 Benchmarks padrões de relevância: Outros GOV2 Outra coleção TREC/NIST 25 milhões de páginas web Maior coleção que é facilmente disponível Mas ainda menor em índice que Google/Yahoo/MSN em 3 ordens de magnitude NTCIR Idioma do leste asiático e recuperação de informação multilíngüe Cross Language Evaluation Forum (CLEF) Esta série de avaliações é concentrada em idiomas europeus e recuperação de informação multilíngüe. Muitos outros 35 Introduction to Information Retrieval Sec. 8.5 Acordo entre julgadores: TREC 3 36 Introduction to Information Retrieval Sec. 8.5 Impacto do acordo entre julgadores Impacto na medida de performance absoluta pode ser significativo (0.32 vs 0.39) Pouco impacto no rankeamento de sistemas diferentes ou performance relativa Suponha que nós queremos saber se um algoritmo A é melhor que o algoritmo B Um experimento de recuperação de informação padrão nos dará uma resposta confiável para esta questão. 37 Introduction to Information Retrieval Sec. 8.5.1 Critica da relevância pura Relevância vs Relevância marginal Um documento pode ser redundante mesmo se for altamente relevante Duplicatas A mesma informação de diferentes fontes Relevância marginal é uma melhor medida de utilidade para o usuário. Usando fatos/entidades como unidades de avaliação mais diretamente mede a verdadeira relevância. Mas, mais difícil para criar um conjunto de avaliação Veja a referência Carbonell 38 Introduction to Information Retrieval Podemos evitar o julgamento humano? Sec. 8.6.3 Não Deixa o trabalho experimental difícil Especialmente em larga escala Em algumas configurações muito específicas, podemos usar proxies Ex.: para recuperação aproximada de espaço vetorial, nós podemos comparar a proximidade de distância por cosseno dos documentos mais próximos daqueles encontrados por um algoritmo de recuperação aproximada Mas, uma vez que testamos coleções, podemos reusá-las (contanto que nós não a super treinarmos muito mal) 39 Introduction to Information Retrieval Sec. 8.6.3 Avaliação em grandes mecanismos de busca Mecanismos de busca possuem coleções de teste, de consultas e resultados rankeados à mão Retorno é difícil para medir na web Mecanismos de busca freqüentemente usam precisão dos top k, ex., k = 10 . . . Ou medidas que recompensam você mais por receber o rank 1 direito do que receber o rank 10 direito. NDCG (Normalized Cumulative Discounted Gain) Mecanismos de busca também usam medidas baseadas na nãorelevância. Cliques no primeiro resultado Não muito confiável se você olhar em um simples clique … mas razoavelmente confiável no conjunto. Estudos do comportamento do usuários em laboratório Teste A/B 40 Introduction to Information Retrieval Sec. 8.6.3 Teste A/B Propósito: Testa uma inovação única Pré-requisito: Você tem um grande mecanismo de busca em funcionamento. Possui a maioria dos usuários utilizando o sistema antigo Desvia uma pequena parte do tráfego (ex., 1%) para o novo sistema que inclui a inovação Avalia com uma medida “automática” como cliques no primeiro resultado Podemos agora verificar diretamente se a inovação melhora a felicidade do usuário. Provavelmente a metodologia de avaliação que grandes mecanismos de busca confiam mais A principio menos poderoso que fazer um análise de regressão multivariada, mas, mais fácil de entender 41 Introduction to Information Retrieval Sec. 8.7 APRESENTAÇÃO DOS RESULTADOS 42 Introduction to Information Retrieval Sec. 8.7 Resumo dos resultados Tendo rankeado os documentos que correspondem com a consulta, nós queremos apresentá-los em uma lista de resultados Mais comumente, uma lista dos títulos de documentos mais um breve resumo, conhecido como “os 10 links azuis” 43 Introduction to Information Retrieval Sec. 8.7 Resumos O título é freqüentemente extraído automaticamente do metadado do documento. E sobre os resumos? A descrição é crucial. Usuário pode identificar hits como bom/relevante baseando-se na descrição. Dois tipos básicos: Estático Dinâmico Um resumo estático de um documento é sempre o mesmo, independentemente da consulta que trouxe o documento Um resumo dinâmico é uma tentativa dependente de consulta para explicar porque o documento foi recuperado para a consulta em questão 44 Introduction to Information Retrieval Sec. 8.7 Resumos estáticos Em sistemas típicos, o resumo estático é um subconjunto do documento Heurística simples: as primeiras 50 (ou outro valor – pode ser variado) palavras do documento Resumo é pegado na hora da indexação Mais sofisticado: extrair de cada documento um conjunto de sentenças “chave” Heurística NLP simples para pontuar cada sentença Resumo é composto de frases com maior pontuação. O mais sofisticado: NLP usado para sintetizar um resumo Raramente usado em RI; cf. sumarização de texto funciona (cf. summarization work) 45 Introduction to Information Retrieval Sec. 8.7 Resumos dinâmicos Apresenta uma ou mais “janelas” no documento que contém muitos dos termos da consulta Fragmentos “KWIC” : Palavra chave na apresentação do Contexto 46 Introduction to Information Retrieval Sec. 8.7 Técnicas para resumos dinâmicos Encontre pequenas janelas no documento que contém os termos da consulta Requer procura rápida de janela no cache do documento Pontua cada janela da consulta (Score each window wrt query) Usa várias características como tamanho de janela, posição no documento, etc. Combina recursos através de uma função de pontuação Desafios na avaliação: julgar resumos Mais fácil fazer comparações de pareamento (pairwise) do que avaliações de relevância binárias 47 Introduction to Information Retrieval Quicklinks Para um consulta navegacional como united airlines a necessidade dos usuários provavelmente serão satisfeitas por www.united.com Quicklinks provêem dicas navegacionais em suas páginas principais 48 Introduction to Information Retrieval 49 Introduction to Information Retrieval Apresentação alternativa de resultados? Uma área ativa na pesquisa IHC Uma alternativa: http://www.searchme.com / copia a idéia do Apple’s Cover Flow para resultados de busca (searchme recentemente ficou fora de serviço) 50 Introduction to Information Retrieval Resources for this lecture IIR 8 MIR Chapter 3 MG 4.5 Carbonell and Goldstein 1998. The use of MMR, diversity-based reranking for reordering documents and producing summaries. SIGIR 21. 51