Medidas de Avaliação Medidas de Avaliação Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum é o tempo e o espaço. Quanto menor o tempo de resposta e menor o espaço de memória (em disco ou RAM) necessário, melhor será o sistema; Em sistemas de recuperação de informação as buscas dos usuários são inerentemente vagas e os documentos recuperados não são exatos e precisam ser ordenados (“rankiados”) de acordo com sua relevância em relação à expressão de busca. Medidas de Avaliação O que se almeja ao fazer uma busca em uma base documental é encontrar documentos que sejam úteis para satisfazer a uma necessidade de informação, evitando recuperar itens inúteis; “Relevante”, “pertinente” são termos frequentemente utilizados para se referir a itens “úteis”; Medidas de Avaliação Após a execução de uma busca, pode-se dividir os documentos do corpus nos seguintes conjuntos: Relevantes Recuperados não recuperados não-Relevantes Medidas de Avaliação Documentos úteis para atender a necessidade de informação do usuário Documentos que não são úteis para o usuário Para qualquer necessidade sempre haverá mais documentos não úteis (-) do que úteis (+); O problema está em recuperar o maior número possível de itens úteis e o menor número possível de itens inúteis; O quadrado menor representa o resultado de uma busca. Medidas de Avaliação precisão (precision) Expressa o quanto o sistema é capaz de recuperar apenas itens úteis. Foram recuperados 20 itens, sendo 6 úteis e 14 inúteis Precisão nº docs relevantesrecuperados nº docs recuperados 6 Precisão 0,3 20 Precisão = 30% Medidas de Avaliação revocação (recall) Expressa o quanto o sistema é capaz de recuperar todos os itens úteis. Dos 12 documentos existente no corpus, apenas 6 foram recuperados Revocação nº docs relevantes recuperado s nº docs relevantes 6 Revocação 0,5 12 Revocação = 50% Medidas de Avaliação revocação x precisão Para melhorar a revocação deve-se fazer uma busca mais genérica, representado pelo quadrado maior. Revocação Precisão 9 0,18 18% 49 Revocação Precisão 9 0,75 75% 12 Medidas de Avaliação Revocação x Precisão Medidas de Avaliação Apesar de muito utilizadas, as medidas de Precisão e Revocação apresentam alguns problemas: ◦ A revocação máxima para uma determinada busca requer um conhecimento de todos documentos do corpus. Para bases documentais muito grandes isso é impossível; ◦ Precisão e Revocação avaliam diferentes aspectos do corpus. Seria apropriado uma única medida que combinasse as duas; Medidas de Avaliação outras medidas Média harmônica F ( j) 2 1 1 r ( j ) P( j ) Calcula a média harmônica entre as medidas Precisão ( P ) e Revocação ( r ) Medida E E( j) 1 b2 b2 1 r ( j ) P( j ) Esta medida permite ao usuário escolher se ele está mais interessado em Revocação ou em Precisão. b > 1 o usuário está mais interessado em precisão. b < 1 o usuário está mais interessado em revocação Medidas de Avaliação medidas orientadas ao usuário As medidas Revocação e Precisão são baseadas na suposição que o conjunto de documentos relevantes para uma busca é o mesmo, independente do usuário. Porém, diferentes usuários podem ter uma interpretação diferente de qual documento é relevante ou qual não é. Para enfrentar esse problema, algumas medidas “orientadas ao usuário” foram criadas. Medidas de Avaliação medidas orientadas ao usuário Cobertura ( coverage ) ◦ Expressa a quantidade de documentos relevantes (conhecidos) pelo usuário que foram recuperados; ◦ Um alto valor de coverage indica que o sistema está encontrando a maioria dos documentos relevantes que o usuário esperava. Novidade, descoberta ( novelty ) ◦ Expressa a quantidade de documentos relevantes recuperados que não eram conhecidos (previamente) pelo usuário; ◦ Um alto valor de novelty indica que o sistema está revelando para o usuário muitos novos documentos relevantes que eram desconhecidos para ele. Coleções para Teste Coleções para Teste Críticas à Information Retrieval ◦ Falta fundamentação básica A natureza subjetiva à tarefa de decidir a relevância de um documento dificulta uma fundamentação teórica ◦ Carece de “campo de provas” e medidas consistentes Anos de 1990. Conferência anual chamada TREC (Text REtrieval Conference) dedicada a experimentação com uma grande coleção de teste composta de milhões de documentos; Coleções para Teste TREC ◦ Coleção de documentos de diversas fontes Wall Street Journal Associated Press US Patents Financial Times etc... CACM ◦ Coleção de artigos publicados no periódico Communications of the ACM, cujo primeiro número foi publicado em 1958; ◦ Primeiro periódico em Ciência da Computação; ISI ◦ Institute of Scientific Information (ISI) ◦ 1460 documentos