Medidas de
Avaliação
Medidas de Avaliação



Para a maioria dos sistemas computacionais é necessário
criar medidas para aferir sua eficácia e eficiência;
A medida mais comum é o tempo e o espaço. Quanto
menor o tempo de resposta e menor o espaço de
memória (em disco ou RAM) necessário, melhor será o
sistema;
Em sistemas de recuperação de informação as buscas dos
usuários são inerentemente vagas e os documentos
recuperados não são exatos e precisam ser ordenados
(“rankiados”) de acordo com sua relevância em relação à
expressão de busca.
Medidas de Avaliação
O que se almeja ao fazer uma busca em
uma base documental é encontrar
documentos que sejam úteis para
satisfazer a uma necessidade de
informação, evitando recuperar itens
inúteis;
 “Relevante”, “pertinente” são termos
frequentemente utilizados para se referir
a itens “úteis”;

Medidas de Avaliação

Após a execução de uma busca, pode-se dividir os documentos
do corpus nos seguintes conjuntos:
Relevantes
Recuperados
não recuperados
não-Relevantes
Medidas de Avaliação
Documentos úteis para atender a
necessidade de informação do
usuário
Documentos que não são úteis para o
usuário
Para qualquer necessidade sempre
haverá mais documentos não úteis (-)
do que úteis (+);
O problema está em recuperar o
maior número possível de itens úteis
e o menor número possível de itens
inúteis;
O quadrado menor representa o
resultado de uma busca.
Medidas de Avaliação
precisão (precision)
Expressa o quanto o sistema é
capaz de recuperar apenas itens
úteis.
Foram recuperados 20 itens, sendo
6 úteis e 14 inúteis
Precisão
nº docs relevantesrecuperados
nº docs recuperados
6
Precisão 
 0,3
20
Precisão = 30%
Medidas de Avaliação
revocação (recall)
Expressa o quanto o sistema é
capaz de recuperar todos os itens
úteis.
Dos 12 documentos existente no
corpus, apenas 6 foram recuperados
Revocação 
nº docs relevantes recuperado s
nº docs relevantes
6
Revocação 
 0,5
12
Revocação = 50%
Medidas de Avaliação
revocação x precisão
Para melhorar a revocação deve-se
fazer uma busca mais genérica,
representado pelo quadrado maior.
Revocação 
Precisão 
9
 0,18  18%
49
Revocação
Precisão
9
 0,75  75%
12
Medidas de Avaliação
Revocação x Precisão
Medidas de Avaliação

Apesar de muito utilizadas, as medidas de
Precisão e Revocação apresentam alguns
problemas:
◦ A revocação máxima para uma determinada busca
requer um conhecimento de todos documentos do
corpus. Para bases documentais muito grandes isso é
impossível;
◦ Precisão e Revocação avaliam diferentes aspectos do
corpus. Seria apropriado uma única medida que
combinasse as duas;
Medidas de Avaliação
outras medidas

Média harmônica
F ( j) 
2
1
1

r ( j ) P( j )
Calcula a média harmônica entre as
medidas Precisão ( P ) e Revocação ( r )
 Medida E
E( j) 
1  b2
b2
1

r ( j ) P( j )
Esta medida permite ao usuário escolher se ele está
mais interessado em Revocação ou em Precisão.
b > 1  o usuário está mais interessado em precisão.
b < 1  o usuário está mais interessado em revocação
Medidas de Avaliação
medidas orientadas ao usuário
As medidas Revocação e Precisão são baseadas
na suposição que o conjunto de documentos
relevantes para uma busca é o mesmo,
independente do usuário.
 Porém, diferentes usuários podem ter uma
interpretação diferente de qual documento é
relevante ou qual não é.
 Para enfrentar esse problema, algumas medidas
“orientadas ao usuário” foram criadas.

Medidas de Avaliação
medidas orientadas ao usuário

Cobertura ( coverage )
◦ Expressa a quantidade de documentos relevantes (conhecidos) pelo
usuário que foram recuperados;
◦ Um alto valor de coverage indica que o sistema está encontrando a
maioria dos documentos relevantes que o usuário esperava.

Novidade, descoberta ( novelty )
◦ Expressa a quantidade de documentos relevantes recuperados que não
eram conhecidos (previamente) pelo usuário;
◦ Um alto valor de novelty indica que o sistema está revelando para o
usuário muitos novos documentos relevantes que eram desconhecidos
para ele.
Coleções para Teste
Coleções para Teste

Críticas à Information Retrieval
◦ Falta fundamentação básica
 A natureza subjetiva à tarefa de decidir a relevância
de um documento dificulta uma fundamentação
teórica
◦ Carece de “campo de provas” e medidas
consistentes
 Anos de 1990.
 Conferência anual chamada TREC (Text REtrieval Conference)
dedicada a experimentação com uma grande coleção de teste
composta de milhões de documentos;
Coleções para Teste

TREC
◦ Coleção de documentos de diversas fontes






Wall Street Journal
Associated Press
US Patents
Financial Times
etc...
CACM
◦ Coleção de artigos publicados no periódico Communications of the
ACM, cujo primeiro número foi publicado em 1958;
◦ Primeiro periódico em Ciência da Computação;

ISI
◦ Institute of Scientific Information (ISI)
◦ 1460 documentos
Download

Medidas de Avaliação