Exercícios de Revisão
Prof. Leandro Balby Marinho
SRI
17/03/2011
Ponderação de Termos e Modelo Vetorial
Questão 1: O que você entende por RI baseada em ranking? Quais as vantagens desses modelos de RI
em comparação a modelos Booleanos?
Questão 2: Qual o idf de um termo que ocorre em todos os documentos? Compare o uso de idf com o
uso de listas stop word.
Questão 3: Considere a tabela (a) de frequencias para os 3 documentos denotados por Doc1, Doc2,
Doc3 abaixo. Calcule os pesos tf-idf para os termos “car”, “auto”, “insurance” e “best”, para cada
documento, usando os valores de idf na tabela (b) abaixo.
Tabela (a)
Tabela (b)
Questão 4: Considere aplicar stemming para os termos “automático” e “automatização” antes de
definir o espaço vetorial. Explique como as definições de tf e idf devem ser modificadas para esse fim.
Questão 5: Normalize os vetores tf-idf dos documentos calculados na Questão 3 acima. Utilize a
norma Euclidiana (tamanho do vetor) para isso.
Questão 6: Verifique que a soma dos quadrados dos componentes de cada um dos vetores de
documentos obtidos na Questão 5 acima é 1. Por que isso é o caso?
Questão 7: Usando os pesos calculados para os termos na Questão 5 acima, calcule o peso dos três
documentos em relação a consulta “car insurance”. Ordene os documentos em ordem decrescente de
pesos.
Questão 8: Mostre como ordenar os três documentos dados na Questão 3, utilizando a similaridade do
coseno em relação à consulta “car insurance”. Use os pesos normalizados como calculado na Questão
5 e ordene os documentos em ordem decrescente de similaridade com a consulta.
Questão 9: Por que a distância Euclidiana nem sempre é uma boa medida de similaridade entre
vetores?
Questão 10: Considere um termo de consulta que não está no conjunto de M termos indexados. Dessa
forma, o vetor de consulta não estará no mesmo espaço vetorial dos documentos. Como poderíamos
adaptar o espaço vetorial para lidar com esse caso?
Download

Exercícios de Revisão SRI Prof. Leandro Balby Marinho 17/03/2011