Exercícios de Revisão Prof. Leandro Balby Marinho SRI 17/03/2011 Ponderação de Termos e Modelo Vetorial Questão 1: O que você entende por RI baseada em ranking? Quais as vantagens desses modelos de RI em comparação a modelos Booleanos? Questão 2: Qual o idf de um termo que ocorre em todos os documentos? Compare o uso de idf com o uso de listas stop word. Questão 3: Considere a tabela (a) de frequencias para os 3 documentos denotados por Doc1, Doc2, Doc3 abaixo. Calcule os pesos tf-idf para os termos “car”, “auto”, “insurance” e “best”, para cada documento, usando os valores de idf na tabela (b) abaixo. Tabela (a) Tabela (b) Questão 4: Considere aplicar stemming para os termos “automático” e “automatização” antes de definir o espaço vetorial. Explique como as definições de tf e idf devem ser modificadas para esse fim. Questão 5: Normalize os vetores tf-idf dos documentos calculados na Questão 3 acima. Utilize a norma Euclidiana (tamanho do vetor) para isso. Questão 6: Verifique que a soma dos quadrados dos componentes de cada um dos vetores de documentos obtidos na Questão 5 acima é 1. Por que isso é o caso? Questão 7: Usando os pesos calculados para os termos na Questão 5 acima, calcule o peso dos três documentos em relação a consulta “car insurance”. Ordene os documentos em ordem decrescente de pesos. Questão 8: Mostre como ordenar os três documentos dados na Questão 3, utilizando a similaridade do coseno em relação à consulta “car insurance”. Use os pesos normalizados como calculado na Questão 5 e ordene os documentos em ordem decrescente de similaridade com a consulta. Questão 9: Por que a distância Euclidiana nem sempre é uma boa medida de similaridade entre vetores? Questão 10: Considere um termo de consulta que não está no conjunto de M termos indexados. Dessa forma, o vetor de consulta não estará no mesmo espaço vetorial dos documentos. Como poderíamos adaptar o espaço vetorial para lidar com esse caso?