CS276A
Text Retrieval and Mining
Lecture 10
Recapitulando a última aula

Melhorando os resultados das buscas


Especialmente para alto recall. Ex.: buscar por
aeronave para que corresponda a avião;
termodinâmica a calor
Opções para melhoria dos resultados…

Métodos Globais

Expansão da consulta




Tesauros
Geração automática de tesauro
Relevance Feedback global indireto
Métodos locais


Relevance feedback
Pseudo relevance feedback
Relevance feedback probabilístico


Ao invés de recalcular o peso em um vetor
espaço…
Se o usuário nos indicou alguns documentos
relevantes e alguns irrelevantes, então podemos
proceder à montagem de um classificador
probabilístico, tal como o modelo Naïve Bayes:


P(tk|R) = |Drk| / |Dr|
P(tk|NR) = |Dnrk| / |Dnr|

Tk é um termo; Dr é o conjunto de documentos
sabidamente relavantes; Drk é o subconjunto que contém
tk; Dnr é o conjunto de documentos sabidamente
irrelevantes; Dnrk é o subconjunto que contém tk.
Por quê utilizar probabilidades em RI?
Necessidade de
Informação do
usuário
Representação
da Consulta
Compreensão
da necessidade do
Usuário é incerta
Como determinar
equivalência?
Suposição incerta
Representação
sobre a relevância
Documentos
do documento
do
conteúdo do
documento
Em sistemas de RI tradicionais, a equivalência entre cada documento e a
consulta é testada em um espaço semanticamente impreciso de termos de
índice.
Probabilidades fornecem uma base de princípios para decisão incerta.
Tópicos de Probabilidade em RI

Modelo clássico de recuperação probabilística




Categoriazação de Texto (Naïve) Bayesiano
Redes Bayesianas para recuperação de texto
Abordagem de modelos de linguagem à IR


Princípio do ranking probabilístico, etc.
Uma ênfase importante em trabalhos recentes
Métodos probabilísticos são um dos tópicos mais
antigos mas também um dos mais discutidos em
RI.

Tradicionalmente: boas ideias, mas nunca
ganharam em performance. Pode ser diferente
agora.
O problema de ordem de documentos




Temos uma coleção de documentos
Usuário envia uma consulta
Uma lista de documentos precisa ser retornada
O método de ordenação é a essência de um
sistema de RI:



Em que ordem apresentamos os documentos ao
usuário?
Queremos o “melhor” documento primeiro, o segundo
melhor em segundo, etc…
Ideia: Ordenar pela probabilidade da relevância
do documento em relação à informação requerida

P(relevante|documentoi, consulta)
Relembrando o básico de
probabilidade


Para eventos a e b:
Regra de Bayes
p (a, b)  p (a  b)  p (a | b) p (b)  p (b | a ) p (a )
p (a | b) p (b)  p (b | a ) p (a )
Anterio
p (b | a ) p (a )
p (b | a ) p (a )
p ( a | b) 

p (b)
xa,a p(b | x) p( x)
Posterior

Probabilidade:
p(a)
p(a)
O( a ) 

p(a ) 1  p(a)
O Princípio da Ordenação por
Probabilidade
“Se a resposta de um sistema de recuperação de
referências a cada solicitação é subconjunto de
documentos de uma coleção em ordenação decrescente
da probabilidade de relevância ao usuário que enviou a
requisição, em que as probabilidades são estimadas com
o máximo de precisão, com base em qualquer dado que
tenha sido disponibilizado ao sistema com esse propósito,
então a eficácia geral do sistema ao seu usuário será o
melhor que se pode obter com bases nesses dados.”

[1960s/1970s] S. Robertson, W.S. Cooper, M.E. Maron;
van Rijsbergen (1979:113); Manning & Schütze (1999:538)
Princípio da Ordenação Probabilística
Seja x um documento em uma coleção.
Seja R a representação da relevância de um documento em relação a uma
dada (fixa) consulta e seja NR a representação da não-relevância.
R={0,1} vs. NR/R
Precisamos encontrar p(R|x) – a probabilidade de que o documento x seja
relevante.
p( x | R) p( R)
p( R | x) 
p( x)
p( x | NR) p( NR)
p( NR | x) 
p( x)
p(R),p(NR) – probabilidade
anterior de recuperar um
documento (não) relevante
p( R | x)  p( NR | x)  1
p(x|R), p(x|NR) - probabilidade de que se um documento
relevante (não-relevante) for recuperado, ele seja x.
Princípio da Ordenação Probabilística
(PRP)

Caso simples: sem preocupação com custo de
seleção ou outros utilidades que mensurem erros
diferencialmente

Regra Ótima de descisão de Bayes

x é relevante se e somente se p(R|x) > p(NR|x)

PRP em ação: Ordene todos os documentos por
p(R|x)

Teorema:


O uso do PRP é ótimo, pois minimiza a perda (risco
Bayes) sob a perda 1/0
Demonstrável se todas as probabilidades forem
corretas, etc. [e.g., Ripley 1996]
Princípio da Ordenação Probabilística

Caso mais complexo: custos de recuperação.




Seja d um documento
C - custo de recuperação de um documento relevante
C’ – custo de recuperação de documento nãorelevante
Princípio da Ordenação Probabilística: se
C  p( R | d )  C  (1  p( R | d ))  C  p( R | d )  C  (1  p( R | d ))

para todo d’ ainda não recuperado, então d é o
próximo documento a ser recuperado
Não iremos mais considerar perda/utilidade a
partir de agora
Princípio da Ordenação Probabilística

Como computamos todas essas probabilidades?



Não sabemos as probabilidades exatas, temos que
usar estimativas
Recuperação Binária Independente (BIR) – será
discutida posteriormente –é o modelo mais simples
Suposições questionáveis

“Relevância” de cada documento é independente da
relevância de outros documentos.



Na verdade, é ruim retornar duplicatas
É o mesmo que modelo Booleano de relevância
A informação necessária pode ser alcançada em um
único passo

Visualizar um intervalo de resultados poderia permitir ao
usuário refinar a consulta
Estratégia de Recuperação
Probabilística

Estimar como os termos contribuem para a relevância

Como coisas tal como tf, df e tamanho influenciam
seus julgamentos sobre a relevância de um
documento?

Uma resposta são as fórmulas Okapi (S. Robertson)

Combinar para encontrar a probabilidade de
relavância de um documento

Ordenar os documentos por probabilidade
decrescente
Ordenação Probabilística
Conceito básico:
“Para uma dada consulta, se sabemos que alguns
documentos são relevantes, termos que ocorrem nesses
documentos devem receber maior peso na busca por
outros documentos relevantes.
Ao fazer suposições sobre a distribuição dos termos e
aplicar o Teorema Bayes, teoricamente é possível derivar
pesos."
Van Rijsbergen
Modelo Binário Independente


Tradicionalmente usado em conjunção com PRP
“Binário” = Booleano: documentos são representados
como vetores de termos de incidência binária (aula 1):



x  ( x1 ,, xn )
xi  1 se e somente se
o termo i está presente no
documento x.



“Independente”: os termos ocorrem nos documentos
independentemente
Diferentes documentos podem ser modelados como o
mesmo vetor
Modelo Bernoulli Naive Bayes (cf. categoriazão de texto!)
Modelo Binário Independente



Consultas: vetores de termos de incidência binária
Dada a consulta q,
 para cada documento d computar p(R|q,d).
 substitua com a computação de p(R|q,x) em que
x é um vetor de termos de incidência binária
representando d com interesse apenas na
ordenação
Usaremos probabilidades e a regra de Bayes:

p ( R | q ) p ( x | R, q )



p ( R | q, x )
p( x | q)
O ( R | q, x ) 
  p ( NR | q ) p ( x | NR , q )
p ( NR | q, x )

p( x | q)
Modelo Binário Independente



p ( R | q, x )
p ( R | q ) p ( x | R, q )
O ( R | q, x ) 
 
 
p( NR | q, x ) p( NR | q) p( x | NR, q)
Constante para uma
dade consulta
Requer estimativa
• Usando suposição Independente:

n
p( xi | R, q)
p( x | R, q)


p( x | NR, q) i 1 p( xi | NR, q)
n
•Então : O( R | q, d )  O( R | q)  
i 1
p( xi | R, q)
p( xi | NR, q)
Modelo Binário Independente
n
O( R | q, d )  O( R | q)  
i 1
p( xi | R, q)
p( xi | NR, q)
• Uma vez que xi é 0 ou 1:
p( xi  1 | R, q)
p( xi  0 | R, q)
O( R | q, d )  O( R | q)  

xi 1 p( xi  1 | NR, q) xi 0 p( xi  0 | NR, q)
• Seja pi  p( xi  1 | R, q); ri  p( xi  1 | NR, q);
• Suponha que, para todos os termos que não ocorem na consulta (q =0)
pi  ri
i
Então...
Isso pode ser
alterado (ex: no
relevance feedback)
Modelo Binário Independente

O ( R | q, x )  O ( R | q ) 

xi  qi 1
Termos coincidentes
pi
1  pi

ri xi 0 1  ri
qi 1
Termos não
coincidentes na
consulta
pi (1  ri )
1  pi
 O( R | q )  

xi  qi 1 ri (1  pi ) qi 1 1  ri
Termos coincidentes
Termos da Consulta
Modelo Binário Independente

O( R | q, x )  O( R | q) 
pi (1  ri )
1  pi


xi  qi 1 ri (1  pi ) qi 1 1  ri
Constante para
cada consulta
•Valor do Status de Recuperação RSV:
Quantificado apenas para
estimativa para ordenação
pi (1  ri )
pi (1  ri )
RSV  log 
  log
ri (1  pi )
xi  qi 1
xi  qi 1 ri (1  pi )
Modelo Binário Independente
• Tudo se resume a calcular o RSV.
pi (1  ri )
pi (1  ri )
RSV  log 
  log
ri (1  pi )
xi  qi 1
xi  qi 1 ri (1  pi )
pi (1  ri )
RSV   ci ; ci  log
ri (1  pi )
xi  qi 1
Então, como calcular os ci’s dos nossos dados ?
Modelo Binário Independente
• Estimando os coeficientes RSV.
• Para cada termo i verificar nesta tabela de contagem de
documento:
Document Relevante Não-Relevante Total
os
s
n-s
n
Xi=1
S-s
N-n-S+s
N-n
Xi=0
Total
s
• Estimativa: pi 
S
S
N-S
(n  s)
ri 
(N  S)
s ( S  s)
ci  K ( N , n, S , s)  log
(n  s ) ( N  n  S  s )
N
Por enquanto,
considere não
haver termos
zerados.Mais
na próxima aula.
Estimar – principal desafio

Se documentos não-relevantes são aproximados pela
coleção inteira, então ri (prob. de ocorrência em
documentos não relevantes para a consulta) é n/N e


log (1– ri)/ri = log (N– n)/n ≈ log N/n = IDF!
pi (probabilidade de ocorrência em documentos
relevantes) pode ser estimada de diversas formas:

de documentos relevantes se alguns forem conhecidos



Peso da Relevância pode ser usado em laço de feedback
constante (Croft e Harper combinação de coincidências)
– então apenas obter peso idf dos termos
proporcional à probabilidade de ocorrência na coleção

mais precisamente, ao log dela (Greiff, SIGIR 1998)
Estimando pi iterativamente
1.
Considere pi é constante para todo xi na consulta

2.
Determinar um conjunto estimado de documentos
relevante:

3.
pi = 0.5 (probabilidades iguais) para qualquer
documento dado
V é um conjunto de tamanho fixo de documentos de
alta ordem nesse modelo (nota: similar a tf.idf!)
Precisamos melhorar nossas estimativas para pi e
ri, logo

Use a distribuição de xi nos documentos em V. Seja
Vi o conjunto de documentos que contém xi


Considere que se não recuperado então não é
relevante

4.
pi = |Vi| / |V|
ri = (ni – |Vi|) / (N – |V|)
Vá para 2. até que converja então retorne o ranking
24
Relevance Feedback Probabilístico
1.
2.
3.
Suponha uma descrição probabilística preliminar
de R e utilize-a para recuperar o primeiro
conjunto de documento V, como acima.
Interaja com o usuário para refinar a descrição:
conheça membros definitivos de R e NR
Reestime pi e ri com base nestes
Ou pode-se combinar a nova informação com a
(1)
suposição original
|
V
|


p
( 2)
i
i
κ éo
p

i
(use anterior Bayesiano):
| V | 
peso do
Repita, logo gerando uma sucessão de
anterior

4.
aproximações a R.
PRP e BIR




É possível obter aproximações razoáveis das
probabilidades.
Requer suposições restritivas:
 Independência de termos
 termos não presentes na consulta não afetam o
resultado
 representação booleana de
documentos/consulta/relevância
 valores de relevância dos documentos são
independentes
Algumas dessas suposições podem ser removidas
Problema: ou requer informação parcial sobre relevância
ou apenas pode derivar peso de termos, de certa forma,
inferiores
Removendo a Independência de
termo



Em geral, termos do índice
não são independentes
Dependências podem ser
complexas
van Rijsbergen (1979) propôs
um modelo de dependência de
árvore simples



A árvore de Friedman e
Goldszmidt’s ampliaram a
Naive Bayes (AAAI 13, 1996)
Cada termo dependia de um
outro
Na década de 70, problemas
de estimativa retiveram o
sucesso desse modelo
Alimento para o pensamento


Pense a respeito das diferenças entre o tf.idf
padr’ao e o modelo de recuperação
probabilístico na primeira iteração
Pense a respeito das diferenças entre o (pseudo)
relevance feedback do espaço vetorial e o
(pseudo) relevance feedback probabilístico
Notícias boas e ruins

Modelo de Espaço de Vetores Padrão



Vantagens do Modelo Probabilístico



Empírico em sua maior parte; sucesso medido pelos
resultados
Poucas propriedades demonstráveis
Baseado em um embasamento teórico firme
Justificativa teória de um esquema de ordenação ótimo
Desvantagens





Fazer a suposição inicial para obter V
Pesos binários da palavra-no-documento (sem usar
frequência de termos)
Independência de termos (pode ser aliviada)
Quantidade de cálculo
Nunca funcionou convincentemente melhor na prática
Redes Bayesianas para Recuperação
de Texto (Turtle and Croft 1990)

Modelo probabilístico padrão supõe que você não
pode estimar P(R|D,Q)



Ao invés disso supõe independência e usa P(D|R)
Mas talvez você possa com uma rede Bayesiana*
O que é uma rede Bayesiana?


Um grafo direcionado acíclico
Vértices

Eventos ou Variáveis



Supõe valores
Para todos os propósitos, todos Booleanos
Arestas

modelam dependências diretas entre os vértices
Redes Bayesianas
a,b,c - proposições (eventos). • Redes Bayesianas modelam relações
causais entre os eventos
a
b
p(a)
c
p(c|ab) para todos os
valores para a,b,c
p(b)
•Inferências Redes Bayesianas:
Dependência
Condicional
• Dadas a distribuições de
probabilidade para raízes e
probabilidades condicionais
pode-se calcular a probabilidade
apriori de qualquer instância
• Fixar suposições (ex.: b
foi observado) causará recálculo
de probabilidades
Para mais informações:
R.G. Cowell, A.P. Dawid, S.L. Lauritzen, and D.J. Spiegelhalter.
1999. Probabilistic Networks and Expert Systems. Springer Verlag.
J. Pearl. 1988. Probabilistic Reasoning in Intelligent Systems:
Networks of Plausible Inference. Morgan-Kaufman.
Exemplo do Brinquedo
f
0.3
f
0.7
f f
n 0.9 0.3
n 0.1 0.7
t
t
d
d
Finais
(f)
Entrega do Projeto
(d)
Sem dormir
(n)
fd fd
Desânimo g 0.99 0.9
(g)
g 0.01 0.1
g
0.99
0.01
g
0.1
0.9
Café com Leite Triplo
(t)
0.4
0.6
f d  f d
0.8
0.3
0.2
0.7
Suposições de Independência
Entrega do Projeto
(d)
Finais
(f)
Sem dormir
(n)
Desânimo
(g)
• Suposição de
Independência:
P(t|g, f)=P(t|g)
• Probabilidade conjunta
P(f d n g t)
=P(f) P(d) P(n|f) P(g|f d) P(t|g)
Café com leite Triplo
(t)
Inferência encadeada


Evidência – um vértice assume um valor
Inferência

Calcular a crença (probabilidade) de outros vértices



condicionado a uma evidência conhecida
Dois tipos de inferência: Diagnóstica e Preditiva
Complexidade computacional

General network: NP-hard


Rede similares a árvore são facilmente tratáveis
Muitos outros trabalhos sobre inferência eficiente em redes
Bayesianas exatas e aproximadas


Programação dinâmica inteligente
Inferência aproximada (“propagação da crença em laço”)
Modelo p/ Recuperação de Texto

Objetivo


Dada a necessidade de informação do usuário
(evidência), encontrar a probabilidade de que um
documento satisfaça a necessidade
Modelo de recuperação


Modelar documentos em uma rede de
documentos
Modelar a necessidade de informação em uma
rede de consulta
Redes Bayesianas para RI: Ideia
Rede de Documento
di -documentos
d1
d2
tiGrande,
– representações
de documento
mas
t1
t2
ricalcular
- “conceitos”
uma vez para
cada coleção de documentos rk
r1
r2
r3
c1
c2
q1
ci – conceitos de consulta cm
Pequeno, calcular uma vez
para cada
qi - conceitos
de consulta
alto-nível
q2
Rede de Consulta
I
I - vértice objetivo
dn
tn
Redes Bayesianas para RI


Construa Rede de Documento (uma vez!)
Para cada consulta




Construa a melhor Rede de Consulta
Anexe-a à Rede de Documentos
Encontre o subconjunto de di’s que maximiza o
valor da probabilidade do vértice I (melhor
subconjunto)
Recupere esses di’s como a resposta à consulta
Redes Bayesianas para recuperação
de texto
Documentos
d1
r1
d2
r2
c1
r3
c2
c3
q1
q2
i
Rede de
Documentos
Termos/Conceitos
Conceitos
Rede de
Consulta
Operadores de Consulta
(AND/OR/NOT)
Necessidade de Informação
Ligando matrizes e probabilidades


Probabilidade anterior do
documento P(d) = 1/n
P(r|d)


frequência do termo no
documento
baseado em tf  idf

P(c|r)



1-a-1
thesaurus
P(q|c): forma canônica dos
operadores da consulta

Sempre use coisas como
AND e NOT – nunca
armazene a CPT*
completa
*tabela de probabilidade condicional
Exemplo: “reason trouble –two”
Macbeth
Hamlet
Rede de
Documentos
reason
reason
trouble
trouble
OR
double
two
NOT
Consulta do Usuário
Rede de
Consulta
Extensões




Probabilidades anteriores não têm que ser 1/n
“Necessidade de informação do usuário” não
precisa ser uma consulta - podem ser palavras
digitadas, documentos lidos, qualquer
combinação …
Frases, vínculos intra-documentos
Matrizes de vínculos podem ser modificadas ao
passar do tempo


Feedback do usuário
Promessa de “personalização”
Detalhes computacionais



Rede de documento construída em tempo de
indexação
Rede de consulta construída/pontuada em tempo de
consulta
Representação:



Matrizes de vínculos de documentos para qualquer
termo individual são como entradas de endereçamento
para aquele termo
Matrízes de vínculos são eficientes para armazenar e
calcular
Anexar evidências apenas às raízes da rede

Pode ser construído em única passagem das raízes
para as folhas
Redes Bayesianas em RI

Formas flexíveis de combinar peso dos termos, que pode
generalizar abordagem anteriores




Modelo Booleano
Modelo binário de independência
Modelos probabilísticos com suposições mais fracas
Implementação eficiente de larga-escala

Sistema de recuperação de texto InQuery da Universidade de
Massachusetts




Turtle e Croft (1990) [Defunto de versão comercial?]
São precisas aproximações para evitar inferências intratáveis
É necessário estimar todas as probabilidades de algum modo
(ainda que mais ou menos ad hoc)
Muita nova tecnologia de Redes Bayesianas a ser aplicada?
Resources
S. E. Robertson and K. Spärck Jones. 1976. Relevance Weighting of
Search Terms. Journal of the American Society for Information
Sciences 27(3): 129–146.
C. J. van Rijsbergen. 1979. Information Retrieval. 2nd ed. London:
Butterworths, chapter 6. [Most details of math]
http://www.dcs.gla.ac.uk/Keith/Preface.html
N. Fuhr. 1992. Probabilistic Models in Information Retrieval. The
Computer Journal, 35(3),243–255. [Easiest read, with BNs]
F. Crestani, M. Lalmas, C. J. van Rijsbergen, and I. Campbell. 1998.
Is This Document Relevant? ... Probably: A Survey of
Probabilistic Models in Information Retrieval. ACM Computing
Surveys 30(4): 528–552.
http://www.acm.org/pubs/citations/journals/surveys/1998-30-4/p528-crestani/
[Adds very little material that isn’t in van Rijsbergen or Fuhr ]
Resources
H.R. Turtle and W.B. Croft. 1990. Inference Networks for Document
Retrieval. Proc. ACM SIGIR: 1-24.
E. Charniak. Bayesian nets without tears. AI Magazine 12(4): 50-63
(1991). http://www.aaai.org/Library/Magazine/Vol12/12-04/vol12-04.html
D. Heckerman. 1995. A Tutorial on Learning with Bayesian Networks.
Microsoft Technical Report MSR-TR-95-06
http://www.research.microsoft.com/~heckerman/
N. Fuhr. 2000. Probabilistic Datalog: Implementing Logical Information
Retrieval for Advanced Applications. Journal of the American Society
for Information Science 51(2): 95–110.
R. K. Belew. 2001. Finding Out About: A Cognitive Perspective on Search
Engine Technology and the WWW. Cambridge UP 2001.
MIR 2.5.4, 2.8