Instituto Superior Técnico
Recuperação de Informação
Summarizing Text Documents:
Sentence Selection and Evaluation Metrics
Prof. Dr. Pável Pereira Calado
Trabalho realizado por:
João Casteleiro Alves
1
Estrutura da apresentação

Introdução

Geração de sumários a partir de extracção de texto

Propriedades e características dos conjuntos de
Pré - Processamento da imagem
dados
Propriedades empíricas dos sumários
Abordagem 1: Detecção de Contornos
 Avaliação dos sumários


Rácio de Compressão
Abordagem 2: Extracção de Características
 Experiências

Conclusões e trabalho futuro
2
Introdução:
O que é um sistema de sumarização de texto ???
Porquê o uso de sistemas de sumarização de texto ???
Pré - Processamento da imagem
Crescimento da WEB e das colecções de texto on-line
3
Introdução

Sistemas de sumarização começaram a ser desenvolvidos
nos anos 50 pela IBM.

Os recursos disponibilizados para resolver problemas de
síntese de documentos aumentou com a WEB.

Sumarização é uma transformação redutiva de um texto de
Abordagem
1: Detecção
Contornos
partida
num texto
sumário de
através
de extracção ou
generalização.
 A automatização da sumarização deverá basear-se num
procedimento que simule o processo cognitivo humano.
 É um problema de Processamento da Linguagem Natural
(NLP)  Aparentemente difícil de resolver.
4
Introdução

Qualidade da sumarização humana é difícil de encontrar em
sistemas de sumarização.

Uma sumarização ideal é assim aquela que inclui informação
relevante para o utilizador e exclui a informação que não
interessa. Esta tem também de ser coerente e compreensível.
Qualidades difíceis de encontrar sem usar linguagem
natural. No entanto é possível explorar padrões.
Gera sumários razoáveis para a maioria dos
documentos sem que haja compreensão da linguagem
natural.
5
Estrutura da apresentação

Introdução

Geração de sumários a partir de extracção de texto

Propriedades e características dos conjuntos de
Pré - Processamento da imagem
dados
Propriedades empíricas dos sumários
Abordagem 1: Detecção de Contornos
 Avaliação dos sumários


Rácio de Compressão
Abordagem 2: Extracção de Características
 Experiências

Conclusões e trabalho futuro
6
Geração de sumários a partir de extracção de texto

Criar sumários a partir da concatenação de excertos de
extensões de texto do documento inicial.

Transforma-se o problema de sumarização de texto num outro
potencialmente mais simples  a classificação das frases de
um documento original de acordo com a sua relevância.
Abordagem 1: Detecção de Contornos
Sumarização
genérica
Sumarização tendo
em conta uma
“query”
7
Geração de sumários a partir de extracção de texto

Ambos os tipos de sumarização tem por base a classificação
das frases através de propriedades linguísticas e estatísticas.

No
entanto, diferentes
documentos,
têm diferentes
Abordagem
1: Detecção
de Contornos
características  Os pesos das características linguísticas e
estatísticas são ajustados de modo a evidenciar estas mesmas
- As características estatísticas incluem vários dos métodos
de RI  TF-IDF, “pseudo-relevance feedback”, etc
- As características linguísticas dizem respeito à própria lingua.
8
Geração de sumários a partir de extracção de texto
Avaliação de frases
Cada frase é então classificada de acordo com a seguinte
fórmula e depois ordenada no sumário conforme o “ranking”.

S éAbordagem
o conjunto 1:
deDetecção
propriedades
estatísticas (RI)
de Contornos

L é o conjunto de propriedades linguísticas
 Q é a query
 W é o peso das características no conjunto de dados
Os pesos podem ser ajustados de acordo com o tipo do
conjunto de dados e com o sumário desejado.
9
Estrutura da apresentação

Introdução

Geração de sumários a partir de extracção de texto

Propriedades e características dos conjuntos de
Pré - Processamento da imagem
dados
Propriedades empíricas dos sumários
Abordagem 1: Detecção de Contornos
 Avaliação dos sumários


Rácio de Compressão
Abordagem 2: Extracção de Características
 Experiências

Conclusões e trabalho futuro
10
Propriedades e características dos
conjuntos de dados

Um sumário ideal que tem em conta a informação da “query”,
é então aquele que contém informação sobre o que o
utilizador está interessado

OAbordagem
primeiro passo
de construção
deste tipo de sumários diz
1: Detecção
de Contornos
respeito à qualidade de extracção de pedaços de texto do
documento inicial relevantes para o utilizador.
 Para analisar a capacidade do sistema a extrair pedaços de
texto que são considerados relevantes, foram então usados
vários conjuntos de dados.
- Relevance Sentence Database
- Model Summaries (TIPSTER)
- Reuters e LA Times
11
Propriedades e características dos
conjuntos de dados
12
Estrutura da apresentação

Introdução

Geração de sumários a partir de extracção de texto

Propriedades e características dos conjuntos de
Pré - Processamento da imagem
dados
Propriedades empíricas dos sumários
Abordagem 1: Detecção de Contornos
 Avaliação dos sumários


Rácio de Compressão
Abordagem 2: Extracção de Características
 Experiências

Conclusões e trabalho futuro
13
Propriedades empíricas dos sumários
Tendo em conta os conjuntos de dados mostrados antes,
foram analisadas diferentes propriedades destes sumários.
 O tamanho do sumário é independente do tamanho do
documento.
Abordagem 1: Detecção de Contornos
 O rácio de compressão torna-se mais pequeno para
documentos maiores.
14
Propriedades empíricas dos sumários
 Os sumários incluem frequentemente artigos indefinidos e as
frases tendem também a começar com um artigo.
 Constatou-se também que a palavra “Reuters”, nos artigos da
Reuters aparece frequentemente nos sumários, uma vez que
esta está normalmente presente na primeira frase. É assim
um bom indicador de uma evidência positiva.
 Por outro lado a palavra “REUTERS” que aparece
normalmente no fim dos documentos (a seguir à ultima frase)
é um bom indicador de uma evidência negativa.
15
Propriedades empíricas dos sumários
 As palavras e frases em discurso directo ou indirecto têm
tendência a não aparecerem nos sumários.
 Dependendo das palavras que precedem umas às outras
podemos concluir se uma determinada frase é ou não uma
citação, e não inclui-la no sumário
 Os nomes próprios têm por sua vez alguma tendência a
aparecer nos sumários.
16
Estrutura da apresentação

Introdução

Geração de sumários a partir de extracção de texto

Propriedades e características dos conjuntos de
Pré - Processamento da imagem
dados
Propriedades empíricas dos sumários
Abordagem 1: Detecção de Contornos
 Avaliação dos sumários


Rácio de Compressão
Abordagem 2: Extracção de Características
 Experiências

Conclusões e trabalho futuro
17
Avaliação dos sumários
Existem dois tipos de avaliação de sumários
Intrínseco
Extrínseco
 A TIPSTER focou-se recentemente em ambos os tipos de
avaliação. A avaliação é assim composta por 3 partes principais:
- Determinar a relevância de um documento para um
tópico (No caso dos sumários que têm em conta a “query”).
- Determinar a categoria dos sumários genéricos
- Estabelecer se um sumário é capaz de responder a um
conjunto específico de questões (em comparação com um
sumário ideal).
18
Avaliação dos sumários
 Para cada tarefa, os sumários foram classificados em termos de
confiança da decisão, inteligibilidade e tamanho.
 Observou-se que para diferentes sistemas, o melhor resultado
encontrado tinha diferentes tamanhos.
 Assim, usou-se como unidade subjacente as frases, e avaliaram-se
os sistemas de sumarização para a primeira fase de criação de um
sumário.
 Um outro ponto de avaliação dos sumários é o de como penalizar a
informação não interessante e redundante.
19
Avaliação dos sumários
 De modo a avaliar a performance dos sistemas com
características diferentes é usado uma versão modificada do
standard “11-point precision recall curves” sobre 2 conjuntos de
dados
 Tendo em conta o facto de que um sumário comprimido não
tem a oportunidade de devolver o conjunto completo de frases
relevantes, usou-se uma versão normalizada de “Recall” e uma
versão normalizada de F1.
M  Numero de frases relevantes num documento
P  Precision
R  Recal
J  Numero de frases relevantes do sumário
20
Avaliação dos sumários
 Do ponto de vista da análise teórica das propriedades dos
sumários, define-se a “precision”, o “recall” e “F1” como:
L  Número de frases do documento
M  Número de frases relevantes num documento
K  Número de frases seleccionadas para incluir no sumário
21
Estrutura da apresentação

Introdução

Geração de sumários a partir de extracção de texto

Propriedades e características dos conjuntos de
Pré - Processamento da imagem
dados
Propriedades empíricas dos sumários
Abordagem 1: Detecção de Contornos
 Avaliação dos sumários


Rácio de Compressão
Abordagem 2: Extracção de Características
 Experiências

Conclusões e trabalho futuro
22
Rácio de compressão

Como já visto antes, o número de frases relevantes a
fazer parte de um sumário não varia com o tamanho
do documento.
- É normalmente constante

Considerando o impacto na medida F1 do rácio de
compressão, temos que:
F1 = (2.M.K)/L(M+K)

Conclui-se que para documentos muito grandes,
obtêm-se piores resultados de F1.
23
Estrutura da apresentação

Introdução

Geração de sumários a partir de extracção de texto

Propriedades e características dos conjuntos de
Pré - Processamento da imagem
dados
Propriedades empíricas dos sumários
Abordagem 1: Detecção de Contornos
 Avaliação dos sumários


Rácio de Compressão
Abordagem 2: Extracção de Características
 Experiências

Conclusões e trabalho futuro
24
Experiências
 Foram realizadas experiências para avaliar as relativas
vantagens de expansão da “query” para os sistemas de
sumarização.
 Consiste em comparar uma “query” com uma determinada
dimênsão com uma outra de dimensão diferente.
25
Experiências
 Foram também realizados testes para a medida normalizada
F1, com diferentes níveis de compressão para algumas
características linguísticas e investigada a qualidade dos
sumários para diferentes níveis de rácio de compressão.
 Constata-se que quanto maior for o tamanho do
documento/sumário, pior será o valor de F1.
26
Estrutura da apresentação

Introdução

Geração de sumários a partir de extracção de texto

Propriedades e características dos conjuntos de
Pré - Processamento da imagem
dados
Propriedades empíricas dos sumários
Abordagem 1: Detecção de Contornos
 Avaliação dos sumários


Rácio de Compressão
Abordagem 2: Extracção de Características
 Experiências

Conclusões e trabalho futuro
27
Conclusões
 Apresenta uma análise sobre a sumarização de novos artigos
através de selecção de frases.
 As frases são escolhidas para uma potencial inclusão no
sumário, usando propriedades estatísticas e linguísticas.
 As características estatísticas surgem dos métodos standard de
RI.
 As características linguísticas surgem da análise de
documentos.
 Concluí-se ainda que uma avaliação dos sistemas de
sumarização deve ter em conta o rácio de compressão e as
características do documento.
28
Trabalho futuro
 Planejam investigar técnicas de linguagem artificial que permita
descobrir características adicionais para uma variedade de
documentos e aprender medidas óptimas para combinações
futuras.
29
FIM
30
Download

Slides - João Alves