Instituto Superior Técnico Recuperação de Informação Summarizing Text Documents: Sentence Selection and Evaluation Metrics Prof. Dr. Pável Pereira Calado Trabalho realizado por: João Casteleiro Alves 1 Estrutura da apresentação Introdução Geração de sumários a partir de extracção de texto Propriedades e características dos conjuntos de Pré - Processamento da imagem dados Propriedades empíricas dos sumários Abordagem 1: Detecção de Contornos Avaliação dos sumários Rácio de Compressão Abordagem 2: Extracção de Características Experiências Conclusões e trabalho futuro 2 Introdução: O que é um sistema de sumarização de texto ??? Porquê o uso de sistemas de sumarização de texto ??? Pré - Processamento da imagem Crescimento da WEB e das colecções de texto on-line 3 Introdução Sistemas de sumarização começaram a ser desenvolvidos nos anos 50 pela IBM. Os recursos disponibilizados para resolver problemas de síntese de documentos aumentou com a WEB. Sumarização é uma transformação redutiva de um texto de Abordagem 1: Detecção Contornos partida num texto sumário de através de extracção ou generalização. A automatização da sumarização deverá basear-se num procedimento que simule o processo cognitivo humano. É um problema de Processamento da Linguagem Natural (NLP) Aparentemente difícil de resolver. 4 Introdução Qualidade da sumarização humana é difícil de encontrar em sistemas de sumarização. Uma sumarização ideal é assim aquela que inclui informação relevante para o utilizador e exclui a informação que não interessa. Esta tem também de ser coerente e compreensível. Qualidades difíceis de encontrar sem usar linguagem natural. No entanto é possível explorar padrões. Gera sumários razoáveis para a maioria dos documentos sem que haja compreensão da linguagem natural. 5 Estrutura da apresentação Introdução Geração de sumários a partir de extracção de texto Propriedades e características dos conjuntos de Pré - Processamento da imagem dados Propriedades empíricas dos sumários Abordagem 1: Detecção de Contornos Avaliação dos sumários Rácio de Compressão Abordagem 2: Extracção de Características Experiências Conclusões e trabalho futuro 6 Geração de sumários a partir de extracção de texto Criar sumários a partir da concatenação de excertos de extensões de texto do documento inicial. Transforma-se o problema de sumarização de texto num outro potencialmente mais simples a classificação das frases de um documento original de acordo com a sua relevância. Abordagem 1: Detecção de Contornos Sumarização genérica Sumarização tendo em conta uma “query” 7 Geração de sumários a partir de extracção de texto Ambos os tipos de sumarização tem por base a classificação das frases através de propriedades linguísticas e estatísticas. No entanto, diferentes documentos, têm diferentes Abordagem 1: Detecção de Contornos características Os pesos das características linguísticas e estatísticas são ajustados de modo a evidenciar estas mesmas - As características estatísticas incluem vários dos métodos de RI TF-IDF, “pseudo-relevance feedback”, etc - As características linguísticas dizem respeito à própria lingua. 8 Geração de sumários a partir de extracção de texto Avaliação de frases Cada frase é então classificada de acordo com a seguinte fórmula e depois ordenada no sumário conforme o “ranking”. S éAbordagem o conjunto 1: deDetecção propriedades estatísticas (RI) de Contornos L é o conjunto de propriedades linguísticas Q é a query W é o peso das características no conjunto de dados Os pesos podem ser ajustados de acordo com o tipo do conjunto de dados e com o sumário desejado. 9 Estrutura da apresentação Introdução Geração de sumários a partir de extracção de texto Propriedades e características dos conjuntos de Pré - Processamento da imagem dados Propriedades empíricas dos sumários Abordagem 1: Detecção de Contornos Avaliação dos sumários Rácio de Compressão Abordagem 2: Extracção de Características Experiências Conclusões e trabalho futuro 10 Propriedades e características dos conjuntos de dados Um sumário ideal que tem em conta a informação da “query”, é então aquele que contém informação sobre o que o utilizador está interessado OAbordagem primeiro passo de construção deste tipo de sumários diz 1: Detecção de Contornos respeito à qualidade de extracção de pedaços de texto do documento inicial relevantes para o utilizador. Para analisar a capacidade do sistema a extrair pedaços de texto que são considerados relevantes, foram então usados vários conjuntos de dados. - Relevance Sentence Database - Model Summaries (TIPSTER) - Reuters e LA Times 11 Propriedades e características dos conjuntos de dados 12 Estrutura da apresentação Introdução Geração de sumários a partir de extracção de texto Propriedades e características dos conjuntos de Pré - Processamento da imagem dados Propriedades empíricas dos sumários Abordagem 1: Detecção de Contornos Avaliação dos sumários Rácio de Compressão Abordagem 2: Extracção de Características Experiências Conclusões e trabalho futuro 13 Propriedades empíricas dos sumários Tendo em conta os conjuntos de dados mostrados antes, foram analisadas diferentes propriedades destes sumários. O tamanho do sumário é independente do tamanho do documento. Abordagem 1: Detecção de Contornos O rácio de compressão torna-se mais pequeno para documentos maiores. 14 Propriedades empíricas dos sumários Os sumários incluem frequentemente artigos indefinidos e as frases tendem também a começar com um artigo. Constatou-se também que a palavra “Reuters”, nos artigos da Reuters aparece frequentemente nos sumários, uma vez que esta está normalmente presente na primeira frase. É assim um bom indicador de uma evidência positiva. Por outro lado a palavra “REUTERS” que aparece normalmente no fim dos documentos (a seguir à ultima frase) é um bom indicador de uma evidência negativa. 15 Propriedades empíricas dos sumários As palavras e frases em discurso directo ou indirecto têm tendência a não aparecerem nos sumários. Dependendo das palavras que precedem umas às outras podemos concluir se uma determinada frase é ou não uma citação, e não inclui-la no sumário Os nomes próprios têm por sua vez alguma tendência a aparecer nos sumários. 16 Estrutura da apresentação Introdução Geração de sumários a partir de extracção de texto Propriedades e características dos conjuntos de Pré - Processamento da imagem dados Propriedades empíricas dos sumários Abordagem 1: Detecção de Contornos Avaliação dos sumários Rácio de Compressão Abordagem 2: Extracção de Características Experiências Conclusões e trabalho futuro 17 Avaliação dos sumários Existem dois tipos de avaliação de sumários Intrínseco Extrínseco A TIPSTER focou-se recentemente em ambos os tipos de avaliação. A avaliação é assim composta por 3 partes principais: - Determinar a relevância de um documento para um tópico (No caso dos sumários que têm em conta a “query”). - Determinar a categoria dos sumários genéricos - Estabelecer se um sumário é capaz de responder a um conjunto específico de questões (em comparação com um sumário ideal). 18 Avaliação dos sumários Para cada tarefa, os sumários foram classificados em termos de confiança da decisão, inteligibilidade e tamanho. Observou-se que para diferentes sistemas, o melhor resultado encontrado tinha diferentes tamanhos. Assim, usou-se como unidade subjacente as frases, e avaliaram-se os sistemas de sumarização para a primeira fase de criação de um sumário. Um outro ponto de avaliação dos sumários é o de como penalizar a informação não interessante e redundante. 19 Avaliação dos sumários De modo a avaliar a performance dos sistemas com características diferentes é usado uma versão modificada do standard “11-point precision recall curves” sobre 2 conjuntos de dados Tendo em conta o facto de que um sumário comprimido não tem a oportunidade de devolver o conjunto completo de frases relevantes, usou-se uma versão normalizada de “Recall” e uma versão normalizada de F1. M Numero de frases relevantes num documento P Precision R Recal J Numero de frases relevantes do sumário 20 Avaliação dos sumários Do ponto de vista da análise teórica das propriedades dos sumários, define-se a “precision”, o “recall” e “F1” como: L Número de frases do documento M Número de frases relevantes num documento K Número de frases seleccionadas para incluir no sumário 21 Estrutura da apresentação Introdução Geração de sumários a partir de extracção de texto Propriedades e características dos conjuntos de Pré - Processamento da imagem dados Propriedades empíricas dos sumários Abordagem 1: Detecção de Contornos Avaliação dos sumários Rácio de Compressão Abordagem 2: Extracção de Características Experiências Conclusões e trabalho futuro 22 Rácio de compressão Como já visto antes, o número de frases relevantes a fazer parte de um sumário não varia com o tamanho do documento. - É normalmente constante Considerando o impacto na medida F1 do rácio de compressão, temos que: F1 = (2.M.K)/L(M+K) Conclui-se que para documentos muito grandes, obtêm-se piores resultados de F1. 23 Estrutura da apresentação Introdução Geração de sumários a partir de extracção de texto Propriedades e características dos conjuntos de Pré - Processamento da imagem dados Propriedades empíricas dos sumários Abordagem 1: Detecção de Contornos Avaliação dos sumários Rácio de Compressão Abordagem 2: Extracção de Características Experiências Conclusões e trabalho futuro 24 Experiências Foram realizadas experiências para avaliar as relativas vantagens de expansão da “query” para os sistemas de sumarização. Consiste em comparar uma “query” com uma determinada dimênsão com uma outra de dimensão diferente. 25 Experiências Foram também realizados testes para a medida normalizada F1, com diferentes níveis de compressão para algumas características linguísticas e investigada a qualidade dos sumários para diferentes níveis de rácio de compressão. Constata-se que quanto maior for o tamanho do documento/sumário, pior será o valor de F1. 26 Estrutura da apresentação Introdução Geração de sumários a partir de extracção de texto Propriedades e características dos conjuntos de Pré - Processamento da imagem dados Propriedades empíricas dos sumários Abordagem 1: Detecção de Contornos Avaliação dos sumários Rácio de Compressão Abordagem 2: Extracção de Características Experiências Conclusões e trabalho futuro 27 Conclusões Apresenta uma análise sobre a sumarização de novos artigos através de selecção de frases. As frases são escolhidas para uma potencial inclusão no sumário, usando propriedades estatísticas e linguísticas. As características estatísticas surgem dos métodos standard de RI. As características linguísticas surgem da análise de documentos. Concluí-se ainda que uma avaliação dos sistemas de sumarização deve ter em conta o rácio de compressão e as características do documento. 28 Trabalho futuro Planejam investigar técnicas de linguagem artificial que permita descobrir características adicionais para uma variedade de documentos e aprender medidas óptimas para combinações futuras. 29 FIM 30