AVALIA Sumarização Automática Um possível RoadMap? Thiago A.S. Pardo Lucia Helena Machado Rino Referências básicas : Hovy & Marcu, COLING’98; Marcu et al., ACL’2000 AVALIA O QUE fazer? Processamento profundo Pesadamente, RST-based Processamento superficial baseado em métodos extrativos usando Info Retrieval (IR) usando Info Extraction (IE) AVALIA A solucao ótima... Combinando ambos os paradigmas ... IE/NLP quando houver templates bem definidos ... IR, caso contrário … como fazê-lo? AVALIA Gêneros de sumários? Indicativo vs. informativo categorização rápida vs. processamento de conteúdo Extrato vs. sumário (abstract) ... fragmentos textuais vs. refraseamento do conteúdo (coerência) Uso genérico vs. query-oriented ... visão do autor vs. interesses do usuário Background vs. just-the-news ... conhecimento prévio do L é pobre vs. atualizado Um doc vs. multi-docs AVALIA Tópicos de avaliação Criação de um corpus de teste Avaliação intrínseca Avaliação extrínseca Metodologia de avaliação sumários automáticos métodos utilizados perfil dos avaliadores Divulgação AVALIA Corpora já explorados Edmundson (68) • Corpus de treino: 200, de ciências físicas, biológicas, humanas & da informação • Corpus de teste: 200 – relatórios de química, 100-3900 palavras Kupiec et al. (95) • 188 docs científicos/técnicos, aprox. 86 sentenças cada Teufel and Moens (97) • 202 artigos da CL, do arquivo E-PRINT AVALIA Corpora já explorados Marcu (97) • 5 textos da Scientific American, 161725 palavras Jing et al. (98) • 40 artigos de jornal (TREC) TIPSTER SUMMAC’98 • artigos de Lingüística Computacional (ACL) • 183 artigos completos • marcados em XML Avaliação atual Geração de extratos e/ou sumários de docs Avaliações intrínsecas • recall, precision, utilidade (Radev, 2000) • com e sem identificação de sentenças importantes do texto-fonte (semantic load) • Adequação & sobreposição do conteúdo semântico (retention rate) • Preservação da idéia central • Legibilidade e textualidade (coerência & coesão) ... avaliação atual Avaliações extrínsecas • Categorização/classificação de sumários • Sumários para Q & A, IR • Divulgação (news snapshots) “scaling up” … Textos mais complexos Compilação parcialmente automática de corpora Várias taxas de compressão Sumarização multilingüe Tratamento de relevância, co-referência, identificação e/ou fusão de tópicos, geração de língua natural, clusterização, etc. Sumarização para domínios irrestritos Sumários com objetivos diversos AVALIA Questoes polêmicas Como métodos diferentes de avaliação podem ser comparados, para cada tipo de sumário? Diferentes tipos de sumários podem ser gerados por qualquer método? Qual a influência do juiz na avaliação? KAPPA Há um método de avaliação preferencial? Metodologia para avaliação conjunta Compilação de corpora de referência para a SA Disponibilização de corpora de treino para a comunidade Grupos de pesquisa preparados para tarefas específicas de sumarização Grupos de pesquisa testando seus sistemas com corpora de teste Avaliação Divulgação dos resultados A decidir... Sumarização concentrada somente em textos? Melhor forma de avaliação? Avaliação é cara (juizes humanos?) Organização do trabalho • Como conseguir feedback da comunidade? Quem faz o que? AVALIA FUTURO... esforço conjunto???