AVALIA
Sumarização Automática
Um possível RoadMap?
Thiago A.S. Pardo
Lucia Helena Machado Rino
Referências básicas : Hovy & Marcu, COLING’98;
Marcu et al., ACL’2000
AVALIA
O QUE fazer?
 Processamento profundo
 Pesadamente, RST-based
 Processamento superficial
 baseado em métodos extrativos
 usando Info Retrieval (IR)
 usando Info Extraction (IE)
AVALIA
A solucao ótima...
 Combinando ambos os paradigmas
... IE/NLP quando houver templates
bem definidos
... IR, caso contrário
… como fazê-lo?
AVALIA
Gêneros de sumários?
 Indicativo vs. informativo
 categorização rápida vs. processamento de
conteúdo
 Extrato vs. sumário (abstract)
 ... fragmentos textuais vs. refraseamento do
conteúdo (coerência)
 Uso genérico vs. query-oriented
 ... visão do autor vs. interesses do usuário
 Background vs. just-the-news
 ... conhecimento prévio do L é pobre vs.
atualizado
 Um doc vs. multi-docs
AVALIA
Tópicos de avaliação
 Criação de um corpus de teste
 Avaliação intrínseca
 Avaliação extrínseca
 Metodologia de avaliação
 sumários automáticos
 métodos utilizados
 perfil dos avaliadores
 Divulgação
AVALIA
Corpora já explorados
 Edmundson (68)
• Corpus de treino: 200, de ciências
físicas, biológicas, humanas & da
informação
• Corpus de teste: 200 – relatórios de
química, 100-3900 palavras
 Kupiec et al. (95)
• 188 docs científicos/técnicos, aprox.
86 sentenças cada
 Teufel and Moens (97)
• 202 artigos da CL, do arquivo E-PRINT
AVALIA
Corpora já explorados
 Marcu (97)
• 5 textos da Scientific American, 161725 palavras
 Jing et al. (98)
• 40 artigos de jornal (TREC)
 TIPSTER SUMMAC’98
• artigos de Lingüística Computacional
(ACL)
• 183 artigos completos
• marcados em XML
Avaliação atual
 Geração de extratos e/ou sumários
de docs
 Avaliações intrínsecas
• recall, precision, utilidade (Radev, 2000)
• com e sem identificação de sentenças
importantes do texto-fonte (semantic load)
• Adequação & sobreposição do conteúdo
semântico (retention rate)
• Preservação da idéia central
• Legibilidade e textualidade (coerência &
coesão)
... avaliação atual
 Avaliações extrínsecas
• Categorização/classificação de
sumários
• Sumários para Q & A, IR
• Divulgação (news snapshots)
“scaling up” …
 Textos mais complexos
 Compilação parcialmente automática de corpora
 Várias taxas de compressão
 Sumarização multilingüe
 Tratamento de relevância, co-referência,
identificação e/ou fusão de tópicos, geração de
língua natural, clusterização, etc.
 Sumarização para domínios irrestritos
 Sumários com objetivos diversos
AVALIA
Questoes polêmicas
 Como métodos diferentes de avaliação
podem ser comparados, para cada tipo de
sumário?
 Diferentes tipos de sumários podem ser
gerados por qualquer método?
 Qual a influência do juiz na avaliação? 
KAPPA
 Há um método de avaliação preferencial?
Metodologia para avaliação conjunta
 Compilação de corpora de referência para
a SA
 Disponibilização de corpora de treino para
a comunidade
 Grupos de pesquisa preparados para
tarefas específicas de sumarização
 Grupos de pesquisa testando seus sistemas
com corpora de teste
 Avaliação
 Divulgação dos resultados
A decidir...
 Sumarização concentrada somente
em textos?
 Melhor forma de avaliação?
 Avaliação é cara (juizes humanos?)
 Organização do trabalho
• Como conseguir feedback da
comunidade?
Quem faz o que?
AVALIA
FUTURO...
esforço
conjunto???