Avaliações Conjuntas:
Visão Geral
Alexsandro Santos Soares
Projecto Processamento Computacional do Português
SINTEF Telecom and Informatics
O que é avaliação conjunta?
• Compara os resultados de vários sistemas participantes usando:
– Tarefas de controle iguais ou similares;
– Mesma coleção de dados;
– Mesmas métricas.
• Todos os itens acima são baseados em concordância prévia entre
os participantes.
Junho de 2002
SINTEF
2
Objetivos
• Encorajar a pesquisa baseada em dados reais;
• Aumentar a comunicação entre a indústria, a academia e o
governo através da criação de um fórum aberto de discussões;
• Acelerar a transferência de tecnologia entre os laboratórios de
pesquisa e os produtos comerciais pela comprovação de
melhorias substanciais em metodologias aplicadas a problemas
reais;
• Disponibilização de técnicas e recursos de avaliação comuns
para uso industrial ou acadêmico, incluindo o desenvolvimento
de novas técnicas mais adequadas aos sistemas atuais.
Junho de 2002
SINTEF
3
Elementos da avaliação conjunta
• Tarefa de controle é a função que os sistemas participantes
realizam durante a avaliação juntamente com as condições sob
as quais ela deve ser realizada.
• Requisitos genéricos para a tarefa de controle:
– Pode ser facilmente realizada por um operador humano;
– Não precisa ser identificada com a funcionalidade específica de um
componente numa arquitetura de PLN;
• Requisitos genéricos para as métricas:
– Deve existir concordância em um formalismo de referência comum
a todos os participantes;
– As métricas devem ser diretas e de fácil entendimento.
Junho de 2002
SINTEF
4
Fases da Avaliação Conjunta
Participantes: pesquisa, indústria e governo
Tarefas de controle
Métricas
Coleção de teste
Treinamento
Avaliação
Artigos
Conferência
Ensaio
Resultados
Organização: governo, pesquisa e indústria
Junho de 2002
SINTEF
5
Evolução
Tarefas
Avaliação
Conjunta
Métricas
Discussão
sobre
metodologia
Coleção
Junho de 2002
Tarefas
Métricas
Nova
Avaliação
Conjunta
Coleção
- Treinamento
- Teste
- Respostas
certas
SINTEF
6
Tipos de avaliação em geral
• Avaliação de pesquisa básica
– Validar um nova idéia e medir a quantidade de melhoria que ela traz em
relação a outros métodos.
• Avaliação de tecnologia
– Medir a performance e a adequação de uma tecnologia na resolução de um
problema bem definido, simplificado e abstraido.
• Avaliação de uso
– Medir a usabilidade de uma tecnologia na resolução de um problema real.
• Avaliação de impacto
– Avaliação de consequências sócio-econômicas de uma tecnologia.
• Avaliação de programa
– Determinar quanto de benefício um programa de financiamento trouxe
para uma dada tecnologia.
Junho de 2002
SINTEF
7
Avaliações conjuntas realizadas
•
•
•
•
•
•
ATIS
MUC
TREC
SUMMAC
DUC
CLEF
•
•
•
•
•
•
ARC
GRACE
Morpholympics
Senseval/Romanseval
Parseval
NTCIR
http://cgi.portugues.mct.pt/aval_conjunta/outras_aval_conj.html
Junho de 2002
SINTEF
8
ATIS - Air Travel Information System
• Duração: de 1989 a 1995.
• Tarefa: Responder a perguntas faladas pelo usuário sobre
determinado domínio (Informação sobre linhas aéreas).
• Com a intenção de criar uma medida repetível em um sistema de
trocas de mensagens faladas e, assim, interativo, foi criado um
paradigma de avaliação baseado em dados pré-gravados.
• A portabilidade dos sistemas de compreensão de línguas não
avaliada.
– Não estava claro como desenvolver ferramentas robustas que
permitiriam a rápida construção destes tipos de sistemas em novos
domínios
Junho de 2002
SINTEF
9
MUC - Message Understanding Conference
• Duração: 1987 a 1998.
• Tarefa: Simulação de um analista do serviço de inteligência
procurando informações a respeito de um tópico particular.
– Ex: Atividades terroristas nas Américas.
• Inicialmente utilizou um corpus contendo mensagens da Marinha dos
EUA e depois evoluiu para textos jornalísticos e em vários domínios,
incluindo em outras línguas.
• Avaliação baseada em preenchimento de gabaritos (templates)
– Identificação de entidades citadas: pessoa, organização, localização,
tempo, data, percentuais e expressões monetárias.
– Template elements: uma lista de entidades com seus atributos associados,
tais como formas alternativas de um nome.
– Identificação de coreferência: ligar as várias menções da mesma entidade.
Junho de 2002
SINTEF
10
TREC - Text REtrieval Conference
• Início: 1992
• Tarefas principais:
– Routing: Mesmas questões perguntadas a uma base de dados
dinâmica.
– Ad hoc: Novas questões são perguntadas a uma base de dados
estática.
• Os dados usados atualmente nesta avaliação consiste de 2 Gb de
textos:
– Contendo entre 500.000 e 1.000.000 de documentos completos
– Formado principalmente de textos jornalísticos e de agências de
notícias.
– Também possui documentos oficiais e resumos de artigos sobre
computação.
Junho de 2002
SINTEF
11
Julgamentos de Relevância nas TRECs
• Método de pooling:
– Os participantes enviam para cada tópico uma lista contendo os
100 primeiros documentos encontrados, ordenados por relevância.
– Reúne-se por tópico todas as respostas enviadas e remove-se as
duplicações.
– Cada lista resultante por tópico é levada para um analista humano
para que este decida sobre a relevância de tais documentos para o
tópico em questão.
• A lista final do método de pooling será considerada a resposta
correta.
Junho de 2002
SINTEF
12
SUMMAC - TIPSTER Text Summarization Evaluation
• Início: 1997
• Tarefas principais:
– Ad hoc
• Criação de sumários indicativos e focados no usuário para um tópico
particular.
• Determinar se estes sumários são efetivos na determinação da
relevância de texto fonte completo para um dado tópico.
– Categorização
• Criação de sumários genéricos
• Determinar se estes sumários são efetivos na captura de qualquer
informação no documento fonte que permita corretamente categorizar
este documento.
• Os dados usados são das TRECs.
Junho de 2002
SINTEF
13
DUC - Document Understanding Conference
• Início: 2001
• Tarefas principais:
– Sumário individual: Produzir um resumo de 100 palavras para cada
documento;
– Sumário de um conjunto de documentos: Produzir quatro sumários
com taxas de compressão diferentes (400, 200, 100 e 50 palavras)
para conjuntos de 10 documentos (em média) discutindo o mesmo
“conceito”.
• Os dados utilizados vieram da TREC-9 (question-answering
track).
Junho de 2002
SINTEF
14
Criação de Sumários por Humanos
Traduzido de http://www-nlpir.nist.gov/projects/duc/duc2001/pauls_slides/sld008.htm
A
B
Documentos
A:
Sumários
individuais
C
Sumários
coletivos
Ler os documentos em papel.
B:
Criar um sumário de 100 palavras para cada documento
usando a perspectiva do autor do documento.
C:
400
D
Criar um sumário de 400 palavras a partir de um conjunto
de 10 documentos escritos na forma de um relatório para
um leitor adulto de jornais.
200
D,E,F:
100
Recortar, colar e reformular para reduzir o tamanho
do sumário pela metade.
Junho de 2002
SINTEF
E
F
50
15
CLEF - Cross-Language Evaluation Forum
• Iniciada como uma das tarefas secundárias na TREC-6, tornou-se uma
iniciativa independente em 2000.
• Objetivos:
– Auxiliar a avaliação de sistemas em recuperação translinguística de
informação (cross-language retrieval)
– Encorajar o desenvolvimento de estratégias e ferramentas para a
recuperação monolíngue de informação (não baseada no Inglês).
– Atrair mais participantes europeus para este tipo de tarefa de avaliação
• A coleção de teste consiste em conjuntos de documentos em diferentes
línguas européias mas com características similares (mesmo gênero e
período de tempo, conteúdos comparáveis)
• Possui uma organização distribuída com os vários grupos participantes
fornecendo o conhecimento para cada língua individualmente.
Junho de 2002
SINTEF
16
ARC - Actions de Recherche Concertées
• Início: 1994
• Possui 7 tarefas de controle organizadas como segue:
– Linguística, Informática e Corpora escritos (ILEC)
• Recuperação de Informação
• Alinhamento de corpus bi e multilíngues
• Construção automática de terminologia e de relações semânticas a partir de
corpora
• Compreensão de textos
– Linguística, Informática e Corpora orais (ILOR)
• Ditado vocal
• Diálogo oral
• Síntese de fala
• Cada tarefa de controle possui a mesma estrutura organizacional
– Um avaliador encarregado do gerenciamento, um comitê científico cujos
membros são os participantes, um ou mais fornecedores de corpus e os
participantes.
Junho de 2002
SINTEF
17
GRACE - Grammaires & Ressources pour les Analyseurs
de Corpus & leur Évaluation
• Início: 1995
• Objetivos iniciais:
– Etiquetadores morfossintáticos para o francês;
– Analisadores sintáticos para francês (abandonado)
• Corpus de treinamento
– Tamanho em torno de 10 milhões de palavras;
– Distribuido entre trabalhos literários e artigos jornalísticos.
Junho de 2002
SINTEF
18
Senseval/Romanseval
• Início: 1998
• A meta do Senseval é avaliar sistemas de desambiguação de sentidos
com respeito a diferentes palavras, diferentes variantes de uma língua e
a diferentes línguas.
• A meta do Romanseval é similar a do Senseval mas voltada para
línguas românicas (francês e italiano).
• Os sistemas foram avaliados nas tarefas abaixo envolvendo holandês,
tcheco, basco, estoniano, italiano, coreano, espanhol, sueco, japonês e
inglês.
– Todas palavras: avaliação sobre quase todas as palavras de conteúdo em
uma amostra de textos.
– Amostra lexical: primeiro amostra-se o léxico, em seguida encontram-se
instâncias no contexto das palavras amostradas e a avaliação procede
somente sobre estas instâncias.
– Tradução: Sentidos correspondentes em distintas traduções de uma
palavra em uma outra língua.
Junho de 2002
SINTEF
19
Parseval
• A disponibilidade de um corpora anotado (Penn Treebank) levou
à sua criação.
• A idéia chave consistiu em fornecer uma representação sintática
simples baseada em constituintes porém com neutralidade
teórica.
• A avaliação separada em uma avaliação de "bracketings" para
cada sentença e também na etiquetagem consistente de
constituintes.
• A disponibilidade de dados cria um padrão de facto e assim os
pesquisadores podem comparar resultados em diversas
abordagens e, dentro de certos limites, cruzando diferentes
teorias linguísticas.
Junho de 2002
SINTEF
20
NTCIR - NII-NACSIS Test Collection for IR Systems
• Início: 1998
• Projetado para fomentar a pesquisa em recuperação de
informação e outras tecnologias de processamento de texto
(sumarização e extração) para o japonês e outras línguas
asiáticas.
• Fortemente baseada no modelo das TRECs
• Tarefas:
– Recuperação de informação em textos em chinês.
– Recuperação de informação em textos em japonês e inglês.
– Sumarização de textos: sumarização de artigos japoneses de vários
tipos
Junho de 2002
SINTEF
21