Avaliações Conjuntas: Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics O que é avaliação conjunta? • Compara os resultados de vários sistemas participantes usando: – Tarefas de controle iguais ou similares; – Mesma coleção de dados; – Mesmas métricas. • Todos os itens acima são baseados em concordância prévia entre os participantes. Junho de 2002 SINTEF 2 Objetivos • Encorajar a pesquisa baseada em dados reais; • Aumentar a comunicação entre a indústria, a academia e o governo através da criação de um fórum aberto de discussões; • Acelerar a transferência de tecnologia entre os laboratórios de pesquisa e os produtos comerciais pela comprovação de melhorias substanciais em metodologias aplicadas a problemas reais; • Disponibilização de técnicas e recursos de avaliação comuns para uso industrial ou acadêmico, incluindo o desenvolvimento de novas técnicas mais adequadas aos sistemas atuais. Junho de 2002 SINTEF 3 Elementos da avaliação conjunta • Tarefa de controle é a função que os sistemas participantes realizam durante a avaliação juntamente com as condições sob as quais ela deve ser realizada. • Requisitos genéricos para a tarefa de controle: – Pode ser facilmente realizada por um operador humano; – Não precisa ser identificada com a funcionalidade específica de um componente numa arquitetura de PLN; • Requisitos genéricos para as métricas: – Deve existir concordância em um formalismo de referência comum a todos os participantes; – As métricas devem ser diretas e de fácil entendimento. Junho de 2002 SINTEF 4 Fases da Avaliação Conjunta Participantes: pesquisa, indústria e governo Tarefas de controle Métricas Coleção de teste Treinamento Avaliação Artigos Conferência Ensaio Resultados Organização: governo, pesquisa e indústria Junho de 2002 SINTEF 5 Evolução Tarefas Avaliação Conjunta Métricas Discussão sobre metodologia Coleção Junho de 2002 Tarefas Métricas Nova Avaliação Conjunta Coleção - Treinamento - Teste - Respostas certas SINTEF 6 Tipos de avaliação em geral • Avaliação de pesquisa básica – Validar um nova idéia e medir a quantidade de melhoria que ela traz em relação a outros métodos. • Avaliação de tecnologia – Medir a performance e a adequação de uma tecnologia na resolução de um problema bem definido, simplificado e abstraido. • Avaliação de uso – Medir a usabilidade de uma tecnologia na resolução de um problema real. • Avaliação de impacto – Avaliação de consequências sócio-econômicas de uma tecnologia. • Avaliação de programa – Determinar quanto de benefício um programa de financiamento trouxe para uma dada tecnologia. Junho de 2002 SINTEF 7 Avaliações conjuntas realizadas • • • • • • ATIS MUC TREC SUMMAC DUC CLEF • • • • • • ARC GRACE Morpholympics Senseval/Romanseval Parseval NTCIR http://cgi.portugues.mct.pt/aval_conjunta/outras_aval_conj.html Junho de 2002 SINTEF 8 ATIS - Air Travel Information System • Duração: de 1989 a 1995. • Tarefa: Responder a perguntas faladas pelo usuário sobre determinado domínio (Informação sobre linhas aéreas). • Com a intenção de criar uma medida repetível em um sistema de trocas de mensagens faladas e, assim, interativo, foi criado um paradigma de avaliação baseado em dados pré-gravados. • A portabilidade dos sistemas de compreensão de línguas não avaliada. – Não estava claro como desenvolver ferramentas robustas que permitiriam a rápida construção destes tipos de sistemas em novos domínios Junho de 2002 SINTEF 9 MUC - Message Understanding Conference • Duração: 1987 a 1998. • Tarefa: Simulação de um analista do serviço de inteligência procurando informações a respeito de um tópico particular. – Ex: Atividades terroristas nas Américas. • Inicialmente utilizou um corpus contendo mensagens da Marinha dos EUA e depois evoluiu para textos jornalísticos e em vários domínios, incluindo em outras línguas. • Avaliação baseada em preenchimento de gabaritos (templates) – Identificação de entidades citadas: pessoa, organização, localização, tempo, data, percentuais e expressões monetárias. – Template elements: uma lista de entidades com seus atributos associados, tais como formas alternativas de um nome. – Identificação de coreferência: ligar as várias menções da mesma entidade. Junho de 2002 SINTEF 10 TREC - Text REtrieval Conference • Início: 1992 • Tarefas principais: – Routing: Mesmas questões perguntadas a uma base de dados dinâmica. – Ad hoc: Novas questões são perguntadas a uma base de dados estática. • Os dados usados atualmente nesta avaliação consiste de 2 Gb de textos: – Contendo entre 500.000 e 1.000.000 de documentos completos – Formado principalmente de textos jornalísticos e de agências de notícias. – Também possui documentos oficiais e resumos de artigos sobre computação. Junho de 2002 SINTEF 11 Julgamentos de Relevância nas TRECs • Método de pooling: – Os participantes enviam para cada tópico uma lista contendo os 100 primeiros documentos encontrados, ordenados por relevância. – Reúne-se por tópico todas as respostas enviadas e remove-se as duplicações. – Cada lista resultante por tópico é levada para um analista humano para que este decida sobre a relevância de tais documentos para o tópico em questão. • A lista final do método de pooling será considerada a resposta correta. Junho de 2002 SINTEF 12 SUMMAC - TIPSTER Text Summarization Evaluation • Início: 1997 • Tarefas principais: – Ad hoc • Criação de sumários indicativos e focados no usuário para um tópico particular. • Determinar se estes sumários são efetivos na determinação da relevância de texto fonte completo para um dado tópico. – Categorização • Criação de sumários genéricos • Determinar se estes sumários são efetivos na captura de qualquer informação no documento fonte que permita corretamente categorizar este documento. • Os dados usados são das TRECs. Junho de 2002 SINTEF 13 DUC - Document Understanding Conference • Início: 2001 • Tarefas principais: – Sumário individual: Produzir um resumo de 100 palavras para cada documento; – Sumário de um conjunto de documentos: Produzir quatro sumários com taxas de compressão diferentes (400, 200, 100 e 50 palavras) para conjuntos de 10 documentos (em média) discutindo o mesmo “conceito”. • Os dados utilizados vieram da TREC-9 (question-answering track). Junho de 2002 SINTEF 14 Criação de Sumários por Humanos Traduzido de http://www-nlpir.nist.gov/projects/duc/duc2001/pauls_slides/sld008.htm A B Documentos A: Sumários individuais C Sumários coletivos Ler os documentos em papel. B: Criar um sumário de 100 palavras para cada documento usando a perspectiva do autor do documento. C: 400 D Criar um sumário de 400 palavras a partir de um conjunto de 10 documentos escritos na forma de um relatório para um leitor adulto de jornais. 200 D,E,F: 100 Recortar, colar e reformular para reduzir o tamanho do sumário pela metade. Junho de 2002 SINTEF E F 50 15 CLEF - Cross-Language Evaluation Forum • Iniciada como uma das tarefas secundárias na TREC-6, tornou-se uma iniciativa independente em 2000. • Objetivos: – Auxiliar a avaliação de sistemas em recuperação translinguística de informação (cross-language retrieval) – Encorajar o desenvolvimento de estratégias e ferramentas para a recuperação monolíngue de informação (não baseada no Inglês). – Atrair mais participantes europeus para este tipo de tarefa de avaliação • A coleção de teste consiste em conjuntos de documentos em diferentes línguas européias mas com características similares (mesmo gênero e período de tempo, conteúdos comparáveis) • Possui uma organização distribuída com os vários grupos participantes fornecendo o conhecimento para cada língua individualmente. Junho de 2002 SINTEF 16 ARC - Actions de Recherche Concertées • Início: 1994 • Possui 7 tarefas de controle organizadas como segue: – Linguística, Informática e Corpora escritos (ILEC) • Recuperação de Informação • Alinhamento de corpus bi e multilíngues • Construção automática de terminologia e de relações semânticas a partir de corpora • Compreensão de textos – Linguística, Informática e Corpora orais (ILOR) • Ditado vocal • Diálogo oral • Síntese de fala • Cada tarefa de controle possui a mesma estrutura organizacional – Um avaliador encarregado do gerenciamento, um comitê científico cujos membros são os participantes, um ou mais fornecedores de corpus e os participantes. Junho de 2002 SINTEF 17 GRACE - Grammaires & Ressources pour les Analyseurs de Corpus & leur Évaluation • Início: 1995 • Objetivos iniciais: – Etiquetadores morfossintáticos para o francês; – Analisadores sintáticos para francês (abandonado) • Corpus de treinamento – Tamanho em torno de 10 milhões de palavras; – Distribuido entre trabalhos literários e artigos jornalísticos. Junho de 2002 SINTEF 18 Senseval/Romanseval • Início: 1998 • A meta do Senseval é avaliar sistemas de desambiguação de sentidos com respeito a diferentes palavras, diferentes variantes de uma língua e a diferentes línguas. • A meta do Romanseval é similar a do Senseval mas voltada para línguas românicas (francês e italiano). • Os sistemas foram avaliados nas tarefas abaixo envolvendo holandês, tcheco, basco, estoniano, italiano, coreano, espanhol, sueco, japonês e inglês. – Todas palavras: avaliação sobre quase todas as palavras de conteúdo em uma amostra de textos. – Amostra lexical: primeiro amostra-se o léxico, em seguida encontram-se instâncias no contexto das palavras amostradas e a avaliação procede somente sobre estas instâncias. – Tradução: Sentidos correspondentes em distintas traduções de uma palavra em uma outra língua. Junho de 2002 SINTEF 19 Parseval • A disponibilidade de um corpora anotado (Penn Treebank) levou à sua criação. • A idéia chave consistiu em fornecer uma representação sintática simples baseada em constituintes porém com neutralidade teórica. • A avaliação separada em uma avaliação de "bracketings" para cada sentença e também na etiquetagem consistente de constituintes. • A disponibilidade de dados cria um padrão de facto e assim os pesquisadores podem comparar resultados em diversas abordagens e, dentro de certos limites, cruzando diferentes teorias linguísticas. Junho de 2002 SINTEF 20 NTCIR - NII-NACSIS Test Collection for IR Systems • Início: 1998 • Projetado para fomentar a pesquisa em recuperação de informação e outras tecnologias de processamento de texto (sumarização e extração) para o japonês e outras línguas asiáticas. • Fortemente baseada no modelo das TRECs • Tarefas: – Recuperação de informação em textos em chinês. – Recuperação de informação em textos em japonês e inglês. – Sumarização de textos: sumarização de artigos japoneses de vários tipos Junho de 2002 SINTEF 21