Avaliação de análise sintáctica
Caroline Hagège
(Xerox Research Centre Europe, Grenoble – France)
Caroline.Hagege@xrce.xerox.com
Avaliação de análises sintácticas
• Generalidades
• Avaliação do desempenho
Metodologia para a avalição do desempenho
3 níveis de informação (formato, representação e conteúdo)
- Parentetização e métrica Parseval
- Alternativas na parentetização
- Parentetização e distância de edição
- Representação em dependências ou relações
gramaticais
• Questões em aberto
Generalidades
3 tipos de avalição
• Avaliação de adequação
• Avalição diagnóstica (testes de não-regressão)
Noção de cobertura de um sistema
Criação de “test-suites”
• Avaliação do desempenho
Testes de não-regressão
Finalidade: Avaliar e verificar a cobertura de um sistema
 criação de “test-suites”
Criar um conjunto de pequenas tarefas (na prática um conjunto de
frases contendo fenómenos linguísticos diversos e verificar:
•
Se o analisador pode cumprir estas pequenas tarefas
•
Como o analisador evolui no cumprimento destas tarefas
Testes de não-regressão (2)
Interesses
Para quem desenvolve um analisador sintáctico:
Verificar que a criação de novas funcionalidades não vai
danificar o comportamento do analisador
Mas
As test-suites criadas artificialmente reflectem os fenómenos
tomados um a um e não dão necessarimente conta da
sobreposição de vários fenómenos sintácticos
Avaliação do desempenho
Ou: qual é o desempenho dum sistema que faz análise
sintáctica ?
COMO ?
COMPARANDO uma análise feita por um analisador (de um texto
que não foi visto anteriormente) com uma referência (o mesmo
texto inicial, anotado manualmente e, idealmente, por consenso de
vários anotadores humanos).
• Constituição da referência
• Medidas utilizadas
A constituição da referência
Que referência ?
•
•
•
Formato
Tipo de representação linguística
Conteúdo informativo
Formato
Trata de questões como:
Uso, ou não, de XML,
Representação horizontal ou vertical,
etc.
Nenhuma decisão a este nível impede que se chegue facilmente a
um consenso...
Representações e métricas
- Fortemente ligadas
- Duas grandes correntes nas representações de análises
sintácticas
•
•
Análise gramatical em constituinte representada sob a
forma de listas parentetizadas (etiquetadas ou não)
Análise sintáctica em dependências
Parentetização sintáctica e
medidas
•
•
Parentetização sintáctica e métrica “Parseval”
Parentetização sintáctica e medida da distância de edição
Métrica Parseval (Parseval 1991)
Precisão, Recall, F-Measure (Medida-F) e Crossing Brackets
(Parêntesis cruzados)
Métrica Parseval (1)
Dp : conjunto dos sintagmas encontrados pelo analisador
Dr : conjunto dos sintagmas encontrados na referência
Precisão = | Dp  Dr | / | Dp |
Recall = | Dp  Dr | / | Dr |
F-measure = 2PR/P+R
Cb : Número de pares (i,j) com índice i do primeiro segmento do
sintagma e índice j do último segmento do sintagma na saída do
analisador para o qual existe um par (i’,j’) representando um
sintagma na referência tal que:
i’< i  j’ < j
Métrica Parseval (2)
EXEMPLO
Referência
[ [ [O amigo] [ do [ Pedro] ] ] [ chegou ]]
Resultado do analisador1
[ [ O [ amigo do ] Pedro] [chegou] ]
75% Precisão, 1 CB e 50% Recall ( 60% de F-measure)
Resultado do analisador2
[ O amigo do Pedro chegou ]
100% Precisão e 0 CB mas 17% Recall (29% de F-measure)
Métrica Parseval (3)
PROBLEMAS
Penalização múltipla do mesmo erro
Um só erro de attachment de SP pode dar origem a vários CB.
(Lin 95, Kübler & Telljohann 02 & Bangalore 98)
Análises superficiais acabam por ser menos penalizadas do que as
análises que tentem resolver problemas de attachment.
Métrica/Representação alternativas para a
análise em constituinte
ALTERNATIVA de Gaizauskas (Gaizauskas et al. 98)
Para uma avaliação contrastiva
•
Utilização duma parentetização menos “profunda”
•
Medidas em termo de recall e conformance (proporção de
de constituintes da referência que não são “atravessados”
por constituintes encontrados na resposta).
Medida da distância de edição para a
análise em constituinte
Medida da distância de edição (String edit distance)
Sampson & Babarczy 2002, Roark 2002
Métrica alternativa para análise em constituinte que:
• Resolve os problemas da métrica Parseval
• Parece corresponder melhor às intuições linguísticas
Parentetização está codificada como uma string.
Calcular a distância de edição entre uma string correspondente
ao corpus anotado e uma string correspondente à saída do
analisador.
Distância de edição e similaridade
Cálculo do custo mínimo das operações de:
apagamento, inserção e troca para transformar uma sequência
noutra sequência com póssivel ponderação dos diferentes custos.
Similaridade entre duas seq. a (proveniente do analisador) e r
(proveniente da referência)
1 – ( DE(a,r) / (len(a )+ len(r)) )
Distância de edição (2)
EXEMPLO
Ref.
[S [N1 Two [N1 tax revision] bills] were passed ]
Analisador [S [NP Two tax revision bills] were passed ]
Two
Tax
Revision
Bills
Were
Passed
N1 [ S
[ N1 N1 S
N1 ] N1 S
N1 ] S
S
S]
; NP [ S
; NP S
; NP S
; NP ] S
;S
;S]
custo: 1 troca
custo: 1 troca e 2 insercoes
custo: 1 troca e 2 insercoes
custo: 1 troca
custo: 0
custo: 0
Análise sintáctica em dependência
LIN 95
Reação aos modos de reprensentação em constituintes
associadas à métrica Parseval
Conversão da análise em constituinte num conjunto de relações de
dependência.
Cada relação mostrando:
modificador, modificado e opcionalmente uma etiquetagem da
relação.
Métrica utilizada: Precisão e Recall
Análise sintáctica em relações gramaticais
Carroll et al. 1998, 2000
Definição de um conjunto de relações hierárquicas gramaticais.
A relação mais geral sendo:
Dependência (introdutor, cabeça, dependente)
Métrica utilizada: Precisão e Recall.
Conteúdo informativo dum esquema para
anotação e avaliação
Muitas questões em aberto...
Que constituintes considerar numa anotação em constituintes ?
Como etiquetar relações de dependência ?
Que fazer quando não existe consenso entre anotadores ?
Resumindo…
Que representação linguística e que métrica ?
Dependência ?
Seguir ou não o princípio da projectividade ?
Representação em constituintes ?
Como conseguir evitar os problemas ligados às métricas utilizadas
correntemente ?
Avaliação contrastiva ?
Encontrar uma representação que subsume todas as saídas dos
analisadores e a referência, minimizando o risco de perder informação
pertinente.
Resumindo…
Que conteúdo linguístico ?
Dependências:
Como conseguir abstrair a análise em dependências de escolhas prévias
(POS tagging) para não penalizar o que não é proveniente da análise
sintáctica ?
Como comparar analisadores quando a tokenização de referência e do
analisador não são idênticas ?
Que tipo de fenómenos sintácticos são de esperar (sintaxe profunda
com fenómenos de controlo, topicalizações, etc.)
Download

ppt - Linguateca