A Statistical Profile of the
Named Entity Task
David D. Palmer & David S. Day
The MITRE Corporation
Por
Cristina Mota
Palmer, David D. & David S. Day (1997). "A Statistical Profile of the Named Entity Task", in Proceedings of the Fifth ACL
Conference for Applied Natural Language Processing (ANLP-97), (Washington D.C., 1997), pp. 190-193.
Objectivos
 Apresentar um perfil estatístico da tarefa de REM com base em corpora
disponíveis para diversas línguas
 Propor um algoritmo para estimar um limite inferior para REM
 Discutir o significado das comparações entre línguas feitas com base nessa
análise
Caracterização de REM
 Sub-tarefa de Extracção de Informação (EI)
 Identificar e categorizar diferentes expressões em texto
• ENAMEX, TIMEX, NUMEX (MUC-6)
 Produzir informação útil para outras tarefas de EI (co-referencia e
preenchimento de templates)
 Avaliação feita com base em Abragência, Precisão e Medida-F
Caracterização de REM
 Desempenho humano elevado na ordem dos 96% [Sundheim, 1995]
 No caso do inglês, desempenho dos sistemas próximo do humano em virtude
de anos de investigação e avaliações conjuntas
 Não é claro o que é que tem de ser adaptado para que os sistemas
funcionem com outras línguas
 Desconhece-se o desempenho dos melhores sistemas se as propriedades
dos textos variarem (passarem a ter apenas um dos tipos de letras, não
terem origem em notícias, etc.)
 Pouca discussão quer sobre o significado linguístico da actividade de REM,
quer sobre que quantidade de informação linguística é necessária para poder
fazer essa avaliação
Caracterização de REM
Para qualquer actividade de PLN deve ser estabelecido uma medida de
desempenho mínimo
Estabelecem um sistema que analisa 6 corpora de diferentes línguas
baseado apenas nas sequências de caracteres, sem recorrer a
conhecimento linguístico específico da língua
O desempenho desse sistema mínimo pode ser usado como
ponto de partida para comparar com outros sistemas
Definição da tarefa de REM de acordo com MUC-6 e MET
Os corpora
Constituição
 Colecção de artigos de jornal
 Nenhum artigo é a tradução de outro
Muito homogéneo
Comunicados de imprensa,
MAS de várias edições
mensais
Grande variedade de artigos
de uma única edição
MET
MUC-6
MET
MET
Comunicados de imprensa
 Estas diferenças ilustram diversas dificuldades de análise nas diferentes línguas
Os corpora
Dimensão
Línguas europeias:
Token Sequência de caracteres delimitada por espaço
A “capitalização” foi ignorada
Japonês: Segmentador NEWJUMAN
Chinês: Segmentador Universidade do Novo México
Os corpora
Entidades mencionadas [NUMEX and TIMEX]
 Correspondem a 20-30% das EMs
 Mais fáceis de reconhecer
 Apenas 5 padrões foram suficientes para reconhecer
praticamente todas as NUMEX
 Com pequena lista de palavras que ocorrem em expressões
temporais definiram, em poucas horas, cerca de 30 padrões (por
língua) que reconhecem cerca de 95% das TIMEX
 Tarefa simples, portanto passam a analisar apenas as ENAMEX, o que
se veio a mostrar tarefa significativamente mais complexa
Os corpora
Entidades mencionadas [ENAMEX]
 A ocorrência média é baixa (sobretudo quando comparada com
a do vocabulário), o que indica que há muitos padrões pouco
frequentes
 Há muitas expressões que são muito frequentes
Chinês: 2156 LOC, 20% China
Os corpora
Entidades mencionadas [ENAMEX]
 Gráfico da percentagem acumulativa apresenta forma igual para
todas as línguas, embora apresente uma taxa de crescimento
diferente
Os corpora
Entidades mencionadas [ENAMEX]
 De acordo com a Lei de Zipf
- Uma percentagem significativa das expressões podem ser
representadas por um pequeno conjunto de expressões
muito frequentes
- Na cauda da curva,uma percentagem não trivial é muito
infrequente, podendo não ocorrer em mais nenhum corpus
de treino
Os corpora
Entidades mencionadas [ENAMEX]
 A proporção entre as 3 sub-categorias de ENAMEX varia muito
entre línguas
 As sub-categorias foram tratadas como equivalentes
Treino e Ambiguidade
Quão bom pode ser o desempenho
se apenas memorizar as ENAMEX do corpus de treino?
Taxa de transferência de vocabulário Percentagem das expressões que
ocorrem no corpus de treino que também ocorrem no corpus de teste
 Divisão aleatória dos corpora em corpora de treino e teste
 Os corpora de teste ficam com cerca de 450 ENAMEX cada; as restantes
constituem os corpora de teste
 Contar as expressões que ocorrem no corpus de treino e ver quantas
dessas ocorrem também no corpus de teste
Em certa medida, construir uma lista a partir de um corpus de treino
permite obter um desempenho razoável
Treino e Ambiguidade
Treino e Ambiguidade
 A taxa de transferência de vocabulário para as palavras mais
frequentes é elevada
 MAS decresce rapidamente, deixando uma grande parte das
expressões não cobertas pelos expressões do corpus de treino
 Essas expressões “descobertas” não podem ser analisadas por
memorização
Treino e Ambiguidade
Problemas de ambiguidade
 Uma expressão pode ter mais do que uma categoria ou fazer
parte de outra expressão maior
 Uma sequência pode ser analisada tanto como uma expressão
como uma não-expressão
 Se isso acontecer, a precisão diminui
 Esse tipo de erros não contabilizado
Estimar o Limite Inferior
 Qualquer sistema deve conseguir identificar uma grande percentagem de
TIMEX e NUMEX (95%)
 Relativamente a ENAMEX
((NNUMEX+NTIMEX)*α) + (NENAMEX*TENAMEX)
α = 0.95 (resultante da experiência)
Ncat = Percentagem the EMs representadas por categoria (Tab. 3)
TENAMEX= Transferência de vocabulário para ENAMEX (Fig.2)
Discussão
 Os limites inferiores foram surpreendemente altos, indicando que com
sistemas simples se consegue abrangência elevada para algumas línguas
 A variação na gama de valores pode ser parcialmente atribuída às diferenças
de construção dos corpora, o que ilustra as grandes diferencas de valor de
classificação de um corpus para outro
 Não é necessário conhecimento linguístico profundo para aumentar a
classificação do sistema, bastará introduzir regras de contexto local
 Avanços incrementais podem sem morosos e muito dependentes da língua
 A análise mostrou haver muitas diferenças entre línguas para a tarefa de EN
 Uma vez que os limites inferiores vão depender da língua e dos corpora,
classificações idênticas podem não ser necessariamente comparáveis
Download

ppt - Linguateca