A Statistical Profile of the Named Entity Task David D. Palmer & David S. Day The MITRE Corporation Por Cristina Mota Palmer, David D. & David S. Day (1997). "A Statistical Profile of the Named Entity Task", in Proceedings of the Fifth ACL Conference for Applied Natural Language Processing (ANLP-97), (Washington D.C., 1997), pp. 190-193. Objectivos Apresentar um perfil estatístico da tarefa de REM com base em corpora disponíveis para diversas línguas Propor um algoritmo para estimar um limite inferior para REM Discutir o significado das comparações entre línguas feitas com base nessa análise Caracterização de REM Sub-tarefa de Extracção de Informação (EI) Identificar e categorizar diferentes expressões em texto • ENAMEX, TIMEX, NUMEX (MUC-6) Produzir informação útil para outras tarefas de EI (co-referencia e preenchimento de templates) Avaliação feita com base em Abragência, Precisão e Medida-F Caracterização de REM Desempenho humano elevado na ordem dos 96% [Sundheim, 1995] No caso do inglês, desempenho dos sistemas próximo do humano em virtude de anos de investigação e avaliações conjuntas Não é claro o que é que tem de ser adaptado para que os sistemas funcionem com outras línguas Desconhece-se o desempenho dos melhores sistemas se as propriedades dos textos variarem (passarem a ter apenas um dos tipos de letras, não terem origem em notícias, etc.) Pouca discussão quer sobre o significado linguístico da actividade de REM, quer sobre que quantidade de informação linguística é necessária para poder fazer essa avaliação Caracterização de REM Para qualquer actividade de PLN deve ser estabelecido uma medida de desempenho mínimo Estabelecem um sistema que analisa 6 corpora de diferentes línguas baseado apenas nas sequências de caracteres, sem recorrer a conhecimento linguístico específico da língua O desempenho desse sistema mínimo pode ser usado como ponto de partida para comparar com outros sistemas Definição da tarefa de REM de acordo com MUC-6 e MET Os corpora Constituição Colecção de artigos de jornal Nenhum artigo é a tradução de outro Muito homogéneo Comunicados de imprensa, MAS de várias edições mensais Grande variedade de artigos de uma única edição MET MUC-6 MET MET Comunicados de imprensa Estas diferenças ilustram diversas dificuldades de análise nas diferentes línguas Os corpora Dimensão Línguas europeias: Token Sequência de caracteres delimitada por espaço A “capitalização” foi ignorada Japonês: Segmentador NEWJUMAN Chinês: Segmentador Universidade do Novo México Os corpora Entidades mencionadas [NUMEX and TIMEX] Correspondem a 20-30% das EMs Mais fáceis de reconhecer Apenas 5 padrões foram suficientes para reconhecer praticamente todas as NUMEX Com pequena lista de palavras que ocorrem em expressões temporais definiram, em poucas horas, cerca de 30 padrões (por língua) que reconhecem cerca de 95% das TIMEX Tarefa simples, portanto passam a analisar apenas as ENAMEX, o que se veio a mostrar tarefa significativamente mais complexa Os corpora Entidades mencionadas [ENAMEX] A ocorrência média é baixa (sobretudo quando comparada com a do vocabulário), o que indica que há muitos padrões pouco frequentes Há muitas expressões que são muito frequentes Chinês: 2156 LOC, 20% China Os corpora Entidades mencionadas [ENAMEX] Gráfico da percentagem acumulativa apresenta forma igual para todas as línguas, embora apresente uma taxa de crescimento diferente Os corpora Entidades mencionadas [ENAMEX] De acordo com a Lei de Zipf - Uma percentagem significativa das expressões podem ser representadas por um pequeno conjunto de expressões muito frequentes - Na cauda da curva,uma percentagem não trivial é muito infrequente, podendo não ocorrer em mais nenhum corpus de treino Os corpora Entidades mencionadas [ENAMEX] A proporção entre as 3 sub-categorias de ENAMEX varia muito entre línguas As sub-categorias foram tratadas como equivalentes Treino e Ambiguidade Quão bom pode ser o desempenho se apenas memorizar as ENAMEX do corpus de treino? Taxa de transferência de vocabulário Percentagem das expressões que ocorrem no corpus de treino que também ocorrem no corpus de teste Divisão aleatória dos corpora em corpora de treino e teste Os corpora de teste ficam com cerca de 450 ENAMEX cada; as restantes constituem os corpora de teste Contar as expressões que ocorrem no corpus de treino e ver quantas dessas ocorrem também no corpus de teste Em certa medida, construir uma lista a partir de um corpus de treino permite obter um desempenho razoável Treino e Ambiguidade Treino e Ambiguidade A taxa de transferência de vocabulário para as palavras mais frequentes é elevada MAS decresce rapidamente, deixando uma grande parte das expressões não cobertas pelos expressões do corpus de treino Essas expressões “descobertas” não podem ser analisadas por memorização Treino e Ambiguidade Problemas de ambiguidade Uma expressão pode ter mais do que uma categoria ou fazer parte de outra expressão maior Uma sequência pode ser analisada tanto como uma expressão como uma não-expressão Se isso acontecer, a precisão diminui Esse tipo de erros não contabilizado Estimar o Limite Inferior Qualquer sistema deve conseguir identificar uma grande percentagem de TIMEX e NUMEX (95%) Relativamente a ENAMEX ((NNUMEX+NTIMEX)*α) + (NENAMEX*TENAMEX) α = 0.95 (resultante da experiência) Ncat = Percentagem the EMs representadas por categoria (Tab. 3) TENAMEX= Transferência de vocabulário para ENAMEX (Fig.2) Discussão Os limites inferiores foram surpreendemente altos, indicando que com sistemas simples se consegue abrangência elevada para algumas línguas A variação na gama de valores pode ser parcialmente atribuída às diferenças de construção dos corpora, o que ilustra as grandes diferencas de valor de classificação de um corpus para outro Não é necessário conhecimento linguístico profundo para aumentar a classificação do sistema, bastará introduzir regras de contexto local Avanços incrementais podem sem morosos e muito dependentes da língua A análise mostrou haver muitas diferenças entre línguas para a tarefa de EN Uma vez que os limites inferiores vão depender da língua e dos corpora, classificações idênticas podem não ser necessariamente comparáveis