How to Keep up with
Language Dynamics?
A case study on Named Entity Recognition
Plano de Tese
6 de Maio 2005
Cristina Mota
Instituto Superior Técnico
L2F Inesc-ID
New York University
Supervisors
Ralph Grishman, New York University
Nuno Mamede, L2F Inesc-ID/IST
Objectivos
Estudar a influência da evolução da língua no desempenho dos
sistemas de Processamento de Língua Natural (PLN)
Objecto de estudo:
Actividade de PLN:
Textos jornalísticos portugueses
Reconhecimento de Entidades Mencionadas (REM)
1 – Avaliar de que forma varia o desempenho de um sistema face a textos
com referenciais temporais diferentes
2 – Propor métodos robustos que não só evitem a degradação no
desempenho de um sistema, mas também o melhorem
Objectivos
•
Estudar como é que as entidades mencionadas variam ao longo do tempo,
bem como o contexto (sintáctico) em que estão inseridas
•
Identificar factores que localizem um texto temporalmente e que permitam
comparar temporalmente dois textos
•
Identificar e caracterizar os módulos que o sistema deve ter, e a forma como
devem estar organizados
 Conceber uma arquitectura genérica
•
Propor mecanismos que permitam melhorar e configurar de forma automática
o sistema e recursos associados
 Encontrar métricas que permitam guiar a selecção de recursos
apropriados à análise de um determinado texto (por exemplo, maior
distância temporal que deve existir entre dois textos)
•
Construir um sistema tendo em conta estes factores
Objectivos
•
Responder a questões como:
– De que forma varia o desempenho face a alterações temporais dos
textos?
– Serão os corpora de um período de tempo adequados para aquisição
de conhecimento (lexical, sintáctico, etc.) que será usado por sistemas
que irão analisar textos de outro período de tempo?
– Qual deverá ser a proximidade temporal entre os corpora de
treino/desenvolvimento/teste e os textos a analisar?
– Existirão elementos no texto (e.g., datas, eventos, advérbios…) que
ajudem a caracterizar a referência temporal de um texto?
– Será possível o sistema auto-adaptar-se a variações no tempo?
Motivação [Génese]
“There were important differences in the makeup of these individual corpora that
affected this analysis. The French corpus, for example, contained a wide range of
articles from a single issue of Le Monde, so the topics of the articles ranged from world
politics to the Paris fashion scene. The articles in the English and Spanish corpora
were specifically selected (by the MUC-6 and MET evaluation organizers) because they
contained references to press conferences. While the content was more
homogeneous in the English corpus, the articles were nevertheless drawn from a
range of several months of the Wall Street Journal, so the specific topics (and
constituent Named Entities) were very diverse. The Chinese Xinhua corpus was, in
contrast, extremely homogeneous. These differences demonstrate a number of
difficulties presented by corpora in different languages.” (Palmer&Day, 1997)
“What such lexicons lack is a dymanic view of language; they are inevitably
fossilised intuitions. To use a well known example: dictionaries od English normally
tell you that the first, or main, sende of “television” is a technology or a TV set, although
it is mainly used now to mean the medium itself. It is this kind of evidence that shows
that, for tasks like IE, lexicons must be adapted or “tuned” to the texts being
analysed which can led to a new, more creative wave in IE research: the need not
just to use large textual and lexical resources, but to adapt them as automatically
as possible, to enable them to adapt to new domains and corpora, which will mean
dealing with obsolescence and with the specialised vocabulary of a domain not
encountered before.” (Gaizauskas&Wilks, 1997)
Motivação [Porquê REM?]
O que é uma Entidade Mencionada?
PeTA contra J. Lo
Activistas da PeTA (uma associação de defesa dos direitos dos
animais) protestam contra Jennifer Lopez em frente aos estúdios da
MTV, na Times Square, em Nova Iorque. A PeTA está contra a
utilização de peles nas colecções de moda da cantora.
(Edição Online do Público, 3 de Maio de 2005)
O que é Reconhecimento de Entidades Mencionadas?
PeTA contra J. Lo
Activistas da PeTA (uma associação de defesa dos direitos dos
animais) protestam contra Jennifer Lopez em frente aos estúdios da
MTV, na Times Square, em Nova Iorque. A PeTA está contra a
utilização de peles nas colecções de moda da cantora.
(Edição Online do Público, 3 de Maio de 2005)
Identificação
Classificação
Co-referência
Motivação [Porquê REM?]
Porquê Reconhecimento de Entidades Mencionadas?
Do ponto de vista linguístico, apesar de serem objectos linguísticos muito
diversificados, estão pouco estudadas, não havendo critérios que as permitam
identificar nem classificar
Gramática (Mateus et al., 2003)
 Define apenas antropónimos e topónimos
Entidade colectivas? Obras? Monumentos? ...
 Quanto a propriedades linguísticas refere, por exemplo, que os topónimos
podem ser precedidos por artigo definido (o Brasil, os Himalaias), embora
haja muitas excepções para os nomes de países (*a Angola, *o Portugal),
e nomes de cidades (*a Lisboa, *o Setúbal), os quais só aceitam se
tiverem origem em nomes comuns (o Porto, a Figueira da Foz)
*a Vila Real; *as Chaves, *o Castelo Branco ?
o Estoril, a Nazaré ?
Motivação [Porquê REM?]
Porquê Reconhecimento de Entidades Mencionadas?
Do ponto de vista computacional, o processamento destas unidades levanta
problemas diversos
- Apenas os diminutivos dos antropónimos podem ser reconhecidos por
analisadores morfológicos
- Mesmo os que são reconhecidos recebem informações incorrectas
(*Celeste/ADJ, *Ovar/V, *Chaves/N:fp)
- São muitas vezes unidades lexicais multi-palavra (Mariana Rey Colaço,
Vila Real de Santo António, Banco de Portugal)
- Muitos nomes estrangeiros aparecem em textos portugueses (Aix en
Provence, Greenwich Village, Juan Carlos, Charles de Gaulle, Sun
Microsystems, Credit Lyonnais)
- Podem incluir números e outros caracteres não-alfabéticos (Banco Totta
& Açores, Boeing 747, Cine 222, PPD/PSD)
Motivação [Porquê REM?]
Porquê Reconhecimento de Entidades Mencionadas?
Do ponto de vista diacrónico, as EMs que ocorrem num texto dependem não só
da altura em que foi escrito, mas também do período de tempo a que diz respeito
República Federal Alemã (RFA)
Alemanha
vs.
República Democrática Alemã (RDA)
Bush
George W. Bush ?
George Bush ?
Durão Barroso
José Manuel Barroso
Motivação [Pequena experiência]
120
100
80
Comunidade
Europeia
União Europeia
60
40
20
98
a
97
a
96
a
95
a
94
a
93
a
92
a
0
Parte01 do CETEMPublico (Rocha&Santos, 2000)
Motivação [Aplicações]
Sistemas de Pergunta&Resposta
 Greenwood&Gaizauskas (2003) melhoraram o desempenho de um
sistema por terem integrado um módulo de REM
Sumarização
 Numa avaliação conjunta, Nobata et al. (2003) obtiveram os
melhores resultados em termos de organização e coesão do texto
Expectativas
Contribuir para o desenvolvimento de sistemas de PLN mais robustos
Mostrando que o tempo também é um factor a considerar no desenho de
sistemas e na concepção de recursos
Estabelecendo princípios de organização de sistemas e recursos que
tenham em conta esse factor
Contribuir para um maior conhecimento linguístico sobre as EMs
Estabelecendo
classificação
classes,
definindo
critérios
de
identificação
e
Desenvolver um sistema de REM (para o Português) com base nesses
princípios
Produzir
recursos
linguísticos
temporalmente
organizados
(almanaques, corpora anotados, léxicos subcategorizados) que possam
ser integrados noutras aplicações de PLN
Plano
 Definição e caracterização das classes de EMs a tratar
Individual
GrupoInd
Cargo
CargoInd
Membro
MembroInd
OBRA
PESSOA
LOCAL
Classificação
Quantidade
Moeda
VALOR
ORGANIZACAO
TEMPO
COISA
ABSTRACCAO
Correio
Administrativo
Geográfico
Virtual
Alargado
Morfologia
Hora
Período
Cíclico
Data
Administração
Empresa
Instituição
Sub
Plano
 Reutilização de um sistema de REM, integrando as novas definições
Módulo baseado em gramáticas que descrevem evidências internas e
externas de acordo com a definição de (McDonald, 1996). Não usa
almanaques, nem informações linguísticas. Desenvolvido no (e aplicado
pelo) sistema INTEX (Silberztein, 1993).
STENCIL
Gramáticas que descrevem evidências internas e externas
Léxicos sub-categorizados
Ontologia?
Desenvolvido no (e aplicado pelo) sistema NooJ (Silberztein, 2003)
Plano
 Construção e anotação de um corpus de trabalho
 Estudo das entidades mencionadas ao longo do tempo e identificação de
conhecimento independente do tempo
 Integração do novo conhecimento no classificador
 Avaliação
Discussão
Qual a arquitectura de base?
Fará sentido condicionar à partida a arquitectura do sistema?
Com base em que critérios?
Será melhor observar e comparar o desempenho de outros sistemas?
Talvez pudesse usar os sistemas participantes no Harem...
Que etiquetas usar?
Trabalhar num sub-conjunto das etiquetas do Harem?
Definir em função dos corpora que tiver disponíveis?
Que corpora escolher? Como organizá-los?
O CETEMPublico vai de 1992 a 1998. Precisarei de um período mais alargado?
Apenas sobre a componente do tempo, ou também em relação ao domínio, subtópico, autor, ...?
Obter textos de outros jornais nacionais relativos ao mesmo período de tempo?
Discussão
Como obter corpora anotados suficientemante alargados no tempo para
que os resultados tenham significado?
Devia ter um corpus anotado independentemente?
Talvez o sistema vencedor do Harem pudesse anotar os meus corpora, de
modo a que eu pudesse avaliar os resultados. Como garantir, nesse caso, que
o sistema não vai ficar "biased" com esse sistema?
Que métodos aplicar?
O sistema deverá ser adaptativo, possuindo, por exemplo, mecanimos de autoconfiguração que seleccionem os recursos adequados a um determinado texto.
Ou não deverá depender de recursos?
Será possível criar um sistema de aprendizagem não supervisionado?
De modo a poder confirmar a minha hipótese, penso que tenho de comparar
diferentes tipos de aprendizagem.
Como fazer a avaliação?
Avaliação em relação a um corpus de referência, nomeadamente a CD?
Avaliação comparativa com outros sistemas?
Critérios de Sucesso
Verificação da hipótese!
Integração do sistema em aplicações mais complexas
Sistema de Legendagem de Notícias
Reutilização dos recursos por outros sistemas
Bibliografia
•
•
•
•
•
•
•
•
•
•
Gaizauskas, R. and Y. Wilks, 1997. Information Extraction: Beyond Document Retrieval.
Technical report CS-97-10, Department of Computer Science, University of Sheffield.
Greenwood, M. and R. Gaizauskas, 2003. "Using a Named Entity Tagger to Generalise
Surface Matching Text Patterns for Question Answering", in Proceedings of the Natural
Language Processing for Question Answering Workshop, EACL 03, Budapest.
Mateus, M. Helena, Ana Brito, Inês Duarte e Isabel Hub Faria (eds.), 2003. Gramática da
Língua Portuguesa, 5ª Edição, Editorial Caminho, Lisboa.
McDonald, David D. "Internal and External Evidence in the Identification and Semantic
Categorization of Proper Names", in Boguraev, Branimir & James Pustejowsky. Corpus
Processing for Lexical Acquisition, 1996, The MIT Press, Cambridge, MA & London,
England, pp. 21-39.
Nobata, Chikashi, Satoshi Sekine, Hitoshi Isahara & Ralph Grishman. (2002).
"Summarization System Integrated with Named Entity Tagging and IE pattern Discovery", in
Proceedings of the LREC 2002 Conference, (Las Palmas, 2002), pp. 1742-1745.
Palmer, David D. & David S. Day (1997). "A Statistical Profile of the Named Entity Task", in
Proceedings of the Fifth ACL Conference for Applied Natural Language Processing (ANLP97), (Washington D.C., 1997), pp. 190-193.
Paulo Rocha and Diana Santos. "CETEMPúblico: Um corpus de grandes dimensões de
linguagem jornalística portuguesa", in Maria das Graças Volpe Nunes (ed.), Actas do V
Encontro para o processamento computacional da língua portuguesa escrita e falada
(PROPOR'2000) (Atibaia, São Paulo, Brasil, 19 a 22 de Novembro de 2000), pp. 131-140.
Shinyama, Y. nd S. Sekine (2004). Named Entity Discovery Using Comparable News
Articles, Published in the Proceedings of the 20th International Conference on
Computational Linguistics (COLING-04); 2004, Geneva, Switzerland.
Silberztein, M., 1993. Dictionnaires électroniques et analyse lexicale du français. Le système
INTEX, Paris, Masson.
Wilks, Y., R. Catizone, 1999. Can We Make Information Extraction More Adaptive? In M.
Pazienza (ed.) Proceedings of the SCIE99 Workshop. Springer-Verlag, Berlin. Rome.

Baixar

ppt - Linguateca

defesa

Estudo exploratório de padrões da linguagem legislativa

ppt - Linguateca

Creating parallel and comparable corpora for work in domain

Corpógrafo – presente e futuro

ppt - Linguateca

artigo GEL Ana Julia Perrotti-Garcia

lingüística de corpus – uma entrevista com tony berber sardinha

o vocabulário da língua oral em Portugal e no Brasil

Corpora paralelos: instrumentos auxiliares de pesquisa da

Mesa Redonda Corpora e Ensino

PLANO DE DISCIPLINA - Faculdade de Letras