R3M
Uma participação minimalista no
Segundo HAREM
Cristina Mota Linguateca
Encontro do Segundo HAREM
Aveiro, 7 de Setembro de 2008
1
Objectivo inicial
Classificação de PESSOA, ORGANIZACAO e LOCAL
Resultado final
Identificação de tudo excepto TEMPO e VALOR
2
Melhorar um sistema de REM baseado em aprendizagem
semi-supervisionada
3
Dados etiquetados mínimos
Treinar com poucos dados
Porquê minimalista?
Melhor é melhor que mais
Collins & Singer (1999)
Sistema de Base
Ideia inicial a melhorar baseada em Mota & Grishman (2008)
NooJ
(Silberztein, 2004)
→ JET
(Grishman,1999-2006)
Classificar P O L→ Classificar P O L e outro
 → Módulo de selecção
Collins & Singer (1999)
Sementes EM → Sementes EM + contexto
Sistema R3M
O que precisava de ser melhorado ou adaptado?
Atomizador
Segmentador de frases
Consultador de dicionário
Etiquetador morfo-sintáctico (HMM)
Etiquetador de EM
Analisador de grupos nominais
Analisador sintáctico
Analisador sintáctico estatístico
Reconhecedor de padrões
Resolvedor de referências
Sistema R3M
Ferramentas do JET – Java Extraction Toolkit
Dicionários:
Cargos (106) e formas de tratamento (59) disponibilizados pela
organização do HAREM
Palavras de ligação extraídas de
um fragmento do CETEMPúblico (8112)
dicionário de português integrado no NooJ (Barreiro, 2007)
Palavras em maiúsculas da Colecção do Segundo HAREM (10050)
Sistema R3M
Recursos portugueses
Padrões:
Conjunto de padrões para delimitação de candidatos a EM
Conjunto de padrões para identificação do contexto envolvente da EM
Material de treino:
Floresta sintáctica (Afonso et al., 2001), para treino de analisador morfosintáctico
Colecções dourada e HAREM do Primeiro HAREM, para treino do
classificador de EM
Colecção dourada do Mini-HAREM, para teste do classificador de EM
Sistema R3M
Recursos portugueses
Resultados
Resultados
Resultados
 Contrariamente à nossa posição no Primeiro HAREM, optámos por
seguir as regras do jogo
 Tirámos partido de ferramentas “genéricas” testadas em inglês , criando
ou usando recursos portugueses
 Usámos recursos mínimos
 Obtivémos uma pontuação competitiva sem classificação
 Anotação da CD do Primeiro HAREM não era 100% compatível com o Segundo
HAREM
 Teste e validação com programas de avaliação do Primeiro HAREM poderia ser
enganador
O que teria acontecido
se o classificador e o Murphy não se tivessem encontrado?
Comentários finais

A Linguateca e o HAREM são financiados
através do contrato nº 339/1.3/C/NAC,
financiado pelo governo português e pela
União Europeia, e executado pela FCCN.
Agradecimentos
12