R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008 1 Objectivo inicial Classificação de PESSOA, ORGANIZACAO e LOCAL Resultado final Identificação de tudo excepto TEMPO e VALOR 2 Melhorar um sistema de REM baseado em aprendizagem semi-supervisionada 3 Dados etiquetados mínimos Treinar com poucos dados Porquê minimalista? Melhor é melhor que mais Collins & Singer (1999) Sistema de Base Ideia inicial a melhorar baseada em Mota & Grishman (2008) NooJ (Silberztein, 2004) → JET (Grishman,1999-2006) Classificar P O L→ Classificar P O L e outro → Módulo de selecção Collins & Singer (1999) Sementes EM → Sementes EM + contexto Sistema R3M O que precisava de ser melhorado ou adaptado? Atomizador Segmentador de frases Consultador de dicionário Etiquetador morfo-sintáctico (HMM) Etiquetador de EM Analisador de grupos nominais Analisador sintáctico Analisador sintáctico estatístico Reconhecedor de padrões Resolvedor de referências Sistema R3M Ferramentas do JET – Java Extraction Toolkit Dicionários: Cargos (106) e formas de tratamento (59) disponibilizados pela organização do HAREM Palavras de ligação extraídas de um fragmento do CETEMPúblico (8112) dicionário de português integrado no NooJ (Barreiro, 2007) Palavras em maiúsculas da Colecção do Segundo HAREM (10050) Sistema R3M Recursos portugueses Padrões: Conjunto de padrões para delimitação de candidatos a EM Conjunto de padrões para identificação do contexto envolvente da EM Material de treino: Floresta sintáctica (Afonso et al., 2001), para treino de analisador morfosintáctico Colecções dourada e HAREM do Primeiro HAREM, para treino do classificador de EM Colecção dourada do Mini-HAREM, para teste do classificador de EM Sistema R3M Recursos portugueses Resultados Resultados Resultados Contrariamente à nossa posição no Primeiro HAREM, optámos por seguir as regras do jogo Tirámos partido de ferramentas “genéricas” testadas em inglês , criando ou usando recursos portugueses Usámos recursos mínimos Obtivémos uma pontuação competitiva sem classificação Anotação da CD do Primeiro HAREM não era 100% compatível com o Segundo HAREM Teste e validação com programas de avaliação do Primeiro HAREM poderia ser enganador O que teria acontecido se o classificador e o Murphy não se tivessem encontrado? Comentários finais A Linguateca e o HAREM são financiados através do contrato nº 339/1.3/C/NAC, financiado pelo governo português e pela União Europeia, e executado pela FCCN. Agradecimentos 12