Priberam Alameda D. Afonso Henriques, 41 - 2.º Esq. 1000-123 Lisboa, Portugal Tel.: +351 21 781 72 60 / Fax: +351 21 781 72 79 www.flip.pt www.priberam.pt Adaptação do sistema de REM da Priberam ao HAREM Carlos Amaral, Helena Figueira, Afonso Mendes, Pedro Mendes, Cláudia Pinto, Tiago Veiga {cma, hgf, amm, prm, cp, tlv}@priberam.pt SUMÁRIO 1. Importância do REM 2. Descrição do sistema – Adaptação do sistema para o HAREM 3. Análise dos resultados da participação no segundo HAREM – Resultados no HAREM Clássico – Resultados na pista TEMPO 4. Conclusões e trabalho futuro Encontro do Segundo HAREM: Aveiro, 07.09.2008 IMPORTÂNCIA DO REM • Importância do REM para a Priberam: – Correcção sintáctica (FLiP) • Detecção de sequências de palavras como unidades morfossintácticas – Sistemas automáticos de resposta a perguntas • Indexação de textos • Categorização da pergunta • Extracção das respostas – IncogniX (ferramenta para substituição de entidades nos acórdãos do STJ) – Motores de pesquisa (ex.: JN, TSF) Encontro do Segundo HAREM: Aveiro, 07.09.2008 EXEMPLO DE USO DO SISTEMA EM MOTORES DE PESQUISA Encontro do Segundo HAREM: Aveiro, 07.09.2008 DESCRIÇÃO DO SISTEMA • Léxico com classificação morfossintáctica e semântica ex.: árvore s1 [planta lenhosa] N (SING|, FEM|, CART|, DATAN|, VEGETAL|) s2 [estrutura de representação] N(SING|, FEM|, CART|, DATAN|, ABSTR|CONCR) s3 [eixo, veio] N(SING|, FEM|, CART|, DATAN|, CONCR|, Pde|) • Regras contextuais, que permitem: – Atribuição de valores morfológicos e semânticos a sequências de tokens ex.: Pal(secretaria) Pal(de) Pal(estado) = N Pal(às) Pal(primeiras) Pal(horas) Pal(de) Cat(N(DIASEMANA)) = ADV Cat(Vg)? Cat(ADV) Cat(Vg)? Cat(CARD) = CARD – Classificação contextual de EM, que ultrapassa a simples herança dos valores dos nomes próprios classificados no léxico Encontro do Segundo HAREM: Aveiro, 07.09.2008 DESCRIÇÃO DO SISTEMA • • Primeira fase de classificação: herança dos valores atribuídos ao léxico Segunda fase de classificação: análise contextual Constantes: usadas na identificação e classificação de EM ex.: Constante Extensaodeagua = Pals(mar, oceano, rio, lago) Extensaodeagua Pal(de) Cat(Nprop) = EM Constante Listadeorganizacoes = Pals(instituto, instituição, organização, associação) Cat(NPROP(PESSOA)) PreposicaoDe Cat(NPROP) = ENT(ORGANIZACAO) If before $$ Is Listadeorganizacoes Encontro do Segundo HAREM: Aveiro, 07.09.2008 ADAPTAÇÃO DO SISTEMA AO HAREM • Categorias já reconhecidas pelo sistema antes da participação no segundo HAREM: PESSOA, LOCAL, ORGANIZACAO, VALOR, TEMPO • Categorias criadas para o HAREM (para EM que já eram identificadas mas não classificadas): ABSTRACCAO, ACONTECIMENTO, COISA, OBRA • Tipos criados para o HAREM: LOCAL(AGUACURSO, AGUAMASSA, RELEVO, ILHA), PESSOA(GRUPOMEMBRO) Encontro do Segundo HAREM: Aveiro, 07.09.2008 ADAPTAÇÃO DO SISTEMA AO HAREM • Filtro em XML para conversão das categorias: <TIPO NOME="EM> <TRACO NOME="TipoEM" <VALORES>ANTROP_IND</VALORES> </TRACO> </TIPO> <SUBSTRING> <EM ID="{0}" CATEG="PESSOA" TIPO="INDIVIDUAL">{1}</EM> </SUBSTRING> Encontro do Segundo HAREM: Aveiro, 07.09.2008 ANÁLISE DOS RESULTADOS: HAREM CLÁSSICO Resultados absolutos no cenário TOTAL: • 72,29% de EM correctamente identificadas • 51,45% de EM correctamente classificadas Avaliação entre todos os participantes: • 1.ª posição na Medida-F, em classificação e em identificação, no cenário TOTAL • 1.ª posição na Medida-F, em classificação e identificação, nos cenários selectivos 3 e 4 • 1.º posição em 13 dos 28 cenários de avaliação Avaliação por categoria: • 1.ª posição nas categorias ABSTRACCAO e COISA • 1.º posição, em classificação e abrangência, na categoria PESSOA • Resultados mais baixos nas categorias LOCAL, TEMPO e VALOR Encontro do Segundo HAREM: Aveiro, 07.09.2008 ANÁLISE DOS RESULTADOS: PISTA TEMPO Avaliação na miniCD: • 2.ª posição na classificação de EM • 1.ª posição na identificação de EM Avaliação na pista TEMPO: • 1.ª posição, em identificação, no cenário TOTAL e nos cenários selectivos 4 e 6 • Melhores resultados, tal como no HAREM Clássico, na identificação de EM do que na sua classificação Encontro do Segundo HAREM: Aveiro, 07.09.2008 ANÁLISE DOS RESULTADOS: PISTA TEMPO Principais razões para os resultados na pista TEMPO: – Critérios anteriormente estabelecidos para o sistema divergentes em relação aos do HAREM – Exclusão de iniciadores de expressões temporais como as preposições e contracções: Ex.: em 1996 (CD do HAREM) 1996 (Priberam) do século 21 (CD do HAREM) século 21 (Priberam) Encontro do Segundo HAREM: Aveiro, 07.09.2008 CONCLUSÕES E TRABALHO FUTURO • Melhoramento da classificação de EM (diferenças entre os valores da identificação e da classificação no HAREM) • Classificação de EM ainda não reconhecidas pelo sistema (ABSTRACCAO|IDEIA, ACONTECIMENTO|EVENTO, COISA|CLASSE, COISA|MEMBROCLASSE, COISA|OBJECTO, COISA|SUBSTANCIA, PESSOA|GRUPOCARGO, PESSOA|GRUPOIND, PESSOA|MEMBRO, PESSOA|POVO) • Reconhecimento de nomes próprios ambíguos com nomes comuns em início de frase ou após travessão Ex.: STN – Sistema de Transmissão do Nordeste • Tratamento da metonímia: – – Restrições de selecção dos verbos Marcação de regências nominais Ex.: O Palácio de Belém pronunciou-se [sujeito humano/grupo humano] Palácio de Belém satisfeito [qualificador de nome humano] pronunciou- se • Uso da ontologia na classificação contextual das EM Encontro do Segundo HAREM: Aveiro, 07.09.2008 Priberam Alameda D. Afonso Henriques, 41 - 2.º Esq. 1000-123 Lisboa, Portugal Tel.: +351 21 781 72 60 / Fax: +351 21 781 72 79 www.priberam.pt www.priberam.pt