Priberam
Alameda D. Afonso Henriques, 41 - 2.º Esq.
1000-123 Lisboa, Portugal
Tel.: +351 21 781 72 60 / Fax: +351 21 781 72 79
www.flip.pt
www.priberam.pt
Adaptação do sistema de REM
da Priberam ao HAREM
Carlos Amaral, Helena Figueira, Afonso Mendes,
Pedro Mendes, Cláudia Pinto, Tiago Veiga
{cma, hgf, amm, prm, cp, [email protected]
SUMÁRIO
1. Importância do REM
2. Descrição do sistema
– Adaptação do sistema para o HAREM
3. Análise dos resultados da participação no
segundo HAREM
– Resultados no HAREM Clássico
– Resultados na pista TEMPO
4. Conclusões e trabalho futuro
Encontro do Segundo HAREM: Aveiro,
07.09.2008
IMPORTÂNCIA DO REM
• Importância do REM para a Priberam:
– Correcção sintáctica (FLiP)
• Detecção de sequências de palavras como unidades
morfossintácticas
– Sistemas automáticos de resposta a perguntas
• Indexação de textos
• Categorização da pergunta
• Extracção das respostas
– IncogniX (ferramenta para substituição de entidades
nos acórdãos do STJ)
– Motores de pesquisa (ex.: JN, TSF)
Encontro do Segundo HAREM: Aveiro,
07.09.2008
EXEMPLO DE USO DO SISTEMA
EM MOTORES DE PESQUISA
Encontro do Segundo HAREM: Aveiro,
07.09.2008
DESCRIÇÃO DO SISTEMA
•
Léxico com classificação morfossintáctica e semântica
ex.: árvore
s1 [planta lenhosa] N (SING|, FEM|, CART|, DATAN|,
VEGETAL|)
s2 [estrutura de representação] N(SING|, FEM|,
CART|, DATAN|, ABSTR|CONCR)
s3 [eixo, veio] N(SING|, FEM|, CART|, DATAN|,
CONCR|, Pde|)
•
Regras contextuais, que permitem:
–
Atribuição de valores morfológicos e semânticos a sequências de
tokens
ex.: Pal(secretaria) Pal(de) Pal(estado) = N
Pal(às) Pal(primeiras) Pal(horas) Pal(de)
Cat(N(DIASEMANA)) =
ADV
Cat(Vg)? Cat(ADV) Cat(Vg)? Cat(CARD) = CARD
–
Classificação contextual de EM, que ultrapassa a simples herança
dos valores dos nomes próprios classificados no léxico
Encontro do Segundo HAREM: Aveiro,
07.09.2008
DESCRIÇÃO DO SISTEMA
•
•
Primeira fase de classificação: herança dos valores
atribuídos ao léxico
Segunda fase de classificação: análise contextual
Constantes: usadas na identificação e classificação de EM
ex.:
Constante Extensaodeagua = Pals(mar, oceano,
rio, lago)
Extensaodeagua Pal(de) Cat(Nprop) = EM
Constante Listadeorganizacoes =
Pals(instituto, instituição, organização,
associação)
Cat(NPROP(PESSOA)) PreposicaoDe Cat(NPROP) =
ENT(ORGANIZACAO)
If before $$ Is Listadeorganizacoes
Encontro do Segundo HAREM: Aveiro,
07.09.2008
ADAPTAÇÃO DO SISTEMA
AO HAREM
• Categorias já reconhecidas pelo sistema antes
da participação no segundo HAREM:
PESSOA, LOCAL, ORGANIZACAO, VALOR, TEMPO
• Categorias criadas para o HAREM (para EM
que já eram identificadas mas não
classificadas): ABSTRACCAO, ACONTECIMENTO,
COISA, OBRA
• Tipos criados para o HAREM:
LOCAL(AGUACURSO, AGUAMASSA, RELEVO,
ILHA), PESSOA(GRUPOMEMBRO)
Encontro do Segundo HAREM: Aveiro,
07.09.2008
ADAPTAÇÃO DO SISTEMA
AO HAREM
•
Filtro em XML para conversão das categorias:
<TIPO NOME="EM>
<TRACO NOME="TipoEM"
<VALORES>ANTROP_IND</VALORES>
</TRACO>
</TIPO>
<SUBSTRING>
<EM ID="{0}" CATEG="PESSOA" TIPO="INDIVIDUAL">{1}</EM>
</SUBSTRING>
Encontro do Segundo HAREM: Aveiro,
07.09.2008
ANÁLISE DOS RESULTADOS:
HAREM CLÁSSICO
Resultados absolutos no cenário TOTAL:
•
72,29% de EM correctamente identificadas
•
51,45% de EM correctamente classificadas
Avaliação entre todos os participantes:
•
1.ª posição na Medida-F, em classificação e em identificação, no cenário TOTAL
•
1.ª posição na Medida-F, em classificação e identificação, nos cenários selectivos 3 e 4
•
1.º posição em 13 dos 28 cenários de avaliação
Avaliação por categoria:
•
1.ª posição nas categorias ABSTRACCAO e COISA
•
1.º posição, em classificação e abrangência, na categoria PESSOA
•
Resultados mais baixos nas categorias LOCAL, TEMPO e VALOR
Encontro do Segundo HAREM: Aveiro,
07.09.2008
ANÁLISE DOS RESULTADOS:
PISTA TEMPO
Avaliação na miniCD:
• 2.ª posição na classificação de EM
• 1.ª posição na identificação de EM
Avaliação na pista TEMPO:
• 1.ª posição, em identificação, no cenário TOTAL e nos cenários
selectivos 4 e 6
• Melhores resultados, tal como no HAREM Clássico, na identificação
de EM do que na sua classificação
Encontro do Segundo HAREM: Aveiro,
07.09.2008
ANÁLISE DOS RESULTADOS:
PISTA TEMPO
Principais razões para os resultados na pista
TEMPO:
– Critérios anteriormente estabelecidos para o sistema
divergentes em relação aos do HAREM
– Exclusão de iniciadores de expressões temporais
como as preposições e contracções:
Ex.: em 1996 (CD do HAREM)
1996 (Priberam)
do século 21 (CD do HAREM)
século 21 (Priberam)
Encontro do Segundo HAREM: Aveiro,
07.09.2008
CONCLUSÕES E TRABALHO
FUTURO
•
Melhoramento da classificação de EM (diferenças entre os valores da identificação e
da classificação no HAREM)
•
Classificação de EM ainda não reconhecidas pelo sistema (ABSTRACCAO|IDEIA,
ACONTECIMENTO|EVENTO, COISA|CLASSE, COISA|MEMBROCLASSE,
COISA|OBJECTO, COISA|SUBSTANCIA, PESSOA|GRUPOCARGO,
PESSOA|GRUPOIND, PESSOA|MEMBRO, PESSOA|POVO)
•
Reconhecimento de nomes próprios ambíguos com nomes comuns em início de
frase ou após travessão
Ex.:
STN – Sistema de Transmissão do Nordeste
•
Tratamento da metonímia:
–
–
Restrições de selecção dos verbos
Marcação de regências nominais
Ex.:
O Palácio de Belém pronunciou-se [sujeito humano/grupo humano]
Palácio de Belém satisfeito [qualificador de nome humano] pronunciou- se
•
Uso da ontologia na classificação contextual das EM
Encontro do Segundo HAREM: Aveiro,
07.09.2008
Priberam
Alameda D. Afonso Henriques, 41 - 2.º Esq.
1000-123 Lisboa, Portugal
Tel.: +351 21 781 72 60 / Fax: +351 21 781 72 79
www.priberam.pt
www.priberam.pt
Download

apresentação