technology
from seed
Stencil/NooJ no HAREM
Cristina Mota (and Max Silberztein)
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
1
Plano da Apresentação
technology
from seed
• Enquadramento
• Categorias Trabalhadas
• Tarefa Modificada
• O que é o NooJ?
• O que é o Stencil?
• HAREM vs. Mini-HAREM
• Problemas
• Comentários Finais
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
2
Enquadramento
technology
from seed
Estudar as EM e os seus contextos diacronicamente e
verificar se o REM é influenciado por variações
temporais
O que é necessário?
CORPUS
•
•
Cubra vários períodos
Esteja anotado manualmente
•
•
Precisão elevada
Sem almanaques
MAS não existe anotação manual
Como o fazer?
ETIQUETADOR
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
3
Categorias Trabalhadas
technology
from seed
Individual
Grupo_Ind
Cargo
Grupo_Cargo
Membro
Grupo_Membro
OBRA
PESSOA
LOCAL
EVENTO
Endereco
Administrativo
Geografico
Virtual
Extendido
Classificacao
Quantidade
Moeda
VARIADO
VALOR
ORGANIZACAO
TEMPO
COISA
Administrativo
Empresa
Instituicao
Sub
ABSTRACCAO
Morfologia
Hora
Periodo
Ciclico
Data
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
4
Tarefa Modificada
technology
from seed
HAREM
O <ORG TIPO=“Empresa">Hotel Alfa</ORG> possui 500 quartos
O Congresso decorrerá no <LOC TIPO=“EXTENDIDO">Hotel Alfa</LOC>
OUR TASK
O <ORG TIPO=“Empresa ">Hotel Alfa</ORG> possui 500 quartos
O Congresso decorrerá no <ORG TIPO=“Empresa">Hotel Alfa</ORG>
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
5
O que é o NooJ (Silberztein, 2003)?
technology
from seed
• Plataforma de desenvolvimento de recursos linguísticos:
dicionários e gramáticas representados por transdutores
de estados finitos
• Aplicação de processamento de linguagem natural:
análise flexional, derivacional, sintáctica, etc.
• Implementação em C# para a tecnologia .NET
• Manipulação do formato XML
• Processamento integrado de expressões regulares Perl
• Aplicação de gramáticas em cascata
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
7
O que é o Stencil?
technology
from seed
•
•
•
•
Conjunto de recursos desenvolvidos (e aplicados) no sistema NooJ
As gramáticas descrevem evidências internas e externas (150 grafos)
Não utiliza almanaques
Léxicos sub-categorizados
açorenho,A+FLX=Pato+Patrio
897 (3588) adjectivos patronímicos *
actor,K+FLX=Actor+Profissao
1581 (6180) substantivos que designam profissões
e funções *
administrador,K+FLX=Cantor+Cargo
26 (104) substantivos que designam cargos
cunhado,K+FLX=Pato+Parentesco
29 (86) parentescos
81 (162) substantivos que introduzem instituições (+ 6 que introduzem
departamentos)
academia,K+FLX=Mesa+Org+Head
25 (50) substantivos que introduzem empresas
restaurante,K+FLX=Carro+Emp+Head
• 51 paradigmas (dos quais 16 são para compostos)
SecretarioDeEstado = <E>/m+s + <PW><B>a/f+s
+ <PW>s/m+p + <PW><B>as/f+p;
* Entradas extraídas automaticamente da versão pública (em 2002) do dicionário DELAS do LabEL, e marcadas posteriormente.
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
8
O que é o Stencil?
technology
from seed
Texto
Regras precisas
Presidente
George
Bush
President George
Bush
United
United Nations
Nations(UN)
(UN)
Lisbon,
a
city
of
Portugal
Lisbon, a city in Portugal
Vila do Conde is located in...
Vila do Conde is located in...
Kate Bush performed...
Kate Bush performed...
UN decided that...
UN decided that...
Lisbon castle is located...
Lisbon castle is located...
Mary Kate decided...
Mary Kate decided...
Nomes C
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
9
O que é o Stencil?
technology
from seed
Texto
Regras Precisas
President George Bush
United Nations (UN)
Lisbon, a city of Portugal
Vila do Conde is located in...
Kate Bush performed...
UN decided that...
Lisbon castle is located...
Mary Kate decided...
Nomes C
Rev Manual
Nomes C Rev
George
Bush
George Bush
United Nations
UN
Lisbon
Portugal
Vila do Conde
Conde
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
10
O que é o Stencil?
technology
from seed
Texto
Texto
Regras Precisas
Regras
Combinatórias
Nomes C
Nomes C
Rev Manual
Rev Manual
Nomes C Rev
Nomes C Rev
President George Bush
United Nations (UN)
Lisbon, a city of Portugal
Vila do Conde is located in...
Kate Bush performed...
UN decided that...
Lisbon castle is located...
Mary Kate decided...
George
Bush
Kate
George Bush
Kate Bush
United Nations
UN
Lisbon
Portugal
Vila do Conde
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
11
O que é o Stencil?
technology
from seed
Texto
Regras Precisas
President
Text George Bush
Texto
United Nations (UN)
Lisbon, a city of Portugal
Vila do Conde is located in...
Regras
Kate
Bush performed...
Aplicação Directa
Combinatórias
UN decided that...
Lisbon castle is located...
Mary Kate decided...
<ext n=246 sec=pol sem=91a>
Nomes C
Nomes C
Rev Manual
Rev Manual
Nomes C Rev
Nomes C Rev
<p>
<s>
Texto Anotado
A
eurodeputada
portuguesa
<PESSOA TIPO="INDIVIDUAL" MORF="F,S">Maria
Santos</PESSOA>
é
uma
das
personalidades
convidadas
pela
<ORGANIZACAO TIPO="?" MORF="F,S">Confederação
dos
Sindicatos
Agrícolas
Bascos</ORGANIZACAO>
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
12
O que é o Stencil?
technology
from seed
Texto
Texto
Texto
Regras Precisas
Regras
Combinatórias
Aplicação
Directa
Nomes C
Nomes C
Texto Anotado
Texto Anotado
Texto Anotado
Rev Manual
Rev Manual
Nomes C Rev
Nomes C Rev
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
13
HAREM vs. Mini-HAREM
technology
from seed
•
1 única gramática com várias subgramáticas, em que o caminho
mais longo decide a anotação a
adicionar ao TAS (Text Annotation
System)
•
•
4 gramáticas, 1 por categoria
(excepto TEMPO e VALOR que
estão na mesma)
Diferenças entre experiências
– EXP1: apenas primeiro passo
– EXP2*: EXP1 + aplicação directa
de listas de nomes classificados
extraídos de 3 semestres do CP
(74588: 31764 P + 28510 O +
14314 L); os tipos na aplicação
directa estão a ser perdidos
– EXP3: EXP2 corrigido
– EXP4: EXP1 + regras flexíveis de
combinação de nomes do DicPro
V5 (3544 Nb+Nf)
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
17
Resultados Mini-HAREM
technology
from seed
Classificação Semântica por categorias no cenário TOTAL e ABSOLUTO
EXP1: regras precisas
*EXP2:
Regras precisas + consulta LOC e ORG
EXP3:
Regras precisas + consulta LOC, ORG e PES
EXP2*:
Regras precisas + consulta DicPRO
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
18
Problemas
technology
from seed
• O que é que não está a ser reconhecido?
– Governo, Fundação,Câmara,Executivo, ...
– PS, PCP, CDS, ...
– [ministro da] (Defesa+Negócios Estrangeiros+....)
– Fundação para Ciência e a Tecnologia
• Ambiguidade 1
– Ribeiro da Silva (PERSON)
Ribeiro da Silva (*LOCAL)
– Ana Martinho e Martins (da Cunha)
Cardoso e Cunha
• Ambiguidade 2_3
– [Visitei a cidade do] Porto,LOC → [Visitei a cidade do] Porto,LOC + ORG
[O] Porto,ORG [ganhou o jogo] → [O] Porto,ORG + LOC [ganhou o jogo]
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
19
Problemas
technology
from seed
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
20
Comentários Finais
technology
from seed
• Reformular as gramáticas de modo a poderem ser aplicadas em
cascata, e introduzir a resolução de ambiguidades
• Apesar de a tarefa que o Stencil/NooJ não ter sido exactamente a do
HAREM, os resultados foram positivos, pelo menos na Precisão. O
que é paradoxal!
– No futuro, se a tarefa se mantiver nos mesmo moldes considerar ser mais
fiel ao que foi proposto, fazendo a distinção entre a componente lexical e
funcional
• De um ponto de vista estritamente pessoal, a avaliação conjunta foi
mesmo assim bastante útil pois disponibilizou os Avaliadores que são
um instrumento fundamental para poder ir desenvolvendo e testando o
sistema
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
21
technology
from seed
technology
from seed
L2 F - Spoken Language Systems Laboratory
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
L2 F - Spoken Language Systems Laboratory
22
Download

Slides - Linguateca