Acquiring Semantic Classes to
Elaborate Attachment Heuristics
Pablo Gamallo, Alexandre Agustini, Gabriel P. Lopes
Groupo Língua Natural ( GLINt* )
FCT, Universidade Nova de Lisboa, Portugal
Goal: Correct parses
[S [NP O parecer [PP de o Ministro [PP de a Administração Interna
[PP de o actual governo]]]] [VP citou [NP este projecto
[PP de regulamento]] [PP em nota [PP de o seu gabinete]]]]]
The opinion of the internal affairs minister of present
government cited this regulation project in a note of his cabinet.
<parecer de [ ]> : ministro
<ministro de [ ]> : administração
<ministro de [ ]> : governo
<[ ] citar> : parecer
<citar [ ]> : projecto
<projecto de [ ]> : regulamento
<citar em [ ]> : nota
<nota de [ ]> : gabinete
Input: Chunk Sequences
[NP O parecer] [PP de o Ministro] [PP de a Administração
Interna] [PP de o actual governo] [VP citou] [NP este projecto]
[PP de regulamento] [PP em nota] [PP de o seu gabinete]
Tagger (Marques, Lopes)
Partial Parser (Rocio, Lopes)
TRAINING CORPUS
• PGR corpus : 6,5 million words
• European Commission: 3 million words
Strategies

Right Association (Baseline)

Lexical Association
(Grishman and Sterling 1994, Dagan et al. 1998)

Identifying co-requirements
Clustering similar requirements
Right Association (baseline)
[S [NP O parecer [PP de o Ministro [PP de a Administração
Interna [PP de o actual governo [VP citou [NP este projecto
[PP de regulamento [PP em nota [PP de o seu gabinete]]]]]]]]]]
Test sequences
Precision (%)
Recall (%)
NP-PP-PP
.72
.72
VP-NP-PP
VP-PP-PP
Total
.82
.74
.76
.82
.74
.76
Test corpus: 1266 test sequences
Lexical Association
LA ( p, w )
LA ( <parecer de [ ]>, ministro )
LA ( <ministro de [ ]>, administração)
How to solve the sparse problem?
If p and w are not attested in the corpus, we compute the
average of LA ratios between p and the k most similar
words to w.
So, we need a THESAURUS.
Lexical Association
Some entries of our automatically generated Thesaurus:

ministro| {dirigente, presidente, subinspector, governador, }

diploma| {decreto, lei, artigo, convenção, regulamento}

decreto| {diploma, lei, artigo, nº, código}

regulamento| {estatuto, código, sistema, decreto, norma}

regra| {norma, princípio, regime, legislação, plano}

renda| {caução, indemnização, reintegração, multa, quota}

conceito| {noção, estatuto, regime, temática, montante}
Attachment with Lexical Association
LA(<parecer de [ ]>, ministro)
LA(<parecer de [ ]>, administração)
NP
PP
0.024
2.290
PP
parecer de o ministro de a administração
Attachment with Lexical Association
LA(<citar em [ ]>, nota)
LA(<projecto em [ ]>, nota)
LA(<regulamento em [ ]>, nota)
VP
citou
0.00
3.104
0.00
PP
PP
o projecto
de regulamento
PP
em a nota
Attachment with Lexical Association
Evaluation
Test sequences
Precision (%)
Recall (%)
NP-PP-PP
.79
.69
VP-NP-PP
VP-PP-PP
Total
.88
.87
.85
.74
.68
.71
Test corpus: 1266 test sequences
Training corpus: 10 millions words
Clustering of requirements and co-requirements

Co-requirements:
A binary dependency may consists of two positions with
requirements

Clustering of positions with similar
requirements:
Two positions impose similar requirements if they have
similar word distribution
Co-Requirements
[S [NP O parecer [PP de o Ministro [PP de a Administração
Interna [PP de o actual governo [VP citou [NP este projecto
[PP de regulamento [PP em nota [PP de o seu gabinete]]]]]]]]]]
<parecer de [ ]> : ministro
<ministro de [ ]> : administração
< administração de [ ]> : governo
<[ ] citar> : governo
<citar [ ]> : projecto
<projecto de [ ]> : regulamento
<regulamento em [ ]> : nota
<nota de [ ]> : gabinete
<[ ] de ministro> : parecer
<[ ] de administração> : ministro
<[ ] de governo> : administração
<governo [ ]>: citar
<[ ] projecto> : citar
<[ ] de regulamento> : projecto
<[ ] em nota> : regulamento
<[ ] de gabinete> : nota
Clustering of requirements
We aggregate similar positions and their associated
words:
<ministro de [ ]>
<secretário de [ ]>
<[ ] de portugal>
<competir a [ ]>
administraçao, estado, governo, república ...
Clustering of requirements
Clustering of positions and their words
(<[ ] de portugal> + <competir a [ ]> + <ministro de [ ] > + <secretário de [ ]>)
(<[ ] de portugal> + <competir a [ ]>)
república
estado
governo
(<ministro de [ ] > + <secretário de [ ]>)
estado
governo
administraçao
Lexicon with co-requirements
Secretário
<secretário de [ ]> :
{administração, assembleia, autoridade, conselho, direcção,
empresa, entidade, estado, governo, juiz, ministro, ministério....}
<[ ] de secretário> :
{cargo, carreira, categoria, competência, escalão, estatuto, função, ....}
<[ ] a secretário>:
{caber, competir, conceder, conferir, dirigir, incumbir, pertencer ...}
<[ ] secretário> :
{definir, estabelecer, faxer, fixar, indicar, prever, referir ...}
Attachment with co-requirements
[VP compete] [PP a o secretário]
1.
Requirement “right”:
Check if “secretário” is required by <competir [ ]>
2.
Requirement “left”:
Check if “competir” is required by <[ ] a secretário>
[VP compete [PP a o secretário] ]
Attachment with Co-requirements
Evaluation
[S [NP O parecer [PP de o Ministro [PP de a Administração
Interna [PP de o actual governo]]]] [VP citou [NP este projecto
[PP de regulamento]] [PP em nota [PP de o seu gabinete]]]]]
Attachment Candidate
NP-PP-PP
Precision (%)
.86
Recall (%)
.75
VP-NP-PP
.92
.77
VP-PP-PP
.89
.72
Total
.89
.75
Test corpus: 1266 test sequences
Training corpus: 10 millions words
Future Work

bootstraping: parsing - learning strategy

other dependencies: adjectives, adverbs, relatives...

word sense disambiguation

clustering morpho-syntactic variations of a word:
ratificaçao de / ratificar
Similarity Measure
sim (contx1, contx2) 
i joint[assoc(contx1, wordi ),assoc(contx2, wordi )]
i assoc(contx1, wordi )  assoc(contx2, wordi ) )
assoc(contx, word )  log ( PMLE (contx | word )) * log ( disp( word )) )
f (contx, word )
PMLE (contx | word ) 
F (contx)
disp( word ) 
F ( word )
number of contexts with word
Data
Download

ministro de [ ]