Acquiring Semantic Classes to Elaborate Attachment Heuristics Pablo Gamallo, Alexandre Agustini, Gabriel P. Lopes Groupo Língua Natural ( GLINt* ) FCT, Universidade Nova de Lisboa, Portugal Goal: Correct parses [S [NP O parecer [PP de o Ministro [PP de a Administração Interna [PP de o actual governo]]]] [VP citou [NP este projecto [PP de regulamento]] [PP em nota [PP de o seu gabinete]]]]] The opinion of the internal affairs minister of present government cited this regulation project in a note of his cabinet. <parecer de [ ]> : ministro <ministro de [ ]> : administração <ministro de [ ]> : governo <[ ] citar> : parecer <citar [ ]> : projecto <projecto de [ ]> : regulamento <citar em [ ]> : nota <nota de [ ]> : gabinete Input: Chunk Sequences [NP O parecer] [PP de o Ministro] [PP de a Administração Interna] [PP de o actual governo] [VP citou] [NP este projecto] [PP de regulamento] [PP em nota] [PP de o seu gabinete] Tagger (Marques, Lopes) Partial Parser (Rocio, Lopes) TRAINING CORPUS • PGR corpus : 6,5 million words • European Commission: 3 million words Strategies Right Association (Baseline) Lexical Association (Grishman and Sterling 1994, Dagan et al. 1998) Identifying co-requirements Clustering similar requirements Right Association (baseline) [S [NP O parecer [PP de o Ministro [PP de a Administração Interna [PP de o actual governo [VP citou [NP este projecto [PP de regulamento [PP em nota [PP de o seu gabinete]]]]]]]]]] Test sequences Precision (%) Recall (%) NP-PP-PP .72 .72 VP-NP-PP VP-PP-PP Total .82 .74 .76 .82 .74 .76 Test corpus: 1266 test sequences Lexical Association LA ( p, w ) LA ( <parecer de [ ]>, ministro ) LA ( <ministro de [ ]>, administração) How to solve the sparse problem? If p and w are not attested in the corpus, we compute the average of LA ratios between p and the k most similar words to w. So, we need a THESAURUS. Lexical Association Some entries of our automatically generated Thesaurus: ministro| {dirigente, presidente, subinspector, governador, } diploma| {decreto, lei, artigo, convenção, regulamento} decreto| {diploma, lei, artigo, nº, código} regulamento| {estatuto, código, sistema, decreto, norma} regra| {norma, princípio, regime, legislação, plano} renda| {caução, indemnização, reintegração, multa, quota} conceito| {noção, estatuto, regime, temática, montante} Attachment with Lexical Association LA(<parecer de [ ]>, ministro) LA(<parecer de [ ]>, administração) NP PP 0.024 2.290 PP parecer de o ministro de a administração Attachment with Lexical Association LA(<citar em [ ]>, nota) LA(<projecto em [ ]>, nota) LA(<regulamento em [ ]>, nota) VP citou 0.00 3.104 0.00 PP PP o projecto de regulamento PP em a nota Attachment with Lexical Association Evaluation Test sequences Precision (%) Recall (%) NP-PP-PP .79 .69 VP-NP-PP VP-PP-PP Total .88 .87 .85 .74 .68 .71 Test corpus: 1266 test sequences Training corpus: 10 millions words Clustering of requirements and co-requirements Co-requirements: A binary dependency may consists of two positions with requirements Clustering of positions with similar requirements: Two positions impose similar requirements if they have similar word distribution Co-Requirements [S [NP O parecer [PP de o Ministro [PP de a Administração Interna [PP de o actual governo [VP citou [NP este projecto [PP de regulamento [PP em nota [PP de o seu gabinete]]]]]]]]]] <parecer de [ ]> : ministro <ministro de [ ]> : administração < administração de [ ]> : governo <[ ] citar> : governo <citar [ ]> : projecto <projecto de [ ]> : regulamento <regulamento em [ ]> : nota <nota de [ ]> : gabinete <[ ] de ministro> : parecer <[ ] de administração> : ministro <[ ] de governo> : administração <governo [ ]>: citar <[ ] projecto> : citar <[ ] de regulamento> : projecto <[ ] em nota> : regulamento <[ ] de gabinete> : nota Clustering of requirements We aggregate similar positions and their associated words: <ministro de [ ]> <secretário de [ ]> <[ ] de portugal> <competir a [ ]> administraçao, estado, governo, república ... Clustering of requirements Clustering of positions and their words (<[ ] de portugal> + <competir a [ ]> + <ministro de [ ] > + <secretário de [ ]>) (<[ ] de portugal> + <competir a [ ]>) república estado governo (<ministro de [ ] > + <secretário de [ ]>) estado governo administraçao Lexicon with co-requirements Secretário <secretário de [ ]> : {administração, assembleia, autoridade, conselho, direcção, empresa, entidade, estado, governo, juiz, ministro, ministério....} <[ ] de secretário> : {cargo, carreira, categoria, competência, escalão, estatuto, função, ....} <[ ] a secretário>: {caber, competir, conceder, conferir, dirigir, incumbir, pertencer ...} <[ ] secretário> : {definir, estabelecer, faxer, fixar, indicar, prever, referir ...} Attachment with co-requirements [VP compete] [PP a o secretário] 1. Requirement “right”: Check if “secretário” is required by <competir [ ]> 2. Requirement “left”: Check if “competir” is required by <[ ] a secretário> [VP compete [PP a o secretário] ] Attachment with Co-requirements Evaluation [S [NP O parecer [PP de o Ministro [PP de a Administração Interna [PP de o actual governo]]]] [VP citou [NP este projecto [PP de regulamento]] [PP em nota [PP de o seu gabinete]]]]] Attachment Candidate NP-PP-PP Precision (%) .86 Recall (%) .75 VP-NP-PP .92 .77 VP-PP-PP .89 .72 Total .89 .75 Test corpus: 1266 test sequences Training corpus: 10 millions words Future Work bootstraping: parsing - learning strategy other dependencies: adjectives, adverbs, relatives... word sense disambiguation clustering morpho-syntactic variations of a word: ratificaçao de / ratificar Similarity Measure sim (contx1, contx2) i joint[assoc(contx1, wordi ),assoc(contx2, wordi )] i assoc(contx1, wordi ) assoc(contx2, wordi ) ) assoc(contx, word ) log ( PMLE (contx | word )) * log ( disp( word )) ) f (contx, word ) PMLE (contx | word ) F (contx) disp( word ) F ( word ) number of contexts with word Data