technology from seed Stencil/NooJ no HAREM Cristina Mota (and Max Silberztein) Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 1 Plano da Apresentação technology from seed • Enquadramento • Categorias Trabalhadas • Tarefa Modificada • O que é o NooJ? • O que é o Stencil? • HAREM vs. Mini-HAREM • Problemas • Comentários Finais Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 2 Enquadramento technology from seed Estudar as EM e os seus contextos diacronicamente e verificar se o REM é influenciado por variações temporais O que é necessário? CORPUS • • Cubra vários períodos Esteja anotado manualmente • • Precisão elevada Sem almanaques MAS não existe anotação manual Como o fazer? ETIQUETADOR Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 3 Categorias Trabalhadas technology from seed Individual Grupo_Ind Cargo Grupo_Cargo Membro Grupo_Membro OBRA PESSOA LOCAL EVENTO Endereco Administrativo Geografico Virtual Extendido Classificacao Quantidade Moeda VARIADO VALOR ORGANIZACAO TEMPO COISA Administrativo Empresa Instituicao Sub ABSTRACCAO Morfologia Hora Periodo Ciclico Data Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 4 Tarefa Modificada technology from seed HAREM O <ORG TIPO=“Empresa">Hotel Alfa</ORG> possui 500 quartos O Congresso decorrerá no <LOC TIPO=“EXTENDIDO">Hotel Alfa</LOC> OUR TASK O <ORG TIPO=“Empresa ">Hotel Alfa</ORG> possui 500 quartos O Congresso decorrerá no <ORG TIPO=“Empresa">Hotel Alfa</ORG> Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 5 O que é o NooJ (Silberztein, 2003)? technology from seed • Plataforma de desenvolvimento de recursos linguísticos: dicionários e gramáticas representados por transdutores de estados finitos • Aplicação de processamento de linguagem natural: análise flexional, derivacional, sintáctica, etc. • Implementação em C# para a tecnologia .NET • Manipulação do formato XML • Processamento integrado de expressões regulares Perl • Aplicação de gramáticas em cascata Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 7 O que é o Stencil? technology from seed • • • • Conjunto de recursos desenvolvidos (e aplicados) no sistema NooJ As gramáticas descrevem evidências internas e externas (150 grafos) Não utiliza almanaques Léxicos sub-categorizados açorenho,A+FLX=Pato+Patrio 897 (3588) adjectivos patronímicos * actor,K+FLX=Actor+Profissao 1581 (6180) substantivos que designam profissões e funções * administrador,K+FLX=Cantor+Cargo 26 (104) substantivos que designam cargos cunhado,K+FLX=Pato+Parentesco 29 (86) parentescos 81 (162) substantivos que introduzem instituições (+ 6 que introduzem departamentos) academia,K+FLX=Mesa+Org+Head 25 (50) substantivos que introduzem empresas restaurante,K+FLX=Carro+Emp+Head • 51 paradigmas (dos quais 16 são para compostos) SecretarioDeEstado = <E>/m+s + <PW><B>a/f+s + <PW>s/m+p + <PW><B>as/f+p; * Entradas extraídas automaticamente da versão pública (em 2002) do dicionário DELAS do LabEL, e marcadas posteriormente. Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 8 O que é o Stencil? technology from seed Texto Regras precisas Presidente George Bush President George Bush United United Nations Nations(UN) (UN) Lisbon, a city of Portugal Lisbon, a city in Portugal Vila do Conde is located in... Vila do Conde is located in... Kate Bush performed... Kate Bush performed... UN decided that... UN decided that... Lisbon castle is located... Lisbon castle is located... Mary Kate decided... Mary Kate decided... Nomes C Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 9 O que é o Stencil? technology from seed Texto Regras Precisas President George Bush United Nations (UN) Lisbon, a city of Portugal Vila do Conde is located in... Kate Bush performed... UN decided that... Lisbon castle is located... Mary Kate decided... Nomes C Rev Manual Nomes C Rev George Bush George Bush United Nations UN Lisbon Portugal Vila do Conde Conde Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 10 O que é o Stencil? technology from seed Texto Texto Regras Precisas Regras Combinatórias Nomes C Nomes C Rev Manual Rev Manual Nomes C Rev Nomes C Rev President George Bush United Nations (UN) Lisbon, a city of Portugal Vila do Conde is located in... Kate Bush performed... UN decided that... Lisbon castle is located... Mary Kate decided... George Bush Kate George Bush Kate Bush United Nations UN Lisbon Portugal Vila do Conde Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 11 O que é o Stencil? technology from seed Texto Regras Precisas President Text George Bush Texto United Nations (UN) Lisbon, a city of Portugal Vila do Conde is located in... Regras Kate Bush performed... Aplicação Directa Combinatórias UN decided that... Lisbon castle is located... Mary Kate decided... <ext n=246 sec=pol sem=91a> Nomes C Nomes C Rev Manual Rev Manual Nomes C Rev Nomes C Rev <p> <s> Texto Anotado A eurodeputada portuguesa <PESSOA TIPO="INDIVIDUAL" MORF="F,S">Maria Santos</PESSOA> é uma das personalidades convidadas pela <ORGANIZACAO TIPO="?" MORF="F,S">Confederação dos Sindicatos Agrícolas Bascos</ORGANIZACAO> Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 12 O que é o Stencil? technology from seed Texto Texto Texto Regras Precisas Regras Combinatórias Aplicação Directa Nomes C Nomes C Texto Anotado Texto Anotado Texto Anotado Rev Manual Rev Manual Nomes C Rev Nomes C Rev Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 13 HAREM vs. Mini-HAREM technology from seed • 1 única gramática com várias subgramáticas, em que o caminho mais longo decide a anotação a adicionar ao TAS (Text Annotation System) • • 4 gramáticas, 1 por categoria (excepto TEMPO e VALOR que estão na mesma) Diferenças entre experiências – EXP1: apenas primeiro passo – EXP2*: EXP1 + aplicação directa de listas de nomes classificados extraídos de 3 semestres do CP (74588: 31764 P + 28510 O + 14314 L); os tipos na aplicação directa estão a ser perdidos – EXP3: EXP2 corrigido – EXP4: EXP1 + regras flexíveis de combinação de nomes do DicPro V5 (3544 Nb+Nf) Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 17 Resultados Mini-HAREM technology from seed Classificação Semântica por categorias no cenário TOTAL e ABSOLUTO EXP1: regras precisas *EXP2: Regras precisas + consulta LOC e ORG EXP3: Regras precisas + consulta LOC, ORG e PES EXP2*: Regras precisas + consulta DicPRO Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 18 Problemas technology from seed • O que é que não está a ser reconhecido? – Governo, Fundação,Câmara,Executivo, ... – PS, PCP, CDS, ... – [ministro da] (Defesa+Negócios Estrangeiros+....) – Fundação para Ciência e a Tecnologia • Ambiguidade 1 – Ribeiro da Silva (PERSON) Ribeiro da Silva (*LOCAL) – Ana Martinho e Martins (da Cunha) Cardoso e Cunha • Ambiguidade 2_3 – [Visitei a cidade do] Porto,LOC → [Visitei a cidade do] Porto,LOC + ORG [O] Porto,ORG [ganhou o jogo] → [O] Porto,ORG + LOC [ganhou o jogo] Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 19 Problemas technology from seed Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 20 Comentários Finais technology from seed • Reformular as gramáticas de modo a poderem ser aplicadas em cascata, e introduzir a resolução de ambiguidades • Apesar de a tarefa que o Stencil/NooJ não ter sido exactamente a do HAREM, os resultados foram positivos, pelo menos na Precisão. O que é paradoxal! – No futuro, se a tarefa se mantiver nos mesmo moldes considerar ser mais fiel ao que foi proposto, fazendo a distinção entre a componente lexical e funcional • De um ponto de vista estritamente pessoal, a avaliação conjunta foi mesmo assim bastante útil pois disponibilizou os Avaliadores que são um instrumento fundamental para poder ir desenvolvendo e testando o sistema Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 21 technology from seed technology from seed L2 F - Spoken Language Systems Laboratory Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa L2 F - Spoken Language Systems Laboratory 22