Métodos em lingüistica de corpus e processamento da língua natural María Paula Santalla del Río Pablo Gamallo Otero TEMA 1 Noções básicas de Extração de Informação (EI) Pablo Gamallo Otero http://gramatica.usc.es/~gamallo/ Bibliografia Chantal Pérez Hernández, Antonio Moreno (2008), “Lingüística computacional y lingüística de corpus: Potencialidades para la investigación textual”. Disponível em: http://gramatica.usc.es/~gamallo/aulas/lingcomputacional/biblio/LingCompCorpus.pdf Tony Berber Sardinha (2004), Lingüística de Corpus, Editora Manole, Brasil. •Marco Baroni (2009), “Distributions in text”. In Anke Lüdeling and Merja Kytö (eds.), Corpus linguistics: An international handbook, Berlin: Mouton de Gruyter. Disponível em: http://gramatica.usc.es/~gamallo/aulas/lingcomputacional/biblio/Baroni_distributions.pdf •J. Torruella y J. Llisterri (1999): “Diseño de corpus textuales y orales”, en J. M. Blecua et al. (eds.), Filología e informática. Nuevas tecnologías en los estudios filológicos, Barcelona: Editorial Milenio y Universidad Autónoma de Barcelona, págs. 45-77. Disponível em: http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdf •Pablo Gamallo & Isaac González (2009) "Una gramática de dependencias basada en patrones de etiquetas", Procesamiento del Lenguaje Natural, 43, pp. 315-324. Disponível em: http://www.sepln.org/revistaSEPLN/revista/43/articulos/art34.pdf PLANO corpus e extração extração de frequências de palavras (tokens e formas) lei de zipf extração de informação léxico-semântica a partir das frequências extrações básicas: concordâncias corpus e extração Características dum corpus: Deve estar formado por um conjunto de dados lingüísticos naturais (uso oral ou/e escrito). O conteúdo do corpus deve ser cuidadosamente escolhido segundo certos critérios. O corpus deve ser representativo duma língua ou variedade. O corpus dever ser vasto para ser representativo. O corpus deve ter como finalidade ser objecto de estudo linguístico. Processos computacionais que se podem realizar num corpus: Anotação morfológica, sintática e semântica. Extração de informação corpus e extração Tipo de informação extraída: Frequências de ocorrências de palavras, de tipos, de lemas, ... Semelhança semântica entre palavras: se duas palavras aparecem no corpus nos mesmos contextos sintácticos, então devem ser sinómimos ou estar semanticamente relacionadas. Equivalentes de tradução Métodos de extração: Métodos supervisados Métodos não supervisados Extração de frequências de palavras Contagem de palavras, ocorrências ou itens (tokens) Contagem de palavras, formas ou tipos (types) conta-se o número de palavras diferentes. Contagem de lemas, ou lexemas (lemmas) Contagem de PoS tags ou categorias: Nomes, verbos... Os corpus linguísticos contenhem um grande número de Hapax Legomena: palavras que ocorrem apenas uma vez (isto é, frequência 1) Extração de frequências de palavras Quais são as palavras mais frequentes num corpus representativo dum domínio específico? PALAVRA FREQUÊNCIA PALAVRA FREQUÊNCIA la que en el y a los las del se Comisión the and a to of was it in that Tom 1.204.397 1.007.827 753.944 666.949 648.594 583.111 523.877 370.840 324.619 318.383 125.258 Palavras mais frequêntes de Europarl (Parlamento Europeu) 7332 2972 1775 1725 1440 1161 1027 906 877 679 Palavras mais frequêntes de “Tom Sawyer” Extração de frequências de palavras 69970 the 36410 of 28852 and 26149 to 23326 a 21341 in 10594 that 10102 is 9815 was 9542 he 9488 for 8760 it 7290 with 7251 as 6997 his 6742 on 6376 be 5377 at 5306 by 5178 i 5146 this 5131 had 4609 not 4394 are 4381 but 4370 from 4207 or 3942 have 3748 an 3619 they 3561 which 3297 one 3286 you 3284 were 3037 her 3001 all 2859 she 2725 there 2715 would 2670 their 2653 we 2619 him 2473 been 2439 has 2331 when 2252 who 2244 will 2216 more 2202 no 2199 if 2096 out 1985 so 1961 said 1908 what 1895 up 1858 its 1815 about 1791 into 1790 than 1789 them 1772 can 1747 only 1702 other 1635 new 1617 some 1599 time 1599 could 1573 these 1412 two 1400 may 1377 then 1362 do 1361 first 1345 any 1319 my 1314 now 1303 such 1290 like 1252 our 1237 over 1207 man Palavras mais frequêntes do corpus Brown (não específico). Extração de frequências de palavras Quantas ocorrências de palavras (tokens ou itens) tem um corpus? ”Tom Sowyer” tem 71.370 ocorrências de palavras. “El Quijote” tem 376.509. “Brown” tem 1 milhão. “EuroParl” tem 30 milhões 600 mil Quantas palavras diferentes (tipos ou formas) tem um corpus? ”Tom Sowyer” tem 8.018 palavras diferentes (8,9 tokens por tipo). “El Quijote tem 38.552 (9.8 tokens por tipo). (se consideramos os 71.000 primeiros tokens, extraem-se mais de 12.000 tipos) “Brown” tem 55.734 (17 tokens por tipo). “EuroParl” tem 159.211 (192 tokens por tipo). Extração de frequências de palavras Corpus Banco do Português: Banda de ocorrências Formas % formas Ocorrências % ocorrências frequência média 1 186.275 39,65% 186.275 0,15% 1,0 2a9 160.228 34,11% 610.459 0,48% 3,8 10 a 99 82.174 17,49% 2.662.495 2,11% 32,4 100 a 999 31.065 6,61% 9.840.238 7,81% 316,8 1,83% 25.663.321 20,38% 2.930 1.323 0,28% 32.753.032 26,01% 24.756 78 0,02% 18.637.882 14,80% 238.947 > 1.000.000 16 0,00% 35.573.922 28,25% 2.223.370 TOTAL 469.745 100% 125.927.624 100% 268,1 1.000 a 9.999 8.586 10.000 a 99.999 100.000 a 999.999 Modelo de frequências: Lei de Zipf Dada uma constante K (frequência da palavra mais frequente), e dado o ranking R duma palavra, podemos predizer a frequência F da palavra: F(pal) = K / R(pal) f the that two name comes R 7732 877 104 21 16 f F 1 10 100 400 500 7732 773,2 77,3 18,3 15,4 group friends family brushed Applausive R 13 10 8 4 1 F 600 800 1000 2000 8000 12,88 9,66 7,3 3,86 0,97 Modelo de frequências: Lei de Zipf F(pal) = K / R(pal) f de la los artículo artículos litigio desplazarse R 11425 6473 3528 1791 140 13 1 F 1 2 5 10 100 1000 10000 Constituição Europeia (versão espanhola) dif (%) 11425 5712 2285 1142 114 11,4 1,1 11% 40% 36% 18% 12% 10% 21% (média) Modelo de frequências: Lei de Zipf F(pal) = K / R(pal) f of to in or banks commitment 1985 R 13328 7425 3260 1394 161 13 1 F 1 2 5 10 100 1000 10000 dif(%) 13328 6664 2665 1332 133 13,3 1,3 Constituição Europeia (versão inglesa) 10% 21% 4% 17% 2% 30% 14% (média) Modelo de frequências: Lei de Zipf A Lei de Zipf sofreu numerosas correcções. Aqui abaixo, monstram-se duas modificações da fórmula inicial: F(pal) = K / Rα onde α = próximo a 1 (p.e. 0’9) F(pal) = K / R donde K = N / 10 onde N = tamanho do corpus (i.e., número total de ocorrências) Modelo de frequências: Lei de Zipf Prácticas com ferramentas estatísticas cat DonQuijote | ./tokenizer.perl | ./lei_zipf.perl Extração de informação léxico-semântica Matrizes “Palavra / Contexto” procedimento problemática problema princípio pressuposto presidente preço N_errado 3 0 0 0 1 0 0 resolver_N 0 1 11 0 0 0 0 finalizar_N 21 0 0 0 0 0 0 N_persistir assinar_por_N N_declarar N_complexo 0 0 0 1 2 0 0 0 24 0 0 5 0 0 0 0 0 0 0 0 0 45 34 0 0 0 0 0 Extração de informação léxico-semântica Listas de palavras semelhantes procedimento | processo, acção, legislação problemática | temática, problema, tema problema | questão, problemática, dificuldade princípio | regra, norma, critério pressuposto | requisito, condição, critério presidente | secretário, membro, director preço | valor, montante, taxa Extração de informação léxico-semântica Equivalentes de tradução coherence credibilidad, coherencia, claridad, rigor, visibilidad 2 cohesion cohesión, integración, solidaridad, estabilidad, igualdad 1 colleague colega, diputado, amigo, ministro, pueblo 1 comment comentario, observación, pregunta, reflexión, palabra 1,2 commitment compromiso, obligación, respuesta, responsabilidad, criterio 1,2 committee grupo, consejo, parlamento, comité, comisión 4 community unión, comunidad, estado, política, país 2 company empresa, industria, mercado, economía, sector 1 Extrações básicas: Concordâncias A concordância é uma listagem das ocorrências duma forma específica, dispostas de tal modo que a palavra de busca (aquela que se quere investigar) aparece centralizada e acompanhada do seu contexto original, isto é, das palavras que ocorrem junto com ela no corpus. 13 | acordo em nada prejudica os direitos, no 14 | e algumas destas zonas na Bélgica, na Itália e no 15 | e Tournai. Itália: província de Nápoles. 16 | veis; Considerando que algumas destas zonas no 17 | específica diz respeito às seguintes zonas de 18 | grama especial», a apresentar à Comissão pelo 19 | izado a pedido dos governos da Irlanda e do 20 | entre a Comunidade Económica Europeia e o Reino da Dinamarca, dos nacionais dinamarqueses que res Reino Unido estão situadas em regiões que têm já Reino Unido: região de Strathclyde, counties de Clevela Reino Unido estão situadas em regiões que têm já um elev Reino Unido: região de Strathclyde, condados de C Reino Unido. 2. O programa especial terá por fina Reino Unido, assim como da Comissão, recomendou que a r Reino da Noruega na sequência da adesão da República Hel Concordâncias Palavra de busca (search word) ou Nódulo: palavra (ou grupo de palavras) da qual o usuário tem interesse em obter uma concordância. Janela (Window): distância máxima entre o nódulo e a primeira palavra à esquerda (ou a ùltima à direita) dentro duma concordância. Palavras de contexto (context words): palavras que estão próximas do nódulo durante a busca (dentro da mesma janela). São opcionais, ou seja, é possível fazer uma concordância sem especificá-las.