Uma análise do perfil de entropia das estruturas sintáticas do português Marcely Zanon Boito, Luiza Hagemann, Rodrigo Wilkens, Aline Villavicencio Universidade Federal do Rio Grande do Sul, Porto Alegre, RS, Brasil Instituto de Informatica {mzboito, lahagemann, rodrigo.wilkens, avillavicencio}@inf.ufrgs.br Keywords: Simplificação de textos, comparação de perfil sintático, entropia 1 Introdução A linguagem é o principal meio de comunicação de necessidades, desejos, conceitos e conhecimento. Por ser tão rica e complexa, ela pode ser desafiadora e criar barreiras para uma compreensão clara da mensagem: o desconhecimento, seja de uma palavra ou de seus diferentes usos, pode resultar em um entendimento apenas aproximado do significado pretendido. Algumas condições clı́nicas, como a afasia, estão ligadas a dificuldades na compreensão da linguagem e criam obstáculos para o entendimento de palavras menos frequentes, frases longas, frases contendo voz passiva, conjunções e orações relativas [4]. Porém, a criação de regras manuais de simplificação é considerada muito custosa e geralmente aborda apenas a parte sintática, pois a adição de regras lexicais aumenta ainda mais o custo de geração [12]. Dentro deste contexto alguns trabalhos utilizam técnicas de tradução automática para criar regras de simplificação: utilizando os textos originais como lı́ngua de origem e os textos simplificados como lı́ngua de destino, assim eles obtêm um modelo de tradução capaz de realizar simplificações [12]. Esta abordagem ajuda a ampliar a cobertura das regras de simplificações, que é de cerca de 30% quando estas regras são feitas manualmente [14]. Uma das aplicações de técincas de simplificação textual automática para o Espanhol, por exemplo, foi motivada por um alto número de leitores funcionais e pelo alto custo para a simplificação manual, onde foi construı́do um sistema combinando um módulo baseado em regras e um de suporte estatı́stico [3]. Dentro desta iniciativa, os autores buscaram produzir materiais “fáceis de ler”, caracterizados por (a) serem textos curtos, (b) não necessitarem de conhecimento a priori sobre o conteúdo1 , (c) terem um grupo de leitores alvo e (d) serem sempre mais simples do que quando escritos na linguagem padrão. Tais sistemas em geral são desenvolvidos em termos de quatro tarefas de Processamento de Linguagem Natural necessárias para reduzir a dificuldade de leitura: (1) simplificação léxica (substituição de palavras por sinônimos simples); (2) redução sintática (quebra das sentenças mais complicadas); (3) redução de 1 Palavras ou contextos mais difı́ceis são explicados se for necessário. 2 conteúdo (eliminação de texto não relevante sem perda de gramaticalidade e significado); (4) clarificação (inclusão de explicações para termos não simplificáveis). Dependendo do sistema estas tarefas podem variar em termos da profundidade com que são tratadas. Por exemplo, para a redução sintática padrões em geral considerados para simplificações são cláusulas relativas, construções com gerúndio e particı́pio e coordenação entre cláusulas, frases verbais e entre objetos da sentença. Trabalhos como Simplext [13] (para o espanhol) e PorSimples [1] (para o português) são iniciativas importantes de sistemas que aplicam todo o processo de simplificação, possuindo etapas que ilustram tanto a simplificação lexical quanto a sintática. Apesar das iniciativas de sistemas de simplificação automática, há pouca padronização com relação a como simplificar [8], e as abordagens de simplificação são majoritariamente baseadas em regras [14]. Contudo, faltam trabalhos que indiquem as diferenças entre textos originais e simplificados. Há diversas formas de medir a complexidade sintática tais como o tamanho de uma pilha em um parser top-down [15]; profundidade média das árvores sintáticas [9]; e o nı́vel de desenvolvimento (Developmental Level), que define uma escala de complexidade baseada no uso de sintagmas. Em um nı́vel mais amplo, alguns trabalhos identificam diferenças entre corpora utilizando informação de entropia [10,7,11]. Motivado pela falta de estudos focados na alteração de quantia de informação provocada pelo processo de simplificação sintática, este trabalho objetiva a realização de uma análise sobre o impacto da entropia na simplificação de construções sintáticas. Para isso, foram estudadas as produções sintáticas retiradas de corpora paralelos de textos em português, Seção 2. A Seção 3 apresenta uma análise e discusão dos resultados obtidos, e, por fim, na Seção 4, a conclusão de nosso estudo e trabalhos futuros. 2 Metodologia e Corpus Neste trabalho, foram utilizados dois corpora formado da seleção de textos da série “Coleção é Só o Começo”, desenvolvida através da colaboração de editoras com o Ministério da Educação e Cultura e com foco no público com pouca desenvoltura literária. Os corpora contém cinco livros, sendo que a versão original dos textos forma um corpus e a versão simplificada forma o outro. A simplificação foi feita por linguistas, e os resultados foram disponibilizados pela editora L&PM. Para o processamento do corpus, foi necessária uma etapa de pré-processamento composta de três passos: (1) converter os arquivos originais em formatos PDF e DOCX para texto puro com a mesma codificação; (2) quebrar o texto em sentenças utilizando o RegEx Sentence Splitter2 , disponı́vel no GATE [6]; (3) anotar as sentenças com o analizador sintático LX parser [5]. 2 A quebra de sentenças tem que ser realizada com base no arquivo texto, pois a marcação original dos arquivos PDF quando traduzida para texto contém muito ruı́do, cortando incorretamente algumas sentenças e gerando outras incoerentes. 3 A fim de verificar o uso de construções sintáticas, foram extraı́das as contruções utilizadas através do módulo treebank (disponı́vel na API NLTK[2]). Por fim, calculamos a frequência de uso de cada construção sintática. Parte do processo Exemplo ...Havia mais de vinte anos que isso acontecia. Saindo do Arsenal (1) Entrada de Guerra, onde era subsecretário... (2) Sentence splitter Havia mais de vinte anos que isso acontecia. (ROOT (S (VP (V’ (V Havia) (NP (CARD’ (ADV’ (ADV mais) (ADV de)) (CARD vinte)) (N anos))) (3) LX parser (CP (C que) (S (NP (DEM isso)) (VP (V acontecia.))))))) ROOT ->S CARD ->’vinte’ S ->VP N ->’anos’ VP ->V’ CP CP ->C S V’ ->V NP C ->’que’ V ->’Havia’ S ->NP VP treebank NP ->CARD’ N NP ->DEM CARD’ ->ADV’ CARD DEM ->’isso’ ADV’ ->ADV ADV VP ->V ADV ->’mais’ V ->’acontecia.’ ADV ->’de’ 3 Análises e experimentos A partir das regras de construções, foi calculada a correlação de Spearman, com nı́vel de significância de 95%, para todas as produções em conjunto, bem como individualmente para terminais e variáveis, nos dois corpora (original e simplificado). Em complemento à correlação, realizamos o cálculo de contribuição de cada produção [7] através do uso da entropia (Equação 1) e da entropia cruzada (Equação 2). H(x) = − X P (xi )log2 P (xi ) (1) i H(x, P, Q) = − X P (xi )log2 Q(xi ) (2) i Os resultados da correlação indicaram um nı́vel de correlação semelhante e baixo entre as regras de construções e os terminais (respectivamente -0,343 e -0,426). A baixa correlação da contribuição das construções indica que o uso destas é diferente nos dois corpora estudados. 4 Analisando o conjunto de variáveis gerado através da combinação dos dois corpora, descobriu-se que este apresenta uma intersecção de 57,64%, ou seja, aproximadamente metade do conjunto de produções são comuns aos dois tipos de texto. Este valor de intersecção indica que existe um certo padrão de construção que pode ser considerado neutro. Dos outros 42,35%, foi identificado que 17,03% das produções são inerentes ao corpus simplificado, e as restantes 25,32% são exclusivas do corpus original. Excluindo os terminais que possuem contribuição zero para os textos simples e para os textos originais, encontrou-se uma correlação média (-0,721), que representa o uso similar nos dois corpora3 . Ao estudar o conjunto de terminais gerados neste trabalho, encontrou-se uma intersecção de 16,69% entre os dois corpora, uma forte indicação de que grande parte do vocabulário muda no processo de simplificação textual destas obras. Identificou-se, também, que 70,81% dos terminais estão presentes apenas no corpus original, contrastando com os 12,49% presentes apenas no simplificado. Isto é uma indicação de que, além de uma grande alteração no vocabulário na transição entre original e simplificado, ocorre uma grande diminuição na quantidade de palavras diferentes presentes no texto. Tabela 1. Principais 10 casos de relevância entre regras para construção dos textos texto original contribuiçãos contribuiçãoo texto simplificado contribuiçãos contribuiçãoo NP → N’ 61098 1 ROOT → S 1 9 NP → ART N’ 61097 2 NP → N 2 16 PP → P NP 61088 3 S → NP VP 3 5 VP → V NP 8 4 VP → V VP 4 31 S → NP VP 3 5 P → ’para’ 5 213 N’ → N A 61090 6 NP → PRS 6 99 S → VP 9 7 NP → ART N 7 18 P → ’de’ 61092 8 VP → V NP 8 4 ROOT → S 1 9 S → VP 9 7 N’ → N PP 61085 10 VP → V PP 10 48 Se forem desconsiderados casos muitos usuais na estruturação da lı́ngua (como S → NP VP) e produções do analisador sintático (como ROOT → S), as variáveis com grande contribuição para a construção de um tipo de texto são pouco relevantes para a construção do outro, Tabela 1. Neste contexto, sabemos que a construção das regras sintáticas - e mais especificamente a predicação sintática - é organizada em torno de um predicado 3 Como as palavras de contribuição zero em ambos os corpora representam palavras de uso similar, independentes de complexidade, estas são um bom ponto de partida para a criação de uma lista de termos de complexidade neutra (termos que não são indicativos de textos assessı́veis e nem de obras originais). 5 e seus complementos. Uma sentença bem formada exige que um predicado ocorra junto a outros elementos de determinadas classes gramaticais. No escopo dos corpora deste trabalho, temos uma presença de 128 regras do tipo X’ → X.4 Nos textos originais, elas representam uma média de 20,54% (desvio padrão de 0,006) da frequência das regras de construção. Já nas simplificadas, representam 16,88% (desvio padrão de 0,006). Entretanto, embora este modelo de produção possua uma frequência de ocorrência semelhante em ambos os textos, para textos originais, existem quatro produções com prime entre as de mais alta relevância, e nenhuma entre as versões simplificadas, Tabela 1. Ainda, analizando a relevância das regras originais com prime, notamos que todas possuem contribuição realmente baixa nos textos simplificados. Tabela 2. Similaridade entre os documentos, onde Alienista (A), Cortiço (C), Guarani (G), Escrava Isaura (E), Policarpo Quaresma (P) e s marca a versão simplificada e o a original. Similaridade 1 2 3 4 5 6 7 8 9 Ao Go Co Po Eo As Cs Ps Es Gs As Eo Po Co Go Cs Ao Ps Es Gs Co Po Go Eo Ao As Cs Ps Es Gs Cs Ps Es As Gs Eo Po Co Go Ao Eo Po Co Go Ao As Cs Ps Es Gs Es Ps Gs Cs As Eo Po Co Go Ao Go Co Po Eo Ao As Cs Ps Es Gs Gs Es Ps Cs As Eo Po Co Go Ao Po Co Eo Go Ao As Cs Ps Es Gs Ps Es Gs Cs As Eo Po Co Go Ao A partir disso, a similaridade das amostras foi calculada em relação às regras de construção. Foram calculadas as entropias e entropias cruzadas para obter a relação de similaridade entre os documentos. Utilizamos a entropia para coletar os dados de relevância das regras para cada versão de cada texto, e comparamos estes dados entre eles, a fim de analisar a distinção entre textos simples e complexos. Para cada versão, obteve-se uma lista de textos ordenada por afinidade, Tabela 2, na qual há maior similaridade entre os mesmos tipos de versão (originais e simplificados apresentam similaridade maior entre si), exceto pela versão simplificada “O Alienista” (A, na Tabela 2), que tem maior similaridade com os documentos originais. Pode-se explicar este fato pela diferença de tamanho entre as versões simplificada e original da obra, pois há uma redução de apenas 2500 4 As classes N, V, A, P, ADV, CONJ e C podem servir como predicados sintáticos, encabeçando a árvore sintática e com forma XP. Este XP dá origem a um (ou mais) elementos do tipo X. O caminho entre X e XP pode ter um elemento intermediário: X’ (X prime), que agrupa vários elementos do tipo X. Esta construção é caracterı́stica de textos não simplificados no corpus. 6 palavras e um aumento de cerca de 170 sentenças entre elas, Tabela 3. Comparado com as demais obras do corpus, esta é uma redução é pequena, pois nas demais foi observado que ela é de mais de 37 mil palavras e 1,8 mil sentenças. Tabela 3. Sentenças e palavras por documento. Texto #palavras #sentenças palavras/ #palavras #sentenças palavras/ (original) sentença (simples) sentença Alienista 16673 906 18,40 14109 1076 13,11 Cortiço 81025 5702 14,21 14958 1236 12,10 Guarani 108341 6026 17,98 19151 1571 12,19 Escrava Isaura 53503 3240 16,51 15729 1426 11,03 Policarpo Quaresma 67009 5099 13,14 19888 1560 12,75 4 Conclusões Movido por uma falta de estudos sobre as alterações causadas por uma simplificação, este trabalho realizou uma análise no impacto da entropia nas construções sintáticas. Os textos simplificados foram comparados e ranqueados com seus originais, e os seguintes aspectos (e respectivas conclusões) foram encontrados: Análise de estruturas: o cálculo de contribuição de cada regra para a formação dos dois tipos de textos indica que as regras sintáticas que formam os textos originais possuem pouco peso nos textos simplificados. Ainda, através do cálculo de correlação entre a contribuição das produções dos domı́nios, pudemos mostrar que existe pouca relação entre as regras existentes nos dois tipos de textos, confirmando que as regras de formação do texto original diferem das de seu equivalente simplificado. Relação entre regras: as regras sintáticas mais complexas sofreram modificação para serem transformadas em suas versões simplificadas, diminuindo consideravelmente a ocorrência de produções mais sofisticadas (por exemplo, o uso do prime). Consequentemente, um texto pode ser classificado entre simples e complexos utilizando a quantidade e a contribuição de suas estruturas sintáticas mais complexas. Afinidade entre estruturas: através do uso da entropia cruzada a similaridade entre os textos foi calculada indicando uma forte consistência nesta similaridade entre os textos de mesmo domı́nio (originais e simplificados). Esta medida pode ser usada para medir a afinidade de textos através de suas estrutura sintáticas, mostrando que a entropia pode ser utilizada como forma de relacionar os documentos quanto a sua complexidade. 7 A fim de identificar como ocorre o processo de troca de estruturas sintáticas, como trabalho futuro, pretendemos investigar o alinhamento de regras de construção dos corpora original e simplificado. Este estudo visa o desenvolvimento de ferramentas para aplicação em simplificação automática e construção de um conjunto de parâmetros para transformação de estruturas sintáticas. Agradecimentos Este trabalho foi apoiado pelo projeto Simplificação Textual de Expressões Complexas patrocinado pela Samsung Eletronica da Amazonia Ltda., através dos termos da lei número 8.248/91, e também contou com apoio do CNPq (482520/2012-4, 312184/2012-3, 551964/2011-1). Referências 1. Aluı́sio, S.M., Gasperin, C.: Fostering digital inclusion and accessibility: The porsimples project for simplification of portuguese texts pp. 46–53 (2010) 2. Bird, S.: Nltk: the natural language toolkit. In: Proceedings of the COLING/ACL on Interactive presentation sessions. pp. 69–72. COLING-ACL ’06, Association for Computational Linguistics, Stroudsburg, PA, USA (2006), http://dx.doi.org/10.3115/1225403.1225421 3. Bott, S., Saggion, H., Figueroa, D.: A hybrid system for spanish text simplification. In: Proceedings of the Third Workshop on Speech and Language Processing for Assistive Technologies. pp. 75–84. Association for Computational Linguistics (2012) 4. Carroll, J., Minnen, G., Canning, Y., Devlin, S., Tait, J.: Practical simplification of english newspaper text to assist aphasic readers. In: Proceedings of the AAAI-98 Workshop on Integrating Artificial Intelligence and Assistive Technology. pp. 7–10. Citeseer (1998) 5. Costa, F., Branco, A.: Lxgram: a deep linguistic processing grammar for portuguese. In: Computational processing of the Portuguese language, pp. 86–89. Springer (2010) 6. Cunningham, H., Maynard, D., Bontcheva, K., Tablan, V.: Gate: A framework and graphical development environment for robust nlp tools and applications. In: Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics (ACL 02) (2002) 7. Dagan, I., Lee, L., Pereira, F.: Similarity-based methods for word sense disambiguation. In: Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics. pp. 56–63. Association for Computational Linguistics (1997) 8. De Belder, J., Moens, M.F.: A dataset for the evaluation of lexical simplification. In: Computational Linguistics and Intelligent Text Processing, pp. 426–437. Springer (2012) 9. Frazier, L.: Syntactic complexity. Natural language parsing: Psychological, computational, and theoretical perspectives pp. 129–189 (1985) 10. Oakes, M.P.: Statistical measures for corpus profiling. In: Proceedings of the Open University Workshop on Corpus Profiling, London, UK (October 2008) (2008) 8 11. Oakes, M.P., Farrow, M.: Use of the chi-squared test to examine vocabulary differences in english language corpora representing seven different countries. Literary and linguistic computing 22(1), 85–99 (2007) 12. Paetzold, G.H., Specia, L.: Text simplification as tree transduction 13. Saggion, H., Gómez-Martı́nez, E., Anula, A., Bourg, L., Etayo, E.: Text simplification in simplext: Making texts more accessible (2011) 14. Siddharthan, A.: An architecture for a text simplification system. In: Language Engineering Conference, 2002. Proceedings. pp. 64–71. IEEE (2002) 15. Yngve, V.H.: A model and an hypothesis for language structure. Proceedings of the American philosophical society pp. 444–466 (1960)