Uma análise do perfil de entropia das estruturas
sintáticas do português
Marcely Zanon Boito, Luiza Hagemann, Rodrigo Wilkens, Aline Villavicencio
Universidade Federal do Rio Grande do Sul, Porto Alegre, RS, Brasil
Instituto de Informatica
{mzboito, lahagemann, rodrigo.wilkens, avillavicencio}@inf.ufrgs.br
Keywords: Simplificação de textos, comparação de perfil sintático, entropia
1
Introdução
A linguagem é o principal meio de comunicação de necessidades, desejos, conceitos e conhecimento. Por ser tão rica e complexa, ela pode ser desafiadora e
criar barreiras para uma compreensão clara da mensagem: o desconhecimento,
seja de uma palavra ou de seus diferentes usos, pode resultar em um entendimento apenas aproximado do significado pretendido. Algumas condições clı́nicas,
como a afasia, estão ligadas a dificuldades na compreensão da linguagem e criam
obstáculos para o entendimento de palavras menos frequentes, frases longas, frases contendo voz passiva, conjunções e orações relativas [4].
Porém, a criação de regras manuais de simplificação é considerada muito
custosa e geralmente aborda apenas a parte sintática, pois a adição de regras
lexicais aumenta ainda mais o custo de geração [12]. Dentro deste contexto alguns trabalhos utilizam técnicas de tradução automática para criar regras de
simplificação: utilizando os textos originais como lı́ngua de origem e os textos
simplificados como lı́ngua de destino, assim eles obtêm um modelo de tradução
capaz de realizar simplificações [12]. Esta abordagem ajuda a ampliar a cobertura das regras de simplificações, que é de cerca de 30% quando estas regras são
feitas manualmente [14].
Uma das aplicações de técincas de simplificação textual automática para o
Espanhol, por exemplo, foi motivada por um alto número de leitores funcionais e
pelo alto custo para a simplificação manual, onde foi construı́do um sistema combinando um módulo baseado em regras e um de suporte estatı́stico [3]. Dentro
desta iniciativa, os autores buscaram produzir materiais “fáceis de ler”, caracterizados por (a) serem textos curtos, (b) não necessitarem de conhecimento a
priori sobre o conteúdo1 , (c) terem um grupo de leitores alvo e (d) serem sempre
mais simples do que quando escritos na linguagem padrão.
Tais sistemas em geral são desenvolvidos em termos de quatro tarefas de
Processamento de Linguagem Natural necessárias para reduzir a dificuldade de
leitura: (1) simplificação léxica (substituição de palavras por sinônimos simples);
(2) redução sintática (quebra das sentenças mais complicadas); (3) redução de
1
Palavras ou contextos mais difı́ceis são explicados se for necessário.
2
conteúdo (eliminação de texto não relevante sem perda de gramaticalidade e
significado); (4) clarificação (inclusão de explicações para termos não simplificáveis). Dependendo do sistema estas tarefas podem variar em termos da profundidade com que são tratadas. Por exemplo, para a redução sintática padrões
em geral considerados para simplificações são cláusulas relativas, construções
com gerúndio e particı́pio e coordenação entre cláusulas, frases verbais e entre
objetos da sentença. Trabalhos como Simplext [13] (para o espanhol) e PorSimples [1] (para o português) são iniciativas importantes de sistemas que aplicam
todo o processo de simplificação, possuindo etapas que ilustram tanto a simplificação lexical quanto a sintática.
Apesar das iniciativas de sistemas de simplificação automática, há pouca
padronização com relação a como simplificar [8], e as abordagens de simplificação
são majoritariamente baseadas em regras [14]. Contudo, faltam trabalhos que
indiquem as diferenças entre textos originais e simplificados.
Há diversas formas de medir a complexidade sintática tais como o tamanho de uma pilha em um parser top-down [15]; profundidade média das árvores
sintáticas [9]; e o nı́vel de desenvolvimento (Developmental Level), que define
uma escala de complexidade baseada no uso de sintagmas. Em um nı́vel mais amplo, alguns trabalhos identificam diferenças entre corpora utilizando informação
de entropia [10,7,11].
Motivado pela falta de estudos focados na alteração de quantia de informação
provocada pelo processo de simplificação sintática, este trabalho objetiva a realização de uma análise sobre o impacto da entropia na simplificação de construções sintáticas. Para isso, foram estudadas as produções sintáticas retiradas
de corpora paralelos de textos em português, Seção 2. A Seção 3 apresenta uma
análise e discusão dos resultados obtidos, e, por fim, na Seção 4, a conclusão de
nosso estudo e trabalhos futuros.
2
Metodologia e Corpus
Neste trabalho, foram utilizados dois corpora formado da seleção de textos da
série “Coleção é Só o Começo”, desenvolvida através da colaboração de editoras
com o Ministério da Educação e Cultura e com foco no público com pouca
desenvoltura literária. Os corpora contém cinco livros, sendo que a versão original
dos textos forma um corpus e a versão simplificada forma o outro. A simplificação
foi feita por linguistas, e os resultados foram disponibilizados pela editora L&PM.
Para o processamento do corpus, foi necessária uma etapa de pré-processamento
composta de três passos: (1) converter os arquivos originais em formatos PDF
e DOCX para texto puro com a mesma codificação; (2) quebrar o texto em
sentenças utilizando o RegEx Sentence Splitter2 , disponı́vel no GATE [6]; (3)
anotar as sentenças com o analizador sintático LX parser [5].
2
A quebra de sentenças tem que ser realizada com base no arquivo texto, pois a
marcação original dos arquivos PDF quando traduzida para texto contém muito
ruı́do, cortando incorretamente algumas sentenças e gerando outras incoerentes.
3
A fim de verificar o uso de construções sintáticas, foram extraı́das as contruções utilizadas através do módulo treebank (disponı́vel na API NLTK[2]). Por
fim, calculamos a frequência de uso de cada construção sintática.
Parte do processo
Exemplo
...Havia mais de vinte anos que isso
acontecia. Saindo do Arsenal
(1) Entrada
de Guerra, onde era subsecretário...
(2) Sentence splitter Havia mais de vinte anos que isso acontecia.
(ROOT (S (VP (V’ (V Havia) (NP (CARD’ (ADV’
(ADV mais) (ADV de)) (CARD vinte)) (N anos)))
(3) LX parser
(CP (C que) (S (NP (DEM isso)) (VP (V
acontecia.)))))))
ROOT ->S
CARD ->’vinte’
S ->VP
N ->’anos’
VP ->V’ CP
CP ->C S
V’ ->V NP
C ->’que’
V ->’Havia’
S ->NP VP
treebank
NP ->CARD’ N
NP ->DEM
CARD’ ->ADV’ CARD
DEM ->’isso’
ADV’ ->ADV ADV
VP ->V
ADV ->’mais’
V ->’acontecia.’
ADV ->’de’
3
Análises e experimentos
A partir das regras de construções, foi calculada a correlação de Spearman,
com nı́vel de significância de 95%, para todas as produções em conjunto, bem
como individualmente para terminais e variáveis, nos dois corpora (original e
simplificado). Em complemento à correlação, realizamos o cálculo de contribuição
de cada produção [7] através do uso da entropia (Equação 1) e da entropia
cruzada (Equação 2).
H(x) = −
X
P (xi )log2 P (xi )
(1)
i
H(x, P, Q) = −
X
P (xi )log2 Q(xi )
(2)
i
Os resultados da correlação indicaram um nı́vel de correlação semelhante e
baixo entre as regras de construções e os terminais (respectivamente -0,343 e
-0,426). A baixa correlação da contribuição das construções indica que o uso
destas é diferente nos dois corpora estudados.
4
Analisando o conjunto de variáveis gerado através da combinação dos dois
corpora, descobriu-se que este apresenta uma intersecção de 57,64%, ou seja,
aproximadamente metade do conjunto de produções são comuns aos dois tipos de
texto. Este valor de intersecção indica que existe um certo padrão de construção
que pode ser considerado neutro. Dos outros 42,35%, foi identificado que 17,03%
das produções são inerentes ao corpus simplificado, e as restantes 25,32% são
exclusivas do corpus original.
Excluindo os terminais que possuem contribuição zero para os textos simples
e para os textos originais, encontrou-se uma correlação média (-0,721), que representa o uso similar nos dois corpora3 . Ao estudar o conjunto de terminais gerados
neste trabalho, encontrou-se uma intersecção de 16,69% entre os dois corpora,
uma forte indicação de que grande parte do vocabulário muda no processo de
simplificação textual destas obras.
Identificou-se, também, que 70,81% dos terminais estão presentes apenas no
corpus original, contrastando com os 12,49% presentes apenas no simplificado.
Isto é uma indicação de que, além de uma grande alteração no vocabulário
na transição entre original e simplificado, ocorre uma grande diminuição na
quantidade de palavras diferentes presentes no texto.
Tabela 1. Principais 10 casos de relevância entre regras para construção dos textos
texto original contribuiçãos contribuiçãoo texto simplificado contribuiçãos contribuiçãoo
NP → N’
61098
1
ROOT → S
1
9
NP → ART N’
61097
2
NP → N
2
16
PP → P NP
61088
3
S → NP VP
3
5
VP → V NP
8
4
VP → V VP
4
31
S → NP VP
3
5
P → ’para’
5
213
N’ → N A
61090
6
NP → PRS
6
99
S → VP
9
7
NP → ART N
7
18
P → ’de’
61092
8
VP → V NP
8
4
ROOT → S
1
9
S → VP
9
7
N’ → N PP
61085
10
VP → V PP
10
48
Se forem desconsiderados casos muitos usuais na estruturação da lı́ngua
(como S → NP VP) e produções do analisador sintático (como ROOT → S),
as variáveis com grande contribuição para a construção de um tipo de texto são
pouco relevantes para a construção do outro, Tabela 1.
Neste contexto, sabemos que a construção das regras sintáticas - e mais
especificamente a predicação sintática - é organizada em torno de um predicado
3
Como as palavras de contribuição zero em ambos os corpora representam palavras
de uso similar, independentes de complexidade, estas são um bom ponto de partida
para a criação de uma lista de termos de complexidade neutra (termos que não são
indicativos de textos assessı́veis e nem de obras originais).
5
e seus complementos. Uma sentença bem formada exige que um predicado ocorra
junto a outros elementos de determinadas classes gramaticais.
No escopo dos corpora deste trabalho, temos uma presença de 128 regras do
tipo X’ → X.4 Nos textos originais, elas representam uma média de 20,54% (desvio padrão de 0,006) da frequência das regras de construção. Já nas simplificadas,
representam 16,88% (desvio padrão de 0,006).
Entretanto, embora este modelo de produção possua uma frequência de
ocorrência semelhante em ambos os textos, para textos originais, existem quatro produções com prime entre as de mais alta relevância, e nenhuma entre as
versões simplificadas, Tabela 1. Ainda, analizando a relevância das regras originais com prime, notamos que todas possuem contribuição realmente baixa nos
textos simplificados.
Tabela 2. Similaridade entre os documentos, onde Alienista (A), Cortiço (C), Guarani
(G), Escrava Isaura (E), Policarpo Quaresma (P) e s marca a versão simplificada e o
a original.
Similaridade
1
2
3
4
5
6
7
8
9
Ao
Go
Co
Po
Eo
As
Cs
Ps
Es
Gs
As
Eo
Po
Co
Go
Cs
Ao
Ps
Es
Gs
Co
Po
Go
Eo
Ao
As
Cs
Ps
Es
Gs
Cs
Ps
Es
As
Gs
Eo
Po
Co
Go
Ao
Eo
Po
Co
Go
Ao
As
Cs
Ps
Es
Gs
Es
Ps
Gs
Cs
As
Eo
Po
Co
Go
Ao
Go
Co
Po
Eo
Ao
As
Cs
Ps
Es
Gs
Gs
Es
Ps
Cs
As
Eo
Po
Co
Go
Ao
Po
Co
Eo
Go
Ao
As
Cs
Ps
Es
Gs
Ps
Es
Gs
Cs
As
Eo
Po
Co
Go
Ao
A partir disso, a similaridade das amostras foi calculada em relação às regras
de construção. Foram calculadas as entropias e entropias cruzadas para obter a
relação de similaridade entre os documentos. Utilizamos a entropia para coletar
os dados de relevância das regras para cada versão de cada texto, e comparamos
estes dados entre eles, a fim de analisar a distinção entre textos simples e complexos. Para cada versão, obteve-se uma lista de textos ordenada por afinidade,
Tabela 2, na qual há maior similaridade entre os mesmos tipos de versão (originais e simplificados apresentam similaridade maior entre si), exceto pela versão
simplificada “O Alienista” (A, na Tabela 2), que tem maior similaridade com os
documentos originais. Pode-se explicar este fato pela diferença de tamanho entre
as versões simplificada e original da obra, pois há uma redução de apenas 2500
4
As classes N, V, A, P, ADV, CONJ e C podem servir como predicados sintáticos,
encabeçando a árvore sintática e com forma XP. Este XP dá origem a um (ou mais)
elementos do tipo X. O caminho entre X e XP pode ter um elemento intermediário:
X’ (X prime), que agrupa vários elementos do tipo X. Esta construção é caracterı́stica
de textos não simplificados no corpus.
6
palavras e um aumento de cerca de 170 sentenças entre elas, Tabela 3. Comparado com as demais obras do corpus, esta é uma redução é pequena, pois nas
demais foi observado que ela é de mais de 37 mil palavras e 1,8 mil sentenças.
Tabela 3. Sentenças e palavras por documento.
Texto
#palavras #sentenças palavras/ #palavras #sentenças palavras/
(original)
sentença (simples)
sentença
Alienista
16673
906
18,40
14109
1076
13,11
Cortiço
81025
5702
14,21
14958
1236
12,10
Guarani
108341
6026
17,98
19151
1571
12,19
Escrava Isaura
53503
3240
16,51
15729
1426
11,03
Policarpo Quaresma 67009
5099
13,14
19888
1560
12,75
4
Conclusões
Movido por uma falta de estudos sobre as alterações causadas por uma simplificação, este trabalho realizou uma análise no impacto da entropia nas construções sintáticas. Os textos simplificados foram comparados e ranqueados com
seus originais, e os seguintes aspectos (e respectivas conclusões) foram encontrados:
Análise de estruturas: o cálculo de contribuição de cada regra para a formação
dos dois tipos de textos indica que as regras sintáticas que formam os textos
originais possuem pouco peso nos textos simplificados. Ainda, através do
cálculo de correlação entre a contribuição das produções dos domı́nios, pudemos mostrar que existe pouca relação entre as regras existentes nos dois
tipos de textos, confirmando que as regras de formação do texto original
diferem das de seu equivalente simplificado.
Relação entre regras: as regras sintáticas mais complexas sofreram modificação para serem transformadas em suas versões simplificadas, diminuindo
consideravelmente a ocorrência de produções mais sofisticadas (por exemplo, o uso do prime). Consequentemente, um texto pode ser classificado
entre simples e complexos utilizando a quantidade e a contribuição de suas
estruturas sintáticas mais complexas.
Afinidade entre estruturas: através do uso da entropia cruzada a similaridade entre os textos foi calculada indicando uma forte consistência nesta
similaridade entre os textos de mesmo domı́nio (originais e simplificados).
Esta medida pode ser usada para medir a afinidade de textos através de
suas estrutura sintáticas, mostrando que a entropia pode ser utilizada como
forma de relacionar os documentos quanto a sua complexidade.
7
A fim de identificar como ocorre o processo de troca de estruturas sintáticas,
como trabalho futuro, pretendemos investigar o alinhamento de regras de construção dos corpora original e simplificado. Este estudo visa o desenvolvimento
de ferramentas para aplicação em simplificação automática e construção de um
conjunto de parâmetros para transformação de estruturas sintáticas.
Agradecimentos
Este trabalho foi apoiado pelo projeto Simplificação Textual de Expressões
Complexas patrocinado pela Samsung Eletronica da Amazonia Ltda., através
dos termos da lei número 8.248/91, e também contou com apoio do CNPq
(482520/2012-4, 312184/2012-3, 551964/2011-1).
Referências
1. Aluı́sio, S.M., Gasperin, C.: Fostering digital inclusion and accessibility: The porsimples project for simplification of portuguese texts pp. 46–53 (2010)
2. Bird, S.: Nltk: the natural language toolkit. In: Proceedings of the COLING/ACL on Interactive presentation sessions. pp. 69–72. COLING-ACL
’06, Association for Computational Linguistics, Stroudsburg, PA, USA (2006),
http://dx.doi.org/10.3115/1225403.1225421
3. Bott, S., Saggion, H., Figueroa, D.: A hybrid system for spanish text simplification. In: Proceedings of the Third Workshop on Speech and Language Processing
for Assistive Technologies. pp. 75–84. Association for Computational Linguistics
(2012)
4. Carroll, J., Minnen, G., Canning, Y., Devlin, S., Tait, J.: Practical simplification of
english newspaper text to assist aphasic readers. In: Proceedings of the AAAI-98
Workshop on Integrating Artificial Intelligence and Assistive Technology. pp. 7–10.
Citeseer (1998)
5. Costa, F., Branco, A.: Lxgram: a deep linguistic processing grammar for portuguese. In: Computational processing of the Portuguese language, pp. 86–89. Springer (2010)
6. Cunningham, H., Maynard, D., Bontcheva, K., Tablan, V.: Gate: A framework
and graphical development environment for robust nlp tools and applications. In:
Proceedings of the 40th Anniversary Meeting of the Association for Computational
Linguistics (ACL 02) (2002)
7. Dagan, I., Lee, L., Pereira, F.: Similarity-based methods for word sense disambiguation. In: Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics. pp. 56–63. Association for Computational
Linguistics (1997)
8. De Belder, J., Moens, M.F.: A dataset for the evaluation of lexical simplification. In:
Computational Linguistics and Intelligent Text Processing, pp. 426–437. Springer
(2012)
9. Frazier, L.: Syntactic complexity. Natural language parsing: Psychological, computational, and theoretical perspectives pp. 129–189 (1985)
10. Oakes, M.P.: Statistical measures for corpus profiling. In: Proceedings of the Open
University Workshop on Corpus Profiling, London, UK (October 2008) (2008)
8
11. Oakes, M.P., Farrow, M.: Use of the chi-squared test to examine vocabulary differences in english language corpora representing seven different countries. Literary
and linguistic computing 22(1), 85–99 (2007)
12. Paetzold, G.H., Specia, L.: Text simplification as tree transduction
13. Saggion, H., Gómez-Martı́nez, E., Anula, A., Bourg, L., Etayo, E.: Text simplification in simplext: Making texts more accessible (2011)
14. Siddharthan, A.: An architecture for a text simplification system. In: Language
Engineering Conference, 2002. Proceedings. pp. 64–71. IEEE (2002)
15. Yngve, V.H.: A model and an hypothesis for language structure. Proceedings of
the American philosophical society pp. 444–466 (1960)
Download

Uma análise do perfil de entropia das estruturas sintáticas do