Corpora paralelos: instrumentos auxiliares de pesquisa da linguagem especializada
Anna Maria Becker Maciel1
Introdução
Dentre os inúmeros recursos que a tecnologia moderna coloca à disposição daquele
que trabalha com a linguagem especializada, destacam-se os corpora paralelos e suas
ferramentas. Sua concepção não é nova, já muito antes da era da cristã eram usados. Os
egípcios nos deixaram a pedra Rosetta e, na Idade Média, os monges passavam horas e horas
na sua compilação. Hoje, explorar corpora paralelos não exige muito mais do que um
computador e o acesso a Internet, e no entanto eles ainda são subutilizados pelos tradutores.
Os corpora paralelos se revelam valiosos na seleção da equivalência tradutória de
terminologias e de padrões lingüísticos em textos de áreas científicas, técnicas, jurídicas e
outros campos do saber e da atividade humana. A escolha de fraseologias na língua alvo que
correspondam a combinatórias equivalentes na língua fonte é raramente resolvida por
dicionários e, muitas vezes, um termo e uma construção inadequados distorcem a
comunicação ou, ao menos, revelam o trabalho de um tradutor ingênuo
O uso de corpora paralelos pode ajudar a resolver essa dificuldade. Nessa direção, o
meu objetivo neste trabalho é estimular o tradutor a integrar os corpora paralelos na sua
rotina profissional como um recurso alternativo na pesquisa da expressão adequada em textos
especializados. Para tanto, depois de explicar o que é um corpus paralelo e introduzir os
conceitos básicos de sua constituição, recorro a um levantamento feito em trabalho anterior
(VECCHIA; MACIEL, 2009) e apresento quatro corpora paralelos multilíngües que
contemplam a língua portuguesa, disponibilizados na web sem custo para o usuário. Nos
limites dessa comunicação, explico brevemente suas carcterísticas e mostro algumas de suas
funcionalidades. Como conclusão, sugiro sítios que disponibilizam ferramentas auxiliares
para a construção de um corpus paralelo personalizado.
Corpus paralelo
Corpus (pl. corpora) é o conjunto de grandes extensões de textos autênticos
preparados para a pesquisa lingüística informatizada. Corpus paralelo é um corpus composto
de conjuntos de textos originais e sua tradução, denominados textos paralelos ou bitextos, que
são segmentados e alinhados em pares correspondentes. Sua composição é bilíngüe, quando
são alinhadas a língua fonte e uma língua estrangeira; multilíngüe, quando ao lado da língua
fonte aparecem as traduções para várias outras línguas. São unidirecionais, bidirecionais e
1
PPG LETRAS, UFRGS, BR
mistos. Os primeiros oferecem os textos originais e sua tradução e permitem a análise das
estratégias tradutórias da L1 para a L2; os bidirecionais se compõem de textos originais na L1
e sua tradução na L2 e de textos originais na L2 e sua tradução na L1, de modo a oportunizar
o exame das equivalências em ambas as direções L1 para L2 e L2 para L1 (FrankenbergGarcia, 2008). A ferramenta concordanciador alinhado varre os textos e indica os segmentos
que contêm as correspondências entre os itens solicitados pelo usuário.
Corpora paralelos multilíngües de livre acesso
Dentre os corpora paralelos multilíngües de livre acesso que contemplam língua
portuguesa, sem menosprezar outros de igual ou superior qualidade, selecionei quatro que
aqui apresento no simples propósito de incentivar curiosidade pela sua utilização2
O primeiro deles e o mais indicado para uma iniciação por sua simplicidade, acesso e
fácil manejo é o corpus paralelo TERMISUL3 desenvolvido pelo Projeto Terminológico
Cone Sul, da Universidade Federal do Rio Grande do Sul (UFRGS). Compreende um
conjunto de vários corpora bilíngües: português, alemão, espanhol, francês, inglês e italiano,
contemplando atos internacionais da temática ambiental, a constituição brasileira de 1988 e
uma revista de pediatria (JPED). Iniciado em 2005, com o objetivo de proporcionar aos
alunos de terminologia e tradução a experiência de integrar na rotina de trabalho alguns dos
recursos tecnológicos disponíveis para sua profissão, TERMISUL tem a dimensão
aproximada 1 milhão e 700 mil palavras e está em contínua atualização. A interface simples é
amigável, o modo de pesquisa é bi-direcional, permite o uso de curingas e as instruções são
em português, conforme se pode observar na figura nº1 a seguir.
Figura nº 1: Interface do concordanciador alinhado do corpus paralelo TERMISUL
O concordanciador alinhado busca nos bitextos as correspondências, apresentando
paralelamente blocos de texto e assinalando na língua solicitada o item procurado, conforme
se pode observar na figura nº2 abaixo.
Figura nº2: Amostra de pesquisa no corpus paralelo TERMISUL
2
Para informações sobre outros corpora paralelos
http://www6.ufrgs.br/termisul/biblioteca/apresentacoes/apresentacao_ELC_2009_VECCHIA_MACIEL.pdf
3
http://www6.ufrgs.br/termisul/ferramentas/Ferramentas.php
Bem mais potente, mas também de uso fácil, é o corpus paralelo CLUVI: Corpus
Lingüístico da Universidade de Vigo4, desenvolvido pelo Seminário de Lingüística
Informática (SLI) dessa universidade a partir de 2003. Compõe-se de textos paralelos em
combinações lingüísticas diferentes: bilíngües do galego com espanhol, inglês e francês; do
euskara com espanhol, do inglês com português; tetralingüe com inglês-galego-francêsespanhol; tetralingüe com espanol-galego-catalão-euskara. Constantemente são acrescentados
novas áreas temáticas e novos idiomas, perfazendo aproximadamente a dimensão de 28
milhões de palavras. Dirigido preferencialmente a tradutores, lexicógrafos e terminólogos,
CLUVI contempla registros especializados do âmbito jurídico-administrativo-político,
informática, divulgação científica, literário, turismo e legendas de vídeos. O alinhamento dos
textos é sentencial e o concordanciador é bidirecional. O galego e o inglês são as línguas das
instruções de uso. A figura nº 3 mostra um recorte da pesquisa de uma expressão em um dos
corpora multilíngües que integram o CLUVI.
Figura nº 3: Recorte da pesquisa no Corpus UNESCO do CLUVI
The Polyglot Bible5 é o outro corpus paralelo selecionado. Contém o Evangelho de
São Lucas em 30 idiomas desde o latim, línguas minoritárias como maori, cebuano, swahili,
indonésio, haitiano creolo e versões do inglês datadas dos séculos XI, XIV, XVII e XX. Sua
configuração permite a busca e a comparação dos segmentos paralelos em até 7 línguas
simultaneamente. Destina-se sobretudo a lingüistas, tradutores e estudiosos da Bíblia. Seu
criador e responsável é Mark Davies, da Brigam Young University, Utah, USA. O uso é bem
4
5
http://sli.uvigo.es/CLUVI/info_en.html
http://davies-linguistics.byu.edu/polyglot/
simples, permite curingas e aceita expressões multi-palavra. O concordanciador destaca o
item pesquisado em até duas línguas solicitadas, conforme se pode observar na figura n.º4
abaixo.
Figura nº4: Recorte da pesquisa no corpus The Polyglot Bible
O último corpus desta breve introdução ao uso de corpora paralelos é OPUS6 [Open
source parallel corpus (Corpus paralelo de código aberto)]. Ele é aqui apresentado não só
porque contempla mais de 80 línguas, mas porque permite buscas diferenciadas. Trata-se de
um conjunto de corpora paralelos multilíngües, ferramentas e interfaces desenvolvidas no
Departamento de Informática da Universidade de Upsala (Suécia) a partir de 2003. O
objetivo de seu autor, Jörg Tiedemann, atualmente na Universidade de Gronigen, Holanda, é
coletar da web documentos paralelos de várias áreas e de diferentes línguas e processá-los
para que possam ser utilizados para extração multilíngüe de terminologias e análises
estatísticas de tradução.
Iniciado com a coleta de dados de localização e manuais de programas informáticos
de código aberto (OpenOffice, KDE e PHP), OPUS foi ampliado com textos políticos e
administrativos da União Européia (EU) e com uma grande base de dados de legendas de
vídeos em várias línguas. Em contínua atualização, recebeu recentemente textos de dados
biomédicos da Agência Européia de Medicina com mais de 300 milhões de palavras. Entre as
inúmeras línguas contempladas, estão o português brasileiro, as línguas da União Europeia,
línguas asiáticas, línguas minoritárias e línguas pouco pesquisadas (TIEDEMANN, 2009). O
sistema permite diferentes tipos de pesquisas bidirecionais e multidirecionais, simples e
complexas. A língua das instruções é o inglês. A figura n° 5 mostra a interface de busca no
corpus que contem legendas de vídeo.
Figura n.º5: Recorte da busca de amour no corpus OpenSubtitles
6
http://urd.let.rug.nl/tiedeman/OPUS
Construção de um corpus paralelo
Construir um corpus paralelo exige muito cuidado, esforço e paciência. Começa com
a seleção e coleta do texto na língua fonte e a busca de sua tradução na língua alvo. Segue-se
o alinhamento das duas versões, original e traduzida, passando pela compatibilização do
formato gráfico com o devido pareamento de todos os detalhes. Isso significa muito mais do
que colocá-los lado a lado, implica em encontrar pontos de correspondência entre as
seqüências de itens lingüísticos nas duas línguas envolvidas. Essas correspondências podem
ser assinaladas ao nível da palavra, da expressão frasal, da oração ou do discurso,
determinando assim o alinhamento lexical, sentencial ou por blocos. Entre os s programas
alinhadores de textos paralelos acessados sem custo e manejados com facilidade por quem
não entende de informática, encontram-se os recursos oferecidos pela Linguateca7 no
conjunto de ferramentas Corpógrafo em Portugual. No Brasil, pode-se recorrer ao Banco de
dados e Ferramentas de Análise do CEPRIL, LAEL8 bem como ao NILC (Núcleo
Institucional de Lingüística Computacional)9. No entanto, nenhum software faz um
alinhamento perfeito, a correção manual é sempre necessária. Em que pese o trabalho
exigido, a construção de um corpus paralelo personalizado é recompensadora e traz
resultados inestimáveis para o desenvolvimento de uma pesquisa.
Referências
FRANKENBERG-GARCIA, A. (2008) Compilação e uso de corpora paralelos. In: TAGNIN, S.E.O.; VALE,
O.A. Avanços da Lingüística de Corpus no Brasil. São Paulo: Humanitas, p.117-136.
VECCHIA; A. D.; MACIEL, A.M.B. (2009) Corpora paralelos e concordanciadores alinhados: estado da
questão. VIII Encontro de Lingüística de Corpus, Rio de Janeiro, UFRJ, 13-14 de novembro de 2009.
TIEDEMANN, Jörg (2009) News from OPUS - A Collection of Multilingual Parallel Corpora with Tools and
Interfaces. Disponível em http://stp.lingfil.uu.se/~joerg/published/ranlp-V.pdf Acesso em 25/01/2010
7
http://www.linguateca.pt/
http://www2.lael.pucsp.br/corpora/alinhador/
9
:http://www.nilc.icmc.usp.br
8

Baixar

Corpora paralelos: instrumentos auxiliares de pesquisa da

Corpora paralelos: instrumentos auxiliares de pesquisa da

Estudo exploratório de padrões da linguagem legislativa

defesa

ppt - Linguateca

Metodologia do caso concreto e tecnologias educacionais

ppt - Linguateca

Creating parallel and comparable corpora for work in domain

Slide 1

o vocabulário da língua oral em Portugal e no Brasil

Slide 1 - Sabine Mendes Moura

artigo GEL Ana Julia Perrotti-Garcia

Corpus