Corpora paralelos: instrumentos auxiliares de pesquisa da linguagem especializada Anna Maria Becker Maciel1 Introdução Dentre os inúmeros recursos que a tecnologia moderna coloca à disposição daquele que trabalha com a linguagem especializada, destacam-se os corpora paralelos e suas ferramentas. Sua concepção não é nova, já muito antes da era da cristã eram usados. Os egípcios nos deixaram a pedra Rosetta e, na Idade Média, os monges passavam horas e horas na sua compilação. Hoje, explorar corpora paralelos não exige muito mais do que um computador e o acesso a Internet, e no entanto eles ainda são subutilizados pelos tradutores. Os corpora paralelos se revelam valiosos na seleção da equivalência tradutória de terminologias e de padrões lingüísticos em textos de áreas científicas, técnicas, jurídicas e outros campos do saber e da atividade humana. A escolha de fraseologias na língua alvo que correspondam a combinatórias equivalentes na língua fonte é raramente resolvida por dicionários e, muitas vezes, um termo e uma construção inadequados distorcem a comunicação ou, ao menos, revelam o trabalho de um tradutor ingênuo O uso de corpora paralelos pode ajudar a resolver essa dificuldade. Nessa direção, o meu objetivo neste trabalho é estimular o tradutor a integrar os corpora paralelos na sua rotina profissional como um recurso alternativo na pesquisa da expressão adequada em textos especializados. Para tanto, depois de explicar o que é um corpus paralelo e introduzir os conceitos básicos de sua constituição, recorro a um levantamento feito em trabalho anterior (VECCHIA; MACIEL, 2009) e apresento quatro corpora paralelos multilíngües que contemplam a língua portuguesa, disponibilizados na web sem custo para o usuário. Nos limites dessa comunicação, explico brevemente suas carcterísticas e mostro algumas de suas funcionalidades. Como conclusão, sugiro sítios que disponibilizam ferramentas auxiliares para a construção de um corpus paralelo personalizado. Corpus paralelo Corpus (pl. corpora) é o conjunto de grandes extensões de textos autênticos preparados para a pesquisa lingüística informatizada. Corpus paralelo é um corpus composto de conjuntos de textos originais e sua tradução, denominados textos paralelos ou bitextos, que são segmentados e alinhados em pares correspondentes. Sua composição é bilíngüe, quando são alinhadas a língua fonte e uma língua estrangeira; multilíngüe, quando ao lado da língua fonte aparecem as traduções para várias outras línguas. São unidirecionais, bidirecionais e 1 PPG LETRAS, UFRGS, BR mistos. Os primeiros oferecem os textos originais e sua tradução e permitem a análise das estratégias tradutórias da L1 para a L2; os bidirecionais se compõem de textos originais na L1 e sua tradução na L2 e de textos originais na L2 e sua tradução na L1, de modo a oportunizar o exame das equivalências em ambas as direções L1 para L2 e L2 para L1 (FrankenbergGarcia, 2008). A ferramenta concordanciador alinhado varre os textos e indica os segmentos que contêm as correspondências entre os itens solicitados pelo usuário. Corpora paralelos multilíngües de livre acesso Dentre os corpora paralelos multilíngües de livre acesso que contemplam língua portuguesa, sem menosprezar outros de igual ou superior qualidade, selecionei quatro que aqui apresento no simples propósito de incentivar curiosidade pela sua utilização2 O primeiro deles e o mais indicado para uma iniciação por sua simplicidade, acesso e fácil manejo é o corpus paralelo TERMISUL3 desenvolvido pelo Projeto Terminológico Cone Sul, da Universidade Federal do Rio Grande do Sul (UFRGS). Compreende um conjunto de vários corpora bilíngües: português, alemão, espanhol, francês, inglês e italiano, contemplando atos internacionais da temática ambiental, a constituição brasileira de 1988 e uma revista de pediatria (JPED). Iniciado em 2005, com o objetivo de proporcionar aos alunos de terminologia e tradução a experiência de integrar na rotina de trabalho alguns dos recursos tecnológicos disponíveis para sua profissão, TERMISUL tem a dimensão aproximada 1 milhão e 700 mil palavras e está em contínua atualização. A interface simples é amigável, o modo de pesquisa é bi-direcional, permite o uso de curingas e as instruções são em português, conforme se pode observar na figura nº1 a seguir. Figura nº 1: Interface do concordanciador alinhado do corpus paralelo TERMISUL O concordanciador alinhado busca nos bitextos as correspondências, apresentando paralelamente blocos de texto e assinalando na língua solicitada o item procurado, conforme se pode observar na figura nº2 abaixo. Figura nº2: Amostra de pesquisa no corpus paralelo TERMISUL 2 Para informações sobre outros corpora paralelos http://www6.ufrgs.br/termisul/biblioteca/apresentacoes/apresentacao_ELC_2009_VECCHIA_MACIEL.pdf 3 http://www6.ufrgs.br/termisul/ferramentas/Ferramentas.php Bem mais potente, mas também de uso fácil, é o corpus paralelo CLUVI: Corpus Lingüístico da Universidade de Vigo4, desenvolvido pelo Seminário de Lingüística Informática (SLI) dessa universidade a partir de 2003. Compõe-se de textos paralelos em combinações lingüísticas diferentes: bilíngües do galego com espanhol, inglês e francês; do euskara com espanhol, do inglês com português; tetralingüe com inglês-galego-francêsespanhol; tetralingüe com espanol-galego-catalão-euskara. Constantemente são acrescentados novas áreas temáticas e novos idiomas, perfazendo aproximadamente a dimensão de 28 milhões de palavras. Dirigido preferencialmente a tradutores, lexicógrafos e terminólogos, CLUVI contempla registros especializados do âmbito jurídico-administrativo-político, informática, divulgação científica, literário, turismo e legendas de vídeos. O alinhamento dos textos é sentencial e o concordanciador é bidirecional. O galego e o inglês são as línguas das instruções de uso. A figura nº 3 mostra um recorte da pesquisa de uma expressão em um dos corpora multilíngües que integram o CLUVI. Figura nº 3: Recorte da pesquisa no Corpus UNESCO do CLUVI The Polyglot Bible5 é o outro corpus paralelo selecionado. Contém o Evangelho de São Lucas em 30 idiomas desde o latim, línguas minoritárias como maori, cebuano, swahili, indonésio, haitiano creolo e versões do inglês datadas dos séculos XI, XIV, XVII e XX. Sua configuração permite a busca e a comparação dos segmentos paralelos em até 7 línguas simultaneamente. Destina-se sobretudo a lingüistas, tradutores e estudiosos da Bíblia. Seu criador e responsável é Mark Davies, da Brigam Young University, Utah, USA. O uso é bem 4 5 http://sli.uvigo.es/CLUVI/info_en.html http://davies-linguistics.byu.edu/polyglot/ simples, permite curingas e aceita expressões multi-palavra. O concordanciador destaca o item pesquisado em até duas línguas solicitadas, conforme se pode observar na figura n.º4 abaixo. Figura nº4: Recorte da pesquisa no corpus The Polyglot Bible O último corpus desta breve introdução ao uso de corpora paralelos é OPUS6 [Open source parallel corpus (Corpus paralelo de código aberto)]. Ele é aqui apresentado não só porque contempla mais de 80 línguas, mas porque permite buscas diferenciadas. Trata-se de um conjunto de corpora paralelos multilíngües, ferramentas e interfaces desenvolvidas no Departamento de Informática da Universidade de Upsala (Suécia) a partir de 2003. O objetivo de seu autor, Jörg Tiedemann, atualmente na Universidade de Gronigen, Holanda, é coletar da web documentos paralelos de várias áreas e de diferentes línguas e processá-los para que possam ser utilizados para extração multilíngüe de terminologias e análises estatísticas de tradução. Iniciado com a coleta de dados de localização e manuais de programas informáticos de código aberto (OpenOffice, KDE e PHP), OPUS foi ampliado com textos políticos e administrativos da União Européia (EU) e com uma grande base de dados de legendas de vídeos em várias línguas. Em contínua atualização, recebeu recentemente textos de dados biomédicos da Agência Européia de Medicina com mais de 300 milhões de palavras. Entre as inúmeras línguas contempladas, estão o português brasileiro, as línguas da União Europeia, línguas asiáticas, línguas minoritárias e línguas pouco pesquisadas (TIEDEMANN, 2009). O sistema permite diferentes tipos de pesquisas bidirecionais e multidirecionais, simples e complexas. A língua das instruções é o inglês. A figura n° 5 mostra a interface de busca no corpus que contem legendas de vídeo. Figura n.º5: Recorte da busca de amour no corpus OpenSubtitles 6 http://urd.let.rug.nl/tiedeman/OPUS Construção de um corpus paralelo Construir um corpus paralelo exige muito cuidado, esforço e paciência. Começa com a seleção e coleta do texto na língua fonte e a busca de sua tradução na língua alvo. Segue-se o alinhamento das duas versões, original e traduzida, passando pela compatibilização do formato gráfico com o devido pareamento de todos os detalhes. Isso significa muito mais do que colocá-los lado a lado, implica em encontrar pontos de correspondência entre as seqüências de itens lingüísticos nas duas línguas envolvidas. Essas correspondências podem ser assinaladas ao nível da palavra, da expressão frasal, da oração ou do discurso, determinando assim o alinhamento lexical, sentencial ou por blocos. Entre os s programas alinhadores de textos paralelos acessados sem custo e manejados com facilidade por quem não entende de informática, encontram-se os recursos oferecidos pela Linguateca7 no conjunto de ferramentas Corpógrafo em Portugual. No Brasil, pode-se recorrer ao Banco de dados e Ferramentas de Análise do CEPRIL, LAEL8 bem como ao NILC (Núcleo Institucional de Lingüística Computacional)9. No entanto, nenhum software faz um alinhamento perfeito, a correção manual é sempre necessária. Em que pese o trabalho exigido, a construção de um corpus paralelo personalizado é recompensadora e traz resultados inestimáveis para o desenvolvimento de uma pesquisa. Referências FRANKENBERG-GARCIA, A. (2008) Compilação e uso de corpora paralelos. In: TAGNIN, S.E.O.; VALE, O.A. Avanços da Lingüística de Corpus no Brasil. São Paulo: Humanitas, p.117-136. VECCHIA; A. D.; MACIEL, A.M.B. (2009) Corpora paralelos e concordanciadores alinhados: estado da questão. VIII Encontro de Lingüística de Corpus, Rio de Janeiro, UFRJ, 13-14 de novembro de 2009. TIEDEMANN, Jörg (2009) News from OPUS - A Collection of Multilingual Parallel Corpora with Tools and Interfaces. Disponível em http://stp.lingfil.uu.se/~joerg/published/ranlp-V.pdf Acesso em 25/01/2010 7 http://www.linguateca.pt/ http://www2.lael.pucsp.br/corpora/alinhador/ 9 :http://www.nilc.icmc.usp.br 8