Anexo 3: Proposta de tradução para Translation, de Warren Weaver Tradução Warren Weaver Basta mencionar o facto óbvio de a multiplicidade de línguas dificultar o intercâmbio cultural entre as pessoas na Terra, o que se torna um sério obstáculo à compreensão mundial. O presente memorando, assumindo a validade e importância deste facto, contém alguns comentários e sugestões baseados na possibilidade de contribuírem, pelo menos, com alguma coisa para a solução do problema da tradução a nível mundial, através do uso de computadores eletrónicos de grande capacidade, flexibilidade e rapidez. As sugestões presentes neste memorando estarão com certeza incompletas e ingénuas, podendo ser até obviamente tolas para um perito na área – para o autor não o é certamente. Uma Anedota de Guerra – Invariantes de Língua Durante a guerra um notável matemático a quem chamaremos P, um exalemão que passou algum tempo na Universidade de Istambul e que lá aprendeu turco, contou a W.W a seguinte história. Um colega matemático, sabendo que P tinha um interesse amador em criptografia, chegou ao pé de P uma manhã afirmando que tinha descoberto uma técnica de descodificação, e pediu a P para preparar uma mensagem codificada na qual conseguisse experimentar o seu plano. P escreveu em turco uma mensagem que continha cerca de 100 palavras, e simplificou-a ao substituir as letras c, ğ, ı, ş, ö e ü por c, g, i, o, s e u respetivamente; e depois, utilizando algo mais complexo que uma simples cifra de substituição, reduziu a mensagem a uma coluna de números com 106 cinco dígitos. No dia seguinte (e o tempo que foi exigiu é importante) o seu colega trouxe o seu resultado de volta, e realçou que a correspondência não tinha tido 107 _____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver qualquer sucesso. Porém, a sequência de letras que ele descreveu, quando devidamente agrupadas em palavras, e quando corrigida ao de leve (não que fosse necessária uma correção cuidadosa que pudesse incomodar aqueles que conhecem bem a língua) acabou por ser a mensagem original em turco. O ponto principal, pelo menos tendo em conta os objetivos presentes, é o de que a descodificação foi feita por alguém que não sabia turco, e não sabia que a mensagem estava em turco. Por outro lado, toda a gente conhece o famoso exemplo durante a Primeira Guerra Mundial, quando as nossas forças criptográficas demoraram semanas ou meses a determinar que uma mensagem que tinha sido intercetada estava codificada em japonês; e demorou relativamente pouco tempo a decifrá-la, assim que souberam qual era a língua. Durante a guerra, quando toda a área da criptografia era tão secreta, parecia indiscreto questionar os detalhes relativos a esta história; mas não é difícil adivinhar que este processo fez uso da frequência de letras, da combinação de letras, intervalos entre letras e combinações de letras, padrões de letras, entre outros, que são até determinado nível independentes da língua utilizada. Isto leva qualquer pessoa a supor que, nas diversas instâncias nas quais o homem tem inventado e desenvolvido línguas, existem certas propriedades invariantes que, uma vez mais, não sendo precisas são até certo ponto estatisticamente comuns e úteis a todas as línguas. Este pode ser, tanto quanto sei, um famoso teorema de filologia. Na verdade, as conhecidas teorias de Müller e outros para a origem da linguagem, como a teoria bow-wow, woof-woof, entre outras, levariam qualquer pessoa a esperar que todas as línguas tivessem características em comum, devido ao seu mecanismo essencialmente semelhante de desenvolvimento. E, em qualquer caso, existem razões óbvias que tornam essa suposição bastante provável. Todas as línguas – pelo menos aquelas que aqui temos em consideração – foram inventadas e desenvolvidas pelos homens; e todos os homens, sejam eles bantu ou gregos, islandeses ou peruanos têm essencialmente o mesmo equipamento para lidar com este problema. Todos possuem órgãos vocais capazes de produzir o mesmo conjunto de sons (com pequenas exceções, como o clique da glote dos nativos africanos). Os seus cérebros partilham a mesma complexidade potencial. As exigências básicas da língua têm que ter emergido de formas relativamente semelhantes em lugares diferentes, e talvez, em alturas diferentes. Esperar-se-iam grandes diferenças superficiais; mas parece mais sensato esperar que certos aspetos básicos, e provavelmente pouco óbvios, sejam comuns a 107 _____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver todos os desenvolvimentos. É um pouco como observar que as árvores diferem amplamente em diversas características, e mesmo assim existem características básicas em comum – certas qualidades essenciais “do (ser) árvore” – que todas as árvores partilham, quer cresçam na Polónia, em Ceilão ou na Colômbia. Para além do mais (e este último ponto é o mais importante) um sul-americano não tem, em geral, qualquer problema em reconhecer que uma árvore norueguesa é uma árvore. A ideia de elementos básicos comuns em todas as línguas recebeu, mais tarde, apoio de uma afirmação que o lógico e matemático Reichenbach fez a W.W. Reichenbach passou algum tempo em Istambul e, como muitos académicos alemães que tinham ido para lá, estava perplexo e irritado com a língua turca. A gramática da língua parecia-lhe tão grotesca que, por fim, acabou por sentir-se estimulado a estudar a sua estrutura lógica. Esta vontade, por sua vez, fez com que se interessasse pela estrutura lógica da gramática de muitas outras línguas; e, desconhecendo o interesse de W.W. no assunto, Reichenbach observou: “fiquei espantado por ter descoberto que (aparentemente) para uma grande diversidade de línguas, as estruturas básicas e lógicas têm características importantes em comum”. Reichenbach disse que iria publicar isto e enviaria o material a W.W., mas nunca apareceu nada. Suspeita-se que exista uma grande quantidade de provas para este ponto de vista geral – pelo menos partes destas provas aparecem espontaneamente, mesmo para aqueles que não lêem muito da literatura relevante. Por exemplo: uma nota publicada na Revista Science acerca da investigação sobre a semântica comparada de Erwin Reifler, da Universidade de Washington [University of Washington], afirma que “as palavras chinesas para „to shoot‟ [disparar] e „to dismiss‟ [dar licença para se retirar] mostram uma concordância gráfica e fonológica notável”. Tudo isto parece demasiado estranho, até que alguém pensa nos dois significados de “to fire” [“despedir” e “disparar”], em inglês. Será apenas coincidência? O quão difundidas estão estas correlações? Tradução e Computadores Tendo tido uma exposição considerável aos problemas de conceção de computadores durante a guerra, e tendo consciência da velocidade, da capacidade, e da flexibilidade lógica possível dos computadores eletrónicos modernos, é bastante natural que W.W. tenha pensado, há muitos anos atrás, na possibilidade de tais 108 _____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver computadores serem utilizados para tradução. A 4 de Março de 1947, depois de ter dado voltas a esta ideia durante alguns anos, W.W escreveu ao professor Norbert Wiener do MIT (Massachussetts Institute of Techonology) nos seguintes termos: Uma das coisas que lhe queria perguntar é o seguinte: um problema demasiado sério, para a UNESCO e para o futuro do planeta, um futuro pacífico e que valha a pena, é o problema da tradução, uma vez que afeta inevitavelmente a comunicação entre as pessoas. Huxley disse-me há pouco tempo que estão aterrorizados com a magnitude e a importância da tarefa de tradução. Reconhecendo por completo, mesmo que de forma necessariamente vaga, as dificuldades semânticas devidas à polissemia, entre outros, pergunto-me se era impensável conceber um computador que pudesse traduzir. Mesmo que só traduzisse material científico (onde as dificuldades semânticas são notavelmente menores) e mesmo que produzisse um resultado deselegante (mas inteligível) parecer-me-ia que valeria a pena. Também sem saber nada de oficial sobre novos e poderosos métodos mecanizados em criptografia, mas tendo adivinhado e inferido o suficiente – métodos que acredito terem tido sucesso mesmo quando ninguém sabe que língua foi codificada – naturalmente que uma pessoa se interroga se o problema de tradução pode ser, de uma maneira concebível, tratado como um problema na criptografia. Quando olho para um artigo em russo, digo: “Isto está, na verdade, escrito em inglês, mas foi codificado em símbolos um pouco estranhos. Irei de seguida proceder à sua descodificação”. Alguma vez pensou nisto? Como linguista e especialista em computadores, acha que é algo que valha a pena considerar? O Professor Wiener, numa carta datada de 30 de Abril de 1947, disse em resposta: Em segundo lugar – em relação ao problema da tradução automática, receio francamente que as fronteiras das palavras em línguas diferentes sejam demasiado vagas, e que as conotações emocionais e internacionais sejam demasiado amplas para que um esquema de tradução quase automático seja promissor. Admitirei que o inglês básico parece indicar que podemos ir mais além do que foi feito geralmente na mecanização do discurso, mas deve lembrar-se que em certos aspetos, o inglês básico é o oposto do mecânico e atira para cima de palavras como get um fardo que é muito maior do que a maioria das palavras transporta no inglês convencional. No momento presente a mecanização da linguagem, para além de um 109 _____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver estado como o da criação de oportunidades de leitura fotoeléctrica para invisuais, parece prematura... A isto, W.W. respondeu a 9 de Maio de 1947: Estou desiludido, mas não surpreendido, com os seus comentários sobre o problema da tradução. A dificuldade que mencionou em relação ao (inglês) básico parece-me ter uma resposta relativamente fácil. É, claro, verdade que o inglês básico dá uso múltiplo a um verbo de ação como get. Mas, mesmo assim, as combinações de duas palavras como get up [levantar-se], get over [ultrapassar], get back [voltar], entre outros, são no inglês básico, pouco numerosas. Imagine que pegamos num vocabulário de 2, 000 palavras, e admitimos como uma boa medida todas as combinações de duas palavras, como se fossem uma só. O vocabulário continua a ser apenas de quatro milhões: e isso não é um número muito formidável para um computador moderno, ou é? Deste modo, a tentativa de interessar Wiener, que parecia tão idealmente equipado para considerar o problema, não conseguiu produzir qualquer resultado concreto. Isto tem que ser, de facto, aceite como extremamente desencorajante porque, caso existissem quaisquer possibilidades concretas, Wiener seria a pessoa certa para as desenvolver. A ideia já foi, contudo, considerada anteriormente. O primeiro exemplo do conhecimento de W.W subsequente à sua própria noção do assunto, foi descrito num memorando datado de 12 de Fevereiro, de 1948, escrito pelo Dr. Andrew D. Booth que, no departamento do Professor J. D. Bernal, na Birkbeck College University of London [Faculdade de Birbeck da Universidade de Londres], se manteve ativo na construção e design de computadores. O Dr. Booth disse: Um exemplo conclusivo, de possível aplicação do computador eletrónico, é a de tradução de uma língua para outra. Refletimos sobre este problema com alguma minúcia, e a conclusão foi que uma máquina do tipo proposto poderia desempenhar esta função sem qualquer modificação na sua conceção. A 25 de Maio de 1948, W. W. visitou o Dr. Booth no seu laboratório em Welwyn, Londres, e descobriu que o Dr. Richens, diretor-assistente da Bureau of Plant Breeding and Genetics [Agência de Multiplicação de Plantas e Genética], muito 110 _____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver preocupado com o problema abstrato, estava, juntamente com o Dr. Booth, interessado no problema da tradução. Não tinham estado, pelo menos naquela altura, preocupados com os problemas da polissemia, ordem de palavras, idioma, entre outros, mas apenas com o problema da mecanização de um dicionário. Na altura, a proposta de ambos era a de um primeiro “sentido” das letras numa palavra, e ter a máquina a verificar se a sua memória contém ou não exatamente a palavra em questão. Se sim, a máquina produz simplesmente a tradução (que é a grande dificuldade; claro que “a” tradução não existe) da palavra. Se a palavra em questão não faz parte da memória, então a máquina descarta a última letra da palavra, e tenta de novo. Se este processo falhar, descarta mais outra letra e tenta novamente. Depois de encontrar a maior combinação inicial de letras que contida no dicionário, “procura” toda a porção que fora descartada num “anexo gramatical” do dicionário. Assim sendo, quando confrontada com a palavra running [correndo; a correr], pode encontrar run [correr], e depois descobrir o que o que o final ing [-endo; a ...], faz ao run. É por esta razão que o interesse dos dois investigadores estava, pelo menos na altura, confinado ao problema da mecanização de um dicionário que, de uma forma razoavelmente eficiente, manusearia todas as formas das palavras. Não temos notícias recentes que Weaver se tenha dedicado mais assunto. Muito recentemente os jornais têm noticiado histórias sobre o uso de um dos computadores da Califórnia como tradutor. As notícias publicadas não indicam mais do que uma espécie de tradução à letra, não havendo indicação, pelo menos que W. W. tenha visto, da maneira proposta de lidar com o problema da polissemia, ordem de palavras, entre outros. Esta última tentativa, ou tentativa planeada, já causou um escárnio inevitável. O Sr. Max Zeldner, numa carta ao Herald Tribune de 13 de Junho de 1949, afirmou que o máximo que podíamos esperar de uma tradução automática das 55 palavras hebraicas que constituem o Salmo 23 começaria assim: Lord my Shepard no I will lack [Senhor, meu Pastor não me faltará], e acabariam But good and kindness he will chase me all days of my life; and I shall rest in the house of Lord to length days [Mas bem e bondade ele perseguir-me-á todos os dias da minha vida; e descansarei na casa 111 _____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver do Senhor para durar os dias]. Zeldner realça as palavras de um grande poeta hebraico sobre a tradução: “é como beijar o nosso amor através de um véu”.1 É, de facto, bastante evidente que o processo de tradução faz pouco mais do que lidar com a correspondência palavra-a-palavra, e esta não pode ambicionar tornar-se útil aos problemas de tradução literária, na qual o estilo é importante e os problemas idiomáticos e de polissemia, entre outros, são frequentes. No entanto, mesmo este rigoroso tipo de tradução pode ter um uso bastante importante. Grandes quantidades de material técnico, por exemplo, podem ser manuseadas de maneira proveitosa, ainda que não elegante. A escrita técnica, infelizmente, não é sempre tão direta e simples no que diz respeito ao estilo; mas, pelo menos, o problema da polissemia é muito mais simples. Na Matemática, para utilizar o que é provavelmente o exemplo mais simples, quase que se pode afirmar que cada palavra, dentro do contexto geral de um artigo matemático, tem um significado e apenas um. O Futuro da Tradução Automática As observações anteriores sobre os esquemas de tradução automática que foram relatados não têm, contudo, dado uma indicação adequadamente promissora de quais podem ser as futuras possibilidades. Essas devem ser, sem sombra de dúvida, indicadas por pessoas que têm um conhecimento especial de línguas e sobre a sua anatomia comparada. Mas mais uma vez, e correndo o risco de ser imbecilmente ingénuo, é interessante assinalar quatro tipos de ataque, em níveis de sofisticação crescente. Significado e contexto Primeiro, temos que pensar numa maneira na qual o problema de significado múltiplo possa, pelo menos em princípio, ser resolvido. Se qualquer pessoa examinar as palavras de um livro, uma de cada vez como que através de uma máscara opaca com um buraco nela do tamanho de uma grande palavra, então é obviamente impossível determinar, um de cada vez, o significado das palavras. “Fast” [rápido] 1 Procurou-se uma tradução interlinear dos dois versículos 112 _____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver pode querer dizer “rapid” [veloz] ou pode dizer “motionless”[imóvel]; e não há maneira de dizer qual delas quer dizer. No entanto, se alguém alargar a fenda na máscara opaca, para que se consiga ver não só a palavra central, mas também N palavras de ambos os lados, então, se N for amplo o suficiente pode-se decidir de forma inequívoca o significado da palavra central. A verdade formal desta afirmação torna-se clara quando é mencionado o facto de a palavra do meio de um artigo, ou de um livro inteiro ser inequívoca para a pessoa que leu o artigo ou o livro completo, assegurando que o artigo ou livro em questão é suficientemente bem escrito para comunicar. A questão prática é: “Que valor mínimo de N conseguirá, pelo menos numa fração tolerável de casos, conduzir à escolha correta de significado da palavra central?”. Esta é uma pergunta que diz respeito ao carácter estatístico e semântico da linguagem, que pode certamente ter resposta, pelo menos de uma forma interessante, e talvez mais útil. Claramente, N varia consoante o tipo de escrita em questão. Pode ser zero para um artigo conhecido acerca de um tema matemático específico. Pode ser bastante baixo para química, física, engenharia, entre outros. Se N for igual a 5, e o artigo da ou livro em questão fosse sobre um tema de sociologia, haveria alguma probabilidade de 0.95 que a escolha de significado estivesse correta 98% das vezes? Claro que não, mas uma declaração deste género pode ser feita, e valores de N podem determinados de forma a corresponderem a certas exigências feitas. Além do mais, a ambiguidade é implicada primariamente por advérbios, verbos e adjetivos; e na realidade (pelo menos suponho que assim seja) a relativamente poucos pronomes, verbos e adjetivos. Aqui está um bom tema para o estudo relativo ao carácter estatístico-semântico das línguas. No entanto, alguém pode pensar em usar o valor de N que varia de palavra em palavra, é zero para he [ele], the [a], entre outros, e que apenas necessita de ser amplo ocasionalmente. Ou determinariam um único significado numa fracção satisfatória para examinar, não as adjacentes de palavras 2N, mas talvez os pronomes adjacentes 2N? Que escolha de palavras adjacentes maximiza a probabilidade da escolha correta de significado, e ao mesmo tempo conduz ao valor mais pequeno de N? Somos levados então a acreditar que o conceito do processo de tradução na qual, ao determinar o significado para uma palavra, é o cálculo retirado do contexto imediato (palavras - 2N). Seria muito pouco prático fazer isto através de um 113 _____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver dicionário generalizado que contivesse todas as fases possíveis de 2N + 1 palavra extra: uma vez que os números dessas fases são terríveis, mesmo para um computador. Porém, parece provável que se encontre uma maneira razoável de usar um micro-contexto para resolver os casos mais difíceis de ambiguidade. Linguagem e Lógica Uma base mais geral para esperar que um computador possa ser concebido, de forma a lidar com uma parte útil do problema da tradução, é encontrada num teorema, testado em 1943 por McCulloch e Pitts2. Este teorema declara que um robô (ou um computador) construído com loops regenerativos de um certo carácter formal é capaz de deduzir qualquer conclusão legítima de um número finito de premissas. Hoje em dia existem certamente elementos ilógicos na linguagem (sentido de estilo intuitivo, conteúdo emocional, entre outros) para que tenhamos que ser pessimistas acerca do problema de tradução literária. Contudo, na medida em que a língua escrita é uma expressão de carácter lógico, este teorema assegura-nos que o problema é, pelo menos, formalmente resolúvel. Tradução e Criptografia Claude Shannon, dos laboratórios Bell Telephone, publicou recentemente alguns trabalhos notáveis sobre a teoria matemática da comunicação. Este trabalho remete-nos às características estatísticas do processo de comunicação 3. Existe um nível tão básico de generalidade que não é surpreendente que a sua teoria inclua toda a área da criptografia. Durante a guerra, Shannon escreveu fez uma análise muito importante de todo o problema criptográfico, e este trabalho como acredita W. W., está para ser publicado brevemente, uma vez desclassificado. É provável que apenas Shannon possa ser neste momento, um bom avaliador das possibilidades nesta direção; mas, como foi expresso na carta original de W. W. para Wiener, é bastante tentador dizer que um livro escrito em chinês é apenas um livro escrito em inglês que foi codificado para o “código chinês”. Se tivermos 2 Warren B. MacCulloch and Walter Pitts, Bull. Math. Biophys., no. 5, pp. 115-133, 1943 Para uma versão mais simplificada, ver “The Mathematics of Communication”, por Warren Weaver, Sci. Amer., no. 1, pp. 11-15, Julho, 1949. 3 114 _____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver métodos úteis para resolver qualquer problema de criptografia, não será com uma interpretação adequada que já dispomos de métodos úteis para a tradução? Esta abordagem chama a atenção um aspeto que é provavelmente bastante básico – nomeadamente, o carácter estatístico do problema. A tradução “perfeita” é quase inatingível. Processos, que em determinados níveis de confiança produzirão uma tradução que apenas contêm uma percentagem x de “erro”, são certamente alcançáveis. É um dos objetivos principais deste memorando enfatizar que se devem fazer os estudos da semântica estatística, como uma etapa preliminar necessária. A ideia de tradução criptográfica conduz naturalmente à, e este é um caso muito especial da, quarta e mais geral das sugestões: nomeadamente, a da tradução fazer um forte uso de invariantes das línguas. Linguagem e Invariantes Na verdade, o que parece ser para W. W. a abordagem mais promissora de todas é aquela que se baseia [...] noutra abordagem que aprofunda tanto a estrutura das línguas, que chega ao nível em que estas apresentam traços em comum. Pensem, por analogia, em indivíduos que moram numa série de torres altas e fechadas, todas edificadas sobre um alicerce comum. Quando tentam comunicar entre si, gritam de volta uns para os outros, cada um da sua própria torre fechada. É difícil fazer com que o som chegue mesmo até às torres mais próximas, e a comunicação prossegue assim de forma bastante fraca. Porém, quando um indivíduo desce a sua torre, encontra-se numa grande cave aberta, comum a todas as torres. Aqui estabelece uma comunicação fácil e útil com as pessoas que também desceram das suas torres. Pode, por isso, ser verdade que a melhor forma de traduzir chinês para árabe, ou de traduzir russo para português, não é tentar a via direta, gritando de torre em torre. Talvez a melhor forma é descer, de cada língua, até à base comum da comunicação humana – a verdadeira mas ainda desconhecida linguagem universal – e depois reemergir através de uma qualquer via que seja conveniente. Um programa como este envolve presumivelmente uma terrível quantidade de trabalho sobre a estrutura lógica das línguas, antes de se poder passar para a automatização. Este deve estar intimamente relacionado com aquilo que Ogden e Richards já fizeram pela língua inglesa – e talvez pelo francês e pelo chinês. Mas é ao 115 _____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver longo destas linhas gerais que parece provável que o problema da tradução seja atacado com sucesso. Um programa como estes têm a vantagem de, quer conduza ou não a uma mecanização útil do problema da tradução, não poder falhar ao trazer algum esclarecimento ao problema geral de comunicação. Nota Nota de Editor: Este é um memorando escrito por Warren Weaver no dia 16 de Julho, de 1949. Foi reimpresso com a sua permissão por ser um documento histórico sobre a tradução automática. Quando Weaver o enviou a cerca de 200 dos seus conhecidos de várias áreas, foi literalmente a primeira sugestão que muitos deles viram para a tradução de línguas ser possível através de técnicas de computador ser possível. 116 Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins Desenvolvimento e uso dos sistemas de tradução automática e ferramentas de tradução baseadas em computador [computer-based], John Hutchins Resumo: O presente estudo sobre a procura e uso do software de tradução baseado em computador [computer-based] concentra-se nos sistemas criados para a produção de traduções de qualidade publicável, incluindo desenvolvimentos em sistemas de linguagens controladas, software de trabalho do tradutor e de localização: mas também se refere aos desenvolvimentos de software para não-tradutores, particularmente para o uso das páginas Web e outras aplicações para a internet, tendo ainda em consideração futuras necessidades e sistemas sob desenvolvimento. A secção final compara os tipos de tradução que podem ser apresentados de forma mais adequada, tanto por uma tradução humana, como por uma tradução automática (e ainda por uma tradução assistida por computador). Palavras-chave: tradução automática, tradução assistida por computador, software de trabalho do tradutor e sistemas multilingues. Tipos de procura de tradução Quando se faz uma análise geral sobre o desenvolvimento e uso dos sistemas de tradução automática (TA) e de ferramentas de tradução, é importante fazer a distinção entre quatro tipos de procura a nível de tradução. O primeiro, e o mais tradicional, é a procura de traduções da qualidade que se espera normalmente de tradutores humanos, i. e. traduções de qualidade publicável – quer seja impressa e vendida, quer seja distribuída internamente dentro de uma empresa ou organização. O segundo tipo básico de procura, é para traduções de um nível de qualidade um tanto 117 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins ou quanto inferior (especialmente em estilo) direcionadas a utilizadores que querem saber qual o conteúdo essencial de determinado documento – e, regra geral, o mais depressa possível. O terceiro tipo de procura é o de tradução entre participantes numa comunicação um a um (por telefone ou correspondência escrita) ou de uma apresentação não-escrita (por exemplo: relações diplomáticas). A quarta área de aplicação é para a tradução dentro dos sistemas multilingues de extração de informação, e acesso a base de dados, entre outros. O primeiro tipo de procura ilustra o uso dos sistemas de tradução automática (TA) para disseminação. Esta tem sido preenchida, até certo ponto, pelos sistemas de tradução automática desde que foram desenvolvidos pela primeira vez em 1960. Contudo, os sistemas de TA produzem um output que tem invariavelmente de ser revisto ou pós-editado por tradutores humanos para atingir a qualidade pretendida. Estas revisões, por vezes, chegam a ser substanciais, para que o sistema de TA produza, na verdade, aquilo que é uma tradução „rascunho‟. Como alternativa, o input textual pode ser regularizado (ou „controlado‟ em termos de estrutura sintática e vocabulário) para que os sistemas de TA produzam poucos erros a necessitarem de correção. No entanto, tem-se desenvolvido alguns sistemas de tradução automática para lidar com uma pequena variedade de conteúdos de texto e de estilo linguístico, o que requer pouca ou nenhuma preparação e revisão de texto. Recentemente, o uso de sistemas de TA com objetivos de disseminação tem sofrido um aumento através do desenvolvimento de ferramentas de tradução (por exemplo: bases de dados terminológica e memória de tradução) integradas em processos de autoria e publicação. Este „software de trabalho de tradução‟ é mais atrativo para tradutores humanos, enquanto os tradutores dos sistemas de TA se vêem subordinados à máquina no que diz respeito à edição, correção e à re-tradução do output de um computador. Com o software de trabalho de tradução, os tradutores têm controlo sobre recursos baseados em computador [computer-based] onde podem facilmente aceitar ou rejeitar o que pretenderem. O segundo tipo de procura – o uso de TA para assimilação – já foi utilizado no passado como um subproduto de sistemas concebidos originalmente para a aplicação de disseminação. Alguns utilizadores descobriram que podem extrair o que precisam de saber de um output não-editado, uma vez que os sistemas de TA não 116 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins conseguem (e continuam a não conseguir) produzir traduções de qualidade elevada. Esses utilizadores preferem ter uma tradução, por muito fraca que seja, a não ter nenhuma. Com a chegada de sistemas baseados em computadores pessoais [PC-based systems] mais baratos ao mercado, este tipo de uso tem crescido rápida e substancialmente. Com o terceiro tipo – o de TA para intercâmbio – a situação está a mudar rapidamente. A procura de traduções de textos eletrónicos na Internet, como de páginas Web, e-mail e mesmo ainda de listas eletrónicas de „chat‟, está a desenvolverse rapidamente. Neste contexto, a possibilidade de se usar uma tradução humana está fora de questão. A necessidade é de uma tradução imediata, de forma a transmitir o conteúdo básico das mensagens, por muito fraco que seja o input. Os sistemas de TA começam a desempenhar um papel „natural‟, uma vez que podem funcionar virtualmente, em tempo real e online, sem que haja qualquer objeção à sua inevitável fraca qualidade. Contudo, existe outro dos contextos para a TA no intercâmbio pessoal que é alvo de inúmeras investigações. Trata-se do desenvolvimento de sistemas para a tradução de língua falada, por ex., conversas telefónicas ou de negócios. Os problemas de integração do reconhecimento de fala, e da tradução automática são obviamente descomunais, no entanto e apesar de tudo, estão a ser feitos progressos. No futuro – talvez ainda distante – poderemos contar com sistemas de TA online para a tradução de discurso em domínios altamente restritos. O quarto tipo de aplicação de TA – como componentes de sistemas de acesso à informação – é a integração de software de tradução em: (i) sistemas para a pesquisa e recuperação de textos completos de documentos provenientes de base de dados (geralmente versões eletrónicas de artigos de revistas de ciência, medicina e tecnologia), ou sistemas para a recuperação de informação bibliográfica; (ii) sistemas para extrair informação de textos (por ex. detalhes sobre um produto), especialmente relatos jornalísticos; (iii) sistemas para a sumarização de textos; e ainda (iv) sistemas que questionam as bases de dados não-textuais. Este campo é foco de uma série de projetos que têm lugar de momento na Europa, cujo objetivo consiste em alargar o acesso a fontes de bases e informação, a todos os membros da União Europeia. Percurso Histórico 117 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins Os sistemas para a tradução automática têm vindo a ser desenvolvidos desde há 50 anos – aliás, desde que o computador eletrónico foi inventado nos anos de 1940, que têm havido várias pesquisas sobre a sua aplicação para a tradução de línguas (Hutchins 1986). Por muitos anos, os sistemas foram inicialmente baseados em traduções diretas via dicionários bilingues, com relativamente pouca análise detalhada das estruturas sintáticas. Por volta dos anos 80 do século XX, contudo, deu-se um avanço na linguística computacional que permitiu abordagens muito mais sofisticadas, e vários sistemas adotaram uma abordagem mais indireta à tarefa da tradução. Nestes sistemas, os textos da língua-fonte são analisados como representações abstratas de „sentido‟, envolvendo programas sucessivos para a identificação da estrutura das palavras (morfologia), estrutura das frases (sintaxe) e para a resolução de ambiguidade (semântica). Incluído nesta última, estão componentes de programa para fazer a distinção entre homónimos (exemplo: palavras inglesas como luz, que tanto pode ser um substantivo, um adjetivo ou um verbo, e ainda solução (que tanto pode ser um termo matemático ou químico) e para fazer o reconhecimento entre as relações semânticas corretas (ex. O condutor do autocarro com o casaco amarelo – The driver of the bus with the yellow coat). As representações abstratas pretendem-se ambíguas para facultar a base de produção de textos para uma ou mais línguas-alvo. Têm havido, de facto, duas abordagens „indiretas‟ básicas. Numa, a representação abstrata pretende ser uma espécie de „interlíngua‟ independente, que pode potencialmente servir como um intermediário entre um grande número de línguas naturais. A tradução encontra-se, por isso, em dois níveis básicos: da língua-fonte para a interlíngua, e da interlíngua para a língua-alvo. Na outra abordagem indireta (que é na verdade a abordagem mais frequente) a representação é convertida primeiro, numa representação equivalente da língua-alvo. Existem por isso, três níveis básicos: o da análise do texto input para uma tradução-fonte abstrata, o da transferência para uma representação-alvo abstrata, e o da criação para uma língua output. Até aos finais dos anos 80, foram desenvolvidos todos os tipos de sistemas, e é correto afirmar que todos os sistemas atuais comercialmente disponíveis estão também classificados nestes três tipos básicos de sistemas: direto, por interlíngua e por „transferência‟. Dos sistemas de TA para mainframe, os mais são conhecidos são 118 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins essencialmente os de „tradução direta‟, como por exemplo os sistemas Systran, Logos e Fujitsu (Atlas). Estes são, no entanto, versões melhoradas, e ao contrário dos seus antecessores, são bastante modulares em termos de construção e facilmente modificáveis e extensíveis, especialmente o sistema Systran. Originalmente criado para a tradução exclusiva de russo para inglês, o sistema Systran agora disponível para um vasto número de pares de línguas: de inglês para a maior parte das línguas europeias (francês, alemão, italiano, espanhol, português) e depois para japonês, coreano, entre outras. Também o sistema Logos que foi originalmente vendido de alemão para inglês, está agora disponível para outras línguas: de inglês para francês, alemão, italiano e espanhol, e ainda de alemão para francês e italiano. O sistema Fujitsu ATLAS, por outro lado, continua restringido à tradução entre inglês e japonês. Entre os mais importantes sistemas por transferência ‘mainframe’, estava o sistema METAL, patrocinado ao longo dos anos 80 pela Siemens, na Alemanha. Porém, o METAL só saiu para o mercado no final da década e as vendas foram fracas. Durante os anos 90 do século XX, os direitos de aquisição do METAL foram transferidos para duas organizações (a GMS e a LANT) através de um complexo acordo. Mas os sistemas mais conhecidos que adotaram a abordagem por „transferência‟ eram projetos de investigação: o sistema Ariane no GETA em Grenoble (um projeto de TA dos anos 60 do século XX) e o Eurotra, fundado pela Comissão das Comunidades Europeias. Havia a esperança de que o Ariane se tornasse o sistema nacional francês, e havia planos para incorporá-lo no software de trabalho do tradutor para a Eurolang (ver abaixo) mas no fim, nada adveio destes. Quanto ao Eurotra, foi sem dúvida um dos sistemas mais sofisticados, mas depois de envolver, por quase uma década, centenas de investigadores em muitos dos países da Europa Ocidental, falhou ao produzir o sistema que os patrocinadores tanto queriam. Esperava-se, por isso, que o Eurotra fosse eventualmente substituir os sistemas Systran que a Comissão tinha adquirido, e que estava a desenvolver internamente. Nos finais dos anos 80 do século XX, as agências governamentais japonesas começaram a patrocinar um sistema interlíngua para línguas asiáticas, envolvendo uma colaboração com investigadores da China, Tailândia, Malásia e Indonésia. No entanto, depois de uma década de trabalho, este projecto também não conseguiu 119 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins produzir um sistema viável, (para estudos de investigação e desenvolvimento em TA nos anos 80, inícios de 90 do século XX, ver Hutchins 1993, 1994). Uso governamental e não-comercial As instalações iniciais dos sistemas de TA eram serviços de tradução militares e governamentais nacionais e internacionais – principalmente porque podiam cobrir as despesas necessárias de hardware de computador. A US Air Force [Força Aérea dos Estados Unidos], introduziu o Systran no ano de 1970 para traduzir documentação militar, científica e técnica russa para inglês. Apesar de alguns documentos terem sido publicados, grande parte do output foi passado para os seus respetivos recipientes sem revisão, apesar da maioria dos relatórios técnicos reivindicarem mais de 90% de rigor. O National Air Intelligence Center [Centro Nacional de Inteligência Espacial], que retomou os serviços da USAF (do inglês United States Air Force) produz agora traduções (muitas sem correção) para um grande leque de organizações governamentais americanas (Pedtke 1997). Tal como o tipo de traduções referidas anteriormente, de russo-inglês, foram disponibilizados sistemas do Systran para traduzir japonês, chinês e coreano para inglês, assim como (também sob a alçada do Systran) se encontra em desenvolvimento um sistema de servo-croata, também para inglês. Na Europa, o maior serviço é o da tradução da Comissão Europeia, e foi também um dos primeiros a instalar a TA. Começou em 1976 com o sistema Systran a fazer traduções de inglês para francês, mas nos anos que se seguiram foram desenvolvidos outros sistemas para muitos outros pares de línguas, satisfazendo as necessidades de tradução entre as línguas da União Europeia. Enquanto a tradução de muitos textos jurídicos continua a ser feita por tradutores humanos, os sistemas Systran são maioritariamente usados não só para a tradução de documentos internos (com ou sem revisão posterior) mas também como versões rudimentares para dar assistência aos administradores, aquando da composição de textos em línguas nãonativas (Senez 1996). Produção de documentação técnica 120 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins Até aos anos 90, a suposição mais natural era a de que os sistemas de TA tinham a pretensão de serem usados para a produção de documentação de qualidade publicável principalmente, mas não exclusivamente, de natureza científica e técnica. A suposição era, por outras palavras, a de que os sistemas de TA seriam utilizados em situações em que, outrora, os tradutores humanos eram empregues na qualidade de peritos sobre os temas em questão. Evidentemente que a qualidade concreta do output da TA, era inapropriada para uso direto. Tinha que ser extensamente revista antes de ser publicada e os tradutores eram, por isso, contratados como „pós-revisores‟. Nestas circunstâncias, o uso da tradução automática tornou-se uma questão económica, e era apenas viável se a qualidade e a velocidade geral pudessem ser atingidas a um custo inferior a tradutores humanos. Apesar de existirem nos dias de hoje outras utilidades para a TA, como já indicámos, esta aplicação continua a ser mais importante, particularmente para os vendedores e responsáveis pelo desenvolvimento de mais sistemas ‘mainframe’ (Systran e Logos). Os clientes e utilizadores principais são empresas multinacionais que exportam equipamento para o mercado global (Vasconcellos 1993; Brace et al. 1995). A necessidade aqui é a de tradução de documentação promocional e técnica. No último caso os documentos técnicos são frequentemente necessários em grandes quantidades: um número infindável de manuais operacionais para apenas uma peça de equipamento pode chegar a vários milhares de páginas. Para além do mais, pode haver várias revisões à medida que aparecem novos modelos. Como também deve haver consistência na tradução: o mesmo componente tem que ser referido e traduzido da mesma forma de cada vez. Esta escala de tradução técnica está para além da capacidade humana. No entanto, para ser rentável, um sistema de TA tem que estar bem integrado nos demais processos de documentação técnica da empresa: da escrita inicial até à publicação e distribuição finais. Os sistemas desenvolvidos para a assistência de escritores técnicos – não só assistência com a terminologia, mas também com os manuais de estilo online e ajudas gramaticais – estão neste momento a ser interligados a processos contínuos de publicação e publicação. Existem inúmeros exemplos de um uso de sistemas de tradução automática de empresas multinacionais, bem sucedido e a longo prazo, para a tradução de documentação técnica. Um dos mais conhecidos é a aplicação dos sistemas Logos na 121 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins empresa Lexi-Tech em Nova Brunswick, Canadá, inicialmente utilizado para efetuar traduções para francês dos manuais de manutenção de fragatas navais. Com isto, a empresa construiu um serviço que se encarregou de outros grandes projetos de tradução. A usar o Logos estão também a Ericsson, a Osram, as Tecnologias Océ, SAP e a Corel. São os sistemas Systran, contudo, que detêm os clientes mais importantes: a Ford, a General Motors, Aérospatiale, Berlitz, a Xerox, entre outros. O sistema de alemão-inglês METAL, tem sido usado com sucesso por um número significativo de empresas europeias: a Boehringer Ingelheim, a SAP, a Philips e a UBS ( Union Bank of Switzerland). Um pré-requisito fundamental para uma instalação de TA em grandes empresas bem-sucedidas, é o facto de o utilizador esperar uma grande quantidade de traduções dentro de um campo específico (objetos, produtos, entre outros). O compromisso financeiro para com uma base de dados terminológica e a manutenção de dicionários tem que ser justificável. Quer seja produzido automaticamente ou não é recomendável que a documentação empresarial seja consistente com o uso da terminologia. Muitas empresas insistem, de facto, no uso exclusivo dos seus próprios termos, e não aceitam o uso de outros. Manter este tipo de consistência é quase impossível fora de um sistema automatizado. No entanto, isto significa também que antes que um sistema possa ser instalado, o utilizador tem que já ter disponível uma base de dados terminológica sólida, com equivalentes de tradução certificados pelas línguas envolvidas autorizadas, ou – pelo menos – têm que se comprometer a desenvolver o banco de termos exigido. É frequentemente desejável, por razões semelhantes, que o sistema de TA em questão produza output em mais do que uma língua-alvo. A maioria dos sistemas de TA em larga-escala têm que ser adaptados para o tipo de linguagem encontrada nos diferentes tipos de documentos produzidos numa empresa em específico. Pode tratarse do acrescento de regras gramaticais específicas para lidar com construções frásicas e orações, bem como a inclusão de regras específicas para lidar com itens lexicais, e não só com os ditos termos exclusivos da empresa. A quantidade de trabalho envolvido na referida adaptação só é justificável caso o output ocorra em várias línguas. 122 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins Linguagem controlada e sistemas de domínio não-específico Nestas circunstâncias, contudo, tem sido frequentemente considerado verosímil a introdução de um maior nível de controlo. Um dos exemplos iniciais, e também um dos mais conhecidos, é a aplicação do sistema Systran pela Corporação Xerox. Aqui, os autores técnicos são obrigados a compor documentos naquilo que é denominado como Inglês Multinacional „Feito por Medida‟ [Multinational Customized English] que inclui não só o uso de termos específicos apresentados, como também a construção de frases (Elliston 1979). As vantagens desta abordagem são: evitar as ambiguidades do input com as quais o sistema de TA não consegue lidar de forma apropriada, a consequente melhor qualidade do output, a produção rápida de documentos técnicos em várias línguas diferentes ao mesmo tempo, e por último mas não o menos importante, está a produção de documentos ingleses mais facilmente compreensíveis. Estas vantagens têm sido reconhecidas por outras empresas multinacionais, e o uso de „linguagens controladas‟ está a aumentar: por exemplo, a Caterpillar Corporation [Corporação Caterpillar] criou a sua própria forma de inglês para facilitar a tradução num sistema de TA baseado em conhecimento, a ser desenvolvido pela Universidade Carnegie-Mellon (Miamura e Nyberg 1995). Existem algumas empresas que se oferecem para construir sistemas de TA de linguagens „controladas‟ para clientes específicos. A empresa que se estabeleceu há mais tempo – e a pioneira nesta abordagem – é a Corporação Smart, em Nova York. A Smart tem desenvolvido sistemas para um número significativo de grandes clientes: a Citicorp, a Chase, Ford, a General Electric, entre outros. Cada um incorpora um sistema para „normalizar‟ documentos em inglês. Esta componente de sistema é considerada tão crucial para que se obtenham bons resultados, que o próprio processo de tradução é encarado virtualmente como um subproduto (Lee 1994). Existem sistemas Smart que fazem traduções para francês, alemão, grego, italiano, japonês e espanhol. A maior instalação Smart é, talvez, o sistema concebido para o Ministério do Trabalho e da Segurança Social do Canadá [Canadian Ministry of Canada] que tem sido utilizado há muitos anos para traduzir informação relativa a anúncios de emprego e documentação semelhante. Na Europa, a empresa Cap Volmac na Holanda, e a empresa LANT na Bélgica oferecem serviços idênticos, construindo sistemas de tradução especializados para 123 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins vários clientes, utilizando o seu próprio software de linguagens controladas. Os serviços da Cap Volmac Lingware são subsidiários holandeses do Grupo Cap Gemini Sogeti. Ao longo dos anos esta empresa de software tem construído sistemas de linguagens controladas para seguradoras e empresas têxteis, principalmente de holandês para inglês (Van der Steen e Dijenborgh 1992). No entanto, a história de sucesso mais conhecida de um sistema de TA „feito à medida‟ [custom-built] é possivelmente o sistema PaTrans desenvolvido pela LingTech A/S para traduzir patentes de inglês para dinamarquês. Este sistema é baseado em métodos e experiências no âmbito do projeto Eurotra da Comissão Europeia (Ørsnes et al. 1996). Estes últimos exemplos de sistemas, ilustram um número crescente de empresas e organizações estão a desenvolver as suas próprias funcionalidades de TA, em vez de comprarem sistemas comerciais. Esta tem sido a característica principal de anos anteriores. O bem-sucedido sistema Météo, no Canadá, utilizado para traduzir boletins meteorológicos de inglês para francês (e mais tarde de francês para inglês) foi de facto, um sistema específico de cliente [customer-specific] – neste caso o Canadian Environment Service. É importante ressalvar que uma variante do software Méteo foi utilizada com sucesso durante os Jogos Olímpicos de Atlanta (Chandioux e Grimaila 1996). O Méteo é um exemplo de um sistema de „sublinguagem‟, i. e. concebido especialmente para lidar com linguagem específica de meteorologia. Outro exemplo de um sistema feito „à medida‟ [customer-built] é o TITUS, um sistema de „sublinguagem‟ bastante restrito, que fez traduções de resumos de documentos da indústria têxtil, de e para inglês, francês, alemão e espanhol, com uso regular desde 1970. Mais conhecidos são os dois sistemas específicos de cliente [customer-specific] que traduzem de inglês para espanhol na Pan American Health Organization, em Washington – criado e desenvolvido por utilizadores da própria organização. Estes sistemas, que possuem uma elevada taxa de sucesso (e que estão agora disponíveis para trabalhadores fora da PAHO) são sistemas com um objetivo central [general-purpose], não estando condicionados ao vocabulário ou ao tipo de texto, apesar de os dicionários serem obviamente os pontos mais fortes dos campos das ciências sociais e saúde (Leon and Aymerich 1997). Nos anos 90, houve uma série de outros exemplos. Na Finlândia, o sistema Kielikone foi originalmente desenvolvido como o software de trabalho para as 124 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins Telecomunicações Nokia. Subsequentemente, outras versões foram instaladas noutras empresas finlandesas, e o sistema está agora a ser vendido de forma mais expansiva (Arnola 1996). Sucede-se uma história semelhante com o GSI – Erli. Esta grande empresa de engenharia da linguagem, desenvolveu um sistema de tradução interno combinando um motor TA e várias ferramentas e de tradução assistida numa plataforma comum denominada Aleth Trad. Recentemente, este mesmo sistema tem sido disponibilizado em versões customizadas para clientes fora dessa plataforma (Humphreys 1996). Numa escala mais pequena, mas igualmente bem sucedida, tem sido um sistema desenvolvido por uma pequena empresa inglesa, a Hook and Hatton. Neste caso, a necessidade foi a de tradução de textos de química, de holandês para inglês (Lewis 1997). O designer começou por compatibilizar um simples padrão de frases e construiu gradualmente uma maior análise sintática, para como e quando os resultados fossem justificáveis e rentáveis. Baseado numa experiência efetuada ao longo dos anos, esta consiste em desenvolver TA baseada em conhecimento, e que faz experiências com a tradução de discurso e métodos baseados em corpora [corpus-based methods]. Membros do grupo na universidade de Carnegie-Hall têm desenvolvido uma estrutura para a produção rápida de sistemas de TA usáveis para clientes específicos, em línguas pouco comuns, como o servo-croata ou o crioulo do Haiti (Frederking et al. 1997). Não há qualquer falso pretexto em atingir uma qualidade elevada, apenas se pretende atingir um nível elevado de ‟utilidade‟ para línguas que eram outrora inacessíveis. Outro exemplo de TA feitos „à medida‟ [custom-built] numa área especializada, é o programa desenvolvido para as Comunicações TCC, na Simon Fraser University [Universidade Simon Fraser], para traduzir legendas de programas de televisão (Toole et al. 1998). Não só existem mais limitações a nível de tempo – a tradução tem que ser em tempo real – mas existem também desafios como os coloquialismos, o diálogo, a robustez e a escassez dos indicadores de contexto. O sistema, de momento a funcionar em direto de inglês para espanhol, exigia técnicas que eram encontradas principalmente em muitas aplicações para a internet. No Japão, existem outros exemplos de sistemas feitos „à medida‟ [custombuilt]. O Japan Information Centre of Science and Technology, traduz resumos de 125 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins artigos científicos e técnicos de japonês para inglês. Nos finais dos anos 80 do mesmo século, assumiu a responsabilidade do sistema de TA MU de japonês-inglês, desenvolvido na Universidade de Kyoto. A partir daqui, gerou-se uma das maiores operações de TA no Japão (O‟Neill-Brown 1996). Outros sistemas „feitos à medida‟ [custom-built] de significação no Japão estão os sistemas SHALT, desenvolvido pelo IBM Japão para as suas próprias necessidades de tradução, e o sistema ARGO desenvolvido pelo SCK em Tóquio para traduzir notícias do mercado da bolsa japonesa para inglês, e ainda o sistema NHK para traduzir artigos de notícias para japonês. Software de trabalho de tradução Nos anos de 1990, as possibilidades de efetuar uma tradução em grande escala aumentaram com a chegada aos mercados do software de trabalho de tradução [translator workbenches]). As ideias originais para a integração de vários serviços baseados em computador [computer-based] para tradutores em apenas um lugar, remontam até ao início dos anos 80, em particular com sistemas ALPS. O software de trabalho de tradução combina o processamento de texto multilingue, com meios de receber e enviar documentos eletrónicos, serviços OCR [Optical Character Recognition], software de controlo de terminologia, funcionalidades que permitem fazer concordâncias, e em particular a „memória de tradução‟. Esta última é a instalação que permite aos tradutores armazenar textos originais e as versões traduzidas lado-a-lado, para que as frases correspondentes do texto de chegada e do de partida possam ser alinhadas. O tradutor pode assim pesquisar uma expressão, ou até mesmo uma frase inteira numa língua na memória de tradução, e ter em exibição as expressões correspondentes numa língua e noutra. Tanto podem ser correspondências exatas ou aproximações classificadas, de acordo com a proximidade. É frequentes grandes empresas submeterem-se a inúmeras revisões de documentos técnicos, manuais, entre outros, verificando-se por vezes grandes frações de traduções que se mantêm inalteradas, de uma versão para a outra. Com a memória de tradução, o tradutor pode localizar e reutilizar as secções já traduzidas. Mesmo que não exista uma correspondência exata as versões expostas podem ser utilizadas com 126 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins alterações mínimas. Haverá também acesso a bases de dados terminológicas, particularmente de terminologia específica de empresa [company-specific] para palavras ou expressões que não são encontradas na memória de tradução. Para além disso, muito do software de trabalho do tradutor está agora a oferecer traduções automáticas completas, usando sistemas de TA como o Systran, Logos e o Transcend. O tradutor pode optar por usá-los, tanto para o texto inteiro, como para frases selecionadas, podendo aceitar ou rejeitar os resultados adequados (Heyn 1997). Existem atualmente quatro principais softwares de trabalho do tradutor: Trados (provavelmente o mais bem sucedido) STAR AG na Alemanha (Transit) IBM (o Translation Manager) e LANT na Bélgica (a Eurolang Optimizer, previamente vendido pelo SITE na França). O software de trabalho de tradução tem revolucionado o uso de computadores pelos tradutores. Estes têm agora uma ferramenta onde podem estar em controlo absoluto, onde podem usar qualquer uma das instalações ou nenhuma, como preferirem. Como sempre, o valor de cada recurso depende da qualidade da informação dos dados, e é por isso que assim como acontece nos sistemas de TA, as bases de dados de terminologia e dicionários exigem esforço, tempo e recursos. A memória de tradução depende da disponibilidade de uma corpora apropriada para traduções autorizadas – não há necessidade em usar traduções que sejam inaceitáveis (seja por que razão for) pela empresa ou pelo cliente. Apesar de ser usado maioritariamente por administradores dentro da Comissão Europeia, o sistema de TA de escala completa Systran, é relativamente pouco utilizado pelos tradutores profissionais da Comissão. Especialmente para eles, os serviços de tradução estão a desenvolver o seu próprio software de trabalho, a EURAMIS, i.e , o European Advanced Multilingual Information, (Theologitis 1997). Esta combina o acesso à base de dados multilingue da própria Comissão (a Eurodicautom) com os recursos dos dicionários do Systran, instalações para a criação e manutenção, individual ou em grupo, das bases de dados de terminologia (utilizando o software do Trados‟ MultiTerm) a memória de tradução (novamente para grupos ou indivíduos) o acesso ao CELEX (a base de dados de textos completos da legislação e das diretrizes da União Europeia) software de comparação de documentos (para detetar onde ocorreram mudanças) e também, obviamente, acesso aos próprios sistemas de TA Systran. Este último está agora disponível de inglês para holandês, 127 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins francês, alemão, grego, italiano, português e espanhol; de francês para holandês, inglês, alemão, italiano e espanhol; de espanhol para inglês francês; e de alemão para as mesmas. Todo o sistema EURAMIS está ligado a outras funcionalidades como ferramentas de elaboração de documentos (ortografia, marcadores de gramática e de estilo, e assistência de rascunhos multilingues) a rede interna e administrativa da Comissão Europeia, e a recursos exteriores na Internet. Software de Localização Uma das áreas de maior crescimento relativas ao uso de computadores para tradução é a indústria do software de localização. Neste caso, a exigência é no sentido da documentação paralela estar disponível em várias línguas a tempo do lançamento do novo software. A tradução tem que ser feita rapidamente, mas há uma grande repetição de informação de uma versão para outra. A TA e, recentemente, a memória de tradução no software de trabalho do tradutor são a solução óbvia (Schaeler 1996). Entre os primeiros desta área, estava a grande empresa de software empresarial SAP AG, na Alemanha. Nesta empresa utilizam dois sistemas de TA: a METAL que realiza traduções de alemão para inglês, e o Logos de inglês para francês e que planeia introduzir novos sistemas para outros pares de línguas. Grande parte da localização, contudo, é feita a partir da memória de tradução e do software de trabalho do tradutor. Os exemplos mais comuns são o Corel, o Lotus e o Canon. É interessante verificar que muita dessa atividade de localização está sedeada na Irlanda – graças a um apoio do governo e da União Europeia à indústria informática. No entanto, a localização é uma indústria multinacional e global, com a sua própria organização (a Localization Industry Standards Association [A Associação da Indústria Standard de Localização], sediada em Genebra) que organiza e realiza em todos os continentes, seminários e conferências frequentes (para mais detalhes ver a LISA Forum Newsletter). As empresas de localização têm estado na vanguarda das diligências na Europa para definir os recursos lexicais estandardizados, formatos de manuseamento de textos, e para desenvolver infraestruturas de rede comuns. Este é o projeto OTELO, que coordena o Lotus da Irlanda, com outros membros como o SAP, o Logos e o GMS. Para o sucesso futuro das empresas da indústria de localização 128 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins considera-se fundamental a necessidade de haver um ambiente geral de tradução, para uma grande variedade de memória de tradução, de tradução automática e de outras ferramentas de produtividade. Sistemas para computadores pessoais O software para computadores pessoais, começou a aparecer no início dos anos 80 (com o sistema Weidner MicroCAT tornando-se particularmente bem sucedido). Quase todas as principais empresas japonesas de computadores produzem sistemas para a tradução de e para inglês, como por exemplo o sistema PIVOT da NEC, o sistema ASTRANSAC da Toshiba, o HICATS da Hitachi, e ainda a PENSEE da Oki e DUET, da Sharp. Para além do Japão, os sistemas para os computadores pessoais começaram a aparecer cedo, mas em poucas empresas. Os primeiros sistemas americanos chegaram no início dos anos 80, de ALPS e Weidner. Os produtos ALPS foram inicialmente criados como assistentes de tradução, fornecendo ferramentas para o acesso e criação de recursos de terminologia, e também estes incluíam módulos interativos de tradução. Apesar de ao início ter tido algum sucesso de vendas, ao fim de uma década os seus produtores concluíram que o mercado ainda não estava preparado e, por isso, os produtos foram retirados. Pouco tempo depois, a ALPS decidiu tornar-se num serviço de tradução (o ALPANET) usando as suas próprias ferramentas internamente. Em contrapartida, a Weidner vendeu um sistema completo de tradução num vasto número de pares de línguas (inglês, francês, alemão e espanhol) e o negócio prosperou. A Weidner produziu duas versões dos seus sistemas: a MicroCat para pequenos computadores pessoais, e o MacroCat para minicomputadores e para software de trabalho do tradutor em grande escala. A Weidner foi então adquirida pela empresa japonesa Bravis, e foi posta à venda uma versão da mesma língua. No entanto, pouco tempo depois o proprietário decidiu que o mercado da TA para computadores pessoais estava ainda pouco desenvolvido e o negócio foi vendido. A MicroCat desapareceu completamente, mas a MacroCat por outro lado foi adquirida pela Intergraph, que a modificou e desenvolveu para a sua gama de publicações de software, que veio a vender mais tarde com o novo nome de Transcend – 129 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins recentemente a Transcend foi adquirida pela Transparent Language Inc. (para estes desenvolvimentos ver Hutchins 1993, 1994). Nos finais dos anos 80 do século XX, apareceu grande parte dos sistemas comerciais hoje disponíveis no mercado. Primeiro apareceu o sistema PC-Translator (da Linguistic Products sedeada no Texas) concebido para computadores pessoais com funcionalidades básicas [low-end]. Ao longo dos anos, muitos pares de línguas foram produzidos e vendidos, manifestamente com sucesso no que diz respeito às vendas. Depois seguiu-se a Globalink, com sistemas para francês, alemão e espanhol, para inglês (existe também um sistema de russo para inglês, que derivou essencialmente da experiência do proprietário original do projeto Georgetown nos anos 60). Não demorou muito até a Globalink se fundir com a MicroTac, uma empresa que teve muito sucesso ao vender o seu Language Assistant, uma série barata de um software de PC [PC software] – essencialmente dicionários automáticos, com uma funcionalidade que permite traduzir expressões muito pequenas. No início dos anos 90, a Globalink produziu a série „Power Translator‟, hoje em dia bastante conhecida, de tradução nos dois sentidos entre inglês e o francês, o alemão e o espanhol. Recentemente, a Globalink vendeu a Telegraph, a série mais avançada de produtos de software de tradução, e a própria Globalink foi adquirida pela Lernout & Hauspie, uma empresa de tecnologia de discurso líder de mercado. Desde o início dos anos 90, aparecerem muitos outros sistemas para computadores pessoais. Estão agora disponível o Logovista da Language Engineering Corporation, que efectua traduções de japonês para inglês, e a Tsunami e a Typhoon, da Neocor Tecnologias (que agora pertencem à Lernout & Hauspie). Da antiga União Soviética – onde havia uma investigação muito activa sobre TA, especialmente nos anos 60 e 70, – temos agora o Stylus (recentemente rebaptizado ProMT) e o PARS, ambos sistemas de marketing especializados em traduções de russo para inglês; o sistema Stylus também trabalha em francês, e o sistema PARS para ucraniano. Outros sistemas baseados em PC [PC based] na Europa incluem: o Hypertrans para traduzir entre o italiano e o inglês; o sistema Winger para traduzir de dinamarquês para inglês, de francês para inglês e de inglês para espanhol, agora também comercializado na América do Norte; existe ainda o TranSmart, a versão comercial do sistema Kielikone, para efetuar traduções de finlandês para inglês. 130 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins Vendedores de sistemas mainframe mais antigos (Systran, Fujitsu, Metal e Logos) estão a ser obrigados a competir, reduzindo os sistemas. Muitos têm-no feito com sucesso, conseguindo reter grande parte das funcionalidades dos seus produtos mainframe, nas versões baseadas em PC [PC based]. O Systran Pro e o Systran Classic, por exemplo, são versões baseadas no sistema operativo Windows [Windows-based], do sistema de sucesso desenvolvido desde 1960 para clientes em todo o mundo numa grande variedade de línguas. As grandes bases de dados de dicionários fornecidas pelo Systran, conferem a estes sistemas, óbvias vantagens sobre outros produtos de PC – Personal Computer [Computador Pessoal]. Tanto o Systran Classic (para uso doméstico) como o Systran Pro (para uso dos tradutores) são agora vendidos por menos de quinhentos dólares em muitos pares de línguas: inglês-francês, inglês-alemão, inglês-espanhol e ainda de inglês para italiano e de japonês para inglês. A editora Langenscheidt, adquiriu os direitos de venda de uma versão da METAL, em colaboração com a GMS (o Gesellschaft für Multilinguale Systeme [Soceidades de Sistemas Multilingues], agora propriedade de Lernout & Hauspie) – este sistema denomina-se „Langenscheidt T1‟ e oferece várias versões de tradução para alemão e inglês. Também vem da Alemanha o Personal Translator, um produto conjunto do IBM e Von Rheinbaben & Busch baseado no LMT (i.e. LogicProgramming based Machine Translation) um sistema por transferência [transferbased] que se está a desenvolver desde 1985, estando o próprio LMT disponível como uma componente de TA para o Translation Manager, da IBM. Tanto o Langenscheidt T1, como o Personal Translator diestinam-se primeiramente para o tradutor nãoprofissional, competindo por isso com a Globalink, e outros produtos semelhantes (para estes desenvolvimentos ver Atas de colóquios de TA: AMTA, EAMT, MT Summit e MT News International). Surpreendentemente, as vendas do software de tradução comercial de PC, têm subido notavelmente. Estima-se que haja cerca de 1000 pacotes diferentes de TA à venda (sendo que cada par de língua é contado separadamente). Os produtos de um vendedor (Globalink) estão presentes em pelo menos 6000 lojas só na América do Norte, e no Japão diz-se que um sistema (o Korya Eiwa em Catena, de traduções de inglês-japonês) terá vendido mais de 100, 000 mil exemplares no seu primeiro ano no mercado. Apesar de ser difícil precisar qual a quantidade do software adquirido é 131 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins regularmente usado (alguns cínicos afirmam que apenas uma pequena proporção é testada mais que uma vez) não há qualquer dúvida de que existe um volume crescente da tradução „ocasional‟, i.e., de uma tradução efetuada por pessoas de todas as proveniências, que querem traduções de textos estrangeiros na sua própria língua, ou que querem comunicar por escrito com outras noutras línguas e que não dão grande importância à fraca qualidade. É este mercado latente de tradução de escassa qualidade, inexplorado até há bem pouco tempo, que está agora a ser descoberto e que está a contribuir para um aumento inesperado de vendas no software de tradução. TA na Internet Ao mesmo tempo, muitos vendedores de TA têm fornecido serviços de tradução em rede [network-based] para traduções encomendadas, com revisão humana como extras opcionais. Em alguns casos, existem acordos entre cliente e servidor para utilizadores regulares, noutros o serviço é fornecido para um período experimental, permitindo às empresas descobrir se a TA vale a pena dentro das suas circunstâncias específicas, e de que modo. Tais serviços são fornecidos por sistemas como, por exemplo, o Systran, o Logos, a Globalink, a Fujitsu, a JICST e a NEC. Algumas empresas têm agora sido construídas com este objetivo: o LANT na Bélgica é o maior exemplo disso, fundando os seus direitos a desenvolver o sistema METAL e a Eurolang Optimizer, que também comercializa (Caeyers 1997). A sua especialidade é a adaptação de linguagens controladas para usar com os seus sistemas de TA e memória de tradução. No final do ano de 1997, foram ainda lançados os serviços multilingues para a tradução de e-mails, páginas Web e anexos. Em Singapura, existe o MTSU (Machine Translation Service Unit do Institute of Systems Science, da National University of Singapore) que usa os seus próprios sistemas, desenvolvidos localmente para a tradução de inglês para chinês, malaio, japonês e coreano (sendo o chinês o seu ponto mais forte) e contando ainda com a revisão de tradutores profissionais. Este serviço está a proporcionar uma tradução em grande escala através da Internet para clientes em todo o mundo (principalmente organizações multinacionais) incluindo muitas das necessidades de localização para empresas de software nos mercados de língua chinesa. (LISA Forum Newsletter 4 (3) August 1995, p.12.) 132 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins Outro sinal da influência da Internet, é o número crescente de produtos de software de TA, destinadas a traduzir páginas Web. As empresas japonesas lideraram o caminho: quase todas as empresas mencionadas anteriormente têm um produto neste mercado lucrativo, assim como têm sido seguidas rapidamente em qualquer outro lugar (por exemplo: o Systran, a Globalink, a Transparent Language e o LogoVista). Tal como o software de PC para a tradução de páginas Web, verificam-se serviços na Internet que têm vindo a acrescentar ferramentas de tradução: o exemplo mais recente é a disponibilidade do AltaVista em versões do Systran para traduzir francês, alemão e espanhol de e para inglês – mas é demasiado cedo para dizer com que tipo de sucesso ou nível de satisfação dos utilizadores (Yang e Lange 1998). Igualmente importante, tem sido o uso da TA para o e-mail e para as „salas de chat‟. Há dois anos, a CompuServe apresentou um serviço beta, baseado no sistema Transcend para utilizadores do MacCIM Support Forum [Fórum de Assistência MacCIM]. Seis meses mais tarde, a World Community Forum começou a utilizar a TA para traduzir a troca de e-mails, e o seu uso disparou (Flanagan 1996). Muito recentemente, a CompuServe apresentou os seus próprios serviços de tradução para documentos mais extensos, quer fosse TA „em bruto‟ e sem revisão, ou com uma revisão humana opcional. Em breve, o CompuServe irá oferecer a TA como padrão para todos os seus e-mails. No que diz respeito ao chat da Internet, a Globalink juntou-se à UniVerse para prestar um serviço multilingue. Este uso não é mera curiosidade apesar de ser assim que, na maior parte das vezes, tudo começa. A CompuServe registou uma percentagem elevada e repetida de vários utilizadores no seu serviço, cerca de 85% de TA sem edição – uma percentagem muito mais elevada do que seria de esperar. Parece que a maior parte é utilizada para assimilação de informação, onde uma tradução mais fraca é aceitável. O ponto essencial é que os clientes estão dispostos a pagar pelo produto – e o CompuServe é inundado de reclamações cada vez que o sistema de TA vai abaixo. É óbvio que o potencial da TA na Internet, via Internet e para a Internet está agora a ser devidamente apreciado – nenhuma empresa se pode dar ao luxo de ficar para trás, e todos os grandes jogadores têm planos ambiciosos, por exemplo a Lernout & Hauspie (McLaughlin e Schwall 1998) que adquiriu agora sistemas de TA da Globalink, Neocor e AppTek, bem como do antigo sistema METAL (da GMS). 133 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins Necessidades e desenvolvimentos futuros Apesar do crescimento recente de sistemas para computadores pessoais e de serviços da Internet, é preciso realçar que ainda não há nada realmente adequado para o tradutor profissional e independente, i.e. para aqueles que não trabalham para grandes empresas ou em organizações de tradução. Sabe-se que alguns tradutores tentaram aplicar um software comercial baseado em PC [PC based] às suas necessidades, mas a quantidade de adaptação necessária e o output frequentemente fraco tornaram-nos insatisfatórios e muito pouco económicos. Para o tradutor independente seria mais adequado um software de trabalho de tradução que fosse rentável, contudo, os softwares de trabalho existentes no mercado continuam a ser demasiado caros para o tradutor individual. Apesar de haver a promessa de ferramentas para computador de baixo custo para este mercado potencialmente vasto – por ex. software de concordância e terminologia, e talvez ainda software de alinhamento – não há qualquer dúvida de que este segmento não será tão bem cuidado como outras áreas. Outra área mal servida presentemente, é a necessidade de uma tradução fidedigna de documentos para línguas estrangeiras, que sejam de baixo custo e em que os utilizadores não queiram empregar tradutores profissionais bilingues. Não existe qualquer problema com a tradução para as próprias línguas dos emissores – os sistemas de PC podem conferir versões rudimentares adequadas e „sólidas‟ para utilizadores que têm uma ideia de qual é a mensagem principal – mas no caso de traduções para línguas desconhecidas ainda não existem soluções. Apareceram recentemente alguns produtos japoneses baratos que servem esta procura específica de „língua estrangeira de autor‟, para a escrita de cartas de negócios (baseadas em expressões padrão e modelos de documentos) mas para outras áreas e para documentos mais extensos, onde há menos „estereótipo‟, ainda não existe nada. No caso da tradução para uma língua desconhecida (ou mal conhecida) do emissor, o que é mesmo exigido é um software em que se possa confiar para facultar um output de boa qualidade (e muitos produtos de PC não são suficientemente bons). Uma série de grupos de investigação está a pesquisar sistemas interativos onde o emissor compõe uma versão „amiga‟ da TA de uma carta ou documento em colaboração com o 134 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins computador. Com um texto de input suficientemente „normalizado‟, o sistema de TA pode garantir um output gramática e estilisticamente correto. No entanto, este trabalho (por ex.: at GETA em França) continua em fase de laboratório (Boitet e Blanchon 1995). O mesmo acontece com o software que combina a TA com acesso e extração de informação, e software de sumarização. Não existem sistemas comerciais no mercado até à data, uma vez que todos os desenvolvimentos ainda estão em fase de investigação. O potencial e a procura têm sido, no entanto, reconhecidos: por ex., recentemente a maior parte dos fundos de investigação da União Europeia têm sido direcionados, não para a TA ou para o processamento de uma língua natural „pura‟ (como era nos anos 80), mas em projetos que têm como objetivo ferramentas multilingues com aplicações diretas. Muitos destes envolvem traduções de qualquer tipo, por regra, dentro de um campo restrito, e muitas vezes em condições controladas (Hutchins 1996; Schütz 1996). Só como exemplo, o projecto AVENTINUS está a desenvolver um sistema para as forças policiais na área de controlo de estupefacientes e cumprimento da lei: ou seja, toda a informação sobre estupefacientes, criminosos e suspeitos, estará disponível em bases de dados acessíveis em qualquer língua da União Europeia. Existe um interesse crescente neste tipo de aplicações multilingues em todo o mundo. A aplicação que tem recebido mais atenção, tem sido a extrcção de informação multilingue [cross-language], i.e. um software que permite aos utilizadores pesquisarem bases de dados de línguas estrangeiras, na sua própria língua. Até agora, grande parte do trabalho tem-se focado na construção e manuseamento de dicionários de tradução, apropriados na busca de uma correspondência de palavras ou expressões equívocas em bases de dados de documentos (Bian e Chen 1998, Oard 1998) – apesar da provisão de software para a tradução rápida de textos originais para a língua do próprio investigador, ser algo naturalmente previsto (McCarley e Roukos 1998). É claro que não tardará até o software comercial estar disponível para esta aplicação. A aplicação futura que é provavelmente a mais desejada pelo público geral, é a tradução de língua falada. Contudo, de um ponto de vista comercial (e mesmo de investigação) a perspetiva para uma tradução automática de discurso falado são ainda 135 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins distantes (Krauwer et al. 1997). Foi só nos anos de 80 do século XX que desenvolvimentos no reconhecimento de fala e síntese fizeram da tradução de língua falada, um objetivo exequível. No Japão, a empresa ATR , uma parceria entre o governo e a indústria, foi fundada em 1986 perto de Osaka, e é agora um dos principais centros de tradução de discurso automático. O objetivo é desenvolver um sistema de tradução de telefonemas em tempo real que fosse independente do falante, de japonês para inglês e vice-versa, inicialmente dirigido a transações para a inscrição em hotéis e em colóquios. Entretanto, outros projetos de tradução de discurso têm sido iniciados subsequentemente, como o sistema JANUS, um projeto de investigação na Carnegie-Mellon University e em Karlssruhe, na Alemanha. Os investigadores estão a colaborar com a ATR num consórcio (a C-STAR) onde cada um desenvolve o reconhecimento de fala e módulos de síntese para as suas próprias línguas: inglês, alemão e japonês (um subproduto desta investigação foi mencionada anteriormente: o projeto de rápido desenvolvimento para sistemas feitos „à medida‟ [custom-built] em línguas menos comuns). O quarto maior esforço da tradução de discurso é um projecto a longo prazo, VERBMOBIL, financiado pelo German Ministry for Research and Technology [Ministerio para a Investigação e Tecnologia da Alemanha] iniciado em Maio de 1993. O objetivo é a assistência portátil para negociações, como suplemento ao conhecimento da línguas da parte dos próprios utilizadores (alemão, japonês e inglês). Inúmeros grupos universitários alemães, estão envolvidos em investigação básica em linguística de diálogo, reconhecimento de fala e design de TA; um protótipo está quase completo e a demonstração do produto está marcada para o início do século XXI. A tradução de discurso falado é provavelmente a área de investigação de tradução baseada em computador [computer-based] atualmente mais inovadora, e está a atrair mais fundos e mais publicidade. No entanto, poucos observadores experientes esperam desenvolvimentos dramáticos nesta área num futuro próximo – o desenvolvimento de TA para uma língua escrita tem demorado vários anos a alcançar o estádio atual de uso prático em empresas multinacionais, da variedade de produtos baseados em PC [PC based] de qualidade e aplicação variável, e ainda do uso crescente em redes e para e-mails. Apesar da excelência da TA dos dias de hoje de linguagem escrita, os investigadores sabem que ainda há muito por fazer para 136 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins melhorar a qualidade. A TA de língua falada ainda não alcançou um nível de teste em tempo real, e em cenários não-laboratoriais. Comparação entre tradução humana e automática Deste estudo, deve ficar claro que a aplicação de computadores para a tarefa de tradução de línguas naturais não tem tido lugar, e que é improvável que isto se torne uma ameaça à vida dos tradutores profissionais. As habilidades que um tradutor humano possui e com a quais pode contribuir, podem e vão ter sempre procura. Não há possibilidade, por exemplo, de a tradução automática conseguir alguma vez tentar traduzir textos literários ou jurídicos. Por outro lado, a tradução rudimentar de textos eletrónicos na Internet não tem rival com a tradução automática – os tradutores humanos não conseguem competir em termos de rapidez, mesmo que estivessem preparados para serem responsáveis pela fraca qualidade de uma tradução de material efémero. Podemos comparar os méritos relativos da tradução humana e automática, de acordo com as categorias de necessidade e uso, delineados no início deste texto. No que diz respeito à função de disseminação (produção de traduções publicáveis) a tradução humana é a mais satisfatória e frequentemente a menos dispendiosa, quer seja ou não uma questão de traduzir de um texto específico num único domínio de tema (quer seja científico, técnico, médico, jurídico ou literário). A tradução automática exige um investimento dispendioso de manutenção e atualização de dicionários, e do envolvimento custoso de pós-revisão. Isto pode ser justificável (i.e. rentável) apenas quando grandes volumes de documentação estão a ser traduzidos dentro de um domínio específico. É ainda mais justificável quando a tradução trabalha mais que uma língua-alvo (quando a pré-revisão e/ou controlo de gramática e vocabulário de textos originais é possível) e quando é considerado repetição. O tradutor humano sentir-se-ia esmagado pela magnitude dessa tarefa, pela repetição enfadonha e pela necessidade de manter a consistência terminológica. O computador, por outro lado, consegue ligar com esses vastos volumes e pode manter a dita consistência automaticamente. Em suma, a tradução automática é ideal para grandes escalas e/ou traduções rápidas de documentação técnica (enfadonha,) de manuais de software de localização (altamente repetitivo) e da tradução da previsão do estado do 137 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins tempo. O tradutor humano não tem (e continuará a não ter) rivais, no que diz respeito a textos linguisticamente sofisticados e não-repetitivos (por ex. na literatura e em direito). Para a tradução de textos por assimilação, onde a qualidade do output pode ser mais fraca do que as dos textos por publicar, é óbvio que a tradução automática é a solução ideal. Os tradutores humanos não estão preparados (e ressentem a pergunta) para produzir uma tradução „em bruto‟ de documentos científicos e técnicos que podem ser lidos por apenas uma pessoa que quer apenas encontrar o conteúdo e informação geral. Muito menos tendo a preocupação se o texto é inteligível ou não, e que não se deixa dissuadir pela estranheza estilística ou pelos erros gramaticais. É claro que estes podem preferir ter um output melhor do que aquele apresentado pela maioria dos sistemas de TA, mas se a única alternativa possível é não ter qualquer tradução, então a tradução automática é completamente aceitável. Para a troca de informação, pode ainda continuar a existir no futuro um papel para o tradutor humano na tradução de correspondência de negócios (particularmente se o conteúdo é sensível ou legalmente vinculativo). Mas é provável que os sistemas de TA sejam bastante usados no que diz respeito à tradução de cartas pessoais. E tanto no que diz respeito ao e-mail, à extração de informação de páginas Web e aos serviços de informação baseados em computador [computer-based] a TA é a única solução viável. No que diz respeito à tradução falada, por outro lado, continuará a haver mercado para o tradutor humano. Não há certamente nenhuma possibilidade da tradução automática substituir o intérprete de trocas diplomáticas ou comerciais. Apesar de ter havido uma investigação sobre a tradução automática de inquéritos via telefone, dentro de domínios bastante restritos, e uma implementação futura possa ser vista nesta área para grande parte da comunicação telefónica, é muito improvável que haja qualquer substituto para a tradução humana. Por fim, os sistemas de TA estão a descobrir novas áreas nas quais a tradução humana nunca fez parte: na produção de versões „rascunho‟ para autores que escrevem numa língua estrangeira e que precisam de assistência na produção de um texto original, na tradução de legendas online, na tradução de informação através de bases de dados, e sem dúvida que aparecerão mais aplicações no futuro. Nestas áreas, 138 _______________Anexo 4: Proposta de tradução para The Development and use of machine translation systems and computer-based translation tools, de John Hutchins como noutras já mencionadas, não há qualquer ameaça para o tradutor humano porque estas nunca foram incluídas na esfera da tradução profissional. Não há dúvida que a TA e a tradução humana podem, e irão, coexistir em harmonia e sem conflito. 139