ISTRION BOX uma Start-up Portuguesa tecnológica por Gabriel Lopes www.istrionbox.com | [email protected] | [email protected] 1 Sumário Quem Somos De onde vimos As nossas vantagens Tecnologias www.istrionbox.com | [email protected] | [email protected] 2 Quem somos A ISTRION BOX é uma tecnológica da área da: - Tradução automática - Mineração de texto (Text Mining) - Aprendizagem automática - Processamento de Línguas Naturais - Inteligência Artificial www.istrionbox.com | [email protected] | [email protected] 3 DE ONDE VIMOS: FCT/UNL FUNDADA POR: 1 DOUTOR; 4 ESTUDANTES DE DOUTORAMENTO; 1 MESTRE RESULTADO DIRECTO DE 4 PROJECTOS I&D: TRADAUT-PT ASTROLABIUM PATRAS ISTRION RESULTADO DE 1 PRÉMIO: COHITEC 2005 www.istrionbox.com | [email protected] | [email protected] 4 As Nossas Vantagens Resposta rápida e com qualidade aos clientes para produzir: Memórias de Tradução Extracção de terminologias (monolingues e bilingues) Tradução de novos termos Novos motores de tradução, evoluindo com as correcções que são feitas às traduções produzidas, adaptados às necessidades dos clientes Concordances adaptados aos clientes Plataforma de tradução e de pós-edição Bases de conhecimento permanentemente em crescimento Independência da Língua Nenhum conhecimento, correcto ou incorrecto, se perde. É sempre reutilizado Damos assessoria para todos os sectores do mercado, nomeadamente: empresas de tradução e instituições www.istrionbox.com | [email protected] | [email protected] 5 Visualização de algumas aplicações Segue-se: Criação de Memórias de Tradução Extracção de terminologias Tradução de novos termos Novos motores de tradução, adaptados às necessidades dos clientes Concordances adaptados aos clientes Plataforma de tradução e de pós-edição www.istrionbox.com | [email protected] | [email protected] 10 Criação de Memórias de Tradução a partir de 2 textos paralelos Escolhe as línguas dos documentos a segmentar em MTs www.istrionbox.com | [email protected] | [email protected] Faz o upload dos documentos a paralelos, usando os botões, um de cada vez 11 Criação de Memórias de Tradução a partir de 2 textos paralelos Os documentos a segmentar foram puxados www.istrionbox.com | [email protected] | [email protected] Para extrair o texto que contêm, clique no botão 12 Criação de Memórias de Tradução a partir de 2 textos paralelos Aqui os textos até eram bem comportados www.istrionbox.com | [email protected] | [email protected] 13 Criação de Memórias de Tradução a partir de 2 textos paralelos Mas aqui não eram bem comportados. Do lado do português (ver linha3) www.istrionbox.com | [email protected] | [email protected] 14 Criação de Memórias de Tradução Depois do alinhamento/segmentação tudo se compôs Estas memórias podem ser exportadas para validação ou utilizadas tal qual em vários formatos www.istrionbox.com | [email protected] | [email protected] 15 Filtragem de Memórias de Tradução Importar TMs para as filtrar www.istrionbox.com | [email protected] | [email protected] 17 Filtragem de Memórias de Tradução Preenchemos a área (Medicines) da MT. Clica-se no botão de UPLOAD… Mas há que depois clicar em www.istrionbox.com | [email protected] | [email protected] 18 Filtragem de Memórias de Tradução www.istrionbox.com | [email protected] | [email protected] Há que separar BEROMUN da parte anterior da MT 19 Filtragem de Memórias de Tradução www.istrionbox.com | [email protected] | [email protected] Há que separar BEROMUN da parte anterior da MT. Use o botão Split 20 Filtragem de Memórias de Tradução Separou BEROMUN da parte anterior da MT. Mas foi parar ao final por questões de configuração www.istrionbox.com | [email protected] | [email protected] 21 Filtragem de Memórias de Tradução Esta 1ª MT pode ser separada em duas MTs Aqui Separou BEROMUN da parte anterior da MT. Mas foi parar ao final por questões de configuração www.istrionbox.com | [email protected] | [email protected] 22 Filtragem de Memórias de Tradução E foi separada em duas MTs Aqui Outras correcções podem ser feitas, retirando por exemplo aquele sinal de Mudança de Linha “¶” proveniente do PDF www.istrionbox.com | [email protected] | [email protected] 23 Filtragem de Memórias de Tradução Mas temos outras formas de filtragem: • Tamanho • Proporção de algarismos • Cobertura do material traduzido www.istrionbox.com | [email protected] | [email protected] 24 Termos extraídos de documento e agilizar a TAC Podemos extrair terminologias como as que aparecem à direita. E podemos construir interfaces para extrair manualmente as traduções dos termos que o sistema ainda não conhece www.istrionbox.com | [email protected] | [email protected] 25 Tradução daqueles termos extraída manualmente Nesta segunda memória verificamos que há outro termo “political and internal efforts <>esforços a nível político e interno” www.istrionbox.com | [email protected] | [email protected] 26 Extracção de termos monolingues •Esta extracção é feita automaticamente, •de forma totalmente independente da língua •ou com alguma conhecimento morfossintáctico da língua. •PRECISA SEMPRE DE VALIDAÇÃO No slide seguinte mostramos um pouco da interface de validação www.istrionbox.com | [email protected] | [email protected] 27 Validação de termos monolingues extraídos automaticamente Com excepção de “rectilinear biphasic”, todos os termos extraídos estão marcados a verde estando os quadradinhos sob o botão A (de aceite) escolhidos. Os Botões seguintes significam: A- Mais curto do que devia A aceite A+ Mais longo do que devia U Não verificado R rejeitado C acesso ao concordance P indecisão (postpone) Acesso a termos destes permite procurar antecipadamente as suas traduções, tendo acesso ao contexto onde surgem e manter uniformidade de tradução. www.istrionbox.com | [email protected] | [email protected] 28 Interface de visualização e validação de traduções extraídas automaticamente www.istrionbox.com | [email protected] | [email protected] 29 Interface de validação de tradução de termos extraídosTermos extraídos do par de línguas automaticamente Checo-Português ainda não validados www.istrionbox.com | [email protected] | [email protected] 30 Concordance ChecoPortuguês www.istrionbox.com | [email protected] | [email protected] 31 Nos concordances, entre dois segmentos de Memória de Tradução existem dois botões || e = que clicados permitem visualizar um alinhamento mais fino, como se mostra ao lado. Neste alinhamento, descobriu-se que “in their regular monitoring of” pode ser tradução de “ao controlarem regularmente” e inseriu-se manualmente esta entrada www.istrionbox.com | [email protected] | [email protected] 32 Concordances: Evolução dos alinhamentos O alinhador, entretanto , na vez seguinte, tinha já alinhado esta expressão. Não sabia ainda que “bridging tables<> tabelas de correspondênc ia… www.istrionbox.com | [email protected] | [email protected] 33 Concordances: Evolução dos alinhamentos Por extracção automática ou manualmente, a entrada “bridging tables<> tabelas de correspondência” foi inserida e o alinhamento fino evoluiu mais uma vez… www.istrionbox.com | [email protected] | [email protected] 34 Interface de suporte à TA e à pós-edição A versão 1 do texto do EMEA WC500143086, em Português, foi traduzida para Inglês por um dos nossos motores. originou a versão 2 do mesmo texto. A versão 3, é a versão em Inglês original do EMEA. www.istrionbox.com | [email protected] | [email protected] 35 Comparação de traduções Versão 1, original Versão 2, traduzida por um motor nosso www.istrionbox.com | [email protected] | [email protected] Versão 3, original, tradução humana 36 Comparação de traduções www.istrionbox.com | [email protected] | [email protected] 37 Comparação de traduções www.istrionbox.com | [email protected] | [email protected] 38 Comparação de traduções •No slide anterior vimos duas traduções do discurso de victória do Presidente Obama, na 2ª eleição: • A versão 7 foi traduzida por um motor treinado em cima do corpus Apertium EurLex (sobre legislação e vigor) • A versão 8 foi traduzida por um motor treinado com os discursos do Parlamento Europeu (EUROPARL) •A tradução 8 é muito melhor que a 7 e deveria, por isso, ser escolhida para pós-edição… www.istrionbox.com | [email protected] | [email protected] 39 Nada obriga a que deixem de ser utilizadas ferramentas anteriormente utilizadas para Tradução Auxiliada por Computador • Todos os serviços que prestamos são exportáveis em formatos utilizados pela indústria. • A Tradução Automática feita pelos nossos motores, que se adaptam às necessidades de cada cliente, aprendem e evoluem, desde que sejam corrigidos, apenas vem ajudar a aumentar a produtividade e a qualidade da tradução humana www.istrionbox.com | [email protected] | [email protected] 40 Que cooperação? www.istrionbox.com | [email protected] | [email protected] 41