ISTRION BOX
uma Start-up Portuguesa
tecnológica
por
Gabriel Lopes
www.istrionbox.com | [email protected] | [email protected]
1
Sumário
Quem Somos
De onde vimos
As nossas vantagens
Tecnologias
www.istrionbox.com | [email protected] | [email protected]
2
Quem somos
A ISTRION BOX é uma tecnológica da
área da:
- Tradução automática
- Mineração de texto (Text Mining)
- Aprendizagem automática
- Processamento de Línguas Naturais
- Inteligência Artificial
www.istrionbox.com | [email protected] | [email protected]
3
DE ONDE VIMOS: FCT/UNL
FUNDADA POR:
1 DOUTOR; 4 ESTUDANTES DE DOUTORAMENTO;
1 MESTRE
RESULTADO DIRECTO DE 4 PROJECTOS I&D:
TRADAUT-PT
ASTROLABIUM
PATRAS
ISTRION
RESULTADO DE 1 PRÉMIO: COHITEC 2005
www.istrionbox.com | [email protected] | [email protected]
4
As Nossas Vantagens
 Resposta rápida e com qualidade aos clientes para produzir:
 Memórias de Tradução
 Extracção de terminologias (monolingues e bilingues)
 Tradução de novos termos
 Novos motores de tradução, evoluindo com as correcções que são feitas às
traduções produzidas, adaptados às necessidades dos clientes
 Concordances adaptados aos clientes
 Plataforma de tradução e de pós-edição
 Bases de conhecimento permanentemente em crescimento
 Independência da Língua
 Nenhum conhecimento, correcto ou incorrecto, se perde. É sempre reutilizado
 Damos assessoria para todos os sectores do mercado, nomeadamente:
empresas de tradução e instituições
www.istrionbox.com | [email protected] | [email protected]
5
Visualização de algumas
aplicações
Segue-se:
Criação de Memórias de Tradução
Extracção de terminologias
Tradução de novos termos
Novos motores de tradução, adaptados às
necessidades dos clientes
Concordances adaptados aos clientes
Plataforma de tradução e de pós-edição
www.istrionbox.com | [email protected] | [email protected]
10
Criação de Memórias de
Tradução a partir de 2 textos paralelos
Escolhe as línguas dos
documentos a
segmentar em MTs
www.istrionbox.com | [email protected] | [email protected]
Faz o upload dos
documentos a
paralelos, usando os
botões, um de cada
vez
11
Criação de Memórias de
Tradução a partir de 2 textos paralelos
Os documentos a
segmentar foram
puxados
www.istrionbox.com | [email protected] | [email protected]
Para extrair o
texto que
contêm, clique
no botão
12
Criação de Memórias de
Tradução a partir de 2 textos paralelos
Aqui os textos
até eram bem
comportados
www.istrionbox.com | [email protected] | [email protected]
13
Criação de Memórias de
Tradução a partir de 2 textos paralelos
Mas aqui não eram bem
comportados. Do lado do
português (ver linha3)
www.istrionbox.com | [email protected] | [email protected]
14
Criação de Memórias de
Tradução
Depois do
alinhamento/segmentação
tudo se compôs
Estas memórias
podem ser exportadas
para validação ou
utilizadas tal qual em
vários formatos
www.istrionbox.com | [email protected] | [email protected]
15
Filtragem de Memórias
de Tradução
Importar
TMs para as
filtrar
www.istrionbox.com | [email protected] | [email protected]
17
Filtragem de Memórias
de Tradução
Preenchemos a
área (Medicines)
da MT. Clica-se no
botão de UPLOAD…
Mas há que depois
clicar em
www.istrionbox.com | [email protected] | [email protected]
18
Filtragem de Memórias
de Tradução
www.istrionbox.com | [email protected] | [email protected]
Há que separar
BEROMUN da parte
anterior da MT
19
Filtragem de Memórias
de Tradução
www.istrionbox.com | [email protected] | [email protected]
Há que separar
BEROMUN da parte
anterior da MT. Use o
botão Split
20
Filtragem de Memórias
de Tradução
Separou BEROMUN da
parte anterior da MT. Mas
foi parar ao final por
questões de configuração
www.istrionbox.com | [email protected] | [email protected]
21
Filtragem de Memórias
de Tradução
Esta 1ª MT pode ser
separada em duas
MTs Aqui
Separou BEROMUN da
parte anterior da MT. Mas
foi parar ao final por
questões de configuração
www.istrionbox.com | [email protected] | [email protected]
22
Filtragem de Memórias
de Tradução
E foi separada em
duas MTs Aqui
Outras correcções podem
ser feitas, retirando por
exemplo aquele sinal de
Mudança de Linha “¶”
proveniente do PDF
www.istrionbox.com | [email protected] | [email protected]
23
Filtragem de Memórias
de Tradução
Mas temos outras formas
de filtragem:
• Tamanho
• Proporção de
algarismos
• Cobertura do material
traduzido
www.istrionbox.com | [email protected] | [email protected]
24
Termos extraídos de
documento e agilizar a TAC
Podemos extrair
terminologias
como as que
aparecem à
direita. E
podemos
construir
interfaces para
extrair
manualmente as
traduções dos
termos que o
sistema ainda não
conhece
www.istrionbox.com | [email protected] | [email protected]
25
Tradução daqueles termos
extraída manualmente
Nesta segunda memória verificamos que há outro termo “political and
internal efforts <>esforços a nível político e interno”
www.istrionbox.com | [email protected] | [email protected]
26
Extracção de termos
monolingues
•Esta extracção é feita automaticamente,
•de forma totalmente independente da língua
•ou com alguma conhecimento morfossintáctico da
língua.
•PRECISA SEMPRE DE VALIDAÇÃO
No slide seguinte mostramos um pouco da
interface de validação
www.istrionbox.com | [email protected] | [email protected]
27
Validação de termos
monolingues extraídos
automaticamente
Com excepção de
“rectilinear biphasic”,
todos os termos extraídos
estão marcados a verde
estando os quadradinhos
sob o botão A (de aceite)
escolhidos. Os Botões
seguintes significam:
A- Mais curto do que devia
A aceite
A+ Mais longo do que devia
U Não verificado
R rejeitado
C acesso ao concordance
P indecisão (postpone)
Acesso a termos destes permite procurar
antecipadamente as suas traduções, tendo acesso ao
contexto onde surgem e manter uniformidade de
tradução.
www.istrionbox.com | [email protected] | [email protected]
28
Interface de visualização e
validação de traduções
extraídas automaticamente
www.istrionbox.com | [email protected] | [email protected]
29
Interface de validação de
tradução de termos extraídosTermos extraídos do
par de línguas
automaticamente
Checo-Português
ainda não validados
www.istrionbox.com | [email protected] | [email protected]
30
Concordance ChecoPortuguês
www.istrionbox.com | [email protected] | [email protected]
31
Nos concordances,
entre dois
segmentos de
Memória de
Tradução existem
dois botões || e =
que clicados
permitem visualizar
um alinhamento
mais fino, como se
mostra ao lado.
Neste alinhamento, descobriu-se que “in their
regular monitoring of” pode ser tradução de “ao
controlarem regularmente” e inseriu-se
manualmente esta entrada
www.istrionbox.com | [email protected] | [email protected]
32
Concordances: Evolução
dos alinhamentos
O alinhador,
entretanto ,
na vez
seguinte,
tinha já
alinhado esta
expressão.
Não sabia
ainda que
“bridging
tables<>
tabelas de
correspondênc
ia…
www.istrionbox.com | [email protected] | [email protected]
33
Concordances: Evolução
dos alinhamentos
Por extracção
automática ou
manualmente, a
entrada “bridging
tables<> tabelas
de
correspondência”
foi inserida e o
alinhamento fino
evoluiu mais uma
vez…
www.istrionbox.com | [email protected] | [email protected]
34
Interface de suporte à TA
e à pós-edição
A versão 1 do
texto do EMEA
WC500143086,
em Português,
foi traduzida
para Inglês por
um dos nossos
motores.
originou a
versão 2 do
mesmo texto.
A versão 3, é a
versão em
Inglês original
do EMEA.
www.istrionbox.com | [email protected] | [email protected]
35
Comparação de traduções
Versão 1,
original
Versão 2,
traduzida por
um motor nosso
www.istrionbox.com | [email protected] | [email protected]
Versão 3,
original,
tradução
humana
36
Comparação de traduções
www.istrionbox.com | [email protected] | [email protected]
37
Comparação de traduções
www.istrionbox.com | [email protected] | [email protected]
38
Comparação de traduções
•No slide anterior vimos duas traduções do discurso
de victória do Presidente Obama, na 2ª eleição:
• A versão 7 foi traduzida por um motor treinado em cima
do corpus Apertium EurLex (sobre legislação e vigor)
• A versão 8 foi traduzida por um motor treinado com os
discursos do Parlamento Europeu (EUROPARL)
•A tradução 8 é muito melhor que a 7 e deveria, por
isso, ser escolhida para pós-edição…
www.istrionbox.com | [email protected] | [email protected]
39
Nada obriga a que deixem
de ser utilizadas ferramentas
anteriormente utilizadas para
Tradução Auxiliada por Computador
• Todos os serviços que prestamos são exportáveis em
formatos utilizados pela indústria.
• A Tradução Automática feita pelos nossos motores, que
se adaptam às necessidades de cada cliente, aprendem e
evoluem, desde que sejam corrigidos, apenas vem
ajudar a aumentar a produtividade e a qualidade da
tradução humana
www.istrionbox.com | [email protected] | [email protected]
40
Que cooperação?
www.istrionbox.com | [email protected] | [email protected]
41
Download

ISTRION BOX uma Start-up Portuguesa tecnológica