Agrupamento e distribuição dos números telefônicos no
português brasileiro (PB): uma contribuiçao ao
aprimoramento do Google tradutor
Oyedeji Musiliyu1 (UFAL)
Resumo:
O estudo está preocupado com a estratégia de agrupamento numérico na
enunciação dos números telefônicos no português brasileiro (PB). O
propósito é disponibilizar informações para o aprimoramento do Google
tradutor. Para isso, números telefônicos extraídos de uma lista telefônica
local foram lidos naturalmente por falantes nativos do PB. Uma análise
segmental foi realizada mediante a utilização do software Praat (Boersma
and Weenink 2013, versão 10.3). Os resultados das análises mostraram um
padrão de agrupamento numérico na enunciação dos números telefônicos e
tal modelo poderia ser base informacional ao aprimoramento do sistema de
síntese de voz do Google tradutor em relação ao números telefônicos.
Palavras-chave: agrupamento, número telefônico, Google tradutor
Abstract:
This paper is concerned with the numerical grouping strategy in spoken
telephone numbers in Brazilian Portuguese, in order to make available
information that could improve the Google translator. To that aim,
telephone numbers were extracted from a local phone book and spoken
spontaneously by native speakers of Brazilian Portuguese. A segmental
analysis was done with the use of Praat (Boersma & Weenink 2013, version
10.3). Results of the analysis show a grouping strategy pattern in the
spoken telephone numbers and such model could serve as information in
improving the speech synthesis system of Google translator in relation to
telephone numbers.
Keywords: grouping, telephone numbers, Google translator
1
Oyedeji Musiliyu, Mestrando
Universidade Federal de Alagoas (UFAL)
Programa de Pós-Graduação em Letras e Linguística
[email protected]
Universidade Federal de Pernambuco
NEHTE / Programa de Pós Graduação em Letras
CCTE / Programa de Pós Graduação em Ciências da Computação
-1-
Introdução
A motivação do estudo
O avanço da tecnologia da fala tornou frequente o uso de sistema
automatizado de reconhecimento e de síntese de fala no nosso cotidiano. Isto é
observado em diversos âmbitos de aplicações tais como: informações bancárias,
tradução online, consultas a listas telefônicas, serviços de auxílio a deficientes
visuais, dentre outras.
Em muitos casos, entretanto, o desempenho desses sistemas tem sido
considerado sofrível, ora por não processarem corretamente a fala espontânea (no
caso de sistemas de reconhecimento de fala, por exemplo o AUDIMUS2), ora por
não apresentarem, em sua produção, características de ritmo e entonação
próximas às da fala natural (no caso dos sistemas de síntese de fala, por exemplo o
DIXI3). O Google tradutor que oferece um serviço de tradução online grátis, por
exemplo, possui um TTS (do inglês Text-To-Speech ou conversor to texto para fala)
que não faz uma leitura adequada de números telefônicos no português brasileiro
(doravante PB).
Isso se deve em parte ao fato de tais sistemas serem, na maioria das vezes,
baseados em dados impressionísticos (ou muito antigos) e não em dados de fala
natural e espontânea.
Avanços nessa área foram obtidos em decorrência da descrição da enunciação
de números naturais nas mais diversas línguas, tais como o alemão (Baumann &
Trouvain 2001), o japonês (Amino & Osanai 2011) e o francês (Bartkova & Jouvet
1999). O propósito de tais estudos foi propor um modelo apropriado de produção
2
AUDIMUS.MEDIA / AUDIMUS.SERVER: Sistema automático de reconhecimento de fala usado na transcrição para texto das
palavras proferidas por um ou vários oradores, utilizado em sistemas de legendagem para televisão e rádio, atas de reuniões,
tribunais, congressos, …
3
DIXI.SERVER / FACE.SERVER : Sistema de síntese de fala realiza a leitura de qualquer texto em formato electrónico,
podendo ser usado com uma personagem virtual com movimentos faciais sincronizados com a fala em aplicações web,
sistemas aumentativos, …
Universidade Federal de Pernambuco
NEHTE / Programa de Pós Graduação em Letras
CCTE / Programa de Pós Graduação em Ciências da Computação
-2-
dos números telefônicos que poderão servir de informações ao aperfeiçoamento de
sistemas automatizados de reconhecimento e de síntese de voz em aplicações
referentes aos números telefônicos.
Porquanto não houvesse para o PB estudo que descreva, de forma sistemática
e abrangente, a estratégia de produção de números telefônicos em estruturas préestabelecidas, isto é propósito do presente estudo. Os resultados das análises
poderão servir de informações ao aprimoramento do sistema TTS do Google
tradutor em aplicação conectada aos números telefônicos no PB.
Os objetivos desse estudo
O objetivo do estudo é realizar uma análise segmental para investigar a
estratégia padrão de agrupamento e de distribuição sonora aplicada aos números
telefônicos de comprimento diferente no PB.
Metodologia
A caracterização dos participantes
Os participantes que produziram os dados deste estudo foram estudantes (uma
metade do segundo grau e outra do terceiro grau) nativos do PB, todos do estado
de Pernambuco. O grupo foi formado de oitenta e cinco pessoas (quarenta e oito
mulheres e trinta e sete homens) selecionadas aleatoriamente.
Universidade Federal de Pernambuco
NEHTE / Programa de Pós Graduação em Letras
CCTE / Programa de Pós Graduação em Ciências da Computação
-3-
A caracterização do Corpus
O corpus deste estudo como apresentado no Quadro 1, consiste de um total de
30 números telefônicos. Todos os números são reais e foram extraídos da lista
telefônica LISTEL, para as cidades de Recife, Olinda e Jaboatão dos Guararapes, no
estado de Pernambuco.
Quadro 1: O corpus do estudo
Números telefônicos
3 dígitos
120
104
147`
190
193
8 dígitos
32224034
32514251
33274686
34238577
34412276
3228 6924
3251 7343
3424 2767
3452 1425
3465 2746
11 dígitos
2226 31
3221 47
3271 00
3428 09
3465 30
8803 91
9605 36
9619 94
9909 62
9948 09
96
54
84
24
46
48
81
53
94
93
08002812112
08007010114
08007011566
08007070044
08007704418
Os números foram escolhidos aleatoriamente, de forma a abranger (a) os
números convencionais e de telefone celular com oito dígitos, (b) os números de
serviços especiais com três dígitos e (c) os números de ligação gratuita, com onze
dígitos.
No intuito de testar uma possível relação entre a apresentação gráfica dos
números e a maneira como eles são enunciados, os números convencionais de oito
dígitos foram apresentados de três maneiras diferentes, (i) divididos em dois grupos
de quatro dígitos (NNNN NNNN), (ii) divididos em um grupo de quatro e dois grupos
de dois dígitos (NNNN NN NN) e (iii) sem qualquer tipo de divisão (NNNNNNNN). Os
Universidade Federal de Pernambuco
NEHTE / Programa de Pós Graduação em Letras
CCTE / Programa de Pós Graduação em Ciências da Computação
-4-
catálogos telefônicos trazem números com esses três tipos de disposição, embora a
do tipo (i) seja a mais frequente.
No Brasil os números telefônicos são regulados pela ANATEL (Agência
Nacional de Telecomunicações), no Plano Nacional de Numeração. E no plano
atual, o Número de Assinante deverá ter o comprimento de oito dígitos,
obedecendo o formato [NNNN + NNNN]. Embora, na região de DDD (discagem direta
a distância) 11, tal como em São Paulo, os telefones móveis deverão ter o
comprimento de 9 (nove) dígitos, obedecendo o formato [9NNNN + NNNN].
A coleta dos dados
Na coleta de dados, os números de telefone pré-selecionados foram
apresentados um após outro, aleatoriamente, em slideshow, com intervalos
regulares de sete segundos. O processo dividiu-se em duas etapas para cada
participante:
(1) Na primeira etapa:
O participante leu a breve instrução a seguir e fez um ensaio:
“Você irá ver a seguir uma série de números telefônicos. O que se pede é
que leia em voz alta os números apresentados da forma como costuma
dizê-los. Os números serão apresentados um após outro automaticamente.
Vocês terá tempo suficiente para lê-los.
Inicialmente, você vai fazer um ensaio rápido, para se familiarizar com a
tarefa. Não há uma forma correta de se dizer números telefônicos. Mais
uma vez: o que se pede apenas é que você leia, naturalmente, os números
da maneira que habitualmente o faz. Depois do teste, a tarefa em si terá
inicio. Cera de 30 números serão apresentados
Universidade Federal de Pernambuco
NEHTE / Programa de Pós Graduação em Letras
CCTE / Programa de Pós Graduação em Ciências da Computação
-5-
Pede-se também que você procure manter uma distancia constante do
microfone. Se tiver alguma dúvida, não hesite em perguntar.
Obrigado por sua participação.”
O objetivo da instrução foi também deixar para os participantes cientes de
que eles não estavam sendo testados no processo da coleta de dados, possibilitando
assim que sua fala fosse o mais espontânea possível. Depois a leitura da instrução,
um rápido ensaio, contendo um total de seis números telefônicos representativos
(9619 94 53; 32514251; 104; 08007011566; 3228 6924; 8803 91 48) foi realizado.
(2) E na segunda etapa:
Logo depois o ensaio, o slideshow composto dos 30 números foi apresentado
aos participantes e a gravação foi imediatamente feita. A gravação foi realizada
em um equipamento de minidisc Sony, modelo MZ-R700, com um microfone digital
Sony, modelo ECM-MS907, localizado a 15 centímetros da boca dos participantes. A
Figura 1 ilustra um exemplo do slideshow apresentado:
Figura 1: Um exemplo do slideshow apresentado aos participantes.
Os números telefônicos foram segmentados dos enunciados produzidos pelos
participantes e arquivados em formato .wav mediante a utilização do software
Praat (Boersma and Weenink 2013, versão 10.3), tal como ilustrado na Figura 2. O
Praat é uma ferramenta para a análise da voz, desenvolvida em 1992 por Paul
Boersma e David Weenink, do Institute of Phonetic Sciences, da Universidade de
Amsterdam, e pode ser baixado livremente na internet (www.praat.org).
Universidade Federal de Pernambuco
NEHTE / Programa de Pós Graduação em Letras
CCTE / Programa de Pós Graduação em Ciências da Computação
-6-
Figura 2: Janelas do Praat ilustrando o sinal acústico do Enunciado_01 do participante mulher_01 e
da enunciação do número telefônico 9948 09 93
Alguns poucos participantes omitiram um ou dois números no processo da
leitura, no entanto. Portanto, para alguns participantes, só temos dados de 28 ou
29 enunciados de números em vez de 30.
Também, para as análises desse estudo, não foram utilizados todos os dados
produzidos pelos participantes. Alguns deles erraram na leitura de alguns números
telefônicos. Esses dados foram considerados erros e foram descartados da análise.
No entanto o número de dados errados é pouco significativo.
A análise segmental dos dados
Cada trecho de enunciado de número telefônico de formato .wav foi jogado
no Praat e transcrito ortograficamente. Em seguida, o trecho sonoro é segmentado
em agrupamentos representados pelo dígito 1 (unário), 2 (binário), 3 (ternário) ou
4 (quaternário), e em distribuições sonoras representadas pela letra U (unidade), D
(dezena), C (centena) ou M (milhar). A Figura 3 exemplifica a segmentação e
transcrição de um número telefônico tal como enunciado por um participante.
Universidade Federal de Pernambuco
NEHTE / Programa de Pós Graduação em Letras
CCTE / Programa de Pós Graduação em Ciências da Computação
-7-
Figura 3: Janela do Praat contendo a transcrição e a segmentação do número telefônico
08007704418 tal como enunciado pelo participante homem_69.
Resultados e discussão
A estratégia de agrupamento dos números de oito dígitos:
Números de dígitos
8 dígitos
Agrupamentos
2-2-2-2
1-3-2-2
Outros (3-2-3; 1-1-2-2-2; ...)
Total
1435
188
70
%
85%
11%
4%
Quadro 1: Resultados da estratégia de agrupamento dos números de oito dígitos.
Como se pode observar na Quadro 1, a preferência do agrupamento dos
números telefônicos de oito dígitos em sua maioria é no tipo “2-2-2-2” (NN NN NN
NN), isto é, um conjunto de quatro agrupamentos binários (85% dos casos). Outro
agrupamento relativamente significativo é o do tipo “1-3-2-2” (N NNN NN NN) (11%
dos casos) isso provavelmente pode ser explicado pelo fato de que antes de 1996,
Universidade Federal de Pernambuco
NEHTE / Programa de Pós Graduação em Letras
CCTE / Programa de Pós Graduação em Ciências da Computação
-8-
os números telefônicos de sete dígitos eram agrupados em “3-2-2” (NNN NN NN). E
a partir desse ano, a companhia telefônica local inseriu um dígito (o dígito 3) na
frente de todos os números. Os agrupamentos irregulares, como os do tipo “1-1-22-2” (N N NN NN NN), “3-2-3” (NNN NN NNN) e “1-2-2-3” (N NN NN NNN),
apareceram raramente e, em sua grande parte, parecem constituir erro.
Na Quadro 2, a disposição gráfica dos números de oito dígitos não parece
exercer nenhuma influência na maneira como eles são agrupados pelos
participantes. As ocorrências do agrupamento “2-2-2-2” (NN NN NN NN) eram de
85% dos casos de disposição gráfica NNNN NNNN, 80% para NNNNNNNN e 81% dos
casos para a disposição gráfica NNNN NN NN.
Números de dígitos
8 dígitos
Disposição gráfica
NNNNNNNN
NNNN NNNN
NNNN NN NN
Total
360
326
749
% de agrupamento 2-2-2-2 (NN NN
80%
85%
81%
NN NN)
Quadro 2: Resultados da estratégia do agrupamento com os números de disposição gráfica NNNN
NNNN, NNNNNNNN e NNNN NN NN.
O agrupamento dos números de três dígitos:
Números de dígitos
3 dígitos
Agrupamentos
3
Total
424
%
100%
Quadro 3: Resultados da estratégia de agrupamento dos números de três dígitos.
Universidade Federal de Pernambuco
NEHTE / Programa de Pós Graduação em Letras
CCTE / Programa de Pós Graduação em Ciências da Computação
-9-
Como se pode observar na Quadro 3, a preferência do agrupamento dos
números de 3 dígitos em sua totalidade é no tipo “3” (NNN), isto é, um
agrupamento ternário.
Agrupamento dos números de onze dígitos:
Números de dígitos
11 dígitos
Agrupamentos
4-3-2-2
Outros (2-2-3-2-2; 4-2-1-2-2; ...)
Total
319
5
%
98%
2%
Quadro 4: Resultados da estratégia de agrupamento dos números de onze dígitos.
Como se pode observar na Quadro 4, com os números de onze dígitos, o
agrupamento é majoritariamente feito em “4-3-2-2” (NNNN NNN NN NN), isso é um
conjunto de um agrupamento quaternário, seguido de um agrupamento ternário e
dois agrupamentos binários (98% dos casos).
A distribuição sonora dos números de oito dígitos:
Na enunciação dos números telefônicos, os agrupamentos foram distribuídos
em unidade (U), em dezena (D), em centena (C) ou em milhar (M). O Quadro 5 e o
Gráfico 1 apresentam os resultados da distribuição sonora dos números telefônicos
de oito dígitos de agrupamentos binários “2-2-2-2” que é o mais comum.
Universidade Federal de Pernambuco
NEHTE / Programa de Pós Graduação em Letras
CCTE / Programa de Pós Graduação em Ciências da Computação
- 10 -
Gráfico 1: Representação gráfica da distribuição sonora dos números telefônicos de oito dígitos de
agrupamentos binários “2-2-2-2” (NN NN NN NN).
Números de
dígitos
Distribuição
sonora
8 dígitos
UU-UU-UUUU
D-D-D-D
UU-UU-D-UU
UU-UU-D-D
Outros
Total
689
135
135
130
346
%
48%
9%
9%
9%
24%
Quadro 5: Resultados da distribuição sonora dos números telefônicos de oito dígitos de
agrupamentos binários “2-2-2-2” (NN NN NN NN).
Como se pode observar na Quadro 5 e no Gráfico 1, a preferência de
distribuição sonora dos números de oito dígitos de agrupamento “2-2-2-2” (NN NN
NN NN) em sua maioria é no tipo “UU-UU-UU-UU” que é uma distribuição sonora em
unidade (48% dos casos) em detrimento de dezenas, centenas e milhares.
Outras distribuições sonoras relativamente significativas são as do tipo “D-DD-D” (9%), “UU-UU-D-UU” (9%) e “UU-UU-D-D” (9%).
A distribuição sonora dos números de três dígitos:
Universidade Federal de Pernambuco
NEHTE / Programa de Pós Graduação em Letras
CCTE / Programa de Pós Graduação em Ciências da Computação
- 11 -
O Quadro 6 e o Gráfico 2 apresentam os resultados da distribuição sonora dos
números telefônicos de três dígitos de agrupamentos ternário “3” (NNN) que é o
mais comum.
Gráfico 2: Representação gráfica da distribuição sonora dos números telefônicos de três dígitos de
agrupamento ternário “3” (NNN).
Números de dígitos
3 dígitos
Distribuição sonora
UUU
C
Total
144
280
%
34%
66%
Quadro 6: Resultados da distribuição sonora dos números telefônicos de três dígitos de agrupamento
ternário “3” (NNN)
Quadro 6 e o Gráfico 2 mostram os resultados da distribuição sonora na
enunciação dos números em unidade (U) e em centena (C) dos números telefônicos
de três dígitos de agrupamento ternário “3” (NNN). A preferência da distribuição
sonora em sua maioria é no tipo “C” que é uma distribuição sonora em centena
(66% dos casos) em detrimento da distribuição sonora em unidade (34% dos casos).
A distribuição sonora dos números de onze dígitos:
Universidade Federal de Pernambuco
NEHTE / Programa de Pós Graduação em Letras
CCTE / Programa de Pós Graduação em Ciências da Computação
- 12 -
O Quadro 7 e o Gráfico 3 apresentam os resultados da distribuição das
unidades sonoras na enunciação dos números em unidade (U), em centena (C) e em
dezena (D) dos números telefônicos de onze dígitos do conjunto de agrupamento
“4-3-2-2” (NNNN NNN NN NN).
Gráfico 3: Representação gráfica da distribuição sonora dos números telefônicos de onze dígitos de
conjunto de agrupamentos “4-3-2-2” (NNNN NNN NN NN).
Números de
dígitos
11 dígitos
Distribuição
sonora
UC-UUU-UU-UU
UC-C-D-D
UC-UUU-D-D
UC-C-D-UU
Outros
Total
62
55
52
43
112
%
19%
17%
16%
13%
35%
Quadro 7: Resultados da distribuição sonora dos números telefônicos de onze dígitos de conjunto de
agrupamentos “4-3-2-2” (NNNN NNN NN NN).
Como se pode observar no Quadro 7 e Gráfico 3, a preferência da
distribuição sonora dos números de onze dígitos de agrupamento “4-3-2-2” (NNNN
NNN NN NN) em sua maioria é no tipo “UC-UUU-UU-UU” que é um agrupamento
quaternário de distribuição em unidade e centena, seguido de um agrupamento
Universidade Federal de Pernambuco
NEHTE / Programa de Pós Graduação em Letras
CCTE / Programa de Pós Graduação em Ciências da Computação
- 13 -
ternário de distribuição sonora em unidade e de dois agrupamentos binários de
distribuição sonora em unidade (19% dos casos). Outras distribuições relativamente
significativas são as do tipo “UC-C-D-D” (17%), “UC-UUU-D-D” (9%), “UU-UU-D-D”
(16%) e “UC-C-D-UU” (13%).
Conclusões
Os resultados deste trabalho permitiram identificar um padrão de
agrupamento e de distribuição sonora aplicado aos números telefônicos no
português brasileiro.
As análises mostraram que, geralmente, na enunciação dos números
telefônicos de três dígitos, o agrupamento dos dígitos é ternário “3” e é enunciado
em centena “C”. Por exemplo, a preferência na enunciação do número telefônico
“190” é “cento e noventa”.
Na enunciação dos números telefônicos de 8 dígitos, o agrupamento dos
dígitos é um conjunto de quatro agrupamentos binários “2-2-2-2” que é enunciado
em unidade “UU-UU-UU-UU”. Por exemplo, o número telefônico “3424 2767” é
enunciado de preferência tal como “três quatro”-“dois quatro”-“dois sete”-“seis
sete”.
Com os números telefônicos de onze dígitos, de preferência, a estratégia de
agrupamento é um conjunto de um agrupamento quaternário, um agrupamento
ternário e dois agrupamentos binários “4-3-2-2” que é enunciado em unidade e em
centena “UC-UUU-UU-UU”. Por exemplo, o número telefônico “08002812112” é
enunciado preferencialmente da seguinte forma, “zero oitocentos”-“dois oito um”“dois um”-“um dois”.
Os resultados poderão contribuir ao aprimoramento do sistema automatizado
de síntese de fala do Google tradutor em aplicação conetada aos números
telefônicos no PB. A Figura 4 mostra que a performance do Google tradutor é
Universidade Federal de Pernambuco
NEHTE / Programa de Pós Graduação em Letras
CCTE / Programa de Pós Graduação em Ciências da Computação
- 14 -
sofrível em relação a síntese da enunciação dos números telefônicos no PB. O
número telefônico “3424 2767” é enunciado pelo Google tradutor tal como “três
mil quatrocentos vinte quatro”-“dois mil setecentos sessenta sete”. Isto é uma
estratégia de agrupamento e enunciação de
dígitos que não apresenta
caraterísticas próximas às da fala natural no PB tal como observado no presente
estudo.
Figura 4: janela do Google tradutor com a enunciação sintetizada do número telefônico 3424 2767.
Referências
Amino, K and Osanai, T. Realisation of the prosodic structure of spoken telephone
numbers by native and non-native speakers of japanese. In proceeding of: THE
17TH INTERNATIONAL CONGRESS OF PHONETIC SCIENCES (ICPhS XVII). Honk kong,
China, August 17-21, 2011.
Bartkova, K. and Jouvet, D. Selective prosodic post-processing for improving
recognition of French telephone numbers. In Proceedings of: THE 6TH EUROSPEECH.
Budapest, Hungary, 1999.
Universidade Federal de Pernambuco
NEHTE / Programa de Pós Graduação em Letras
CCTE / Programa de Pós Graduação em Ciências da Computação
- 15 -
Baumann, S. and Trouvain, J. On the prosody of German telephone numbers. In
Proceedings of: THE
7TH
CONFERENCE ON
SPEECH COMMUNICATION AND
TECHNOLOGY. Aalborg, Denmark, 2001. P. 557-560.
Boersma, P. and Weenink, D. Praat: doing phonetics by computer. Versão 10.3.
Disponível em:< http://www.praat.org/ >. Acesso em: 11 fev. 2013
Universidade Federal de Pernambuco
NEHTE / Programa de Pós Graduação em Letras
CCTE / Programa de Pós Graduação em Ciências da Computação
- 16 -
Download

Agrupamento e distribuição dos números telefônicos