Agrupamento e distribuição dos números telefônicos no português brasileiro (PB): uma contribuiçao ao aprimoramento do Google tradutor Oyedeji Musiliyu1 (UFAL) Resumo: O estudo está preocupado com a estratégia de agrupamento numérico na enunciação dos números telefônicos no português brasileiro (PB). O propósito é disponibilizar informações para o aprimoramento do Google tradutor. Para isso, números telefônicos extraídos de uma lista telefônica local foram lidos naturalmente por falantes nativos do PB. Uma análise segmental foi realizada mediante a utilização do software Praat (Boersma and Weenink 2013, versão 10.3). Os resultados das análises mostraram um padrão de agrupamento numérico na enunciação dos números telefônicos e tal modelo poderia ser base informacional ao aprimoramento do sistema de síntese de voz do Google tradutor em relação ao números telefônicos. Palavras-chave: agrupamento, número telefônico, Google tradutor Abstract: This paper is concerned with the numerical grouping strategy in spoken telephone numbers in Brazilian Portuguese, in order to make available information that could improve the Google translator. To that aim, telephone numbers were extracted from a local phone book and spoken spontaneously by native speakers of Brazilian Portuguese. A segmental analysis was done with the use of Praat (Boersma & Weenink 2013, version 10.3). Results of the analysis show a grouping strategy pattern in the spoken telephone numbers and such model could serve as information in improving the speech synthesis system of Google translator in relation to telephone numbers. Keywords: grouping, telephone numbers, Google translator 1 Oyedeji Musiliyu, Mestrando Universidade Federal de Alagoas (UFAL) Programa de Pós-Graduação em Letras e Linguística [email protected] Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação -1- Introdução A motivação do estudo O avanço da tecnologia da fala tornou frequente o uso de sistema automatizado de reconhecimento e de síntese de fala no nosso cotidiano. Isto é observado em diversos âmbitos de aplicações tais como: informações bancárias, tradução online, consultas a listas telefônicas, serviços de auxílio a deficientes visuais, dentre outras. Em muitos casos, entretanto, o desempenho desses sistemas tem sido considerado sofrível, ora por não processarem corretamente a fala espontânea (no caso de sistemas de reconhecimento de fala, por exemplo o AUDIMUS2), ora por não apresentarem, em sua produção, características de ritmo e entonação próximas às da fala natural (no caso dos sistemas de síntese de fala, por exemplo o DIXI3). O Google tradutor que oferece um serviço de tradução online grátis, por exemplo, possui um TTS (do inglês Text-To-Speech ou conversor to texto para fala) que não faz uma leitura adequada de números telefônicos no português brasileiro (doravante PB). Isso se deve em parte ao fato de tais sistemas serem, na maioria das vezes, baseados em dados impressionísticos (ou muito antigos) e não em dados de fala natural e espontânea. Avanços nessa área foram obtidos em decorrência da descrição da enunciação de números naturais nas mais diversas línguas, tais como o alemão (Baumann & Trouvain 2001), o japonês (Amino & Osanai 2011) e o francês (Bartkova & Jouvet 1999). O propósito de tais estudos foi propor um modelo apropriado de produção 2 AUDIMUS.MEDIA / AUDIMUS.SERVER: Sistema automático de reconhecimento de fala usado na transcrição para texto das palavras proferidas por um ou vários oradores, utilizado em sistemas de legendagem para televisão e rádio, atas de reuniões, tribunais, congressos, … 3 DIXI.SERVER / FACE.SERVER : Sistema de síntese de fala realiza a leitura de qualquer texto em formato electrónico, podendo ser usado com uma personagem virtual com movimentos faciais sincronizados com a fala em aplicações web, sistemas aumentativos, … Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação -2- dos números telefônicos que poderão servir de informações ao aperfeiçoamento de sistemas automatizados de reconhecimento e de síntese de voz em aplicações referentes aos números telefônicos. Porquanto não houvesse para o PB estudo que descreva, de forma sistemática e abrangente, a estratégia de produção de números telefônicos em estruturas préestabelecidas, isto é propósito do presente estudo. Os resultados das análises poderão servir de informações ao aprimoramento do sistema TTS do Google tradutor em aplicação conectada aos números telefônicos no PB. Os objetivos desse estudo O objetivo do estudo é realizar uma análise segmental para investigar a estratégia padrão de agrupamento e de distribuição sonora aplicada aos números telefônicos de comprimento diferente no PB. Metodologia A caracterização dos participantes Os participantes que produziram os dados deste estudo foram estudantes (uma metade do segundo grau e outra do terceiro grau) nativos do PB, todos do estado de Pernambuco. O grupo foi formado de oitenta e cinco pessoas (quarenta e oito mulheres e trinta e sete homens) selecionadas aleatoriamente. Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação -3- A caracterização do Corpus O corpus deste estudo como apresentado no Quadro 1, consiste de um total de 30 números telefônicos. Todos os números são reais e foram extraídos da lista telefônica LISTEL, para as cidades de Recife, Olinda e Jaboatão dos Guararapes, no estado de Pernambuco. Quadro 1: O corpus do estudo Números telefônicos 3 dígitos 120 104 147` 190 193 8 dígitos 32224034 32514251 33274686 34238577 34412276 3228 6924 3251 7343 3424 2767 3452 1425 3465 2746 11 dígitos 2226 31 3221 47 3271 00 3428 09 3465 30 8803 91 9605 36 9619 94 9909 62 9948 09 96 54 84 24 46 48 81 53 94 93 08002812112 08007010114 08007011566 08007070044 08007704418 Os números foram escolhidos aleatoriamente, de forma a abranger (a) os números convencionais e de telefone celular com oito dígitos, (b) os números de serviços especiais com três dígitos e (c) os números de ligação gratuita, com onze dígitos. No intuito de testar uma possível relação entre a apresentação gráfica dos números e a maneira como eles são enunciados, os números convencionais de oito dígitos foram apresentados de três maneiras diferentes, (i) divididos em dois grupos de quatro dígitos (NNNN NNNN), (ii) divididos em um grupo de quatro e dois grupos de dois dígitos (NNNN NN NN) e (iii) sem qualquer tipo de divisão (NNNNNNNN). Os Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação -4- catálogos telefônicos trazem números com esses três tipos de disposição, embora a do tipo (i) seja a mais frequente. No Brasil os números telefônicos são regulados pela ANATEL (Agência Nacional de Telecomunicações), no Plano Nacional de Numeração. E no plano atual, o Número de Assinante deverá ter o comprimento de oito dígitos, obedecendo o formato [NNNN + NNNN]. Embora, na região de DDD (discagem direta a distância) 11, tal como em São Paulo, os telefones móveis deverão ter o comprimento de 9 (nove) dígitos, obedecendo o formato [9NNNN + NNNN]. A coleta dos dados Na coleta de dados, os números de telefone pré-selecionados foram apresentados um após outro, aleatoriamente, em slideshow, com intervalos regulares de sete segundos. O processo dividiu-se em duas etapas para cada participante: (1) Na primeira etapa: O participante leu a breve instrução a seguir e fez um ensaio: “Você irá ver a seguir uma série de números telefônicos. O que se pede é que leia em voz alta os números apresentados da forma como costuma dizê-los. Os números serão apresentados um após outro automaticamente. Vocês terá tempo suficiente para lê-los. Inicialmente, você vai fazer um ensaio rápido, para se familiarizar com a tarefa. Não há uma forma correta de se dizer números telefônicos. Mais uma vez: o que se pede apenas é que você leia, naturalmente, os números da maneira que habitualmente o faz. Depois do teste, a tarefa em si terá inicio. Cera de 30 números serão apresentados Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação -5- Pede-se também que você procure manter uma distancia constante do microfone. Se tiver alguma dúvida, não hesite em perguntar. Obrigado por sua participação.” O objetivo da instrução foi também deixar para os participantes cientes de que eles não estavam sendo testados no processo da coleta de dados, possibilitando assim que sua fala fosse o mais espontânea possível. Depois a leitura da instrução, um rápido ensaio, contendo um total de seis números telefônicos representativos (9619 94 53; 32514251; 104; 08007011566; 3228 6924; 8803 91 48) foi realizado. (2) E na segunda etapa: Logo depois o ensaio, o slideshow composto dos 30 números foi apresentado aos participantes e a gravação foi imediatamente feita. A gravação foi realizada em um equipamento de minidisc Sony, modelo MZ-R700, com um microfone digital Sony, modelo ECM-MS907, localizado a 15 centímetros da boca dos participantes. A Figura 1 ilustra um exemplo do slideshow apresentado: Figura 1: Um exemplo do slideshow apresentado aos participantes. Os números telefônicos foram segmentados dos enunciados produzidos pelos participantes e arquivados em formato .wav mediante a utilização do software Praat (Boersma and Weenink 2013, versão 10.3), tal como ilustrado na Figura 2. O Praat é uma ferramenta para a análise da voz, desenvolvida em 1992 por Paul Boersma e David Weenink, do Institute of Phonetic Sciences, da Universidade de Amsterdam, e pode ser baixado livremente na internet (www.praat.org). Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação -6- Figura 2: Janelas do Praat ilustrando o sinal acústico do Enunciado_01 do participante mulher_01 e da enunciação do número telefônico 9948 09 93 Alguns poucos participantes omitiram um ou dois números no processo da leitura, no entanto. Portanto, para alguns participantes, só temos dados de 28 ou 29 enunciados de números em vez de 30. Também, para as análises desse estudo, não foram utilizados todos os dados produzidos pelos participantes. Alguns deles erraram na leitura de alguns números telefônicos. Esses dados foram considerados erros e foram descartados da análise. No entanto o número de dados errados é pouco significativo. A análise segmental dos dados Cada trecho de enunciado de número telefônico de formato .wav foi jogado no Praat e transcrito ortograficamente. Em seguida, o trecho sonoro é segmentado em agrupamentos representados pelo dígito 1 (unário), 2 (binário), 3 (ternário) ou 4 (quaternário), e em distribuições sonoras representadas pela letra U (unidade), D (dezena), C (centena) ou M (milhar). A Figura 3 exemplifica a segmentação e transcrição de um número telefônico tal como enunciado por um participante. Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação -7- Figura 3: Janela do Praat contendo a transcrição e a segmentação do número telefônico 08007704418 tal como enunciado pelo participante homem_69. Resultados e discussão A estratégia de agrupamento dos números de oito dígitos: Números de dígitos 8 dígitos Agrupamentos 2-2-2-2 1-3-2-2 Outros (3-2-3; 1-1-2-2-2; ...) Total 1435 188 70 % 85% 11% 4% Quadro 1: Resultados da estratégia de agrupamento dos números de oito dígitos. Como se pode observar na Quadro 1, a preferência do agrupamento dos números telefônicos de oito dígitos em sua maioria é no tipo “2-2-2-2” (NN NN NN NN), isto é, um conjunto de quatro agrupamentos binários (85% dos casos). Outro agrupamento relativamente significativo é o do tipo “1-3-2-2” (N NNN NN NN) (11% dos casos) isso provavelmente pode ser explicado pelo fato de que antes de 1996, Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação -8- os números telefônicos de sete dígitos eram agrupados em “3-2-2” (NNN NN NN). E a partir desse ano, a companhia telefônica local inseriu um dígito (o dígito 3) na frente de todos os números. Os agrupamentos irregulares, como os do tipo “1-1-22-2” (N N NN NN NN), “3-2-3” (NNN NN NNN) e “1-2-2-3” (N NN NN NNN), apareceram raramente e, em sua grande parte, parecem constituir erro. Na Quadro 2, a disposição gráfica dos números de oito dígitos não parece exercer nenhuma influência na maneira como eles são agrupados pelos participantes. As ocorrências do agrupamento “2-2-2-2” (NN NN NN NN) eram de 85% dos casos de disposição gráfica NNNN NNNN, 80% para NNNNNNNN e 81% dos casos para a disposição gráfica NNNN NN NN. Números de dígitos 8 dígitos Disposição gráfica NNNNNNNN NNNN NNNN NNNN NN NN Total 360 326 749 % de agrupamento 2-2-2-2 (NN NN 80% 85% 81% NN NN) Quadro 2: Resultados da estratégia do agrupamento com os números de disposição gráfica NNNN NNNN, NNNNNNNN e NNNN NN NN. O agrupamento dos números de três dígitos: Números de dígitos 3 dígitos Agrupamentos 3 Total 424 % 100% Quadro 3: Resultados da estratégia de agrupamento dos números de três dígitos. Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação -9- Como se pode observar na Quadro 3, a preferência do agrupamento dos números de 3 dígitos em sua totalidade é no tipo “3” (NNN), isto é, um agrupamento ternário. Agrupamento dos números de onze dígitos: Números de dígitos 11 dígitos Agrupamentos 4-3-2-2 Outros (2-2-3-2-2; 4-2-1-2-2; ...) Total 319 5 % 98% 2% Quadro 4: Resultados da estratégia de agrupamento dos números de onze dígitos. Como se pode observar na Quadro 4, com os números de onze dígitos, o agrupamento é majoritariamente feito em “4-3-2-2” (NNNN NNN NN NN), isso é um conjunto de um agrupamento quaternário, seguido de um agrupamento ternário e dois agrupamentos binários (98% dos casos). A distribuição sonora dos números de oito dígitos: Na enunciação dos números telefônicos, os agrupamentos foram distribuídos em unidade (U), em dezena (D), em centena (C) ou em milhar (M). O Quadro 5 e o Gráfico 1 apresentam os resultados da distribuição sonora dos números telefônicos de oito dígitos de agrupamentos binários “2-2-2-2” que é o mais comum. Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação - 10 - Gráfico 1: Representação gráfica da distribuição sonora dos números telefônicos de oito dígitos de agrupamentos binários “2-2-2-2” (NN NN NN NN). Números de dígitos Distribuição sonora 8 dígitos UU-UU-UUUU D-D-D-D UU-UU-D-UU UU-UU-D-D Outros Total 689 135 135 130 346 % 48% 9% 9% 9% 24% Quadro 5: Resultados da distribuição sonora dos números telefônicos de oito dígitos de agrupamentos binários “2-2-2-2” (NN NN NN NN). Como se pode observar na Quadro 5 e no Gráfico 1, a preferência de distribuição sonora dos números de oito dígitos de agrupamento “2-2-2-2” (NN NN NN NN) em sua maioria é no tipo “UU-UU-UU-UU” que é uma distribuição sonora em unidade (48% dos casos) em detrimento de dezenas, centenas e milhares. Outras distribuições sonoras relativamente significativas são as do tipo “D-DD-D” (9%), “UU-UU-D-UU” (9%) e “UU-UU-D-D” (9%). A distribuição sonora dos números de três dígitos: Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação - 11 - O Quadro 6 e o Gráfico 2 apresentam os resultados da distribuição sonora dos números telefônicos de três dígitos de agrupamentos ternário “3” (NNN) que é o mais comum. Gráfico 2: Representação gráfica da distribuição sonora dos números telefônicos de três dígitos de agrupamento ternário “3” (NNN). Números de dígitos 3 dígitos Distribuição sonora UUU C Total 144 280 % 34% 66% Quadro 6: Resultados da distribuição sonora dos números telefônicos de três dígitos de agrupamento ternário “3” (NNN) Quadro 6 e o Gráfico 2 mostram os resultados da distribuição sonora na enunciação dos números em unidade (U) e em centena (C) dos números telefônicos de três dígitos de agrupamento ternário “3” (NNN). A preferência da distribuição sonora em sua maioria é no tipo “C” que é uma distribuição sonora em centena (66% dos casos) em detrimento da distribuição sonora em unidade (34% dos casos). A distribuição sonora dos números de onze dígitos: Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação - 12 - O Quadro 7 e o Gráfico 3 apresentam os resultados da distribuição das unidades sonoras na enunciação dos números em unidade (U), em centena (C) e em dezena (D) dos números telefônicos de onze dígitos do conjunto de agrupamento “4-3-2-2” (NNNN NNN NN NN). Gráfico 3: Representação gráfica da distribuição sonora dos números telefônicos de onze dígitos de conjunto de agrupamentos “4-3-2-2” (NNNN NNN NN NN). Números de dígitos 11 dígitos Distribuição sonora UC-UUU-UU-UU UC-C-D-D UC-UUU-D-D UC-C-D-UU Outros Total 62 55 52 43 112 % 19% 17% 16% 13% 35% Quadro 7: Resultados da distribuição sonora dos números telefônicos de onze dígitos de conjunto de agrupamentos “4-3-2-2” (NNNN NNN NN NN). Como se pode observar no Quadro 7 e Gráfico 3, a preferência da distribuição sonora dos números de onze dígitos de agrupamento “4-3-2-2” (NNNN NNN NN NN) em sua maioria é no tipo “UC-UUU-UU-UU” que é um agrupamento quaternário de distribuição em unidade e centena, seguido de um agrupamento Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação - 13 - ternário de distribuição sonora em unidade e de dois agrupamentos binários de distribuição sonora em unidade (19% dos casos). Outras distribuições relativamente significativas são as do tipo “UC-C-D-D” (17%), “UC-UUU-D-D” (9%), “UU-UU-D-D” (16%) e “UC-C-D-UU” (13%). Conclusões Os resultados deste trabalho permitiram identificar um padrão de agrupamento e de distribuição sonora aplicado aos números telefônicos no português brasileiro. As análises mostraram que, geralmente, na enunciação dos números telefônicos de três dígitos, o agrupamento dos dígitos é ternário “3” e é enunciado em centena “C”. Por exemplo, a preferência na enunciação do número telefônico “190” é “cento e noventa”. Na enunciação dos números telefônicos de 8 dígitos, o agrupamento dos dígitos é um conjunto de quatro agrupamentos binários “2-2-2-2” que é enunciado em unidade “UU-UU-UU-UU”. Por exemplo, o número telefônico “3424 2767” é enunciado de preferência tal como “três quatro”-“dois quatro”-“dois sete”-“seis sete”. Com os números telefônicos de onze dígitos, de preferência, a estratégia de agrupamento é um conjunto de um agrupamento quaternário, um agrupamento ternário e dois agrupamentos binários “4-3-2-2” que é enunciado em unidade e em centena “UC-UUU-UU-UU”. Por exemplo, o número telefônico “08002812112” é enunciado preferencialmente da seguinte forma, “zero oitocentos”-“dois oito um”“dois um”-“um dois”. Os resultados poderão contribuir ao aprimoramento do sistema automatizado de síntese de fala do Google tradutor em aplicação conetada aos números telefônicos no PB. A Figura 4 mostra que a performance do Google tradutor é Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação - 14 - sofrível em relação a síntese da enunciação dos números telefônicos no PB. O número telefônico “3424 2767” é enunciado pelo Google tradutor tal como “três mil quatrocentos vinte quatro”-“dois mil setecentos sessenta sete”. Isto é uma estratégia de agrupamento e enunciação de dígitos que não apresenta caraterísticas próximas às da fala natural no PB tal como observado no presente estudo. Figura 4: janela do Google tradutor com a enunciação sintetizada do número telefônico 3424 2767. Referências Amino, K and Osanai, T. Realisation of the prosodic structure of spoken telephone numbers by native and non-native speakers of japanese. In proceeding of: THE 17TH INTERNATIONAL CONGRESS OF PHONETIC SCIENCES (ICPhS XVII). Honk kong, China, August 17-21, 2011. Bartkova, K. and Jouvet, D. Selective prosodic post-processing for improving recognition of French telephone numbers. In Proceedings of: THE 6TH EUROSPEECH. Budapest, Hungary, 1999. Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação - 15 - Baumann, S. and Trouvain, J. On the prosody of German telephone numbers. In Proceedings of: THE 7TH CONFERENCE ON SPEECH COMMUNICATION AND TECHNOLOGY. Aalborg, Denmark, 2001. P. 557-560. Boersma, P. and Weenink, D. Praat: doing phonetics by computer. Versão 10.3. Disponível em:< http://www.praat.org/ >. Acesso em: 11 fev. 2013 Universidade Federal de Pernambuco NEHTE / Programa de Pós Graduação em Letras CCTE / Programa de Pós Graduação em Ciências da Computação - 16 -