UNIVERSIDADE PRESBITERIANA MACKENZIE
ESCOLA DE ENGENHARIA
ENGENHARIA ELÉTRICA
ALEXANDRE SENDA
RECONHECIMENTO DE FONEMAS DA LÍNGUA PORTUGUESA DA
REGIÃO DE SÃO PAULO
São Paulo
2005
ALEXANDRE SENDA
RECONHECIMENTO DE FONEMAS DA LÍNGUA PORTUGUESA
DA REGIÃO DE SÃO PAULO
Trabalho de Graduação Interdisciplinar apresentado ao Curso de Engenharia Elétrica da
Escola de Engenharia da Universidade Presbiteriana Mackenzie, como requisito parcial
para a obtenção de grau de Bacharel em Engenharia.
ORIENTADOR: PROF. MESTRE MARCIO EISENCRAFT.
São Paulo
2005
2
Aos meus pais, pela confiança e esforço depositados
em mim e pela luta até este
momento, dando-me a oportunidade de completar
um curso de Engenharia.
3
AGRADECIMENTOS
Ao Prof. Marcio Eisencraft, por ter sido um orientador e um amigo que me auxiliou em todos
os momentos até a conclusão deste trabalho, disponibilizando seu tempo e sua atenção, minha
eterna gratidão e meu eterno respeito.
À Drª. Mara Suzana Behlau, pelo apoio, atenção e por disponibilizar a mim seu acervo bibliográfico.
Aos funcionários do Centro de Estudos da Voz pela atenção e simpatia com que me atenderam durante minhas pesquisas.
Ao Flavio Ming Zhe Wu pela ajuda, amizade e por me apoiar em meus momentos de dúvida.
Aos meus amigos que direta ou indiretamente colaboraram para a realização deste trabalho.
4
Nunca ande pelo caminho traçado, pois ele conduz somente até
onde os outros foram (Alexander
Graham Bell).
5
RESUMO
A fala sempre despertou interesse científico por ser a forma mais simples e natural de comunicação. Durante décadas, o comportamento, as características e seu modo de desenvolvimento têm sido estudadas por especialistas do mundo inteiro, quer seja em seu aspecto científico,
tecnológico, ou até mesmo filosófico. O reconhecimento de vogais é o principal objetivo deste
trabalho tendo como foco moradores da cidade de São Paulo. A fala possui variações devido
às características particulares de cada pessoa. Algumas dessas variações podem ser consideradas um distúrbio desde que ela prejudique a comunicação. Por esse motivo, também são citados alguns desses distúrbios que podem vir a prejudicar o desenvolvimento das técnicas de
reconhecimento de vogais descritas neste trabalho.
Palavras-Chave: Reconhecimento de vogais. Fonemas. Língua portuguesa.
6
ABSTRACT
Speech has always generated scientific interest for being the simplest and most natural way to
communicate. During decades, its behavior, its characteristics and its way of development
have been studied by specialists all over the world, whether about its scientific, technologic,
or even philosophic aspects. The vowel recognition is the main purpose of this work having as
focus residents from the city of São Paulo. The speech has variations due to particular characteristics of each person. Some of those variations may be considered as a disturb once they
can impair the communication itself. For this reason, it will also be mentioned some of those
disturbs that may low the performance of the vowel recognition techniques described in this
work.
Keywords: Vowel recognition. Phonetics. Portuguese language.
7
LISTA DE ILUSTRAÇÕES
Figura 1 - Representação da cadeia da fala. ............................................................................ 15
Figura 2 - O aparelho fonador humano. .................................................................................. 17
Figura 3 – Detalhes do trato vocal........................................................................................... 17
Figura 4 – Diagrama esquemático dos componentes funcionais do trato vocal...................... 18
Figura 5 - Localização das cordas vocais. ............................................................................... 19
Figura 6 - Aproximação das cordas vocais.............................................................................. 20
Figura 7 - Comprimento das cordas vocais. ............................................................................ 21
Figura 8 – Variações na forma de trato vocal para várias mudanças na ressonância vocal. ... 26
Figura 9 - Representação dos fonemas /y/ e /w/. ..................................................................... 36
Figura 10 – Comparação dos grupos “em” e “am”. ................................................................ 37
Figura 11 – Representação de um sinal de fala. ...................................................................... 39
Figura 12 – Representação em diagrama de blocos de um sistema. ....................................... 42
Figura 13 – Exemplo de um sistema de tempo contínuo......................................................... 42
Figura 14 – Exemplo de um sistema de tempo discreto. ......................................................... 43
Figura 15 – Representação de um sistema obedecendo ao princípio da superposição ........... 66
Figura 16 – Representação de um sistema homomórfico por convolução. ............................. 66
Figura 17 – Representação em cascata de um sistema homomórfico por convolução ........... 67
Figura 18 – Representação no domínio da freqüência de um sistema. ................................... 69
Figura 19 – Representação de um sistema característico por desconvolução homomórfica .. 69
Figura 20 – Representação da inversa de um sistema característico por desconvolução
homomórfica ....................................................................................................... 69
Figura 21 – Variação de área conforme abertura da glote e as ondas resultantes do fluxo de ar
que passa pela glote ............................................................................................. 77
Figura 22 – Um modelo de tubo para o trato vocal. ................................................................ 80
Figura 23 – Exemplo de produção de vogais de acordo com o modelo fonte-filtro. .............. 81
Figura 24 – Resultado da freqüência fundamental de um falante masculino. ......................... 95
Figura 25 – Resultado da freqüência fundamental de um falante feminino. ........................... 96
8
LISTA DE QUADROS
Quadro 1 - O alfabeto fonético internacional. ......................................................................... 31
Quadro 2 - Fonemas vocálicos. ............................................................................................... 32
Quadro 3 - Critério para classificação das vogais. .................................................................. 35
Quadro 4 – Propriedades Simétricas da TFD. ......................................................................... 49
Quadro 5 – Médias dos valores de freqüência fundamental e amplitude para os diferentes
grupos de indivíduos da cidade de São Paulo ...................................................... 78
Quadro 6 - Médias das freqüências das formantes, em Hz, em relação a cada vogal analisada
nos diferentes grupos de falantes ......................................................................... 85
Quadro 7 - Médias e Desvio padrão das freqüências de F1 e F2, em Hz, de cada vogal
analisada, para os grupos de indivíduos ............................................................... 87
Quadro 8 – Proporção entre as médias das formantes F2 e F1 para os grupos de indivíduos 88
Quadro 9 – Proporção entre as médias das formantes F2 e F1 para os grupos de indivíduos 88
Quadro 10 – Resultados das formantes F1 e F2 obtidos de um falante do sexo feminino .. 107
9
LISTA DE GRÁFICOS
Gráfico 1 – Representação do plano Z. ................................................................................... 47
Gráfico 2 – O circulo unitário no plano Z. .............................................................................. 48
Gráfico 3 – Processo estocástico para representar o som ambiente de um quarto. ................. 53
Gráfico 4 – Processos estocásticos com diferentes distribuições entre as funções-amostra
individuais............................................................................................................. 55
Gráfico 5 – Ilustração de dois processos estocásticos com valores esperados de primeira
ordem idênticos e valores esperados de segunda ordem diferentes ...................... 57
Gráfico 6 – Exemplo de forte correlação................................................................................. 59
Gráfico 7 – Exemplo de fraca correlação. ............................................................................... 59
Gráfico 8 – Relação entre correlações do Gráfico 6 e do Gráfico 7. ....................................... 60
Gráfico 9 – A Janela de Hamming para M = 64 . ................................................................... 73
Gráfico 10 – Espectro da vogal [a]. ......................................................................................... 74
Gráfico 11 – Densidade espectral utilizando o método de Yule-Walker. ............................... 75
Gráfico 12 – Espectro de uma onda cuja freqüência fundamental é 100 Hz e o período de um
ciclo corresponde a 100 ms................................................................................. 77
Gráfico 13 – Variações do pitch da vogal [a] no espectro da mesma...................................... 82
Gráfico 14 – Efeitos da intensidade no espectro de uma vogal. .............................................. 83
Gráfico 15 – Média das freqüências das três primeiras formantes das vogais orais. .............. 86
Gráfico 16 – Média das freqüências das três primeiras formantes das vogais nasais. ............ 86
Gráfico 17 – Segmento de 60 ms da vogal [a]......................................................................... 91
Gráfico 18 – Espectro correspondente ao sinal do Gráfico 17. ............................................... 91
Gráfico 19 – Cepstrum correspondente à densidade espectral do Gráfico 18. ........................ 92
Gráfico 20 – Fase espectral de um sinal de voz cuja fase está ocultada. ................................. 93
Gráfico 21 - Fase espectral de um sinal de voz cuja fase está desocultada. ............................ 93
Gráfico 22 – Cepstrum complexo de um segmento de fala. .................................................... 94
Gráfico 23 – Cepstrum de um falante do sexo masculino. ...................................................... 94
Gráfico 24 – Cepstrum de um falante do sexo feminino. ........................................................ 96
Gráfico 25 – Forma de onda e densidade espectral da vogal “ a1 − M ”. ................................. 97
Gráfico 26 – Forma de onda e densidade espectral da vogal “ a 2 − M ”.................................. 98
Gráfico 27 – Forma de onda e densidade espectral da vogal “ e1 − M ”. ................................. 99
Gráfico 28 – Forma de onda e densidade espectral da vogal “ e2 − M ”. ............................... 100
Gráfico 29 – Forma de onda e densidade espectral da vogal “ i1 − M ”. ................................ 101
Gráfico 30 – Forma de onda e densidade espectral da vogal “ i2 − M ”................................. 102
Gráfico 31 – Forma de onda e densidade espectral da vogal “ o1 − M ”. ............................... 103
Gráfico 32 – Forma de onda e densidade espectral da vogal “ o 2 − M ”................................ 104
Gráfico 33 – Forma de onda e densidade espectral da vogal “ u1 − M ”. ............................... 105
Gráfico 34 – Forma de onda e densidade espectral da vogal “ u 2 − M ”................................ 106
10
SUMÁRIO
1
2
2.1
2.2
2.2.1
2.3
2.4
3
3.1
3.1.1
3.1.2
3.2
3.2.1
3.3
3.4
3.5
4
4.1
4.2
4.3
4.3.1
4.3.1.1
4.3.1.2
4.3.1.3
4.3.1.4
4.3.2
5
5.1
5.1.1
5.1.2
5.2
5.2.1
5.2.2
5.2.2.1
5.2.2.2
5.3
5.4
5.4.1
5.4.2
5.4.3
5.5
5.5.1
5.6
5.6.1
5.6.2
INTRODUÇÃO ...................................................................................................... 12
TEORIA E CONCEITOS DA VOZ HUMANA ................................................. 14
A VOZ HUMANA................................................................................................... 14
O APARELHO FONADOR .................................................................................... 15
As cordas vocais ..................................................................................................... 19
GERANDO A VOZ ................................................................................................. 19
FREQÜÊNCIAS DA VOZ HUMANA ................................................................... 20
DISTÚRBIOS ......................................................................................................... 22
CLASSIFICAÇÃO DOS DISTÚRBIOS ................................................................. 22
Distúrbios funcionais e orgânicos ......................................................................... 22
Distúrbios desenvolvimentais e adquiridos.......................................................... 23
DISTÚRBIOS DE ARTICULAÇÃO ...................................................................... 23
Tipos de erros de articulação ................................................................................ 24
DISTÚRBIOS DA VOZ .......................................................................................... 25
DISTÚRBIOS DE FLUÊNCIA ............................................................................... 26
CONSIDERAÇÕES PARCIAIS ............................................................................. 27
FONEMAS .............................................................................................................. 28
CONCEITOS BÁSICOS ......................................................................................... 28
O ALFABETO FONÉTICO INTERNACIONAL .................................................. 30
CLASSIFICAÇÃO DOS FONEMAS ..................................................................... 32
Vogais ...................................................................................................................... 32
Classificação quanto à região de articulação ........................................................... 33
Classificação quanto ao timbre ................................................................................ 34
Classificação quanto ao papel das cavidades bucal e nasal ..................................... 34
Classificação quanto à intensidade .......................................................................... 34
Semivogais............................................................................................................... 36
TÉCNICAS E CONCEITOS DE PROCESSAMENTO DIGITAL DE SINAIS38
SINAIS ..................................................................................................................... 38
Sinais de Tempo Discreto e Tempo Contínuo ..................................................... 38
Sinais Periódicos e Sinais Não-Periódicos ............................................................ 40
SISTEMAS .............................................................................................................. 41
Sistemas Variantes e Invariantes no Tempo........................................................ 43
Sistemas Lineares e Sistemas Não-Lineares ........................................................ 43
Princípio da superposição ........................................................................................ 44
Princípio da homogeneidade .................................................................................... 44
CONVOLUÇÃO ...................................................................................................... 44
REPRESENTAÇÃO DE TRANSFORMADAS DE SINAIS ................................. 45
A Transformada de Fourier para tempo discreto............................................... 45
A Transformada Z ................................................................................................ 46
Transformada de Fourier Discreta (TFD) ........................................................... 49
AMOSTRAGEM ..................................................................................................... 50
Teorema da amostragem ....................................................................................... 50
PROCESSOS ESTOCÁSTICOS ............................................................................. 51
Sinais Estocásticos .................................................................................................. 52
Variáveis aleatórias e processos estocásticos ....................................................... 52
11
5.6.3 Valores esperados ................................................................................................... 54
5.6.3.1 Valores esperados de primeira ordem ...................................................................... 54
5.6.3.2 Valores esperados de segunda ordem ...................................................................... 56
5.6.3.3 Função de autocorrelação de um processo estocástico ............................................ 57
5.6.4 Processos estocásticos estacionários ..................................................................... 60
5.6.4.1 Função distribuição de probabilidades e função densidade de probabilidades ........ 60
5.6.4.2 Processos estacionários de primeira ordem.............................................................. 62
5.6.4.3 Estacionariedade de segunda ordem e estacionariedade em sentido-amplo ............ 62
5.6.5 Médias de Tempo e Ergodicidade......................................................................... 63
5.7
SISTEMAS HOMOMÓRFICOS ............................................................................. 65
5.7.1 Sistemas homomórficos por convolução .............................................................. 65
5.8
CEPSTRUM............................................................................................................. 70
5.9
JANELAMENTO .................................................................................................... 72
5.9.1 A janela de Hamming ............................................................................................ 72
5.10 O MÉTODO DE YULE-WALKER ........................................................................ 73
6
CARACTERÍSTICAS FUNDAMENTAIS DOS SINAIS DE VOZ.................. 76
6.1
FREQÜÊNCIA FUNDAMENTAL E FREQÜÊNCIAS FORMANTES ................ 76
6.2
OBTENÇÃO DAS FREQÜÊNCIAS FORMANTES DE CADA VOGAL ........... 83
6.2.1 A proporção de Fant .............................................................................................. 87
7
PARTE PRÁTICA ................................................................................................. 89
7.1
ANÁLISE DAS VOGAIS ....................................................................................... 89
7.2
ANÁLISE DA FREQÜÊNCIA FUNDAMENTAL ................................................ 90
7.3
ANÁLISE DAS FORMANTES DE CADA VOGAL ............................................. 97
8
CONCLUSÃO ...................................................................................................... 108
REFERÊNCIAS ............................................................................................................... 111
APÊNDICE A – Rotina para a detecção das freqüências fundamentais......... 114
APÊNDICE B – Rotina para a detecção das freqüências formantes ............... 115
12
1
INTRODUÇÃO
Este trabalho tem como objetivo o reconhecimento de fonemas da língua portuguesa. Elaborando-se um estudo mais específico, nota-se que existem variedades sobre este
tema, por exemplo; falando-se a palavra “estrada”, dependendo da região do Brasil em que ela
é pronunciada, haverá diferenças em sua pronúncia. Considerando este fato, este trabalho propõe o estudo de fonemas da região de São Paulo. Também são mostradas regras gramaticais
para uma melhor compreensão dos grupos de fonemas existentes na língua e principalmente
os tipos e variações de vogais que a língua portuguesa possui.
O reconhecimento de voz se tornou um dos mais importantes instrumentos da
era digital. Como exemplos de sua utilização podem ser citados: a técnica de discagem rápida
num aparelho de telefonia celular; auxílio de pessoas deficientes ajudando-as a realizar tarefas
até então impossíveis devido à sua deficiência ou em segurança, um dos principais propósitos
dessa técnica. Porém, existem dificuldades a serem superadas já que a voz humana possui
características particulares devido ao sentimento e estado de cada indivíduo. O reconhecimento das freqüências formantes de alguns fonemas selecionados será a base deste estudo.
O reconhecimento é feito de forma computacional utilizando-se programas de
simulação numérica como o Matlab (2004) e de edição de áudio como o Adobe Audition
(2004). Gravam-se pessoas falando os fonemas a serem analisadas e com a ajuda desses programas, faz-se a detecção e reconhecimento destes.
“A fala é um sinal não-estacionário, pois suas características intrínsecas variam
com o tempo” (HAYKIN, 2001, p. 625). Por esse motivo, é preciso analisá-la em sua forma
espectral para que assim seja possível o seu estudo. Para isso, usa-se a técnica chamada Pulse
Code Modulation (PCM ou Modulação por Código de Pulso), que tem como objetivo, transformar um sinal analógico em pulsos discretos com amplitudes variadas. Em seguida, esse
13
sinal é transformado em um conjunto de bandas de freqüência discreta usando-se uma transformada conhecida como Fast Fourier Transform (FFT ou Transformada Rápida de Fourier).
Assim, com o sinal representado por um conjunto de bandas de freqüência discretas, torna-se
possível sua análise e comparação com um banco de dados para reconhecimento.
São abordados também neste trabalho, distúrbios que podem levar à má pronúncia das vogais. Tais distúrbios são tão sérios que tornam a pessoa incapaz de se comunicar
com outras, o que muitas vezes a desloca ou até mesmo exclui de um grupo social.
Por fim, de nada adianta falar sobre o reconhecimento de fonemas se não é explicado como ele é gerado. Por isso é comentada de forma sucinta como a voz é gerada; suas
características biológicas e fisiológicas.
É importante ressaltar que o estudo de fonemas abrange três principais tópicos
que são o estudo das vogais, semivogais e consoantes (MESQUITA, 2002, p.51). Este trabalho enfatiza apenas o estudo das vogais uma vez que é preciso um tempo maior para um estudo completo de todos os fonemas da língua portuguesa.
14
2
TEORIA E CONCEITOS DA VOZ HUMANA
Este capítulo introduz os conceitos básicos necessários para a compreensão do
fenômeno da voz humana. A produção da voz, o intervalo de freqüências em que está contida
e os meios que influenciam em sua produção são analisados de forma resumida.
2.1
A VOZ HUMANA
O ser humano aprende a ouvir para começar a falar. Isso fica claro ao se analisar determinadas regiões em que a comunicação oral possui características particulares capazes de distingui-las. Tais características, também chamadas de sotaque, são adquiridas na medida em que o ser humano se desenvolve socialmente, pois o contato com os familiares, amigos e a mídia, faz com que o ouvido adapte o que se está ouvindo com o que se começa a falar.
O estudo da fala é freqüentemente resumido como o estudo de uma cadeia de
eventos, que começa com o que entra na mente do falante para planejar uma sentença, movese para a acústica da fala e termina com as etapas no cérebro do ouvinte que resultam na compreensão do enunciado.
A Figura 1 ilustra essa cadeia de eventos.
15
Figura 1 - Representação da cadeia da fala.
2.2
O APARELHO FONADOR
A fala humana pode ser segmentada em unidades menores possibilitando assim, a recombinação de modo a expressar idéias diferentes. Tais unidades são chamadas de
contínuo sonoro ou palavra. O contínuo sonoro pode ser dividido em segmentos linearmente
dispostos cuja presença ou ausência, assim como sua ordem, tem função distintiva capaz de
ocasionar alterações no significado de uma palavra. Essas unidades componentes do contínuo
sonoro são produzidas por um mecanismo fisiológico denominado aparelho fonador (CALLOU; LEITE, 1990).
A compreensão do funcionamento do aparelho fonador é importante para entender os parâmetros envolvidos na produção da voz, e por esse motivo ainda hoje é um tópico de ativas pesquisas na área de fonética acústica e articulatória (KLATT; KLATT, 1990).
16
Pode-se dividir o aparelho fonador humano em três componentes principais: os
pulmões que estão localizados no interior da caixa torácica e são responsáveis por controlar a
intensidade do fluxo de ar que passa pela laringe; a laringe que se localiza logo acima da traquéia, e é formada por cartilagens e tecido muscular; por fim, o trato vocal ou trato vocálico
que é a porção do aparelho fonador humano que se estende desde a glote até os lábios.
Dentre os músculos mais importantes pode-se destacar as pregas ou cordas vocais, que representam um papel fundamental no processo de produção da fala. As pregas vocais são formadas por dois pares de músculos. Durante a respiração normal, as pregas estão
relaxadas e abertas. No entanto, no processo da produção de voz, as pregas se tencionam e
vibram com a passagem do ar. A taxa de vibração das pregas vocais está diretamente relacionada com a freqüência fundamental do sinal de voz: nos sons mais agudos, as pregas estão
mais contraídas e logo, vibram mais depressa. O comprimento das pregas também influi na
taxa de vibração; é por isso que as mulheres, cujas pregas vocais são mais curtas que as dos
homens, possuem um tom de voz normalmente mais agudo.
Os diversos elementos formadores do trato vocal são denominados de articuladores. O trato vocal funciona como uma caixa de ressonância, que atenua ou amplifica certas
freqüências do pulso produzido na glote. O movimento dos articuladores determina o formato
do trato vocal e, por conseguinte, as suas características de ressonância.
A Figura 2 mostra os componentes do aparelho fonador humano e a Figura 3
mostra o trato vocal com detalhes.
17
Figura 2 - O aparelho fonador humano.
Fonte: Simões (1999)
Figura 3 – Detalhes do trato vocal.
Fonte: Rodríguez (2005)
18
Uma forma de representar o trato vocal é considerando-o como um tubo acústico de seção variável em que o início seria as cordas vocais e o término, os lábios e as narinas
como ilustra a Figura 4.
Figura 4 – Diagrama esquemático dos componentes funcionais do trato vocal.
Fonte: Flanagan (1972).
Em um adulto do sexo masculino, esse tubo tem aproximadamente 17 cm de
comprimento, sendo a área seccional determinada pela posição dos lábios, maxilares, língua e
úvula, e pode variar de zero (neste caso, é como se os lábios estivessem fechados) até aproximadamente 20 cm2 (com boca totalmente aberta). A cavidade nasal tem em média 12 cm de
comprimento e volume aproximado de 60 cm3 (FLANAGAN, 1972).
19
2.2.1
As cordas vocais
A voz humana, como todos os outros sons, é produzida através de vibrações.
Essas vibrações ocorrem no interior da laringe em um tecido esticado com duas pregas chamadas cordas vocais. São elas que vibram quando se fala. As cordas são fibras elásticas que
se distendem ou se relaxam pela ação dos músculos da laringe. A Figura 5 mostra a localização das cordas vocais.
Figura 5 - Localização das cordas vocais.
Fonte: Silva (2004).
2.3
GERANDO A VOZ
Todo o ar inspirado e expirado passa pela laringe. O ar passa entre as cordas
vocais sem produzir som quando elas estão relaxadas nos dois lados da laringe. Ao falar o
cérebro envia mensagens pelos nervos até os músculos que controlam as cordas vocais. Os
músculos fazem a aproximação das cordas de modo que fique apenas um espaço estreito entre
20
elas como mostrado na Figura 6. Quando o diafragma e os músculos do tórax empurram o ar
para fora dos pulmões, ele produz a vibração das cordas vocais. O controle da altura do som
se faz aumentando ou diminuindo a tensão das cordas vocais.
Figura 6 - Aproximação das cordas vocais.
Fonte: Silva (2004).
Para a formação da voz humana, é preciso que outros órgãos trabalhem em
harmonia juntamente com a laringe e as cordas vocais. Os lábios, a língua, os dentes, o véu
palatino e a boca concorrem para a formação dos sons. Quando se murmura, produzem-se
sons colocando a boca e a língua em determinadas posições sem fazer vibrar as cordas vocais.
O timbre da voz humana depende dos inúmeros espaços que vibram em ressonância com as cordas vocais. Aí se incluem as cavidades ósseas, cavidades nasais, a boca, a
garganta, a traquéia e os pulmões, bem como a própria laringe (SILVA, 2004).
2.4
FREQÜÊNCIAS DA VOZ HUMANA
A freqüência da voz humana é determinada pelo comprimento das cordas vocais como é mostrado na Figura 7. As mulheres têm a voz mais aguda que os homens, pois
21
suas cordas vocais são mais curtas. Esse fato também explica o porquê das crianças terem a
voz mais aguda que os adultos, em geral.
Figura 7 - Comprimento das cordas vocais.
Fonte: Silva (2004).
A mais baixa freqüência que pode dar a audibilidade de um tom é mais ou menos a de 20 vibrações por segundo (hertz), enquanto a mais alta se encontra entre 10000 Hz e
20000 Hz. A freqüência da voz humana se encontra entre 400 Hz e 4000 Hz sendo que sua
maior energia concentra-se entre 500 Hz e 2000 Hz (RUSSO; SANTOS, 1993).
Um estudo mais detalhado a respeito desse assunto é feito no Capítulo 6.
22
3
DISTÚRBIOS
Na comunicação normal, podem ocorrer falhas tanto de caráter biológico como
lingüístico-social, resultando em um distúrbio de comunicação.
A Audiologia e a Fonoaudiologia são as áreas do conhecimento que desempenham os papéis principais na habilitação e no treinamento para crianças e adultos com distúrbios de comunicação (COMMITEE ON LANGUAGE, 1975).
Os audiólogos cuidam dos problemas de audição, tanto de diagnósticos como
de habilitação. Já os fonoaudiólogos têm um importante papel na reabilitação, em problemas
como distúrbios de articulação, problemas de voz, distúrbios de linguagem ou gagueira. Tanto
audiólogos como fonoaudiólogos trabalham intimamente com médicos de outras áreas, professores, educadores especiais e sociais.
São discutidos neste capítulo um pouco mais a respeito dos distúrbios e como
eles podem influenciar no reconhecimento de voz.
3.1
CLASSIFICAÇÃO DOS DISTÚRBIOS
Existem várias formas de se classificar os distúrbios de comunicação. Além
disso, certos distúrbios podem mudar de classificação na medida em que se descobre mais à
respeito dele (BOONE; PLANT, 1994, p. 25).
3.1.1
Distúrbios funcionais e orgânicos
Os distúrbios podem ser classificados com relação à sua causa ou origem como
sendo distúrbios funcionais ou orgânicos. Um distúrbio funcional não apresenta qualquer cau-
23
sa biológica que o explique. Um exemplo disso seria a formação de nódulos na prega vocal
causadas por certos hábitos da fala que pode ocorrer tanto em adultos como em crianças.
Alguns distúrbios são mais difíceis de serem classificados. Muitas vezes, podem-se classificar certos distúrbios como funcionais, mas depois, descobrir-se uma base biológica anteriormente não detectada para o distúrbio. Existem casos em que distúrbios funcionais levam a resultados orgânicos, bem como distúrbios orgânicos que levam a conseqüências
funcionais.
3.1.2
Distúrbios desenvolvimentais e adquiridos
Outra forma de classificar os distúrbios é em distúrbios desenvolvimentais e
adquiridos. Um distúrbio desenvolvimental surge e se perpetua na medida em que uma criança cresce, geralmente associado à má formação de um ou mais dos sistemas biológicos que
apóiam a fala, a linguagem e a audição. Um distúrbio adquirido se manifesta após o período
de desenvolvimento normal de uma pessoa, geralmente conseqüência de um acidente ou doença.
De um modo geral, os distúrbios desenvolvimentais quase sempre aparecem
durante o início da infância, porém muitos persistem até a fase adulta. Já os distúrbios adquiridos são mais freqüentes em população adultas embora possa ocorrer em crianças também.
3.2
DISTÚRBIOS DE ARTICULAÇÃO
Os distúrbios de articulação ocorrem tanto em crianças como em adultos. Nos
primeiros anos de vida, os bebês emitem sons fugazes e sem sentido devido à articulação não
precisa. Durante este período, a precisão articulatória em geral é de pouco interesse.
24
Na fase pré-escolar, a articulação das crianças melhora e aproxima-se à produção sonora adulta. Mas, às vezes, erros de articulação persistem, como quando crianças continuam a usar padrões imaturos de fala, resultando em uma incapacidade de comunicação que
pode chegar até a comprometer a comunicação na fase adulta.
3.2.1
Tipos de erros de articulação
As palavras faladas são encadeadas em um fluxo prosódico melódico. O som é
dito rapidamente, mas muitas vezes, devido à rápida produção dos sons necessários na fala
normal, pode-se perceber com maior clareza os erros de articulação (BOONE; PLANT, 1994,
p. 260).
Estes erros são conhecidos como má articulação e podem ser classificados em
quatro tipos:
a) Erros de omissão - quando trechos de palavras ou sílabas são omitidas interferindo na compreensão.
b) Erros de substituição - quando o fonema-alvo é substituído por outras palavras.
c) Erros de distorção – em que o som-alvo é produzido com alguns ruídos acrescentados a ele. Embora não o bastante para serem classificados como uma substituição ou
adição.
d) Erros de adição ou erro de acréscimo - no qual o indivíduo acrescenta um
som extra a um corretamente produzido.
25
3.3
DISTÚRBIOS DA VOZ
Muitas pessoas possuem distúrbios de voz sendo que a maioria apresenta falhas
em sua geração. Tais distúrbios são classificados como vocais funcionais e a causa geralmente
é o abuso ou mau uso da voz, ocasionado por gritos prolongados ou qualquer outra forma de
irritação que a pessoa possa realizar e que provoca mudanças reais no tecido da laringe. Outras apresentam uma falha devido a algum dano físico ou alguma doença nos mecanismos
vocais. Para esses, o distúrbio é classificado em vocais orgânicos. Em ambos os casos, obtêmse sucesso através de tratamentos como a terapia vocal ou em alguns casos, uma operação. De
um modo geral, os distúrbios de voz, tanto em crianças como em adultos podem ser representados de duas formas: problemas de fonação ou problemas de ressonância vocal (BOONE;
PLANT, 1994, p. 289).
Os distúrbios de fonação são problemas relacionados à freqüência (altura), intensidade (volume) e qualidade. Grande parte dos distúrbios de fonação podem ser classificados como funcional ou orgânica.
A ressonância vocal é constituída por sons vindos tanto da cavidade oral quanto da cavidade nasal. Problemas em quaisquer destas duas regiões, resultam em uma alteração
significativa no processo da fala (BOONE; PLANT, 1994, p. 309).
Se o problema for de ressonância oral, poder-se-á ter como resultado, o que
chamamos de “fala de bebê” (Figura 8b), em geral, resultado de um deslocamento anterior
excessivamente elevado da língua. Outro problema de ressonância oral é o “fundo de saco”
(Figura 8c), que é produzido por um deslocamento elevado da língua em direção ao fundo da
faringe e muitas vezes ouvido nas vozes de falantes surdos.
Em relação aos problemas de ressonância nasal, pode-se citar a hipernasalidade
e a denasalidade. A hipernasalidade (Figura 8d) é caracterizada como se a voz da pessoa esti-
26
vesse saindo pelo nariz devido a um fluxo de ar excessivo e transmissão de ondas sonoras
pelo nariz. Já a denasalidade (Figura 8e) soa como se pessoas que possuem este problema
estivesse com alergia, coriza e o nariz entupido.
A Figura 8 ilustra os problemas de ressonância vocal citados acima.
Figura 8 – Variações na forma de trato vocal para várias mudanças na ressonância vocal.
Fonte: Boone e Plant (1994).
3.4
DISTÚRBIOS DE FLUÊNCIA
Os distúrbios de fluência caracterizam-se por mudanças de velocidade e do
ritmo da fala. Os exemplos mais comuns deste tipo de distúrbio é a gagueira e o cluttering.
27
Na gagueira, é comum que os bloqueios da fala surjam subitamente ou seja,
que ela seja involuntária. O prolongamento da fala e sílabas também são características da
gagueira. Muitas vezes o paciente se esforça para que essa disfluência não ocorra.
Cluttering literalmente significa “fazendo barulho ou algazarra”. É um distúrbio caracterizado por uma alteração do ritmo e da velocidade da fala. Em geral, as pessoas
que possuem essa disfunção, falam muito mais rápido que os gagos. De fato, muitas vezes
emprega-se a palavra taquifemia como sinônimo para cluttering - embora não o seja - pois em
termos de fonoaudiologia significa “fala rápida”. Outra diferença entre gagos e clutterers, é
que estes não se sentem tensos no ato da fala, além de apresentarem processos de pensamento
defeituosos, problemas de incompreensão da linguagem auditiva e alguns problemas de leitura e escrita podendo assim, omitir alguns fonemas.
3.5
CONSIDERAÇÕES PARCIAIS
Percebe-se que os distúrbios representam um grande problema, pois eles podem distorcer o sinal da voz tornando assim, impossível a análise desta. Um estudo sobre esse
assunto é necessário e, pode-se dizer, desejável, uma vez que reconhecendo o tipo de distúrbio
que o falante possui, isto pode ajudar no ajuste do programa para uma análise do sinal de voz
e, por conseguinte, um reconhecimento de um falante em especial.
28
4
FONEMAS
Fonema é a unidade sonora que se usa em uma dada língua para se distinguir a
significação entre as palavras (MESQUITA, 2002, p. 4).
Este capítulo tem como objetivo, introduzir conceitos básicos sobre fonemas, o
alfabeto internacional e as vogais.
4.1
CONCEITOS BÁSICOS
Ao analisar a palavra “jaz” e “paz”, nota-se que há uma diferença entre os sons
das letras j e p, que resulta em uma diferença de significados entre essas duas palavras.
Fonema é o nome que se dá a essas unidades sonoras que consegue estabelecer
distinções entre o significado dessas duas palavras.
Por convenção, os fonemas são escritos entre barras oblíquas (/ /), enquanto
que os sons são representados entre colchetes ([ ]). No caso da representação entre barras, a
transcrição é dita fonológica e no caso da representação entre colchetes, a transcrição é fonética. A palavra “dia”, por exemplo, é representada pelos fonemas /dia/ e pode ser pronunciada
como [djia] (EGASHIRA; VIOLARO, 1993).
Aos vários sons que são simbolizados pelo mesmo fonema dá-se a denominação variantes ou alofones. Por exemplo, os fonemas /d/ e /t/ apresentam em determinados dialetos do português uma realização palatal diante do /i/, como nas palavras tia e dia e uma realização alveolar ou dental diante das outras vogais como nas palavras dado, docas, tela, tua
(CALLOU; LEITE, 1990).
29
Na análise inicial, têm-se /ʒ/ e /p/ para representar os sons das letras j e p respectivamente. Com isso, conclui-se que existe alteração no significado de uma palavra bastando alterar o fonema.
Um exemplo extraído de MESQUITA (2002) mostra tal alteração bastando
trocar o fonema.
Ao trocar o fonema /ʒ/ da palavra jaz - /ʒ/ /a/ /z/ - pelos fonemas /p/ ou /f/, nota-se que existe um significado para cada palavra que se forma com a troca.
Entendidos como uma unidade de som no início do século XIX, os fonemas
são hoje considerados como unidades mentais ou abstratas, das quais o som é a sua realização
física. O fonema é uma unidade da língua e os sons ou fones são unidades da fala (CALLOU;
LEITE, 1990).
Vale ressaltar que o fone não é uma unidade abstrata como o fonema, mas sim
uma unidade física real de um trecho de sinal acústico. A cada fonema corresponde um número infinito de fones, todos eles com um grau de semelhança suficiente que permita classificálos como sendo realizações acústicas pertencentes à mesma classe.
Cada idioma tem seus próprios fonemas, que são elementos fônicos dotados de
função representativa no sistema. A língua portuguesa tem 26 fonemas segmentais (19 consoantes e 7 vogais) e um fonema supra-segmental, o acento, que não é um segmento e sim uma
qualidade que se superpõe a certos segmentos. Formas como dívida e divida; sábia, sabia e
sabiá, opõem-se entre si apenas pela posição do acento tônico (CALLOU; LEITE, 1990).
Para que as seqüências fônicas de uma língua sejam reproduzidas na escrita, utilizam-se sinais gráficos representativos desses sons, que são as letras ou grafemas. No entanto, não há uma correspondência exata entre número de letras e o número de fonemas nos idiomas.
30
A seguir, são citados exemplos extraídos de CEGALLA (1977).
Na língua portuguesa pode-se observar que uma mesma letra pode representar
mais de um fonema, como por exemplo na seqüência de palavras “exame”, “xale” e “próximo”. Um mesmo fonema pode ser figurado por mais de uma letra, como nas palavras “casa”,
“exílio”, “cozinha” ou representado por um grupo de duas letras, os dígrafos, como nas palavras “machado”, “mulher”, “unha”, “missa” e “carro”. Há ainda letras que por vezes não representam fonemas, funcionando somente como notações léxicas, como nas palavras “campo”
[cãpo] e “regue”, na qual o u é insonoro, para não seja proferido “reje”. E também são utilizadas letras simplesmente decorativas, na medida em que não representam fonemas e não funcionam como notações léxicas, como em “discípulo” [dicipulo], “hotel” [otél] e “exceção”
[esesão]; além de fonemas que, em certos casos, não são representados graficamente como em
“eram” [érãu], “falam” [fálãu].
4.2
O ALFABETO FONÉTICO INTERNACIONAL
Para representar os fonemas, a escrita dispõe do alfabeto. Mas nem sempre as
letras existentes são suficientes para representar com fidelidade os sons pronunciados. Por
isso, foi criado o alfabeto fonético a fim de suprimir essas necessidades. No Quadro 1 é mostrado o alfabeto fonético internacional. Pode-se observar que existem alguns fonemas que não
ocorrem na língua portuguesa.
A finalidade da transcrição fonética e, portanto, do alfabeto fonético é justamente a transcrição e a leitura de um som em qualquer idioma por uma pessoa treinada. Assim, esse alfabeto deve apresentar convenções inequívocas e de maneira explícita. Algumas
dessas convenções tornaram-se bastante difundidas, como por exemplo, as propostas no In-
ternational Phonetic Alphabet – IPA, pela Sociedade Internacional de Fonética. Esse alfabeto,
31
no entanto, emprega caracteres pouco comuns em máquinas de escrever e computadores, o
que dificulta sua utilização (CALLOU; LEITE, 1990).
Alfabeto
português
IPA
Aa
/a/
casa, barco
Nn
Bb
/b/
barriga, bicicleta
Oo
/k/
crema
eclodir
drama, dor
Exemplos
Alfabeto
português
IPA
Exemplos
/n/
/o/
namoro, nudez
/ɔ/
bolsa
bode
Pp
/p/
pato, pose
Qq
/k/
queijo, quota
/ɛ/
elefante
perfeito
Rr
/r/
barata, fritura
/f/
faca, feio
Ss
/s/
/z/
sapo
asilo
/g/
gato
grito
helicóptero, horror
insinuante
irado
Tt
/t/
tatu, tipo
Uu
/u/
urubu, rumo
Vv
/v/
viola, vulto
Ww
/dʒ/
halleluja (inglês)
jogador
jump (inglês)
/v/
/w/
Wálter
new (inglês)
Kk
/k/
key (inglês)
Xx
/k/
/s/
fixo
reflexão
Ll
/ℓ/
laranja, apelido
Yy
/i/
/j/
buy (inglês)
wet (inglês)
Mm
/m/
música, medo
Zz
/ts/
/dz/
Cc
Dd
Ee
Ff
Gg
/tʃ/
/d/
/e/
/dʒ/
Hh
Ii
Jj
/i/
/j/
/j/
/ʒ/
Quadro 1 - O alfabeto fonético internacional.
Fonte: Mesquita (2002).
pizza (italiano)
zwei (alemão)
32
4.3
CLASSIFICAÇÃO DOS FONEMAS
Na língua portuguesa, os fonemas são classificados como vogais, semivogais e
consoantes. Este trabalho é baseado nas duas primeiras classificações, portanto é de grande
importância descrevê-los sucintamente tais grupos.
4.3.1
Vogais
Vogais são unidades sonoras produzidas pela passagem do ar na boca ou pelas
fossas nasais. Essa corrente de ar faz as cordas vocais vibrarem produzindo-se o som da vogal
desejada (MESQUITA, 2002, p. 51).
No português, uma vogal sozinha pode constituir uma sílaba e não há sílaba
sem vogal. Existem 12 fonemas vocálicos representados no Quadro 2. Nota-se que existem
fonemas que não constam no alfabeto fonético internacional.
Vogais
Representação gráfiRepresentação gráfiFonemas Pronúncia
Fonemas Pronúncia
ca
ca
im - tímpano
/a/
a
a – casa
/ĩ/
ĩ
in - pingo
/ã/
ã
ã – maçã
am – campo
na – anta
/o/
o
o - dor
/e/
e
e – medo
/ɔ/
ó
o - dó
/ɛ/
é
e – teto
/õ/
õ
õ - tostões
om - tombo
on - ponta
/ẽ/
ẽ
em – tempo
em – gente
/u/
u
u - tuba
/i/
i
i – pirata
/ũ/
ũ
um - tumba
um - fundo
Quadro 2 - Fonemas vocálicos.
Fonte: Mesquita (2002).
33
Para classificar as vogais, usam-se quatro critérios: a região da articulação, o
timbre, o papel das cavidades bucal e nasal e a intensidade. Os três primeiros critérios são
fundamentalmente de base articulatória, ou seja, procuram descrever os diversos sons da língua de acordo com a posição e movimentação dos articuladores que compõem o trato vocal
humano. Já o último é de base acústica, ou seja, procura analisar os sons da fala como sinais
acústicos e, por isso, leva em conta suas características espectrais de onda (SIMÕES, 1999).
4.3.1.1
Classificação quanto à região de articulação
A classificação quanto à região de articulação está relacionada com a região da
boca onde as vogais são articuladas, em outras palavras, diz respeito ao ponto ou parte em que
se dá o contato ou aproximação dos órgãos que cooperam para a produção dos fonemas. Nas
vogais, os órgãos responsáveis são a língua e o palato.
Podem-se produzir três tipos de vogais quanto à região de articulação (MESQUITA, 2002, p. 52).
A vogal média - para sua produção, mantém-se a língua abaixada quase em posição de repouso.
As vogais anteriores - para serem produzidas, levanta-se gradualmente a parte
anterior da língua em direção ao palato duro próximo aos dentes.
As vogais posteriores - para serem emitidas, eleva-se a parte posterior da língua em direção ao palato mole.
34
4.3.1.2
Classificação quanto ao timbre
A classificação quanto ao timbre refere-se à abertura da boca, ou seja; o maior
ou menor grau de abertura dos lábios. Essa abertura é máxima para a vogal [a] e mínima para
as vogais [i] e [u].
4.3.1.3
Classificação quanto ao papel das cavidades bucal e nasal
A classificação quanto ao papel das cavidades bucal e nasal depende da posição da úvula durante a passagem do ar pelo trato vocal. Quando a corrente sonora é impedida
de passar pela cavidade nasal devido à posição levantada da úvula, tem-se a produção das
vogais orais. Entretanto, com o abaixamento da úvula, a corrente sonora passa pela cavidade
nasal produzindo as vogais nasais.
4.3.1.4
Classificação quanto à intensidade
A classificação quanto à intensidade está relacionada com a tonicidade da vogal, ou seja, é uma qualidade física da vogal que depende da força expiratória e da amplitude
da vibração das cordas vocais. As vogais dentro deste critério podem ser tônicas, quando as
vogais encontradas nas sílabas são pronunciadas com maior intensidade, ou átonas quando as
vogais encontradas nas sílabas não têm intensidade alguma.
Resumindo, esses critérios se tornam importante uma vez que o reconhecimento das vogais depende do modo como ela é pronunciada, de suas características e da verifica-
35
ção de possíveis distúrbios vindos da pessoa que está pronunciando tal vogal como visto no
capítulo anterior.
O Quadro 3 resume a classificação das vogais da língua portuguesa segunda os
quatro critérios descritos acima:
Critério
Zona de
Articulação
Timbre
Papel das
Cavidades
bucal e nasal
Classificação
Fonemas vocálicos
Anteriores
(a língua em elevação avança
em direção ao palato duro)
/ɛ/
/e/
/ẽ/
Médias
(a língua fica em posição
horizontal, quase em repouso)
/a/
/ã/
Posteriores
(a língua em elevação avança
para frente da boca)
/ɔ/
/o/
/õ/
/a/
Abertas
(alargamento maior)
Fechadas
(estreitamento maior)
Orais
(ar passando predominantemente
pela boca)
Nasais
(ar saindo predominantemente
pelas fossas nasais)
Tônicas
(pronúncia com maior intensidade)
Intensidade
Átonas
(pronúncia com menor intensidade)
Quadro 3 - Critério para classificação das vogais.
Fonte: Mesquita (2002).
/ɛ/
/i/
/o/
/i/
/ĩ/
/u/
/ũ/
/ɔ/
/e/
/u/
/a/
/i/
/ɛ/
/e/
/ɔ/
/o/
/ã/
/ẽ/
/ĩ/
/õ/
/ũ/
/u/
36
4.3.2
Semivogais
Semivogais são fonemas que se juntam a uma outra vogal formando com este
uma só sílaba. Na língua escrita, as letras “i” e “u”, e às vezes “e” e “o”, representam os fonemas semivogais /y/ e /w/. Esta representação existe para que não haja confusão com os fonemas /i/ e /u/ ou /e/ e /o/.
A Figura 9 exemplifica a junção das vogais com semivogais.
Figura 9 - Representação dos fonemas /y/ e /w/.
Observa-se que as semivogais são átonas e elas existem para estabelecer uma
definição quando se encontram juntas a uma vogal.
Outros grupos que também podem apresentar semivogais em sua pronúncia são
“am”, “em” e “en". A Figura 10a mostra uma comparação em que “em” se encontra em duas
situações: Em “lembrar”, “em” é representado pelo fonema /ẽ/, enquanto que em “porém”, ele
é representado pelo fonema vogal / ẽ/ e pelo fonema semivogal /y/. Um outro exemplo pode
ser visto na Figura 10b.
37
Figura 10 – Comparação dos grupos “em” e “am”.
38
5
TÉCNICAS E CONCEITOS DE PROCESSAMENTO DIGITAL DE SINAIS
Este capítulo tem como objetivo estabelecer o conceito de reconhecimento de
fonemas e explicar como são obtidas as freqüências, as transformadas de Fourier e os gráficos
dos espectros.
5.1
SINAIS
Um sinal é definido como uma função de uma ou mais variáveis a qual veicula
informações sobre a natureza de um fenômeno físico (HAYKIN; VEEN, 2001, p. 22).
Se a função depende de uma só variável, é dito que o sinal é unidimensional.
Se a função depender de uma ou mais variáveis, diz-se que ela é multidimensional. Um exemplo de sinal unidimensional é o sinal da fala, pois sua amplitude varia apenas com o tempo. Já uma imagem, pode-se dizer que é um sinal multidimensional, já que as coordenadas
horizontal e vertical representam suas dimensões.
5.1.1
Sinais de Tempo Discreto e Tempo Contínuo
A fala humana assim como em quase todas as situações referentes a comunicações ou processamento de informações é um sinal de tempo contínuo (RABINER; SCHAFER, 1978, p. 10). Esses sinais são expressos como funções da variável de tempo contínuo t ,
como por exemplo x(t ) .
Muitas vezes, um sinal também pode ser representado como uma seqüência de
números e este conceito é aplicado ao sinal da fala também. Uma função cujo sinal é representado por uma seqüência de números e dita sinal de tempo discreto (RABINER; SCHA-
39
FER, 1978, p. 10). Logo, um sinal de tempo discreto é definido apenas em instantes isolados
de tempo (HAYKIN; VEEN, 2001, p. 34).
Este trabalho utilizará a notação x[n] para a representação de um sinal de tem-
po discreto.
Um sinal de tempo discreto geralmente é derivado de um sinal de tempo contínuo
obtendo-se uma amostragem do mesmo à uma taxa uniforme (HAYKIN; VEEN, 2001, p. 34).
Assim, no caso de sinais de fala amostrados, pode-se pensar como uma seqüência
de amostras de um sinal analógico obtidos periodicamente com um período de amostras T .
Logo, é plausível que este sinal seja representado pela notação x[nT ] .
A Figura 11 mostra um sinal de voz representado como um sinal de tempo contínuo e um sinal amostrado cuja taxa de amostragem é de 8 KHz.
Figura 11 – Representação de um sinal de fala.
Fonte: Rabiner e Schafer (1978).
40
5.1.2
Sinais Periódicos e Sinais Não-Periódicos
Um sinal periódico de tempo contínuo x(t ) é uma função que satisfaz a condição:
x(t ) = x(t + T ) , para todo t
(5.1)
em que T é uma constante positiva (HAYKIN; VEEN, 2001, p. 36).
O menor valor de T que satisfaz a equação (5.1) é chamado de período fundamental de x(t ) e este período define a duração de um ciclo completo da função. O inverso
deste período chama-se freqüência fundamental de x(t ) e é ela que descreve com que freqüência o sinal periódico x(t) se repete (HAYKIN; VEEN, 2001, p. 36). Formalmente, temos:
f =
1
T
(5.2)
em que a freqüência f é medida em hertz ( Hz ) .
Outra equação importante a ser citada é a freqüência angular (ω ) que é medida
em radianos por segundo. Como 2π radianos equivale a um ciclo completo, para simplificação em relação à terminologia, ω muitas vezes é chamado simplesmente de freqüência
(HAYKIN; VEEN, 2001, p. 36). Logo temos:
ω=
2π
T
(5.3)
41
A análise acima foi feita baseada em um sinal de tempo contínuo, logo, para
um sinal de tempo discreto x[n] ser periódico, ele deve satisfazer a seguinte condição:
x[n] = x[n + N ] , para todos os números inteiros n
(5.4)
em que N é um número inteiro positivo (HAYKIN; VEEN, 2001, p. 37).
O menor valor do número inteiro N que satisfaz a equação (5.4) é chamado de
período fundamental de um sinal de tempo discreto x[n] e sua freqüência angular fundamental, ou freqüência fundamental de x[n] é definida por:
Ω=
2π
N
(5.5)
em que a freqüência Ω é medida em radianos.
Se um sinal de tempo contínuo x(t ) não tiver nenhum valor que satisfaça a
condição da equação (5.1), esse sinal é chamado de sinal aperiódico ou não-periódico. Tais
nomenclaturas podem ser aplicadas caso um sinal de tempo discreto x[n] não tiver nenhum
valor que satisfaça a condição da equação (5.4) (HAYKIN; VEEN, 2001, p. 37).
5.2
SISTEMAS
Um sistema é definido como uma entidade que manipula um ou mais sinais para realizar determinada função, produzindo dessa maneira, uma ou mais respostas (HAYKIN;
VEEN, 2001, p. 22).
42
Um sistema pode ser construído a partir de componentes físicos, produzindo
assim, sistemas elétricos, mecânicos ou hidráulicos. Também é possível criar algoritmos que
exerçam o papel de um sistema, e assim, operá-los em computadores manipulando apenas os
sinais de entrada para obter a saída (resposta) desejada.
A Figura 12 mostra a interação entre um sistema e seus sinais associados.
Figura 12 – Representação em diagrama de blocos de um sistema.
Matematicamente, um sistema é representado através de um operador H . Logo, para um sinal de entrada x(t ) e um sinal de saída y (t ) , pode-se escrever a seguinte equação:
y (t ) = H {x(t )}
(5.6)
cuja representação em blocos é mostrada na Figura 13.
Figura 13 – Exemplo de um sistema de tempo contínuo.
Para um sinal de entrada de tempo discreto x[n] e um sinal de saída de tempo
discreto y[n] , tem-se a seguinte equação:
43
y[n] = H {x[n]}
(5.7)
cuja representação em blocos é mostrada na Figura 14.
Figura 14 – Exemplo de um sistema de tempo discreto.
5.2.1
Sistemas Variantes e Invariantes no Tempo
Um sistema é dito invariante no tempo se um retardo de tempo ou um avanço
de tempo do sinal de entrada levar a um deslocamento idêntico no sinal de saída. Isso mostra
que um sistema reage de maneira idêntica não importando quando o sinal de entrada seja aplicado. Caso contrário, diz-se que o sistema é variante no tempo (HAYKIN; VEEN, 2001, p.
66).
5.2.2
Sistemas Lineares e Sistemas Não-Lineares
Um sistema é dito linear quando ele obedece a dois princípios:
44
5.2.2.1 Princípio da superposição
Seja um sistema y[n] = H {x[n]} e sejam y1 [n] a resposta à entrada x1 [n ] e
y 2 [n] a resposta à entrada x 2 [n ]. Um sistema satisfaz o princípio da superposição se, ao apli-
car a ele a entrada x S [n] = x1 [n] + x 2 [n] sua saída é y S [n] = y1 [n] + y 2 [n] .
5.2.2.2 Princípio da homogeneidade
Seja um sistema y[n ] = H {x[n]} e seja y1 [n] a resposta à entrada x1 [n] . Um
sistema satisfaz ao princípio da homogeneidade se ao aplicar nele a entrada x H [n] = ax1 [n] ,
a ∈ R * , sua saída é y H [n] = ay1 [n] .
Caso um desses princípios seja violado, diz-se que o sistema é não-linear.
5.3
CONVOLUÇÃO
A convolução de um sinal de tempo contínuo é dada por:
∞
{x * y}(t ) =
∫ x(τ ) y(t − τ )dτ ,
t∈R
(5.8)
−∞
e a convolução de um sinal de tempo discreto é representado por:
{x * y}[ n] =
∞
∑ x[m] y[n − m],
m = −∞
n∈Z
(5.9)
45
5.4
REPRESENTAÇÃO DE TRANSFORMADAS DE SINAIS
A análise de sistemas lineares é facilitada através de sua representação no domínio da freqüência. Logo, é importante a compreensão da Transformada Z e Transformada
de Fourier para sinais de tempo discreto (RABINER; SCHAFER, 1978, p. 13).
5.4.1
A Transformada de Fourier para tempo discreto
A Transformada de Fourier para Tempo Discreto (TFTD) se destaca como uma
representação útil de um sistema se este for linear e invariante no tempo (PROAKIS; INGLE,
2000, p. 40).
Se x[n] é absolutamente somável, ou seja,
∞
∑ | x[n] |< ∞ , então sua TFTD é
n = −∞
dado por:
X [ e jΩ ] =
∞
∑ x[n]e
− jΩn
(5.10)
n = −∞
e a transformada inversa de X [e jΩ ] é dada pela equação:
1
x[n] =
2π
π
∫π X [e
−
jΩ
]e jΩn dΩ
(5.11)
46
A transformada X [e jΩ ] descreve o sinal x[n] como uma função de freqüência
senoidal Ω e é chamado de representação no domínio da freqüência de x[n] (HAYKIN; VEEN, 2001, p. 190).
Logo, diz-se que a equação (5.10) é a TFTD de x[n] , uma vez que ela converte
um sinal no domínio do tempo para sua representação no domínio da freqüência. A equação
(5.11) faz o inverso, convertendo um sinal representado no domínio da freqüência para o domínio do tempo.
Em resumo, a TFTD representa sinais de tempo discreto não periódico como
uma integral ponderada de senóides complexas de tempo discreto em que as freqüências variam continuamente ao longo de um intervalo de comprimento 2π . Esta representação no domínio da freqüência é uma função contínua com período de 2π (HAYKIN; VEEN, 2001).
5.4.2
A Transformada Z
A transformada Z é representada pelo seguinte par de equações:
X [ z] =
∞
∑ x[n]z
−n
(5.12)
n = −∞
x[n] =
1
X [ z ]z n −1 dz
∫
c
2πj
(5.13)
em que a equação (5.12) representa a transformada Z de um sinal arbitrário x[n] e a equação
(5.13) representa a transformada Z inversa (RABINER; SCHAFER, 1978).
47
A transformada Z existe quando a soma da equação (5.12) converge e uma
condição necessária para convergência é a somabilidade absoluta de x[n]z − n . Uma vez que
| x[n]z − n |=| x[n]r − n | , tem-se:
∞
∑ | x[n]r
−n
|< ∞
(5.14)
n = −∞
em que a faixa r é denominada região de convergência (HAYKIN; VEEN, 2001).
É conveniente a representação do número complexo z como uma localização
num plano complexo chamado plano Z e descrito graficamente pelo Gráfico 1.
Gráfico 1 – Representação do plano Z.
O ponto z = re jΩ está localizado a uma distância r da origem com um ângulo
Ω em relação ao eixo real. Observa-se que se x[n] é absolutamente somável, então a TFTD é
obtida da transformada Z fazendo-se r = 1 , ou substituindo z = e jΩ na equação (5.12), logo:
X [e jΩ ] = X [ z ] | z =e jΩ
(5.15)
48
A equação z = e jΩ descreve um círculo de raio unitário cujo centro se localiza
na origem do plano Z. O contorno do círculo é chamado de circulo unitário no plano Z. A
freqüência Ω na TFTD corresponde ao ponto no círculo unitário com um ângulo de Ω em
relação ao eixo real. Quando a freqüência de tempo discreto Ω vai de − π a π , é feito um
percurso em torno do círculo unitário. Diz-se que a TFTD corresponde à transformada Z limitada no círculo unitário (HAYKIN; VEEN, 2001). O Gráfico 2 mostra a descrição acima.
Gráfico 2 – O circulo unitário no plano Z.
Uma vez que a TFTD existe somente se a resposta ao impulso for absolutamente somável, a transformada Z pode ser usada para estudar uma classe muito maior de sinais e sistemas já que ela é aplicada também em sinais que não são absolutamente somáveis e
também, para analisar sinais e sistemas que não são estáveis. Outra vantagem é que a transformada Z converte convoluções de sinais de tempo em multiplicação de transformadas Z, de
maneira que a transformada Z da saída de um sistema é o produto das transformadas Z da
entrada com a função de transferência do sistema (HAYKIN; VEEN, 2001).
49
5.4.3
Transformada de Fourier Discreta (TFD)
Uma seqüência de comprimento N pode ser representada pela TFD nas seguintes equações:
N −1
X [k ] = ∑ x[n]e
−j
2π
kn
N
, k = 0,1, ...., N − 1
(5.16)
n =0
x[n] =
1
N
N −1
∑ X [k ]e
j
2π
kn
N
, n = 0,1, ..., N − 1
(5.17)
k =0
O Quadro 4 Descreve as propriedades simétricas da TFD. Tais propriedades
são de grande utilidade na simplificação e na resolução de problemas.
x[n]
X [k ]
Real
Real e par
Real e ímpar
Porção par real; Porção ímpar imaginário
Real e par
Imaginário e ímpar
x[n] = − x[n + N / 2]
X [k ] = 0 para k = par
Quadro 4 – Propriedades Simétricas da TFD.
A TFD é a única representação de Fourier que pode ser computada numericamente (HAYKIN; VEEN, 2001, p. 244). Devido a esta vantagem, foi possível a descoberta de
um conjunto de algoritmos chamados coletivamente de Transformada Rápida de Fourier ou
Fast Fourier Transform (FFT) o que favoreceu em muito o campo de processamento digital
de sinais.
50
5.5
AMOSTRAGEM
O uso de métodos para processamento digital de sinais em um sinal analógico
como a fala, requer a representação de tal sinal como uma seqüência de números (RABINER;
SCHAFER, 1978, p. 24).
Isso é normalmente feito amostrando o sinal analógico, por exemplo, x(t ) , periodicamente a fim de produzir uma seqüência:
x[n] = x[nT ], −∞ < n < ∞
(5.18)
em que n assume apenas valores inteiros.
A Figura 11 da página 39 mostra um sinal de voz e a sua amostragem correspondente com amostras de período T =
5.5.1
1
segundos .
8000
Teorema da amostragem
Um sinal x a (t ) é dito de banda limitada se X a ( jω ) = 0 para | ω | ≥ 2πFN em
que FN é chamada de freqüência de Nyquist (PROAKIS; INGLE, 2000, p. 62).
O teorema de Nyquist diz que a freqüência de amostragem deve ser igual ou
maior que duas vezes a freqüência do sinal amostrado (LATHI, 1998) para que possa ser reconstruído dele. Dessa maneira, um sinal de voz que é limitado a 4000 Hz, estipula-se a amostragem mínima em 8000 Hz.
Então, se um sinal de banda limitada é amostrado a uma taxa igual ou maior
que a taxa de Nyquist 2 FN , o contorno da transformada de Fourier do sinal amostrado numa
51
⎡ 2π 2π ⎤
é idêntico ao contorno da transformada de Fourier do sinal dado exceto
faixa ω ∈ ⎢−
⎣ T T ⎥⎦
pela multiplicação do eixo da freqüência por um fator T e a multiplicação do eixo da amplitude por um fator
1
(PORAT, 1997, p. 52).
T
Entretanto, se tal sinal amostrado for menor que a taxa de Nyquist, o contorno
da transformada de Fourier do sinal amostrado numa mesma faixa será distorcida em relação
ao contorno da transformada de Fourier do sinal dado. Esta distorção é chamada de aliasing, e
resulta na superposição das réplicas (PORAT, 1997, p. 53).
Com base na explicação acima, o teorema da amostragem diz que se um sinal
x(t ) tiver uma transformada de Fourier de faixa-limitada X a ( jω ) , então xa (t ) pode unicamente ser reconstruído de amostras igualmente espaçadas xa [nT ] , para − ∞ < n < ∞ se
1
> 2 FN (RABINER; SCHAFER, 1978, p. 24).
T
5.6
PROCESSOS ESTOCÁSTICOS
Geralmente quando se estuda sinais tanto contínuos como discretos, é plausível
que eles possam ser representados por funções matemáticas, ainda que estas representações
sejam complicadas. Tudo isso é possível devido ao princípio que todos os sinais possuem um
valor definido para cada instante do tempo (GIROD et al., 2003, p. 220).
Porém, muitos sinais que ocorrem na prática, não se comportam de acordo com
essa hipótese. Teoricamente, é possível descrever um sinal de voz como a superposição de
várias ondas devido às propriedades do trato vocal humano, entretanto tal descrição não levaria a uma solução prática. Logo, é preciso encontrar um novo conceito para representar tais
processos irregulares.
52
5.6.1
Sinais Estocásticos
Ao analisar um sinal, muitas vezes ele possui um valor conhecido não ambíguo
para cada instante de tempo. Tal sinal é chamado de sinal determinístico e pode envolver tanto funções matemáticas simples como uma série infinita de Fourier, por exemplo.
Sinais cujo comportamento exato é desconhecido são chamados de sinais nãodeterminísticos, sinais estocásticos, sinais randômicos ou sinais aleatórios (GIROD et al.,
2003).
5.6.2
Variáveis aleatórias e processos estocásticos
Variável Aleatória (VA) é por definição, uma função de possíveis saídas ξ de
um experimento em um tempo t . Estas respostas em algum momento podem ser iguais ou
podem ser diferentes a cada realização de tal processo. Um exemplo coerente com tal definição seria o valor da temperatura de uma cidade ao meio-dia, por exemplo. Se durante cinco
dias for medida a temperatura sempre ao meio-dia, serão obtidos valores para esse determinado instante. Logo, diz-se que a temperatura obtida é uma VA e assume diferentes valores a
cada dia (LATHI, 1998).
Nota-se que pelo exemplo, a temperatura é uma função do tempo pois à
01h00min da tarde, por exemplo, seu valor pode ser totalmente diferente em relação à temperatura medido ao meio-dia.
Uma VA descrita como uma função do tempo (ou de qualquer outra variável
como a distância, volume, peso, etc.) é chamado de processo estocástico, processo randômico
ou processo aleatório. Um processo estocástico pode ser uma função de mais de uma variável
(LATHI, 1998).
53
Para especificar um processo estocástico X (t ) , um determinado experimento é
repetido várias vezes para cada valor de t . Usando-se o exemplo da temperatura, para especificar um processo estocástico X (t ) , é preciso obter um valor diário para tal t . Sendo ξ i o dia
em que o valor da temperatura é registrado, podemos ter a seguinte forma de onda x(t , ξ i ) . O
conjunto de todas as formas de ondas possíveis é conhecido como conjunto de um processo
estocástico X (t ) .
Uma forma de onda desse conjunto é conhecida como função-amostra de um
processo estocástico (LATHI, 1998).
O Gráfico 3 mostra um processo estocástico que representa o som ambiente em
um quarto durante três segundos em quatro instantes distintos de gravação.
Gráfico 3 – Processo estocástico para representar o som ambiente de um quarto.
54
5.6.3
Valores esperados
Valor esperado ou média de um conjunto estatístico é o valor médio obtido no
mesmo instante de todas as funções-amostras de um mesmo processo (GIROD et al., 2003).
Ela é dada pela seguinte equação:
1
N →∞ N
E{x(t a )} = lim
N
∑ x (t
i
i =1
a
)
(5.19)
em que, t a é o instante em que se deseja saber o valor da amostra, N é o número de formas
de ondas possíveis em um conjunto e E{x(t a )} é o valor esperado da soma dos sinais xi (t a )
no instante a .
Como é possível obter médias diferentes em diferentes instantes, E{ x (t1 )} ≠ E{x (t 2 )} ou seja,
o valor esperado é em geral, dependente do tempo (GIROD et al., 2003).
5.6.3.1 Valores esperados de primeira ordem
O valor esperado E{x(t )} descreve qual valor que se deve esperar de um processo estocástico, porém ele não caracteriza plenamente o processo.
No Gráfico 4, notam-se dois processos estocásticos que possuem a mesma média, porém é claro que no Gráfico 4a o processo varia muito menos que no Gráfico 4b. Para
descrever tais propriedades, é introduzida a seguinte definição:
1
N →∞ N
E{ f ( x(t ))} = lim
N
∑ f ( x (t ))
i =1
i
(5.20)
55
Esta equação representa a média esperada de primeira ordem. O termo valor
esperado de primeira ordem é usado pois neste tipo de equação, apenas as amplitudes das funções-amostras em um único instante de tempo são levadas em conta (GIROD et al., 2003).
Gráfico 4 – Processos estocásticos com diferentes distribuições entre as
funções-amostra individuais.
Ao comparar a equação (5.20) com a equação (5.19), nota-se que x(t a ) foi
substituído pela função f ( x(t )) . Logo, para diferentes funções f , obtém-se diferentes médias de primeira ordem. A média segundo a equação (5.19) está contida na equação (5.20)
para f ( x) = x . E{x(t )} também é chamada de média linear e é representada por μ x (t ) (GIROD et al., 2003).
Ao fazer f ( x) = x 2 , obtém-se a média quadrática dada pela seguinte equação:
56
1
N →∞ N
E{x 2 (t )} = lim
N
∑x
i =1
2
i
(t )
(5.21)
Para f ( x) = ( x − μ x ) 2 , obtém-se o quadrado do desvio em relação à média linear ou também chamado de variância. Sua equação é dada por:
σ x2 (t ) = E{( x (t ) − μ x (t )) 2 }
(5.22)
Ao efetuar a raiz quadrada positiva da variância, tem-se o desvio padrão σ x (t ) .
Resumindo, a média linear e a variância são os valores esperados mais utilizados e em geral, é possível definir mais valores esperados de primeira ordem escolhendo-se na
equação (5.20) um f ( x) diferente.
5.6.3.2 Valores esperados de segunda ordem
Ao analisar os valores esperados de primeira ordem, observa-se que eles valem
somente para um determinado instante de tempo e, conseqüentemente, não podem registrar as
dependências estatísticas que existem entre os diferentes instantes de um sinal.
Com valores esperados de segunda ordem, é possível relacionar valores de sinal em dois instantes diferentes. A definição é dada por:
1
N →∞ N
E{ f ( x (t1 ), x (t 2 ))} = lim
N
∑ f ( x (t ), x (t
i =1
i
1
i
2
))
(5.23)
57
O Gráfico 5 mostra exemplos de dois processos estocásticos. Nota-se que para
valores esperados de primeira ordem, o Gráfico 5a e 5b são idênticos pois suas amplitudes são
semelhantes. Entretanto, as funções-amostra do Gráfico 5a variam com o tempo muito mais
devagar que as do Gráfico 5b. Logo, pegando-se dois valores de tempo t1 e t 2 por exemplo,
poder-se-á esperar um valor muito maior da função de autocorrelação para valores próximos a
t1 e t 2 no Gráfico 5a que para a função de autocorrelação no Gráfico 5b. O conceito de auto-
correlação é explicado com mais detalhes a seguir.
Gráfico 5 – Ilustração de dois processos estocásticos com valores esperados de
primeira ordem idênticos e valores esperados de segunda ordem diferentes.
5.6.3.3 Função de autocorrelação de um processo estocástico
A função de autocorrelação é um valor esperado de segunda ordem. Pode-se
dizer que é uma das características mais importante de um processo estocástico que conduz
58
para a informação espectral de um processo. O conteúdo espectral de um processo depende da
rapidez em que a amplitude muda com o tempo. Isso pode ser medido correlacionando as amplitudes em t1 e t1 + τ . O Gráfico 6 mostra um processo estocástico que varia lentamente se
comparado com o Gráfico 7.
No Gráfico 6, as amplitudes em t1 e t1 + τ são similares, o que significa uma
forte correlação. Por outro lado, no Gráfico 7, as amplitudes em t1 e t1 + τ possuem pequena
semelhança, o que significa uma fraca correlação (GIROD et al., 2003; LATHI, 1998).
A correlação é uma medida de similaridades de duas VA’s. Logo, é possível
usar a correlação para medir a similaridade das amplitudes em t1 e t 2 = t1 + τ . Se as VA’s
X (t1 ) e X (t 2 ) forem representadas por X 1 e X 2 respectivamente, então, para um processo
estocástico real, a função de autocorrelação ϕ xx (t1 , t 2 ) é definido como:
ϕ xx (t1 , t 2 ) = E{ X (t1 ) X (t 2 )} = E{ X 1 X 2 }
(5.24)
Esta é a correlação de VA’s X (t1 ) e X (t 2 ) . Ela é calculada multiplicando-se
as amplitudes em t1 e t 2 de uma função-amostra e então calculando-se a média do resultado
sobre o conjunto. Percebe-se pelo Gráfico 6 que para um pequeno τ o produto de X 1 X 2 será
positivo para a maioria das funções-amostra de x(t ) . No entanto, observando-se o Gráfico 7,
para o produto Y1Y2 , tem-se uma igualdade positiva e negativa. Nota-se também que X 1 X 2
mostrará correlação para os valores significativamente maiores que τ , já que Y1 e Y2 perderá
rapidamente a correlação mesmo para um pequeno τ , como exemplificado no Gráfico 8
(LATHI, 1998).
59
Gráfico 6 – Exemplo de forte correlação.
Gráfico 7 – Exemplo de fraca correlação.
60
Gráfico 8 – Relação entre correlações do Gráfico 6 e do Gráfico 7.
5.6.4
Processos estocásticos estacionários
Um processo estocástico é estacionário se seus valores esperados de segunda
ordem dependem somente da diferença de instante de tempo de observação τ = t1 − t 2 e se
suas propriedades estatísticas não variarem com o tempo (GIROD et al., 2003).
5.6.4.1 Função distribuição de probabilidades e função densidade de probabilidades
Para um tempo específico t1 , a função distribuição associada a uma VA
X 1 = X (t1 ) será definida como:
Fx ( x1 , t1 ) = P{ X (t1 ) ≤ x1 }
(5.25)
61
sendo Fx ( x1 , t1 ) a função distribuição de primeira ordem do processo x(t ) para qualquer x1
real (PEEBLES, 1987).
Para duas VA’s X 1 = X (t1 ) e X 2 = X (t 2 ) , tem-se a função distribuição conjunta de segunda ordem e, ela é dada por:
Fx ( x1 , x 2 ; t1 , t 2 ) = P{ X (t1 ) ≤ x1 , X (t 2 ) ≤ x 2 }
(5.26)
Logo, para N VA’s, tem-se a função distribuição conjunta de ordem N representado como:
Fx ( x1 ,..., x N ; t1 ,...t N ) = P{ X (t1 ) ≤ x1 ,..., X (t N ) ≤ x N }
(5.27)
As funções densidade conjuntas podem ser escritas da seguinte maneira:
f x ( x1 ; t1 ) =
dFx ( x1 ; t1 )
dx1
∂ 2 Fx ( x1 , x 2 ; t1 , t 2 )
f x ( x1 , x 2 ; t1 , t 2 ) =
(∂x1 ∂x 2 )
f x ( x1 ,..., x N ; t1 ,..., t N ) =
∂ N Fx ( x1 ,..., x N ; t1 ,..., t N )
(∂x1 ... ∂x N )
(5.28)
(5.29)
(5.30)
Analogamente às funções-distribuição, as equações (5.28), (5.29) e (5.30) são
chamadas, respectivamente, de funções densidade de primeira ordem, segunda e ordem N .
62
5.6.4.2 Processos estacionários de primeira ordem
É chamado de processo estacionário de primeira ordem se sua funçãodensidade de primeira ordem não mudarem com um deslocamento na origem do tempo. Então:
f ( x1 ; t1 ) = f x ( x1 ; t1 + Δ)
(5.31)
sendo que; x1 é qualquer número real, t1 é válido para qualquer valor e Δ também é para
qualquer número real.
Com isso, f x ( x1 ; t1 ) é independente de t1 e o valor médio do processo
E{ X (t )} é uma constante. Logo, tem-se:
E{ X (t )} = X = Constante
(5.32)
5.6.4.3 Estacionariedade de segunda ordem e estacionariedade em sentido-amplo
Um processo é dito estacionário de segunda ordem se a função-densidade de
segunda ordem satisfizer:
f x ( x1 , x 2 ; t1 , t 2 ) = f x ( x1 , x 2 ; t1 + Δ, t 2 + Δ)
para qualquer t1 , t 2 e Δ (PEEBLES, 1987).
Um processo estacionário em sentido amplo existe apenas se:
(5.33)
63
E{ X (t )} = X = Constante
(5.34)
ϕ xx (t1 , t 2 ) = ϕ xx (t1 , t1 + τ ) = ϕ xx (τ )
(5.35)
para τ = t 2 − t1 .
Muitos problemas parciais necessitam o uso da função de autocorrelação e valor médio de um processo estocástico. As soluções destes problemas são bastante simplificadas se tais quantidades não são dependentes no tempo absoluto. Apenas a estacionariedade de
segunda ordem, já é suficiente para garantir tais características. Porém, ela é freqüentemente
mais restritiva que o necessário e uma forma mais flexível de estacionariedade é apetecível. A
estacionariedade em sentido-amplo garante tal necessidade sendo assim, a forma mais útil
desse processo (PEEBLES, 1987).
5.6.5
Médias de Tempo e Ergodicidade
A média do tempo de uma quantidade é definida como:
T
1
A[•] = lim
[•]dt
τ →∞ 2T ∫
−T
em que A é usado para simbolizar a média do tempo (PEEBLES, 1987).
(5.36)
64
O valor médio x = A[ x(t )] de uma função-amostra e a função de autocorrelação no tempo representado por ℜ xx (τ ) = A[ x(t ) x(t + τ )] são médias específicas interessantes
cujas funções são definidas por:
1
T → ∞ 2T
T
x = A[ x(t )] = lim
1
ℜ xx (τ ) = A[ x(t ) x(t + τ )] = lim
T → ∞ 2T
∫ x(t )dt
(5.37)
−T
T
∫ x(t ) x(t + τ )dt
(5.38)
−T
As equações (5.37) e (5.38) produzem dois números para qualquer funçãoamostra unitária do processo X (t ) . Porém ao se considerar todas as funções-amostra, x e
ℜ xx (τ ) tornam-se VA’s (PEEBLES, 1987, p. 151).
Se as médias temporais das equações (5.37) e (5.38) coincidem para todas as
funções-amostra de um processo estocástico e também são iguais à média do conjunto estatístico, é possível então expressá-las pela média temporal de qualquer função-amostra. Os processos estocásticos desse tipo são denominados processos ergódicos (GIROD et al., 2003, p.
227). Logo, para um processo ergódico, tem-se:
x = E{X }
(5.39)
ℜ xx (τ ) = ϕ xx (τ )
(5.40)
65
5.7
SISTEMAS HOMOMÓRFICOS
Sistemas homomórficos são sistemas desenvolvidos para processar sinais que
foram combinados ou sobrepostos por operações como, por exemplo, a multiplicação ou a
convolução usando a teoria do filtro linear (JACKSON, 1997, p. 473).
5.7.1
Sistemas homomórficos por convolução
Sistemas homomórficos por convolução obedecem ao principio geral da superposição que é normalmente expresso por sistemas lineares convencionais. Tal princípio é dado por:
L[ x[n]] = L{x1 [n] + x 2 [n]}
= y1 [n] + y 2 [n] = y[n]
(5.41)
sendo L o operador linear.
Pela equação (5.41), se um sinal de entrada é constituído pela combinação linear de outros sistemas (no caso a adição de x1 [n] e x 2 [n] ) então, a saída será a combinação
linear das saídas correspondentes (RABINER; SCHAFER, 1978).
A Figura 15 mostra um sistema obedecendo ao princípio da superposição descrito acima.
66
Figura 15 – Representação de um sistema obedecendo ao princípio da
superposição.
O princípio da superposição resulta no fato de que a saída de um sistema linear
e invariante no tempo, pode ser expresso como uma soma de convolução conforme visto na
equação (5.9) da página 44.
Analogamente ao princípio da superposição para sistemas lineares convencionais, pode-se definir uma classe de sistemas que obedece a um princípio generalizado de superposição em que a adição é substituída pela convolução. Logo, tem-se:
L{x[n]} = L{x1 [n] * x 2 [n]}
= y1 [n] * y 2 [n] = y[n]
(5.42)
Sistemas cujas propriedades são expressas pela equação (5.42), são chamados
de sistemas homomórficos por convolução e podem ser representados conforme a Figura 16.
Figura 16 – Representação de um sistema homomórfico por convolução.
67
Pela Figura 16, nota-se que a operação de convolução ocorre tanto na entrada
como na saída de um sistema.
Um importante aspecto da teoria dos sistemas homomórficos é que qualquer
sistema homomórfico pode ser representado como uma cascata de três sistemas homomórficos (RABINER; SCHAFER, 1978).
A Figura 17 demonstra tal representação para o sistema homomórfico por convolução.
Figura 17 – Representação em cascata de um sistema homomórfico por
convolução.
Na análise de Figura 17, o primeiro sistema recebe os sinais de entrada combinados por convolução e os transforma em uma combinação aditiva de saída correspondente. O
segundo sistema é um sistema linear convencional que obedece ao principio da superposição
dado pela equação (5.41). O terceiro sistema é o inverso do primeiro sistema, logo, ele transforma sinais combinados por adição em sinais combinados por convolução.
O sistema D* [] é chamado de sistema característico por desconvolução homomórfica. O sistema característico por desconvolução homomórfica obedece ao princípio generalizado da superposição em que a operação de entrada é uma convolução e a operação de
saída, uma adição (RABINER; SCHAFER, 1978).
As propriedades do sistema característico são definidas por:
68
D* {x[n]} = D* {x1 [n] * x 2 [n]}
= xˆ1 [n] + xˆ 2 [n] = xˆ[n]
(5.43)
−1
Assim o inverso do sistema característico ( D* ) é definido por:
−1
−1
D* { yˆ[n]} = D* { yˆ1 [n] + yˆ 2 [n]}
= xy1 [n] * xy 2 [n] = xy[n]
(5.44)
Se a entrada de um sistema é dada por uma convolução de dois sinais como:
x[n] = x1 [n] * x 2 [n]
(5.45)
então, a transformada Z da entrada é o produto das transformadas Z correspondentes, logo:
X [ z] = X 1[ z] X 2 [ z ]
(5.46)
Pela equação (5.43), fica claro que a transformada Z da saída de um sistema característico é a combinação aditiva de transformadas Z. Além disso, para o domínio da freqüência, o sinal característico por convolução possui a propriedade de que; se um sinal é representado como um produto de transformadas Z na entrada, então na saída tem que ser a
soma das transformadas Z das saídas correspondentes (RABINER; SCHAFER, 1978).
Uma aproximação da representação de tal sistema é dada pela Figura 18.
69
Figura 18 – Representação no domínio da freqüência de um sistema.
homomórfico por convolução.
Tal aproximação é baseada no fato que o logaritmo de um produto pode ser definido como a soma dos logaritmos de seus termos individuais, logo:
Xˆ [ z ] = log{ X [ z ]} = log{ X 1 [ z ] X 2 [ z ]} = log{ X 1 [ z ]} + log{ X 2 [ z ]}
(5.47)
A Figura 19 mostra o sistema característico representando sinais como seqüências e a Figura 20 mostra o inverso desse sistema característico.
Figura 19 – Representação de um sistema característico por desconvolução
homomórfica.
Figura 20 – Representação da inversa de um sistema característico por
desconvolução homomórfica.
70
Tais representações são válidas conforme a equação (5.47) e verdadeiro para
quantidades reais e positivas. No entanto, a transformada Z é em geral complexo e há considerações importantes de imparidade ao lidar com logaritmos de números complexos.
Para a solução de tal problema, é usada uma função denominada cepstrum.
5.8
CEPSTRUM
Uma das aplicações mais comuns em sistemas homomórficos é a desconvolução de sinais convoluídos usando-se uma função conhecida como cepstrum (JACKSON,
1997, p. 473).
Tal função pode se manifestar de duas formas: O cepstrum complexo que conserva a informação da fase no sinal e apenas cepstrum, que não conserva.
Conforme a equação (5.45), a transformada Z é dada pela equação (5.46) e a
transformada de Fourier, por:
X ' [Ω] = X [e jΩ ] = X 1' [Ω] X 2' [Ω]
(5.48)
Para separar sinais convoluídos usando filtros lineares, é preciso uma transformação adicional de X [z ] ou X ' [Ω] que converte a multiplicação em adição, em outras palavras, o logaritmo (JACKSON, 1997).
Logo, se os componentes de freqüências de sinais transformados ocupam essencialmente bandas diferentes, é possível separá-las com algum tipo de filtro linear (em alguns casos é necessário o uso de mais de um filtro).
A definição do logaritmo complexo é dada por:
71
Xˆ ' [Ω] = log{ X ' [Ω]} = log[ X 1' {Ω]} + log{ X 2' [Ω]}
(5.49)
Xˆ ' [Ω] = log X ' [Ω] + j arg[ X ' [Ω]]
(5.50)
e, obtém-se:
Por fim, o cepstrum complexo é obtido com a transformada inversa de Xˆ ' [Ω] ,
então:
xˆ[n] =
1
2π
2π
∫ Xˆ [Ω]e
'
jΩn
dΩ
(5.51)
0
Sem a fase, o cepstrum é dado por:
1
c[n] =
2π
2π
∫ log X [Ω]e
'
jΩn
dΩ
(5.52)
0
Caso o sinal x[n] sejam valores reais, então o cepstrum c[n] e o cepstrum
complexo xˆ[n] também serão valores reais, pois o log X ' [Ω] é uma função par e o
arg[ X ' [Ω]] é ímpar como visto no Quadro 4 da página 49.
Entretanto, um problema de imparidade aparece na definição de xˆ[n] pois
qualquer múltiplo de 2π pode ser adicionado a qualquer ponto (ou pontos) do arg[ X ' [Ω]]
sem alterar o sinal original x[n] , porém o cepstrum complexo é alterado devido a tais mudan-
72
ças de fase. Tal problema é superado fazendo o arg{ X ' [Ω]} ser uma função contínua de Ω .
Desde que a TFD produza apenas o valor principal ou valores ocultos do arg{ X [k ]} de − π a
π , isso implica na necessidade de que a fase seja “desocultada” antes que xˆ[n] possa ser estimada. Tal problema é melhor compreendido através de uma aplicação mostrada no Capítulo
6.
5.9
JANELAMENTO
A análise espectral em tempo curto ou short-time spectral analysis, é a divisão
de um sinal com duração longa em pequenos segmentos e a partir destes, a sua análise espectral. Porém a análise prática de tais sinais requer mais do que apenas a aplicação de TFD ou
FFT. Uma das principais técnicas usadas para a análise espectral em tempo curto é o janelamento (PORAT, 1997).
5.9.1
A janela de Hamming
A janela de Hamming é dada pelas seguintes equações:
⎧
⎛ 2πn ⎞
⎪0.54 − 0.46 cos⎜ M − 1 ⎟, 0 ≤ n ≤ M − 1
⎝
⎠
⎪⎪
w[n] = ⎨
⎪0,
caso contrário
⎪
⎪⎩
em que M é o número de pontos que compõe a janela.
(5.53)
73
O Gráfico 9 mostra a janela no domínio do tempo e no domínio da freqüência
para N = 64 .
Gráfico 9 – A Janela de Hamming para M = 64 .
A aplicação da janela de Hamming será de grande utilidade em conjunto com
outros recursos no processo de detecção do espectro da voz como o método de Yule-Walker
visto a seguir.
5.10
O MÉTODO DE YULE-WALKER
O método de Yule-Walker é um método de estimação espectral paramétrico.
Os métodos paramétricos podem render melhores resultados quando o tamanho do sinal a ser
analisado é curto. Tais métodos usam uma abordagem diferente para a estimação espectral;
74
em vez de tentar estimar a Densidade Espectral de Potência (DEP) dos dados, eles modelam
os dados como uma a saída de um sistema linear guiados pelo ruído branco, e então tentam
estimar os parâmetros de tal sistema linear (KAY, 1993; PORAT, 1997).
O modelo de filtro linear mais utilizado é o modelo apenas com pólos, pois
todos os zeros estão na origem do plano Z. A saída de tal filtro para uma entrada com ruído
branco é chamado de processo Auto-Regressivo (AR) (PORAT, 1997).
O método AR de Yule-Walker para estimação espectral computa os parâmetros
AR formando uma estimação tendenciosa das funções de autocorrelação do sinal e então resolvendo um problema de mínimos quadrados do erro de predição anterior (MARPLE, 1986;
STOICA; MOSES, 1997).
Para melhor compreensão do método de Yule-Walker, tem-se como exemplo o
seguinte espectro da vogal [a] mostrada no Gráfico 10.
Gráfico 10 – Espectro da vogal [a].
Nota-se que os picos são detectados embora haja certa dificuldade. Para “suavizar” o contorno do sinal espectral, aplica-se o método de Yule-Walker. O resultado pode ser
visto no Gráfico 11.
75
Gráfico 11 – Densidade espectral utilizando o método de Yule-Walker.
Pelo Gráfico 11, é possível ver claramente a suavização dos contornos do sinal
espectral tornando assim mais fácil a análise do sinal.
76
6
CARACTERÍSTICAS FUNDAMENTAIS DOS SINAIS DE VOZ
Este capítulo tem como objetivo, explicar melhor o conceito da freqüência fundamental e das freqüências formantes, mostrando suas respectivas características. São mostrados também os estudos feitos pela doutora Behlau (1984) e pela doutora Monteiro (1995).
Tais estudos são de grande utilidade para a Parte Prática.
6.1
FREQÜÊNCIA FUNDAMENTAL E FREQÜÊNCIAS FORMANTES
A freqüência fundamental de uma voz é por definição, “a freqüência glótica, a
freqüência da onda complexa e a freqüência do primeiro harmônico” (BEHLAU et al., 1986).
Ela é produzida na laringe passando através da glote. Seu espectro corresponde
a uma seqüência discreta de harmônicos. O espaçamento entre esses harmônicos é igual à
freqüência fundamental. Este espaçamento depende da taxa de repetição dos pulsos da onda
produzida na glote. Tipicamente para um adulto do sexo masculino, esse espaçamento fica em
torno de 100 Hz.
Resumindo, se os pulsos representam a uma taxa de 100 pulsos por segundo, a
freqüência fundamental correspondente desses pulsos é 100 Hz e as harmônicas no espectro
desta onda são espaçadas de 100 Hz (PICKETT, 1999, p. 55).
A energia dessas harmônicas tem uma queda da ordem de -12 dB/oitava, por
isso, a maior parte da energia do sinal concentra-se nas baixas freqüências até 100 Hz (SIMÕES, 1999).
As variações em torno da freqüência fundamental podem ser relacionadas à altura (jitter) ou a intensidade (shimmer) (RUSSO, 1999, p. 147).
77
A Figura 21a mostra a variação de área conforme a abertura da glote para dois
ciclos de vibrações das cordas vocais e a Figura 21b mostra as ondas resultantes do fluxo de
ar que passa pela glote. O modelo corresponde a uma onda cuja freqüência fundamental é
igual a 100 Hz e o período de um ciclo é igual a 10 ms.
Figura 21 – Variação de área conforme abertura da glote e as ondas resultantes
do fluxo de ar que passa pela glote.
Fonte: Pickett (1999).
O Gráfico 12 mostra o espectro produzido por uma onda com as mesmas condições descritas acima.
Gráfico 12 – Espectro de uma onda cuja freqüência fundamental é 100 Hz e o
período de um ciclo corresponde a 100 ms.
Fonte: Pickett (1999).
78
No Brasil, as freqüências formantes das vozes masculinas podem variar de 80 a
150 Hz. Já as femininas variam de 150 a 250 Hz e as infantis encontram-se acima de 250 Hz
(BEHLAU, PONTES, 1995).
O Quadro 5 ilustra a média dos valores de freqüência fundamental ( F0 ) e a
amplitude ( A ) para indivíduos da cidade de São Paulo.
Grupos
Homens
Mulheres
Crianças
F0 ( Hz )
A (dB)
113,01
204,91
235,76
69,47
72,14
73,4
Quadro 5 – Médias dos valores de freqüência fundamental e amplitude para os
diferentes grupos de indivíduos da cidade de São Paulo.
Fonte: Behlau (1984).
As freqüências formantes correspondem às freqüências de ressonância em que
ocorre a máxima amplificação do sinal de entrada (SIMÕES, 1999).
A maneira mais simples de exemplificar as freqüências formantes seria considerar o trato vocal como sendo um tudo cilíndrico de seção transversal de área uniforme com
uma extremidade aberta sendo os lábios e uma fonte de excitação sonora (no caso, a glote) na
outra extremidade.
Esse sistema funciona como uma caixa de ressonância em que certas freqüências do sinal sonoro gerado na entrada do tubo são amplificadas, ao passo que outras são atenuadas (SIMÕES, 1999).
As freqüências em que ocorre a ressonância são dependentes do comprimento
do tubo, logo, para um tudo de comprimento L , as ressonâncias ocorrem para os comprimentos de onda:
79
λ = 4 L,
4L 4L 4L
, , , etc.
3 5 7
(6.1)
Os quais correspondem às freqüências:
f =
c 3c 5c 7c
, , , , etc.
4L 4L 4L 4L
(6.2)
em que c é igual à velocidade de propagação do som no meio em questão.
Para L igual a 17 cm, que é um valor típico para o comprimento do trato vocal
e c igual a 340 m/s, encontra-se valores de ressonância em 500 Hz, 1500 Hz, 2500 Hz, etc..
Esses valores correspondem as freqüências formantes f1 , f 2 , f 3 , etc..
Nota-se que os valores dessas formantes são independentes da fonte de excitação e seus valores dependem única e exclusivamente da configuração do trato vocal e do ambiente onde é gerado, já que:
c = (331,2 + 0,61t ) (m / s )
(6.3)
em que 331,2 (m/s) corresponde à velocidade do som ao nível do mar à temperatura de 0 0 C e
0,61 t (m/s) é o aumento dependendo apenas da temperatura ambiente t (RUSSO, 1999, p.
81).
O exemplo acima é visto na Figura 22.
80
Figura 22 – Um modelo de tubo para o trato vocal.
Fonte: Russo (1999).
De acordo com o modelo fonte-filtro de Fant (1960), o sinal da fala pode ser
considerado como sendo o produto do espectro em freqüência do trem de pulsos produzidos
na laringe pela função de transferência do trato vocal.
Logo, ao passar pelo trato vocal, o pulso produzido na laringe sofre um processo de “filtragem” que, dependendo do filtro, será gerado uma determinada vogal.
A Figura 23 mostra esse processo.
81
Figura 23 – Exemplo de produção de vogais de acordo com o modelo fonte-filtro.
Fonte: Pickett (1999).
82
Os picos gerados após a convolução entre a função de transferência do trato
vocal com o espectro do sinal vindo da glote correspondem às freqüências de ressonância ou
freqüências formantes (PICKETT, 1999, p. 57).
Outro ponto importante a ser citado é o inverso da freqüência fundamental, ou
pitch. Literalmente, pitch refere-se à altura de um som, mas nesse caso, ele é o período de
interrupção do fluxo de ar que excita o trato vocal causado pela vibração das cordas vocais
quando passado pela glote. Quanto maior for esse período, menor será o espaço entre as harmônicas e, consequentemente menor será a freqüência fundamental. O resultado será um som
mais grave. Por outro lado, se esse período for muito pequeno, a freqüência fundamental será
alto, logo, o som produzido será agudo (PICKETT, 1999, p. 59).
O Gráfico 13 mostra a variação do pitch para a vogal [a].
Gráfico 13 – Variações do pitch da vogal [a] no espectro da mesma.
Fonte: Pickett (1999).
83
Por fim, a intensidade que a vogal é pronunciada altera apenas a amplitude das
harmônicas (PICKETT, 1999, p. 61).
Pelo Gráfico 14, nota-se que o espaçamento entre as harmônicas e, logo, a freqüência fundamental permanecem inalterados. Nota-se também que as amplitudes das formantes aumentaram e ainda é possível detectá-las.
Gráfico 14 – Efeitos da intensidade no espectro de uma vogal.
Fonte: Pickett (1999).
6.2
OBTENÇÃO DAS FREQÜÊNCIAS FORMANTES DE CADA VOGAL
Em 1843 devido ao teorema de Fourier, tornou-se possível a análise espectral
de um som efetuado inicialmente pelo físico alemão Ohms. De modo complexo e envolvendo
cálculos diferenciais e integrais, foi possível um sinal que inicialmente se encontra no domínio do tempo, passar para o domínio da freqüência realizando assim, sua análise espectral
(RUSSO; BEHLAU, 1993).
Devido à complexidade dos cálculos, a análise de Fourier numa amostra de fala
de 700 segundos, com a ajuda de um analisador mecânico, seriam necessários aproximada-
84
mente 100 anos, trabalhando-se ininterruptamente 300 dias por ano naquela época (RUSSO;
BEHLAU, 1993).
Hoje em dia, devido ao avanço da informática, o surgimento de algoritmos
mais eficientes, inteligência artificial e, consequentemente as redes neurais, tornou-se possível
a análise de um sinal de fala em um espaço de tempo muito menor do que antigamente.
A descrição das vogais é basicamente feita pela análise das três primeiras formantes sendo que os dois primeiros determinam a qualidade vocal em termos acústicos e, sua
identidade em termos auditivos (BEHLAU, 2001, p. 157).
As formantes de cada vogal foram obtidas através de um estudo feito em 1984
pela Doutora Mara Suzana Behlau (1984) em que 90 indivíduos sendo 30 homens, 30 mulheres e 30 crianças (15 do sexo masculino e 15 do sexo feminino) registraram as vogais (nasais
e orais) em uma cabine acústica utilizando-se um gravador estéreo. As gravações obtidas foram transferidas para o gravador do espectrógrafo VI (Voice Identification) modelo 700. Cada
falante foi instruído a inspirar profundamente antes de cada emissão e sustentar a dada vogal o
mais naturalmente possível. A faixa etária dos adultos foi delimitada entre 18 e 45 anos de
idade (BEHLAU et al., 1988).
Os resultados desses registros são mostrados no Quadro 6.
Pelo Quadro 6, nota-se que a disposição das vogais orais anteriores é bem mais
definida que das vogais orais posteriores. Observando-se a seqüência das vogais anteriores /i/,
/e/ e /ɛ/ em direção a vogal média /a/, percebe-se um incremento na freqüência da primeira
formante ( F1 ) enquanto que, as freqüências F2 e F3 decrescem em direção à vogal média. O
trecho que se segue da vogal média até as vogais /ɔ/, /o/ e /u/ nessa ordem, não apresenta uma
situação muito claro. Embora haja um evidente decréscimo de F1 , F2 e F3 não apresentam
um incremento significativo tendo até valores praticamente iguais em determinadas vogais
85
como no caso de /o/ e /u/. A mesma análise pode ser feita em relação às vogais nasais (BEHLAU, 2001, p. 159).
Grupos
Homens
σ
Mulheres
σ
Vogais Analisadas
F1
F2
F3
Média
σ
/ɛ/
/e/
/i/
/ɔ/
/o/
/u/
/ã/
/ẽ/
/ĩ/
/õ/
/ũ/
807
1440
2524
699
2045
2848
563
2339
2995
398
2456
3320
715
1201
2481
558
1122
2520
400
1182
2452
700
1511
2687
569
2332
2994
376
2669
3424
558
1131
2616
408
1260
2492
F1 62,26 74,08 62,98 52,96
79,6
73,82 31,46 62,01 75,43 37,55 65,76 43,92
F2 123,72 188 197,67 203,56 166,75 206,5 178,04 135,9 186,74 171,51 137,55 159,51
F3 262,21 240,29 218,87 268,81 190,51 184,86 181,22 232,76 196,04 284,66 220,9 149,22
F1
F2
F3
956
1634
2721
769
2480
3153
628
2712
3349
425
2984
3368
803
1317
2602
595
1250
2668
462
1290
2528
817
1642
2764
594
2683
3351
421
2967
3620
682
1189
2704
456
1302
2557
F1 132,52 88,04 111,93 58,29 111,09 51,91 70,81 77,59 65,05 72,18
77,4
98,2
F2 240,57 235,73 172,31 219,6 99,53 139,79 120,73 169,58 239,85 285,93 126,12 108,93
F3 297,31 190,37 151,72 281,59 155,02 162,93 125,07 184,2 277,45 317,39 154,39 105,59
F1
Crianças F2
F3
σ
/a/
1086
1721
2873
902
2606
3243
698
2825
3637
465
3176
3980
913
1371
2793
682
1295
2823
505
1350
2667
999
1758
2822
677
2786
3605
497
3283
4002
717
1290
2825
554
1375
2642
F1 82,48 83,39
76,5
81,7 100,97 73,35 93,32 109,15 102,29 70,67 81,54 79,38
F2 195,91 187,26 288,8 216,36 81,02 103,55 130,24 153,33 268,98 231,02 84,47 135,57
F3 246,71 187,26 244,19 212,27 216,74 218,07 289,4 191,37 277,87 237,19 218,86 162,64
F1
F2
F3
950
1598
2706
790
2377
3081
629
2625
3327
429
2898
3656
810
1296
2626
612
1226
2670
455
1274
2549
839
1637
2758
613
2597
3317
431
2973
3682
653
1199
2715
473
1313
2564
F1 149,58 117,32 101,69 70,48 126,83 84,32 81,68 149,76 93,74 79,33 101,09 97,8
F2 224,29 315,21 305,23 343,04 139,81 171,48 159,6 182,76 306,25 342,2 136,66 142,94
F3 302,91 266,3 335,26 371,08 227,27 225,37 221,44 209,09 355,19 368,42 216,21 150,8
Quadro 6 - Médias das freqüências das formantes, em Hz, em relação a cada vogal
analisada nos diferentes grupos de falantes.
Fonte: Behlau (1988).
O Gráfico 15 mostra as médias das freqüências das três primeiras formantes
das vogais orais do português brasileiro de 90 falantes da cidade de São Paulo e o Gráfico 16
mostra as médias das três primeiras formantes do mesmo grupo, porém das vogais nasais.
86
Gráfico 15 – Média das freqüências das três primeiras formantes das vogais orais.
Gráfico 16 – Média das freqüências das três primeiras formantes das vogais nasais.
Um estudo mais recente realizado em 1995 pela Doutora Marcia Cavadas
Monteiro (1995) das vogais orais de 20 homens e 20 mulheres da cidade de São Paulo, mostra
dados um pouco diferentes se comparados com a Doutora Behlau (1984). O principal motivo
87
desta diferença se deve ao fato que no estudo da Doutora Behlau (1984), as medidas foram
extraídas manualmente e no estudo da Doutora Monteiro (1995), as medidas foram extraídas
automaticamente (BEHLAU, 2001, p. 158).
O Quadro 7 mostra os dados obtidos pela Doutora Monteiro (1995). Tais dados
foram extraídos por computados usando o programa Soundscope 2.0 (GW Instruments).
Grupos
Vogais Analisadas
/a/
/ε/
/e/
/i/
/⊃/
/o/
/u/
Homens
F1
F2
F3
730,3
1273
2425,3
589,2
1750,8
2476,6
405,6
1944,2
2689
312
1964,4
2669,4
606,9
1042,4
2470,2
458,3
923,8
2419,3
390
1423,4
2745,9
σ
F1
F2
F3
59,48
91,12
228,16
52,34
142,33
158,15
38,79
219,57
320,91
35,78
355,48
260,41
83,77
298,01
337,41
48,98
269,85
324,04
80,18
722,39
544,18
F1
Mulheres F2
F3
925,3
1767,1
3089,2
640,3
2061,9
3046,4
449,8
1912
2815,8
368,5
2269,1
3179
720,5
1321,5
2899,9
505,1
1176,4
2470,2
429
1436,4
2812,1
F1
F2
F3
157,8
552,47
518,92
54,67
252,37
539,83
35,95
509,98
560,53
55,83
602,38
580
105,53
533,21
445,89
84,58
599,47
651,04
37,95
777,96
588,16
σ
Quadro 7 - Médias e Desvio padrão das freqüências de F1 e F2, em Hz, de cada vogal
analisada, para os grupos de indivíduos.
Fonte: Monteiro (1995).
6.2.1
A proporção de Fant
Gunnar Fant constatou que as larguras das formantes de diferentes vogais não
as distinguem entre si marcadamente, pois fatores complexos concorrem na percepção e na
identidade de uma vogal. Propõe-se a proporção entre a segunda e a primeira formante como
um dos principais índices de identidade de uma vogal. Tal proporção foi chamada de proporção de Fant (MONTEIRO, 1995).
88
O Quadro 8 mostra os resultados obtidos pela doutora Behlau (1984) usando-se
a proporção de Fant para os falantes analisados em São Paulo. Nota-se que a proporção tem
valores aproximadamente iguais para os diferentes grupos de indivíduos para cada vogal considerada, porém a diferença é grande entre as vogais (BEHLAU, 1984; MONTEIRO, 1995).
Grupos
/a/
/ε/
/e/
/i/
/u/
/ã/
/ẽ/
/ĩ/
/õ/
/ữ/
/⊃/ /o/
Homens 1,78 2,93 4,15 6,37 1,68 2,01 2,96 2,16 4,1 7,1 2,03 3,09
Mulheres 1,71 3,22 4,32 7,02 1,64 2,12 2,79 2,01 4,52 7,05 1,74 2,86
Crianças 1,58 2,89 4,05 6,83 1,5 1,89 2,67 1,76 4,11 6,6 1,8 2,48
Quadro 8 – Proporção entre as médias das formantes F2 e F1 para os grupos de
indivíduos.
Fonte: Behlau (1984).
Um outro estudo realizado pela doutora Monteiro (1995) mostra valores bem
semelhantes em relação aos valores encontrados pela doutora Behlau (1984). Tais valores
podem ser observados no Quadro 9.
/ε/
Grupos
/a/
/e/
/i/
/u/
/⊃/ /o/
Homens 1,9 3,22 4,25 6,15 1,83 2,32 3,34
Mulheres 1,74 2,97 4,79 6,29 1,71 2,01 3,64
Quadro 9 – Proporção entre as médias das formantes F2 e F1 para os grupos de
indivíduos.
Fonte: Monteiro (1995).
89
7
PARTE PRÁTICA
Neste capítulo é discutido com detalhes um método utilizado para o reconhecimento de fonemas. Para tal, é usado o programa Matlab em que a vogal é analisada em sua
forma espectral para assim, ser possível determinar suas formantes e sua freqüência fundamental.
7.1
ANÁLISE DAS VOGAIS
Este trabalho dispõe de dois modos para se obter o sinal a ser analisado:
A vogal pode ser gravada previamente em um arquivo de som (ex: amostra1.wav) ou o usuário tem a possibilidade de gravar a vogal desejada em tempo real através
de um microfone acoplado ao micro.
Para as gravações das vogais em um arquivo de som, foi utilizado um gravador
Sony MD modelo MZ-R 50 estéreo em um microfone Sony ECM-717 também estéreo. A
gravação em estéreo permite que a número de pontos e, por conseguinte, o número de amostras seja maior, logo, a qualidade é melhor. A gravação ocorreu no período da noite em que o
silêncio era maior. Cada vogal foi gravada duas vezes para mais tarde terem seus espectros
comparados. A primeira gravação é chamada de X 1 − S em que X é a vogal e S determina o
grupo em que pertence o falante ( M para masculino e F para feminino). A segunda gravação é chamada de X 2 − S . Foi realizada a gravação de dois indivíduos sendo um do sexo
masculino e outro do sexo feminino ambos com idade entre 18 e 45 anos e natural da cidade
de São Paulo (como feito em Behlau (1984)).
Após as gravações, os arquivos foram transferidos para um computador e gravados a uma taxa de bits de 64 Kbps, tamanho da amostra de áudio de 8 bits, taxa de amostra-
90
gem de 8 KHz e a gravação em estéreo do sinal foi incorporada a um único canal de áudio
(mono).
7.2
ANÁLISE DA FREQÜÊNCIA FUNDAMENTAL
Neste projeto, a análise da freqüência fundamental tem como propósito determinar se o falante é do sexo feminino, masculino ou uma criança. Para isso se tomam como
base os estudos citados no Capítulo 5.
O problema principal para a análise da freqüência fundamental é pegar uma
porção do sinal e achar a freqüência dominante da repetição. As dificuldades são muitas e as
principais são que: nem todos os sinais são periódicos e os que são, podem ter sua freqüência
fundamental deslocada no intervalo de tempo em que se está analisando. Os sinais podem
estar contaminados com ruído. Sinais periódicos com intervalo T , também são periódicos
com intervalo 2T , 3T , etc., então é preciso encontrar o menor intervalo periódico ou a maior
freqüência fundamental (RABINER; SCHAFER, 1978; JACKSON, 1997).
Uma forma de se obter a freqüência fundamental dominante e usando o cepstrum. Como analisado no Capítulo 5, o cepstrum é a análise de Fourier do espectro da amplitude logarítmica de um sinal. Se tal espectro possuir muitas harmônicas espaçadas regularmente, a análise de Fourier de tal espectro mostrará o pico correspondente ao espaçamento
entre as harmônicas; como por exemplo, a freqüência fundamental. Na verdade, o que se faz
é tratar o espectro do sinal como um outro sinal e então, procurar pela periodicidade no próprio espectro.
Exemplificando a teoria estudada à respeito do cepstrum, tem-se o seguinte
segmento de voz observado no Gráfico 17.
91
Gráfico 17 – Segmento de 60 ms da vogal [a].
Como discutido anteriormente no Capítulo 5, a fala é basicamente uma convolução entre um trem de pulsos vindo da glote com a resposta ao impulso do trato vocal. Logo,
observando seu espectro representado pelo Gráfico 18 como se fosse um sinal no domínio do
tempo, nota-se que este consiste de componentes periódicos com uma freqüência elevada devido ao trem de pulso e um componente de freqüência mais baixa correspondendo ao filtro
trato vocal.
Gráfico 18 – Espectro correspondente ao sinal do Gráfico 17.
Ao computar-se o inverso da TFD do logaritmo de sua densidade espectral, é
produzido a função cepstrum c[n] (JACKSON, 1997).
92
Tal resultado é visto no Gráfico 19.
Gráfico 19 – Cepstrum correspondente à densidade espectral do Gráfico 18.
Valores de n pequenos correspondem fundamentalmente ao filtro trato vocal
enquanto que, valores de c[n] a um período nT = 20 ms e suas harmônicas (múltiplos do
tempo) correspondem à entrada de trem de pulso.
Nota-se que c[n] é uma função par de n , pois log X [k ] é puramente real.
Também é observado que a energia em c[n] está concentrado em valores de menor tempo ou
seja, n pequeno, caindo rapidamente e tendo pulsos distintos num período de nT = ± 20 ms
(JACKSON, 1997).
Por fim, como os valores próximos de zero correspondem fundamentalmente à
magnitude do filtro trato vocal, é aplicado a janela de Hamming para um “suavizamento” espectral.
Porém, como discutido no Capítulo 5, existe um problema de fase quando a
análise é feita para o cepstrum complexo xˆ[n] devido a qualquer múltiplo de 2π poder ser
adicionada a qualquer ponto do arg[ X ' [Ω]] sem alterar o sinal original x[n] , entretanto alterando xˆ[n] devido a tais mudanças de fase.
93
O Gráfico 20 mostra a fase espectral de um segmento de fala cuja fase do
arg[ X [k ]] se encontra ocultada de − π a π .
Gráfico 20 – Fase espectral de um sinal de voz cuja fase está ocultada.
Removendo-se a componente de fase linear z r pela mudança de x[n] no domínio do tempo, percebe-se que ainda há descontinuidades na amplitude de 2π na fase em
várias freqüências, pois apenas o valor principal do ângulo de fase de − π a π foi computada
(JACKSON, 1997).
“Desocultando” a fase para remover tais descontinuidades, é obtido o Gráfico
21 e, fazendo o inverso da TFD de Xˆ [k ] = log X [k ] + j arg[ X [k ]] é produzido o cepstrum
complexo xˆ[n] mostrado no Gráfico 22.
Gráfico 21 - Fase espectral de um sinal de voz cuja fase está desocultada.
94
Gráfico 22 – Cepstrum complexo de um segmento de fala.
Para os falantes analisados neste trabalho, a freqüência fundamental foi obtida
através de uma rotina produzida com a ajuda do programa Matlab. Tal rotina tem a finalidade de executar o inverso da transformada de Fourier do logaritmo da densidade espectral do
sinal de voz a ser analisado, ou seja, o cepstrum. A rotina pode ser vista no Apêndice A.
Para o falante do sexo masculino, o sinal da vogal [a] analisado pode ser visto
no Gráfico 23.
Gráfico 23 – Cepstrum de um falante do sexo masculino.
95
Uma vez realizado a função cepstrum, é possível achar o índice do pico entre
1 ms e 20 ms , converter o valor achado de volta para freqüência em Hz e então, fazer a com-
paração com os dados achados pela doutora Behlau (1984).
A Figura 24 mostra o resultado computado na tela do Matlab.
Figura 24 – Resultado da freqüência fundamental de um falante masculino.
Como é possível observar, o falante masculino em questão teve sua freqüência
fundamental avaliada em F0 = 97.561 Hz . Comparando com os dados obtidos pela doutora
Behlau (1984) no Quadro 5 da página 78, comprova-se que o falante é de fato do sexo masculino.
O falante do sexo feminino é submetido ao mesmo procedimento e o sinal analisado é visto no Gráfico 24.
96
Gráfico 24 – Cepstrum de um falante do sexo feminino.
A Figura 25 mostra o resultado computado na tela do Matlab comprovando que
o falante é de fato do sexo feminino cuja freqüência fundamental é F0 = 222.222 Hz .
Figura 25 – Resultado da freqüência fundamental de um falante feminino.
97
7.3
ANÁLISE DAS FORMANTES DE CADA VOGAL
Esta parte da análise tem como objetivo determinar o tipo de vogal que cada
falante está pronunciando. Para tal, é utilizado uma rotina no Matlab que detecta os picos das
formantes F1 e F2 . Dependendo do intervalo de freqüência em que os valores de F1 e F2
estão contidos, é possível determinar que tipo de vogal o falante está pronunciando conforme
os dados obtidos pela doutora Monteiro (1995). Tal rotina se encontra no Apêndice B.
Para a vogal “ a1 − M ”, têm-se os seguintes resultados mostrados no Gráfico
25.
A formante F1 = 695,3 Hz e a formante F2 = 1219 Hz , tiveram seus resultados
dentro dos valores esperados para suas respectivas faixas de freqüência sendo que; para
F1 = (730,3 ± 59,48) Hz e para F2 = (1273 ± 91,12) Hz conforme os resultados obtidos e mos-
trados no Quadro 7 da página 87.
Gráfico 25 – Forma de onda e densidade espectral da vogal “ a1 − M ”.
98
Para a vogal “ a 2 − M ”, os resultados são mostrados no Gráfico 26. Nota-se
que a formante F1 teve sua freqüência aumentada mudando seu valor para F1 = 757,8 Hz e a
formante F2 teve seu valor diminuído para F2 = 1203 Hz , porém permanecendo dentro do
desvio padrão ( σ ) aceitável para a vogal “ a ”.
Gráfico 26 – Forma de onda e densidade espectral da vogal “ a 2 − M ”.
99
No Gráfico 27 são mostrados os resultados da vogal “ e1 − M ”. Para a vogal
“ e ”, F1 = (405,6 ± 38,79) Hz e F2 = (1944,2 ± 219,57) Hz . Tanto a formante F1 como a formante F2 mantiveram seus valores dentro de seus respectivos desvios padrões o qual caracteriza tal sinal como sendo a vogal “ e ”.
Gráfico 27 – Forma de onda e densidade espectral da vogal “ e1 − M ”.
100
O Gráfico 28 mostra os resultados da vogal “ e2 − M ”. Mais uma vez, as formantes F1 = 437,5 Hz e F2 = 1766 Hz se encontram dentro de suas respectivas faixas de freqüência.
Gráfico 28 – Forma de onda e densidade espectral da vogal “ e2 − M ”.
O Gráfico 29 mostra os resultados da vogal “ i1 − M ”. Para a vogal “ i ”,
F1 = (312 ± 35,78) Hz e F2 = (1964,4 ± 355,48) Hz .
101
Observa-se que F1 = 281,3 Hz e F2 = 1914 Hz fazendo com que F1 e F2 estejam dentro de suas respectivas faixas de freqüência.
Gráfico 29 – Forma de onda e densidade espectral da vogal “ i1 − M ”.
O Gráfico 30 mostra a vogal “ i2 − M ”. Desta vez, Embora F2 esteja dentro do
σ estabelecido para a vogal “ i ”, F1 ficou um pouco abaixo do σ estabelecido resultando
assim na não-detecção da vogal.
102
Gráfico 30 – Forma de onda e densidade espectral da vogal “ i2 − M ”.
O
Gráfico
31
mostra
a
vogal
“ o1 − M ”.
Para
a
vogal
“ o ”,
F1 = (458,3 ± 48,98) Hz e F2 = (923,8 ± 269,85) Hz . Tal vogal pôde ser detectada pois
F1 = 484,4 Hz e F2 = 890,6 Hz ficando assim, dentro do σ permitido para cada formante.
103
Gráfico 31 – Forma de onda e densidade espectral da vogal “ o1 − M ”.
O Gráfico 32 mostra o resultado da vogal “ o 2 − M ”. Observa-se que F1 e F2
mais uma vez permaneceram dentro de seus σ ’s possibilitando assim a detecção da respectiva vogal.
104
Gráfico 32 – Forma de onda e densidade espectral da vogal “ o 2 − M ”.
Para a vogal “ u ”, os σ ’s de F1 e F2 são respectivamente: (390 ± 80,18) Hz e
(1423,4 ± 722,39) Hz , logo, observando-se o Gráfico 33 cuja amostra representa a vogal
“ u1 − M ”, nota-se que tanto F1 quanto F2 estão dentro de seus devidos σ ’s esperados.
Percebe-se que o σ de F2 representa 50% do valor de F2 o que torna sua
margem de erro bastante elevada.
105
Gráfico 33 – Forma de onda e densidade espectral da vogal “ u1 − M ”.
O Gráfico 34 representa a vogal “ u 2 − M ”. Tanto a formante F1 quanto a formante F2 se encontram dentro dos σ ’s esperados possibilitando assim o reconhecimento da
vogal “ u ”.
106
Gráfico 34 – Forma de onda e densidade espectral da vogal “ u 2 − M ”.
Para o falante do sexo feminino, foi feito o mesmo tipo de análise obtendo os
seguintes resultados observados no Quadro 10. Nota-se que para as vogais “ a1 − F ”,
“ a 2 − F ”, “ e1 − F ”, “ o1 − F ”, “ o 2 − F ”, não houve problemas em suas detecções. Porém, as
vogais “ e2 − F ”, “ i1 − F ”, “ i2 − F ”, “ u1 − F ” e “ u 2 − F ” apresentaram problemas devido a
seus valores estarem fora do σ limitado para cada vogal.
107
Vogal Analisada
Resultados
(Detectado)
a1 − F
F1 = 953,125 Hz
e
F2 = 1406,3 Hz
(Detectado)
a2 − F
F1 = 781,25 Hz
e
F2 = 1359,4 Hz
(Detectado)
e1 − F
F1 = 476,5625 Hz
e
F2 = 2421,9 Hz
(Não Detectado)
e2 − F
F1 = 460,9375 Hz
e
F2 = 2508 Hz
(Não Detectado)
i1 − F
F1 = 304.6875 Hz
e
F2 = 2625 Hz
(Não Detectado)
i2 − F
F1 = 304.6875 Hz
e
F2 = 2695 Hz
(Detectado)
o1 − F
F1 = 468,75 Hz
e
F2 = 929,6875 Hz
(Detectado)
o2 − F
F1 = 468,75 Hz
e
F2 = 914,0625 Hz
(Não Detectado)
u1 − F
F1 = 359,375 Hz
e
F2 = 1664,1 Hz
(Não Detectado)
u2 − F
F1 = 453,125 Hz
e
F2 = 648,4375 Hz
Quadro 10 – Resultados das formantes F1 e F2 obtidos de um falante do sexo
feminino.
108
8
CONCLUSÃO
Este estudo visa a detecção das vogais baseado nos campos espectrais. Para isso, foi desenvolvida uma base teórica, tendo como finalidade o entendimento e aprendizado
de alguns conceitos importantes sobre a voz e como ela é gerada.
Observa-se que a maioria das vogais foram detectadas corretamente com exceção da vogal [ i2 ] no caso de um falante masculino e das vogais [ e2 ], [ i1 ], [ i2 ], [ u1 ] e [ u 2 ] no
caso de um falante feminino. Com base nos estudos teóricos, pode-se supor que umas das
inúmeras possibilidades é que a voz, sendo um sinal de variação aleatória, tem características
particulares que dependem muito do estado emocional da pessoa, da tonalidade, da posição
dos lábios, maxilares e outros componentes que ajudam em sua formação.
A vogal [ i ] apresentou o maior índice de erro em ambos os grupos, pois a forma em que ela é pronunciada no ponto de vista da articulação, difere um pouco da forma citada no Capítulo 4 em que a parte anterior língua eleva-se gradualmente em direção ao palato
duro próximo dos dentes. Na prática, o que ocorre quando a vogal [ i ] é pronunciada sozinha,
é uma pressão da língua em direção ao céu-da-boca resultando na diminuição da cavidade
bucal por onde o ar passa. Tal diferença afetou a formante F1 resultando em um valor abaixo
do σ mínimo aceitável para a detecção da vogal.
A vogal [ o ] e a vogal [ u ] também apresentaram uma maior probabilidade de
não serem detectadas tanto na análise do falante feminino como na análise em tempo real. Tal
fato já era esperado, pois como observado no Gráfico 15 da página 86, as formantes F2 e F3
não apresentam um incremento significativo para as vogais posteriores tendo seus valores
praticamente iguais.
109
Outro fato importante é a probabilidade de detectar uma vogal cuja amostra é
gravada em um arquivo ou pronunciada em tempo real. A primeira tem uma probabilidade
maior de ser reconhecida pois o arquivo, além de ser gravado em um local silencioso, pode
ser tratado e o formato em estéreo é convertido em mono sem perder a qualidade pois os dois
canais são simplesmente agregados em um único canal. Já na gravação em tempo real, não há
nenhum filtro poderoso atuando sendo assim, susceptível a ruídos, além de ser gravado em
mono diretamente o que afeta sua qualidade, pois apenas um canal está atuando.
Deve-se levar em conta que atualmente existem processos e técnicas tão poderosos em reconhecimento de sinais que o reconhecimento de um sinal de voz a princípio pode
parecer simples. Entretanto, é importante saber que tais técnicas usam sofisticados processos
de redes neurais além de vários filtros capazes de amplificar um sinal fraco ou eliminar componentes indesejáveis como o ruído.
O programa Matlab foi de vital importância para este estudo, pois seria muito
difícil ou até mesmo impossível a utilização conjunta da FFT, da janela de Hamming, de métodos autoregressivos como o método de Yule-Walker e outros recursos encontrados em um
único software para a análise de um sinal de voz. Outro ponto que favoreceu o trabalho é a
flexibilidade que o software possui na construção de gráficos, dando a oportunidade de uma
análise visual facilitando assim, a compreensão dos resultados.
O trabalho utilizou o método de Yule-Walker como instrumento para a suavização do sinal espectral. Porém existem outros métodos com igual finalidade como o método
de Burg, o método da Covariância e o mais usado em análise de um sinal de voz; o método da
predição linear (Linear Prediction coding ou LPC). Como estudo futuro, é aconselhável a
análise de cada um desses métodos para uma comparação em relação à eficiência em detecção
de um sinal de voz.
110
É importante ressaltar que outros programas foram feitos, porém sem resultados satisfatórios que levassem a detecção de uma vogal. Um fator importante na detecção das
vogais foi a aquisição dos dados em [BEHLAU, 1984] e [MONTEIRO, 1995] sobre as formantes F1 , F2 e a freqüência fundamental dos falantes de São Paulo.
111
REFERÊNCIAS
Adobe Audition. Disponível em: <http://www.adobe.com/support/products/audition.html>
Acesso em: 03.set.2004.
BEHLAU, Mara S. Uma análise das vogais do portugués brasileiro falado em São Paulo:
Perceptual, espectrográfica de formantes e computadorizada da freqüência fundamental.
1984. 123f. Dissertação (Mestrado em Fonoaudiologia)-Escola Paulista de Medicina, São
Paulo, São Paulo, 1984.
BEHLAU, Mara S.; PONTES, Paulo; ZIEMER, R. As Bases da Fonação. São Paulo, 1986.
BEHLAU, Mara S.; et al. Análise Espectrográfica de Formantes das vogais do português brasileiro. Revista ACTA AWHO, Volume VII, n. 2, p. 74-85, 1988.
BEHLAU, Mara S.; PONTES, Paulo. Avaliação e Tratamento das Disfonias. São Paulo: Editora Lovise, 1995.
BEHLAU, Mara S. A Voz do Especialista Volume I. Rio de Janeiro: Editora Revinter. 2001.
348 p.
BOONE, Daniel R.; PLANTE, Elena. Comunicação Humana e seus Distúrbios. 2. ed. Porto
Alegre: Artes Médicas Sul. 1994. 402 p.
CALLOU, Dinah.; LEITE, Yonne F. Iniciação à Fonética e à Fonologia. 1. ed. Rio de Janeiro, São Paulo: Jorge Zahar Editor. 1990.
CEGALLA, Domingos P. Novíssima Gramática da Língua Portuguesa. 16. ed. São Paulo;
Companhia Editora Nacional. 1977.
COMMITEE ON LANGUAGE. Meeting the needs of adults and children with disorders of
language: The role of the speech pathologist and audiologist. ASHA, n. 17, p. 273-278, 1975.
EGASHIRA, Francisco; VIOLARO, Fábio. Síntese de Voz a Partir de Texto. Campinas, Faculdade de Engenharia Elétrica da Universidade Estadual de Campinas, 1993.(Publicação
FEE 01/93).
112
FANT, Gunnar. Acoustic Theory of Speech Production. Haia: Mouton's Gravenhague. 1960.
FLANAGAN, James L. Speech Analysis Synthesis and Perception. 2. ed. New Jersey: Springer-Verlag. 1972.
GIROD, Bernd; RABENSTEIN, Rudolf; STENGER, Alexander. Sinais e Sistemas. Rio de
Janeiro: Livros Técnicos e Científicos. 2003. 340 p.
HANSELMAN, Duane; LITTLEFIELD, Bruce. Mastering Matlab 7. 1. ed. New Jersey: Prentice Hall. 2004. 864 p.
HAYKIN, Simon; VEEN, Barry Van. Sinais e Sistemas. São Paulo: Bookman. 2001. 668 p.
JACKSON, Leland B. Digital Filtres and Signal Processing. 3. ed. Massachussets: Kluwer
Academic Phublishers. 1997. 502 p.
KAY, Steven M. Fundamentals of Statistical Signal Processing: Estimation Theory Volume
1. New Jersey: Prentice Hall. 1993. 595 p.
KLATT,D.H.; KLATT,L.C. Analysis, Synthesis, and Perception of Voice Quality Variations
Among Female and Male Talkers. Journal of Acoustical Society of America, v. 87, n. 2, p.
820-56, Fev. 1990.
LATHI, B. P. Modern Digital and Analog Communication Systems. 3. ed. New York: Oxford
University. 1998. 781 p.
MARPLE, S. L. Digital Spectral Analysis. New Jersey: Prentice-Hall Inc. 1986.
MESQUITA, Roberto M. Gramática da Língua Portuguesa. 8. ed. São Paulo: Editora Saraiva. 2002. 608 p.
MONTEIRO, Márcia C. Uma análise espectrográfica das formantes das vogais orais do português brasileiro falado em São Paulo. 1995. 74f. Monografia (Especialização)-Escola Paulista de Medicina, São Paulo, São Paulo, 1995.
PEEBLES, Peyton Z. Probability, Random Variables, and Random Signal Principles. 2. ed.
New York: MacGraw-Hill. 1987. 349 p.
113
PICKETT, J. M. Acoustics of Speech Communication: Fundamentals, Speech Perception
Theory, and Technology. 2. ed. New Jersey: Prentice Hall. 1999. 404 p.
PORAT, Boaz. A Course in Digital Processing. New York: John Wiley & Sons. 1997. 602 p.
PROAKIS, John G.; INGLE, Vinay K. Digital Signal Processing Using Matlab Version 4. 2.
ed. New Jersey: IE-Thompson. 1999. 418 p.
RABINER, L.R.; SCHAFER, R. W. Digital Processing of Speech Signals. 7. ed. New Jersey:
Prentice Hall. 1978. 512 p.
RODRÍGUEZ, Luis López. Disponível em:
<http://campus.um.edu.mx/~oid/foneticas%20trabajos/webfoneticacinco/>.
Acesso em: 03.jan.2005.
RUSSO, Iêda C. P.; BEHLAU, Mara S. Percepção da fala: Análise Acústica do Português
Brasileiro. São Paulo: Editora Lovise Científica. 1993. 57 p.
RUSSO, Iêda C. P.; SANTOS, Teresa M. M. A Prática da Audiologia Clínica. 4. ed. São
Paulo: Cortez. 1993. 253 p.
RUSSO, Ieda C. P. Acústica e Psicoacústica Aplicadas à Fonoaudiologia. 2. ed. São Paulo:
Editora Lovise. 1999. 263 p.
SILVA, Luiz C. M. A Fala. Disponível em:
<http://geocities.com.br/saladadefisica5/leituras/fala.htm>. Acesso em: 08.jul.2004.
SIMÕES, Flávio Olmos. Implementação de um Sistema de Conversão Texto-Fala para o Português do Brasil. 1999. 204f. Dissertação (Mestrado em Engenharia Elétrica)-Universidade
Estadual de Campinas, Campinas, São Paulo, 1999.
STOICA, Petre; MOSES, Randolph L. Introduction to Spectral Analysis. New Jersey: Prentice Hall. 1997.
114
APÊNDICE A – ROTINA PARA A DETECÇÃO DAS FREQÜÊNCIAS FUNDAMENTAIS
clear;
clc;
% Gravar a voz
Fs=8000;
disp('Aperte "ENTER" para começar a gravar');
pause
disp('Gravando...');
y=wavrecord(3*Fs,Fs,1);
disp(' ');
%Mostrar a Frequencia Fundamental
ms1=Fs/1000; % Limitando a maxima faixa da F0 1000Hz
ms20=Fs/50; % Limitando a minima faixa da F0 50Hz
% Usando a Transformada de Fourier Rápida no sinal
Y=fft(y.*hamming(length(y)));
% Usar o Cepstrum que é a Transformada de Fourier Discreta do
log do spectrum
C=fft(log(abs(Y)+eps));
% Plotar entre 1ms (=1000Hz) e 20ms (=50Hz)
q=(ms1:ms20)/Fs;
figure(2);
plot(q,abs(C(ms1:ms20)));
legend('Cepstrum');
xlabel('Quefrency (s)');
ylabel('Amplitude');
[c,f0]=max(abs(C(ms1:ms20)));
fprintf('F0=%gHz\n',Fs/(ms1+f0-1));
disp(' ');
% Determinação da voz
if (80 < Fs/(ms1+f0-1)) & (Fs/(ms1+f0-1) < 150),
disp('Essa é uma voz Masculina');
elseif (150 < Fs/(ms1+f0-1)) & (Fs/(ms1+f0-1) < 250),
disp('Essa é uma voz Feminina');
elseif (250 < Fs/(ms1+f0-1)),
disp('Essa é uma voz Infantil');
end
115
APÊNDICE B – ROTINA PARA A DETECÇÃO DAS FREQÜÊNCIAS FORMANTES
clear;
clc;
% Carrega o arquivo de audio
[y,Fs]=wavread(input('Digite o nome do arquivo de som (ex:
som1.wav): ','s'));
disp(' ');
% Coloca os vetores da vogal em P e F (para análise espectral
normal)
[P,F]=spectrum(y,[],[],[],Fs);
% Coloca os vetores da vogal em Pxx e w (para análise espectral usando o método de Yule Walker)
[Pxx,w] = pyulear(y,14,1024,Fs);
% Plotar forma de onda
t=(0:length(y)-1)/Fs; % Tamanho do sinal
subplot(2,1,1);
plot(t,y);
xlabel('Tempo (s)');
ylabel('Amplitude');
title('Forma de Onda');
% Loop para converter os valores em decibéis (para análise espectral normal)
A=P';
T=A(1,:);
for (loopA=1:length(T)),
powerA=20*(log10(T));
end
dbT=powerA';
% Plotar gráfico da densidade espectral
subplot(2,1,2);
plot(F,dbT(:,1));
grid;
xlabel('Freq');
ylabel('Amplitude');
title('Densidade Espectral');
hold on;
% Loop para converter os valores em decibéis (para análise espectral usando o método de Yule Walker)
X=Pxx';
esp=X(1,:);
for (loop=1:length(esp)),
power=10*(log10(esp));
end
db=power';
% Plotar gráfico da densidade espectral usando o método Yule
Walker
subplot(2,1,2);
116
plot(w,db(:,1), 'r');
grid;
xlabel('Freq');
ylabel('Amplitude');
legend('Espectro','Yule-Walker');
hold off;
% Tocar sinal
wavplay(y,Fs);
%
%
% Análise de F1
%
%
% Acha o menor vetor da faixa de F1
formante1min=round(round(round(length(w)*276)/(4000)));
% Acha o maior vetor da faixa de F1
formante1max=round(round(round(length(w)*790)/(4000)));
% Delimita a faixa de F1
faixa1=esp(formante1min:formante1max);
% Loop para achar o formante F1
for(passo1=1:length(faixa1)),
% Acha o max valor de esp e coloca em ind
indice_form1=find(faixa1==max(faixa1));
% Relaciona o max valor de esp com a freq nesse ponto
maxfreq1(passo1+1,1)=w(formante1min+indice_form1-1);
% esp desse loop vai a zero
faixa1(indice_form1)=0;
end
%
%
% Dependendo de onde se encontra F1, F2 estará...
%
%
if (670.82 < maxfreq1(2)) & (maxfreq1(2) < 789.78),
% Acha o menor vetor da faixa de F2
formante2min_a=round(round(round(length(w)*1181.88)/(4000)));
% Acha o maior vetor da faixa de F2
formante2max_a=round(round(round(length(w)*1364.12)/(4000)));
% Delimita a faixa de F2
faixa2_a=esp(formante2min_a:formante2max_a);
% Loop para achar o formante F2
for (passo2_a=1:length(faixa2_a)),
% Acha o max valor de esp2 e coloca em ind_a
indice_form2_a=find(faixa2_a==max(faixa2_a));
% Relaciona o max valor de esp com a frequencia nesse ponto
maxfreq2_a(passo2_a+1,1)=w(formante2min_a+indice_form2_a-1);
% esp desse loop vai a zero
faixa2_a(indice_form2_a)=0;
end
% Verifica a proporcao de Fant (F2/F1)
117
if (1.5 < (maxfreq2_a(2))/(maxfreq1(2))) & ((maxfreq2_a(2))/(maxfreq1(2)) < 1.8)
% Se sim aparece qual vogal é
disp ('esta é uma vogal "a"');
maxfreq1(2)
maxfreq2_a(2)
end
elseif (276.22 < maxfreq1(2)) & (maxfreq1(2) < 347.78),
% Acha o menor vetor da faixa de F2
formante2min_i=round(round(round(length(w)*1608.92)/(4000)));
% Acha o maior vetor da faixa de F2
formante2max_i=round(round(round(length(w)*2319.88)/(4000)));
% Delimita a faixa de F2
faixa2_i=esp(formante2min_i:formante2max_i);
% Loop para achar o formante F2
for (passo2_i=1:length(faixa2_i)),
% Acha o max valor de esp2 e coloca em ind_a
indice_form2_i=find(faixa2_i==max(faixa2_i));
% Relaciona o max valor de esp com a frequencia nesse ponto
maxfreq2_i(passo2_i+1,1)=w(formante2min_i+indice_form2_i-1);
% esp desse loop vai a zero
faixa2_i(indice_form2_i)=0;
end
% Verifica a proporcao de Fant (F2/F1)
if (6 < (maxfreq2_i(2))/(maxfreq1(2))) & ((maxfreq2_i(2))/(maxfreq1(2)) < 7)
% Se sim aparece qual vogal é
disp ('esta é uma vogal "i"');
maxfreq1(2)
maxfreq2_i(2)
elseif (309.82 < maxfreq1(2)) & (maxfreq1(2) < 470.18),
% Acha o menor vetor da faixa de F2
formante2min_u=round(round(round(length(w)*701.01)/(4000)));
% Acha o maior vetor da faixa de F2
formante2max_u=round(round(round(length(w)*2145.79)/(4000)));
% Delimita a faixa de F2
faixa2_u=esp(formante2min_u:formante2max_u);
% Loop para achar o formante F2
for (passo2_u=1:length(faixa2_u)),
% Acha o max valor de esp2 e coloca em ind_a
indice_form2_u=find(faixa2_u==max(faixa2_u));
% Relaciona o max valor de esp com a frequencia nesse ponto
maxfreq2_u(passo2_u+1,1)=w(formante2min_u+indice_form2_u-1);
% esp desse loop vai a zero
faixa2_u(indice_form2_u)=0;
end
% Verifica a proporcao de Fant (F2/F1)
if (2.1 < (maxfreq2_u(2))/(maxfreq1(2))) & ((maxfreq2_u(2))/(maxfreq1(2)) < 3.7)
% Se sim aparece qual vogal é
118
disp ('esta é uma vogal "u"');
maxfreq1(2)
maxfreq2_u(2)
end
end
elseif (309.82 < maxfreq1(2)) & (maxfreq1(2) < 470.18),
% Acha o menor vetor da faixa de F2
formante2min_u=round(round(round(length(w)*701.01)/(4000)));
% Acha o maior vetor da faixa de F2
formante2max_u=round(round(round(length(w)*2145.79)/(4000)));
% Delimita a faixa de F2
faixa2_u=esp(formante2min_u:formante2max_u);
% Loop para achar o formante F2
for (passo2_u=1:length(faixa2_u)),
% Acha o max valor de esp2 e coloca em ind_a
indice_form2_u=find(faixa2_u==max(faixa2_u));
% Relaciona o max valor de esp com a frequencia nesse ponto
maxfreq2_u(passo2_u+1,1)=w(formante2min_u+indice_form2_u-1);
% esp desse loop vai a zero
faixa2_u(indice_form2_u)=0;
end
% Verifica a proporcao de Fant (F2/F1)
if (2.1 < (maxfreq2_u(2))/(maxfreq1(2))) & ((maxfreq2_u(2))/(maxfreq1(2)) < 3.7)
% Se sim aparece qual vogal é
disp ('esta é uma vogal "u"');
maxfreq1(2)
maxfreq2_u(2)
elseif (366.81 < maxfreq1(2)) & (maxfreq1(2) < 444.39),
% Acha o menor vetor da faixa de F2
formante2min_e=round(round(round(length(w)*1724.63)/(4000)));
% Acha o maior vetor da faixa de F2
formante2max_e=round(round(round(length(w)*2163.77)/(4000)));
% Delimita a faixa de F2
faixa2_e=esp(formante2min_e:formante2max_e);
% Loop para achar o formante F2
for (passo2_e=1:length(faixa2_e)),
% Acha o max valor de esp2 e coloca em ind_a
indice_form2_e=find(faixa2_e==max(faixa2_e));
% Relaciona o max valor de esp com a frequencia nesse ponto
maxfreq2_e(passo2_e+1,1)=w(formante2min_e+indice_form2_e-1);
% esp desse loop vai a zero
faixa2_e(indice_form2_e)=0;
end
% Verifica a proporcao de Fant (F2/F1)
if (4 < (maxfreq2_e(2))/(maxfreq1(2))) & ((maxfreq2_e(2))/(maxfreq1(2)) < 5)
% Se sim aparece qual vogal é
disp ('esta é uma vogal "e"');
maxfreq1(2)
119
maxfreq2_e(2)
elseif (409.32 < maxfreq1(2)) & (maxfreq1(2) < 507.28),
% Acha o menor vetor da faixa de F2
formante2min_o=round(round(round(length(w)*653.95)/(4000)));
% Acha o maior vetor da faixa de F2
formante2max_o=round(round(round(length(w)*1193.65)/(4000)));
% Delimita a faixa de F2
faixa2_o=esp(formante2min_o:formante2max_o);
% Loop para achar o formante F2
for (passo2_o=1:length(faixa2_o)),
% Acha o max valor de esp2 e coloca em ind_a
indice_form2_o=find(faixa2_o==max(faixa2_o));
% Relaciona o max valor de esp com a frequencia nesse ponto
maxfreq2_o(passo2_o+1,1)=w(formante2min_o+indice_form2_o-1);
% esp desse loop vai a zero
faixa2_o(indice_form2_o)=0;
end
% Verifica a proporcao de Fant (F2/F1)
if (1.5 < (maxfreq2_o(2))/(maxfreq1(2))) & ((maxfreq2_o(2))/(maxfreq1(2)) < 2.5)
% Se sim aparece qual vogal é
disp ('esta é uma vogal "o"');
maxfreq1(2)
maxfreq2_o(2)
end
end
elseif (409.32 < maxfreq1(2)) & (maxfreq1(2) < 507.28),
% Acha o menor vetor da faixa de F2
formante2min_o=round(round(round(length(w)*653.95)/(4000)));
% Acha o maior vetor da faixa de F2
formante2max_o=round(round(round(length(w)*1193.65)/(4000)));
% Delimita a faixa de F2
faixa2_o=esp(formante2min_o:formante2max_o);
% Loop para achar o formante F2
for (passo2_o=1:length(faixa2_o)),
% Acha o max valor de esp2 e coloca em ind_a
indice_form2_o=find(faixa2_o==max(faixa2_o));
% Relaciona o max valor de esp com a frequencia nesse ponto
maxfreq2_o(passo2_o+1,1)=w(formante2min_o+indice_form2_o-1);
% esp desse loop vai a zero
faixa2_o(indice_form2_o)=0;
end
% Verifica a proporcao de Fant (F2/F1)
if (1.5 < (maxfreq2_o(2))/(maxfreq1(2))) & ((maxfreq2_o(2))/(maxfreq1(2)) < 2.5)
% Se sim aparece qual vogal é
disp ('esta é uma vogal "o"');
maxfreq1(2)
maxfreq2_o(2)
end
120
end
elseif (409.32 < maxfreq1(2)) & (maxfreq1(2) < 507.28),
% Acha o menor vetor da faixa de F2
formante2min_o=round(round(round(length(w)*653.95)/(4000)));
% Acha o maior vetor da faixa de F2
formante2max_o=round(round(round(length(w)*1193.65)/(4000)));
% Delimita a faixa de F2
faixa2_o=esp(formante2min_o:formante2max_o);
% Loop para achar o formante F2
for (passo2_o=1:length(faixa2_o)),
% Acha o max valor de esp2 e coloca em ind_a
indice_form2_o=find(faixa2_o==max(faixa2_o));
% Relaciona o max valor de esp com a frequencia nesse ponto
maxfreq2_o(passo2_o+1,1)=w(formante2min_o+indice_form2_o-1);
% esp desse loop vai a zero
faixa2_o(indice_form2_o)=0;
end
% Verifica a proporcao de Fant (F2/F1)
if (1.5 < (maxfreq2_o(2))/(maxfreq1(2))) & ((maxfreq2_o(2))/(maxfreq1(2)) < 2.5)
% Se sim aparece qual vogal é
disp ('esta é uma vogal "o"');
maxfreq1(2)
maxfreq2_o(2)
end
end
Download

universidade presbiteriana mackenzie escola de engenharia