VOCALE
Um Algoritmo de Identificação de
Intervalos Vocálicos no Sinal
Acústico de Fala
Problema
Temos:
Queremos:
(0.179
(0.301
(0.390
(0.440
(0.498
…
0.301)
0.390)
0.440)
0.498)
0.540)
v
c
v
c
v
Cons.
Exemplo de segmentação
Marca
Conjectura das classes rítmicas



Diversos linguistas conjecturaram que as línguas naturais
estavam agrupadas num número finito e pequeno de classes
rítmicas ( Lloyd James 1940 , Pike 1945, Abercrombie 1967,
etc).
Durante meio século não se conseguiu encontrar evidências
acústicas que justificassem essa conjectura.
Essas evidências aparecem nos artigos pioneiros de Ramus,
Nespor e Mehler (1999), eles utilizam estatísticas simples de
amostras de sinais acústicos produzidos por falantes das
diversas línguas consideradas.
Ramus, Nespor & Mehler (1999)
Para um conjunto de oito línguas e 20 frases por
língua, eles segmentam as frases em intervalos
vocálicos e consonantais e definem:


%V = proporção de tempo passado em vogais e
Delta C = desvio padrão dos intervalos
consonantais
Ramus, Nespor & Mehler (1999)
Segmentação manual
É feita baseada na seguinte informação:



Gráfico do sinal acústico
Gráfico do espectrograma
Ouvindo a frase
Dificuldades:



Leva muito tempo
Imprecisões
Muito difícil de ser reproduzida
Sinal acústico e espectrograma
Espectro de Fourier
Problema: o sinal acústico de fala é não estacionário
Espectrograma
Regiões regulares
Identificando zonas regulares
Observação:
 Em intervalos vocálicos, tipicamente, pt
e pt+1 são “parecidos”.
 Em intervalos consonantais,
tipicamente, isto não acontece.
Exceções: semi-vogais, nasais...
Classificadores(1)

Entropia relativa:

ht   p ( f ) log

t 1
f 1

F

p ( f ) 
p ( f ) 
t 1
t
Distância Euclidiana:
dt 
 p
F
f 1
t 1
(f )
p ( f )
2
t
Classificadores(2)

Energia total:
F
et   zt ( f )
f 1

Energia na banda [Fa , Fb]:
et
Fa , Fb 

Fb
z ( f )
f  Fa
t
Entropia Relativa (japonês)
Entropia Relativa (Frances)
Energia Total
Energia 1000-5000Hz
Exemplos de Regras de
Classificação do P.B.







Entropia relativa baixa
Energia total alta
Alta energia na banda [1000,5000] hz
alta probabilidade
de vogal
Entropia relativa baixa
alta probabilidade
Baixa energia na banda [1000,5000] hz de consoante (nasal)
Entropia relativa alta
Alta energia na banda [1000,5000] hz
alta probabilidade
de consoante
Segmentação:
automática vs manual
Resultados
Taxa de erro:
 Portugueis Brasileiro: 18%
 Ingles Britanico: 24%
Consideramos que um erro e produzido quando:
 a fronteira não é detectada, ou
 a fronteira é colocada a uma distância maior
do que 10ms da marcação manual
O algoritmo esta disponivel na rede no endereço:
www.ime.usp.br/~tycho/tipal/prosody/vocale/
Problemas:



Em alguns casos as regras dependem da
língua.
As bandas de freqüências a serem utilizadas
dependem do sexo do locutor.
Há critérios linguísticos que não podem ser
expressos com regras simples deste tipo.
Exemplos: r retroflexo, semi-vogais, etc.
Exemplo: Português e Inglês
Função de sonoridade
Com o objetivo de evitar as ambigüidades na
definição de vogal, definimos a função de
sonoridade como:
S(t) é uma função com valores perto de 1 nas
regiões regulares e perto de 0 nas regiões
irregulares.
Uma versão automática de RNM
1 T
S   s(t )
T t 1
1 T
S   s(t ) s(t  1)
T t 1
Resultados com a função de sonoridade
Sonoridade e variação total para cada
fonema
Um modelo para a sonoridade
Gráfico de p(0)=P(X(t)=0)
Download

VOCALE: Um Algoritmo de Identificação de Intervalos Vocálicos no