Fundamentos de Áudio
Sistemas Telemáticos
Ano Lectivo 2002/2003
LESI
Grupo de Comunicações por Computador
Sumário
•
•
•
•
•
Sistema de Audição Humana
Física do Som
Gravação e Reprodução Analógica
Sim Digital
Compressão Áudio
– Métodos de compressão simples
– MPEG
Materias utilizados
• Dr. Ze-Nian Li’s course material at:
http://www.cs.sfu.ca/CourseCentral/365/li/
• MPEG Audio:
http://www.mpeg.org/MPEG/audio.html
Audição Humana
• Mecanismo deveras complexo!
• Através dos ouvidos é realizada a captação
das mais diversas formas de som
• Os nossos ouvidos transformam o som em
sinais que são processados pelo nosso
cérebro
• Vamos fazer uma descrição ligeira do
nosso sistema de audição
A física do Som
• Audição Humana
• O nosso sistema
auditivo converte
energia sonora em
energia mecânica para
um impulso nevorso que
é transmitido para o
cerébro.
• O ouvido tem três
partes: externa, média e
interna.
A física do Som
• Audição humana
O ouvido externo
•
O ouvido externo compreende o
pavilhão auricular e o meato acústico
externo. O pavilhão capta os sons,
tendo papel importante na localização
espacial da fonte sonora,
extremamente importante para
ouvirmos em ambientes ruidosos. O
meato acústico externo conduz os
sons até a membrana timpânica.
A física do som
• Audição humana
Ouvido interno
• Serve para transformar a
energia sonora em
vibrações internas do
estrutura óssea da orelha
média
• As vibrações são
transformadas em ondas
de compressão
A física do som
Audição Humana
• O ouvido médio compreende a
membrana timpânica, a cadeia de
ossículos (martelo ,bigorna e estribo) e
os espaços aéreos do osso temporal,
particularmente o antro mastóide e as
células mastóideas adjacentes.
• O ouvido médio desempenha o papel
de um transformador, que evita a
perda de energia das ondas sonoras ao
passar de um meio gasoso (ar) a um
meio líquido (a perilinfa da orelha
interna).
A física do som
• Audição Humana
O ouvido interno
• Serve para transformar a
energia da onda de
compressão num fluído
interno do ouvido em
implusos do nervo no
fluído interno que
podem ser transmitido
ao cérebro
Efeito de dissimulação
• Quando um som forte numa determinada
frequência estimula os pelos da cóclea
– As frequências próximas não são ouvidas caso
sejam menos significativas (de menor
amplitude)
– Apesar do nosso ouvido captar uma certa
amplitude de frequências, parte delas não são
processados por causa do processo de masking
Termos e Conceitos básicos
No âmbito do nosso sistema de audição
• Sensibilidade às frequências
– Mais sensíveis de 1-3 KHz
• Directividade
– De onde nos chega determinado som?
• 0.2-3kHz
• Dissimulação (masking) temporal
– Também acontece no domínio dos tempos
A física do som
• Ondas sonoras
– Uma onda mecânica é uma perturbação que
viaja através dum meio transportando energia
dum local para outro.
A física do som
• Ondas sonoras
– Uma onda produz áreas de alta e baixa pressão
– Quando a onda de alta pressão atinge o timpano ele
move-se para dentro
– Quando a onda de baixa pressão atinge o timpano ele
move-se para fora.
A física do som
• Ondas sonoras
– A amplitude é o máximo deslocamento
positivo.
– Quanto maior a amplitude mais alto é som
– É medido em decibéis (db)
A física do som
• Ondas sonoras
– O comprimento de onda (wavelength) é a
distância entre dois pontos adjacentes na onda
A física do som
• Ondas sonoras
– A frequência da onda é o número de comprimentos
de onda por ciclo (normalmente um segundo)
– É medida em Hertz (ondas por segundo)
– Quanto maior a frequência maior é o tom
1 wave
0 secs
2 waves
time
2 Hz
1 sec
t
Representação do som
• Domínio do tempo
– Representação da variação da amplitude do
sinal ao longo do tempo
• Domínio da frequência
– Representação da amplitude das diferentes
frequências do sinal num determinado
instante
A física do som
A forma como os humanos se apercebem do som
como forte ou fraco depende não só da frequência
mas também da amplitude (intensidade).
Voz Humana
Limiar da dor
Maioria dos humanos
(Limiar)
Limiar da audição
(1% dos humanos)
Frequência Fundamental
A física do som
• A gama normal de audição humana é entre 20Hz
e 20000Hz.
• Aqui estão várias frequências (0 dB)
–
–
–
–
–
60 Hz
440 Hz
4000 Hz
13000Hz
20000Hz
(-6dB: half power) (+6dB: double power)
A física do som
• A percepção do som inclui três aspectos:
– Intensidade (amplitude);
– Tom (frequência); e,
– Timbre
• Porquê que o violino e o piano a tocar a mesma
nota são tão diferentes?
A física do som
• Timbre
– Definido vagamente como tom, cor, textura do
som que permite ao cérebro distinguir um tom
de outro
– Afectado pelas propriedades acústicas do
instrumento e da sala
Timbre
• Formas de onda complexa são construídas
combinando um certo número de formas de
onda mais simples de diferentes amplitudes
e frequências
• É por esta razão que conseguimos perceber
tons altos e baixos simultaneamente.
Timbre
• O som característico duma forma de onda
(produzido por um piano ou um violino) é
chamado o seu timbre.
• O timbre, também designado como a cor dum
tom, é considerado rico ou cheio se o som incluir
muitas frequências.
• Um som duma onda sinusoidal é considerado
monótono por incluir apenas uma frequência
Timbre
• As diferentes frequências dum som,
combinadas com as suas amplitudes
variáveis, constituem o conteúdo espectral
da forma de onda.
• O conteúdo espectral (um termo mais
científico para timbre) varia normalmente
com o tempo.
Timbre
A variação das características espectrais com
o tempo para uma forma de onda é a
assinatura dum tom que permite a sua
descrição com uma string.
Gravação e Reprodução Analógica
• Um microfone converte as mudanças de
pressão no ar em mudanças na tensão
eléctrica.
• Produz-se um sinal analógico.
• Se se comparar as mudanças de pressão do
ar e as mudanças de tensão eléctrica são
bastante similares .
Gravação e Reprodução Analógica
• Para gravar um som com um
microfone, podemos enviá-lo para
uma fita magnética que pode
guardar uma réplica do sinal
analógico.
Gravação e Reprodução Analógica
• Para reproduzir a sua gravação necessita de
algo que crie as diferenças de pressão no ar de
forma ao nosso ouvido poder interpretá-lo
como um som, isto é um altifalante áudio.
• Os altifalantes funcionam movendo um cone
de uma posição para outra de forma
consistente..
Gravação e Reprodução Analógica
• Para mover o cone para frente e para trás o
altifalante tem que ser alimentado por uma
corrente eléctrica
• Durante a reprodução, o gravador ou o giradiscos geram a corrente que alimenta um
amplificador
• Quando ligada ao altifalante a corrente permite
reproduzir as mudanças de pressão sentidas pelo
microfone durante a gravação.
Gravação e Reprodução Analógica
• Até recentemente o som era gravado em
como um sinal analógico numa cassete de
fita magnética ou num disco de vinil.
• Um problema com este tipo de gravação é
a dificuldade de gravar o sinal analógico
sem adicionar ruído.
Gravação e Reprodução Analógica
• Quando se copia gravações analógicas tem
que se converter a gravação magnética
num sinal eléctrico e tornar a gravar o que
adiciona ainda mais ruído.
• A edição de som em fita é linear.
Digitalização do Som
• Quando se trabalha com audio digital há
duas questões que precisam de resposta:
– Que qualidade é necessária?
– Que débito de dados pode ser tolerado?
• Há 3 categoriais de áudio digital :
– Alta fidelidade
– Comunicação telefónica
– Voz compactada
Digitalização do Som
• Áudio Digital é baseado em dois aspectos:
– Amostragem (tempo)
– Quantificação (nível)
Amostragem
– O som natural é analógico
– O som digital é digital
– Para conversão de analógico para digital é
necessária a amostragem
Amostragem
– Uma gravação analógica (ie fita magnética) é baseada
no registo da voltagem como padrões de magnetização
nas partículas óxidas da fita.
– Uma gravação digital converte as voltagens em
números binários
Amostragem
– Uma onda analógica pode ser amostrada com
um número de bits pré-determinado
– Isto é chamado a resolução em bits do sistema
– Quanto mais bits maior a clareza.
• 8 bits correspondem a 256 níveis
• 16 bits correspondem a 65,536
níveis, etc..
• Ganham-se 6db por cada bit
• 8 bits 256 níveis = 48 dB, 16 bits 65,536
níveis = 96 dB. Para determinar a gama
dinâmica de um sistema, multiplique a
taxa de bits por 6.
Frequência de amostragem
– A o ritmo de obtenção de amostras dum onda
analógica é designada por frequência de
amostragem
– É o número de amostras obtidas por segundo.
– A frequência de amostragem determina a
largura de banda do sistema.
Frequência de amostragem
– Quanto maior for a frequência de amostragem
maior é a possibilidade de capturar as altas
frequências.
Frequência de amostragem
– Uma onda deve ser amostrada duas vezes para se obter
uma verdadeira representação (Teoria de Nyquist)
– A frequência de amostragem deve ser pelos menos o
dobro da mais alta frequência do sinal
– Como a gama de audição humana varia de 20 Hz a 20
kHz, uma frequência de amostragem de 44.1 Khz
satisfaz teoricamente as necessidades de audio.
Frequência de amostragem
versus armazenamento
• Quando aumenta a frequência de
amostragem melhora a qualidade da
amostra .
• Com o aumento da qualidade aumenta a
quantidade de espaço de armazenamento
necessário.
– Uma velocidade de amostragem de 44.1 kHz com
gravação de 16 bit usa aproximadamente 5Mb por
minuto. (10Mb para stereo). NOTA: norma CD.
• A 22.05 kHz é metade.
Exemplos de amostragem
Música de 35 Segundos
–
–
–
–
–
44.1kHz
22.05kHz
16kHz
8kHz
6Hz
Onda sonora gerada para estes 35 segundos.
Áudio de alta fidelidade
• O Áudio Digital apareceu com o CD (Compact
Laser Disc)
• A superfície dum CD virgem reflecte (espelhada)
• A informação digital é armazenada como buracos
na superfície.
• Os dados são armazenados com uma única pista
em espiral desde o interior para fora. Leitura a
1.2 m/s.
• Dados armazenados a 1 Mbit/mm2
Áudio de alta fidelidade
• Sistemas Audio com mais de um canal chamamse estereofónicos. .
• 4 canais de som em video chama-se Dolby
Stereo.
• A versão cinema em casa é Dolby Surround Pro
Logic.
• Os sinais dos canais de ambiente são atrasados
15-20 millisegundos para dar a impressão ao
ouvinte que vêm do ecrâ e não dos altifalantes.
Métodos Simples de
Compressão
• Compressão de silêncios
• Adaptative Diferential Pulse Code
Modulation (ADPCM)
– CTTITT G.721 --- 16 or 32 Kbits/sec.
• Linear Predictive Coding (LPC)
• Code Excited Linear Predictor (CELP)
Modelo Psico-Acústico
• Audição e Voz Humana
• Sensibilidade da Audição humana
– Limiar da Audição
– Dissimulação na Frequência
– Dissimulação no Tempo
Limiar da Frequência
40
30
bB
20
10
0
2
4
6
10
8
Frequency (KHz)
12
14
16
Experiência :
Uma pessoa num quarto em silêncio. Aumente a intensidade
dum tom de 1 Khz até ele se tornar audível. Varia a
frequência e vá registando
Dissimulação na Frequência
Experiência:
Coloque um tom a 1 kHz (tom para dissimulação) com uma
amplitude fixa (60 dB). Coloque o tom de teste numa
frequência (1.1 kHz) e aumente a sua intensidade até se
poder distinguir. Varia a frequência do tom de teste e
coloque o valor de limiar de audição.
Frequency Masking (Contd.)
• Repeat previous experiment for various frequencies of
masking tones
Temporal Masking
• Se ouvirmos um som e o pararmos demora tempo
até podermos ouvir um tom próximo na frequência.
• Enuncie a experiência a realizar
Efeito total da dissimulação:
MPEG Audio
• As duas técnicas avançadas de codificação áudio
são baseadas em
– Codificação de sub-banda (SBC)
– Codificação de Transformada Adaptativa
• A codificação MPEG de Audio
– Tem três camadas independentes de compressão áudio
•
•
•
•
Cada um tem o seu codificador SBC
Correspondência entre Tempo e Frequência
Modelo Psico-Acústico
Quatificador
MPEG Audio
• Camada 1
– usa codificação de sub-banda
• Camada 2
– usa codificação de sub-banda com quadros
maiores e maior nível de compressão
• Camada 3
– Usa tanto codificação de sub-banda como de
transformada
MPEG
• MPEG-1 Audio
– Está concebido para tomar um sinal áudio de entrada
em PCM e dependendo da camada
• Amostrá-lo a 32, 44.1 ou 48 kHz
• Codificá-lo de 32 a 192 Kbps por canal áudio
• MPEG-1
– débito 1.5 Mbit/seg para áudio e vídeo
– 1.2 para vídeo e 0.3 para áudio
• Audio CD não compactado tem 44,100 amostras por
segundo*16 bits/amostra * 2 canais > 1.4 Mbits/seg
– Factor de Compressão 2,7 a 24
MPEG
• Com compressão 6:1
– Amostragem a 48 KHz de 16 bits stereo reduzidas a 256 Kbits/seg
• Sob condições ótptimas de audição, ouvintes experimentados não
conseguem distinguir o clip original e codificado
• Suporta um ou dois canais de áudio num dos seguintes
modos
1. Monofónico – um simples canal de áudio
2. Monofónico dual – 2 canais independentes por ex. Português e
Inglês
3. Stereo – para 2 canais stereo que partilham bits mas não usam uma
codificação stereo conjunta
4. Junção stereo- tira partido da correlação entre os dois canais
Algoritmo de Codificação MPEG
Input
Filter into
Critical Bands
(Sub-band filtering
Allocate bits
(Quantization)
Compute
Masking
(Psychoacoustic
Model)
Format
BitStream
Output
Exemplo de Masking e Quantificação
Banda
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Nível
0
8
12
10
6
2
10
60
35
20
15
2
3
5
3
1
MPEG Coding Specifics
12
12
12
samples samples samples
Sub-band filter 0
Audio
Samples
Sub-band filter 1
Sub-band filter 2
.
.
.
.
.
.
.
.
.
12
12
12
samples samples samples
Sub-band filter 31
Layer I
Frame
Layer II, III
Frame
Especificidades da codificação MPEG
• Camada 1 do MPEG
– O filtro aplicado é um quadro (12x32 = 384 amostras) de cada vez.
A 48 kHz, cada quadro contém 8ms de som.
– Usa a FFT com 512 pontos para obter uma informação espectral
detalhada do sinal (filtro de sub-banda). Usa uma faixa de
frequência igual em cada banda.
– Modelo psico-acústico usa apenas o masking na frequência.
– Aplicações típicas
• Gravação digital em tapes, discos que podem suportar um débito alto.
– Melhor qualidade conseguida com débito de 384kbps.
Especificidades da codificação MPEG
• Camada 2 do MPEG
– Usa 3 quadros no filtro (anterior, actual e seguinte com um total
de 1152 amostras). A 48 kHz, cada quadro transporta 24 ms de
som.
– Modela um pouco o masking temporal.
– Usa a FTT com 1024-pontos para uma melhor resolução na
frequência. Usa uma faixa de frequência idêntica em cada banda.
– Maior qualidade conseguida com um débito de 256 k bps.
– Aplicações típicas
• Difusão áudio, TV, Gravação profissional e Multimedia
Especificidades da codificação MPEG
• MPEG Layer III
– Usa melhores filtros nas bandas críticas
– Não usa sub-bandas iguais Uses non-equal frequency bands
– O modelo psico-acústico
• Inclui efeitos de dissimulação temporal
• Tira partido da redundância steero
• Codificador de Huffman
Especificidades da codificação MPEG
MPEG Camada 3
Codificação da Redundância Stereo
– Codificação da intensidade stereo --- nos canais de frequência
superior codificar a soma dos sinais da direita e esquerda em vez
de os considerar de forma independente.
– Codificação Stereo Middle/Side – codificar a soma e a subtração
dos sinais da esquerda e da direita