Fundamentos de Áudio Sistemas Telemáticos Ano Lectivo 2002/2003 LESI Grupo de Comunicações por Computador Sumário • • • • • Sistema de Audição Humana Física do Som Gravação e Reprodução Analógica Sim Digital Compressão Áudio – Métodos de compressão simples – MPEG Materias utilizados • Dr. Ze-Nian Li’s course material at: http://www.cs.sfu.ca/CourseCentral/365/li/ • MPEG Audio: http://www.mpeg.org/MPEG/audio.html Audição Humana • Mecanismo deveras complexo! • Através dos ouvidos é realizada a captação das mais diversas formas de som • Os nossos ouvidos transformam o som em sinais que são processados pelo nosso cérebro • Vamos fazer uma descrição ligeira do nosso sistema de audição A física do Som • Audição Humana • O nosso sistema auditivo converte energia sonora em energia mecânica para um impulso nevorso que é transmitido para o cerébro. • O ouvido tem três partes: externa, média e interna. A física do Som • Audição humana O ouvido externo • O ouvido externo compreende o pavilhão auricular e o meato acústico externo. O pavilhão capta os sons, tendo papel importante na localização espacial da fonte sonora, extremamente importante para ouvirmos em ambientes ruidosos. O meato acústico externo conduz os sons até a membrana timpânica. A física do som • Audição humana Ouvido interno • Serve para transformar a energia sonora em vibrações internas do estrutura óssea da orelha média • As vibrações são transformadas em ondas de compressão A física do som Audição Humana • O ouvido médio compreende a membrana timpânica, a cadeia de ossículos (martelo ,bigorna e estribo) e os espaços aéreos do osso temporal, particularmente o antro mastóide e as células mastóideas adjacentes. • O ouvido médio desempenha o papel de um transformador, que evita a perda de energia das ondas sonoras ao passar de um meio gasoso (ar) a um meio líquido (a perilinfa da orelha interna). A física do som • Audição Humana O ouvido interno • Serve para transformar a energia da onda de compressão num fluído interno do ouvido em implusos do nervo no fluído interno que podem ser transmitido ao cérebro Efeito de dissimulação • Quando um som forte numa determinada frequência estimula os pelos da cóclea – As frequências próximas não são ouvidas caso sejam menos significativas (de menor amplitude) – Apesar do nosso ouvido captar uma certa amplitude de frequências, parte delas não são processados por causa do processo de masking Termos e Conceitos básicos No âmbito do nosso sistema de audição • Sensibilidade às frequências – Mais sensíveis de 1-3 KHz • Directividade – De onde nos chega determinado som? • 0.2-3kHz • Dissimulação (masking) temporal – Também acontece no domínio dos tempos A física do som • Ondas sonoras – Uma onda mecânica é uma perturbação que viaja através dum meio transportando energia dum local para outro. A física do som • Ondas sonoras – Uma onda produz áreas de alta e baixa pressão – Quando a onda de alta pressão atinge o timpano ele move-se para dentro – Quando a onda de baixa pressão atinge o timpano ele move-se para fora. A física do som • Ondas sonoras – A amplitude é o máximo deslocamento positivo. – Quanto maior a amplitude mais alto é som – É medido em decibéis (db) A física do som • Ondas sonoras – O comprimento de onda (wavelength) é a distância entre dois pontos adjacentes na onda A física do som • Ondas sonoras – A frequência da onda é o número de comprimentos de onda por ciclo (normalmente um segundo) – É medida em Hertz (ondas por segundo) – Quanto maior a frequência maior é o tom 1 wave 0 secs 2 waves time 2 Hz 1 sec t Representação do som • Domínio do tempo – Representação da variação da amplitude do sinal ao longo do tempo • Domínio da frequência – Representação da amplitude das diferentes frequências do sinal num determinado instante A física do som A forma como os humanos se apercebem do som como forte ou fraco depende não só da frequência mas também da amplitude (intensidade). Voz Humana Limiar da dor Maioria dos humanos (Limiar) Limiar da audição (1% dos humanos) Frequência Fundamental A física do som • A gama normal de audição humana é entre 20Hz e 20000Hz. • Aqui estão várias frequências (0 dB) – – – – – 60 Hz 440 Hz 4000 Hz 13000Hz 20000Hz (-6dB: half power) (+6dB: double power) A física do som • A percepção do som inclui três aspectos: – Intensidade (amplitude); – Tom (frequência); e, – Timbre • Porquê que o violino e o piano a tocar a mesma nota são tão diferentes? A física do som • Timbre – Definido vagamente como tom, cor, textura do som que permite ao cérebro distinguir um tom de outro – Afectado pelas propriedades acústicas do instrumento e da sala Timbre • Formas de onda complexa são construídas combinando um certo número de formas de onda mais simples de diferentes amplitudes e frequências • É por esta razão que conseguimos perceber tons altos e baixos simultaneamente. Timbre • O som característico duma forma de onda (produzido por um piano ou um violino) é chamado o seu timbre. • O timbre, também designado como a cor dum tom, é considerado rico ou cheio se o som incluir muitas frequências. • Um som duma onda sinusoidal é considerado monótono por incluir apenas uma frequência Timbre • As diferentes frequências dum som, combinadas com as suas amplitudes variáveis, constituem o conteúdo espectral da forma de onda. • O conteúdo espectral (um termo mais científico para timbre) varia normalmente com o tempo. Timbre A variação das características espectrais com o tempo para uma forma de onda é a assinatura dum tom que permite a sua descrição com uma string. Gravação e Reprodução Analógica • Um microfone converte as mudanças de pressão no ar em mudanças na tensão eléctrica. • Produz-se um sinal analógico. • Se se comparar as mudanças de pressão do ar e as mudanças de tensão eléctrica são bastante similares . Gravação e Reprodução Analógica • Para gravar um som com um microfone, podemos enviá-lo para uma fita magnética que pode guardar uma réplica do sinal analógico. Gravação e Reprodução Analógica • Para reproduzir a sua gravação necessita de algo que crie as diferenças de pressão no ar de forma ao nosso ouvido poder interpretá-lo como um som, isto é um altifalante áudio. • Os altifalantes funcionam movendo um cone de uma posição para outra de forma consistente.. Gravação e Reprodução Analógica • Para mover o cone para frente e para trás o altifalante tem que ser alimentado por uma corrente eléctrica • Durante a reprodução, o gravador ou o giradiscos geram a corrente que alimenta um amplificador • Quando ligada ao altifalante a corrente permite reproduzir as mudanças de pressão sentidas pelo microfone durante a gravação. Gravação e Reprodução Analógica • Até recentemente o som era gravado em como um sinal analógico numa cassete de fita magnética ou num disco de vinil. • Um problema com este tipo de gravação é a dificuldade de gravar o sinal analógico sem adicionar ruído. Gravação e Reprodução Analógica • Quando se copia gravações analógicas tem que se converter a gravação magnética num sinal eléctrico e tornar a gravar o que adiciona ainda mais ruído. • A edição de som em fita é linear. Digitalização do Som • Quando se trabalha com audio digital há duas questões que precisam de resposta: – Que qualidade é necessária? – Que débito de dados pode ser tolerado? • Há 3 categoriais de áudio digital : – Alta fidelidade – Comunicação telefónica – Voz compactada Digitalização do Som • Áudio Digital é baseado em dois aspectos: – Amostragem (tempo) – Quantificação (nível) Amostragem – O som natural é analógico – O som digital é digital – Para conversão de analógico para digital é necessária a amostragem Amostragem – Uma gravação analógica (ie fita magnética) é baseada no registo da voltagem como padrões de magnetização nas partículas óxidas da fita. – Uma gravação digital converte as voltagens em números binários Amostragem – Uma onda analógica pode ser amostrada com um número de bits pré-determinado – Isto é chamado a resolução em bits do sistema – Quanto mais bits maior a clareza. • 8 bits correspondem a 256 níveis • 16 bits correspondem a 65,536 níveis, etc.. • Ganham-se 6db por cada bit • 8 bits 256 níveis = 48 dB, 16 bits 65,536 níveis = 96 dB. Para determinar a gama dinâmica de um sistema, multiplique a taxa de bits por 6. Frequência de amostragem – A o ritmo de obtenção de amostras dum onda analógica é designada por frequência de amostragem – É o número de amostras obtidas por segundo. – A frequência de amostragem determina a largura de banda do sistema. Frequência de amostragem – Quanto maior for a frequência de amostragem maior é a possibilidade de capturar as altas frequências. Frequência de amostragem – Uma onda deve ser amostrada duas vezes para se obter uma verdadeira representação (Teoria de Nyquist) – A frequência de amostragem deve ser pelos menos o dobro da mais alta frequência do sinal – Como a gama de audição humana varia de 20 Hz a 20 kHz, uma frequência de amostragem de 44.1 Khz satisfaz teoricamente as necessidades de audio. Frequência de amostragem versus armazenamento • Quando aumenta a frequência de amostragem melhora a qualidade da amostra . • Com o aumento da qualidade aumenta a quantidade de espaço de armazenamento necessário. – Uma velocidade de amostragem de 44.1 kHz com gravação de 16 bit usa aproximadamente 5Mb por minuto. (10Mb para stereo). NOTA: norma CD. • A 22.05 kHz é metade. Exemplos de amostragem Música de 35 Segundos – – – – – 44.1kHz 22.05kHz 16kHz 8kHz 6Hz Onda sonora gerada para estes 35 segundos. Áudio de alta fidelidade • O Áudio Digital apareceu com o CD (Compact Laser Disc) • A superfície dum CD virgem reflecte (espelhada) • A informação digital é armazenada como buracos na superfície. • Os dados são armazenados com uma única pista em espiral desde o interior para fora. Leitura a 1.2 m/s. • Dados armazenados a 1 Mbit/mm2 Áudio de alta fidelidade • Sistemas Audio com mais de um canal chamamse estereofónicos. . • 4 canais de som em video chama-se Dolby Stereo. • A versão cinema em casa é Dolby Surround Pro Logic. • Os sinais dos canais de ambiente são atrasados 15-20 millisegundos para dar a impressão ao ouvinte que vêm do ecrâ e não dos altifalantes. Métodos Simples de Compressão • Compressão de silêncios • Adaptative Diferential Pulse Code Modulation (ADPCM) – CTTITT G.721 --- 16 or 32 Kbits/sec. • Linear Predictive Coding (LPC) • Code Excited Linear Predictor (CELP) Modelo Psico-Acústico • Audição e Voz Humana • Sensibilidade da Audição humana – Limiar da Audição – Dissimulação na Frequência – Dissimulação no Tempo Limiar da Frequência 40 30 bB 20 10 0 2 4 6 10 8 Frequency (KHz) 12 14 16 Experiência : Uma pessoa num quarto em silêncio. Aumente a intensidade dum tom de 1 Khz até ele se tornar audível. Varia a frequência e vá registando Dissimulação na Frequência Experiência: Coloque um tom a 1 kHz (tom para dissimulação) com uma amplitude fixa (60 dB). Coloque o tom de teste numa frequência (1.1 kHz) e aumente a sua intensidade até se poder distinguir. Varia a frequência do tom de teste e coloque o valor de limiar de audição. Frequency Masking (Contd.) • Repeat previous experiment for various frequencies of masking tones Temporal Masking • Se ouvirmos um som e o pararmos demora tempo até podermos ouvir um tom próximo na frequência. • Enuncie a experiência a realizar Efeito total da dissimulação: MPEG Audio • As duas técnicas avançadas de codificação áudio são baseadas em – Codificação de sub-banda (SBC) – Codificação de Transformada Adaptativa • A codificação MPEG de Audio – Tem três camadas independentes de compressão áudio • • • • Cada um tem o seu codificador SBC Correspondência entre Tempo e Frequência Modelo Psico-Acústico Quatificador MPEG Audio • Camada 1 – usa codificação de sub-banda • Camada 2 – usa codificação de sub-banda com quadros maiores e maior nível de compressão • Camada 3 – Usa tanto codificação de sub-banda como de transformada MPEG • MPEG-1 Audio – Está concebido para tomar um sinal áudio de entrada em PCM e dependendo da camada • Amostrá-lo a 32, 44.1 ou 48 kHz • Codificá-lo de 32 a 192 Kbps por canal áudio • MPEG-1 – débito 1.5 Mbit/seg para áudio e vídeo – 1.2 para vídeo e 0.3 para áudio • Audio CD não compactado tem 44,100 amostras por segundo*16 bits/amostra * 2 canais > 1.4 Mbits/seg – Factor de Compressão 2,7 a 24 MPEG • Com compressão 6:1 – Amostragem a 48 KHz de 16 bits stereo reduzidas a 256 Kbits/seg • Sob condições ótptimas de audição, ouvintes experimentados não conseguem distinguir o clip original e codificado • Suporta um ou dois canais de áudio num dos seguintes modos 1. Monofónico – um simples canal de áudio 2. Monofónico dual – 2 canais independentes por ex. Português e Inglês 3. Stereo – para 2 canais stereo que partilham bits mas não usam uma codificação stereo conjunta 4. Junção stereo- tira partido da correlação entre os dois canais Algoritmo de Codificação MPEG Input Filter into Critical Bands (Sub-band filtering Allocate bits (Quantization) Compute Masking (Psychoacoustic Model) Format BitStream Output Exemplo de Masking e Quantificação Banda 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Nível 0 8 12 10 6 2 10 60 35 20 15 2 3 5 3 1 MPEG Coding Specifics 12 12 12 samples samples samples Sub-band filter 0 Audio Samples Sub-band filter 1 Sub-band filter 2 . . . . . . . . . 12 12 12 samples samples samples Sub-band filter 31 Layer I Frame Layer II, III Frame Especificidades da codificação MPEG • Camada 1 do MPEG – O filtro aplicado é um quadro (12x32 = 384 amostras) de cada vez. A 48 kHz, cada quadro contém 8ms de som. – Usa a FFT com 512 pontos para obter uma informação espectral detalhada do sinal (filtro de sub-banda). Usa uma faixa de frequência igual em cada banda. – Modelo psico-acústico usa apenas o masking na frequência. – Aplicações típicas • Gravação digital em tapes, discos que podem suportar um débito alto. – Melhor qualidade conseguida com débito de 384kbps. Especificidades da codificação MPEG • Camada 2 do MPEG – Usa 3 quadros no filtro (anterior, actual e seguinte com um total de 1152 amostras). A 48 kHz, cada quadro transporta 24 ms de som. – Modela um pouco o masking temporal. – Usa a FTT com 1024-pontos para uma melhor resolução na frequência. Usa uma faixa de frequência idêntica em cada banda. – Maior qualidade conseguida com um débito de 256 k bps. – Aplicações típicas • Difusão áudio, TV, Gravação profissional e Multimedia Especificidades da codificação MPEG • MPEG Layer III – Usa melhores filtros nas bandas críticas – Não usa sub-bandas iguais Uses non-equal frequency bands – O modelo psico-acústico • Inclui efeitos de dissimulação temporal • Tira partido da redundância steero • Codificador de Huffman Especificidades da codificação MPEG MPEG Camada 3 Codificação da Redundância Stereo – Codificação da intensidade stereo --- nos canais de frequência superior codificar a soma dos sinais da direita e esquerda em vez de os considerar de forma independente. – Codificação Stereo Middle/Side – codificar a soma e a subtração dos sinais da esquerda e da direita