MÍDIAS DIGITAIS VÍDEO Onde tudo começou... • Transmissão de vídeo (TV) foi iniciada com os seguintes padrões: • EIA/NTSC (National Television System Commitee) – USA, Japão, etc: 525 linhas/frame e 30 fps • CCIR/PAL (Phase Alternating Line) - Padrão Europeu/ África / Brasil: 625 linhas/frame e 25/30 fps • SECAM (SEquential Couleur Avec Mémoire) França: 625 linhas/frame e 25 fps • Codificação: características do sistema visual humano e a estatística do sinal Distribuições dos padrões Ver: http://countrycode.org/tv-standards Visão e Imagens em Movimento (1) • O principal fator condicionante para o desenvolvimento da técnica de imagens em movimento foi o olho humano • O processo de recepção de imagens pelo olho é muito complexo, mas pode ser modelado por um parâmetro denominado persistência da visão • Persistência da visão : propriedade do sistema de recepção visual que consiste em reter por um certo tempo a impressão de uma imagem que já passou (algo como um tempo de resposta) Visão e Imagens em Movimento (2) • Com isto o olho humano age como um circuito integrador e permite que uma sucessão de imagens paradas possa ser compreendida pelo cérebro como uma imagem contínua. • Para se produzir as imagens em movimento é necessário fazer a justaposição de uma seqüência de imagens separadas por um intervalo de tempo determinado • Este intervalo é função das propriedades de persistência da visão. Visão e Imagens em Movimento (3) • Produção de um filme: a filmadora tradicional é uma câmara fotográfica que tira fotos sucessivas de uma cena em uma determinada freqüência de amostragem, armazenando estas fotografias em uma película de filme • Na reprodução cinematográfica, a freqüência de amostragem utilizada deve ser de 24 fotogramas por segundo Sinal de Vídeo Caracterizado por 2 aspectos principais: 1. Representação Visual: • Razão de aspecto ou Fator de forma • Ângulo de visão • Freqüência de quadros 2. Forma de Transmissão Medidas para Representação Visual (1) • Razão de Aspecto (aspect ratio) ou fator de forma: – Relação entre comprimento e altura de uma imagem – No padrão NTSC é 4:3 720 colunas x 525 linhas – No padrão PAL também é 4:3 830 (800) x 625 (600) • A razão de aspecto para HDTV é 16:9 em oposição aos 4:3 do NTSC, PAL e SECAM (isso corresponde a um aumento de 33% na dimensão horizontal) Medidas para Representação Visual (2) • Ângulo de visão: razão entre a distância do espectador e a altura da tela – Usando a razão de aspecto, pode-se definir o campo de visão horizontal do espectador = (4/3 x altura) – Resolução vertical: no. de pixels / altura • A resolução requerida para gerar uma imagem plana é relacionada ao tamanho da tela e a distância do espectador. – Uma tela com NTSC quando vista a uma distância > 6x a altura parece plana (reduzindo a distância, percebem-se limitações da codificação) Medidas para Representação Visual (3) • Freqüência de quadros (fps – frames per seconds) <10 fps: Apresentação sucessiva de imagens 10 – 16: Impressão de movimento, mas sensação de descontinuidade > 16: Efeito do movimento começa ... 24: Cinema 30/25: Padrão de TV americana/européia 60: Padrão HDTV • Fatores que influenciam a taxa de quadros: – Continuidade de movimento – Banda disponível: mais quadros, mais informação, mais banda... – Freqüência de refrescamento da tela: evitar cintilação e fadiga visual Receptores de TV e vídeo Varredura da Tela • Um vídeo analógico é um sinal de tensão contínuo (como o áudio) que deve varrer a tela • TVs (CRTs) utilizam um feixe de elétrons para varre o tubo de imagem de cima a baixo em intervalos regulares, iluminando os fósforos que criam a imagem – Esse processo gera linhas de varredura visíveis a certa distância, reduzindo a qualidade nas imagens. • O feixe de elétrons é controlado por dois conjuntos ortogonais de campos magnéticos – Horizontal: O feixe é movido da esquerda para a direita e então rapidamente para o início – Vertical: O feixe é movido de cima para baixo e, então, rapidamente para o início Cintilação ou Efeito Flicker • Flicker: variação periódica da percepção do brilho da imagem • Para se evitar a cintilação é necessária uma taxa > 50 varreduras por segundo – Ex: para se evitar o flicker em um filme com 16 fps, cada quadro é apresentado 3 vezes (a luz do projetor é cortada duas vezes durante a exibição do quadro) definindo uma taxa de refrescamento de 16 x 3 = 48 Hz • Sinais de TV: cada quadro é dividido em 2 partes (linhas pares e ímpares) entrelaçadas – NTSC: 30 x 2 = 60 Hz – PAL: 25 x 2 = 50 Hz Entrelaçamento • Progressivo (não-entrelaçado): cada linha é refrescada de baixo para cima em seqüência • Entrelaçado: as linhas da imagem são varridas na tela de forma alternada – Dois campos são criados: par e ímpar • NTSC: 262.5 linhas por campo a 60 campos por segundo. • PAL: 312.5 linhas por campo a 50 campos por segundo. – Os campos são separados no tempo, o que resulta no “entrelaçamento” • Resolução vertical efetiva é menor que a indicada: – Não-entrelaçado: 70% da resolução máxima – Entrelaçado: 50% a 70%, respectivamente para imagens menos ou mais estáticas Entrelaçamento – NSTC Receptores Atuais e Entrelaçamento • O uso de memória em receptores atuais acabaria com a necessidade de entrelaçamento: – Linhas recebidas podem ser repetidas o número de vezes que se quiser de maneira a evitar a cintilação da imagem – Taxas de refrescamento da imagem: 100Hz • Entrelaçamento: torna-se uma opção entre o uso de menos banda (maior de canais) e maior qualidade de imagem TVs de Plasma/LCD/LED • Maior qualidade de imagem: – Maior resolução (sinal RGB), no. de cores, tela plana e fator de forma 16:9 • Não apresentam linhas de varredura: – Pixels acessos simultaneamente para desenhar uma imagem, evitando os efeitos das linhas de varredura – Possuem também dobradores de linhas (memória) para melhorar a qualidade das imagens provenientes de fontes analógicas como TVs e Vídeo-cassete • Brilho uniforme (independente do ângulo de visão) – Mais pessoas assistindo à imagem com qualidade em diversos pontos do ambiente. Referências Adicionais sobre TV • Explicações detalhadas sobre o funcionamento das TVs podem ser encontradas em www.howstuffworks.com: – http://www.howstuffworks.com/plasma-display.htm • Traduções (algumas não tão bem feitas) de partes do site estão em: – http://eletronicos.hsw.uol.com.br/televisao.htm – http://informatica.hsw.uol.com.br/lcd.htm Espaço de Cores em Vídeo • A cor na TV é gerada pelas intensidades relativas do RGB em cada parte da cena – Entretanto, para a transmissão do sinal, uma divisão diferente dos sinais é utilizada… • Codificação com sinais de Luminância (um) e de Crominância (dois) : – TV eram originalmente em Preto & Branco (P&B) – A adição de cores teve de ser feita de maneira compatível com a situação anterior… • Sinal em NTSC: Espaço YIQ • Sinal em PAL: Espaço YUV (YCrCb) Codificação de Cores • Sinal RGB – Sinais separados para o R, para o G e para o B – A combinação linear das componentes R, G e B gera todas as cores do espaço de cores para as imagens • Sinal YUV (padrão PAL) – Base : o olho humano é mais sensível a variações no brilho que nas cores – Ao invés de separar cada componente RGB, o sinal é formado por uma componente que define o brilho (luminância Y) e duas que definem a cor (dois canais com a informação de crominância U e V) Sinal YUV • Recepção em Preto & Branco: apenas a luminância é utilizada • O sinal é definido da seguinte forma : Y = 0.3 R + 0.59 G + 0.11 B U = (B – Y) x 0.493 V = (R – Y) x 0.877 • Em geral, a componente luminância é codificada com freqüência de amostragem maior que as de crominância. – Por exemplo, na codificação 4:2:2 Sinal YIQ • YIQ adotado no padrão NTSC é similar ao YUV • O sinal YIQ é definido da seguinte forma : Y = 0.3 R 0.59 G 0.11 B I = 0.6 R – 0.28 G – 0.32 B Q = 0.21 R – 0.52 G 0.31 B • Como no caso do YUV, a componente luminância também é codificada com faixa de freqüências maior que as de crominância (maior precisão) YUV x RGB • Transformação linear simples de um espaço 3D para outro • Apenas os coeficientes específicos para a transformação linear variam de um sistema para o outro • Que problemas podem acontecer? – Algumas cores RGB são inválidas... – Diversas cores YUV/YIQ são inválidas... Vídeo Digital • Vídeo digital: representado como uma sucessão de imagens digitais numa taxa de quadros suficiente para criar a sensação de movimento – Lembrem-se da persistência da visão... Codificação de Vídeo Digital • Codificação: objetivo é representar um objeto multimídia com o menor número possível de bits, preservando a qualidade e a inteligibilidade necessárias à sua aplicação • Assim, em geral: codificação equivale a uma compressão dos objetos, facilitando sua transmissão e armazenamento Codificação Digital de Vídeo (1) • Codificação do Sinal Composto – A forma mais simples de digitalizar um sinal de vídeo é amostrar o sinal de vídeo analógico composto: os componentes do sinal são convertidos conjuntamente em uma representação digital. • Exemplo: Sinal NTSC com 6MHz – 12M amostras/seg x 8 bits/amostra = 96Mbps – Note que, como a informação de luminância é mais importante que crominância, essa informação deveria alocar mais largura de banda. – Porém, a freqüência de amostragem na codificação composta não pode ser adaptada aos requisitos de largura de banda dos componentes individuais. Codificação Digital de Vídeo (2) • Codificação do Sinal de Componente – O princípio da codificação de componente consiste em digitalizar separadamente as diferentes componentes de imagens ou planos – Por ex, codificação dos sinais da luminância e da diferença de cor (crominância). – Poderia ser usada, por exemplo, uma freqüência de amostragem de 6MHz para a luminância e 3MHz para as componentes de crominância: • 6M amostras/s x 8 bits/amostra + 2 x 3M amostras/s x 8 bits/amostra = 96Mbps Resultado: Resoluçãocor ¼ Resoluçãoluminância Recomendação CCIR-601 • Padrões para digitalização de sinais NTSC e PAL Componente Digital Componente Analógica CCIR-601 Recommendation Altura Linhas NTSC: 480 PAL: 576 Comprimento Mudanças de tensão ao longo da varredura Amostragem 13.5 MHz Resultado em 702 pixels (NTSC) Recomendado 720 Profundidade de pixel Valores de tensão Faixa de valores 8-bits Sub-amostragem da crominância Diferença de bandas 4:2:2, 4:2:0, 4:1:1 4:2:2 – O que significa isso? • Refere-se a taxa de amostragem dos sinais – O 1o. número refere-se a taxa de amostragem da componente de luminância (Y) – O 2o. e o 3o. números referem-se às taxas para as componentes de crominância (IQ ou UV) • 4:2:2 refere-se a uma taxa de amostragem para a luminância de ~ 13.5 MHz para NTSC e a metade dessa taxa (6.25MHz) para a diferença-de-cor • 4:1:1 ? Luminância amostrada a 13.5 MHz e crominância a 3.375 MHz Por que manter a crominância com precisão de 8 bits? • Qual outra forma de reduzir a banda de crominância à metade? – Usar 4-bits por pixel • Por que isso não funcionaria? – Devido a necessidade de uma faixa ampla para valores de cor a serem utilizados – A sub-amostragem funciona melhor… 4:2:2 • Para cada 4 amostras de luminância, 2 amostras de crominância das linhas ímpares e 2 das pares. • Cada pixel mapeado em 2 bytes: [Cb0, Y0] [Cr0, Y1] [Cb2, Y2] [Cr2, Y3] [Cb4, Y4] ... • Planos de crominância: altura total e metade da largura • Usado no JPEG Amostragem 4:2:2 4:2:0 • Para cada 4 amostras de luminância, 2 amostras de crominância para as linhas ímpares (e, portanto, 0 amostras de cor para as pares…) • Resolução da crominância reduzida à metade em ambas as direções: ½ altura e ½ largura • O padrão MPEG faz em geral isso… Amostragem 4:2:0 4:2:0 ? • Ao contrário do que parece, a taxa 4:2:0 (geralmente associada ao MPEG) não indica um sistema sem a componente “diferençado-azul” • A notação simplesmente indica que estão codificados somente 2 diferenças de cor (uma vermelha e outra azul) a cada 4 amostras de luminância. 4:1:1 • O que poderia representar isso? – 1 crominância para cada 4 luminâncias, ambas em linhas pares e ímpares • Também usado em JPEG Outras sub-amostragens HDTV – High Definition Television • Objetivo: Aumentar a definição da imagem (sinal de vídeo) e do sinal de áudio para obter-se uma qualidade de cinema Estrutura hierárquica de qualidade para TV digital Norma HDTV EDTV SDTV LDTV Qualidade Alta (High) Melhorada (Enhanced) Normal (Standard) Limitada Comparável a … 2 X CCIR601 CCIR601 PAL SECAM NTSC VHS Taxa de bits aprox. (Mbit/s) 30 11 4,5 1,5 HDTV – High Definition Television • Maior ângulo de visão (menor distância da tela): – TV atual: a distância de visão 6x altura da imagem – HDTV: duplica a definição da imagem, reduzindo essa distância para 3x a altura da imagem • Melhor o campo de visão – Olho humano tem maior sensibilidade para movimentos realizados sobre o plano horizontal • Campo de visão mais próximo de um retâgulo – Imagens em HDTV tem fator de forma de 16:9 (ou 1,77:1) > 4:3 (1,33:1) da TV atual • Compromisso entre os formatos do cinema europeu (1,66:1) e dos filmes americanos em CinemaScope (2,35:1) HDTV – High Definition Television • Aúdio digital, multicanal com qualidade semelhante ao áudio DVD. • Maior sensação de telepresença/imersão: – Maior proximidade com o novo formato de imagem permitem um maior ângulo de visão – Áudio de melhor qualidade com efeitos tridimensionais HDTV x TV HDTV x TV 4x3 4x3 (12x9) 4x3 4x3 Além do HDTV... • UHD (Ultra High Definition): – 7680 x 4320 pixels (8K) – 4096 x 2160 pixels (4K) • Algo em torno de 33 milhões de pixels • Japão (2012): – 55X3 TV resolução 3840×2160 pixels (4x Full HD) • No Brasil – Lavid (UFPB) – http://www.lavid.ufpb.br/pt/noticias/visualizar/12-12-2011-desempenho-datecnologia-de-exibicao-em-cinema-digital-4k-3d-do-lavid-surpreende-nocinegrid2011 Resoluções aumentando... Observação: HDTV • Considerando 1920 colunas x 1080 linhas, com quantização de 24 bits/pixel e taxa de 60 fps, a taxa de geração para HDTV é cerca de 3 Gbps! 1080 x 1920 x 24 bits x 60 fps / 1024 = 2,78 Gbps Considerando 1080i e 30fps (sinal atual): 1080/2 x 1920 x 24 bits x 30 fps / 1024= 0,69 Gbps • Única solução possível para a transmissão : compressão!!! – Supondo a banda em 20Mbps -> 150:1 ou 37.5:1 (1080i)