Luiz Felipe Angioletti Soares
Comparação de Estratégias Estatísticas
Recomendadas pela International
Comunications Union (ITU) para Aferição de
Qualidade de Imagens Digitais
Belém
janeiro de 2014
Luiz Felipe Angioletti Soares
Comparação de Estratégias Estatísticas Recomendadas
pela International Comunications Union (ITU) para
Aferição de Qualidade de Imagens Digitais
Trabalho de Conclusão de Curso para obtenção de grau de Engenheiro da Computação
pela Faculdade de Engenharia da Computação e Telecomunicações, Instituto de Tecnologia, Universidade Federal do Pará.
Universidade Federal do Pará – UFPA
Instituto de Tecnologia
Faculdade de Engenharia da Computação e Telecomunicações
Orientador: Prof. Ronaldo de Freitas Zampolo
Belém
janeiro de 2014
Luiz Felipe Angioletti Soares
Comparação de Estratégias Estatísticas Recomendadas
pela International Comunications Union (ITU) para
Aferição de Qualidade de Imagens Digitais
Trabalho de Conclusão de Curso para obtenção de grau de Engenheiro da Computação
pela Faculdade de Engenharia da Computação e Telecomunicações, Instituto de Tecnologia, Universidade Federal do Pará.
Trabalho aprovado com conceito
. Belém, 14 de janeiro de 2014:
Prof. Ronaldo de Freitas Zampolo
Orientador
Prof.ªValquiria Gusmão Macedo
Membro da banca avaliadora
Prof. Eurípedes Pinheiro dos Santos
Membro da banca avaliadora
Belém
janeiro de 2014
Dedico este trabalho a meus pais, Luiz e Beti que com tanta paciência,
e por tantos anos, me nutriram física, emocional e intelectualmente.
Agradecimentos
Minha graduação foi longa, muito longa. Mas também muito rica de experiências
que ajudaram, e ainda ajudam, a construir um caráter mais forte, digno e correto, perante
as viscissitudes.
Entre dois cursos, me formo no segundo, o do coração, tendo enfrentado problemas
de saúde, aproveitado um intercâmbio em outro país, aprendendo com outra cultura, sobre
o mundo, as pessoas e sobre mim mesmo. Saio da Universidade Federal do Pará uma
pessoa totalmente diferente daquela que, há dez anos, entrou. Sobre essa pessoa diferente,
professores e amigos ajudaram a construir um profissional de engenharia, que agora olha
para o mundo, deixando pra trás o que é tão conhecido e familiar — afinal, foram 10 anos!
—, para encontrar novos horizontes.
Meus agradecimentos vão aos muitos professores que mostraram a forma correta
de ser profissional, em especial, e não por acaso: meu orientador e os avaliadores da banca
que avaliou esse trabalho. O Prof. Ronaldo Zampolo me acolheu desde muito cedo no curso
e me ensinou não só a técnica de ser engenheiro, mas também proveu muitas conversas
proveitosas. A Prof.ª Valquiria e o Prof. Eurípedes foram ótimos exemplos, cada um a
seu modo, de profissionais comprometidos e competentes.
No âmbito familiar, agradeço à minha noiva, que me acompanha em oito desses dez
anos. Além de tudo que fez por mim, a Diana ainda me cedeu sua família, amorosa como
ela. Tornaram-se minha família; Martha e suas filhas Julia, Camila e Luísa me ofereceram
um segundo lar, aonde podia ir tomar outros ares. Muito obrigado a vocês, meninas, pelo
incentivo e pelo carinho incondicional.
Por último, ainda que não menos importante, meus pais e meu irmão, coautores e
coadjuvante desse trabalho — a bem dizer, da minha vida até esse ponto. Esse sucesso é
tanto deles quanto meu; a mim coube estudar, fazer provas e escrever. A eles coube todo
o suporte para que, com todas as minhas dificuldades, eu conseguisse superar essa etapa
da minha vida. Não existem palavras para agradecer tanta dedicação e paciência. Amo
vocês, muito obrigado por me terem em suas vidas.
Aos amigos, que tenho a sorte serem numerosos, com suas palavras de encorajamento, seus sorrisos e conversas, sua paciência ao ouvir minhas lamúrias, seus abraços
calorosos. Todos tem uma parte no meu mundo e um dedo nessa etapa que se encerra.
Entre os que fiz na Universidade, três merecem especial menção: Igor Almeida, Nagib
Matni e Adriana Muniz. Muito grato pela oportunidade de tê-los conhecido. Entre os que
fiz enquanto na Universidade, seria maldade mencionar todos. Alguns deles se encontram
às sextas-feiras sob a alcunha de Evanjovem, merecem muitos “muito obrigados”.
Resumo
Procedemos duas análises paralelas sobre os opinion scores (OS) constantes nas bases de
imagens “IRCCyN/IVC-Toyama database (LCD)” e “LIVE Image Quality Assessment
Database”. Uma, como tradicionalmente acontece na área, considera os dados de OS
como racionais; a outra os considera ordinais. O objetivo da comparação foi identificar
possível vantagem na consideração dos OS como dados ordinais, frutos de uma avaliação
categórica. Com base nas recomendações do International Communications Union (ITU)
para a avaliação de métricas de qualidade de imagem, procedemos regressão não-linear
dos dados (Levenberg-Marquadt) e o cálculo dos coeficientes de Pearson e Spearman, mas
não calculamos a proporção de outliers. Computamos a validade da regressão através da
goodness of fit, que indicou inadequação das métricas utilizadas em representar os dados
originais. Ao final, percebemos que pela inadequação das métricas, nossa consideração
sobre o tipo de dado a ser utilizado é inconclusiva e requer mais experimentos.
Palavras-chaves: IRCCyN/IVC-Toyama database (LCD), LIVE Image Quality Assessment Database, dados racionais, dados ordinais, comparação, correlação, goodness of fit,
qualidade de imagem
Abstract
Two parallel analyses were made based on the opinion scores (OS) comprised by the image
databases “IRCCyN/IVC-Toyama database (LCD)” e “LIVE Image Quality Assessment
Database”. In one hand, as it is usual in image quality research, the data (OS) were considered rational; on the other they were considered ordinal. We draw the comparisson with
the objective of identifying possible advantage on considering the categorically-evaluated
data as ordinal. According to recommendations from the International Communications
Union (ITU) on image quality metrics assessment, we computed the non-linear regression
over the data (Levenberg-Marquadt) and Pearson ans Spearman correlation coefficients,
but not the outlier’s ratio. As a measure of fittnes of the regressed curve to the original
data, we used the Goodness of Fit index, which pointed to complete inadequacy of the
regression for all metrics. Finally, we realized that, because of the failure to translate
image quality metric value into perceived quality on all the metrics used, our comparisson
on the type of data utilised for the calculations was inconclusive and the question still
needs more examining.
Key-words: IRCCyN/IVC-Toyama database (LCD), LIVE Image Quality Assessment
Database, rational data, ordinal data, comparisson, correlation, goodness of fit, image
quality assessment
Lista de ilustrações
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
1 –
2 –
3 –
4 –
5 –
6 –
7 –
8 –
9 –
10 –
11 –
12 –
13 –
14 –
15 –
16 –
17 –
18 –
19 –
20 –
21 –
22 –
23 –
24 –
25 –
26 –
27 –
28 –
29 –
30 –
Escala de avaliação contínua de qualidade . . . . . . . . . . . . . . . .
Discrepâncias do MSE . . . . . . . . . . . . . . . . . . . . . . . . . . .
Imagem de referência LIVE . . . . . . . . . . . . . . . . . . . . . . . .
Imagem distorcida LIVE . . . . . . . . . . . . . . . . . . . . . . . . . .
Histograma de OS da LIVE . . . . . . . . . . . . . . . . . . . . . . . .
Histograma de OS da Toyama . . . . . . . . . . . . . . . . . . . . . . .
Imagem de referência Toyama . . . . . . . . . . . . . . . . . . . . . . .
Imagem distorcida Toyama . . . . . . . . . . . . . . . . . . . . . . . .
Scatterplot Toyama racional MSE . . . . . . . . . . . . . . . . . . . . .
Scatterplot Toyama racional PSNR . . . . . . . . . . . . . . . . . . . .
Scatterplot Toyama racional MSSIM . . . . . . . . . . . . . . . . . . .
Scatterplot Toyama racional MSE, com curva logística . . . . . . . . .
Scatterplot Toyama racional PSNR, com curva logística . . . . . . . . .
Scatterplot Toyama racional MSSIM, com curva logística . . . . . . . .
Scatterplot Toyama ordinal PSNR, com curva logística quantizada . . .
Scatterplot Toyama ordinal MSSIM, com curva logística quantizada . .
Scatterplot Toyama ordinal MSE, com curva logística quantizada . . .
Scatterplot LIVE racional MSE, com curva logística . . . . . . . . . . .
Scatterplot LIVE racional PSNR, com curva logística . . . . . . . . . .
Scatterplot LIVE racional MSSIM, com curva logística . . . . . . . . .
Scatterplot LIVE racional MSE, dados e curva logística quantizados . .
Scatterplot LIVE racional PSNR, dados e curva logística quantizados .
Scatterplot LIVE racional MSSIM, dados e curva logística quantizados
Histograma de dados quantizados da LIVE . . . . . . . . . . . . . . . .
Scatterplot LIVE ordinal MSE, com curva logística . . . . . . . . . . .
Scatterplot LIVE ordinal PSNR, com curva logística . . . . . . . . . . .
Scatterplot LIVE ordinal MSSIM, com curva logística . . . . . . . . . .
Scatterplot LIVE ordinal MSE, com curva logística quantizada . . . . .
Scatterplot LIVE ordinal PSNR, com curva logística quantizada . . . .
Scatterplot LIVE ordinal MSSIM, com curva logística quantizada . . .
24
27
30
30
31
31
31
31
37
38
38
40
40
41
43
43
44
45
46
46
47
48
48
49
50
50
51
51
52
52
Lista de tabelas
Tabela
Tabela
Tabela
Tabela
Tabela
Tabela
Tabela
Tabela
Tabela
1
2
3
4
5
6
7
8
9
–
–
–
–
–
–
–
–
–
Avaliação de degradação . . . . . . . . . . . . . . . . . . . . . . . . .
Avaliação de qualidade . . . . . . . . . . . . . . . . . . . . . . . . . .
Características das imagens das bases de dados . . . . . . . . . . . .
Ferramentas estatísticas . . . . . . . . . . . . . . . . . . . . . . . . .
Avaliações de correlação e GoF para dados racionais da Toyama . . .
Avaliações de correlação e GoF para dados ordinais da Toyama . . .
Consolidação dos resultados da Toyama . . . . . . . . . . . . . . . .
Avaliações de correlação e GoF para dados racionais da LIVE . . . .
Avaliações de correlação e GoF para dados racionais quantizados da
LIVE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tabela 10 – Consolidação dos resultados racionais da LIVE . . . . . . . . . . . .
Tabela 11 – Consolidação dos resultados ordinais da LIVE . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
24
25
30
34
42
42
44
45
. 49
. 49
. 53
Sumário
1
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2
2.1
2.1.1
2.1.2
2.1.2.1
2.1.2.2
2.1.2.3
2.2
2.3
2.3.1
2.4
2.5
2.6
2.6.1
2.6.2
2.6.3
2.6.4
2.7
2.7.1
2.7.2
Teoria de suporte e as bases de imagens
Avaliação de qualidade de imagens . . . . .
Avaliação subjetiva de qualidade . . . . . .
Avaliação objetiva de qualidade . . . . . . .
MSE . . . . . . . . . . . . . . . . . . . . .
PSNR . . . . . . . . . . . . . . . . . . . . .
MSSIM . . . . . . . . . . . . . . . . . . . .
As bases de dados . . . . . . . . . . . . . .
Considerações estatísticas . . . . . . . . . .
Níveis de medição . . . . . . . . . . . . . .
Ferramenta de software utilizada . . . . . .
Consolidação dos dados . . . . . . . . . . .
Experimentos: Toyama . . . . . . . . . . .
Análise Racional . . . . . . . . . . . . . . .
Regressão . . . . . . . . . . . . . . . . . . .
Correlações e goodness of fit (GoF) . . . .
Análise ordinal . . . . . . . . . . . . . . . .
Experimentos: LIVE . . . . . . . . . . . . .
Análise racional . . . . . . . . . . . . . . .
Dados ordinais . . . . . . . . . . . . . . . .
3
3.1
Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
. . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
22
24
26
26
26
29
32
32
35
36
37
37
39
41
42
44
44
49
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
17
1 Introdução
Ao longo dos últimos quarenta anos, com a difusão de tecnologias eletrônicas modernas, a palavra “digital” tem se tornado cada vez mais lugar comum. Nesse período, a
tecnologia baseada em máquinas de cálculo automatizado que ocupavam prédios inteiros
e eram operadas por poucos (para fins restritos) foi permeando nossa cultura global e
ganhando destaque em vários campos do conhecimento e da vida humana. Na década de
1980 vimos o surgimento do computador pessoal e dos video-games. Adiante mais alguns
anos, e a internet aparece, os microprocessadores estão mais “micro” e mais “processadores”, os consoles de video-game mais elaborados e seus clientes cada vez mais exigentes.
Hoje, temos computadores móveis: tablets, celulares e câmeras digitais (para foto
e vídeo) tornam-se quase onipresentes. Mídias digitais tornam-se tão importantes quanto
protocolos de comunicação, redes sociais movimentam a opinião pública e servem de
plataforma a revoluções [1]. Muitos indivíduos têm contas em várias redes sociais e
máquinas portáteis em seus bolsos, prontas a fazer um vídeo ou uma foto e postá-los para
apreciação popular.
O volume de dados gerado é tão grande que plataformas como o Flickr (da americana Yahoo) abrigava, em 2011, mais de seis bilhões de imagens digitais [2], e o crescimento estimado de seu banco de imagens nos anos seguintes foi de um bilhão por ano
— e essa é apenas uma de várias plataformas de hospedagem de publicação de mídias
[3, 4]. Outro exemplo é o Youtube, onde seus mais de um milhão de usuários assitem mais
de seis bilhões de horas de vídeo por mês. Outras plataformas de publicação de vídeo
também têm números expressivos, como o caso do Vimeo, com mais de 200 petabytes de
vídeos reproduzidos em 2012 [5].
Além de serviços de hospedagem de conteúdo disponíveis publicamente, mais recentemente surgiram serviços de streamming de filmes e séries, como o Netflix, já com
mais de 40 milhões de usuários em 41 países, disponibilizando mais de um bilhão de horas
de vídeo [6].
Esses números representam um desafio para a indústria, que se responsabiliza por
receber, armazenar e distribuir esses dados sob demanda, para todo o globo.
Outra entidade que acompanha esse desenvolvimento, e que o antecede em algumas décadas é a televisão, cujo pai aclamado é Philo Farnsworth, entre tantos outros
engenheiros e contribuições [7]. Desde 1929 existe programação regular para TV sendo
projetada no espaço, proveniente de ambos os lados do Atlântico (os Estados Unidos e
o Reino Unido começaram a produzir programação regularmente na segunda metade de
1929) [7]. Com o nascimento dessa tecnologia, começou-se a discutir a necessidade de
18
Capítulo 1. Introdução
avaliar a qualidade da imagem recebida em aparelhos de TV, e artigos como “Television
images: an analysis of their essential qualities”, publicado por Jesty e Wintch, em 1937 [8],
aparecem. Winch começa seu artigo de 1953 [9] com a afirmação (em tradução livre) “a
adição de cores à televisão traz muitos novos problemas a um assunto já complexo”. E
já em 1940, Peter Goldmark e John Dyer [10] apresentam quais características são mais
importantes ao determinar-se a qualidade de uma imagem (para TV): definição, faixa de
contraste, ângulo de visualização, brilho, efeitos da frequência de varredura (flickering),
distorção geométrica, tamanho, cor e ruído. Algumas dessas características viriam a se
tornar objetos de estudo da avaliação de qualidade de imagem (AQI) nos anos vindouros,
sendo algumas delas inclusive usadas como bases para o cálculo de métricas de qualidade
de imagem (fotografia e vídeo).
Dado que um vídeo é constituído por uma sequência de quadros, a avaliação da
qualidade de vídeo e de imagem andam entrelaçadas desde o início. Tanto o é, que a International Telecommunications Union — ITU (União Internacional de Telecomunicações,
tradução livre) não faz distinção em seus documentos de padronização de qualidade entre
vídeo e imagem [11]; e seu grupo especializado para esse fim é chamado Video Quality
Experts Group (VQEG, Grupo de Peritos em Qualidade de Vídeo, tradução livre). Em
tutorial da entidade normatizadora [11], encontramos recomendações para avaliação de
qualidade de vídeo que podem ser também aplicadas a imagens. Neste trabalho seguiremos
essas recomendações em parte.
Vê-se que, com tanta demanda por imagem e vídeo, é necessário que se encontrem
formas eficientes de armazená-los, acessá-los e garantir que o usuário final terá a qualidade
esperada, ainda que os processos de compressão introduzam degradações.
A questão da qualidade é razoavelmente complexa, já que envolve conceitos abstratos e subjetivos. Uma boa imagem para uma aplicação não o é, necessariamente, para
outra. Um exemplo simples é a aquisição de vídeos de segurança em comparação com a
aquisição de vídeo para entretenimento. No primeiro caso, a qualidade mínima e suficiente
é aquela que garante a identificação de um possível infrator; na segunda, as exigências são
mais altas. Temos ainda que considerar o custo-benefício: no primeiro caso a resolução
tem que satisfazer os requisitos mínimos para a identificação de faces, mas também tem
que ocupar pouco espaço em disco, já que câmeras de segurança, em sua maioria, funcionam continuamente. Quanto a produção de filmes de entretenimento, seu tamanho é fixo
e a garantia da qualidade do produto final significa aumento de lucros em bilheterias pelo
mundo afora.
Bovik et al (2006) fazem distinção entre as abordagens de avaliação objetiva de
qualidade de imagem considerando dois pontos de vista distintos [12]: uma abordagem
base-topo, que considera as peculiaridades do sistema visual humano (SVH) e tenta modelar algoritmos que as assemelhem; e uma abordagem topo-base, que considera o SVH
19
como uma caixa preta e tenta modelar seus resultados a partir de relações entrada-saída.
Métricas que seguem a abordagem base-topo levam em consideração aspectos de
interesse do sistema biológico, bem como a parte psicológica da percepção visual. Esse
trabalho não tratará desse tipo de abordagem e o leitor é direcionado aos trabalhos de
[13] e [14] para maiores informações.
A segunda abordagem (topo-base), que será alvo de estudo nesse trabalho, não
aborda a psicofísica e se concentra em características da imagem que sejam relevantes à
AQI. Para obter informações a respeito de qualidade percebida, sessões de avaliação são
organizadas, onde pessoas são questionadas a respeito da qualidade de um conjunto de
imagens. Após coletados os dados, o pesquisador tenta produzir um modelo que tenha
como saída uma nota aproximada daquela dada pelos entrevistados. Obviamente, quanto
menor o erro entre o sistema modelado e a avalição subjetiva dos indivíduos entrevistados,
melhor o modelo.
Aqui trabalharemos com duas bases de imagens distintas, proveniente de grupos
de pesquisa independentes, que coletaram avaliações para as imagens constantes em suas
bases de forma muito similar. Ambos os grupos de pesquisa tratam seus procedimentos de
avaliação estatisticamente segundo as recomendações do ITU. Os tratamentos particulares
de cada grupo de pesquisa e das recomendações do ITU serão abordados nesse trabalho.
Nosso trabalho se concentra na comparação entre duas análises: uma que considera
os dados coletados nas sessões de avaliação como dados racionais e a outra que considera
esses mesmos dados ordinais.
Dada a forma como a avaliação da qualidade de imagens é feita, pode-se argumentar que os dados provenientes de tais avaliações são de natureza categórica (mais
especificamente ordinais), em contraponto a como os dados são tradicionalmente interpretados (como dados racionais). Essa discussão será aprofundada no Capítulo 2.
Em ambas as análises procedemos, separadamente, os passos sugeridos pelo ITU
para avaliação da pertinência de uma métrica de qualidade de imagem a um determinado
conjunto de imagens. Ao final, comparamos os resultados de ambas as análises, que se
apresentou inconclusivo, instigando ainda mais questionamentos.
Esse documento está estruturado em cinco capítulos: Introdução, onde trazemos
breve histórico da área e descrição sucinta do objetivo do trabalho; Teoria de suporte e
as bases de imagens, onde situamos o leitor quanto às práticas da área de AQI, apresentamos os dados que serão manipulados e nossas interpretações desses dados; nos Níveis
de medição, apresentamos nossas ferramentas, nosso trabalho e os resultados obtidos; nas
Conclusões comentamos os resultados obtidos e possíveis caminhos a serem tomados a
partir das conclusões do presente trabalho; finalmente, listamos documentos que serviram
de base para a produção desta obra.
21
2 Teoria de suporte e as bases de imagens
Para que possamos fazer uma análise comparativa entre estratégias estatísticas,
temos que, antes, entender suas diferenças e similaridades, bem como as características
dos dados com os quais estamos lidando.
Assim, este capítulo será dividido em três grandes seções, uma destinada às práticas da área de avaliação de qualidade de imagem e as métricas utilizadas nesse trabalho;
outra destinada à apresentação das bases de imagens utilizadas; e a última apresentando
a teoria que dá suporte às nossas interpretações dos dados utilizados.
2.1 Avaliação de qualidade de imagens
Como dito na Introdução, os atuais usos de imagens e vídeos digitais têm sua
abrangência amplificada, na medida em que novos serviços surgem no mercado e que
mais usuários utilizam esses serviços. Isso, se torna um desafio para a indústria, que
precisa encontrar formas cada vez mais econômicas e eficientes de entregar seus produtos
(mídias digitais) utilizando a infraestrutura de comunicação existente e com o mínimo
custo computacional e de armazenamento.
Para resolver problemas de armazenamento e tráfego, algoritmos de compressão
foram desenvolvidos. Padrões de compressão, como o JPEG e MPEG (imagem e vídeo,
respectivamente), são frequentemente utilizados no tráfego de dados via internet. Esses
algoritmos podem ser divididos em duas categorias: a dos “com perdas” (lossy) e a dos
“sem perdas” (lossless).
Exemplos de algoritmos lossless para imagens são PNG e TIFF. “Sem perdas”
significa que, uma vez descompactas, as imagens são iguais às images originais. Algoritmos
lossy consideram a perda de informação visualmente menos relevante como meio de atingir
taxas de compressão mais elevadas. Exemplos são os já citados JPEG e MPEG.
A nós interessam considerações sobre os métodos de compressão com perdas, já que
eles são capazes de economizar mais banda da rede de comunicação e otimizar ainda mais
o armazenamento, em relação aos métodos sem perdas. Estabelece-se então uma relação
de compromisso entre compactação e qualidade. Qual o ponto de melhor compromisso
entre taxa de compactação e qualidade visual para que, aferindo economia dos custos
de armazenamento e transmissão, mantenha-se a mesma qualidade percebida no produto
final? Nesse contexto se situa o campo de pesquisa em qualidade de imagem. E como
aferir essa qualidade? Atualmente, encontra-se duas formas distintas e dependentes: os
métodos subjetivo e objetivo de aferição de qualidade visual.
22
Capítulo 2. Teoria de suporte e as bases de imagens
2.1.1 Avaliação subjetiva de qualidade
O método subjetivo é o mais confiável, pois se baseia na aferição de qualidade
a partir de observações humanas: a pessoas são apresentadas imagens, cujas qualidades
são aferidas e anotadas. Esse método, contudo, apresenta algumas restrições e a primeira
delas é de ordem econômica. Para que a aferição seja feita por seres humanos é necessário,
em geral, que esses sujeitos sejam pagos para tal tarefa, implicando também em espaço
próprio para esse tipo de atividade, e portanto, mais custos. O segundo grande custo é
o tempo: aferições humanas dependem de logística e tempo para coleta e processamento
dos dados obtidos.
Outra questão é a da validade das medidas. O ITU recomenda no mínimo 15
(quinze) sujeitos distintos em cada sessão de avaliação [15, p.08]. Como será visto na
seção 2.2, as bases com as quais trabalhamos, largamente conhecidas e exploradas na
área, atendem à essas recomendações.
Problemas que podem ser encontrados em estudos estatísticos são os chamados
“bias”, que podem ser inseridos em um estudo a partir da amostragem indevida da população para participação nos testes, ainda na fase de design de tais testes [16]. Esse tipo de
consideração deve ser feita sobre as imagens que analisamos, já que estudos demonstram
que especialistas na área de qualidade visual tendem a ser mais criteriosos em suas avaliações de qualidade; principalmente por já saberem o que procurar, no que tange a erros
e distribuição espacial destes [15, p.08].
Por conta dessa grande diversidade de fatores que influenciam a avaliação de qualidade de uma imagem e a validade estatística dos resultados, foram criados padrões de
teste, que foram normatizados pelo ITU [15]. Os dois métodos que recebem maior destaque
na recomendação do ITU são:
Double stimulus impairment scale (DSIS): ao sujeito avaliador são apresentadas
duas imagens em sequência, a de referência e a degradada. A seguir, é solicitada
a avaliação de qualidade da última em comparação com a qualidade da primeira
em mente. Em sessões de avaliação, os pares de imagens referência-degradada são
apresentados aleatoriamente, bem como são aleatórias também as distorções apresentadas, dentro do conjunto de distorções sob análise. Entre cada uma das imagens
é apresentada uma imagem de descanso, normalmente uma escala de cinza. Esse
método usa a escala de degradação apresentada na Tabela 1, em oposição à escala
de qualidade (Tabela 2). As imagens de referência e de teste podem ser apresentadas
apenas uma vez, ou duas vezes, para avaliação do mesmo sujeito, em uma mesma
sessão. Quanto à escala de avaliação, o ITU sugere que os valores estejam dispostos
de forma visivel no formulário de avaliação, na forma de caixas de escolha [15, p.12].
Double stimulus continuous quality scale (DSCQS): são apresentadas ao avali-
2.1. Avaliação de qualidade de imagens
23
ador duas imagens simultaneamente: uma de referência e outra distorcida; é então
questionada a qualidade de ambas as imagens, simultaneamente. O avaliador deve
emitir sua avaliação marcando na posição corresponde em uma escala vertical como
na Figura 1. As barras são impressas aos pares para acomodar a apresentação paralela de imagens relacionadas.
Além destes, alguns outros métodos existem, variando o tempo e a forma como
as imagens são expostas, se há ou não repetição, ou se há ou não referência. O próximo
método é de especial importância para esse trabalho, dado que é o método aplicado pelos
grupos de pesquisa que geraram as bases com as quais trabalhamos.
Single stimulus (SS): Trata-se de um método de avaliação que apresenta uma série de
imagens para avaliação, em sequência aleatória a cada sessão, para cada avaliador.
Entre cada imagem sendo avaliada é posta uma imagem de descanso, geralmente
em escala de cinza. Esse método tem três tipos distintos de avaliação:
Adjectival categorical judment method: que em tradução livre quer dizer
“Método de avaliação categórica segundo adjetivos”. O avaliador associa cada
imagem a uma categoria, do conjunto de categorias apresentadas na Tabela 2.
Non-categorical judment method: em avaliações não-categóricas, o avaliador
atribui à imagem avaliada um valor, este método, por sua vez tem duas formas.
Em sua versão de escala contínua, ao avaliador é dada uma barra vertical com
limites semânticos (como por exemplo os valores semânticos limites da escala
na Tabela 2), onde ele deve marcar sua avaliação.
Na versão de escala numérica, o avaliador deve atribuir um valor à qualidade
percebida da imagem. O intervalo de valores pode ser aberto ou fechado. Esse
valor pode ser absoluto ou relativo a uma imagem de referência, por exemplo.
As avaliações individuais de cada imagem são usualmente chamadas de opinion
scores (valores de opinião, em tradução livre) e serão abreviadas nesse trabalho por OS.
A média de todas as avaliações individuais para uma imagem é, por sua vez, chamada
mean opinion score, ou média dos valores de opinião; valor que será indicado pela sigla
MOS.
Existe ainda a medida da opinião segundo um baseline, em que subtrai-se da
avaliação da imagem de referência a avaliação da imagem distorcida, ambas para um
mesmo indivíduo. A essa medida dá-se o nome de differential opinion score, cuja sigla,
costumeiramente é DOS. A média dos DOS, por sua vez, é o DMOS. Esse tipo de medida
com baseline tem por justificativa normalizar a opinião de um mesmo indivíduo a partir
de sua avaliação da imagem de referência.
24
Capítulo 2. Teoria de suporte e as bases de imagens
Figura 1 – Escalas de avaliação contínua de qualidade. Os números
acima das barras indicam o par de imagens sob avaliação,
os valores qualitativos à esquerda se aplicam a todas as barras na mesma linha. As expressões encontram-se traduzidas
na Tabela 2.
Fonte: [15, p.15]
Tabela 1 – Valores para a avaliação DSIS. Os significados foram traduzidos livremente da fonte.
Valor
Significado
5
imperceptível
4
perceptível mas irrelevante
3
levemente incômodo
2
incômodo
1
muito incômodo
Fonte: [15, p.11]
2.1.2 Avaliação objetiva de qualidade
A alternativa que surge aos métodos subjetivos é a implementação de algoritmos e
modelos computacionais que possam aferir e indicar a qualidade de uma imagem automaticamente. Claramente, uma imagem não tem para um sistema computacional o mesmo
significado que tem para humanos — não passa de uma string de bits. Nós avaliamos
conteúdo e estrutura, reconhecemos uma paisagem ou uma pessoa. Existem informações
semânticas em imagens que fazem sentido apenas para humanos, enquanto outras informações podem ser extraídas para fins estatísticos numa tentativa de caracterizar a
imagem objetivamente. Dessa forma, busca-se um modelo computacional que seja capaz
de indicar a provável qualidade percebida por humanos. Esse tipo de modelo é de grande
importância no desenvolvimento de algoritmos de compressão de imagem e vídeo para
25
2.1. Avaliação de qualidade de imagens
Tabela 2 – Valores para a avaliação categórica segundo adjetivos. Os
significados foram traduzidos livremente da fonte.
Valor
Significado
5
excelente
4
bom
3
regular
2
ruim
1
muito ruim
Fonte: [15, p.18]
consumo humano, justamente por retirar da problemática de avaliação de qualidade as
restrições impostas pela avaliação humana, otimizando a utilização dos recursos existentes
para distribuição e armazenamento desse tipo de dado.
O método de avaliação subjetiva ainda é o benchmark contra o qual todos os
métodos objetivos são comparados. Em nosso estudo, seguindo as tendências da área,
apresentamos gráficos que trarão os valores de métrica nas abscissas e valores de OS (e
variantes) nas ordenadas.
As estratégias para avaliação de qualidade de imagem podem ser distribuídas em
três grupos [14]:
Avaliação baseada em pixels: Os métodos de avaliação de qualidade desse grupo advém principalmente de outras áreas de processamento de sinais e são razoavelmente
bem conhecidas nas engenharias como um todo: MSE (Mean Square Error, Erro
Quadrático Médio) e PSNR (Peak Signal-to-Noise Ratio, Razão entre Pico do Sinal
e Ruído). Dentro da área de avaliação de qualidade visual, foi desenvolvida outra
métrica em anos recentes, o MSSIM (Mean Structural Similarity Index, Índice de
Similaridade Estrutural Média), que ganhou relevante destaque em publicações da
área.
Avaliação baseada em um canal: Foi o primeiro modelo baseado em visão humana
adotado e interpretava o sistema visual humano como um filtro espacial, cujas características são definidas pela função de sensibilidade a contraste (contrast sensitivity
function, CSF). Sua saída é uma versão filtrada do estímulo original e a detecção
depende da definição de um limiar.
Avaliação baseada em múltiplos canais: Modelos desse tipo assumem que cada
banda das frequências espaciais é tratada por um canal diferente. Aqui, a CSF
funciona como um envelope para as sensibilidades desses canais. A detecção ocorre
26
Capítulo 2. Teoria de suporte e as bases de imagens
independentemente em cada canal e também depende da definição de um limiar
para cada canal.
Esse trabalho se concentra nas avaliações baseadas em pixel, as quais passamos
a explicar com mais detalhes. Mais especificamente, trabalhamos com as três métricas
mencionadas, o MSE, a PSNR e o MSSIM.
2.1.2.1 MSE
O MSE é definido como:
𝑀 𝑆𝐸 =
𝑁
1 ∑︁
(𝑦𝑖 − 𝑥𝑖 )2
𝑁 𝑖=1
(2.1)
onde 𝑁 é o número total de pixels; 𝑥 indica a imagem de referência; 𝑦 é a imagem
distorcida; 𝑖 indica um pixel em particular.
Essa métrica traduz as distorções em um único número e tem sido bastante criticada por sua inadequação ao traduzir distorções com diferente importância perceptual
num mesmo valor de erro resultante [17]. Um exemplo de diversas distorções com valores
similares de MSE pode ser visto na Figura 2.
2.1.2.2 PSNR
A PSNR é definida em função do MSE como apresentado na Equação 2.2, onde
𝑀 é o valor máximo que um pixel pode assumir (em imagens de 8 bits, 𝑀 = 255, por
exemplo).
𝑃 𝑆𝑁 𝑅 = 10 log
𝑀2
𝑀 𝑆𝐸
(2.2)
Enquanto o MSE é uma medida de erro, a PSNR é uma medida de fidelidade, ou
seja, o quanto uma imagem é semelhante a uma original. O fato de essas duas métricas
serem muito fáceis e rápidas de serem calculadas, aliado ao fato de que minimizar a MSE
é equivalente a otimização por quadrados mínimos, faz dessas duas métricas ferramentas
muito populares.
2.1.2.3 MSSIM
Essa métrica foi proposta por Wang et al. em 2004 [18] e é descrita como apresentado na Equação 2.11.
Os autores indicam que a métrica funciona em três níveis: luminância, contraste
e estrutura. A imagem de referência e a imagem distorcida são comparadas nesses três
níveis, conforme passamos a explicar.
27
2.1. Avaliação de qualidade de imagens
Figura 2 – Discrepâncias do MSE, (a) é a imagem de referência, de (b) a (j) são
aplicados diferentes tipos de distorção. Note que entre (b) e (g) o valor
de MSE é próximo, apesar de as distorções e qualidades percebidas
serem bastante diferentes. Já de (h) a (j) o MSE tem valores elevados,
mas a qualidade da imagem não é tão fortemente afetada.
Fonte: [12, p.06]
A Equação 2.3 indica como é feito o cálculo da luminância para uma imagem 𝑥
28
Capítulo 2. Teoria de suporte e as bases de imagens
com 𝑁 pixels avaliados separadamente.
𝑁
1 ∑︁
𝑥𝑖
𝑁 𝑖=1
𝜇𝑥 =
(2.3)
Após determinada a luminância, a função de comparação de luminância 𝑙(𝑥, 𝑦)
é definida como apresentado na Equação 2.4, onde 𝐶1 é uma constante (criada a partir
de características da imagem) adicionada para contornar o caso em que o denominador
torna-se muito próximo de zero, o que levaria a comparação ao infinito.
𝑙(𝑥, 𝑦) =
(2𝜇𝑥 𝜇𝑦 + 𝐶1 )
𝜇2𝑥 + 𝜇2𝑦 + 𝐶1
(2.4)
Os autores utilizam o desvio padrão como estimativa do contraste de uma imagem,
que em sua forma discreta é apresentado como:
𝑁
1 ∑︁
𝜎𝑥 =
(𝑥𝑖 − 𝜇𝑥 )2
𝑁 − 1 𝑖=1
[︃
]︃ 12
(2.5)
Estabelecidos os valores de contraste para 𝑥 e 𝑦, tem-se a função de comparação
de contraste 𝑐(𝑥, 𝑦). Essa função pode ser vista na Equação 2.6, onde, mais uma vez,
uma constante (𝐶2 , que também deriva de características das imagens em questão) é
adicionada para estabilidade.
𝑐(𝑥, 𝑦) =
2𝜎𝑥 𝜎𝑦 + 𝐶2
𝜎𝑥2 + 𝜎𝑦2 + 𝐶2
(2.6)
Por último, a estrutura é definida em função do desvio padrão normalizado entre
𝑥 e 𝑦:
𝑠(𝑥, 𝑦) =
𝜎𝑥𝑦 + 𝐶3
𝜎𝑥 𝜎𝑦 + 𝐶3
(2.7)
com 𝜎𝑥𝑦 definido como na Equação 2.8, onde o índice 𝑖 indica o pixel sob avaliação, de
um total de 𝑁 pixels.
𝜎𝑥𝑦 =
𝑁
1 ∑︁
(𝑥𝑖 − 𝜇𝑥 )(𝑦𝑖 − 𝜇𝑦 )
𝑁 − 1 𝑖=1
(2.8)
Enfim, relacionando as três funções de comparação, temos a relação de comparação
da Equação 2.9, com 𝛼, 𝛽, 𝛾 > 0 e modificados de acordo com a relevância de cada
característica.
𝑆𝑆𝐼𝑀 (𝑥, 𝑦) = [𝑙(𝑥, 𝑦)]𝛼 · [𝑐(𝑥, 𝑦)]𝛽 · [𝑠(𝑥, 𝑦)]𝛾
(2.9)
29
2.2. As bases de dados
A equação resulta, portanto, na Equação 2.10, para 𝛼 = 𝛽 = 𝛾 = 1 e 𝐶3 = 𝐶2 /2:
𝑆𝑆𝐼𝑀 (𝑥, 𝑦) =
(2𝜇𝑥 𝜇𝑦 + 𝐶1 )(2𝜎𝑥𝑦 + 𝐶2 )
+ 𝜇2𝑦 + 𝐶1 )(𝜎𝑥2 + 𝜎𝑦2 + 𝐶2 )
(𝜇2𝑥
(2.10)
O uso da SSIM, e o cálculo de todas as médias e desvios descritos até aqui pode
ser feito sobre uma janela de pixels, que se move, pixel a pixel, sobre toda a imagem; a
cada passo, as estatísticas são calculadas para cada janela. No artigo original, os autores
utilizam uma janela gaussiana com dimensões 11 × 11. Finalmente, a MSSIM é calculada
como:
𝑀 𝑆𝑆𝐼𝑀 (𝑥, 𝑦) =
𝐽
1 ∑︁
𝑆𝑆𝐼𝑀 (𝑥𝑗 , 𝑦𝑗 )
𝐽 𝑗=1
(2.11)
onde 𝑥 e 𝑦 são as imagens de referência e distorcida, respectivamente; e o conteúdo da
imagem correspondente a j-ésima janela é indicado por 𝑥𝑗 e 𝑦𝑗 ; 𝐽 é a quantidade de janelas
sobre a imagem.
No algoritmo utilizado em nosso trabalho, 𝛼 = 𝛽 = 𝛾 = 1 e: 𝐽 = 255, 𝐶1 = 0, 012 ,
𝐶2 = 0, 032 , com 𝐶3 = 𝐶2 /2.
2.2 As bases de dados
Para o cumprimento desse trabalho, escolhemos duas bases de imagens diferentes,
que chamaremos simplesmente Toyama e LIVE.
A base Toyama é, na verdade, chamada “IRCCyN/IVC-Toyama database
(LCD)” e tem acesso franqueado no site [19] do IRCCyN (Institut de Recherche en
Communications et Cybernétique de Nantes), da Universidade de Nantes, na França.
A base LIVE é oficialmente conhecida como “LIVE Image Quality Assessment Database” e tem acesso também franqueado no site [20] do LIVE (Laboratory for
Image & Video Engineering). Utilizamos sua release 1 nesse trabalho, por ser a única que
disponibilizava dados de avaliação subjetiva para compressão JPEG.
Ambas as bases possuem imagens de referência (não degradadas) e um determinado
número de imagens degradadas com diferentes tipos e graus de degradação; nosso trabalho
se concentra na degradação do tipo JPEG, em todos os graus disponíveis nas bases. A
Tabela 3 apresenta as principais características de ambas as bases.
As Figuras 3 e 4 apresentam exemplos de imagem disponíveis na base LIVE; já as
Figuras 7 e 8 provêm da base Toyama. As imagens à esquerda são imagens de referência,
não-corrompidas, enquanto as da direita passaram por compressão JPEG.
30
Capítulo 2. Teoria de suporte e as bases de imagens
Tabela 3 – Características das imagens das bases de dados utilizadas
Toyama
LIVE
Número total de imagens 𝑇𝑖
98
204
Número de imagens de referência 𝐼𝑟
14
29
Número de imagens degradadas 𝐼𝑑
84
175
768 × 512 pixels
768 × 512 pixels
Profundidade de cor
24 bits/pixel
24 bits/pixel
Formato das imagens
BMP
BMP
Tipo de degradação
JPEG
JPEG
15, 20, 27, 37, 55, 79
não informado
6 taxas
não informado
[1, 5]
[0, 100]
Categorias de qualidade
5
5
Sessões de avaliação distintas
1
2
Resolução das imagens na base
Graus de degradação aplicados
Diversidade de graus de degradação
Faixa de valores de avaliação
Fontes: [19, 20]
Figura 3 – Imagem de referência LIVE
Figura 4 – Imagem distorcida LIVE
Fonte: [20]
Fonte: [20]
Segundo a documentação da LIVE, o procedimento de obtenção dos dados experimentais conduziu duas sessões de avaliação distintas. Os pesquisadores tiveram o cuidado
de apresentar, em ambas as sessões, todas as imagens de referência e suas respectivas
distorções. A quantidade de sujeitos no experimento foi diferente em cada sessão: na primeira, houve vinte sujeitos; apenas treze na segunda. Os pesquisadores afirmam que a
escolha das imagens para o estudo foi tal que possibilitaria uma distribuição aproximadamente uniforme das notas de avaliação, o que pode ser visualizado no histograma da
Figura 5, gerado diretamente a partir dos valores das notas individuais (OS). Não foi
imposta restrição de distância de visualização para a avaliação e as imagens foram mostradas aos sujeitos aleatoriamente. Para emitir suas opiniões, os sujeitos poderiam levar
31
2.2. As bases de dados
o tempo que necessitassem, mas poderiam visualizar cada imagem apenas uma vez. Os
pesquisadores promoveram uma pequena sessão de treinamento antes do início de cada
sessão de avaliação. Estas informações e maiores detalhes podem ser obtidos no site da
referida base.[20]
Figura 5 – Histograma das notas de avaliação subjetiva para a LIVE, gerado a partir da totalidade das
imagens em codificação JPEG
dessa base utilizadas nesse trabalho.
Figura 6 – Histograma das notas de avaliação subjetiva para a Toyama,
gerado a partir da totalidade
das imagens em codificação
JPEG dessa base utilizadas
nesse trabalho.
1200
Quantidade
Quantidade
1000
800
600
400
200
0
0
20
40
60
80
100
400
350
300
250
200
150
100
50
0
1
2
3
4
5
6
Valor de OS
Valor de OS
Fonte: o autor.
Fonte: o autor.
Figura 7 – Imagem de referência Toyama
Figura 8 – Imagem distorcida Toyama
Fonte: [19]
Fonte: [19]
Segundo o arquivo de informações que acompanha a base Toyama, foram dezesseis
não-peritos que avaliaram as imagens dessa base, em sua maioria estudantes, não informando se houve ou não sessões distintas (e por isso assumimos uma única sessão). Da
mesma forma que a LIVE, as imagens foram apresentadas aleatoriamente, sem restrição
de tempo e também com apenas uma oportunidade de visualização para avaliação de cada
imagem. Neste estudo foi imposta a distância de observação igual a quatro vezes a altura
da imagem. A Toyama apresenta dezesseis valores de OS para cada imagem, totalizando,
32
Capítulo 2. Teoria de suporte e as bases de imagens
portanto, os dezesseis sujeitos no experimento. O histograma das notas de avaliação das
imagens dessa base pode ser observado na Figura 6 (também gerado a partir dos OS).
Podemos, portanto, avaliar que, conforme indicado em seu arquivo de informações,
a Toyama utiliza o método de avaliação Single Stimulus em sua subcategoria Adjectival
Categorical Judment Method enquanto a LIVE informa ter feito sua avaliação usando
uma barra vertical como a da DSCQS, convertendo as marcas das avaliações a posteriori
para uma escala linear e contínua no intervalo [0, 100], não se enquadrando em nenhuma
recomendação específica do ITU (já que mistura dois procedimentos distintos).
Há ainda outra distinção a ser feita é sobre a qualidade dos dados coletados por
ambos os grupos de pesquisa. Ambos os grupos deram a seus sujeitos uma escala qualitativa conforme o exposto na Tabela 2 mas cada uma associou a essas palavras uma
escala quantitativa diferente: além de os intervalos de avaliação serem distintos, como
pode ser observado na Tabela 3, esses intervalos se distiguem quanto à continuidade. A
LIVE considera contínuo e linear o domínio de avaliação, enquanto a Toyama considera
esse domínio discreto. Ou seja, na LIVE encontraremos notas como 4, 55, ou 94, 2 e na
Toyama, apenas os inteiros no intervalo [1, 5]. A Toyama ainda informa que seus testes
foram executados conforme as condições de avaliação apontadas no ITU-R Rec. 500-10
(de março de 2010).
2.3 Considerações estatísticas
Comentaremos sobre a nossa interpretação dos dados e as ferramentas utilizadas
para chegar a conclusões sobre esses dados.
2.3.1 Níveis de medição
Existem quatro tipos de dados estatísticos [16, p.02-04]:
Dados racionais: a maioria das medições físicas. Os dados desse tipo de medição são
naturalmente ordenáveis (têm uma ordem clara), os intervalos que distanciam duas
unidades de medição são constantes; e esses dados tem um zero natural. Um exemplo: ao medir-se o comprimento de uma pessoa, faz sentido dizer que um adulto de
1, 80 m é duas vezes maior que uma criança de 0, 90 m. Faz sentido também que
se meça 0, 0 m, e os dados 0, 90 m 0, 20 m, 1, 20 m podem ser ordenados de forma
crescente. Esse tipo de dado é chamado racional por ser pertinente a operação de
divisão (razão) entre dois de seus elementos.
Dados intervalares: possuem as mesmas características dos dados racionais, com a
exceção do zero natural, o que faz com que a razão entre dois elementos de um
2.3. Considerações estatísticas
33
conjunto de dados intervalares seja sem significado. Um exemplo é a escala Celsius,
utilizada para medir temperatura. Ainda que a distância entre 10 ∘ C e 11 ∘ C seja
igual à distância entre 20 ∘ C e 21 ∘ C, não faz sentido dizer que 20 ∘ C é duas vezes
mais quente do que 10 ∘ C, já que a razão (e sua contra-partida, a multiplicação) não
é definida para esse tipo de dado.
Dados ordinais: possuem uma ordem natural, no sentido de que valores mais altos
representam mais de uma determinada característica do que valores menores. Não
existe analogia métrica, onde se possa colocar uma régua e medir a distância entre
dois de seus pontos, apesar de eles poderem ser, claramente, ordenados do mais ao
menos significativo. É o caso, por exemplo, do nível de adequação de candidatos a
vagas de emprego. Sempre haverá um mais apto e um menos apto, não se pode,
contudo, medir a distância entre eles. Operações como adição e subtração perdem
significado aqui, já que não é possível indicar quanto de “aptidão” tem-se que adicionar a um currículo A para que ele tenha a mesma “aptidão” à vaga que um currículo
B. Esses são dados essecialmente categóricos e ferramentas como a média não têm
sentido aqui. Ao invés da média tem-se que adotar outro indicador de centralidade;
mediana e moda são as mais recomendadas.
Dados nominais: aqui, números (quando usados) não trazem informação de ordenação,
já que esses dados não apresentam características que os permitam ser ordenados.
É o caso, por exemplo, da classificação por gênero: existem apenas dois, distintos,
sem informações de ordem, masculino e feminino. Para o caso em que ambas as
classes fossem representadas por números, esses números não teriam significado de
grandeza (1 para feminino e 0 para masculino, por exemplo), serviriam apenas para
facilitar a arrecadação dos dados ou sua posterior organização por um sistema computadorizado. Aqui, da mesma forma, não fazem sentido as operações aritméticas
e ferramentas categóricas têm que ser usadas para tratar esse tipo de dado. Aqui,
apenas a moda se aplica como indicador de centralidade.
Note que a classificação acima não leva em consideração se os dados são discretos
ou contínuos. Dados contínuos são aqueles que podem assumir qualquer valor, ou qualquer
valor dentro de um intervalo limitado (como é o caso da escala utilizada pela LIVE); dados
discretos podem assumir apenas valores exatos e têm suas fronteiras bem delimitadas
(como é o caso das medições produzidas pela Toyama). Outro exemplo de dados discretos
são aqueles que advêm de contagem, como o número de pessoas em uma residência.
Assim, a partir do exposto, dados intervalares e racionais tendem a ser contínuos,
enquanto os ordinais e nominais tendem a ser discretos. Por outro lado, não existe uma
barreira intransponível entre os dois tipos de dados: ao se registrar a idade de indivíduos
em anos está-se discretizando uma entidade contínua. Outro exemplo é a categorização
34
Capítulo 2. Teoria de suporte e as bases de imagens
de dados contínuos para melhor manipulação ou exibição dos dados, como se faz ao se
gerar um histograma.
À luz do exposto, alguns detalhes sobre as bases e os processos de arrecadação de
dados pelos laboratórios que ora consideramos ficam mais claros.
É fácil perceber que a quantidade de “excelência” de uma imagem não pode ser
quantificada, já que avaliações por adjetivos não são matematicamente operacionalizadas
diretamente (dois “regulares” não fazem um “bom”), e ferramentas estatísticas que lidam
com categorias seriam mais adequadamente utilizadas. Nesse quesito, se formos rigorosos a
partir das informações estatísticas apresentadas, equívocos são cometidos ao misturaremse dois domínios de dados para análise estatística, e esses equívocos advêm da própria
organização que padroniza essa coleta de dados (ITU).
A distinção entre os dados se faz necessária para que possamos escolher as ferramentas a serem utilizadas na sua manipulação. A Tabela 4 indica as ferramentas que
usaremos na interpretação dos dados ora em estudo.
Tabela 4 – Tabela de ferramentas estatísticas adequadas a tipos de dados. 𝑃 (𝑀 𝑜) indica a frequência relativa da moda sobre o
total de dados coletados.
Tipo de dado
Tendência Central
Dispersão
Racional
média
variância
Intervalar
mediana
2ºe 3º quartis
Ordinal
mediana
2ºe 3º quartis
Nominal
moda
1 − 𝑃 (𝑀 𝑜)
Fonte: [16]
Com ressalva feita aos dados ordinais, que comportam também como medida de
centralidade a moda e seu respectivo estimador de dispersão.
No próximo capítulo trataremos das análises dos dados experimentais e retomaremos a discussão da pertinência de ferramentas categóricas à análise dos dados em mãos.
2.4. Ferramenta de software utilizada
35
achapterProcedimentos experimentais
Os procedimentos de validação de uma métrica de qualidade visual passam por
três testes, de acordo com as recomendações do ITU [11]:
Precisão: utilização recomendada do coeficiente de correlação de Pearson, com seu respectivo valor para o teste de significância (p-value)
Monotonicidade: coeficiente de correlação de Spearman. O ITU não solicita, mas apresentaremos também para essa correlação o p-value pertinente.
Consistência: recomendada a proporção de outliers, considerando 𝜇 ± 2𝜎 como limiar.
Neste trabalho, calculamos o coeficiente de Pearson como indicador de precisão,
utilizamos o coeficiente de Spearman como indicador de monotonicidade, mas não utilizamos a eliminação de outliers como determinante de consistência. Ao invés disso, calculamos
o goodness of fit (GoF) para as regressões que fizemos sobre os dados.
2.4 Ferramenta de software utilizada
Como instrumento de trabalho, optamos pelo linguagem de programação Python [21],
em sua versão 2.7. Como ambiente de desenvolvimento para elaboração e execução do
código-fonte, utilizamos o IPython Notebook [22] em sua versão 1.1.0.
O Python é uma linguagem modular, e os seguintes módulos foram utilizados para
elaboração do código-fonte:
sys, os, pickle, shutil: são módulos de interface com o sistema operacional e manipulação de arquivos
scipy: módulo para computação científica, utilizamos suas funções de otimização;
glob: módulo para uso de expressões regulares simplificadas;
collections: módulo que oferece estruturas de dados além das nativas da linguagem,
além de oferecer outras ferramentas para manipulação das estruturas nativas;
numpy: módulo para criação e manipulação de arrays e operações de álgebra linear;
matplotlib: módulo para produção de gráficos;
mpmath: módulo para operações em ponto flutuante, utilizamos funções oferecidas por
esse módulo para o cômputo da goodness of fit
36
Capítulo 2. Teoria de suporte e as bases de imagens
2.5 Consolidação dos dados
As bases de dados trazem as avaliações em sua forma bruta, nos permitindo escolher a forma como trabalharemos estes dados. A Toyama oferece uma planilha excel,
onde lista, para cada linha uma imagem; e para cada imagem, dezesseis colunas de avaliação. A LIVE oferece três arquivos: um que relaciona as imagens de referência com as
imagens degradadas, dois outros que relacionam as imagens às suas avaliações, um para
cada sessão de avaliação.
Os dados foram consolidados num objeto em nosso programa, cujos atributos e
métodos nos permitiram operações mais diretas do que aquelas que seriam obtidas pela
manipulação dos arquivos oferecidos.
Os procedimentos experimentais foram praticamente os mesmos para ambas as
bases, diferenciando apenas no necessário para se adaptar às características dos dados de
cada uma.
As análises serão como segue:
Toyama: análise da base Toyama nos seguintes aspectos:
Análise racional: seguimos a análise normatizada pelo ITU, com exceção do
cálculo da GoF.
Análise ordinal: seguimos os moldes da análise normatizada pelo ITU, mas calculamos os coeficientes de correlação e a GoF entre os dados originais da Toyama
(original e naturalmente categóricos) e a função regredida quantizada.
LIVE: análise da base LIVE nos seguintes aspectos:
Análise racional: aqui também seguimos a análise normatizada pelo ITU com
exceção do cálculo da GoF. Ao final, calculamos também a correlação entre os
dados quantizados da LIVE e a função regredida contínua.
Análise ordinal: quantizamos os dados de OS da LIVE e procedemos nos moldes
do normatizado pelo ITU, calculando, ao final, a correlação e a GoF entre os
dados quantizados e a regressão quantizada.
Começaremos pela Toyama, por se tratar da base mais simples entre as duas. Seus
dados foram coletados de forma categórica, e entendemos que o “racional” da análise que
procedemos tem maior significado para a função fruto da regressão do que para seus dados
brutos.
37
2.6. Experimentos: Toyama
2.6 Experimentos: Toyama
2.6.1 Análise Racional
Uma vez consolidados os dados, procedemos o cálculo das métricas apresentadas no
capítulo Teoria de suporte e as bases de imagens, para em seguida traçarmos scatterplots
correspondentes.
Figura 9 – Toyama, MSE para análise racional
5, 0
4, 5
4, 0
OS
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
0
10
20
30
40
50
60
70
80
MSE
Fonte: o autor.
As figuras 9, 10 e 11 mostram os valores das métricas para cada par de imagem
(referência e distorcida) pelos dados individuais de avaliação de qualidade (OS). No caso da
Toyama, como são dezesseis avaliações para cada imagem, obtemos dezesseis pontos de OS
para cada valor de métrica. Os pontos mais escuros simbolizam mais pontos coincidentes,
enquanto pontos mais claros simbolizam menos pontos.
Para o cômputo da MSSIM, o algoritmo utilizado aplica uma janela gaussiana com
variância 𝜎 2 = 1, 5 com formato de janela de 11 × 11 pixels, conforme é sugerido pelos
autores do método.
O papel de uma avaliação objetiva de qualidade é retornar, a partir de uma métrica
qualquer, uma indicação de qualidade da imagem. A Toyama qualifica suas imagens no
intervalo [1; 5], com 1 representando a menor qualidade percebida possível e 5 a máxima
qualidade percebida possível (de acordo com a Tabela 2). Dessa forma, para que possamos
38
Capítulo 2. Teoria de suporte e as bases de imagens
Figura 10 – Toyama, PSNR para análise racional
5, 0
4, 5
4, 0
OS
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
29
30
31
32
33
34
35
36
37
38
PSNR
Fonte: o autor.
Figura 11 – Toyama, MSSIM para análise racional
5, 0
4, 5
4, 0
OS
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
0, 70
0, 75
0, 80
0, 85
MSSIM
Fonte: o autor.
0, 90
0, 95
1, 00
39
2.6. Experimentos: Toyama
obter um valor de qualidade a partir da métrica, necessitamos encontrar uma função que,
dada uma entrada (métrica), nos apresente uma saída (qualidade) correspondente.
Para tal efeito, necessitamos de uma função nos moldes:
𝑓 (métrica) = valor indicador de qualidade
(2.12)
e para tanto, faz-se necessária uma regressão sobre os dados presentes.
2.6.2 Regressão
Para este trabalho, escolhemos utilizar a estimação baseada na função do chiquadrado (chi-square estimation). Tal estimação tem a vantagem de ponderar os mínimos
quadrados pelos seus desvios padrão, dessa forma atribuindo maior peso a dados menos
variáveis [23]. Tal estimação é realizada segundo a minimização da função:
𝜒2 =
𝑁
∑︁
𝑖=1
[︃
𝑦𝑖 − 𝑔(𝑥𝑖 )
𝜎𝑖
]︃2
(2.13)
onde 𝑁 é o número total de pontos, (𝑦𝑖 , 𝑥𝑖 ) representam os dados coletados experimentalmente, 𝜎𝑖 é o desvio padrão da medição para um par 𝑖 e 𝑔(𝑥𝑖 ) representa a função
escolhida para modelar a relação entre 𝑦𝑖 e 𝑥𝑖 .
Tal modelagem entre os dados experimentais foi feita através da função logística,
conforme definida na Equação 2.14, por possuir maio grau de liberdade (e número reduzido
de parâmetros que evitam o overfitting) em relação à regressão linear, tanto da Toyama
quanto da LIVE.
𝑔(𝑥𝑖 ) =
𝛽1 − 𝛽2
(︁
3
1 + 𝑒𝑥𝑝 − 𝑥𝑖|𝛽−𝛽
4|
)︁
+ 𝛽2
(2.14)
Os valores escolhidos como parâmetros iniciais para a regressão foram: 𝛽1 =
max(𝑦𝑖 ), 𝛽2 = min(𝑦𝑖 ), 𝛽3 = 𝑥¯, que representa a média do vetor [𝑥1 , . . . , 𝑥𝑁 ] e 𝛽4 = 1.
As figuras 12, 13 e 14 mostram o resultado da regressão utilizando o algoritmo
Levemberg-Marquadt, para os dados da Toyama.
Para tais regressões, calculamos suas precisão e monotonicidade, conforme a recomendação do ITU.
40
Capítulo 2. Teoria de suporte e as bases de imagens
Figura 12 – Toyama, MSE para análise racional com curva de regressão logística sobreposta
Logı́stica Toyama MSE vs. OS
5, 0
4, 5
4, 0
OS
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
0
10
20
30
40
50
60
70
80
MSE
Fonte: o autor.
Figura 13 – Toyama, PSNR para análise racional com curva de regressão logística sobreposta
Logı́stica Toyama PSNR vs. OS
5, 0
4, 5
4, 0
OS
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
29
30
31
32
33
34
PSNR
Fonte: o autor.
35
36
37
38
41
2.6. Experimentos: Toyama
Figura 14 – Toyama, MSSIM para análise racional com curva de regressão logística sobreposta
Logı́stica Toyama MSSIM vs. OS
5, 0
4, 5
4, 0
OS
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
0, 70
0, 75
0, 80
0, 85
0, 90
0, 95
1, 00
MSSIM
Fonte: o autor.
2.6.3 Correlações e goodness of fit (GoF)
Como dito, para avaliar a precisão, utilizamos a correlação de Pearson, que é
definida como [23]:
∑︀𝑁
𝑃𝑟 = √︁∑︀
𝑖=1 [𝑔(𝑥𝑖 )
𝑁
𝑖=1 [𝑔(𝑥𝑖 )
− 𝑔¯][𝑦𝑖 − 𝑦¯]
− 𝑔¯]2
√︁∑︀
𝑁
𝑖=1 [𝑦𝑖
(2.15)
− 𝑦¯]2
com 𝑔¯ e 𝑦¯ representando médias dos vetores [𝑔(𝑥1 ), . . . , 𝑔(𝑥𝑁 )] e [𝑦1 , . . . , 𝑦𝑁 ], respectivamente.
Para avaliar a monotonicidade, utilizamos a correlação de Spearman, definida
como [23]:
¯ 𝑖 − 𝑌¯ )
− 𝐺)(𝑌
√︁∑︀
2
¯
¯ 2
𝑖 (𝐺𝑖 − 𝐺)
𝑖 (𝑌𝑖 − 𝑌 )
∑︀
𝑆𝑟 =
√︁∑︀
𝑖 (𝐺𝑖
(2.16)
¯ e 𝑌¯ suas respectivas
onde 𝐺𝑖 e 𝑌𝑖 são as posições de 𝑔(𝑥𝑖 ) e 𝑦𝑖 , respectivamente, e 𝐺
médias.
A goodness of fit, utilizada para medir a validade da regressão, é definida como:
𝑞 = 𝑄[0.5(𝑁 − 𝑀 ), 0.5𝜒2 ]
(2.17)
42
Capítulo 2. Teoria de suporte e as bases de imagens
onde 𝑄 é a função gama incompleta, 𝑁 o número total de pontos avaliados e 𝑀 o número
de parâmetros utilizados na regressão.
Por sua vez, a função gama incompleta é definida como [23]:
1 ∫︁ 𝑏 −𝑡 𝑎−1
𝑄(𝑎, 𝑏) = 1 −
𝑒 𝑡 𝑑𝑡,
Γ(𝑎) 0
𝑎>0
(2.18)
onde Γ(𝑎) é a função gama.
Para que a regressão seja considerada adequada, 𝑞 ≥ 10−3 , caso contrário, considerase que a regressão não representa adequadamente os dados de que provém.
A Tabela 5 apresenta os valores encontrados para essas avaliações:
Tabela 5 – Avaliações de correlação e GoF para dados racionais da
Toyama
Métrica
Pr
Sr
q
MSE
0, 5213
0, 4061
0, 0
PSNR
0, 3233
0, 2048
0, 0
MSSIM
0, 6468
0, 6270
0, 0
Fonte: o autor.
2.6.4 Análise ordinal
A diferença nessa abordagem é que quantizamos a saída da regressão logística,
conforme pode ser visto nas figuras 17, 15 e 16.
A Tabela 6 apresenta os valores calculados para esse tipo de dado.
Tabela 6 – Avaliações de correlação e GoF para dados ordinais da
Toyama
Métrica
Pr
Sr
q
MSE
0, 4644
0, 4037
0, 0
PSNR
0, 1807
0, 1475
0, 0
MSSIM
0, 6298
0, 6169
0, 0
Fonte: o autor.
Para fins de comparação e futura referência, consolidamos os dados da Toyama na
Tabela 7.
43
2.6. Experimentos: Toyama
Figura 15 – Toyama, PSNR para análise ordinal com curva de regressão logística quantizada sobreposta
5, 0
4, 5
4, 0
qOS
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
29
30
31
32
33
34
35
36
37
38
PSNR
Fonte: o autor.
Figura 16 – Toyama, MSSIM para análise ordinal com curva de regressão logística quantizada sobreposta
5, 0
4, 5
4, 0
qOS
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
0, 70
0, 75
0, 80
0, 85
MSSIM
Fonte: o autor.
0, 90
0, 95
1, 00
44
Capítulo 2. Teoria de suporte e as bases de imagens
Figura 17 – Toyama, MSE para análise ordinal com curva de regressão logística quantizada sobreposta
5, 0
4, 5
4, 0
qOS
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
0
10
20
30
40
50
60
70
80
MSE
Fonte: o autor.
Tabela 7 – Consolidação dos resultados da Toyama: regressão quantizada (análise ordinal) e não-quantizada (análise racional).
Quantizada
Métrica
Não-quantizada
Pr
Sr
q
Pr
Sr
q
MSE
0, 4644
0, 4037
0, 0
0, 5213
0, 4061
0, 0
PSNR
0, 1807
0, 1475
0, 0
0, 3233
0, 2048
0, 0
MSSIM
0, 6298
0, 6169
0, 0
0, 6468
0, 6270
0, 0
Fonte: o autor.
2.7 Experimentos: LIVE
2.7.1 Análise racional
A LIVE se presta melhor à análise racional quando comparada com a Toyama,
dado que seus valores são reais no intervalo [0; 100], apesar de isso não fazer sentido
quando a avaliação é essencialmente categórica e qualitativa, como já exposto.
As figuras 18, 19 e 20 apresentam as curvas obtidas através da regressão como
apresentada nas equações 2.13 e 2.14. Os pontos azuis presentam os dados de OS da base
LIVE. Na primeira sessão foram vinte avaliadores, na segunda treze, totalizando portanto
45
2.7. Experimentos: LIVE
trinta e três avaliações por imagem. Pode-se observar que a variância da resposta para
um determinado valor de métrica é bastante grande. Aqui, da mesma forma que para a
Toyama, pontos com cores mais escuras representam mais coincidência de valores, pontos
mais claros, menos coincidência.
A Tabela 8 apresenta os valores de correlação e GoF calculados para esses dados.
Figura 18 – LIVE, MSE para análise racional com curva de regressão logística sobreposta
100
80
OS
60
40
20
0
0
20
40
60
80
100
MSE
Fonte: o autor.
Tabela 8 – Avaliações de correlação e GoF para dados racionais da LIVE
Métrica
Pr
Sr
q
MSE
0, 8646
0.8523
0, 0
PSNR
0, 8188
0, 8212
0, 0
MSSIM
0, 8882
0, 8710
0, 0
Fonte: o autor.
Almejando maior justiça na comparação entre dados racionais e ordinais para a
LIVE, ao final desse processo, quantizamos tanto os valores preditos pela função fruto de
regressão quanto os valores de OS utilizados para chegar a tal regressão.
Nas figuras 21, 22 e 23 vemos a versão quantizada das figuras 18, 19 e 20. A quantização
efetuada simplesmente toma os valores reais e os categoriza no mesmo intervalo observado
46
Capítulo 2. Teoria de suporte e as bases de imagens
Figura 19 – LIVE, PSNR para análise racional com curva de regressão logística sobreposta
100
80
OS
60
40
20
0
28
30
32
34
36
38
40
42
44
PSNR
Fonte: o autor.
Figura 20 – LIVE, MSSIM para análise racional com curva de regressão logística sobreposta
100
80
OS
60
40
20
0
0, 3
0, 4
0, 5
0, 6
0, 7
MSSIM
Fonte: o autor.
0, 8
0, 9
1, 0
47
2.7. Experimentos: LIVE
para a Toyama ([1, 5]) segundo a regra apresentada na Equação 2.19
𝑄(𝑚) =
⎧
⎪
⎪
⎪1
⎪
⎪
⎪
⎪
⎪
⎪
⎪
2
⎪
⎪
⎨
3
⎪
⎪
⎪
⎪
⎪4
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎩5
se 0 ≤ 𝑚 < 20
se 20 ≤ 𝑚 < 40
(2.19)
se 40 ≤ 𝑚 < 60
se 60 ≤ 𝑚 < 80
se 80 ≤ 𝑚 ≤ 100
onde m é o valor que se deseja quantizar, seja ele um valor OS ou um valor de OS predito
(OSp ) pela função.
Figura 21 – LIVE, MSE para análise racional, dados quantizados com curva de regressão
logística também quantizada e sobreposta
5, 0
4, 5
4, 0
OS(p)
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
0
20
40
60
80
100
MSE
Fonte: o autor.
Para esses dados quantizados temos os valores das correlações e GoF na Tabela 9
Novamente, para referência futura e praticidade de comparação, consolidamos os
resultados da análise racional da LIVE na Tabela 10.
48
Capítulo 2. Teoria de suporte e as bases de imagens
Figura 22 – LIVE, PSNR para análise racional, dados quantizados com curva de regressão
logística também quantizada e sobreposta
5, 0
4, 5
4, 0
OS(p)
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
28
30
32
34
36
38
40
42
44
PSNR
Fonte: o autor.
Figura 23 – LIVE, MSSIM para análise racional, dados quantizados com curva de regressão logística também quantizada e sobreposta
5, 0
4, 5
4, 0
OS(p)
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
0, 3
0, 4
0, 5
0, 6
0, 7
MSSIM
Fonte: o autor.
0, 8
0, 9
1, 0
49
2.7. Experimentos: LIVE
Tabela 9 – Avaliações de correlação e GoF para dados racionais quantizados da LIVE
Métrica
Pr
Sr
q
MSE
0, 8192
0, 8165
0, 0
PSNR
0, 7525
0, 7593
0, 0
MSSIM
0, 8557
0, 8452
0, 0
Fonte: o autor.
Tabela 10 – Consolidação dos resultados racionais da LIVE: resultados
racionais e racionais quantizados.
Não-Quantizados
Métrica
Quantizados
Pr
Sr
q
Pr
Sr
q
MSE
0, 8646
0.8523
0, 0
0, 8192
0, 8165
0, 0
PSNR
0, 8188
0, 8212
0, 0
0, 7525
0, 7593
0, 0
MSSIM
0, 8882
0, 8710
0, 0
0, 8557
0, 8452
0, 0
Fonte: o autor.
2.7.2 Dados ordinais
Aqui, antes de processarmos a regressão logística, quatizamos os OS de acordo
com a regra descrita na 2.19. Resultando numa distribuição de OS como a apresentada
no histograma da Figura 24
Figura 24 – Histograma de OS para dados quantizados da LIVE.
1200
Quantidade
1000
800
600
400
200
0
1
2
3
4
5
6
Valor de qOS
Fonte: o autor.
As figuras 25, 26 e 27 apresentam o resultado da regressão sobre os dados já
quantizados. Perceba que os resultados são significativamente diferentes daqueles obtidos
no experimento com dados racionais (figuras 18, 19 e 20).
50
Capítulo 2. Teoria de suporte e as bases de imagens
Figura 25 – LIVE, MSE para análise ordinal, com curva de regressão logística sobreposta
5, 0
4, 5
4, 0
qOS
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
0
20
40
60
80
100
MSE
Fonte: o autor.
Figura 26 – LIVE, PSNR para análise ordinal com curva de regressão logística sobreposta
5, 0
4, 5
4, 0
qOS
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
28
30
32
34
36
38
40
42
44
PSNR
Fonte: o autor.
Mais uma vez, quantizamos a saída da função obtida por regressão, resultado
apresentado nas figuras 28, 29 e 30
51
2.7. Experimentos: LIVE
Figura 27 – LIVE, MSSIM para análise ordinal com curva de regressão logística sobreposta
5, 0
4, 5
4, 0
qOS
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
0, 3
0, 4
0, 5
0, 6
0, 7
0, 8
0, 9
1, 0
MSSIM
Fonte: o autor.
Figura 28 – LIVE, MSE para análise ordinal com curva de regressão logística quantizada
sobreposta
5, 0
4, 5
4, 0
qOS(p)
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
0
20
40
60
MSE
Fonte: o autor.
80
100
52
Capítulo 2. Teoria de suporte e as bases de imagens
Figura 29 – LIVE, PSNR para análise ordinal com curva de regressão logística quantizada
sobreposta
5, 0
4, 5
4, 0
qOS(p)
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
28
30
32
34
36
38
40
42
44
PSNR
Fonte: o autor.
Figura 30 – LIVE, MSSIM para análise ordinal com curva de regressão logística quantizada sobreposta
5, 0
4, 5
4, 0
qOS(p)
3, 5
3, 0
2, 5
2, 0
1, 5
1, 0
0, 3
0, 4
0, 5
0, 6
0, 7
MSSIM
Fonte: o autor.
0, 8
0, 9
1, 0
53
2.7. Experimentos: LIVE
Apresentamos na Tabela 11 os resultados de correlação e GoF para os dados ordinais, quantizados e não quantizados, cujos valores apresentam-se muito próximos.
Tabela 11 – Consolidação dos resultados ordinais da LIVE: resultados
para dados e regressão quantizados e dados quantizados e
regressão não-quantizada.
Regressão não-quantizada
Métrica
Regressão quantizada
Pr
Sr
q
Pr
Sr
q
MSE
0.8528
0.8421
0, 0
0.8524
0.8418
0, 0
PSNR
0.8065
0.8077
0, 0
0.8056
0.8065
0, 0
MSSIM
0.8753
0.8602
0, 0
0.8750
0.8599
0, 0
Fonte: o autor.
55
3 Conclusões
Os valores retornados pela GoF (goodness of fit, 𝑞), sistematicamente iguais a zero,
atestam que as aproximações efetuadas não condizem com os dados que as geraram, ou
seja, as funções que obtivemos são incapazes de, dado um valor de métrica, apontar um valor de OSp (OS predito pelo modelo) condizente com um OS (medido experimentalmente)
para ambas as bases de imagens com que trabalhamos.
Usualmente, tem-se contornado esse problema computando a GoF em função das
tendências centrais (a média), o que faz com que o 𝑞 seja mais favorável. Esse tipo de
caminho sucita o questionamento: ainda que matematicamente válido, isso tem significado
prático? Ainda que o 𝑞 seja favorável usando-se as tendências centrais, ele ganha mais
significado, ou representa melhor os dados que o originou? Com certeza, e essa é a função
da GoF, ele tem mais afinidade com as tendências centrais, mas as tendências centrais
em si, têm significado prático?
Iniciamos o trabalho com a intenção de demonstrar que o tratamento estatístico
usando abordagem por categorias seria mais eficiente do que o tratamento estatístico
convencional, dada a natureza do processo de avaliação de qualidade de imagem, intrinsecamente categórica. Tal assunção acaba por não ser validada nesse trabalho, visto que
encontramos outra informação não menos pertinente: todas as métricas utilizadas falham
em indicar a qualidade das imagens das bases com que trabalhamos, se usamos os valores
de OS puros, e não suas indicações de centralidade (seja ela a média, a mediana ou a
moda).
Dado que procedemos análises em paralelo, considerando os dados racionais e
ordinais, e que em ambas as abordagens as regressões logísticas não foram satisfatórias em
traduzir a relação entre métrica e qualidade percebida, podemos afirmar que a qualificação
dos dados não afeta o resultado encontrado. Ou seja, a partir do trabalho realizado, não
encontramos provas suficientes que fariam mais válida uma avaliação categórica (com
dados ordinais) em detrimento da que tradicionalmente se pratica (com dados racionais).
Os valores altos das correlações na maioria dos casos apresentados (especialmente
para os dados da LIVE) indicam que há boa relação entre a monotonicidade e a precisão
dos dados e suas respectivas regressões logísticas, mas, mais uma vez, os valores sistematicamente desfavoráveis da GoF indicam que, apesar de correlacionados função e dados,
aquela não representa estes.
56
Capítulo 3. Conclusões
3.1 Trabalhos Futuros
A partir das conclusões apresentadas, percebemos ainda outras indagações a serem
perseguidas em futuros trabalhos.
A primeira delas seria uma comparação rigorosa entre o procedimento como sugerido pelo ITU, partindo de tendências centrais, e outro sem essas tendências.
Outros experimentos potencialmente interessantes são aqueles com objetivo de
validar um ou outro caso: utilizar mais bases de imagens com avaliação de qualidade
associada para as mesmas análises feitas aqui (racionais e ordinais); fazer essas análises
com os indicadores de tendência como a média, a mediana e a moda; fazer essas análises
com as diferenças entre os OS (DOS) ou a diferença entre as tendências centrais (DMOS,
por exemplo).
Experimentos potencialmente mais elucidativos seriam aqueles usando ferramentas
exclusivamente para estatística de classes, como correlação kappa, para indicar a relação
entre as classes e a saída da regressão quantizada.
57
Referências
1 CARRANCA, A. Revolução Digital: da página no Facebook à queda de Mubarak.
2011. News website. Disponível em: <http://blogs.estadao.com.br/adriana-carranca/
a-revolucao-digital-no-egito-da-pagina-no-facebook-a-queda-e-mubarak/>. Citado na
página 17.
2 OLIVAREZ-GILES, N. Flickr reaches 6 billion photos uploaded. 2011. News
website. Disponível em: <http://latimesblogs.latimes.com/technology/2011/08/
flickr-reaches-6-billion-photos-uploaded.html>. Citado na página 17.
3 500px Inc. 500px. 2013. Website. Disponível em: <http://500px.com/>. Citado na
página 17.
4 Instagram Inc. Instagram Press, 16 billion images. 2013. Official website. Disponível
em: <http://instagram.com/press/>. Citado na página 17.
5 Vimeo Inc. Official Year-end Self-Appraisal and Profound Introspection: 2012. 2012.
Official staff blog. Disponível em: <http://vimeo.com/blog/post:542>. Citado na
página 17.
6 Netflix Inc. Investor Relations. 2013. Official website. Disponível em: <http:
//ir.netflix.com>. Citado na página 17.
7 VARIOUS. History of television. 2013. Wikipedia. Disponível em: <http:
//en.wikipedia.org/wiki/History_of_television#Electromechanical_television>.
Citado na página 17.
8 JESTY, L.; WINCH, G. Television images: An analysis of their essential qualities.
Tran. Illum. Eng., v. 2, p. 316–334, 1937. Citado na página 18.
9 WINCH, G. Colour television: some subjective and objective aspects of colour
rendering. Electrical Engineers, Journal of the Institution of, v. 1953, n. 4, p. 191–192,
1953. Citado na página 18.
10 GOLDMARK, P. C.; DYER, J. Quality in television pictures. Proceedings of the
IRE, v. 28, n. 8, p. 343–350, 1940. ISSN 0096-8390. Citado na página 18.
11 ITU-T TSB. Tutorial - Objective Perceptual Assessment of Video Quality: Full
Reference Television. 2004. Citado 2 vezes nas páginas 18 e 35.
12 WANG, Z.; BOVIK, A. C. Modern Image Quality Assessment. [S.l.]: Morgan &
Claypool, 2006. Citado 2 vezes nas páginas 18 e 27.
13 Developing a new psychophysical experimental method to estimate image quality,
v. 4421. 906-909 p. Disponível em: <http://dx.doi.org/10.1117/12.464636>. Citado na
página 19.
14 WINKLER, S. Digital Video Quality – Vision Models and Metrics. [S.l.]: John Wiley
& Sons, 2005. Citado 2 vezes nas páginas 19 e 25.
58
Referências
15 ITU-R BT. Recommendation ITU-R BT.500-13, Methodology for the subjective
assessment of the quality of television pictures. 2012. Citado 3 vezes nas páginas 22, 24
e 25.
16 BOSLAUGH, S.; WATERS, P. A. Statistics in a Nutshell. [S.l.]: O’Reilly Media,
Inc., 2008. Citado 3 vezes nas páginas 22, 32 e 34.
17 WANG, Z.; BOVIK, A. C. Mean squared error: Love it or leave it? IEEE Signal
Processing Magazine, p. 98–117, 2009. Citado na página 26.
18 WANG, Z. et al. Image quality assessment: From error visibility to structural
similarity. IEEE Transactions on Image Processing, v. 13, n. 4, p. 600–612, April 2004.
Citado na página 26.
19 TOURANCHEAU, S. et al. Impact of subjective dataset on the performance
of image quality metrics. In: Image Processing, 2008. ICIP 2008. 15th IEEE
International Conference on. [s.n.], 2008. p. 365–368. ISSN 1522-4880. Disponível em:
<http://www.irccyn.ec-nantes.fr/spip.php?article552>. Citado 3 vezes nas páginas 29,
30 e 31.
20 SHEIKH, H. et al. LIVE Image Quality Assessment Database Release 2",. 2012.
Official website. Disponível em: <http://live.ece.utexas.edu/research/quality>. Citado
3 vezes nas páginas 29, 30 e 31.
21 ROSSUM, G. van. Python.org. 2013. Disponível em: <http://python.org/>. Citado
na página 35.
22 IPYTHON.ORG. IPython.org. 2014. Disponível em: <http://ipython.org/>. Citado
na página 35.
23 ZAMPOLO, R. de F.; SEARA, R. A comparison of image quality metric
performances under practical conditions. In: Image Processing, 2005. ICIP 2005. IEEE
International Conference on. [S.l.: s.n.], 2005. v. 3, p. III–1192–5. Citado 3 vezes nas
páginas 39, 41 e 42.
Download

ITU - LaPS