Luiz Felipe Angioletti Soares Comparação de Estratégias Estatísticas Recomendadas pela International Comunications Union (ITU) para Aferição de Qualidade de Imagens Digitais Belém janeiro de 2014 Luiz Felipe Angioletti Soares Comparação de Estratégias Estatísticas Recomendadas pela International Comunications Union (ITU) para Aferição de Qualidade de Imagens Digitais Trabalho de Conclusão de Curso para obtenção de grau de Engenheiro da Computação pela Faculdade de Engenharia da Computação e Telecomunicações, Instituto de Tecnologia, Universidade Federal do Pará. Universidade Federal do Pará – UFPA Instituto de Tecnologia Faculdade de Engenharia da Computação e Telecomunicações Orientador: Prof. Ronaldo de Freitas Zampolo Belém janeiro de 2014 Luiz Felipe Angioletti Soares Comparação de Estratégias Estatísticas Recomendadas pela International Comunications Union (ITU) para Aferição de Qualidade de Imagens Digitais Trabalho de Conclusão de Curso para obtenção de grau de Engenheiro da Computação pela Faculdade de Engenharia da Computação e Telecomunicações, Instituto de Tecnologia, Universidade Federal do Pará. Trabalho aprovado com conceito . Belém, 14 de janeiro de 2014: Prof. Ronaldo de Freitas Zampolo Orientador Prof.ªValquiria Gusmão Macedo Membro da banca avaliadora Prof. Eurípedes Pinheiro dos Santos Membro da banca avaliadora Belém janeiro de 2014 Dedico este trabalho a meus pais, Luiz e Beti que com tanta paciência, e por tantos anos, me nutriram física, emocional e intelectualmente. Agradecimentos Minha graduação foi longa, muito longa. Mas também muito rica de experiências que ajudaram, e ainda ajudam, a construir um caráter mais forte, digno e correto, perante as viscissitudes. Entre dois cursos, me formo no segundo, o do coração, tendo enfrentado problemas de saúde, aproveitado um intercâmbio em outro país, aprendendo com outra cultura, sobre o mundo, as pessoas e sobre mim mesmo. Saio da Universidade Federal do Pará uma pessoa totalmente diferente daquela que, há dez anos, entrou. Sobre essa pessoa diferente, professores e amigos ajudaram a construir um profissional de engenharia, que agora olha para o mundo, deixando pra trás o que é tão conhecido e familiar — afinal, foram 10 anos! —, para encontrar novos horizontes. Meus agradecimentos vão aos muitos professores que mostraram a forma correta de ser profissional, em especial, e não por acaso: meu orientador e os avaliadores da banca que avaliou esse trabalho. O Prof. Ronaldo Zampolo me acolheu desde muito cedo no curso e me ensinou não só a técnica de ser engenheiro, mas também proveu muitas conversas proveitosas. A Prof.ª Valquiria e o Prof. Eurípedes foram ótimos exemplos, cada um a seu modo, de profissionais comprometidos e competentes. No âmbito familiar, agradeço à minha noiva, que me acompanha em oito desses dez anos. Além de tudo que fez por mim, a Diana ainda me cedeu sua família, amorosa como ela. Tornaram-se minha família; Martha e suas filhas Julia, Camila e Luísa me ofereceram um segundo lar, aonde podia ir tomar outros ares. Muito obrigado a vocês, meninas, pelo incentivo e pelo carinho incondicional. Por último, ainda que não menos importante, meus pais e meu irmão, coautores e coadjuvante desse trabalho — a bem dizer, da minha vida até esse ponto. Esse sucesso é tanto deles quanto meu; a mim coube estudar, fazer provas e escrever. A eles coube todo o suporte para que, com todas as minhas dificuldades, eu conseguisse superar essa etapa da minha vida. Não existem palavras para agradecer tanta dedicação e paciência. Amo vocês, muito obrigado por me terem em suas vidas. Aos amigos, que tenho a sorte serem numerosos, com suas palavras de encorajamento, seus sorrisos e conversas, sua paciência ao ouvir minhas lamúrias, seus abraços calorosos. Todos tem uma parte no meu mundo e um dedo nessa etapa que se encerra. Entre os que fiz na Universidade, três merecem especial menção: Igor Almeida, Nagib Matni e Adriana Muniz. Muito grato pela oportunidade de tê-los conhecido. Entre os que fiz enquanto na Universidade, seria maldade mencionar todos. Alguns deles se encontram às sextas-feiras sob a alcunha de Evanjovem, merecem muitos “muito obrigados”. Resumo Procedemos duas análises paralelas sobre os opinion scores (OS) constantes nas bases de imagens “IRCCyN/IVC-Toyama database (LCD)” e “LIVE Image Quality Assessment Database”. Uma, como tradicionalmente acontece na área, considera os dados de OS como racionais; a outra os considera ordinais. O objetivo da comparação foi identificar possível vantagem na consideração dos OS como dados ordinais, frutos de uma avaliação categórica. Com base nas recomendações do International Communications Union (ITU) para a avaliação de métricas de qualidade de imagem, procedemos regressão não-linear dos dados (Levenberg-Marquadt) e o cálculo dos coeficientes de Pearson e Spearman, mas não calculamos a proporção de outliers. Computamos a validade da regressão através da goodness of fit, que indicou inadequação das métricas utilizadas em representar os dados originais. Ao final, percebemos que pela inadequação das métricas, nossa consideração sobre o tipo de dado a ser utilizado é inconclusiva e requer mais experimentos. Palavras-chaves: IRCCyN/IVC-Toyama database (LCD), LIVE Image Quality Assessment Database, dados racionais, dados ordinais, comparação, correlação, goodness of fit, qualidade de imagem Abstract Two parallel analyses were made based on the opinion scores (OS) comprised by the image databases “IRCCyN/IVC-Toyama database (LCD)” e “LIVE Image Quality Assessment Database”. In one hand, as it is usual in image quality research, the data (OS) were considered rational; on the other they were considered ordinal. We draw the comparisson with the objective of identifying possible advantage on considering the categorically-evaluated data as ordinal. According to recommendations from the International Communications Union (ITU) on image quality metrics assessment, we computed the non-linear regression over the data (Levenberg-Marquadt) and Pearson ans Spearman correlation coefficients, but not the outlier’s ratio. As a measure of fittnes of the regressed curve to the original data, we used the Goodness of Fit index, which pointed to complete inadequacy of the regression for all metrics. Finally, we realized that, because of the failure to translate image quality metric value into perceived quality on all the metrics used, our comparisson on the type of data utilised for the calculations was inconclusive and the question still needs more examining. Key-words: IRCCyN/IVC-Toyama database (LCD), LIVE Image Quality Assessment Database, rational data, ordinal data, comparisson, correlation, goodness of fit, image quality assessment Lista de ilustrações Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura 1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9 – 10 – 11 – 12 – 13 – 14 – 15 – 16 – 17 – 18 – 19 – 20 – 21 – 22 – 23 – 24 – 25 – 26 – 27 – 28 – 29 – 30 – Escala de avaliação contínua de qualidade . . . . . . . . . . . . . . . . Discrepâncias do MSE . . . . . . . . . . . . . . . . . . . . . . . . . . . Imagem de referência LIVE . . . . . . . . . . . . . . . . . . . . . . . . Imagem distorcida LIVE . . . . . . . . . . . . . . . . . . . . . . . . . . Histograma de OS da LIVE . . . . . . . . . . . . . . . . . . . . . . . . Histograma de OS da Toyama . . . . . . . . . . . . . . . . . . . . . . . Imagem de referência Toyama . . . . . . . . . . . . . . . . . . . . . . . Imagem distorcida Toyama . . . . . . . . . . . . . . . . . . . . . . . . Scatterplot Toyama racional MSE . . . . . . . . . . . . . . . . . . . . . Scatterplot Toyama racional PSNR . . . . . . . . . . . . . . . . . . . . Scatterplot Toyama racional MSSIM . . . . . . . . . . . . . . . . . . . Scatterplot Toyama racional MSE, com curva logística . . . . . . . . . Scatterplot Toyama racional PSNR, com curva logística . . . . . . . . . Scatterplot Toyama racional MSSIM, com curva logística . . . . . . . . Scatterplot Toyama ordinal PSNR, com curva logística quantizada . . . Scatterplot Toyama ordinal MSSIM, com curva logística quantizada . . Scatterplot Toyama ordinal MSE, com curva logística quantizada . . . Scatterplot LIVE racional MSE, com curva logística . . . . . . . . . . . Scatterplot LIVE racional PSNR, com curva logística . . . . . . . . . . Scatterplot LIVE racional MSSIM, com curva logística . . . . . . . . . Scatterplot LIVE racional MSE, dados e curva logística quantizados . . Scatterplot LIVE racional PSNR, dados e curva logística quantizados . Scatterplot LIVE racional MSSIM, dados e curva logística quantizados Histograma de dados quantizados da LIVE . . . . . . . . . . . . . . . . Scatterplot LIVE ordinal MSE, com curva logística . . . . . . . . . . . Scatterplot LIVE ordinal PSNR, com curva logística . . . . . . . . . . . Scatterplot LIVE ordinal MSSIM, com curva logística . . . . . . . . . . Scatterplot LIVE ordinal MSE, com curva logística quantizada . . . . . Scatterplot LIVE ordinal PSNR, com curva logística quantizada . . . . Scatterplot LIVE ordinal MSSIM, com curva logística quantizada . . . 24 27 30 30 31 31 31 31 37 38 38 40 40 41 43 43 44 45 46 46 47 48 48 49 50 50 51 51 52 52 Lista de tabelas Tabela Tabela Tabela Tabela Tabela Tabela Tabela Tabela Tabela 1 2 3 4 5 6 7 8 9 – – – – – – – – – Avaliação de degradação . . . . . . . . . . . . . . . . . . . . . . . . . Avaliação de qualidade . . . . . . . . . . . . . . . . . . . . . . . . . . Características das imagens das bases de dados . . . . . . . . . . . . Ferramentas estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . Avaliações de correlação e GoF para dados racionais da Toyama . . . Avaliações de correlação e GoF para dados ordinais da Toyama . . . Consolidação dos resultados da Toyama . . . . . . . . . . . . . . . . Avaliações de correlação e GoF para dados racionais da LIVE . . . . Avaliações de correlação e GoF para dados racionais quantizados da LIVE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabela 10 – Consolidação dos resultados racionais da LIVE . . . . . . . . . . . . Tabela 11 – Consolidação dos resultados ordinais da LIVE . . . . . . . . . . . . . . . . . . . . . 24 25 30 34 42 42 44 45 . 49 . 49 . 53 Sumário 1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2 2.1 2.1.1 2.1.2 2.1.2.1 2.1.2.2 2.1.2.3 2.2 2.3 2.3.1 2.4 2.5 2.6 2.6.1 2.6.2 2.6.3 2.6.4 2.7 2.7.1 2.7.2 Teoria de suporte e as bases de imagens Avaliação de qualidade de imagens . . . . . Avaliação subjetiva de qualidade . . . . . . Avaliação objetiva de qualidade . . . . . . . MSE . . . . . . . . . . . . . . . . . . . . . PSNR . . . . . . . . . . . . . . . . . . . . . MSSIM . . . . . . . . . . . . . . . . . . . . As bases de dados . . . . . . . . . . . . . . Considerações estatísticas . . . . . . . . . . Níveis de medição . . . . . . . . . . . . . . Ferramenta de software utilizada . . . . . . Consolidação dos dados . . . . . . . . . . . Experimentos: Toyama . . . . . . . . . . . Análise Racional . . . . . . . . . . . . . . . Regressão . . . . . . . . . . . . . . . . . . . Correlações e goodness of fit (GoF) . . . . Análise ordinal . . . . . . . . . . . . . . . . Experimentos: LIVE . . . . . . . . . . . . . Análise racional . . . . . . . . . . . . . . . Dados ordinais . . . . . . . . . . . . . . . . 3 3.1 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 21 22 24 26 26 26 29 32 32 35 36 37 37 39 41 42 44 44 49 Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 17 1 Introdução Ao longo dos últimos quarenta anos, com a difusão de tecnologias eletrônicas modernas, a palavra “digital” tem se tornado cada vez mais lugar comum. Nesse período, a tecnologia baseada em máquinas de cálculo automatizado que ocupavam prédios inteiros e eram operadas por poucos (para fins restritos) foi permeando nossa cultura global e ganhando destaque em vários campos do conhecimento e da vida humana. Na década de 1980 vimos o surgimento do computador pessoal e dos video-games. Adiante mais alguns anos, e a internet aparece, os microprocessadores estão mais “micro” e mais “processadores”, os consoles de video-game mais elaborados e seus clientes cada vez mais exigentes. Hoje, temos computadores móveis: tablets, celulares e câmeras digitais (para foto e vídeo) tornam-se quase onipresentes. Mídias digitais tornam-se tão importantes quanto protocolos de comunicação, redes sociais movimentam a opinião pública e servem de plataforma a revoluções [1]. Muitos indivíduos têm contas em várias redes sociais e máquinas portáteis em seus bolsos, prontas a fazer um vídeo ou uma foto e postá-los para apreciação popular. O volume de dados gerado é tão grande que plataformas como o Flickr (da americana Yahoo) abrigava, em 2011, mais de seis bilhões de imagens digitais [2], e o crescimento estimado de seu banco de imagens nos anos seguintes foi de um bilhão por ano — e essa é apenas uma de várias plataformas de hospedagem de publicação de mídias [3, 4]. Outro exemplo é o Youtube, onde seus mais de um milhão de usuários assitem mais de seis bilhões de horas de vídeo por mês. Outras plataformas de publicação de vídeo também têm números expressivos, como o caso do Vimeo, com mais de 200 petabytes de vídeos reproduzidos em 2012 [5]. Além de serviços de hospedagem de conteúdo disponíveis publicamente, mais recentemente surgiram serviços de streamming de filmes e séries, como o Netflix, já com mais de 40 milhões de usuários em 41 países, disponibilizando mais de um bilhão de horas de vídeo [6]. Esses números representam um desafio para a indústria, que se responsabiliza por receber, armazenar e distribuir esses dados sob demanda, para todo o globo. Outra entidade que acompanha esse desenvolvimento, e que o antecede em algumas décadas é a televisão, cujo pai aclamado é Philo Farnsworth, entre tantos outros engenheiros e contribuições [7]. Desde 1929 existe programação regular para TV sendo projetada no espaço, proveniente de ambos os lados do Atlântico (os Estados Unidos e o Reino Unido começaram a produzir programação regularmente na segunda metade de 1929) [7]. Com o nascimento dessa tecnologia, começou-se a discutir a necessidade de 18 Capítulo 1. Introdução avaliar a qualidade da imagem recebida em aparelhos de TV, e artigos como “Television images: an analysis of their essential qualities”, publicado por Jesty e Wintch, em 1937 [8], aparecem. Winch começa seu artigo de 1953 [9] com a afirmação (em tradução livre) “a adição de cores à televisão traz muitos novos problemas a um assunto já complexo”. E já em 1940, Peter Goldmark e John Dyer [10] apresentam quais características são mais importantes ao determinar-se a qualidade de uma imagem (para TV): definição, faixa de contraste, ângulo de visualização, brilho, efeitos da frequência de varredura (flickering), distorção geométrica, tamanho, cor e ruído. Algumas dessas características viriam a se tornar objetos de estudo da avaliação de qualidade de imagem (AQI) nos anos vindouros, sendo algumas delas inclusive usadas como bases para o cálculo de métricas de qualidade de imagem (fotografia e vídeo). Dado que um vídeo é constituído por uma sequência de quadros, a avaliação da qualidade de vídeo e de imagem andam entrelaçadas desde o início. Tanto o é, que a International Telecommunications Union — ITU (União Internacional de Telecomunicações, tradução livre) não faz distinção em seus documentos de padronização de qualidade entre vídeo e imagem [11]; e seu grupo especializado para esse fim é chamado Video Quality Experts Group (VQEG, Grupo de Peritos em Qualidade de Vídeo, tradução livre). Em tutorial da entidade normatizadora [11], encontramos recomendações para avaliação de qualidade de vídeo que podem ser também aplicadas a imagens. Neste trabalho seguiremos essas recomendações em parte. Vê-se que, com tanta demanda por imagem e vídeo, é necessário que se encontrem formas eficientes de armazená-los, acessá-los e garantir que o usuário final terá a qualidade esperada, ainda que os processos de compressão introduzam degradações. A questão da qualidade é razoavelmente complexa, já que envolve conceitos abstratos e subjetivos. Uma boa imagem para uma aplicação não o é, necessariamente, para outra. Um exemplo simples é a aquisição de vídeos de segurança em comparação com a aquisição de vídeo para entretenimento. No primeiro caso, a qualidade mínima e suficiente é aquela que garante a identificação de um possível infrator; na segunda, as exigências são mais altas. Temos ainda que considerar o custo-benefício: no primeiro caso a resolução tem que satisfazer os requisitos mínimos para a identificação de faces, mas também tem que ocupar pouco espaço em disco, já que câmeras de segurança, em sua maioria, funcionam continuamente. Quanto a produção de filmes de entretenimento, seu tamanho é fixo e a garantia da qualidade do produto final significa aumento de lucros em bilheterias pelo mundo afora. Bovik et al (2006) fazem distinção entre as abordagens de avaliação objetiva de qualidade de imagem considerando dois pontos de vista distintos [12]: uma abordagem base-topo, que considera as peculiaridades do sistema visual humano (SVH) e tenta modelar algoritmos que as assemelhem; e uma abordagem topo-base, que considera o SVH 19 como uma caixa preta e tenta modelar seus resultados a partir de relações entrada-saída. Métricas que seguem a abordagem base-topo levam em consideração aspectos de interesse do sistema biológico, bem como a parte psicológica da percepção visual. Esse trabalho não tratará desse tipo de abordagem e o leitor é direcionado aos trabalhos de [13] e [14] para maiores informações. A segunda abordagem (topo-base), que será alvo de estudo nesse trabalho, não aborda a psicofísica e se concentra em características da imagem que sejam relevantes à AQI. Para obter informações a respeito de qualidade percebida, sessões de avaliação são organizadas, onde pessoas são questionadas a respeito da qualidade de um conjunto de imagens. Após coletados os dados, o pesquisador tenta produzir um modelo que tenha como saída uma nota aproximada daquela dada pelos entrevistados. Obviamente, quanto menor o erro entre o sistema modelado e a avalição subjetiva dos indivíduos entrevistados, melhor o modelo. Aqui trabalharemos com duas bases de imagens distintas, proveniente de grupos de pesquisa independentes, que coletaram avaliações para as imagens constantes em suas bases de forma muito similar. Ambos os grupos de pesquisa tratam seus procedimentos de avaliação estatisticamente segundo as recomendações do ITU. Os tratamentos particulares de cada grupo de pesquisa e das recomendações do ITU serão abordados nesse trabalho. Nosso trabalho se concentra na comparação entre duas análises: uma que considera os dados coletados nas sessões de avaliação como dados racionais e a outra que considera esses mesmos dados ordinais. Dada a forma como a avaliação da qualidade de imagens é feita, pode-se argumentar que os dados provenientes de tais avaliações são de natureza categórica (mais especificamente ordinais), em contraponto a como os dados são tradicionalmente interpretados (como dados racionais). Essa discussão será aprofundada no Capítulo 2. Em ambas as análises procedemos, separadamente, os passos sugeridos pelo ITU para avaliação da pertinência de uma métrica de qualidade de imagem a um determinado conjunto de imagens. Ao final, comparamos os resultados de ambas as análises, que se apresentou inconclusivo, instigando ainda mais questionamentos. Esse documento está estruturado em cinco capítulos: Introdução, onde trazemos breve histórico da área e descrição sucinta do objetivo do trabalho; Teoria de suporte e as bases de imagens, onde situamos o leitor quanto às práticas da área de AQI, apresentamos os dados que serão manipulados e nossas interpretações desses dados; nos Níveis de medição, apresentamos nossas ferramentas, nosso trabalho e os resultados obtidos; nas Conclusões comentamos os resultados obtidos e possíveis caminhos a serem tomados a partir das conclusões do presente trabalho; finalmente, listamos documentos que serviram de base para a produção desta obra. 21 2 Teoria de suporte e as bases de imagens Para que possamos fazer uma análise comparativa entre estratégias estatísticas, temos que, antes, entender suas diferenças e similaridades, bem como as características dos dados com os quais estamos lidando. Assim, este capítulo será dividido em três grandes seções, uma destinada às práticas da área de avaliação de qualidade de imagem e as métricas utilizadas nesse trabalho; outra destinada à apresentação das bases de imagens utilizadas; e a última apresentando a teoria que dá suporte às nossas interpretações dos dados utilizados. 2.1 Avaliação de qualidade de imagens Como dito na Introdução, os atuais usos de imagens e vídeos digitais têm sua abrangência amplificada, na medida em que novos serviços surgem no mercado e que mais usuários utilizam esses serviços. Isso, se torna um desafio para a indústria, que precisa encontrar formas cada vez mais econômicas e eficientes de entregar seus produtos (mídias digitais) utilizando a infraestrutura de comunicação existente e com o mínimo custo computacional e de armazenamento. Para resolver problemas de armazenamento e tráfego, algoritmos de compressão foram desenvolvidos. Padrões de compressão, como o JPEG e MPEG (imagem e vídeo, respectivamente), são frequentemente utilizados no tráfego de dados via internet. Esses algoritmos podem ser divididos em duas categorias: a dos “com perdas” (lossy) e a dos “sem perdas” (lossless). Exemplos de algoritmos lossless para imagens são PNG e TIFF. “Sem perdas” significa que, uma vez descompactas, as imagens são iguais às images originais. Algoritmos lossy consideram a perda de informação visualmente menos relevante como meio de atingir taxas de compressão mais elevadas. Exemplos são os já citados JPEG e MPEG. A nós interessam considerações sobre os métodos de compressão com perdas, já que eles são capazes de economizar mais banda da rede de comunicação e otimizar ainda mais o armazenamento, em relação aos métodos sem perdas. Estabelece-se então uma relação de compromisso entre compactação e qualidade. Qual o ponto de melhor compromisso entre taxa de compactação e qualidade visual para que, aferindo economia dos custos de armazenamento e transmissão, mantenha-se a mesma qualidade percebida no produto final? Nesse contexto se situa o campo de pesquisa em qualidade de imagem. E como aferir essa qualidade? Atualmente, encontra-se duas formas distintas e dependentes: os métodos subjetivo e objetivo de aferição de qualidade visual. 22 Capítulo 2. Teoria de suporte e as bases de imagens 2.1.1 Avaliação subjetiva de qualidade O método subjetivo é o mais confiável, pois se baseia na aferição de qualidade a partir de observações humanas: a pessoas são apresentadas imagens, cujas qualidades são aferidas e anotadas. Esse método, contudo, apresenta algumas restrições e a primeira delas é de ordem econômica. Para que a aferição seja feita por seres humanos é necessário, em geral, que esses sujeitos sejam pagos para tal tarefa, implicando também em espaço próprio para esse tipo de atividade, e portanto, mais custos. O segundo grande custo é o tempo: aferições humanas dependem de logística e tempo para coleta e processamento dos dados obtidos. Outra questão é a da validade das medidas. O ITU recomenda no mínimo 15 (quinze) sujeitos distintos em cada sessão de avaliação [15, p.08]. Como será visto na seção 2.2, as bases com as quais trabalhamos, largamente conhecidas e exploradas na área, atendem à essas recomendações. Problemas que podem ser encontrados em estudos estatísticos são os chamados “bias”, que podem ser inseridos em um estudo a partir da amostragem indevida da população para participação nos testes, ainda na fase de design de tais testes [16]. Esse tipo de consideração deve ser feita sobre as imagens que analisamos, já que estudos demonstram que especialistas na área de qualidade visual tendem a ser mais criteriosos em suas avaliações de qualidade; principalmente por já saberem o que procurar, no que tange a erros e distribuição espacial destes [15, p.08]. Por conta dessa grande diversidade de fatores que influenciam a avaliação de qualidade de uma imagem e a validade estatística dos resultados, foram criados padrões de teste, que foram normatizados pelo ITU [15]. Os dois métodos que recebem maior destaque na recomendação do ITU são: Double stimulus impairment scale (DSIS): ao sujeito avaliador são apresentadas duas imagens em sequência, a de referência e a degradada. A seguir, é solicitada a avaliação de qualidade da última em comparação com a qualidade da primeira em mente. Em sessões de avaliação, os pares de imagens referência-degradada são apresentados aleatoriamente, bem como são aleatórias também as distorções apresentadas, dentro do conjunto de distorções sob análise. Entre cada uma das imagens é apresentada uma imagem de descanso, normalmente uma escala de cinza. Esse método usa a escala de degradação apresentada na Tabela 1, em oposição à escala de qualidade (Tabela 2). As imagens de referência e de teste podem ser apresentadas apenas uma vez, ou duas vezes, para avaliação do mesmo sujeito, em uma mesma sessão. Quanto à escala de avaliação, o ITU sugere que os valores estejam dispostos de forma visivel no formulário de avaliação, na forma de caixas de escolha [15, p.12]. Double stimulus continuous quality scale (DSCQS): são apresentadas ao avali- 2.1. Avaliação de qualidade de imagens 23 ador duas imagens simultaneamente: uma de referência e outra distorcida; é então questionada a qualidade de ambas as imagens, simultaneamente. O avaliador deve emitir sua avaliação marcando na posição corresponde em uma escala vertical como na Figura 1. As barras são impressas aos pares para acomodar a apresentação paralela de imagens relacionadas. Além destes, alguns outros métodos existem, variando o tempo e a forma como as imagens são expostas, se há ou não repetição, ou se há ou não referência. O próximo método é de especial importância para esse trabalho, dado que é o método aplicado pelos grupos de pesquisa que geraram as bases com as quais trabalhamos. Single stimulus (SS): Trata-se de um método de avaliação que apresenta uma série de imagens para avaliação, em sequência aleatória a cada sessão, para cada avaliador. Entre cada imagem sendo avaliada é posta uma imagem de descanso, geralmente em escala de cinza. Esse método tem três tipos distintos de avaliação: Adjectival categorical judment method: que em tradução livre quer dizer “Método de avaliação categórica segundo adjetivos”. O avaliador associa cada imagem a uma categoria, do conjunto de categorias apresentadas na Tabela 2. Non-categorical judment method: em avaliações não-categóricas, o avaliador atribui à imagem avaliada um valor, este método, por sua vez tem duas formas. Em sua versão de escala contínua, ao avaliador é dada uma barra vertical com limites semânticos (como por exemplo os valores semânticos limites da escala na Tabela 2), onde ele deve marcar sua avaliação. Na versão de escala numérica, o avaliador deve atribuir um valor à qualidade percebida da imagem. O intervalo de valores pode ser aberto ou fechado. Esse valor pode ser absoluto ou relativo a uma imagem de referência, por exemplo. As avaliações individuais de cada imagem são usualmente chamadas de opinion scores (valores de opinião, em tradução livre) e serão abreviadas nesse trabalho por OS. A média de todas as avaliações individuais para uma imagem é, por sua vez, chamada mean opinion score, ou média dos valores de opinião; valor que será indicado pela sigla MOS. Existe ainda a medida da opinião segundo um baseline, em que subtrai-se da avaliação da imagem de referência a avaliação da imagem distorcida, ambas para um mesmo indivíduo. A essa medida dá-se o nome de differential opinion score, cuja sigla, costumeiramente é DOS. A média dos DOS, por sua vez, é o DMOS. Esse tipo de medida com baseline tem por justificativa normalizar a opinião de um mesmo indivíduo a partir de sua avaliação da imagem de referência. 24 Capítulo 2. Teoria de suporte e as bases de imagens Figura 1 – Escalas de avaliação contínua de qualidade. Os números acima das barras indicam o par de imagens sob avaliação, os valores qualitativos à esquerda se aplicam a todas as barras na mesma linha. As expressões encontram-se traduzidas na Tabela 2. Fonte: [15, p.15] Tabela 1 – Valores para a avaliação DSIS. Os significados foram traduzidos livremente da fonte. Valor Significado 5 imperceptível 4 perceptível mas irrelevante 3 levemente incômodo 2 incômodo 1 muito incômodo Fonte: [15, p.11] 2.1.2 Avaliação objetiva de qualidade A alternativa que surge aos métodos subjetivos é a implementação de algoritmos e modelos computacionais que possam aferir e indicar a qualidade de uma imagem automaticamente. Claramente, uma imagem não tem para um sistema computacional o mesmo significado que tem para humanos — não passa de uma string de bits. Nós avaliamos conteúdo e estrutura, reconhecemos uma paisagem ou uma pessoa. Existem informações semânticas em imagens que fazem sentido apenas para humanos, enquanto outras informações podem ser extraídas para fins estatísticos numa tentativa de caracterizar a imagem objetivamente. Dessa forma, busca-se um modelo computacional que seja capaz de indicar a provável qualidade percebida por humanos. Esse tipo de modelo é de grande importância no desenvolvimento de algoritmos de compressão de imagem e vídeo para 25 2.1. Avaliação de qualidade de imagens Tabela 2 – Valores para a avaliação categórica segundo adjetivos. Os significados foram traduzidos livremente da fonte. Valor Significado 5 excelente 4 bom 3 regular 2 ruim 1 muito ruim Fonte: [15, p.18] consumo humano, justamente por retirar da problemática de avaliação de qualidade as restrições impostas pela avaliação humana, otimizando a utilização dos recursos existentes para distribuição e armazenamento desse tipo de dado. O método de avaliação subjetiva ainda é o benchmark contra o qual todos os métodos objetivos são comparados. Em nosso estudo, seguindo as tendências da área, apresentamos gráficos que trarão os valores de métrica nas abscissas e valores de OS (e variantes) nas ordenadas. As estratégias para avaliação de qualidade de imagem podem ser distribuídas em três grupos [14]: Avaliação baseada em pixels: Os métodos de avaliação de qualidade desse grupo advém principalmente de outras áreas de processamento de sinais e são razoavelmente bem conhecidas nas engenharias como um todo: MSE (Mean Square Error, Erro Quadrático Médio) e PSNR (Peak Signal-to-Noise Ratio, Razão entre Pico do Sinal e Ruído). Dentro da área de avaliação de qualidade visual, foi desenvolvida outra métrica em anos recentes, o MSSIM (Mean Structural Similarity Index, Índice de Similaridade Estrutural Média), que ganhou relevante destaque em publicações da área. Avaliação baseada em um canal: Foi o primeiro modelo baseado em visão humana adotado e interpretava o sistema visual humano como um filtro espacial, cujas características são definidas pela função de sensibilidade a contraste (contrast sensitivity function, CSF). Sua saída é uma versão filtrada do estímulo original e a detecção depende da definição de um limiar. Avaliação baseada em múltiplos canais: Modelos desse tipo assumem que cada banda das frequências espaciais é tratada por um canal diferente. Aqui, a CSF funciona como um envelope para as sensibilidades desses canais. A detecção ocorre 26 Capítulo 2. Teoria de suporte e as bases de imagens independentemente em cada canal e também depende da definição de um limiar para cada canal. Esse trabalho se concentra nas avaliações baseadas em pixel, as quais passamos a explicar com mais detalhes. Mais especificamente, trabalhamos com as três métricas mencionadas, o MSE, a PSNR e o MSSIM. 2.1.2.1 MSE O MSE é definido como: 𝑀 𝑆𝐸 = 𝑁 1 ∑︁ (𝑦𝑖 − 𝑥𝑖 )2 𝑁 𝑖=1 (2.1) onde 𝑁 é o número total de pixels; 𝑥 indica a imagem de referência; 𝑦 é a imagem distorcida; 𝑖 indica um pixel em particular. Essa métrica traduz as distorções em um único número e tem sido bastante criticada por sua inadequação ao traduzir distorções com diferente importância perceptual num mesmo valor de erro resultante [17]. Um exemplo de diversas distorções com valores similares de MSE pode ser visto na Figura 2. 2.1.2.2 PSNR A PSNR é definida em função do MSE como apresentado na Equação 2.2, onde 𝑀 é o valor máximo que um pixel pode assumir (em imagens de 8 bits, 𝑀 = 255, por exemplo). 𝑃 𝑆𝑁 𝑅 = 10 log 𝑀2 𝑀 𝑆𝐸 (2.2) Enquanto o MSE é uma medida de erro, a PSNR é uma medida de fidelidade, ou seja, o quanto uma imagem é semelhante a uma original. O fato de essas duas métricas serem muito fáceis e rápidas de serem calculadas, aliado ao fato de que minimizar a MSE é equivalente a otimização por quadrados mínimos, faz dessas duas métricas ferramentas muito populares. 2.1.2.3 MSSIM Essa métrica foi proposta por Wang et al. em 2004 [18] e é descrita como apresentado na Equação 2.11. Os autores indicam que a métrica funciona em três níveis: luminância, contraste e estrutura. A imagem de referência e a imagem distorcida são comparadas nesses três níveis, conforme passamos a explicar. 27 2.1. Avaliação de qualidade de imagens Figura 2 – Discrepâncias do MSE, (a) é a imagem de referência, de (b) a (j) são aplicados diferentes tipos de distorção. Note que entre (b) e (g) o valor de MSE é próximo, apesar de as distorções e qualidades percebidas serem bastante diferentes. Já de (h) a (j) o MSE tem valores elevados, mas a qualidade da imagem não é tão fortemente afetada. Fonte: [12, p.06] A Equação 2.3 indica como é feito o cálculo da luminância para uma imagem 𝑥 28 Capítulo 2. Teoria de suporte e as bases de imagens com 𝑁 pixels avaliados separadamente. 𝑁 1 ∑︁ 𝑥𝑖 𝑁 𝑖=1 𝜇𝑥 = (2.3) Após determinada a luminância, a função de comparação de luminância 𝑙(𝑥, 𝑦) é definida como apresentado na Equação 2.4, onde 𝐶1 é uma constante (criada a partir de características da imagem) adicionada para contornar o caso em que o denominador torna-se muito próximo de zero, o que levaria a comparação ao infinito. 𝑙(𝑥, 𝑦) = (2𝜇𝑥 𝜇𝑦 + 𝐶1 ) 𝜇2𝑥 + 𝜇2𝑦 + 𝐶1 (2.4) Os autores utilizam o desvio padrão como estimativa do contraste de uma imagem, que em sua forma discreta é apresentado como: 𝑁 1 ∑︁ 𝜎𝑥 = (𝑥𝑖 − 𝜇𝑥 )2 𝑁 − 1 𝑖=1 [︃ ]︃ 12 (2.5) Estabelecidos os valores de contraste para 𝑥 e 𝑦, tem-se a função de comparação de contraste 𝑐(𝑥, 𝑦). Essa função pode ser vista na Equação 2.6, onde, mais uma vez, uma constante (𝐶2 , que também deriva de características das imagens em questão) é adicionada para estabilidade. 𝑐(𝑥, 𝑦) = 2𝜎𝑥 𝜎𝑦 + 𝐶2 𝜎𝑥2 + 𝜎𝑦2 + 𝐶2 (2.6) Por último, a estrutura é definida em função do desvio padrão normalizado entre 𝑥 e 𝑦: 𝑠(𝑥, 𝑦) = 𝜎𝑥𝑦 + 𝐶3 𝜎𝑥 𝜎𝑦 + 𝐶3 (2.7) com 𝜎𝑥𝑦 definido como na Equação 2.8, onde o índice 𝑖 indica o pixel sob avaliação, de um total de 𝑁 pixels. 𝜎𝑥𝑦 = 𝑁 1 ∑︁ (𝑥𝑖 − 𝜇𝑥 )(𝑦𝑖 − 𝜇𝑦 ) 𝑁 − 1 𝑖=1 (2.8) Enfim, relacionando as três funções de comparação, temos a relação de comparação da Equação 2.9, com 𝛼, 𝛽, 𝛾 > 0 e modificados de acordo com a relevância de cada característica. 𝑆𝑆𝐼𝑀 (𝑥, 𝑦) = [𝑙(𝑥, 𝑦)]𝛼 · [𝑐(𝑥, 𝑦)]𝛽 · [𝑠(𝑥, 𝑦)]𝛾 (2.9) 29 2.2. As bases de dados A equação resulta, portanto, na Equação 2.10, para 𝛼 = 𝛽 = 𝛾 = 1 e 𝐶3 = 𝐶2 /2: 𝑆𝑆𝐼𝑀 (𝑥, 𝑦) = (2𝜇𝑥 𝜇𝑦 + 𝐶1 )(2𝜎𝑥𝑦 + 𝐶2 ) + 𝜇2𝑦 + 𝐶1 )(𝜎𝑥2 + 𝜎𝑦2 + 𝐶2 ) (𝜇2𝑥 (2.10) O uso da SSIM, e o cálculo de todas as médias e desvios descritos até aqui pode ser feito sobre uma janela de pixels, que se move, pixel a pixel, sobre toda a imagem; a cada passo, as estatísticas são calculadas para cada janela. No artigo original, os autores utilizam uma janela gaussiana com dimensões 11 × 11. Finalmente, a MSSIM é calculada como: 𝑀 𝑆𝑆𝐼𝑀 (𝑥, 𝑦) = 𝐽 1 ∑︁ 𝑆𝑆𝐼𝑀 (𝑥𝑗 , 𝑦𝑗 ) 𝐽 𝑗=1 (2.11) onde 𝑥 e 𝑦 são as imagens de referência e distorcida, respectivamente; e o conteúdo da imagem correspondente a j-ésima janela é indicado por 𝑥𝑗 e 𝑦𝑗 ; 𝐽 é a quantidade de janelas sobre a imagem. No algoritmo utilizado em nosso trabalho, 𝛼 = 𝛽 = 𝛾 = 1 e: 𝐽 = 255, 𝐶1 = 0, 012 , 𝐶2 = 0, 032 , com 𝐶3 = 𝐶2 /2. 2.2 As bases de dados Para o cumprimento desse trabalho, escolhemos duas bases de imagens diferentes, que chamaremos simplesmente Toyama e LIVE. A base Toyama é, na verdade, chamada “IRCCyN/IVC-Toyama database (LCD)” e tem acesso franqueado no site [19] do IRCCyN (Institut de Recherche en Communications et Cybernétique de Nantes), da Universidade de Nantes, na França. A base LIVE é oficialmente conhecida como “LIVE Image Quality Assessment Database” e tem acesso também franqueado no site [20] do LIVE (Laboratory for Image & Video Engineering). Utilizamos sua release 1 nesse trabalho, por ser a única que disponibilizava dados de avaliação subjetiva para compressão JPEG. Ambas as bases possuem imagens de referência (não degradadas) e um determinado número de imagens degradadas com diferentes tipos e graus de degradação; nosso trabalho se concentra na degradação do tipo JPEG, em todos os graus disponíveis nas bases. A Tabela 3 apresenta as principais características de ambas as bases. As Figuras 3 e 4 apresentam exemplos de imagem disponíveis na base LIVE; já as Figuras 7 e 8 provêm da base Toyama. As imagens à esquerda são imagens de referência, não-corrompidas, enquanto as da direita passaram por compressão JPEG. 30 Capítulo 2. Teoria de suporte e as bases de imagens Tabela 3 – Características das imagens das bases de dados utilizadas Toyama LIVE Número total de imagens 𝑇𝑖 98 204 Número de imagens de referência 𝐼𝑟 14 29 Número de imagens degradadas 𝐼𝑑 84 175 768 × 512 pixels 768 × 512 pixels Profundidade de cor 24 bits/pixel 24 bits/pixel Formato das imagens BMP BMP Tipo de degradação JPEG JPEG 15, 20, 27, 37, 55, 79 não informado 6 taxas não informado [1, 5] [0, 100] Categorias de qualidade 5 5 Sessões de avaliação distintas 1 2 Resolução das imagens na base Graus de degradação aplicados Diversidade de graus de degradação Faixa de valores de avaliação Fontes: [19, 20] Figura 3 – Imagem de referência LIVE Figura 4 – Imagem distorcida LIVE Fonte: [20] Fonte: [20] Segundo a documentação da LIVE, o procedimento de obtenção dos dados experimentais conduziu duas sessões de avaliação distintas. Os pesquisadores tiveram o cuidado de apresentar, em ambas as sessões, todas as imagens de referência e suas respectivas distorções. A quantidade de sujeitos no experimento foi diferente em cada sessão: na primeira, houve vinte sujeitos; apenas treze na segunda. Os pesquisadores afirmam que a escolha das imagens para o estudo foi tal que possibilitaria uma distribuição aproximadamente uniforme das notas de avaliação, o que pode ser visualizado no histograma da Figura 5, gerado diretamente a partir dos valores das notas individuais (OS). Não foi imposta restrição de distância de visualização para a avaliação e as imagens foram mostradas aos sujeitos aleatoriamente. Para emitir suas opiniões, os sujeitos poderiam levar 31 2.2. As bases de dados o tempo que necessitassem, mas poderiam visualizar cada imagem apenas uma vez. Os pesquisadores promoveram uma pequena sessão de treinamento antes do início de cada sessão de avaliação. Estas informações e maiores detalhes podem ser obtidos no site da referida base.[20] Figura 5 – Histograma das notas de avaliação subjetiva para a LIVE, gerado a partir da totalidade das imagens em codificação JPEG dessa base utilizadas nesse trabalho. Figura 6 – Histograma das notas de avaliação subjetiva para a Toyama, gerado a partir da totalidade das imagens em codificação JPEG dessa base utilizadas nesse trabalho. 1200 Quantidade Quantidade 1000 800 600 400 200 0 0 20 40 60 80 100 400 350 300 250 200 150 100 50 0 1 2 3 4 5 6 Valor de OS Valor de OS Fonte: o autor. Fonte: o autor. Figura 7 – Imagem de referência Toyama Figura 8 – Imagem distorcida Toyama Fonte: [19] Fonte: [19] Segundo o arquivo de informações que acompanha a base Toyama, foram dezesseis não-peritos que avaliaram as imagens dessa base, em sua maioria estudantes, não informando se houve ou não sessões distintas (e por isso assumimos uma única sessão). Da mesma forma que a LIVE, as imagens foram apresentadas aleatoriamente, sem restrição de tempo e também com apenas uma oportunidade de visualização para avaliação de cada imagem. Neste estudo foi imposta a distância de observação igual a quatro vezes a altura da imagem. A Toyama apresenta dezesseis valores de OS para cada imagem, totalizando, 32 Capítulo 2. Teoria de suporte e as bases de imagens portanto, os dezesseis sujeitos no experimento. O histograma das notas de avaliação das imagens dessa base pode ser observado na Figura 6 (também gerado a partir dos OS). Podemos, portanto, avaliar que, conforme indicado em seu arquivo de informações, a Toyama utiliza o método de avaliação Single Stimulus em sua subcategoria Adjectival Categorical Judment Method enquanto a LIVE informa ter feito sua avaliação usando uma barra vertical como a da DSCQS, convertendo as marcas das avaliações a posteriori para uma escala linear e contínua no intervalo [0, 100], não se enquadrando em nenhuma recomendação específica do ITU (já que mistura dois procedimentos distintos). Há ainda outra distinção a ser feita é sobre a qualidade dos dados coletados por ambos os grupos de pesquisa. Ambos os grupos deram a seus sujeitos uma escala qualitativa conforme o exposto na Tabela 2 mas cada uma associou a essas palavras uma escala quantitativa diferente: além de os intervalos de avaliação serem distintos, como pode ser observado na Tabela 3, esses intervalos se distiguem quanto à continuidade. A LIVE considera contínuo e linear o domínio de avaliação, enquanto a Toyama considera esse domínio discreto. Ou seja, na LIVE encontraremos notas como 4, 55, ou 94, 2 e na Toyama, apenas os inteiros no intervalo [1, 5]. A Toyama ainda informa que seus testes foram executados conforme as condições de avaliação apontadas no ITU-R Rec. 500-10 (de março de 2010). 2.3 Considerações estatísticas Comentaremos sobre a nossa interpretação dos dados e as ferramentas utilizadas para chegar a conclusões sobre esses dados. 2.3.1 Níveis de medição Existem quatro tipos de dados estatísticos [16, p.02-04]: Dados racionais: a maioria das medições físicas. Os dados desse tipo de medição são naturalmente ordenáveis (têm uma ordem clara), os intervalos que distanciam duas unidades de medição são constantes; e esses dados tem um zero natural. Um exemplo: ao medir-se o comprimento de uma pessoa, faz sentido dizer que um adulto de 1, 80 m é duas vezes maior que uma criança de 0, 90 m. Faz sentido também que se meça 0, 0 m, e os dados 0, 90 m 0, 20 m, 1, 20 m podem ser ordenados de forma crescente. Esse tipo de dado é chamado racional por ser pertinente a operação de divisão (razão) entre dois de seus elementos. Dados intervalares: possuem as mesmas características dos dados racionais, com a exceção do zero natural, o que faz com que a razão entre dois elementos de um 2.3. Considerações estatísticas 33 conjunto de dados intervalares seja sem significado. Um exemplo é a escala Celsius, utilizada para medir temperatura. Ainda que a distância entre 10 ∘ C e 11 ∘ C seja igual à distância entre 20 ∘ C e 21 ∘ C, não faz sentido dizer que 20 ∘ C é duas vezes mais quente do que 10 ∘ C, já que a razão (e sua contra-partida, a multiplicação) não é definida para esse tipo de dado. Dados ordinais: possuem uma ordem natural, no sentido de que valores mais altos representam mais de uma determinada característica do que valores menores. Não existe analogia métrica, onde se possa colocar uma régua e medir a distância entre dois de seus pontos, apesar de eles poderem ser, claramente, ordenados do mais ao menos significativo. É o caso, por exemplo, do nível de adequação de candidatos a vagas de emprego. Sempre haverá um mais apto e um menos apto, não se pode, contudo, medir a distância entre eles. Operações como adição e subtração perdem significado aqui, já que não é possível indicar quanto de “aptidão” tem-se que adicionar a um currículo A para que ele tenha a mesma “aptidão” à vaga que um currículo B. Esses são dados essecialmente categóricos e ferramentas como a média não têm sentido aqui. Ao invés da média tem-se que adotar outro indicador de centralidade; mediana e moda são as mais recomendadas. Dados nominais: aqui, números (quando usados) não trazem informação de ordenação, já que esses dados não apresentam características que os permitam ser ordenados. É o caso, por exemplo, da classificação por gênero: existem apenas dois, distintos, sem informações de ordem, masculino e feminino. Para o caso em que ambas as classes fossem representadas por números, esses números não teriam significado de grandeza (1 para feminino e 0 para masculino, por exemplo), serviriam apenas para facilitar a arrecadação dos dados ou sua posterior organização por um sistema computadorizado. Aqui, da mesma forma, não fazem sentido as operações aritméticas e ferramentas categóricas têm que ser usadas para tratar esse tipo de dado. Aqui, apenas a moda se aplica como indicador de centralidade. Note que a classificação acima não leva em consideração se os dados são discretos ou contínuos. Dados contínuos são aqueles que podem assumir qualquer valor, ou qualquer valor dentro de um intervalo limitado (como é o caso da escala utilizada pela LIVE); dados discretos podem assumir apenas valores exatos e têm suas fronteiras bem delimitadas (como é o caso das medições produzidas pela Toyama). Outro exemplo de dados discretos são aqueles que advêm de contagem, como o número de pessoas em uma residência. Assim, a partir do exposto, dados intervalares e racionais tendem a ser contínuos, enquanto os ordinais e nominais tendem a ser discretos. Por outro lado, não existe uma barreira intransponível entre os dois tipos de dados: ao se registrar a idade de indivíduos em anos está-se discretizando uma entidade contínua. Outro exemplo é a categorização 34 Capítulo 2. Teoria de suporte e as bases de imagens de dados contínuos para melhor manipulação ou exibição dos dados, como se faz ao se gerar um histograma. À luz do exposto, alguns detalhes sobre as bases e os processos de arrecadação de dados pelos laboratórios que ora consideramos ficam mais claros. É fácil perceber que a quantidade de “excelência” de uma imagem não pode ser quantificada, já que avaliações por adjetivos não são matematicamente operacionalizadas diretamente (dois “regulares” não fazem um “bom”), e ferramentas estatísticas que lidam com categorias seriam mais adequadamente utilizadas. Nesse quesito, se formos rigorosos a partir das informações estatísticas apresentadas, equívocos são cometidos ao misturaremse dois domínios de dados para análise estatística, e esses equívocos advêm da própria organização que padroniza essa coleta de dados (ITU). A distinção entre os dados se faz necessária para que possamos escolher as ferramentas a serem utilizadas na sua manipulação. A Tabela 4 indica as ferramentas que usaremos na interpretação dos dados ora em estudo. Tabela 4 – Tabela de ferramentas estatísticas adequadas a tipos de dados. 𝑃 (𝑀 𝑜) indica a frequência relativa da moda sobre o total de dados coletados. Tipo de dado Tendência Central Dispersão Racional média variância Intervalar mediana 2ºe 3º quartis Ordinal mediana 2ºe 3º quartis Nominal moda 1 − 𝑃 (𝑀 𝑜) Fonte: [16] Com ressalva feita aos dados ordinais, que comportam também como medida de centralidade a moda e seu respectivo estimador de dispersão. No próximo capítulo trataremos das análises dos dados experimentais e retomaremos a discussão da pertinência de ferramentas categóricas à análise dos dados em mãos. 2.4. Ferramenta de software utilizada 35 achapterProcedimentos experimentais Os procedimentos de validação de uma métrica de qualidade visual passam por três testes, de acordo com as recomendações do ITU [11]: Precisão: utilização recomendada do coeficiente de correlação de Pearson, com seu respectivo valor para o teste de significância (p-value) Monotonicidade: coeficiente de correlação de Spearman. O ITU não solicita, mas apresentaremos também para essa correlação o p-value pertinente. Consistência: recomendada a proporção de outliers, considerando 𝜇 ± 2𝜎 como limiar. Neste trabalho, calculamos o coeficiente de Pearson como indicador de precisão, utilizamos o coeficiente de Spearman como indicador de monotonicidade, mas não utilizamos a eliminação de outliers como determinante de consistência. Ao invés disso, calculamos o goodness of fit (GoF) para as regressões que fizemos sobre os dados. 2.4 Ferramenta de software utilizada Como instrumento de trabalho, optamos pelo linguagem de programação Python [21], em sua versão 2.7. Como ambiente de desenvolvimento para elaboração e execução do código-fonte, utilizamos o IPython Notebook [22] em sua versão 1.1.0. O Python é uma linguagem modular, e os seguintes módulos foram utilizados para elaboração do código-fonte: sys, os, pickle, shutil: são módulos de interface com o sistema operacional e manipulação de arquivos scipy: módulo para computação científica, utilizamos suas funções de otimização; glob: módulo para uso de expressões regulares simplificadas; collections: módulo que oferece estruturas de dados além das nativas da linguagem, além de oferecer outras ferramentas para manipulação das estruturas nativas; numpy: módulo para criação e manipulação de arrays e operações de álgebra linear; matplotlib: módulo para produção de gráficos; mpmath: módulo para operações em ponto flutuante, utilizamos funções oferecidas por esse módulo para o cômputo da goodness of fit 36 Capítulo 2. Teoria de suporte e as bases de imagens 2.5 Consolidação dos dados As bases de dados trazem as avaliações em sua forma bruta, nos permitindo escolher a forma como trabalharemos estes dados. A Toyama oferece uma planilha excel, onde lista, para cada linha uma imagem; e para cada imagem, dezesseis colunas de avaliação. A LIVE oferece três arquivos: um que relaciona as imagens de referência com as imagens degradadas, dois outros que relacionam as imagens às suas avaliações, um para cada sessão de avaliação. Os dados foram consolidados num objeto em nosso programa, cujos atributos e métodos nos permitiram operações mais diretas do que aquelas que seriam obtidas pela manipulação dos arquivos oferecidos. Os procedimentos experimentais foram praticamente os mesmos para ambas as bases, diferenciando apenas no necessário para se adaptar às características dos dados de cada uma. As análises serão como segue: Toyama: análise da base Toyama nos seguintes aspectos: Análise racional: seguimos a análise normatizada pelo ITU, com exceção do cálculo da GoF. Análise ordinal: seguimos os moldes da análise normatizada pelo ITU, mas calculamos os coeficientes de correlação e a GoF entre os dados originais da Toyama (original e naturalmente categóricos) e a função regredida quantizada. LIVE: análise da base LIVE nos seguintes aspectos: Análise racional: aqui também seguimos a análise normatizada pelo ITU com exceção do cálculo da GoF. Ao final, calculamos também a correlação entre os dados quantizados da LIVE e a função regredida contínua. Análise ordinal: quantizamos os dados de OS da LIVE e procedemos nos moldes do normatizado pelo ITU, calculando, ao final, a correlação e a GoF entre os dados quantizados e a regressão quantizada. Começaremos pela Toyama, por se tratar da base mais simples entre as duas. Seus dados foram coletados de forma categórica, e entendemos que o “racional” da análise que procedemos tem maior significado para a função fruto da regressão do que para seus dados brutos. 37 2.6. Experimentos: Toyama 2.6 Experimentos: Toyama 2.6.1 Análise Racional Uma vez consolidados os dados, procedemos o cálculo das métricas apresentadas no capítulo Teoria de suporte e as bases de imagens, para em seguida traçarmos scatterplots correspondentes. Figura 9 – Toyama, MSE para análise racional 5, 0 4, 5 4, 0 OS 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 0 10 20 30 40 50 60 70 80 MSE Fonte: o autor. As figuras 9, 10 e 11 mostram os valores das métricas para cada par de imagem (referência e distorcida) pelos dados individuais de avaliação de qualidade (OS). No caso da Toyama, como são dezesseis avaliações para cada imagem, obtemos dezesseis pontos de OS para cada valor de métrica. Os pontos mais escuros simbolizam mais pontos coincidentes, enquanto pontos mais claros simbolizam menos pontos. Para o cômputo da MSSIM, o algoritmo utilizado aplica uma janela gaussiana com variância 𝜎 2 = 1, 5 com formato de janela de 11 × 11 pixels, conforme é sugerido pelos autores do método. O papel de uma avaliação objetiva de qualidade é retornar, a partir de uma métrica qualquer, uma indicação de qualidade da imagem. A Toyama qualifica suas imagens no intervalo [1; 5], com 1 representando a menor qualidade percebida possível e 5 a máxima qualidade percebida possível (de acordo com a Tabela 2). Dessa forma, para que possamos 38 Capítulo 2. Teoria de suporte e as bases de imagens Figura 10 – Toyama, PSNR para análise racional 5, 0 4, 5 4, 0 OS 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 29 30 31 32 33 34 35 36 37 38 PSNR Fonte: o autor. Figura 11 – Toyama, MSSIM para análise racional 5, 0 4, 5 4, 0 OS 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 0, 70 0, 75 0, 80 0, 85 MSSIM Fonte: o autor. 0, 90 0, 95 1, 00 39 2.6. Experimentos: Toyama obter um valor de qualidade a partir da métrica, necessitamos encontrar uma função que, dada uma entrada (métrica), nos apresente uma saída (qualidade) correspondente. Para tal efeito, necessitamos de uma função nos moldes: 𝑓 (métrica) = valor indicador de qualidade (2.12) e para tanto, faz-se necessária uma regressão sobre os dados presentes. 2.6.2 Regressão Para este trabalho, escolhemos utilizar a estimação baseada na função do chiquadrado (chi-square estimation). Tal estimação tem a vantagem de ponderar os mínimos quadrados pelos seus desvios padrão, dessa forma atribuindo maior peso a dados menos variáveis [23]. Tal estimação é realizada segundo a minimização da função: 𝜒2 = 𝑁 ∑︁ 𝑖=1 [︃ 𝑦𝑖 − 𝑔(𝑥𝑖 ) 𝜎𝑖 ]︃2 (2.13) onde 𝑁 é o número total de pontos, (𝑦𝑖 , 𝑥𝑖 ) representam os dados coletados experimentalmente, 𝜎𝑖 é o desvio padrão da medição para um par 𝑖 e 𝑔(𝑥𝑖 ) representa a função escolhida para modelar a relação entre 𝑦𝑖 e 𝑥𝑖 . Tal modelagem entre os dados experimentais foi feita através da função logística, conforme definida na Equação 2.14, por possuir maio grau de liberdade (e número reduzido de parâmetros que evitam o overfitting) em relação à regressão linear, tanto da Toyama quanto da LIVE. 𝑔(𝑥𝑖 ) = 𝛽1 − 𝛽2 (︁ 3 1 + 𝑒𝑥𝑝 − 𝑥𝑖|𝛽−𝛽 4| )︁ + 𝛽2 (2.14) Os valores escolhidos como parâmetros iniciais para a regressão foram: 𝛽1 = max(𝑦𝑖 ), 𝛽2 = min(𝑦𝑖 ), 𝛽3 = 𝑥¯, que representa a média do vetor [𝑥1 , . . . , 𝑥𝑁 ] e 𝛽4 = 1. As figuras 12, 13 e 14 mostram o resultado da regressão utilizando o algoritmo Levemberg-Marquadt, para os dados da Toyama. Para tais regressões, calculamos suas precisão e monotonicidade, conforme a recomendação do ITU. 40 Capítulo 2. Teoria de suporte e as bases de imagens Figura 12 – Toyama, MSE para análise racional com curva de regressão logística sobreposta Logı́stica Toyama MSE vs. OS 5, 0 4, 5 4, 0 OS 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 0 10 20 30 40 50 60 70 80 MSE Fonte: o autor. Figura 13 – Toyama, PSNR para análise racional com curva de regressão logística sobreposta Logı́stica Toyama PSNR vs. OS 5, 0 4, 5 4, 0 OS 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 29 30 31 32 33 34 PSNR Fonte: o autor. 35 36 37 38 41 2.6. Experimentos: Toyama Figura 14 – Toyama, MSSIM para análise racional com curva de regressão logística sobreposta Logı́stica Toyama MSSIM vs. OS 5, 0 4, 5 4, 0 OS 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 0, 70 0, 75 0, 80 0, 85 0, 90 0, 95 1, 00 MSSIM Fonte: o autor. 2.6.3 Correlações e goodness of fit (GoF) Como dito, para avaliar a precisão, utilizamos a correlação de Pearson, que é definida como [23]: ∑︀𝑁 𝑃𝑟 = √︁∑︀ 𝑖=1 [𝑔(𝑥𝑖 ) 𝑁 𝑖=1 [𝑔(𝑥𝑖 ) − 𝑔¯][𝑦𝑖 − 𝑦¯] − 𝑔¯]2 √︁∑︀ 𝑁 𝑖=1 [𝑦𝑖 (2.15) − 𝑦¯]2 com 𝑔¯ e 𝑦¯ representando médias dos vetores [𝑔(𝑥1 ), . . . , 𝑔(𝑥𝑁 )] e [𝑦1 , . . . , 𝑦𝑁 ], respectivamente. Para avaliar a monotonicidade, utilizamos a correlação de Spearman, definida como [23]: ¯ 𝑖 − 𝑌¯ ) − 𝐺)(𝑌 √︁∑︀ 2 ¯ ¯ 2 𝑖 (𝐺𝑖 − 𝐺) 𝑖 (𝑌𝑖 − 𝑌 ) ∑︀ 𝑆𝑟 = √︁∑︀ 𝑖 (𝐺𝑖 (2.16) ¯ e 𝑌¯ suas respectivas onde 𝐺𝑖 e 𝑌𝑖 são as posições de 𝑔(𝑥𝑖 ) e 𝑦𝑖 , respectivamente, e 𝐺 médias. A goodness of fit, utilizada para medir a validade da regressão, é definida como: 𝑞 = 𝑄[0.5(𝑁 − 𝑀 ), 0.5𝜒2 ] (2.17) 42 Capítulo 2. Teoria de suporte e as bases de imagens onde 𝑄 é a função gama incompleta, 𝑁 o número total de pontos avaliados e 𝑀 o número de parâmetros utilizados na regressão. Por sua vez, a função gama incompleta é definida como [23]: 1 ∫︁ 𝑏 −𝑡 𝑎−1 𝑄(𝑎, 𝑏) = 1 − 𝑒 𝑡 𝑑𝑡, Γ(𝑎) 0 𝑎>0 (2.18) onde Γ(𝑎) é a função gama. Para que a regressão seja considerada adequada, 𝑞 ≥ 10−3 , caso contrário, considerase que a regressão não representa adequadamente os dados de que provém. A Tabela 5 apresenta os valores encontrados para essas avaliações: Tabela 5 – Avaliações de correlação e GoF para dados racionais da Toyama Métrica Pr Sr q MSE 0, 5213 0, 4061 0, 0 PSNR 0, 3233 0, 2048 0, 0 MSSIM 0, 6468 0, 6270 0, 0 Fonte: o autor. 2.6.4 Análise ordinal A diferença nessa abordagem é que quantizamos a saída da regressão logística, conforme pode ser visto nas figuras 17, 15 e 16. A Tabela 6 apresenta os valores calculados para esse tipo de dado. Tabela 6 – Avaliações de correlação e GoF para dados ordinais da Toyama Métrica Pr Sr q MSE 0, 4644 0, 4037 0, 0 PSNR 0, 1807 0, 1475 0, 0 MSSIM 0, 6298 0, 6169 0, 0 Fonte: o autor. Para fins de comparação e futura referência, consolidamos os dados da Toyama na Tabela 7. 43 2.6. Experimentos: Toyama Figura 15 – Toyama, PSNR para análise ordinal com curva de regressão logística quantizada sobreposta 5, 0 4, 5 4, 0 qOS 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 29 30 31 32 33 34 35 36 37 38 PSNR Fonte: o autor. Figura 16 – Toyama, MSSIM para análise ordinal com curva de regressão logística quantizada sobreposta 5, 0 4, 5 4, 0 qOS 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 0, 70 0, 75 0, 80 0, 85 MSSIM Fonte: o autor. 0, 90 0, 95 1, 00 44 Capítulo 2. Teoria de suporte e as bases de imagens Figura 17 – Toyama, MSE para análise ordinal com curva de regressão logística quantizada sobreposta 5, 0 4, 5 4, 0 qOS 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 0 10 20 30 40 50 60 70 80 MSE Fonte: o autor. Tabela 7 – Consolidação dos resultados da Toyama: regressão quantizada (análise ordinal) e não-quantizada (análise racional). Quantizada Métrica Não-quantizada Pr Sr q Pr Sr q MSE 0, 4644 0, 4037 0, 0 0, 5213 0, 4061 0, 0 PSNR 0, 1807 0, 1475 0, 0 0, 3233 0, 2048 0, 0 MSSIM 0, 6298 0, 6169 0, 0 0, 6468 0, 6270 0, 0 Fonte: o autor. 2.7 Experimentos: LIVE 2.7.1 Análise racional A LIVE se presta melhor à análise racional quando comparada com a Toyama, dado que seus valores são reais no intervalo [0; 100], apesar de isso não fazer sentido quando a avaliação é essencialmente categórica e qualitativa, como já exposto. As figuras 18, 19 e 20 apresentam as curvas obtidas através da regressão como apresentada nas equações 2.13 e 2.14. Os pontos azuis presentam os dados de OS da base LIVE. Na primeira sessão foram vinte avaliadores, na segunda treze, totalizando portanto 45 2.7. Experimentos: LIVE trinta e três avaliações por imagem. Pode-se observar que a variância da resposta para um determinado valor de métrica é bastante grande. Aqui, da mesma forma que para a Toyama, pontos com cores mais escuras representam mais coincidência de valores, pontos mais claros, menos coincidência. A Tabela 8 apresenta os valores de correlação e GoF calculados para esses dados. Figura 18 – LIVE, MSE para análise racional com curva de regressão logística sobreposta 100 80 OS 60 40 20 0 0 20 40 60 80 100 MSE Fonte: o autor. Tabela 8 – Avaliações de correlação e GoF para dados racionais da LIVE Métrica Pr Sr q MSE 0, 8646 0.8523 0, 0 PSNR 0, 8188 0, 8212 0, 0 MSSIM 0, 8882 0, 8710 0, 0 Fonte: o autor. Almejando maior justiça na comparação entre dados racionais e ordinais para a LIVE, ao final desse processo, quantizamos tanto os valores preditos pela função fruto de regressão quanto os valores de OS utilizados para chegar a tal regressão. Nas figuras 21, 22 e 23 vemos a versão quantizada das figuras 18, 19 e 20. A quantização efetuada simplesmente toma os valores reais e os categoriza no mesmo intervalo observado 46 Capítulo 2. Teoria de suporte e as bases de imagens Figura 19 – LIVE, PSNR para análise racional com curva de regressão logística sobreposta 100 80 OS 60 40 20 0 28 30 32 34 36 38 40 42 44 PSNR Fonte: o autor. Figura 20 – LIVE, MSSIM para análise racional com curva de regressão logística sobreposta 100 80 OS 60 40 20 0 0, 3 0, 4 0, 5 0, 6 0, 7 MSSIM Fonte: o autor. 0, 8 0, 9 1, 0 47 2.7. Experimentos: LIVE para a Toyama ([1, 5]) segundo a regra apresentada na Equação 2.19 𝑄(𝑚) = ⎧ ⎪ ⎪ ⎪1 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 2 ⎪ ⎪ ⎨ 3 ⎪ ⎪ ⎪ ⎪ ⎪4 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩5 se 0 ≤ 𝑚 < 20 se 20 ≤ 𝑚 < 40 (2.19) se 40 ≤ 𝑚 < 60 se 60 ≤ 𝑚 < 80 se 80 ≤ 𝑚 ≤ 100 onde m é o valor que se deseja quantizar, seja ele um valor OS ou um valor de OS predito (OSp ) pela função. Figura 21 – LIVE, MSE para análise racional, dados quantizados com curva de regressão logística também quantizada e sobreposta 5, 0 4, 5 4, 0 OS(p) 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 0 20 40 60 80 100 MSE Fonte: o autor. Para esses dados quantizados temos os valores das correlações e GoF na Tabela 9 Novamente, para referência futura e praticidade de comparação, consolidamos os resultados da análise racional da LIVE na Tabela 10. 48 Capítulo 2. Teoria de suporte e as bases de imagens Figura 22 – LIVE, PSNR para análise racional, dados quantizados com curva de regressão logística também quantizada e sobreposta 5, 0 4, 5 4, 0 OS(p) 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 28 30 32 34 36 38 40 42 44 PSNR Fonte: o autor. Figura 23 – LIVE, MSSIM para análise racional, dados quantizados com curva de regressão logística também quantizada e sobreposta 5, 0 4, 5 4, 0 OS(p) 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 0, 3 0, 4 0, 5 0, 6 0, 7 MSSIM Fonte: o autor. 0, 8 0, 9 1, 0 49 2.7. Experimentos: LIVE Tabela 9 – Avaliações de correlação e GoF para dados racionais quantizados da LIVE Métrica Pr Sr q MSE 0, 8192 0, 8165 0, 0 PSNR 0, 7525 0, 7593 0, 0 MSSIM 0, 8557 0, 8452 0, 0 Fonte: o autor. Tabela 10 – Consolidação dos resultados racionais da LIVE: resultados racionais e racionais quantizados. Não-Quantizados Métrica Quantizados Pr Sr q Pr Sr q MSE 0, 8646 0.8523 0, 0 0, 8192 0, 8165 0, 0 PSNR 0, 8188 0, 8212 0, 0 0, 7525 0, 7593 0, 0 MSSIM 0, 8882 0, 8710 0, 0 0, 8557 0, 8452 0, 0 Fonte: o autor. 2.7.2 Dados ordinais Aqui, antes de processarmos a regressão logística, quatizamos os OS de acordo com a regra descrita na 2.19. Resultando numa distribuição de OS como a apresentada no histograma da Figura 24 Figura 24 – Histograma de OS para dados quantizados da LIVE. 1200 Quantidade 1000 800 600 400 200 0 1 2 3 4 5 6 Valor de qOS Fonte: o autor. As figuras 25, 26 e 27 apresentam o resultado da regressão sobre os dados já quantizados. Perceba que os resultados são significativamente diferentes daqueles obtidos no experimento com dados racionais (figuras 18, 19 e 20). 50 Capítulo 2. Teoria de suporte e as bases de imagens Figura 25 – LIVE, MSE para análise ordinal, com curva de regressão logística sobreposta 5, 0 4, 5 4, 0 qOS 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 0 20 40 60 80 100 MSE Fonte: o autor. Figura 26 – LIVE, PSNR para análise ordinal com curva de regressão logística sobreposta 5, 0 4, 5 4, 0 qOS 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 28 30 32 34 36 38 40 42 44 PSNR Fonte: o autor. Mais uma vez, quantizamos a saída da função obtida por regressão, resultado apresentado nas figuras 28, 29 e 30 51 2.7. Experimentos: LIVE Figura 27 – LIVE, MSSIM para análise ordinal com curva de regressão logística sobreposta 5, 0 4, 5 4, 0 qOS 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 0, 3 0, 4 0, 5 0, 6 0, 7 0, 8 0, 9 1, 0 MSSIM Fonte: o autor. Figura 28 – LIVE, MSE para análise ordinal com curva de regressão logística quantizada sobreposta 5, 0 4, 5 4, 0 qOS(p) 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 0 20 40 60 MSE Fonte: o autor. 80 100 52 Capítulo 2. Teoria de suporte e as bases de imagens Figura 29 – LIVE, PSNR para análise ordinal com curva de regressão logística quantizada sobreposta 5, 0 4, 5 4, 0 qOS(p) 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 28 30 32 34 36 38 40 42 44 PSNR Fonte: o autor. Figura 30 – LIVE, MSSIM para análise ordinal com curva de regressão logística quantizada sobreposta 5, 0 4, 5 4, 0 qOS(p) 3, 5 3, 0 2, 5 2, 0 1, 5 1, 0 0, 3 0, 4 0, 5 0, 6 0, 7 MSSIM Fonte: o autor. 0, 8 0, 9 1, 0 53 2.7. Experimentos: LIVE Apresentamos na Tabela 11 os resultados de correlação e GoF para os dados ordinais, quantizados e não quantizados, cujos valores apresentam-se muito próximos. Tabela 11 – Consolidação dos resultados ordinais da LIVE: resultados para dados e regressão quantizados e dados quantizados e regressão não-quantizada. Regressão não-quantizada Métrica Regressão quantizada Pr Sr q Pr Sr q MSE 0.8528 0.8421 0, 0 0.8524 0.8418 0, 0 PSNR 0.8065 0.8077 0, 0 0.8056 0.8065 0, 0 MSSIM 0.8753 0.8602 0, 0 0.8750 0.8599 0, 0 Fonte: o autor. 55 3 Conclusões Os valores retornados pela GoF (goodness of fit, 𝑞), sistematicamente iguais a zero, atestam que as aproximações efetuadas não condizem com os dados que as geraram, ou seja, as funções que obtivemos são incapazes de, dado um valor de métrica, apontar um valor de OSp (OS predito pelo modelo) condizente com um OS (medido experimentalmente) para ambas as bases de imagens com que trabalhamos. Usualmente, tem-se contornado esse problema computando a GoF em função das tendências centrais (a média), o que faz com que o 𝑞 seja mais favorável. Esse tipo de caminho sucita o questionamento: ainda que matematicamente válido, isso tem significado prático? Ainda que o 𝑞 seja favorável usando-se as tendências centrais, ele ganha mais significado, ou representa melhor os dados que o originou? Com certeza, e essa é a função da GoF, ele tem mais afinidade com as tendências centrais, mas as tendências centrais em si, têm significado prático? Iniciamos o trabalho com a intenção de demonstrar que o tratamento estatístico usando abordagem por categorias seria mais eficiente do que o tratamento estatístico convencional, dada a natureza do processo de avaliação de qualidade de imagem, intrinsecamente categórica. Tal assunção acaba por não ser validada nesse trabalho, visto que encontramos outra informação não menos pertinente: todas as métricas utilizadas falham em indicar a qualidade das imagens das bases com que trabalhamos, se usamos os valores de OS puros, e não suas indicações de centralidade (seja ela a média, a mediana ou a moda). Dado que procedemos análises em paralelo, considerando os dados racionais e ordinais, e que em ambas as abordagens as regressões logísticas não foram satisfatórias em traduzir a relação entre métrica e qualidade percebida, podemos afirmar que a qualificação dos dados não afeta o resultado encontrado. Ou seja, a partir do trabalho realizado, não encontramos provas suficientes que fariam mais válida uma avaliação categórica (com dados ordinais) em detrimento da que tradicionalmente se pratica (com dados racionais). Os valores altos das correlações na maioria dos casos apresentados (especialmente para os dados da LIVE) indicam que há boa relação entre a monotonicidade e a precisão dos dados e suas respectivas regressões logísticas, mas, mais uma vez, os valores sistematicamente desfavoráveis da GoF indicam que, apesar de correlacionados função e dados, aquela não representa estes. 56 Capítulo 3. Conclusões 3.1 Trabalhos Futuros A partir das conclusões apresentadas, percebemos ainda outras indagações a serem perseguidas em futuros trabalhos. A primeira delas seria uma comparação rigorosa entre o procedimento como sugerido pelo ITU, partindo de tendências centrais, e outro sem essas tendências. Outros experimentos potencialmente interessantes são aqueles com objetivo de validar um ou outro caso: utilizar mais bases de imagens com avaliação de qualidade associada para as mesmas análises feitas aqui (racionais e ordinais); fazer essas análises com os indicadores de tendência como a média, a mediana e a moda; fazer essas análises com as diferenças entre os OS (DOS) ou a diferença entre as tendências centrais (DMOS, por exemplo). Experimentos potencialmente mais elucidativos seriam aqueles usando ferramentas exclusivamente para estatística de classes, como correlação kappa, para indicar a relação entre as classes e a saída da regressão quantizada. 57 Referências 1 CARRANCA, A. Revolução Digital: da página no Facebook à queda de Mubarak. 2011. News website. Disponível em: <http://blogs.estadao.com.br/adriana-carranca/ a-revolucao-digital-no-egito-da-pagina-no-facebook-a-queda-e-mubarak/>. Citado na página 17. 2 OLIVAREZ-GILES, N. Flickr reaches 6 billion photos uploaded. 2011. News website. Disponível em: <http://latimesblogs.latimes.com/technology/2011/08/ flickr-reaches-6-billion-photos-uploaded.html>. Citado na página 17. 3 500px Inc. 500px. 2013. Website. Disponível em: <http://500px.com/>. Citado na página 17. 4 Instagram Inc. Instagram Press, 16 billion images. 2013. Official website. Disponível em: <http://instagram.com/press/>. Citado na página 17. 5 Vimeo Inc. Official Year-end Self-Appraisal and Profound Introspection: 2012. 2012. Official staff blog. Disponível em: <http://vimeo.com/blog/post:542>. Citado na página 17. 6 Netflix Inc. Investor Relations. 2013. Official website. Disponível em: <http: //ir.netflix.com>. Citado na página 17. 7 VARIOUS. History of television. 2013. Wikipedia. Disponível em: <http: //en.wikipedia.org/wiki/History_of_television#Electromechanical_television>. Citado na página 17. 8 JESTY, L.; WINCH, G. Television images: An analysis of their essential qualities. Tran. Illum. Eng., v. 2, p. 316–334, 1937. Citado na página 18. 9 WINCH, G. Colour television: some subjective and objective aspects of colour rendering. Electrical Engineers, Journal of the Institution of, v. 1953, n. 4, p. 191–192, 1953. Citado na página 18. 10 GOLDMARK, P. C.; DYER, J. Quality in television pictures. Proceedings of the IRE, v. 28, n. 8, p. 343–350, 1940. ISSN 0096-8390. Citado na página 18. 11 ITU-T TSB. Tutorial - Objective Perceptual Assessment of Video Quality: Full Reference Television. 2004. Citado 2 vezes nas páginas 18 e 35. 12 WANG, Z.; BOVIK, A. C. Modern Image Quality Assessment. [S.l.]: Morgan & Claypool, 2006. Citado 2 vezes nas páginas 18 e 27. 13 Developing a new psychophysical experimental method to estimate image quality, v. 4421. 906-909 p. Disponível em: <http://dx.doi.org/10.1117/12.464636>. Citado na página 19. 14 WINKLER, S. Digital Video Quality – Vision Models and Metrics. [S.l.]: John Wiley & Sons, 2005. Citado 2 vezes nas páginas 19 e 25. 58 Referências 15 ITU-R BT. Recommendation ITU-R BT.500-13, Methodology for the subjective assessment of the quality of television pictures. 2012. Citado 3 vezes nas páginas 22, 24 e 25. 16 BOSLAUGH, S.; WATERS, P. A. Statistics in a Nutshell. [S.l.]: O’Reilly Media, Inc., 2008. Citado 3 vezes nas páginas 22, 32 e 34. 17 WANG, Z.; BOVIK, A. C. Mean squared error: Love it or leave it? IEEE Signal Processing Magazine, p. 98–117, 2009. Citado na página 26. 18 WANG, Z. et al. Image quality assessment: From error visibility to structural similarity. IEEE Transactions on Image Processing, v. 13, n. 4, p. 600–612, April 2004. Citado na página 26. 19 TOURANCHEAU, S. et al. Impact of subjective dataset on the performance of image quality metrics. In: Image Processing, 2008. ICIP 2008. 15th IEEE International Conference on. [s.n.], 2008. p. 365–368. ISSN 1522-4880. Disponível em: <http://www.irccyn.ec-nantes.fr/spip.php?article552>. Citado 3 vezes nas páginas 29, 30 e 31. 20 SHEIKH, H. et al. LIVE Image Quality Assessment Database Release 2",. 2012. Official website. Disponível em: <http://live.ece.utexas.edu/research/quality>. Citado 3 vezes nas páginas 29, 30 e 31. 21 ROSSUM, G. van. Python.org. 2013. Disponível em: <http://python.org/>. Citado na página 35. 22 IPYTHON.ORG. IPython.org. 2014. Disponível em: <http://ipython.org/>. Citado na página 35. 23 ZAMPOLO, R. de F.; SEARA, R. A comparison of image quality metric performances under practical conditions. In: Image Processing, 2005. ICIP 2005. IEEE International Conference on. [S.l.: s.n.], 2005. v. 3, p. III–1192–5. Citado 3 vezes nas páginas 39, 41 e 42.