Atribuição de fonte impressora Giuliano R Pinheiro, Anderson Rocha (Orientador) Departamento de Sistemas de Informação Instituto de Computação Universidade Estadual de Campinas (Unicamp) [email protected], [email protected] Resumo – Este artigo exibe uma proposta de extensão do método de identificação de impressoras proposto por Mikkilineni et al. em [5] e da elaboração de um dataset de documentos a ser utilizado para testes comparativos em análise forense de impressoras. Palavras-chave: análise forense, atribuição de fonte, impressoras. 1. Introdução A autenticação e verificação de conteúdo gerado digitalmente é um desafio atualmente. Num mundo onde cada vez mais o digital toma conta da forma com que a sociedade se organiza, não se espera menos, também, que haja novas formas de se burlar a segurança desse mundo. Cada vez mais, os sistemas de trusting digitais são confiados por entidades como as forças armadas, os serviços judiciais, os serviços comerciais e os industriais. No entanto, qualquer informação vinda de uma fonte conhecida é confiável? É possível saber se certo documento foi impresso em um hardware em específico? Hoje, há vários métodos disponíveis para ajudar no processo de identificação de fonte impressora, todavia nota-se que não existe um conjunto de dados padrão construído que ajude a testar as técnicas propostas e, assim, a compará-las homogeneamente apontando sua real utilidade e eficácia. Esta pesquisa propõe a criação de um dataset padronizado, bem como a implementação e possível extensão de técnicas propostas na literatura para o problema de atribuição de fonte de impressão de documentos. 2. O processo de impressão Existem basicamente dois processos distintos de impressão: o baseado em host e o baseado em controlador de impressão [2]. O primeiro refere-se ao processo quando sua maior parte é realizada pelo driver de impressão, na máquina host da impressora enquanto o segundo corresponde ao processo quando executado principalmente no controlador de impressão, no próprio dispositivo. A Figura 1 mostra um diagrama típico desses processos. Fig. 1: Diagrama de blocos de operações de impressão. Retirado de [1] A principal diferença entre eles é o volume de processamento delegado à impressora. O que essa diferença acarreta ao resultado da impressão é a qualidade do processamento, já que a impressora tem muito menos recursos para processar o documento que o driver, que reside no computador [2]. 3. Arquiteturas de impressão A arquitetura a ser utilizada durante a fase de testes com o dataset é a impressão a laser. Nessa arquitetura, o processo de impressão compreende basicamente seis passos: carregamento, exposição, desenvolvimento, transferência, fusão e limpeza [2]. Um tambor fotocondutivo orgânico (OPC, Organic Photoconductive), também chamado de fotorreceptor, gira a uma velocidade angular constante e sofre carregamento eletrostático por um rolo de carga. Em seguida, a imagem a ser impressa é passada para o rolo por um laser de pulso direcionado por um espelho poligonal giratório, que descarrega locais específicos da superfície do OPC. A imagem em toner é desenvolvida quando as partículas de toner aderem à superfície descarregada pelo laser. Essa imagem é, então, transferida para o papel eletrostaticamente por um rolo carregado, sendo em seguida fundida ao papel por pressão e calor pelo fusor. Para preparar o sistema de impressão para a próxima página, a superfície do OPC é limpa por uma lâmina. Fig. 2: Diagrama de montagem de uma impressora a laser típica. Crédito: HowStuffWorks.com 4. Assinaturas de dispositivo Devido à natureza mecânica do processo de impressão, o documento final ganha uma assinatura da impressora. Essa assinatura surge com a rotação dos rolos por onde passa o papel que, movidos por engrenagens, geram imperfeições únicas de cada dispositivo no documento impresso, e que irão passar ao documento características periódicas. A essa assinatura dá-se o nome de banding. Como analisado em [2], o banding pode ser extraído e usado como característica de classificação para o documento em questão. Até as instruções de baixo nível que controlam o processo de impressão, específicas para cada fabricante e por modelo de dispositivo, contribuem no processo de assinatura. Essas instruções se manifestam no momento da impressão e, junto à análise dos aspectos de caracteres extraídos do documento impresso [5], podem servir de informação de assinatura. 5. Identificação de fonte Como reportado em [5], o uso de assinaturas intrínsecas inseridas no documento durante o processo de impressão é capaz de classificar documentos em relação à informação de fabricação da impressora (fabricante, modelo). Mas o banding sozinho pode não trazer grande contribuição para a identificação, dado que, no espaço de um caractere, é difícil obter sinais adequados para a aplicação dos métodos de análise. Uma solução para este problema é utilizar as informações de textura presentes nos caracteres. A textura é consequente de flutuações no toner durante a fase de desenvolvimento, causadas por imperfeições eletromagnéticas [2]. Como apontado em [2], os estudos em [5] e [1] baseiam o conjunto de características de textura em uma matriz de coocorrência. Esse conjunto é estimado e então é usado um conjunto de técnicas (PCA, GMA, SVM) para classificação. 6. Considerações finais O projeto está em andamento, o dataset está sendo construído e a literatura está sendo explorada a fim de se decidir qual o melhor caminho a ser seguido durante a extensão do trabalho de identificação, tentando propor um conjunto de características mais completo de efeito classificatório mais fino. Atualmente, os esforços em atribuição de fonte têm mostrado soluções interessantes e concisas para o problema, mas os defeitos das técnicas mostram que ainda há muito o que estender nessa área. Novos dispositivos e técnicas de melhoramento de impressão estão sendo desenvolvidas e, com isso, novos desafios aparecem a cada dia. A motivação deste trabalho está na busca de melhorias que possam tornar as técnicas existentes mais robustas e abrir caminho para o desenvolvimento de abordagens inovadoras que possam trazer resultados ainda melhores. Referências [1] Gazi N. Ali et al. Application of Principal Components Analysis and Gaussian Mixture Models to Printer Identification. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.81.8074, 2004. (acessado em 07/10/2011). [2] Pei-Ju Chiang et al. Printer and Scanner Forensics. http://ieeexplore.ieee.org/search/srchabstract.jsp?tp=&arnumber=4806207, 2009. (acessado em 07/10/2011). [3] Nitin Khanna et al. A Survey of Characterization Methods for Physical Devices. http://www.sciencedirect.com/science/article/pii/S1742287606000648, 2006. (acessado em 05/10/2011). [4] Nitin Khanna et al. Survey of Scanner and Printer Forensics at Purdue University. http://www.springerlink.com/content/e2m80120nq343lnt/fulltext.pdf, 2008. (acessado em 05/10/2011). [5] Aravind K. Mikkilineni et al. Printer Forensics Using SVM Techniques. https://www.cerias.purdue.edu/assets/pdf/bibtex_archive/nip05mikkilineni.pdf, 2005. (acessado em 05/10/2011).