INTRODUÇÃO À DIGITALIZAÇÃO
“Digitalização - Processo de conversão de documentos impressos em digitais, com a mesma qualidade dos
originais.” (SOUSA, 2008, p. 51)
Com a evolução das tecnologias de informação e comunicação, com o advento da Web e com um
crescimento exponencial das informações produzidas no meio digital e em diversos outros suportes, tornase cada vez mais necessário o acesso rápido aos documentos.
O crescimento na produção de informações nos mais variados suportes fez crescer nas bibliotecas,
arquivos, centros de documentação, museus e outros sistemas de recuperação de informação uma
preocupação com o espaço para a guarda dos documentos; o acesso e a preservação dos documentos do
acervo.
A digitalização de documentos pode ser usada como ferramenta capaz de minimizar essas questões, pois
possibilita a redução do espaço (quando usada para esta finalidade), a disponibilização de novas formas de
uso e acesso aos documentos, que por vezes estão em suportes de difícil acesso e que tem alta demanda de
uso e contribui para a preservação dos documentos do acervo, à medida que reduz o manuseio e o acesso
físico ao material original, criando uma cópia do material digital.
É possível converter diferentes tipos de documentos para o formato digital, mas, neste curso enfocaremos
os documentos impressos no geral.
Um projeto de digitalização de acervos é algo complexo e envolve uma série de questões que precisam ser
analisadas antes da sua elaboração e implantação.
INTRODUÇÃO À DIGITALIZAÇÃO
Antes de iniciar um projeto de digitalização é necessário responder a algumas perguntas como:
Quais os objetivos do Projeto de Digitalização?
Qual a comunidade usuária que será atendida pelo Projeto?
Qual a coleção ou o acervo que será digitalizado?
Qual a forma de gerenciamento do processo de digitalização: na própria instituição ou em empresa terceirizada?
Quais os padrões técnicos que serão adotados para o Projeto?
Quais equipamentos e softwares serão necessários para a realização do Projeto?
Onde e como serão disponibilizados e armazenados os documentos digitais?
Qual a Política de Preservação Digital que será implantada?
Quais os profissionais que vão realizar o trabalho?
Qual o tempo necessário para a realização do projeto? e
Quais os custos do Projeto?
Vejamos a seguir o que envolve cada uma dessas questões:
1.1 Quais os objetivos do Projeto de Digitalização?
Os gestores de projetos de digitalização devem estabelecer objetivos claros para o projeto, identificando qual/quais a(s)
finalidade(s) da digitalização da coleção para a instituição. Tais finalidades podem ser:
possibilitar e/ou facilitar o acesso a documentos que estejam em condições de difícil acesso (documentos raros, não muito fáceis
de usar pelos usuários, frágeis ou com suportes prestes a desaparecer por conta dos avanços tecnológicos);
disponibilizar novas formas de uso e acesso a documentos que têm alta demanda de uso;
preservar o acervo, quando existem riscos de perdas ou danos aos documentos originais;
dar visibilidade aos acervos produzidos na instituição.
INTRODUÇÃO À DIGITALIZAÇÃO
1.2 Qual a comunidade usuária que será atendida pelo Projeto?
Responder a essa pergunta deve ser a preocupação inicial de todo projeto de digitalização, pois os documentos digitais gerados
durante a execução do mesmo vão sempre beneficiar a um ou mais grupos de usuários da instituição.
Assim, deve-se saber:
 o número estimado dos usuários que serão atendidos com o acervo;
 o perfil e as necessidades de informação dos usuários - neste tópico devemos considerar o tipo de informação de interesse e o nível
da tecnologia utilizada pelo usuário, pois isto traz impactos na forma de disponibilização do acervo. Por exemplo, se os usuários
beneficiados com o acervo digitalizado não tiverem banda larga de alta velocidade, os arquivos de acesso deverão ser gerados num
tipo de formato e tamanho menor para agilizar o acesso a eles.
 se os usuários precisarão de formas especiais e diferentes níveis de acesso aos documentos. Usuários com necessidades especiais
como, por exemplo, baixa visão precisam de recursos para aumentar os caracteres dos documentos, com cegueira precisam de
recursos que transformem arquivos textuais em áudio (software DOSVOX). Existem também alguns scanners que convertem
documentos impressos em arquivos de áudio (como por exemplo, o scanner BookReader V100 da Plustek). Quanto aos diferentes
níveis de acesso, pode-se ter um acervo digitalizado que só possa ser consultado por um grupo de usuários e para outro, ser restrito.
1.3 Qual a coleção ou o acervo que será digitalizado?
Definidos os objetivos e quais os usuários ou grupos de usuários que serão beneficiados com o projeto deve-se selecionar a coleção que
será digitalizada.
Alguns autores defendem a idéia de constituir uma Comissão de Seleção para eleger as coleções que devem ser digitalizadas. SILVA
(2006, p. 439) aponta como responsabilidades dessa comissão:
INTRODUÇÃO À DIGITALIZAÇÃO
a) as indicações iniciais de coleções ou itens para a conversão digital;
b) posteriormente a comissão avaliará quais documentos deverão de fato permanecer no
conjunto inicialmente destacado para conversão;
c) em seguida deverão ser estabelecidas prioridades baseadas no valor, uso e risco dos materiais.
Essa comissão deverá ser constituída por pessoas que conheçam o acervo, os objetivos da instituição, os usuários, as leis de direito
autoral e de software; especialistas em digitalização; especialistas em TI; bibliotecários; arquivistas; museólogos; pesquisadores e
especialistas nos assuntos da coleção; especialistas em preservação e conservação de acervo e também profissionais que tenham
experiência em projetos de digitalização e formação/manutenção de acervos digitais.
A seleção do acervo deverá levar em conta uma série de aspectos, a saber:














nível de interesse e de relevância intelectual das obras da coleção;
características das obras da coleção:
existência de obra(s) rara(s) na coleção;
estrutura das obras - (encadernadas, em folhas soltas);
tamanho e dimensão física das obras;
tipo de papel – tipo e gramatura do papel;
completude das obras (falta de páginas, informação ilegível e/ou incompleta, etc.);
características da informação (textual, imagética, textual e imagética, colorida, preto e branca, em tons de cinza);
tipo de documento (livros, manuscritos, fotografias, desenhos, plantas arquitetônicas, mapas, objetos, artefatos tridimensionais e
etc.);
tipo de suporte da informação (papel, microfilmes, microfichas, slides...);
estado físico e de conservação das obras da coleção; e
existência de duplicatas das obras
a existência e disponibilidade das obras em bibliotecas digitais, repositórios digitais e em catálogos online de outras instituições –
caso as obras já estejam digitalizadas e disponíveis em outras instituições não será necessária a digitalização das mesmas,
poupando-se assim esforços e recursos financeiros.
detenção de direitos autorais – se as obras da coleção não estiverem em domínio público ou se a instituição não detiver os direitos
autorais ou a autorização de seus detentores para executar a digitalização das mesmas não será possível realizar o projeto.
INTRODUÇÃO À DIGITALIZAÇÃO
O Portal Domínio Público (http://www.dominiopublico.gov.br), uma iniciativa do Ministério da Educação, é uma importante fonte de
pesquisa sobre a existência de obras que estão em domínio público ou que tem a sua divulgação autorizada pelos seus autores ou
detentores dos direitos autorais.
Este portal constitui-se em um ambiente virtual que permite a coleta, a integração, a preservação e o
compartilhamento de conhecimentos, sendo seu principal objetivo o de promover o amplo acesso às obras
literárias, artísticas e científicas (na forma de textos, sons, imagens e vídeos), já em domínio público ou que
tenham a sua divulgação devidamente autorizada, que constituem o patrimônio cultural brasileiro e
universal (HADDAD, 2010).
Através deste portal é possível fazer o download, gratuitamente, das obras nele disponíveis.
Sugere-se também que seja feito um diagnóstico da coleção, pois isso norteará a execução das diversas fases de implantação do projeto, como a
compra de equipamentos, a definição dos padrões técnicos para a digitalização, etc.
Estudos sobre digitalização recomendam que em projetos iniciais ou pilotos deve-se evitar:






coleções com muitos itens;
documentos raros (porque exigem cuidados especiais de manuseio e uso de recursos tecnológicos mais avançados);
documentos com tipos e tamanhos variados;
documentos coloridos e com muitas variações de tons;
documentos manuscritos;
documentos com pouca legibilidade;
INTRODUÇÃO À DIGITALIZAÇÃO
1.4 Qual a forma de gerenciamento do processo de digitalização: na própria instituição ou em empresa terceirizada?
O processo de digitalização (produção das imagens digitais) propriamente dito poderá ser gerenciado de duas maneiras: na própria
instituição ou por empresa terceirizada. As duas opções apresentam prós e contras. No entanto, cada instituição deverá analisar as
implicações de cada uma dessas opções e escolher a que mais lhe convier.
A seguir, apresentaremos algumas vantagens e desvantagens de cada uma das formas de gerenciamento da produção das imagens
digitais.
1.4.1 Gerenciamento do processo de digitalização na própria instituição
Nesta forma de gerenciamento, a instituição será responsável por todas as etapas do processo de digitalização, além das outras
atividades necessárias para a execução do projeto digitalização (da definição dos objetivos do projeto até a disponibilização dos
arquivos para os usuários).
1.4.1.1 Vantagens:
 Aquisição de experiência no processo de digitalização de imagens;
 Controle de todo o processo de digitalização (desde a preparação dos originais até o armazenamento e disponibilização para os
usuários);
 Possibilidade de ajustar os requisitos técnicos e padrões de qualidade durante o processo de digitalização para que os arquivos
resultantes estejam de acordo com as necessidades da instituição;
INTRODUÇÃO À DIGITALIZAÇÃO
1.4.1.2 Desvantagens
 Requer um grande investimento em equipamentos, materiais, capacitação e, em alguns casos, em contratação de pessoal;
 Requer mais tempo para a implantação e execução do projeto;
 Requer profissionais para consultoria, para a realização de treinamentos de pessoal, para a análise de contratos, custos de
manutenção de equipamentos, custos de materiais e etc.;
 Requer investimentos em atualização de tecnologia.
1.4.2 Gerenciamento do processo de digitalização em empresa terceirizada
Nesta forma de gerenciamento da produção de imagens digitais uma empresa terceirizada deverá ser contratada para realizar o
processo de digitalização.
1.4.2.1 Vantagens
 As empresas contratadas normalmente têm um alto nível de produção;
 As empresas contratadas têm especialistas no processo de digitalização;
 Não existência de investimentos com equipamentos e softwares de digitalização e contratação de pessoal para realizar a
digitalização;
 Não existência de custos relacionados com a obsolescência da tecnologia (para digitalização) e manutenção de equipamentos (de
digitalização).
INTRODUÇÃO À DIGITALIZAÇÃO
1.4.2.2 Desvantagens
 Menor controle sobre o processo de digitalização e controle de qualidade dos documentos digitais;
 Necessidade do estabelecimento de contrato descrevendo todas as especificações necessárias, direitos e deveres de ambas
as partes;
 Necessidade de avaliar o serviço e os arquivos digitais;
 Podem ocorrer divergências entre a contratante e a contratada quanto ao cumprimento do serviço estar de acordo com os
padrões técnicos e de qualidade negociados;
 Necessidade de tratar e custear transporte das obras que serão digitalizadas quando a empresa terceirizada não oferece
esse serviço;
 Necessidade de acondicionar os originais para enviar à empresa terceirizada;
 Riscos de perdas e danos aos originais que podem ser causados por profissionais da empresa terceirizada se houver
manuseio indevido;
 Podem ocorrer problemas na qualidade dos arquivos digitais causados por inexperiência da empresa com o tipo de material
da instituição contratante ou outros fatores;
 Necessidade de conhecer os softwares e as especificações técnicas dos equipamentos que serão utilizados pela empresa de
terceirização na digitalização para se poder estimar o nível de qualidade dos arquivos e para utilizar as informações que
poderão ser utilizadas pelas estratégias de preservação dos arquivos digitais.
Recomenda-se também que em qualquer das formas de gerenciamento da produção das imagens digitais, na própria
instituição ou em empresa terceirizada:
 Os originais devem estar organizados, catalogados, higienizados e acondicionados; e
 O espaço físico onde os profissionais da equipe de digitalização vão trabalhar deverá oferecer segurança para os
profissionais e para os documentos.
INTRODUÇÃO À DIGITALIZAÇÃO
1.5 Quais os padrões técnicos que serão adotados para o Projeto?
Um objeto digital deve ser digitalizado num formato que tenha como perspectiva o suporte aos usos atuais e os prováveis usos
futuros, ou que possibilite a derivação de cópias de acesso que suportem esses usos. Como conseqüência, um objeto digital
adequado deve ser permutável através de plataformas computacionais, deve ser amplamente acessível e ser digitalizado de
acordo com padrões reconhecidos e/ou melhores práticas. (SAYÃO, 2007, p. 20)
De acordo com este propósito de garantir o uso dos arquivos digitais, no presente e no futuro, devem ser estudados e adotados
padrões técnicos para o Projeto de digitalização.
1.5.1 Tipos e formatos de arquivos
A literatura recomenda que o processo de digitalização deve gerar arquivos digitais de alta e baixa resolução denominados
arquivos mestre (ou de preservação) e arquivos de acesso (ou de imagens derivadas), respectivamente. Também existem os
arquivos de imagem prévia ou miniatura (thumbnail image) com baixa resolução e pequeno tamanho que permitem uma rápida
visualização ao usuário antes de acessar o arquivo com maior qualidade de imagem.
Arquivos mestre – são arquivos com alta qualidade e resolução para a preservação, reprodução e derivação para outros
formatos. Sugere-se que para estes arquivos não seja utilizado nenhum algoritmo de compactação/compressão de dados.
Arquivos de acesso ou de imagens derivadas – são arquivos com menor qualidade e resolução para recuperação em catálogos
online, possibilitando a visualização em tela, o download e a impressão. Para esses tipos de arquivos são utilizados algoritmos
de compactação/compressão de dados para a redução de tamanho.
A seguir, será exibida a tabela com as principais características dos tipos de imagens (mestra, de acesso e em miniatura) dos
arquivos digitais retirada do “Guia para digitalização de documentos: versão 2.0” (EMBRAPA..., 2006, p. 27):
INTRODUÇÃO À DIGITALIZAÇÃO
INTRODUÇÃO À DIGITALIZAÇÃO
As características da informação contida nos documentos vão nortear a escolha do tipo de formato adequado que garantam a sua
melhor representação.
Antes de citarmos alguns tipos de formatos de arquivo, precisamos saber o que é formato de arquivo... De acordo com Bodê
(2006, p. 7), formato de arquivo é a forma e estrutura como as informações estão gravadas nos documentos digitais.
Cada formato tem uma especificação técnica, que pode variar dentre suas diversas versões (ex. TIFF 5.0 e TIFF 6.0). Conhecer as
especificações dos formatos é muito importante para a implementação de ações de preservação digital. Há que se tomar cuidado
com a preservação de formatos proprietários, dependentes de determinado software, pertencentes a entidades comerciais, que
normalmente mantêm sob sigilo as suas especificações técnicas e estão sujeitos, ainda, à obsolescência dos softwares que os
originaram. Com o uso das técnicas de emulação e migração, é possível acessar as informações de documentos gerados a partir
de formatos proprietários. No entanto, deve-se considerar que o uso desses processos pode infringir os direitos autorais e as leis
de software. Aconselha-se a utilização, sempre que possível, de formatos com especificações abertas, não proprietários e bem
documentados.
O Tagged Image File Format (TIFF) foi desenvolvido em 1986, pela Aldus e pela Microsoft, para ser utilizado como formato
padrão para imagem digital. Atualmente é controlado pela Adobe. As imagens resultantes são de alta definição e qualidade,
podendo ser intercambiadas e lidas por diversos softwares independentemente da plataforma de hardware. Esse formato tem
sido muito utilizado em projetos de digitalização de documentos para a geração dos arquivos mestre.
O Portable Document Format (PDF) foi desenvolvido pela Adobe Systems, no início dos anos de 1990, com o objetivo principal
de trocar documentos. Trata-se de um formato proprietário cuja especificação está aberta e disponível. Os arquivos são
compactos e mantém a formatação e aparência do original.
Tendo em vista que o PDF não atende às necessidades de preservação futura, um grupo de instituições como a NPES (National
Printing Equipment Association e a AIIM (Association for Information and Image Management) iniciou um movimento para a
formulação de uma norma ISO (International Standardization Organization) que determinasse as características do formato PDF
para a preservação. Nasce assim, a ISO 19005-1:2005, Document, management – Electronic document file format for long-term
preservation – Part 1: Use of PDF 1.4 (PDF/A-1). Desde então, o PDF/Archive (PDF/A) está sendo apresentado como uma solução
para o problema da preservação digital de longo prazo e recuperação no futuro, devendo ser combinada com um programa
abrangente de gestão dos arquivos, que inclua políticas apropriadas e procedimentos bem implementados (FANNING, 2008).
INTRODUÇÃO À DIGITALIZAÇÃO
O PDF/A é um formato baseado no PDF que permite a representação e preservação dos documentos com a aparência visual ao longo do
tempo, independente de ferramentas e sistemas usados para a sua criação, armazenamento ou apresentação. Suas principais
características são: não depende de plataforma de hardware e software; é autocontido, pois contém todos os recursos necessários
para a exibição/impressão; é autodocumentado, pois contém as suas próprias descrições embutidas nos arquivos PDF via Adobe
Extensible Metadata Platform (XMP); não tem criptografia, mecanismos de proteção de arquivos e é baseado numa especificação
aberta (SAYÃO, 2007).
O PNG (Portable Network Graphics) é um formato que surgiu inicialmente para substituir o formato GIF (é gratuito e livre de patente)
e tem sido utilizado também para a geração de arquivos mestres. Possui características semelhantes ao formato TIFF e uma de suas
vantagens é utilizar uma compressão sem perdas, além de ser um formato padronizado pela International Standard Organization ISO/IEC 15948:2003. É mais limitado na inserção de metadados embutidos que o formato TIFF.
O JPEG (Joint Photographic Expert Group) é um formato para armazenamento de imagens (extensão .jpeg ou .jpg), usado
comumente para fotografias, com esquema de cores em 24 bits (aceita 16,8 milhões de cores) e com atributo de compressão com
perda de dados capaz de gerar arquivos com alta taxa de compactação, mas leves. É um formato apropriado para arquivos de acesso.
Permite ao usuário selecionar a taxa de compressão do arquivo resultante, possibilitando a geração de arquivos digitais de acordo com
as necessidades de uso do mesmo. Uma desvantagem do JPEG é que a imagem normalmente perde qualidade a cada vez que o arquivo
é salvo.
O formato JPEG 2000 (extensão .jp2) é um formato padronizado pela International Standard Organization como ISO/IEC 15444-1:2000,
utilizado para imagens de alta definição. Usa técnicas mais eficientes de compressão e apresenta um ganho de aproximadamente 20%
a mais na taxa de compressão quando comparado ao JPEG tradicional, mantendo uma ótima qualidade da imagem. Vem sendo usado
para a geração de arquivos mestres quando os originais continuam a ser preservados em outro formato. Pode ser configurado para
fazer a compressão sem perdas. Em relação ao PNG, permite embutir mais metadados.
Algumas pesquisas sobre o assunto apontam o TIFF e o PDF/A como os melhores formatos de preservação a longo prazo, mas também
podem ser utilizados os formatos PNG e o JPEG 2000.
INTRODUÇÃO À DIGITALIZAÇÃO
O GIF (Graphic Interchange Format) é um formato de imagem com compressão sem perdas de dados (LZW - Lempel-Ziv-Welch),
apropriado para apresentações de baixa resolução, para imagens prévias ou em miniatura (thumbnail image), permitindo ao usuário
decidir antes de solicitar a abertura da imagem de maior qualidade.
O WAVE (extensão wav) é um formato de áudio que possui alta qualidade e facilidade de edição, porém resulta em arquivos volumosos
impróprios para transmissão via Web.
O MPEG-1 Layer III ou MP3 (extensão mp3) é um formato de áudio com arquivos semelhantes aos do formato WAV, de elevada qualidade
e extremamente compactados, e, por isso mais adequado para a transmissão via Web.
O AVI (Audio Video Interleaved = entrelaçamento de áudio e vídeo) é um formato de arquivo audiovisual desenvolvido pela Microsoft
para a plataforma Windows. Permite a sincronia em transmissões simultâneas de áudio e vídeo pelo computador e é muito usado para a
distribuição online de vídeo.
O MPEG (extensão: mpg/mpeg) é um formato padrão para compactação de vídeo e áudio digitais. É usado em DVD, CD-ROMs
interativos, sistemas de transmissão de TV digital em alta definição e TV a cabo. O MPEG (Motion Pictures Expert Group) é um grupo de
trabalho ligado à ISO/IEC, instalado em 1988, que tem como responsabilidade o desenvolvimento de padrões internacionais para
compactação, descompactação, processamento e representação codificada de vídeo e áudio digitais e suas combinações, orientados
para uma ampla faixa de aplicações. Este Grupo desenvolveu os padrões:
 MPEG1 (ISO/IEC 11172) que prevê a criação de vídeos com qualidade de videocassetes padrão VHS. É usado para armazenar filmes
em CD’s comuns (produção de VCDs) e vídeos na Web;
 MPEG2 (ISO/IEC 13818) que é usado em DVDs e SVCDS e também na televisão digital e na TV a cabo. O Windows não tem suporte
nativo a vídeos em MPEG-2 e para visualizar este tipo de vídeo é preciso utilizar um CODEC ou player de terceiros; e
 MPEG4 (ISO/IEC 14496) que possibilita o envio de imagens mais bem definidas usando uma menor quantidade de dados e capacidade
de rede, tornando mais fácil o envio de vídeos completos pela Internet e Internet móvel. Foi concebido para entregar vídeos com
qualidade de DVD (MPEG-2) a baixas taxas de transmissão e com arquivos menores. Permite integrar produção, distribuição e acesso
a conteúdos na televisão digital.
Existem vários outros formatos, mas aqui foram listados os mais utilizados em bibliotecas e repositórios digitais.
INTRODUÇÃO À DIGITALIZAÇÃO
Tendo em vista o que foi exposto e que os formatos dos arquivos de uma coleção digital devem variar de acordo com o tipo de
informação e com a finalidade do seu uso, podemos resumidamente dizer que os arquivos para a preservação de imagens e texto
podem ser no formato TIFF e PDF/A; arquivos para acesso (recuperação em catálogos) nos formatos JPEG e PDF; arquivos de áudio
em MP3 ou WAVE; arquivos de vídeo em AVI ou MPEG/MPG e arquivos de imagem prévia (visualização rápida) no formato GIF.
Conhecer os tipos de arquivos digitais e tipos de formatos é muito importante para outras fases da implantação do projeto como a
escolha de softwares de captura, das formas de armazenamento dos arquivos, da disponibilização dos arquivos para os usuários e para
a adoção das estratégias de preservação digital.
1.5.2 Definição dos padrões técnicos para o processo de digitalização de documentos
Definir padrões para o processo de digitalização envolve basicamente o estabelecimento de padrões para a qualidade das imagens
digitais e para a nomenclatura dos arquivos.
1.5.2.1 Padrões para a qualidade das imagens digitais
Os padrões adotados para a qualidade das imagens digitais que serão digitalizadas no projeto são importantes e determinantes para a
qualidade dos arquivos de preservação e para os de acesso.
Para garantir a qualidade das imagens digitais devem ser estabelecidos perfis de digitalização de acordo com o tipo dos documentos e
as características da informação contidas neles (textual, imagética, textual e imagética, colorida, preto e branca, em tons de cinza).
Nestes perfis são definidos:
 Os tipos do formato de saída;
 O modo ou tipo de escaneamento/profundidade de cores – bitonal (preto e branco), escala de cinza (ou tons de cinza) e com cor
(colorido);
 A resolução das imagens;
 Nível de compressão/compactação – fazer uso da compactação da imagem digital vai depender do tipo do documento, do formato
de saída, da finalidade e do uso do arquivo digital e etc.
INTRODUÇÃO À DIGITALIZAÇÃO
Na aula três, onde serão apresentadas as etapas do processo de digitalização, esses fatores relacionados aos perfis de digitalização
serão estudados.
1.5.2.2 Criação e nomenclatura dos arquivos
Para a criação dos arquivos deve-se decidir também, além do tipo (arquivo mestre, arquivo de acesso...), da resolução e do formato
do arquivo (.pdf, .jpeg ...) sobre:
 a forma de constituição do arquivo – geração de arquivos mono-página (um arquivo para cada página do documento) ou multi-página
(um único arquivo com todas as páginas do documento)); e
 a conversão das imagens do arquivo em texto pesquisável com a ajuda de softwares de reconhecimento óptico de caracteres (OCR)
ou a geração de arquivos de imagens mantendo o layout original sem a conversão para texto. Quando se opta pela conversão da
imagem para texto pesquisável o processo de digitalização é mais demorado e trabalhoso, mas os tamanhos dos arquivos gerados
são bem menores.
A padronização do nome do arquivo é outro aspecto importante e indispensável para gerar um arquivo que seja único e facilmente
identificável dentre os demais arquivos da coleção digital.
Recomenda-se que o processo de nomenclatura siga como orientações:
 Não utilizar nomes muito extensos. Alguns estudos recomendam o uso de no máximo oito caracteres para a formação do nome sem
contar com a extensão do formato do arquivo
 Não utilizar espaços, sinais diacríticos (acento agudo, acento grave, acento circunflexo, apóstrofo, cedilha, til, trema e hífen) nem
caracteres especiais (@, #, %, &, /, ?, etc.) na composição do nome dos arquivos para não dificultar a interoperabilidade entre os
sistemas de recuperação e transmissão de informações;
 Adotar nomes que permitam minimamente identificar o documento digital, independentemente de sistemas de recuperação da
informação. Por exemplo, para nomear arquivos de teses e dissertações pode-se adotar como regra de nomenclatura o ano, o
sobrenome e as iniciais do pré-nome e dos demais sobrenomes. Assim, o nome do arquivo da tese da autora Miriam Lima Gonçalves
do ano de 2010 ficaria 2010-GONCALVES_M_L.pdf.
INTRODUÇÃO À DIGITALIZAÇÃO
1.5.3 Metadados
O tratamento das informações digitais deve seguir normas e padrões para a descrição de seus registros, utilizando metadados que visem
descrever as informações, realizar buscas, visualizar e preservar os objetos digitais, navegar pelos objetos digitais e controlar o acesso.
Define-se como metadados ou metainformação:
a “informação sobre informação, ou mais especificamente dados estruturados sobre informação capturada no sistema de arquivo”. São
um conjunto de elementos (atributos) que dão significado, contexto e organização ao objeto digital, permitindo a produção, gestão e
utilização dos documentos eletrônicos a longo prazo (DIRECÇÃO..., 2008, p. 43-45).
Há diversos tipos de metadados: descritivos ou bibliográficos ou de identificação; administrativos; estruturais; técnicos; de preservação
e de controle e direitos etc. Cada instituição deve optar pelos tipos que melhor atendam às características e necessidades da sua
Biblioteca digital ou repositório digital, adotando os padrões para a descrição desses metadados. Os tipos mais usados em bibliotecas
digitais e repositórios digitais são:
 Metadados descritivos (ou bibliográficos ou de identificação) – descrevem e identificam as informações bibliográficas sobre os
documentos digitais (autor, título, data da criação, assuntos, etc.), facilitando a busca e o acesso aos mesmos. Dentre os mais usados
citam-se o Dublin Core, o MARC e o EAD (Encoding Archiving Description que permite a descrição da informação arquivística, de
acordo com a General International Standard Archival Description (ISAD(G)).
 Metadados administrativos – registram informações que permitem a visualização, o gerenciamento e a preservação dos documentos
digitais. As informações registradas por esses metadaddos são (informações sobre a criação, controle de qualidade e outros detalhes
técnicos dos arquivos, direitos de uso, direitos de propriedade intelectual, controle de acesso, informações técnicas sobre
equipamentos e softwares utilizados nos processos de digitalização etc.).
 Metadados estruturais – indicam como os documentos digitais compostos por vários arquivos serão recompostos e visualizados, à
medida que descrevem a estrutura interna do documento no todo e sua relação com as suas partes.
INTRODUÇÃO À DIGITALIZAÇÃO
1.6 Quais equipamentos e softwares serão necessários para a realização do Projeto?
A escolha dos equipamentos e softwares adequados para a realização do Projeto é importante para garantir a qualidade dos arquivos
digitais que serão gerados. Decidir sobre equipamentos e softwares é uma das tarefas mais difíceis quando se deseja implantar um
projeto de digitalização a ser realizado na própria instituição, pois os avanços tecnológicos são muito rápidos nestes quesitos. Essa
escolha tem ligação direta com os tipos de documentos, os padrões de qualidade e os usos pretendidos para estes documentos.
1.6.1 Equipamentos
No rol dos equipamentos básicos para a digitalização de documentos destacam-se:
 Computadores – com a melhor configuração possível (de acordo com os tipos de arquivos que serão processados)
 Monitores – com alta qualidade, resolução, velocidade para reproduzir as imagens digitais o mais próximo possível da versão original
dos documentos;
 Gravadores de CDs ou DVDs ou Blue-rays;
 Equipamentos para a captura de imagem digital (câmeras digitais e scanners); e
 Unidades de armazenamento (Storages, HDs externos...).
Dentre os equipamentos mencionados gostaríamos de discorrer um pouco sobre os de captura de imagem digital – as câmeras digitais e
os scanners.
As câmeras digitais são indicadas para a captura de imagens digitais quando o documento original não puder ser capturado por scanner
devido às suas dimensões, estado de conservação, tipo de encadernação ou outro motivo. Também são indicadas, por permitirem a
captura das imagens em todos os formatos de mídias (mapas, plantas, objetos, artefatos tridimensionais etc.). No entanto, para
garantir uma alta qualidade das imagens é necessário utilizar câmeras profissionais de alta resolução, mesas de reprodução, sistema de
iluminação artificial apropriado para o tipo de material a ser “fotografado” para não causar danos ao documento original e profissional
capacitado para operar a máquina.
INTRODUÇÃO À DIGITALIZAÇÃO
Os scanners são os equipamentos mais utilizados em processos de digitalização. Existem equipamentos de vários tipos, recursos e
níveis de qualidade, mas a escolha do modelo deve estar condicionada aos tipos, tamanhos, formatos e características dos
documentos que serão digitalizados e também à capacidade de produção x resolução de saída das imagens X velocidade de produção
das imagens.
De acordo com o tipo os scanners podem ser:
INTRODUÇÃO À DIGITALIZAÇÃO
INTRODUÇÃO À DIGITALIZAÇÃO
Existem também os scanners portáteis ou de mão (utilizados normalmente para uso pessoal para digitalizar cartões de visitas,
fotos e alguns modelos suportam documentos no formato A4), scanners para cheques, para filmes radiológicos (ideal para clínicas
radiológicas e odontológicas, hospitais, etc.) e outros tipos que são adequados para tipos específicos de projetos que não são o
foco desse curso.
De acordo com a capacidade de produção os scanners podem ser:
INTRODUÇÃO À DIGITALIZAÇÃO
INTRODUÇÃO À DIGITALIZAÇÃO
Antes de optar por um scanner é importante analisar todas as suas características e funcionalidades (digitaliza frente (simplex) ou
frente e verso (duplex), tamanho máximo de documento suportado, formatos de arquivos de saída, gramatura de papel suportada,
sistemas operacionais suportados, modos de digitalização (Preto e branco, tons de cinza, colorido), resolução, quantidade diária de
páginas processadas, tipo de alimentação do papel, capacidade de alimentação de papel, etc., tipo de interface de comunicação com
o operador (ISIS/TWAIN), tempo de vida útil (capacidade máxima de páginas digitalizadas), formas de conexão (USB, USB 2.0,
Fireware) e etc.) para escolher o modelo que melhor atenda às características e tipos de documentos do projeto. Por exemplo,
fotografias, desenhos ou ilustrações devem ser digitalizados em scanner de mesa, pois não podem passar pela bandeja de alimentação
automática para não causar danos às suas estruturas.
1.6.2 Softwares
Assim como os equipamentos os softwares são muito importantes para a geração das imagens digitais. Os scanners trazem softwares de
captura (digitalização) e até softwares que apresentam recursos para a edição de imagens, conversão dos arquivos para formatos
padrões como o PDF, o TIFF e o JPEG e conversão de imagem em texto pesquisável (OCR).
Alguns softwares servem tanto para a captura quanto para a edição e controle de qualidade das imagens. É o caso do Adobe
Photoshop, do PRODimage IRS (Intelligent Re-Scan) e do Folder245 Plus.
Existem também softwares mais completos que permitem controlar as principais etapas do processo de digitalização, como a captura
das imagens, o controle de qualidade, a indexação e a exportação dos arquivos digitais para formatos como o TIFF e o PDF, por
exemplo. Etapas essas que serão apresentadas na aula três desse curso. Como exemplo destes softwares citamos o PRODimage IRS.
Vale ressaltar que por questões de direitos autorais as imagens digitalizadas não devem ser “tratadas” por processos de edição para
não perder as características dos documentos originais. No entanto, o uso de softwares de edição deve ser realizado apenas para
corrigir imperfeições geradas no processo de digitalização como, por exemplo, páginas viradas, inclinadas, com bordas, com
informação ilegível, com manchas, com pontos e com problemas no contraste x brilho, para deixar o arquivo digital o mais próximo
possível do documento original.
INTRODUÇÃO À DIGITALIZAÇÃO
A escolha dos softwares, assim como a dos equipamentos, vai depender dos padrões adotados para a geração dos arquivos resultantes
do processo de digitalização. Outro aspecto que precisa ser considerado é a compatibilidade do software com o driver utilizado pelos
scanners do projeto e com os demais componentes da infra-estrutura tecnológica disponível (sistema operacional dos servidores da
rede, computadores etc.)
Recomenda-se, por questões de praticidade, o uso de softwares de captura que também permitam a edição das imagens.
1.7 Onde e como serão disponibilizados e armazenados os documentos digitais?
Ainda na fase de planejamento do projeto é importante pensar nas formas e nos “locais” de disponibilização e armazenamento dos
arquivos digitais.
1.7.1 Disponibilização dos documentos digitais
Deve-se decidir onde e sob qual (quais) forma(s) os documentos digitais serão disponibilizados para os usuários (formatos dos arquivos
de acesso, utilização ou não de imagens em miniatura). Os documentos poderão ser divulgados no catálogo online e/ou na Biblioteca
Digital e/ou no Repositório Digital da instituição na rede interna ou na Web. Nesta fase pode ser necessário estudar softwares de
Bibliotecas e Repositórios Digitais como o DSpace, Fedora e outros, caso o software da instituição não tenha condições de disponibilizar
o acesso aos documentos digitais.
Devem ser definidos os formatos dos arquivos de acesso, a utilização ou não de imagens em miniatura e também se haverá diferentes
formas e níveis de acesso aos documentos para diferentes grupos de usuários. Usuários com necessidades especiais necessitarão de
formas de acesso diferentes de acordo com suas dificuldades. Por exemplo, usuários com baixa visão necessitarão de recursos que
ampliem o conteúdo dos documentos em tela. Usuários cegos necessitarão ouvir os conteúdos dos documentos que foram digitalizados e
convertidos para arquivos sonoros. Coleções especiais ou de caráter confidencial podem requerer acesso restrito para grupos diferentes
da comunidade usuária.
INTRODUÇÃO À DIGITALIZAÇÃO
1.7.2 Armazenamento dos documentos digitais
Tão importante quanto digitalizar o acervo é armazená-lo de maneira segura e de forma que se possa ter acesso hoje e no futuro. Para
um armazenamento seguro devem-se criar cópias de segurança dos arquivos digitais e deve ser adotada uma política de backup que
possa assegurar além das cópias, a migração das mídias, acompanhando assim as mudanças tecnológicas.
Existem várias opções de mídias ou suportes de armazenamento, mas a escolha das mídias deve basear-se na tipologia dos arquivos
digitais e nas vantagens e desvantagens de cada tipo de suporte. Esta escolha é uma tarefa bastante difícil por causa das rápidas
transformações tecnológicas. A fragilidade e a obsolescência tecnológica são uma constante ameaça à durabilidade dos suportes. De
acordo com a Direcção... (2008, p. 26) com a evolução dos suportes, desde 1970 - com a introdução dos cartões perfurados seguidos das
fitas cassetes (início de 1980), dos disquetes de 5,25 pol. (final de 1980) e 3,5 pol. (início de 1990), dos CDs (final de 1990), dos DVDs
(2000) e dos HD-ROMs e Blue-Ray Disc (2005) -, observa-se que os suportes têm mudado num intervalo de aproximadamente 10 anos,
fato que dificulta a manutenção e preservação dos conteúdos digitais.
Dentre as diversas mídias disponíveis citaremos as mais utilizadas pelas instituições detentoras de arquivos digitais:
Discos rígidos internos (HDs internos) – podem ser ligados localmente ou em rede. Devido à utilização constante tornam-se frágeis pelos
riscos de falhas, infecção por vírus ou outros problemas que podem ocorrer nas máquinas onde estão instalados e causar danos aos dados
armazenados. As principais vantagens desses discos são menor tempo de acesso às informações, maior capacidade de armazenamento,
facilidade de uso e boa relação preço/ capacidade de armazenamento. Esse tipo de mídia requer backup em outros formatos como, por
exemplo, CDs e DVDs etc.
HDs externos – podem ser usados não só para o armazenamento como para a realização de backups e para o transporte de dados. Já
existem modelos com capacidade de armazenagem que chegam a 4 TB (Terabyte) e com uma boa performance de leitura e gravação dos
dados.
CDs (Compact Discs) – discos óticos com menor capacidade de armazenamento (até 750MB). Podem ser usados como suporte para cópias
de segurança, também para cópias de consulta/empréstimo para os usuários e até para guardar arquivos mestre, dependendo do tipo e
tamanho dos mesmos. Também podem ser lidos em praticamente qualquer computador com leitor adequado.
INTRODUÇÃO À DIGITALIZAÇÃO
DVDs (inicialmente Digital Video Disk e mais recentemente Digital Versatile Disc) – discos óticos com processo de armazenamento
semelhante ao dos CDs, mas com capacidade maior, podendo armazenar 4,7 GB (DVD 5 - um único lado, uma única camada), 8,5GB
(DVD 9 - um único lado, duas camadas), 9,4 GB (DVD 10 - dois lados, uma única camada), 17 GB (DVD 18 dois lados, duas camadas).
Apresentam maior velocidade de leitura e gravação e também podem ser usados para cópias de segurança e cópias de
consulta/empréstimo para os usuários.
Blu-Ray Disc (ou inicialmente blue-ray) – inventado pela Sony, o Blu-ray disc tem uma grande capacidade de armazenamento, podendo
guardar e reproduzir enormes quantidades de vídeo e áudio em alta definição, fotos, dados e outros conteúdos digitais. Apresenta taxa
de transferência de dados mais alta (36 Mbps) do que os DVDs (10 Mbps). Um disco Blu-ray de camada única pode armazenar até 27 Gb
enquanto um de camada dupla até 50 GB. Para adotar esse suporte é necessário adquirir gravador e leitor apropriado. Trata-se de uma
mídia nova e antes da sua adoção como suporte de armazenamento devem ser realizados testes quanto à segurança e durabilidade da
mesma. Já foi recentemente lançado um novo disco com a tecnologia blu-ray, o BDXL (Blu-ray Disc X-Large) com capacidade para até
128 gigabytes.
Existem outros novos suportes sendo criados para concorrer com o blu-ray, como o HD-DVD (High Definition Digital Video Disc), cuja
principal diferença em relação a ele é a capacidade de armazenamento (15 GB no disco de uma camada e 30 GB no de duas).
Para armazenamento de grandes massas de dados podem também ser utilizadas tecnologias como os Storages (unidades de
armazenamento que permitem o gerenciamento, a proteção, a distribuição, criação de backups e o acesso a grandes volumes de
conteúdos digitais).
Além de escolher a mídia mais adequada para o armazenamento dos arquivos deve-se conhecer as melhores formas de utilização,
gravação de dados, acondicionamento/guarda e durabilidade de cada uma delas para assegurar a perenidade dos arquivos digitais.
Manter os arquivos digitais íntegros e disponíveis a longo prazo requer um monitoramento constante dos suportes e a adoção de outras
estratégias de preservação digital. Estas estratégias serão estudadas na última aula desse curso.
INTRODUÇÃO À DIGITALIZAÇÃO
1.8 Qual a Política de Preservação Digital que será implantada?
Ao assumirem a responsabilidade de gerar documentos digitais os coordenadores de projetos de digitalização devem, obrigatoriamente,
assumir responsabilidade com a preservação digital.
De acordo com Caplan (2008, p. 7), digitalização para preservação é um conceito análogo ao tradicional campo da conservação e da
preservação. Na década de 1990, várias publicações, livros e jornais, foram microfilmados para preservar e dar acesso ao seu conteúdo,
evitando danificar os frágeis originais. Em um período seguinte, de transição, o microfilme foi usado para preservar e a digitalização,
para dar acesso. Atualmente, apesar das controvérsias, a digitalização tem sido proposta para preservação. No entanto, sabe-se que
preservar não é apenas criar cópias dos arquivos digitais, guardando-as para serem usadas no futuro.
A preservação digital compreende a capacidade de garantir a acessibilidade da informação
digital, a longo prazo, com características de autenticidade suficientes para que possa ser
interpretada, no futuro, através de uma plataforma tecnológica diferente da utilizada no
momento da sua criação (FERREIRA, 2006, p. 20).
Para obter êxito na tarefa de preservar os documentos digitais e garantir a eles o acesso a longo prazo precisa-se adotar uma Política de
Preservação Digital, que deve definir um conjunto de ações de preservação dos documentos digitais tendo em vista a quantidade, a
tipologia e as características dos arquivos digitais. Esta política deverá incluir também as necessidades de recursos humanos,
tecnológicos e financeiros. Todas as ações definidas nela deverão estar em consonância com as legislações de direitos autorais e de
software.
A preservação digital engloba estratégias como Preservação de tecnologia; Refrescamento; Emulação; Software Máquina Virtual (UVC –
Universal Virtual Computer); Adoção de metadados para preservação; XML e Migração (Migração para suportes analógicos, Atualização de
versões, Conversão para formatos concorrentes, Normalização, Migração a pedido, Migração distribuída, Encapsulamento e Pedra de
Rosetta digital). Estas estratégias serão estudadas na aula 5 do nosso curso.
INTRODUÇÃO À DIGITALIZAÇÃO
1.9 Quais os profissionais que vão realizar o trabalho?
A escolha da equipe de profissionais que irá atuar no projeto deverá ser realizada com base nos objetivos a serem alcançados pelo
projeto, cabendo aos coordenadores de execução do mesmo a definição dos perfis dos profissionais necessários para o desempenho das
atividades.
Normalmente a equipe é multidisciplinar, pois envolve profissionais de áreas diversas, como especialistas em digitalização,
especialistas em TI, profissionais da informação (bibliotecários, arquivistas, museólogos), da área jurídica e, por vezes, poderá ser
necessária a contratação de mão-de-obra externa para reforçar a equipe da instituição.
O treinamento e a atualização constante dos profissionais do projeto são imprescindíveis para que as atividades e rotinas estabelecidas
sejam desempenhadas de forma a alcançar os objetivos propostos. A produção e adoção de manuais de procedimentos e serviços,
contendo as rotinas e padrões adotados para as atividades do projeto são também muito importantes.
1.10 Qual o tempo necessário para a realização do projeto?
É importante determinar o tempo necessário para a realização do projeto. Para tal, deve-se elaborar um cronograma de atividades que
leve em conta a quantidade de documentos que serão digitalizados, as necessidades de capacitação da equipe e de montagem da
infra-estrutura tecnológica. Para isto, recomenda-se a realização de um projeto piloto antes da apresentação e implantação do
projeto para verificar o tempo necessário para cada uma das etapas.
Para realizar os testes é necessário criar um ambiente que mais se aproxime do pretendido para a implantação do projeto. Nesta fase,
é importante entrar em contato com fornecedores de equipamentos e softwares para solicitar a cessão gratuita de seus produtos para
a realização de testes. Essa medida servirá para respaldar a escolha e a compra dos softwares e equipamentos que foram mais bem
avaliados durante o projeto piloto.
INTRODUÇÃO À DIGITALIZAÇÃO
1.11 Quais os custos do Projeto?
Estimar os custos é imprescindível antes da elaboração de qualquer projeto. Quando a digitalização for feita na própria instituição os
principais custos a serem levantados são:







Custos
Custos
Custos
Custos
Custos
Custos
Custos
com salários e demais encargos dos profissionais envolvidos no projeto
com treinamentos para a capacitação da equipe
com equipamentos e softwares
com a desencadernação dos documentos
com materiais (consumíveis de equipamentos, materiais diversos utilizados no projeto (mídias de armazenamento, etc.)
de armazenamento/disponibilização dos documentos digitais
com a preservação digital
Quando a digitalização for feita por empresa terceirizada os principais custos a serem levantados são:
 Custos com a empresa terceirizada que realizará a digitalização
 Custos com a desencadernação de documentos, quando não incluídos nos serviços da empresa contratada para a digitalização
 Custos com transporte dos documentos para o local da digitalização, quando não incluídos nos serviços da empresa contratada para a
digitalização
 Custos com materiais (materiais diversos utilizados no projeto (mídias de armazenamento, etc.)
 Custos de armazenamento/disponibilização dos documentos digitais
 Custos com a preservação digital
Como vimos todas essas questões trazem à baila uma série de assuntos importantes que devem ser estudados pelos profissionais
envolvidos em projetos de digitalização de acervos, como tipologia e formatos dos arquivos digitais; equipamentos e softwares; mídias
ou suportes de armazenamento de informação; processo de digitalização, direitos autorais e preservação digital. Os três últimos
assuntos serão tratados com mais detalhes nas aulas três, quatro e cinco, respectivamente.
REFERÊNCIAS BIBLIOGRÁFICAS
BODÊ, Ernesto Carlos. Preservação de documentos eletrônicos: o papel dos
formatos de arquivo. In: CONGRESSO BRASILEIRO DE ARQUIVOLOGIA, 14.,
2006, Rio de Janeiro. Anais..., Rio de Janeiro: AAB, 2006. 1 CD-ROM.
CAPLAN, Priscilla. The preservation of digital materials. Library Technology
Reports, Chicago, v. 44, n. 2, Feb./Mar. 2008. Disponível em:
<https://publications.techsource.ala.org/products/archive.pl?article=2614>. Acesso
em: 1 jun. 2008.
DIRECÇÃO GERAL DE ARQUIVOS (Portugal). Recomendações para a produção
de planos de preservação digital. Francisco Barbedo ( Coord.) et al. Lisboa, 2008.
91 p. Disponível em:
<http://www.adporto.pt/ficheiros_a_descarregar/PlanoPreservacaoDigital_v1.0.pdf>. Acesso em: 05 set. 2010.
EMBRAPA INFORMAÇÃO TECNOLÓGICA. Guia para digitalização de documentos: versão 2.0. Brasília, 2006. 43 p. Disponível em:
<http://www.sct.embrapa.br/goi/manuais/GuiaDigitalizacao.pdf>. Acesso em: 04 set. 2010.
FANNING, Betsy A. Preserving the Data Explosion: Using PDF. Heslington
(Inglaterra): Digital Preservation Coalition , Maryland: AIIM. 2008 (DPC Technology
Watch Series Report 08-02). Disponível em:
<http://www.dpconline.org/docs/reports/dpctw08-02.pdf>. Acesso em: 29 ago. 2010.
FERREIRA, Miguel. Introdução à preservação digital: conceitos, estratégias e
actuais consensos. Guimarães, Portugal : Universidade do Minho, Escola de
Engenharia, 2006. 88 p. Disponível em:
<https://repositorium.sdum.uminho.pt/bitstream/1822/5820/1/livro.pdf>. Acesso em:
15 jun. 2008.
HADDAD, Fernando. Portal Domínio Público: missão. Disponível em: <http://www.dominiopublico.gov.br/Missao/Missao.jsp>. Acesso
em: 14 ago. 2010.
REFERÊNCIAS BIBLIOGRÁFICAS
SAYÃO, Luís Fernando. Padrões para bibliotecas digitais abertas e interoperáveis.
Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianópolis, n. esp., 1º sem. 2007.
Disponível em: <http://www.periodicos.ufsc.br/index.php/eb/article/view/378/436>.
Acesso em: 29 ago. 2010.
SILVA, Rubens Ribeiro Gonçalves da. Procedimentos básicos de seleção de documentos para conversão digital: elementos de
atualização profissional em setores de duas instituições públicas federais. Perspect. Ciênc. Inf., Belo Horizonte, v. 3, n. 11, p.433444, set./dez., 2006. Disponível em: <http://www.scielo.br/scielo.php?pid=S1413-99362006000300011&script=sci_arttext>. Acesso
em: 16 ago. 2010.
SOUSA, Beatriz Alves de. Glossário: Biblioteconomia – Arquivologia – Comunicação – Ciência da Informação. 2. ed. rev. e atual. João
Pessoa: Ed. Universitária UFPB, 2008. 133p.
Download

Mini Curso - Digitalização de Acervo