Biblioteca Nacional
Digital
)
Otávio Alexandre J. de Oliveira
Coordenadoria de Informação Bibliográfica
Fundação Biblioteca Nacional
Biblioteca Nacional Digital
Sumário

Introdução

Preservação

Acesso

O que está por vir...
Biblioteca Nacional Digital

Inaugurada em 2006

Laboratório mais bem equipado do país.

Base de dados com aproximadamente 18.000 itens.

120.000 imagens processadas.

Acesso ao site : 17.000 em Junho e 392.000 ao ano.
Objetivo da digitalização ?
 Preservar
 Dar acesso
Preservação digital
O foco é preservar os objetos digitais independente do seu
uso
Não tem relação com os meios de armazenamento - CD,
DVD, fitas magnéticas, etc. (um CD bem guardado pode
durar 100 anos, mas haverá aparelho para tocá-lo daqui a
20 anos?)
O objetivo é o acesso contínuo
Preservação digital
Hoje a perda de conhecimento já é um problema.
Estamos gerando muito mais informação, e armazenandoas em meios cada vez mais transitórios.
Tudo está nos discos rígidos, em data centers.
Os discos rígidos nunca foram destinados para longo
armazenamento, por essa razão nunca foram testados
adequadamente para saber a sua vida útil.
Não há informação precisa sobre o tempo de sua
durabilidade. Talvez 20 ou 30 anos.
Preservação digital
Os discos rígidos mais modernos possuem uma densidade
de armazenamento bem maior, são velozes e possuem
sistemas sofisticados para combater falhas, mas...
Quanto mais dados você armazena num material, mais
você perde quando partes dele são degradadas ou
danificadas.
Estudos e testes de confiabilidade de mídia digital, mostram
que o CD-R (com uma camada reflexiva de ouro e uma
camada de tintura ftalocianina) poderia durar uns 100 anos.
Preservação digital
Mídias eletrônicas - longevidade (anos)
Memória flash
10
DVD-R, DVD+R
27
CD-R (ftalocianina, camada de ouro)
100
CD-R (ftalocianina, camada de prata)
27
CD-RW, DVD-RW, DVD+RW
7
CD-R (cianina)
7
CD de áudio, filme em DVD
26
Fita digital
13
Fita analógica
20
0
20
40
60
80
100
Fonte: Infoexame, maio 2010
120
Preservação digital
Atenção: “ As condições em que a mídia é armazenada
podem ser muito mais importantes do que sua estabilidade
inerente: unidades guardadas em locais secos e frescos
vão durar muito mais que aquelas expostas ao calor e à
umidade.”
A vasta quantidade de material será um problema para
recuperação. O que sobrevive por mais tempo, não
necessariamente é o mais importante.
Em um conjunto de dados quanto mais cópias são feitas,
maiores as suas chances de sobrevivência, descoberta e
recuperação. Alguns dados são muito copiados porque são
úteis, como sistemas operacionais, mas na maioria das
vezes o critério é a popularidade.
Preservação digital
Captura digital
1 - Captura da imagem master
2 - Controle de qualidade
3 – Armazenamento
Captura digital
1 - Captura da imagem master
Arquivos RAW :
 São representações cristalinas e não comprimidas do que
é capturado pelos sensores da câmera . São imagens
totalmente não processadas.
 É o “negativo da fotografia digital”.
Captura da imagem master
Captura Digital
Conversão de formato RAW
na câmera para outro formato padrão
Edição da imagem em
software de edição
Armazenamento da
imagem processada
Transmissão do dado RAW
Armazenamento da imagem
não processada
Edição do formato RAW
em software de edição
Opção de conversão para formato padrão
e armazenamento da imagem processada
Captura digital
 O padrão de captura na Biblioteca Nacional é de 300 dpi,
obedecendo o tamanho original do documento.
 O arquivo TIF convertido do Raw é armazenado para
preservação, e posteriormente são gerados os arquivos
derivados para disponibilização na Web.
2 - Controle de qualidade
Resolução
Profundidade da imagem
Resolução
 Resolução concerne o número de pixels ou pontos por
polegada (dpi). Quanto mais pixels, mais detalhes são
capturados.
 Quanto maior a resolução maior o tamanho do arquivo.
 Pontos por polegada - DPI (dots-per-inch) ou :
Unidade associada à medida de resolução de imagens
que leva em conta a quantidade de pontos que existem
dentro de uma unidade de área, no caso a polegada
quadrada. É uma unidade para densidade de pontos.
Resolução
 Resolução de uma imagem não é a sua Definição. A
imagem pode ser bem definida, ter boa qualidade, mas
que por sua vez pode ou não ter uma alta resolução.
 Maior a resolução da imagem = maior o numero de
pontos que a compõe = melhor é sua definição
Resolução X Qualidade
Dpi - dot per inch – pontos por polegada
1 polegada = 2,54 cm
1 2 3 4 5 6 7
Resolução
300 dpi é o padrão mínimo para utilização de OCR (Optical
Character Recognition)
Resolução
Patamar de
megapixels
Tamanho típico da
imagem
Em 200 dpi
Em 300 dpi
Em 400 dpi
1
1.280 x 960
16,3 x 12,2cm
10,8 x 8,1cm
8,1 x 6,1cm
2
1.600 x 1.200
20,3 x 15,2cm
13,5 x 10,2cm
10,2 x 7,6cm
3
2.048 x 1.536
26 x 19,5cm
17,3 x 13cm
13 x 9,8cm
4
2.272 x 1.704
28,9 x 21,6cm
19,2 x 14,4cm
14,4 x 10,8cm
5
2.560 x 1.920
32,5 x 24,4cm
21,7 x 16,3cm
16,3 x 12,2cm
6
3.072 x 2.048
39 x 26cm
26 x 17,3cm
19,5 x 13cm
8
3.264 x 2.448
41,5 x 31,1cm
27,6 x 20,7cm
20,7 x 15,5cm
Resolução da imagem
256 x 256 pixels
128 x 128 pixels
64 x 64 pixels
- Com a perda de resolução a uma degradação da imagem
- Profundidade é mantida de 256 níveis de cinza (8 bits)
Resolução da imagem
Profundidade
16 níveis de cinza
08 níveis de cinza
02 níveis de cinza
- A resolução é mantida de 256x256 pixels
- Detalhes da imagem original (a), aparecem como forma homogêneas na de
menor profundidade (c)
Profundidade da imagem
A profundidade em bits faz referência à
quantidade de informações sobre a cor que o
scanner captura em cada ponto. Uma maior
profundidade de bits resultará na exibição de
mais gradações de cor e que o documento ou
foto digitalizado seja mais parecido com o
original.
bits (binary digit)
Profundida de cor
bits (binary digit)
Profundida de cor
3 - Armazenamento
 A Nomeação e arquivamento dos
arquivos é sistêmico
 As pastas dos arquivos tem a
mesma estrutura de guarda dos
documentos originais
 Os arquivos digitais derivados
possuem mesma estrutura dos
arquivos master
 Os arquivos são armazenados em
HDs (on line) e DVDs e HDs (off
line) em ambientes adeguados.
Objdigital.bn.br
acervo_digital
div_iconografia
div_manuscritos
div_musica
etc....
Modelo de armazenagem
em DVD
ACESSO

COMPRESSÃO

VISUALIZAÇÃO
Compressão e Visualização



Para melhor disponibilidade na web os
arquivos digitais são reduzidos.
A escolha do programa de compressão
depende do tipo de recurso
Há dois tipos de recursos:
 Simples : composto de única imagem
 Multi-parte : composto de várias imagens
Compactação/Compressão
Som :
• MP3 (MPEG Audio Layer-3) – áudio com pouca
perda e redução de arquivo em 90%
• MID (Musical Instrument Digital Interface) – grande
vantagem de arquivos bem pequenos
Imagem :
• MP3 (MPEG Audio Layer-3) – áudio com pouca
perda e redução de arquivo em 90%
• MID (Musical Instrument Digital Interface) – grande
vantagem de arquivos bem pequenos
Compactação/Compressão - Imagem
JPG
Recursos
simples
Zoomify
MrSid
PDF
Recursos
multi-partes
DjVu
ContentE
Compressão e Visualização
.JPEG (Joint Photographic Experts Group)
O principal esquema de compressão com perda
(lossy) é o JPEG
Este esquema permite selecionar o grau de
compressão, sendo as mais comuns entre 10:1 e
40:1.
Foi sancionado pela ISO (International Standards
Organization)
Compressão e Visualização
Os sistemas com perda, como JPEG, utilizam
uma maneira de compensar ou descartar a
informação menos importante, baseada em um
entendimento da percepção visual.
Na web fica difícil detectar os efeitos da
compressão com perda, e a imagem pode
considerar-se "sem perda visual".
.JPEG (Joint Photographic Experts Group)
Compressão e Visualização
.MrSID (Multi-Resolution Seamless Image Database)
Utiliza-se o software Mr.SID baseado em wavelet.
Permite aos usuários com um browser padrão fazer zoom,
obtendo assim mais e mais detalhes.
Comprime imagens sem perda visual da qualidade da
imagem original, e ao mesmo tempo mantém a precisão
geométrica a nível de pixel
Compressão e Visualização
.PDF (Portable Document Format)
Preserva a aparência e a integridade dos documentos
originais independentemente do aplicativo e da plataforma
que foram usados para criá-lo.
OCR FullText: funcionalidade da tecnologia de
reconhecimento de caracteres (OCR) onde é possível utilizar
a conversão completa da imagem em texto para realizar a
consulta do documento.
Compressão e Visualização
.DJvu (Déjà vu)
Os arquivos DjVu são
1.000 vezes menores
que TIFF e de 10 até
100 vezes menores
que JPEG ou PDF,
dependendo de como
os arquivos JPEG e
PDF foram criados
Compressão e Visualização
.Zoomify
 Permite zoom de alta qualidade com rapidez
 Integra JPEG, HTML e Flash
 Um programa livre (Free), sem custo
Compressão e Visualização
.ContentE
Editor de Conteúdos Estruturados
.Funcionalidades
 Processa imagens no formato TIFF, GIF, JPEG, TxT,
e PDF
 Gera cópias de obras em XHTML aplicando estilos
 Criação de múltiplos índices de visualização de uma
obra
 Exportação e importação de uma obra em XML,
seguindo o formato METS
 Geração de cópias estruturadas em XHTML ou PDF
Vantagens do arquivo digital
Preservação
 diminuição do acesso aos originais
 fidelidade ao original
 fidelidade na multiplicação das cópias
Acesso
 múltiplo acesso simultâneo
 distribuição em rede
 variedade de arquivos derivados
economia de espaço de armazenagem
Metadados
Metadados

METADADO: um dado, ou um conjunto de dados, que
descrevem um objeto ou informação. No contexto de
imagem, o metadado pode ser resumido como uma
chave de identificação de um documento (imagens) que
será utilizado para recuperá-lo.

O termo “Metadado” começou a ser usado em 1994.
Esquema de metadados utilizado pela Biblioteca Nacional
ISO 15836 (2003)
O que está por vir...
Rosetta Disk – são discos de níquel gravados com texto
que inicia em tamanho normal e depois encolhe para
escala microscópica.
Primeiro disco contém textos em 1000 línguas. Num
tamanho legível a partir de uma ampliação de 1000 vezes,
cada disco suporta 30.000 páginas de texto ou imagens.
Biblioteca Nacional
Digital
Biblioteca Nacional Digital
Referência:

BETTENCOURT, Ângela Monteiro. Preservação
digital. (formato em Power Point) – Arquivo.

BETTENCOURT, Ângela Monteiro. Digitalização e
acesso. (formato em Power Point) – Arquivo

InfoExame, maio 2010.
World Digital Library
Muito obrigado
[email protected]
http://bndigital.bn.br/
Download

Preservação digital - Planor