Biblioteca Nacional Digital ) Otávio Alexandre J. de Oliveira Coordenadoria de Informação Bibliográfica Fundação Biblioteca Nacional Biblioteca Nacional Digital Sumário Introdução Preservação Acesso O que está por vir... Biblioteca Nacional Digital Inaugurada em 2006 Laboratório mais bem equipado do país. Base de dados com aproximadamente 18.000 itens. 120.000 imagens processadas. Acesso ao site : 17.000 em Junho e 392.000 ao ano. Objetivo da digitalização ? Preservar Dar acesso Preservação digital O foco é preservar os objetos digitais independente do seu uso Não tem relação com os meios de armazenamento - CD, DVD, fitas magnéticas, etc. (um CD bem guardado pode durar 100 anos, mas haverá aparelho para tocá-lo daqui a 20 anos?) O objetivo é o acesso contínuo Preservação digital Hoje a perda de conhecimento já é um problema. Estamos gerando muito mais informação, e armazenandoas em meios cada vez mais transitórios. Tudo está nos discos rígidos, em data centers. Os discos rígidos nunca foram destinados para longo armazenamento, por essa razão nunca foram testados adequadamente para saber a sua vida útil. Não há informação precisa sobre o tempo de sua durabilidade. Talvez 20 ou 30 anos. Preservação digital Os discos rígidos mais modernos possuem uma densidade de armazenamento bem maior, são velozes e possuem sistemas sofisticados para combater falhas, mas... Quanto mais dados você armazena num material, mais você perde quando partes dele são degradadas ou danificadas. Estudos e testes de confiabilidade de mídia digital, mostram que o CD-R (com uma camada reflexiva de ouro e uma camada de tintura ftalocianina) poderia durar uns 100 anos. Preservação digital Mídias eletrônicas - longevidade (anos) Memória flash 10 DVD-R, DVD+R 27 CD-R (ftalocianina, camada de ouro) 100 CD-R (ftalocianina, camada de prata) 27 CD-RW, DVD-RW, DVD+RW 7 CD-R (cianina) 7 CD de áudio, filme em DVD 26 Fita digital 13 Fita analógica 20 0 20 40 60 80 100 Fonte: Infoexame, maio 2010 120 Preservação digital Atenção: “ As condições em que a mídia é armazenada podem ser muito mais importantes do que sua estabilidade inerente: unidades guardadas em locais secos e frescos vão durar muito mais que aquelas expostas ao calor e à umidade.” A vasta quantidade de material será um problema para recuperação. O que sobrevive por mais tempo, não necessariamente é o mais importante. Em um conjunto de dados quanto mais cópias são feitas, maiores as suas chances de sobrevivência, descoberta e recuperação. Alguns dados são muito copiados porque são úteis, como sistemas operacionais, mas na maioria das vezes o critério é a popularidade. Preservação digital Captura digital 1 - Captura da imagem master 2 - Controle de qualidade 3 – Armazenamento Captura digital 1 - Captura da imagem master Arquivos RAW : São representações cristalinas e não comprimidas do que é capturado pelos sensores da câmera . São imagens totalmente não processadas. É o “negativo da fotografia digital”. Captura da imagem master Captura Digital Conversão de formato RAW na câmera para outro formato padrão Edição da imagem em software de edição Armazenamento da imagem processada Transmissão do dado RAW Armazenamento da imagem não processada Edição do formato RAW em software de edição Opção de conversão para formato padrão e armazenamento da imagem processada Captura digital O padrão de captura na Biblioteca Nacional é de 300 dpi, obedecendo o tamanho original do documento. O arquivo TIF convertido do Raw é armazenado para preservação, e posteriormente são gerados os arquivos derivados para disponibilização na Web. 2 - Controle de qualidade Resolução Profundidade da imagem Resolução Resolução concerne o número de pixels ou pontos por polegada (dpi). Quanto mais pixels, mais detalhes são capturados. Quanto maior a resolução maior o tamanho do arquivo. Pontos por polegada - DPI (dots-per-inch) ou : Unidade associada à medida de resolução de imagens que leva em conta a quantidade de pontos que existem dentro de uma unidade de área, no caso a polegada quadrada. É uma unidade para densidade de pontos. Resolução Resolução de uma imagem não é a sua Definição. A imagem pode ser bem definida, ter boa qualidade, mas que por sua vez pode ou não ter uma alta resolução. Maior a resolução da imagem = maior o numero de pontos que a compõe = melhor é sua definição Resolução X Qualidade Dpi - dot per inch – pontos por polegada 1 polegada = 2,54 cm 1 2 3 4 5 6 7 Resolução 300 dpi é o padrão mínimo para utilização de OCR (Optical Character Recognition) Resolução Patamar de megapixels Tamanho típico da imagem Em 200 dpi Em 300 dpi Em 400 dpi 1 1.280 x 960 16,3 x 12,2cm 10,8 x 8,1cm 8,1 x 6,1cm 2 1.600 x 1.200 20,3 x 15,2cm 13,5 x 10,2cm 10,2 x 7,6cm 3 2.048 x 1.536 26 x 19,5cm 17,3 x 13cm 13 x 9,8cm 4 2.272 x 1.704 28,9 x 21,6cm 19,2 x 14,4cm 14,4 x 10,8cm 5 2.560 x 1.920 32,5 x 24,4cm 21,7 x 16,3cm 16,3 x 12,2cm 6 3.072 x 2.048 39 x 26cm 26 x 17,3cm 19,5 x 13cm 8 3.264 x 2.448 41,5 x 31,1cm 27,6 x 20,7cm 20,7 x 15,5cm Resolução da imagem 256 x 256 pixels 128 x 128 pixels 64 x 64 pixels - Com a perda de resolução a uma degradação da imagem - Profundidade é mantida de 256 níveis de cinza (8 bits) Resolução da imagem Profundidade 16 níveis de cinza 08 níveis de cinza 02 níveis de cinza - A resolução é mantida de 256x256 pixels - Detalhes da imagem original (a), aparecem como forma homogêneas na de menor profundidade (c) Profundidade da imagem A profundidade em bits faz referência à quantidade de informações sobre a cor que o scanner captura em cada ponto. Uma maior profundidade de bits resultará na exibição de mais gradações de cor e que o documento ou foto digitalizado seja mais parecido com o original. bits (binary digit) Profundida de cor bits (binary digit) Profundida de cor 3 - Armazenamento A Nomeação e arquivamento dos arquivos é sistêmico As pastas dos arquivos tem a mesma estrutura de guarda dos documentos originais Os arquivos digitais derivados possuem mesma estrutura dos arquivos master Os arquivos são armazenados em HDs (on line) e DVDs e HDs (off line) em ambientes adeguados. Objdigital.bn.br acervo_digital div_iconografia div_manuscritos div_musica etc.... Modelo de armazenagem em DVD ACESSO COMPRESSÃO VISUALIZAÇÃO Compressão e Visualização Para melhor disponibilidade na web os arquivos digitais são reduzidos. A escolha do programa de compressão depende do tipo de recurso Há dois tipos de recursos: Simples : composto de única imagem Multi-parte : composto de várias imagens Compactação/Compressão Som : • MP3 (MPEG Audio Layer-3) – áudio com pouca perda e redução de arquivo em 90% • MID (Musical Instrument Digital Interface) – grande vantagem de arquivos bem pequenos Imagem : • MP3 (MPEG Audio Layer-3) – áudio com pouca perda e redução de arquivo em 90% • MID (Musical Instrument Digital Interface) – grande vantagem de arquivos bem pequenos Compactação/Compressão - Imagem JPG Recursos simples Zoomify MrSid PDF Recursos multi-partes DjVu ContentE Compressão e Visualização .JPEG (Joint Photographic Experts Group) O principal esquema de compressão com perda (lossy) é o JPEG Este esquema permite selecionar o grau de compressão, sendo as mais comuns entre 10:1 e 40:1. Foi sancionado pela ISO (International Standards Organization) Compressão e Visualização Os sistemas com perda, como JPEG, utilizam uma maneira de compensar ou descartar a informação menos importante, baseada em um entendimento da percepção visual. Na web fica difícil detectar os efeitos da compressão com perda, e a imagem pode considerar-se "sem perda visual". .JPEG (Joint Photographic Experts Group) Compressão e Visualização .MrSID (Multi-Resolution Seamless Image Database) Utiliza-se o software Mr.SID baseado em wavelet. Permite aos usuários com um browser padrão fazer zoom, obtendo assim mais e mais detalhes. Comprime imagens sem perda visual da qualidade da imagem original, e ao mesmo tempo mantém a precisão geométrica a nível de pixel Compressão e Visualização .PDF (Portable Document Format) Preserva a aparência e a integridade dos documentos originais independentemente do aplicativo e da plataforma que foram usados para criá-lo. OCR FullText: funcionalidade da tecnologia de reconhecimento de caracteres (OCR) onde é possível utilizar a conversão completa da imagem em texto para realizar a consulta do documento. Compressão e Visualização .DJvu (Déjà vu) Os arquivos DjVu são 1.000 vezes menores que TIFF e de 10 até 100 vezes menores que JPEG ou PDF, dependendo de como os arquivos JPEG e PDF foram criados Compressão e Visualização .Zoomify Permite zoom de alta qualidade com rapidez Integra JPEG, HTML e Flash Um programa livre (Free), sem custo Compressão e Visualização .ContentE Editor de Conteúdos Estruturados .Funcionalidades Processa imagens no formato TIFF, GIF, JPEG, TxT, e PDF Gera cópias de obras em XHTML aplicando estilos Criação de múltiplos índices de visualização de uma obra Exportação e importação de uma obra em XML, seguindo o formato METS Geração de cópias estruturadas em XHTML ou PDF Vantagens do arquivo digital Preservação diminuição do acesso aos originais fidelidade ao original fidelidade na multiplicação das cópias Acesso múltiplo acesso simultâneo distribuição em rede variedade de arquivos derivados economia de espaço de armazenagem Metadados Metadados METADADO: um dado, ou um conjunto de dados, que descrevem um objeto ou informação. No contexto de imagem, o metadado pode ser resumido como uma chave de identificação de um documento (imagens) que será utilizado para recuperá-lo. O termo “Metadado” começou a ser usado em 1994. Esquema de metadados utilizado pela Biblioteca Nacional ISO 15836 (2003) O que está por vir... Rosetta Disk – são discos de níquel gravados com texto que inicia em tamanho normal e depois encolhe para escala microscópica. Primeiro disco contém textos em 1000 línguas. Num tamanho legível a partir de uma ampliação de 1000 vezes, cada disco suporta 30.000 páginas de texto ou imagens. Biblioteca Nacional Digital Biblioteca Nacional Digital Referência: BETTENCOURT, Ângela Monteiro. Preservação digital. (formato em Power Point) – Arquivo. BETTENCOURT, Ângela Monteiro. Digitalização e acesso. (formato em Power Point) – Arquivo InfoExame, maio 2010. World Digital Library Muito obrigado [email protected] http://bndigital.bn.br/