A iniciativa da Biblioteca Nacional Digital < http://bnd.bn.pt > José Borbinha - Biblioteca Nacional < [email protected] > Principais Objectivos da BND • Produção de Conteúdos – Digitalização (conteúdos digitalizados) – Edição Digital (conteúdos digitais) • Desenvolvimento de Serviços – Depósito de Conteúdos • • • • Aquisição Registo Armazenamento Preservação – Pesquisa e Divulgação de Conteúdos – Acesso a Conteúdos • Desenvolvimento de infra-estrutura – Soluções informáticas abertas, normalizadas, escaláveis, reutilizáveis, interoperáveis e sustentáveis a longo prazo Produção de Conteúdos • Digitalização – Facilitar o acesso a obras e colecções de referência – Completar colecções dispersas (internamente ou mesmo em parceria com entidades externas) – Dar apoio aos projectos de edição digital • Edição Digital – Produção de obras originais, em formato digital, incorporando ou não conteúdos digitalizados, mas com valor acrescentado e identidade bibliográfica própria. Digitalização na BND: Processos e Tecnologia 1. Criação de Imagens Digitais – Formatos de imagem – Resolução e cor – Imagens originais e derivadas 2. Organização Estrutural e Indexação – Estruturas objectivas em XML – Transcrições para texto (OCR) – Formatos para publicação (HTML, PDF, etc.) 3. Registo e Publicação – Metadados Descritivos (PORBASE e X-ARQ) – Identificadores (PURL) 4. Pesquisa e Acesso – Serviços integrados de pesquisa e navegação... – Serviços de acesso em linha e entrega em suporte físico... 1- Digitalização na BND: Criação de Imagens • Produção Interna – Produção: • Desde 1998, mais de 100.000 imagens, de 1.000 títulos, com cerca de 400 já disponíveis... • Qualidade variada, associada aos períodos de aprendizagem e evolução da tecnologia... – Objectivos: • Até ao presente: Aprendizagem e desenvolvimento de colecção mínima... • Futuro: Digitalização de originais mais delicados ou complexos! – Equipamentos • Scanners de mesa (HP e Epson) – Originais em folhas soltas ou encadernações sem problemas, até tamanho A3 – Algumas dezenas de imagens por hora, até 600 dpi, cor... • Scanners planetários (Minolta PS7000) – Originais em folhas soltas ou encadernados, até tamanho A3 – Cerca de uma centena de imagens por hora, até 600 dpi, em tons de cinzento • Máquina fotográfica PhaseOne H25 – Originais em folhas soltas ou encadernados – Algumas dezenas de imagens por hora, qualquer tamanho, 25.000.000 pixéis, cor... • Máquina fotográfica PhaseOne PowerPhase – Originais em folhas soltas ou encadernações sem problemas – 2 ou 3 imagens por hora, de qualquer tamanho, 100.000.000 pixéis, cor... • Produção Externa – Concurso Público em curso • Produção de 300.000 imagens, de monografias e essencialmente de periódicos até ao início do Século XX, com tamanhos de A4 a A2, resolução entre 300 e 600 dpi, e cor. 1.1- PAPAIA: Processamento de Páginas Digitalizadas • Na organização de uma obra digitalizada existem tarefas para as quais é possível e vantajoso criar processos automáticos que facilitem a sua realização. A aplicação PAPAIA tem como objectivo: – Nomes dos ficheiros: Normalizar os nomes dos ficheiros de imagens de páginas digitalizadas segundo a sintaxe definida para a BND. – Metadados Estruturais: Registar a estrutura da obra digitalizada associando as imagens aos capítulos a que pertencem e ainda a palavras-chave. Os resultados são registados num ficheiro XML, num formato simples e de fácil reutilização. – Metadados Técnicos: Editar os cabeçalhos dos ficheiros de imagens que constituem a obra digitalizada registando informação sobre a sua identificação (como, por exemplo, uma cota da cópia original), equipamento onde foi digitalizada, identificação da pessoa que a digitalizou, dia e hora dessa tarefa, declaração de direitos de autor, etc. 1.1- PAPAIA: Processamento de Páginas Digitalizadas 1.2- ContentE: Editor de Conteúdos Estruturados • Declaração da estrutura de uma obra digitalizada, associando-lhe ainda metadados vários (registos bibliográficos, dados técnicos do processo de digitalização, informações do operador, declarações sobre direitos, etc.). • Criação de múltiplos índices de visualização da obra, segundo o tipo de exploração que se pretenda oferecer. • Gravação da estrutura num formato XML (segundo o esquema METS), mantendo toda a informação relevante. • Geração de cópias das obras estruturadas, em XHTML (segundo várias folhas de estilos) ou PDF. • Organização de colecções de obras, permitindo assim estruturar um conjunto de obras numa miscelânea. 1.2- ContentE: Editor de Conteúdos Estruturados 1.3- Reconhecimento Óptico de Caracteres (OCR) 1.3- KIWI: Indexação de Palavras em Imagens 2- Registo e Publicação • Todas as obras existentes na BND recebem um identificador único (PURL), o qual permite gerir a localização da obra independentemente do seu acesso. • Todas as obras bibliográficas são registadas individualmente na PORBASE – Base Nacional de Dados Bibliográficos. • Os espólios irão ser igualmente registados na PORBASE, mas apenas com um registo por colecção. Um registo mais detalhado será efectuada num sistema próprio, segundo as ISAD (com posterior exportação em EAD). 3- Pesquisa e Acesso 1. Descoberta de Recursos: 1. Pesquisa na PORBASE e em bases de dados próprias (solução PACWEB, ...) 2. Navegação em índices... 2. Acesso aos Recursos – Acesso em linha, com controlo de termos e condições... – Entrega em suporte físico (DVD ou CD-ROM), com opções de selecções parciais de obras, alteração de resolução das imagens e do estilo da “encadernação”, etc. Exemplos de obras na BND (http://bnd.bn.pt) • Obras Digitalizadas – Cartografia • Atlas de Fernão Vaz Dourado (digitalização a partir de cópia em fac-simile): http://purl.pt/400 – Publicação Periódica • Portugália: http://purl.pt/283 – Catalogação analítica e indexação feita por equipa da Universidade Nova de Lisboa – Índice sequencial e por autor – Cópia em PDF (imagem) – Música • Jornal de modinhas... : http://purl.pt/100 • Edições Digitais • 25 de Abril: http://purl.pt/94/ • Verdi em Portugal: http://purl.pt/104 • Tesouros da Biblioteca Nacional: http://purl.pt/369 Objectivo: Centro de competência!!! • Digitalização: – Requisitos técnicos (imagens originais e derivadas, resolução, cor, etc.) • Metadados Estruturais: – Adopção do esquema METS (a BND como caso de estudo do mesmo...) – Soluções técnicas PAPAIA e ContentE (apoio à indexação com aplicação KIWI) • Metadados Descritivos: – UNIMARC, Dublin Core, EAD, ... • Publicação e Preservação: – Soluções abertas e eficazes, sem necessidade de aplicações activas, mobilidade no tempo (preservação temporal) e no espaço (on-line; DVD ou CD-ROM, independente dos sistemas operativos, etc.) • Armazenamento seguro e de grande capacidade – Soluções ARCO e LUSTRE • Interoperação – Serviços Z39.50, ZING/SR, OAI-PMH, RSS, etc. – Serviços integrados de pesquisa em ambientes distribuídos (portais, catálogos e arquivos colectivos, etc.) Plano de trabalho • Digitalização: – Objectivo: Tornar disponíveis por meios digitais os recursos à guarda da BN (e de outras entidades que se decidam associar à BN...) – Actualmente: Mais de 100.000 imagens de primeiras edições de clássicos e obras de referência, manuscritos, cartografia, cartazes, etc. – Final de 2004: Cerca de meio milhão de imagens!!! • Metadados Estruturais: – Objectivos: Adopção generalizada até final de 2004 do esquema METS para toda a BND. – Actualmente: Primeiras versões disponíveis das soluções PAPAIA, ContentE, KIWI (e de outras complementares, aqui não referidas...). – Final de 2004: Infra-estrutura e ferramentas auxiliares estáveis, permitindo um regime estável de produção a partir de 2005!!! • Metadados Descritivos, Interoperação, Pesquisa e Acesso – Objectivo: Interoperação com sistemas e serviços de pesquisa actuais e futuros, dentro e fora da BN; acesso generalizado – Actualmente: processamento de UNIMARC/MARC21 e Dublin Core, com pesquisa na PORBASE e em bases de dados, e navegação em índices especializados; acesso total a cópias HTML. – Final de 2004: Processamento de EAD e outros esquemas descritivos relevantes; oferta de índices e canais para serviços de agregação e sindicalização; oferta de acesso a cópias PDF e texto; opção de encomenda de cópias em DVD ou CD-ROM. • Armazenamento e Preservação: – Actualmente: soluções ARCO e LUSTRE e utilização experimental. – Final de 2004: soluções ARCO e LUSTRE estáveis.