A iniciativa da
Biblioteca Nacional Digital
< http://bnd.bn.pt >
José Borbinha - Biblioteca Nacional
< [email protected] >
Principais Objectivos da BND
• Produção de Conteúdos
– Digitalização (conteúdos digitalizados)
– Edição Digital (conteúdos digitais)
• Desenvolvimento de Serviços
– Depósito de Conteúdos
•
•
•
•
Aquisição
Registo
Armazenamento
Preservação
– Pesquisa e Divulgação de Conteúdos
– Acesso a Conteúdos
• Desenvolvimento de infra-estrutura
– Soluções informáticas abertas, normalizadas,
escaláveis, reutilizáveis, interoperáveis e
sustentáveis a longo prazo
Produção de Conteúdos
• Digitalização
– Facilitar o acesso a obras e colecções de
referência
– Completar colecções dispersas (internamente
ou mesmo em parceria com entidades
externas)
– Dar apoio aos projectos de edição digital
• Edição Digital
– Produção de obras originais, em formato digital,
incorporando ou não conteúdos digitalizados,
mas com valor acrescentado e identidade
bibliográfica própria.
Digitalização na BND: Processos e Tecnologia
1.
Criação de Imagens Digitais
– Formatos de imagem
– Resolução e cor
– Imagens originais e derivadas
2. Organização Estrutural e Indexação
– Estruturas objectivas em XML
– Transcrições para texto (OCR)
– Formatos para publicação (HTML, PDF, etc.)
3. Registo e Publicação
– Metadados Descritivos (PORBASE e X-ARQ)
– Identificadores (PURL)
4. Pesquisa e Acesso
– Serviços integrados de pesquisa e navegação...
– Serviços de acesso em linha e entrega em suporte físico...
1- Digitalização na BND: Criação de Imagens
• Produção Interna
– Produção:
• Desde 1998, mais de 100.000 imagens, de 1.000 títulos, com cerca de 400 já disponíveis...
• Qualidade variada, associada aos períodos de aprendizagem e evolução da tecnologia...
– Objectivos:
• Até ao presente: Aprendizagem e desenvolvimento de colecção mínima...
• Futuro: Digitalização de originais mais delicados ou complexos!
– Equipamentos
• Scanners de mesa (HP e Epson)
– Originais em folhas soltas ou encadernações sem problemas, até tamanho A3
– Algumas dezenas de imagens por hora, até 600 dpi, cor...
• Scanners planetários (Minolta PS7000)
– Originais em folhas soltas ou encadernados, até tamanho A3
– Cerca de uma centena de imagens por hora, até 600 dpi, em tons de cinzento
• Máquina fotográfica PhaseOne H25
– Originais em folhas soltas ou encadernados
– Algumas dezenas de imagens por hora, qualquer tamanho, 25.000.000 pixéis, cor...
• Máquina fotográfica PhaseOne PowerPhase
– Originais em folhas soltas ou encadernações sem problemas
– 2 ou 3 imagens por hora, de qualquer tamanho, 100.000.000 pixéis, cor...
• Produção Externa
– Concurso Público em curso
• Produção de 300.000 imagens, de monografias e essencialmente de periódicos
até ao início do Século XX, com tamanhos de A4 a A2, resolução entre 300 e 600
dpi, e cor.
1.1- PAPAIA: Processamento de Páginas Digitalizadas
• Na organização de uma obra digitalizada existem tarefas
para as quais é possível e vantajoso criar processos
automáticos que facilitem a sua realização. A aplicação
PAPAIA tem como objectivo:
– Nomes dos ficheiros: Normalizar os nomes dos ficheiros de imagens
de páginas digitalizadas segundo a sintaxe definida para a BND.
– Metadados Estruturais: Registar a estrutura da obra digitalizada
associando as imagens aos capítulos a que pertencem e ainda a
palavras-chave. Os resultados são registados num ficheiro XML, num
formato simples e de fácil reutilização.
– Metadados Técnicos: Editar os cabeçalhos dos ficheiros de imagens
que constituem a obra digitalizada registando informação sobre a sua
identificação (como, por exemplo, uma cota da cópia original),
equipamento onde foi digitalizada, identificação da pessoa que a
digitalizou, dia e hora dessa tarefa, declaração de direitos de autor,
etc.
1.1- PAPAIA: Processamento de Páginas Digitalizadas
1.2- ContentE: Editor de Conteúdos Estruturados
• Declaração da estrutura de uma obra digitalizada,
associando-lhe ainda metadados vários (registos
bibliográficos, dados técnicos do processo de digitalização,
informações do operador, declarações sobre direitos, etc.).
• Criação de múltiplos índices de visualização da obra,
segundo o tipo de exploração que se pretenda oferecer.
• Gravação da estrutura num formato XML (segundo o
esquema METS), mantendo toda a informação relevante.
• Geração de cópias das obras estruturadas, em XHTML
(segundo várias folhas de estilos) ou PDF.
• Organização de colecções de obras, permitindo assim
estruturar um conjunto de obras numa miscelânea.
1.2- ContentE: Editor de Conteúdos Estruturados
1.3- Reconhecimento Óptico de Caracteres
(OCR)
1.3- KIWI: Indexação de Palavras em Imagens
2- Registo e Publicação
• Todas as obras existentes na BND recebem um
identificador único (PURL), o qual permite gerir
a localização da obra independentemente do
seu acesso.
• Todas as obras bibliográficas são registadas
individualmente na PORBASE – Base Nacional
de Dados Bibliográficos.
• Os espólios irão ser igualmente registados na
PORBASE, mas apenas com um registo por
colecção. Um registo mais detalhado será
efectuada num sistema próprio, segundo as
ISAD (com posterior exportação em EAD).
3- Pesquisa e Acesso
1. Descoberta de Recursos:
1. Pesquisa na PORBASE e em bases de dados próprias
(solução PACWEB, ...)
2. Navegação em índices...
2. Acesso aos Recursos
– Acesso em linha, com controlo de termos e
condições...
– Entrega em suporte físico (DVD ou CD-ROM), com
opções de selecções parciais de obras, alteração de
resolução das imagens e do estilo da
“encadernação”, etc.
Exemplos de obras na BND (http://bnd.bn.pt)
• Obras Digitalizadas
– Cartografia
• Atlas de Fernão Vaz Dourado (digitalização a partir de cópia em
fac-simile): http://purl.pt/400
– Publicação Periódica
• Portugália: http://purl.pt/283
– Catalogação analítica e indexação feita por equipa da Universidade
Nova de Lisboa
– Índice sequencial e por autor
– Cópia em PDF (imagem)
– Música
• Jornal de modinhas... : http://purl.pt/100
• Edições Digitais
• 25 de Abril: http://purl.pt/94/
• Verdi em Portugal: http://purl.pt/104
• Tesouros da Biblioteca Nacional: http://purl.pt/369
Objectivo: Centro de
competência!!!
• Digitalização:
– Requisitos técnicos (imagens originais e derivadas, resolução, cor, etc.)
• Metadados Estruturais:
– Adopção do esquema METS (a BND como caso de estudo do
mesmo...)
– Soluções técnicas PAPAIA e ContentE (apoio à indexação com
aplicação KIWI)
• Metadados Descritivos:
– UNIMARC, Dublin Core, EAD, ...
• Publicação e Preservação:
– Soluções abertas e eficazes, sem necessidade de aplicações activas,
mobilidade no tempo (preservação temporal) e no espaço (on-line; DVD
ou CD-ROM, independente dos sistemas operativos, etc.)
• Armazenamento seguro e de grande capacidade
– Soluções ARCO e LUSTRE
• Interoperação
– Serviços Z39.50, ZING/SR, OAI-PMH, RSS, etc.
– Serviços integrados de pesquisa em ambientes distribuídos (portais,
catálogos e arquivos colectivos, etc.)
Plano de trabalho
• Digitalização:
– Objectivo: Tornar disponíveis por meios digitais os recursos à guarda da BN (e de outras
entidades que se decidam associar à BN...)
– Actualmente: Mais de 100.000 imagens de primeiras edições de clássicos e obras de
referência, manuscritos, cartografia, cartazes, etc.
– Final de 2004: Cerca de meio milhão de imagens!!!
• Metadados Estruturais:
– Objectivos: Adopção generalizada até final de 2004 do esquema METS para toda a BND.
– Actualmente: Primeiras versões disponíveis das soluções PAPAIA, ContentE, KIWI (e de
outras complementares, aqui não referidas...).
– Final de 2004: Infra-estrutura e ferramentas auxiliares estáveis, permitindo um regime
estável de produção a partir de 2005!!!
• Metadados Descritivos, Interoperação, Pesquisa e Acesso
– Objectivo: Interoperação com sistemas e serviços de pesquisa actuais e futuros, dentro e
fora da BN; acesso generalizado
– Actualmente: processamento de UNIMARC/MARC21 e Dublin Core, com pesquisa na
PORBASE e em bases de dados, e navegação em índices especializados; acesso total a
cópias HTML.
– Final de 2004: Processamento de EAD e outros esquemas descritivos relevantes; oferta
de índices e canais para serviços de agregação e sindicalização; oferta de acesso a
cópias PDF e texto; opção de encomenda de cópias em DVD ou CD-ROM.
• Armazenamento e Preservação:
– Actualmente: soluções ARCO e LUSTRE e utilização experimental.
– Final de 2004: soluções ARCO e LUSTRE estáveis.
Download

apresentação