Bibliotecas e tecnologia ao longo dos tempos...
Bibliotecas Digitais
Uma Revisão da Tecnologia
Library
Writing
José Borbinha
Biblioteca Nacional
< [email protected] >
Sumário
Conceitos e Discussão Prévia...
Criação de Recursos
Registo, Divulgação e Descoberta
Acesso e Usufruto
Armazenamento e Preservação Digital
Reflexões e Referências...
Printing
XVI-XVIII
Century
Conceitos e
Discussão Prévia...
XIX
Century
time
Data
communication
PC and
CD-ROM
Internet
XX Century
70’s
80’s
90’s
XXI
Century
Na perspectiva da Engenharia Informática
ACM Computing Classification System
(Janeiro de 1998)
•...
•H. Information Systems
– ...
– H.3 Information Storage and Retrieval
• ...
• H.3.7 Digital Libraries
–
–
–
–
–
Bibliotecas Digitais
Industrial
Revolution Computer
Factors
Greeks (Alexandria,
Pergamum), Roman
Empire, Arabs, ...
Collection
Dissemination
Standards
System issues
User issues
Digital Libraries: Future Research Directions for a European Research Programme
DELOS Report on the results of a meeting in S.Cassiano, Italy,13-15 June, 2001
Complexidade dos utilizadores e suas acções
Virtual
Digitized library…
Library
Public and Computerized on-line Library
Large
research
libraries
institutional libraries
libraries
Impact in the Library
Bases de Dados
e
Sistemas de Informação
...Bibliotecas
Digitais...
WEB
Complexidade das estruturas dos dados e organização da informação
1
Conceitos: Criação dos Recursos
Normalização
• Edição Digital / Géneros de recursos: Edição de uma
obra multimédia ou “site” na Internet, gravação de um
evento cultural, exposição virtual, etc.
Nível actual de
normalização técnica
e tecnológica
• Digitalização Retrospectiva: Transcrição para formatos
digitais de livros impressos, manuscritos, pinturas,
desenhos, fotografias, registos sonoros analógicos, filmes,
etc.
(normas de descrição
e representação,
uniformidade dos
sistemas de
informação, etc.)
Bibliotecas
Arquivos
Museus
• Realidade Virtual: Representação em modelos digitais
de artefactos ou entidades físicas multidimensionais
(representação tridimensional de uma escultura, de um
edifício ou de uma paisagem; recriação virtual de
ambientes históricos; etc.).
Sobre Artefactos digitais e digitalizados
Obra
1
realiza-se por
1..*
• Uma manifestação de
uma expressão de uma
obra pode corresponder a
uma edição digital e/ou a
uma edição impressa.
• Um artefacto digitalizado
é, por exemplo, a
transposição para um
novo suporte de um
artefacto impresso.
produz-se em
1..*
...para um mundo (virtualmente) agregado!!!
Manifestação
produção de
1
Edição digital
1..*
concretiza-se em
concretização de
Item
Edição impressa
Artefacto
• Um item de uma edição
digital é um artefacto
digital.
• Um artefacto digitalizado
poderá aparecer como
parte de um artefacto
digital!
Visão: Inter-operação num mundo em rede...
De um mundo (fisicamente)
desagregado...
Expressão
realização de
1..*
Complexidade dos
recursos e conceitos
Artefacto digital
Artefacto digitalizado
pertence a
contém
0..*
0..*
Artefacto impresso
digitalizado em
1..*
digitalização de
Conceitos: Registo e Publicação
• Registo: O registo pode ir desde uma descrição rica do recurso, até uma
simples identificação para efeitos de prova. As motivações, formas e
locais de registo dos recursos culturais dependem assim em larga escala
do género dos mesmos:
– Biblioteca Nacional: Centros nacionais ISSN e ISMN, Depósito Legal,
PORBASE – Base Nacional de Dados Bibliográficos
– Rede Nacional de Museus (IPM / MatrizNET), Inventários IPPAR,
Inventários AN/TT, Centro Nacional ISBN (APEL), etc.
• Propriedade Intelectual: É livre a criação e usufruto privado de um
artefacto com conteúdos de terceiros, mas a sua publicação requer
óbvios cuidados especiais com a propriedade intelectual e os direitos
conexos em geral...
• Géneros de Artefactos: Publicações em CD-ROM ou DVD são facilmente
associadas a géneros já vulgares (livros, revistas, catálogos, etc.), mas a
publicação na Internet pode levantar problemas à identificação do género
(até quando um jornal na Internet que se actualiza em tempo real se
mantém um jornal?)
• Modelos de Negócio: Acesso livre, patrocínios, acesso pago, ...
Perspectiva
Conceptual
Sobre
Metadados na
Biblioteca
Digital
Reutilização
Normas
Tecnologia
...
Modelos
- AACR
- FRBR
- CIDOC
- MoReq
…
Concretizações
- UNIMARC em ISO2709…
- MARC21 em ISO2709…
- MARCXML: MARC em XML
- DCMES em XML
- DCMES em RDF…
…
Perspectiva
Contextual
Estruturas de Metadados
- myUNIMARCrecords.iso
- yourMARC21records.iso
- myUNIMARCrecords.xml
- yourMARC21records.xml
- myDCMESrecords.xml
- myDCMESrecords.rdf
…
http://metadados.bn.pt
Perspectiva
dos Serviços
Perspectiva
Tecnológica
Esquemas
- MARC21
- UNIMARC
- DCMES
- ONIX
- METS
- EAD
- EAC
…
Serviços e Interfaces
- Um serviço OPAC em HTTP/HTML
- Um serviço OAI-PMH
- Um serviço Z39.50
…
Estruturas de
dados e ficheiros
- IS2709
- HTML
- XML
- RDF
…
Protocolos
(transporte)
HTTP
OAI-PMH
SOAP
Z39.50
WebServices
- ZING
- ...
…
-
2
Produção de Conteúdos
• Digitalização
– Facilitar o acesso a obras e colecções de
referência
– Completar colecções dispersas (internamente
ou mesmo em parceria com entidades
externas)
– Dar apoio aos projectos de edição digital
Conceitos e
Discussão Prévia...
• Edição Digital
– Produção de obras originais, em formato digital,
incorporando ou não conteúdos digitalizados,
mas com valor acrescentado e identidade
bibliográfica própria.
Objectivos da BND...
Criação de Recursos
• Produção de Conteúdos
– Digitalização (conteúdos digitalizados)
– Edição Digital (conteúdos digitais)
•
• Desenvolvimento de Serviços
– Depósito de Conteúdos
•
•
•
•
Aquisição
Registo
Armazenamento
Preservação
– Pesquisa e Divulgação de Conteúdos
– Acesso a Conteúdos
• Desenvolvimento de infra-estrutura
– Soluções informáticas abertas, normalizadas,
escaláveis, reutilizáveis, interoperáveis e
sustentáveis a longo prazo
Digitalização
– Scanners...
– Câmaras fotográficas digitais...
– E sobre microfilmagem?
•
Metadados Estruturais
– METS
•
Edição Digital
– Vulgarização das formas de criação de HTML a
partir de XML+XSL, criação de PDF, etc. (separação
de conteúdo e forma)....
Bibliotecas Digitais
Criação de Recursos
Criação de Recursos
3
Digitalização na BND
KIWI: Indexação de Palavras em Imagens
• Produção Interna
– Produção:
• Desde 1998, mais de 100.000 imagens, de quase 1.000 títulos...
• Qualidade variada, associada aos períodos de aprendizagem e evolução da tecnologia...
– Equipamentos
• Scanners de mesa (HP e Epson)
– Originais em folhas soltas ou encadernações sem problemas, até tamanho A3
– Algumas dezenas de imagens por hora, até 600 dpi, cor...
• Scanners planetários (Minolta PS7000)
– Originais em folhas soltas ou encadernados, até tamanho A3
– Cerca de uma centena de imagens por hora, até 600 dpi, em tons de cinzento
• Máquinas fotográficas
– PhaseOne H25
» Originais em folhas soltas ou encadernados
» Algumas dezenas de imagens por hora, qualquer tamanho, 25.000.000 pixéis, cor...
– PhaseOne PowerPhase
» Originais em folhas soltas ou encadernações sem problemas
» 2 ou 3 imagens por hora, de qualquer tamanho, 100.000.000 pixéis, cor...
• Produção Externa
– Produção de 500.000 imagens de cerca de 1.00 títulos (monografias,
periódicos, iconografia, etc.), com áreas de A4 a A0, resolução entre 300 e
600 dpi, e 24 bits de cor.
PAPAIA: Processamento de Páginas Digitalizadas
Reconhecimento Óptico de Caracteres
(OCR)
ContentE: Editor de Conteúdos Estruturados
Bibliotecas Digitais
Registo, Divulgação
e Descoberta
4
Registo, Divulgação e Descoberta
• Metadados Descritivos
–
–
–
–
–
OAI-PMH, Z39.50, SRU, OpenURL, DC-Libraries, ...
MARC21 / UNIMARC
Encoded Archival Description(EAD) <http://www.loc.gov/ead/>
CIDOC Conceptual Reference Model (CRM): <http://cidoc.ics.forth.gr/>
Metadata Object Description Schema (MODS): <http://www.loc.gov/standards/mods/>
Dublin Core Metadata Initiative: (http://dublincore.org/)
• Afirmação dos modelos de partilha de metadados
– OAI-PMH
• Emergência do conceito de “sindicação”
Annotation
Manager
– RSS, ATOM
• Serviço RSS do Nature Publishing Group: <http://www.nature.com/rss>
• Novos paradigmas de descoberta
Linking
Manager
– Cooperação entre novos actores
• Google + World Cat (OCLC)
• Google + TEL
• TUMBA + PORBASE (http://www.tumba.pt)
• A PORBASE na B-ON...
User Interface
CNAF
Common Name
Authority File
Update Manager
Linking and Exploring Authority Files
http://www.leaf-eu.org
Local
Authority
Data
MALVINE
Local
OPACs
Bibliotecas Digitais
Registo, Divulgação
e Descoberta
Acesso e Usufruto
Registo e Publicação
Acesso e usufruto
• Todas as obras existentes na BND recebem um
identificador único (URN), o qual permite gerir a
localização da obra independentemente do seu acesso
(http://purl.pt/1, http://purl.pt/2, etc.).
•
Declaração e Gestão de Direitos
–
Referências gerais:
–
• <http://xml.coverpages.org/drm.html>
• <http://www.dcita.gov.au/drm/>
Exemplos
•
• Todas as obras são registadas individualmente na
PORBASE – Base Nacional de Dados Bibliográficos,
recebendo um registo UNIMARC.
•
•
•
•
• Os espólios são igualmente registados na PORBASE,
mas apenas com um registo por colecção. Um registo
mais detalhado é efectuado num sistema próprio,
segundo as ISAD (com posterior exportação em EAD).
Expressão de direitos para serviços OAI-PMH (draft):
<http://www.openarchives.org/OAI/2.0/guidelines-rights.htm>
The Open Digital Rights Language Initiative (http://odrl.net/)
Windows Media digital rights management (DRM)
<http://www.microsoft.com/windows/windowsmedia/drm/default.aspx>
...
Identificadores
–
Digital Object Identifier (DOI)
•
•
<http://www.doi.org/>
<http://xml.coverpages.org/doi.html>
–
OpenURL
–
URI, URN, etc.
•
<http://library.caltech.edu/openurl/>
5
Bibliotecas Digitais
Acesso e Usufruto
Armazenamento
e Preservação
Pesquisa e Acesso
Preservação – Requisitos do problema
Descoberta de Recursos:
Pesquisa na PORBASE ou em bases de dados próprias
(solução PACWEB, ...)
Navegação em índices...
Acesso aos Recursos
Acesso em linha, com controlo de termos e
condições...
Entrega em suporte físico (DVD ou CD-ROM), com
opções de selecções parciais de obras, alteração de
resolução das imagens e do estilo da
“encadernação”, etc.
Colecções privadas na BND
O problema:
Garantir que os recursos digitais são
preservados a longo prazo, sendo
acessíveis num futuro qualquer, sem perda
de qualidade ou de conteúdo, quer aos
seus depositantes quer a quem venha a ter
o direito de lhes aceder !!!
Preservação – Análise do Problema
• Preservação Física
– Dados: Garantir que os dados são preservados e recuperáveis.
– Exemplos - a preservação deve manter a capacidade de se:
• Ler todos os bits registados num ficheiro
• Ler e identificar todos os ficheiros numa pasta
• Identificar todos os componentes de uma obra
• Preservação Lógica
– Informação: Garantir que os dados mantém as relações entre si, sem alterações nas
suas estruturas e valores da informação.
– Exemplos - a preservação deve manter a capacidade de se interpretar os esquemas
de codificação dos dados num ficheiro (MS-Word, MS-Excell, PDF, PostScript, TIFF,
GIF, JPEG, MP3, etc., assim como as relações lógicas entre os mesmos (estruturas
HTML, SMIL, etc.)
• Preservação Intelectual
– Percepção: Garantir que as opções e processos de exploração e percepção da
informação se mantém, em respeito pelas decisões dos seus criadores.
– Exemplos: mesmo que um dia se chegue à conclusão que será necessário transformar
um recursos noutro formato lógico, por desactualização do original
• Uma imagem deve ser mantida com as mesmas características originais (cor,
tamanho, etc.)
• Um texto deve manter a mesma disposição original
6
O problema dos recursos da Internet
Armazenamento de Longo Prazo
Web
Estática
Web
Dinâmica
Local Network
Front-end
Web
Superficial
Web
Profunda
Volume 1
Node 1
Node 2
Node 3
Volume N
Node
N
Node 1
Node 2
Node 3
Node
N
Depósito na BND - Objectivos
1. Objectivos gerais
–
Recolha, para efeitos de registo e preservação, de conteúdos
digitais relevantes para a cultura, ciência e identidade nacional.
2. Recursos da Internet
Armazenamento
e Preservação
–
–
Conteúdos publicados na Internet.
Exemplos:
•
•
•
3. Outros Recursos
–
–
Conteúdos digitais criados em contexto específicos...
Exemplos:
•
•
•
•
•
Armazenamento para Acesso
Jornais e revistas (publicações periódicas)
Sítios de referência...
etc.
Teses e dissertações
Documentos da administração (normalmente distribuídos como cópias
impressas, mas produzidos e manipulados digitalmente)
Resultados de projectos de digitalização retrospectiva
Cópias digitais de obras impressas (“masters”)
etc.
Depósito – Recursos da Internet - Estratégias
• Depósito Selectivo de Recursos Estáticos
– Recursos que podem ser equiparados a publicações impressas, que não mudam
nem contêm elementos dinâmicos ou interactivos, podem ser arquivados
automaticamente.
– Problemas com a selectividade...
– Estratégia a abordar na BND!!!
• Depósito Selectivo de Recursos Dinâmicos
– Semelhante ao Depósito Selectivo de Recursos Estáticos, mas requerendo um
modelo de recolha semi-automático (implicando intervenção e trabalho intelectual
da parte da biblioteca de depósito).
– Problemas com a selectividade e escala...
– Estratégia a abordar na BND!!!
• Depósito de Domínios da Internet
– Recolha automática de todo o domínio da Internet dos seus países respectivos
usando robots d e um mínimo de intervenção humana (envolvendo geralmente
ainda recursos relacionados existentes noutros domínios genéricos, como ".com",
".net", ".org", etc.).
– Problemas com a Web Dinâmica e registo!!!
– Estratégia não considerada actualmente na BND. Consórcio internacional de várias
bibliotecas nacionais, em início de actividade, sob observação...
• Depósito Voluntário
– Depósito explícito pelos criadores dos recursos (ou a quem a eles tiver acesso), em
formatos e esquemas tecnicamente aceitáveis.
– Problemas de escala!!!
– Estratégia a abordar na BND!!!
7
Depósito – Recursos da Internet - Tecnologia
• HTTrack (http://www.httrack.com/)
– Recolhe e guarda “sites” da Internet da forma mais fielmente
possível parecidas com as originais que se encontrem no servidor.
• LOCKSS (http://lockss.stanford.edu/)
– Projecto, com tecnologia própria, com o objectivo de criar uma
rede de bibliotecas que partilhem entre si o depósito de
publicações científicas acessíveis na Internet.
Reflexões e Referências...
• RSYNC (http://samba.anu.edu.au/rsync/)
– Solução para a transferência incremental rápida de ficheiros entre
máquinas remotas. Se a cópia já tiver sido efectuada pelo menos
uma vez, permite efectuar actualizações transmitindo apenas as
partes dos ficheiros que tenham sido modificadas.
• UNISON (http://www.cis.upenn.edu/~bcpierce/unison/)
– Tecnologia baseada no mesmo algoritmo do RSYNC para
comparação e transferência de ficheiros remotos. Adequada aos
sistemas operativos Windows, não suportados pelo RSYNC (o
qual é no entanto uma ferramenta mais estável e madura para os
outros casos, especialmente para sistemas Unix e Linux).
Cenários em estudo
DELOS/NSF Joint Working Groups
• www.DLib.org: Actualizações mensais desde Novembro de 2003, por RSYNC.
Em 11 de Maio de 2004, 13.363 ficheiros, 574 MBytes. Recurso estável!
• Colecção Gutenberg: Actualizações semanais desde Dezembro 2003, por
RSYNC. Em 2 de Abril de 2004, 92.389 ficheiros, 127 GBytes, cerca de 10.000
obras. Recurso estável!
• 1999 (http://www.iei.pi.cnr.it/DELOS/NSF/nsf.htm)
– Interoperability between Digital Library Systems
– Metadata
– Intellectual Property Rights (IPR) and Economic Issues
– Resource Indexing and Discovery in a Globally Distributed Digital Library
– Multilingual Information Access
• Partidos Políticos (http://pesquisa.bn.pt/PartidosPoliticos/index.html): Recolha
em 1 de Abril de 2004 de 18 recursos (24 localizações), 126.866 ficheiros, 4.5
GBytes. Recolhas variadas desde esta data...
• Autores Portugueses: Desenvolvimento de base de dados de registo de sítios
sobre autores Portugueses, para posterior recolha e associação à PORBASE.
• 2003 (http://www.dli2.nsf.gov/internationalprojects/eu_future.html)
– Spoken-Word Digital Audio Collections
– Digital Libraries Information Infrastructures
– ePhilology: Emerging Language Technologies and the Rediscovery of the
Past
– Digital Imaging for Significant Cultural and Historical Materials
– Digital Archiving and Preservation
– Actors in Digital Libraries
– Personalization and Recommender Systems in Digital Libraries
– Test Collections and Performance Evaluation Methodologies
• DiTeD: Serviço de depósito desenvolvido, em início de exploração.
• Blogs: Três recolhas parciais entre 22 Janeiro e 3 Fevereiro de 2004, 3.578
recursos, 133.174 ficheiros, 1,9 GBytes. Análise de resultados em curso...
• www.Disputatio.com: Título em experiência no projecto LOCKSS...
• Publicações Periódicas (http://pesquisa.bn.pt/periodicos/): Mais de 200
recursos registados. Análise para caracterização e recolha em curso.
• Sítios variados, Estáticos e Não Periódicos em estudo...
Autor
(Estudante ou Investigador)
Depósito
DEPTAL
Sistema Para a Gestão de
Repositórios Institucionais
Utilizador
Servidor Remoto
Pesquisa
Navegação
Acesso
Recolha de
Metadados
Iniciativas nos Estados Unidos
•
NDIIPP <http://www.digitalpreservation.gov/>
– (...) U.S. Congress has now asked the Library of Congress to lead
a collaborative project, called the National Digital Information
Infrastructure and Preservation Program. In December 2000,
Congress passed special legislation (Public Law 106-554) in
recognition of the importance of preserving digital content for future
generations, appropriating $100 million to the Library of Congress
to lead this effort. (...)
•
NSF Post Digital Library Futures Workshop - Relatório
– “Knowledge Lost in Information” <http://www.sis.pitt.edu/~dlwkshop/>
...Internet...
HTTP
Z30.50
OAI-PMH
Base de Dados
(metadados, autores,
indexação, etc)
Gestor de Colecções
Metadados
- HTML
- METS
- MARCXML
- ETDMS
- etc.
Documentos
(ETDs, etc.)
Gestor de Sistema
DEPTAL (Servidor Local)
8
IIPC- International Internet Preservation Consortium
<http://www.netpreserve.org>
(...)
In May (2004), the formation of the International Internet
Preservation Consortium (IIPC) was announced. The IIPC,
led by the Bibliotheque nationale de France, also counts as
members the Library of Congress; the national libraries of
Australia, Canada, Denmark, Finland, Iceland, Italy,
Norway and Sweden; the British Library; and the Internet
Archive.
(...)
The detailed work of the consortium will be carried out
through working groups to define Policy; Requirements;
Methods; and Standards and Tools for Internet archiving.
(...)
A propósito,
já repararam que temos estado a falar da
“Semantic Web”?
http://www.w3.org/2001/sw/
9
Download

6spp - DCTI