Bibliotecas e tecnologia ao longo dos tempos... Bibliotecas Digitais Uma Revisão da Tecnologia Library Writing José Borbinha Biblioteca Nacional < [email protected] > Sumário Conceitos e Discussão Prévia... Criação de Recursos Registo, Divulgação e Descoberta Acesso e Usufruto Armazenamento e Preservação Digital Reflexões e Referências... Printing XVI-XVIII Century Conceitos e Discussão Prévia... XIX Century time Data communication PC and CD-ROM Internet XX Century 70’s 80’s 90’s XXI Century Na perspectiva da Engenharia Informática ACM Computing Classification System (Janeiro de 1998) •... •H. Information Systems – ... – H.3 Information Storage and Retrieval • ... • H.3.7 Digital Libraries – – – – – Bibliotecas Digitais Industrial Revolution Computer Factors Greeks (Alexandria, Pergamum), Roman Empire, Arabs, ... Collection Dissemination Standards System issues User issues Digital Libraries: Future Research Directions for a European Research Programme DELOS Report on the results of a meeting in S.Cassiano, Italy,13-15 June, 2001 Complexidade dos utilizadores e suas acções Virtual Digitized library… Library Public and Computerized on-line Library Large research libraries institutional libraries libraries Impact in the Library Bases de Dados e Sistemas de Informação ...Bibliotecas Digitais... WEB Complexidade das estruturas dos dados e organização da informação 1 Conceitos: Criação dos Recursos Normalização • Edição Digital / Géneros de recursos: Edição de uma obra multimédia ou “site” na Internet, gravação de um evento cultural, exposição virtual, etc. Nível actual de normalização técnica e tecnológica • Digitalização Retrospectiva: Transcrição para formatos digitais de livros impressos, manuscritos, pinturas, desenhos, fotografias, registos sonoros analógicos, filmes, etc. (normas de descrição e representação, uniformidade dos sistemas de informação, etc.) Bibliotecas Arquivos Museus • Realidade Virtual: Representação em modelos digitais de artefactos ou entidades físicas multidimensionais (representação tridimensional de uma escultura, de um edifício ou de uma paisagem; recriação virtual de ambientes históricos; etc.). Sobre Artefactos digitais e digitalizados Obra 1 realiza-se por 1..* • Uma manifestação de uma expressão de uma obra pode corresponder a uma edição digital e/ou a uma edição impressa. • Um artefacto digitalizado é, por exemplo, a transposição para um novo suporte de um artefacto impresso. produz-se em 1..* ...para um mundo (virtualmente) agregado!!! Manifestação produção de 1 Edição digital 1..* concretiza-se em concretização de Item Edição impressa Artefacto • Um item de uma edição digital é um artefacto digital. • Um artefacto digitalizado poderá aparecer como parte de um artefacto digital! Visão: Inter-operação num mundo em rede... De um mundo (fisicamente) desagregado... Expressão realização de 1..* Complexidade dos recursos e conceitos Artefacto digital Artefacto digitalizado pertence a contém 0..* 0..* Artefacto impresso digitalizado em 1..* digitalização de Conceitos: Registo e Publicação • Registo: O registo pode ir desde uma descrição rica do recurso, até uma simples identificação para efeitos de prova. As motivações, formas e locais de registo dos recursos culturais dependem assim em larga escala do género dos mesmos: – Biblioteca Nacional: Centros nacionais ISSN e ISMN, Depósito Legal, PORBASE – Base Nacional de Dados Bibliográficos – Rede Nacional de Museus (IPM / MatrizNET), Inventários IPPAR, Inventários AN/TT, Centro Nacional ISBN (APEL), etc. • Propriedade Intelectual: É livre a criação e usufruto privado de um artefacto com conteúdos de terceiros, mas a sua publicação requer óbvios cuidados especiais com a propriedade intelectual e os direitos conexos em geral... • Géneros de Artefactos: Publicações em CD-ROM ou DVD são facilmente associadas a géneros já vulgares (livros, revistas, catálogos, etc.), mas a publicação na Internet pode levantar problemas à identificação do género (até quando um jornal na Internet que se actualiza em tempo real se mantém um jornal?) • Modelos de Negócio: Acesso livre, patrocínios, acesso pago, ... Perspectiva Conceptual Sobre Metadados na Biblioteca Digital Reutilização Normas Tecnologia ... Modelos - AACR - FRBR - CIDOC - MoReq … Concretizações - UNIMARC em ISO2709… - MARC21 em ISO2709… - MARCXML: MARC em XML - DCMES em XML - DCMES em RDF… … Perspectiva Contextual Estruturas de Metadados - myUNIMARCrecords.iso - yourMARC21records.iso - myUNIMARCrecords.xml - yourMARC21records.xml - myDCMESrecords.xml - myDCMESrecords.rdf … http://metadados.bn.pt Perspectiva dos Serviços Perspectiva Tecnológica Esquemas - MARC21 - UNIMARC - DCMES - ONIX - METS - EAD - EAC … Serviços e Interfaces - Um serviço OPAC em HTTP/HTML - Um serviço OAI-PMH - Um serviço Z39.50 … Estruturas de dados e ficheiros - IS2709 - HTML - XML - RDF … Protocolos (transporte) HTTP OAI-PMH SOAP Z39.50 WebServices - ZING - ... … - 2 Produção de Conteúdos • Digitalização – Facilitar o acesso a obras e colecções de referência – Completar colecções dispersas (internamente ou mesmo em parceria com entidades externas) – Dar apoio aos projectos de edição digital Conceitos e Discussão Prévia... • Edição Digital – Produção de obras originais, em formato digital, incorporando ou não conteúdos digitalizados, mas com valor acrescentado e identidade bibliográfica própria. Objectivos da BND... Criação de Recursos • Produção de Conteúdos – Digitalização (conteúdos digitalizados) – Edição Digital (conteúdos digitais) • • Desenvolvimento de Serviços – Depósito de Conteúdos • • • • Aquisição Registo Armazenamento Preservação – Pesquisa e Divulgação de Conteúdos – Acesso a Conteúdos • Desenvolvimento de infra-estrutura – Soluções informáticas abertas, normalizadas, escaláveis, reutilizáveis, interoperáveis e sustentáveis a longo prazo Digitalização – Scanners... – Câmaras fotográficas digitais... – E sobre microfilmagem? • Metadados Estruturais – METS • Edição Digital – Vulgarização das formas de criação de HTML a partir de XML+XSL, criação de PDF, etc. (separação de conteúdo e forma).... Bibliotecas Digitais Criação de Recursos Criação de Recursos 3 Digitalização na BND KIWI: Indexação de Palavras em Imagens • Produção Interna – Produção: • Desde 1998, mais de 100.000 imagens, de quase 1.000 títulos... • Qualidade variada, associada aos períodos de aprendizagem e evolução da tecnologia... – Equipamentos • Scanners de mesa (HP e Epson) – Originais em folhas soltas ou encadernações sem problemas, até tamanho A3 – Algumas dezenas de imagens por hora, até 600 dpi, cor... • Scanners planetários (Minolta PS7000) – Originais em folhas soltas ou encadernados, até tamanho A3 – Cerca de uma centena de imagens por hora, até 600 dpi, em tons de cinzento • Máquinas fotográficas – PhaseOne H25 » Originais em folhas soltas ou encadernados » Algumas dezenas de imagens por hora, qualquer tamanho, 25.000.000 pixéis, cor... – PhaseOne PowerPhase » Originais em folhas soltas ou encadernações sem problemas » 2 ou 3 imagens por hora, de qualquer tamanho, 100.000.000 pixéis, cor... • Produção Externa – Produção de 500.000 imagens de cerca de 1.00 títulos (monografias, periódicos, iconografia, etc.), com áreas de A4 a A0, resolução entre 300 e 600 dpi, e 24 bits de cor. PAPAIA: Processamento de Páginas Digitalizadas Reconhecimento Óptico de Caracteres (OCR) ContentE: Editor de Conteúdos Estruturados Bibliotecas Digitais Registo, Divulgação e Descoberta 4 Registo, Divulgação e Descoberta • Metadados Descritivos – – – – – OAI-PMH, Z39.50, SRU, OpenURL, DC-Libraries, ... MARC21 / UNIMARC Encoded Archival Description(EAD) <http://www.loc.gov/ead/> CIDOC Conceptual Reference Model (CRM): <http://cidoc.ics.forth.gr/> Metadata Object Description Schema (MODS): <http://www.loc.gov/standards/mods/> Dublin Core Metadata Initiative: (http://dublincore.org/) • Afirmação dos modelos de partilha de metadados – OAI-PMH • Emergência do conceito de “sindicação” Annotation Manager – RSS, ATOM • Serviço RSS do Nature Publishing Group: <http://www.nature.com/rss> • Novos paradigmas de descoberta Linking Manager – Cooperação entre novos actores • Google + World Cat (OCLC) • Google + TEL • TUMBA + PORBASE (http://www.tumba.pt) • A PORBASE na B-ON... User Interface CNAF Common Name Authority File Update Manager Linking and Exploring Authority Files http://www.leaf-eu.org Local Authority Data MALVINE Local OPACs Bibliotecas Digitais Registo, Divulgação e Descoberta Acesso e Usufruto Registo e Publicação Acesso e usufruto • Todas as obras existentes na BND recebem um identificador único (URN), o qual permite gerir a localização da obra independentemente do seu acesso (http://purl.pt/1, http://purl.pt/2, etc.). • Declaração e Gestão de Direitos – Referências gerais: – • <http://xml.coverpages.org/drm.html> • <http://www.dcita.gov.au/drm/> Exemplos • • Todas as obras são registadas individualmente na PORBASE – Base Nacional de Dados Bibliográficos, recebendo um registo UNIMARC. • • • • • Os espólios são igualmente registados na PORBASE, mas apenas com um registo por colecção. Um registo mais detalhado é efectuado num sistema próprio, segundo as ISAD (com posterior exportação em EAD). Expressão de direitos para serviços OAI-PMH (draft): <http://www.openarchives.org/OAI/2.0/guidelines-rights.htm> The Open Digital Rights Language Initiative (http://odrl.net/) Windows Media digital rights management (DRM) <http://www.microsoft.com/windows/windowsmedia/drm/default.aspx> ... Identificadores – Digital Object Identifier (DOI) • • <http://www.doi.org/> <http://xml.coverpages.org/doi.html> – OpenURL – URI, URN, etc. • <http://library.caltech.edu/openurl/> 5 Bibliotecas Digitais Acesso e Usufruto Armazenamento e Preservação Pesquisa e Acesso Preservação – Requisitos do problema Descoberta de Recursos: Pesquisa na PORBASE ou em bases de dados próprias (solução PACWEB, ...) Navegação em índices... Acesso aos Recursos Acesso em linha, com controlo de termos e condições... Entrega em suporte físico (DVD ou CD-ROM), com opções de selecções parciais de obras, alteração de resolução das imagens e do estilo da “encadernação”, etc. Colecções privadas na BND O problema: Garantir que os recursos digitais são preservados a longo prazo, sendo acessíveis num futuro qualquer, sem perda de qualidade ou de conteúdo, quer aos seus depositantes quer a quem venha a ter o direito de lhes aceder !!! Preservação – Análise do Problema • Preservação Física – Dados: Garantir que os dados são preservados e recuperáveis. – Exemplos - a preservação deve manter a capacidade de se: • Ler todos os bits registados num ficheiro • Ler e identificar todos os ficheiros numa pasta • Identificar todos os componentes de uma obra • Preservação Lógica – Informação: Garantir que os dados mantém as relações entre si, sem alterações nas suas estruturas e valores da informação. – Exemplos - a preservação deve manter a capacidade de se interpretar os esquemas de codificação dos dados num ficheiro (MS-Word, MS-Excell, PDF, PostScript, TIFF, GIF, JPEG, MP3, etc., assim como as relações lógicas entre os mesmos (estruturas HTML, SMIL, etc.) • Preservação Intelectual – Percepção: Garantir que as opções e processos de exploração e percepção da informação se mantém, em respeito pelas decisões dos seus criadores. – Exemplos: mesmo que um dia se chegue à conclusão que será necessário transformar um recursos noutro formato lógico, por desactualização do original • Uma imagem deve ser mantida com as mesmas características originais (cor, tamanho, etc.) • Um texto deve manter a mesma disposição original 6 O problema dos recursos da Internet Armazenamento de Longo Prazo Web Estática Web Dinâmica Local Network Front-end Web Superficial Web Profunda Volume 1 Node 1 Node 2 Node 3 Volume N Node N Node 1 Node 2 Node 3 Node N Depósito na BND - Objectivos 1. Objectivos gerais – Recolha, para efeitos de registo e preservação, de conteúdos digitais relevantes para a cultura, ciência e identidade nacional. 2. Recursos da Internet Armazenamento e Preservação – – Conteúdos publicados na Internet. Exemplos: • • • 3. Outros Recursos – – Conteúdos digitais criados em contexto específicos... Exemplos: • • • • • Armazenamento para Acesso Jornais e revistas (publicações periódicas) Sítios de referência... etc. Teses e dissertações Documentos da administração (normalmente distribuídos como cópias impressas, mas produzidos e manipulados digitalmente) Resultados de projectos de digitalização retrospectiva Cópias digitais de obras impressas (“masters”) etc. Depósito – Recursos da Internet - Estratégias • Depósito Selectivo de Recursos Estáticos – Recursos que podem ser equiparados a publicações impressas, que não mudam nem contêm elementos dinâmicos ou interactivos, podem ser arquivados automaticamente. – Problemas com a selectividade... – Estratégia a abordar na BND!!! • Depósito Selectivo de Recursos Dinâmicos – Semelhante ao Depósito Selectivo de Recursos Estáticos, mas requerendo um modelo de recolha semi-automático (implicando intervenção e trabalho intelectual da parte da biblioteca de depósito). – Problemas com a selectividade e escala... – Estratégia a abordar na BND!!! • Depósito de Domínios da Internet – Recolha automática de todo o domínio da Internet dos seus países respectivos usando robots d e um mínimo de intervenção humana (envolvendo geralmente ainda recursos relacionados existentes noutros domínios genéricos, como ".com", ".net", ".org", etc.). – Problemas com a Web Dinâmica e registo!!! – Estratégia não considerada actualmente na BND. Consórcio internacional de várias bibliotecas nacionais, em início de actividade, sob observação... • Depósito Voluntário – Depósito explícito pelos criadores dos recursos (ou a quem a eles tiver acesso), em formatos e esquemas tecnicamente aceitáveis. – Problemas de escala!!! – Estratégia a abordar na BND!!! 7 Depósito – Recursos da Internet - Tecnologia • HTTrack (http://www.httrack.com/) – Recolhe e guarda “sites” da Internet da forma mais fielmente possível parecidas com as originais que se encontrem no servidor. • LOCKSS (http://lockss.stanford.edu/) – Projecto, com tecnologia própria, com o objectivo de criar uma rede de bibliotecas que partilhem entre si o depósito de publicações científicas acessíveis na Internet. Reflexões e Referências... • RSYNC (http://samba.anu.edu.au/rsync/) – Solução para a transferência incremental rápida de ficheiros entre máquinas remotas. Se a cópia já tiver sido efectuada pelo menos uma vez, permite efectuar actualizações transmitindo apenas as partes dos ficheiros que tenham sido modificadas. • UNISON (http://www.cis.upenn.edu/~bcpierce/unison/) – Tecnologia baseada no mesmo algoritmo do RSYNC para comparação e transferência de ficheiros remotos. Adequada aos sistemas operativos Windows, não suportados pelo RSYNC (o qual é no entanto uma ferramenta mais estável e madura para os outros casos, especialmente para sistemas Unix e Linux). Cenários em estudo DELOS/NSF Joint Working Groups • www.DLib.org: Actualizações mensais desde Novembro de 2003, por RSYNC. Em 11 de Maio de 2004, 13.363 ficheiros, 574 MBytes. Recurso estável! • Colecção Gutenberg: Actualizações semanais desde Dezembro 2003, por RSYNC. Em 2 de Abril de 2004, 92.389 ficheiros, 127 GBytes, cerca de 10.000 obras. Recurso estável! • 1999 (http://www.iei.pi.cnr.it/DELOS/NSF/nsf.htm) – Interoperability between Digital Library Systems – Metadata – Intellectual Property Rights (IPR) and Economic Issues – Resource Indexing and Discovery in a Globally Distributed Digital Library – Multilingual Information Access • Partidos Políticos (http://pesquisa.bn.pt/PartidosPoliticos/index.html): Recolha em 1 de Abril de 2004 de 18 recursos (24 localizações), 126.866 ficheiros, 4.5 GBytes. Recolhas variadas desde esta data... • Autores Portugueses: Desenvolvimento de base de dados de registo de sítios sobre autores Portugueses, para posterior recolha e associação à PORBASE. • 2003 (http://www.dli2.nsf.gov/internationalprojects/eu_future.html) – Spoken-Word Digital Audio Collections – Digital Libraries Information Infrastructures – ePhilology: Emerging Language Technologies and the Rediscovery of the Past – Digital Imaging for Significant Cultural and Historical Materials – Digital Archiving and Preservation – Actors in Digital Libraries – Personalization and Recommender Systems in Digital Libraries – Test Collections and Performance Evaluation Methodologies • DiTeD: Serviço de depósito desenvolvido, em início de exploração. • Blogs: Três recolhas parciais entre 22 Janeiro e 3 Fevereiro de 2004, 3.578 recursos, 133.174 ficheiros, 1,9 GBytes. Análise de resultados em curso... • www.Disputatio.com: Título em experiência no projecto LOCKSS... • Publicações Periódicas (http://pesquisa.bn.pt/periodicos/): Mais de 200 recursos registados. Análise para caracterização e recolha em curso. • Sítios variados, Estáticos e Não Periódicos em estudo... Autor (Estudante ou Investigador) Depósito DEPTAL Sistema Para a Gestão de Repositórios Institucionais Utilizador Servidor Remoto Pesquisa Navegação Acesso Recolha de Metadados Iniciativas nos Estados Unidos • NDIIPP <http://www.digitalpreservation.gov/> – (...) U.S. Congress has now asked the Library of Congress to lead a collaborative project, called the National Digital Information Infrastructure and Preservation Program. In December 2000, Congress passed special legislation (Public Law 106-554) in recognition of the importance of preserving digital content for future generations, appropriating $100 million to the Library of Congress to lead this effort. (...) • NSF Post Digital Library Futures Workshop - Relatório – “Knowledge Lost in Information” <http://www.sis.pitt.edu/~dlwkshop/> ...Internet... HTTP Z30.50 OAI-PMH Base de Dados (metadados, autores, indexação, etc) Gestor de Colecções Metadados - HTML - METS - MARCXML - ETDMS - etc. Documentos (ETDs, etc.) Gestor de Sistema DEPTAL (Servidor Local) 8 IIPC- International Internet Preservation Consortium <http://www.netpreserve.org> (...) In May (2004), the formation of the International Internet Preservation Consortium (IIPC) was announced. The IIPC, led by the Bibliotheque nationale de France, also counts as members the Library of Congress; the national libraries of Australia, Canada, Denmark, Finland, Iceland, Italy, Norway and Sweden; the British Library; and the Internet Archive. (...) The detailed work of the consortium will be carried out through working groups to define Policy; Requirements; Methods; and Standards and Tools for Internet archiving. (...) A propósito, já repararam que temos estado a falar da “Semantic Web”? http://www.w3.org/2001/sw/ 9